Letra de ligason :

Formatatge en TEI de las donadas del Congrès

Dins l'encastre de la fuèlha de rota 2015-2019 pel desvolopament numeric de l'occitan, Lo Congrès es a convertir sas donadas al format TEI (Text Encoding Initiative), un soslengatge del XML (Extensible Markup Language) que permet, mercé a de balisas, d'indicar la natura de cada element d'un tèxte (mot, frasa, morfèma...).

Per menar la fuèlha de rota, èra indispensable de dispausar de donadas estandardizadas que se posquèsson escambiar entre los qu'i trabalhan. Fasián tanben mestièr de ressorsas lingüisticas dins un format que las maquinas posquèsson legir. Aquela estandardizacion, d'efièch, permet de desvolopar de novèlas ressorsas (basas lexicalas, còrpus) necessàrias a la creacion d'otisses coma de traductors automatics, un corrector ortografic, un clavièr predictiu...

Lo format TEI es pensat per far los tèxtes legibles per las maquinas, en particular dins los domenis de la lingüistica e de las sciéncias umanas e socialas. Un tèxte analisable per las maquinas pòt èsser aisidament modificat, trocejat e/o transformat per èsser utilizat per un otís informatic.

Se volètz comprene melhor çò qu'es lo format TEI, saber perque es estat causit e descobrir las possibilitats de desvolopament qu'ofrís, trobaretz dins la vidèo çai-jos las explicacions d'Aura Séguier, webmèstra e desvolopaira TAL pel Congrès :

 

Per adaptar lo format TEI a sas donadas, lo Congrès a fach mantuna causida de balisatge especifica dels diccionaris occitans tractats. Las trobaretz dins l'explicatiu seguent :

Mercé al passatge al format TEI de las donadas del Congrès, es ara fòrça mai rapide de crear de novèlas aplicacions. Permet tanben de crear d'aisinas que serián pas estadas realizablas amb de donadas en format brut.

Per exemple, Lo Congrès ven de metre en linha dos diccionaris especials realizats a partir de tres diccionaris formatats en TEI :

Per ne saber mai sul format TEI en general :