Letra de ligason :

Sélectionnez votre langue

La nòrma TEI

Lo-Congrès - Utilizacion de la nòrma TEI
Lo-Congrès - Utilizacion de la nòrma TEI

Lo Congrès utilizèt primièr la nòrma TEI dins l'encastre de son projècte Lexics, qu'a per tòca de formatar totes sos lexics (flexionals, bilingües, toponimics, especializats...) en XML per los far interoperables e legibles per las maquinas. S'i ajustèt puèi lo formatatge de còrpus textuals pel projècte Còrpus que vòl constituïr una basa de tèxtes per bastir d'otisses de TAL. Per menar aqueles dos trabalhs, definiguèt d'estandards de balisatge en TEI P5 adaptats al formatatge de lexics e de còrpus occitans.

"d'estandards adaptats al formatatge
de lexics e de còrpus occitans"

La nòrma TEI, qu'es aquò ?

La nòrma TEI (Text encoding initiative) es un soslengatge del XML (Extensible Markup Language) que permet, mercés a de balisas, d'indicar la natura de cada element d'un tèxte (mot, frasa, morfèma...). Es pensat per far los tèxtes legibles per las maquinas, en particular dins los domenis de la lingüistica e de las sciéncias umanas e socialas.

Se volètz comprene melhor çò qu'es lo format TEI, saber perqué Lo Congrès lo causiguèt e descobrir las possibilitats de desvolopament qu'ofrís, trobaretz dins la vidèo çai-jos las explicacions d'Aura Séguier, responsabla del pòle TAL del Congrès :

Causidas de DTD

Las possibilitats qu'ofrís la nòrma TEI son fòrça largas e variadas. Las preconizacions daissan la plaça a l'interpretacion per poder respondre a de besonhs tan diferents coma l'etiquetatge de diccionaris, la descripcion de manuscrits, la transcripcion de l'oral o l'annotacion de còrpus. Lo Congrès deguèt doncas causir qualas balisas èran adaptadas al material que voliá annotar (diccionaris bilingües pensats per l'edicion papièr, lexics flexionals per la bastison d'otisses TAL, còrpus textuals e audio...) e a las especificitats de la lenga occitana (gestion de la varietat...).

A costat d'aquò, calguèt definir d'estandards d'etiquetatge de mantuna donadas, coma las informacions d'usatge, las zònas geograficas o las categorias gramaticalas. Per aquestas, caliá que l'estandard siá compatible tant pel francés coma per l'occitan e aisidament convertible dins los diferents jòcs d'etiquetas utilizats dins lo TAL (Eagles, Grace...).

Los estandards definits son descriuts dins los documents seguents :

Estandard TEI pel formatatge de lexics occitans

Preconizacions del Congrès permanent de la lenga occitana

Véder lo document

Estandard TEI pel formatatge de còrpus occitans

Preconizacions del Congrès permanent de la lenga occitana

Véder lo document

Jòc d'etiquetas de categorias gramaticalas

Etiquetas de PoS utilizadas pel Congrès

Véder lo document

Ne saber mai

Per ne saber mai sus la nòrma TEI en general :

Tà'n saber mei

Formatatge TEI

Lo Congrès qu'utiliza la nòrmaTEI dens l'encastre deu son projècte Lexics, qui a l'objectiu de formatar tots los sons lexics

Véder la pagina

Códis IANA de varietats

Códis estandardizats entà identificar las lengas, las lors varietats, las lors grafia e los lors alfabets.

Véder la pagina

Etiquetas de POS

Jòc d'étiquetas gramaticaus adaptat a la lenga occitana.

Véder la pagina