Lettre de liaison :

Sélectionnez votre langue

Formatage TEI

Le Congrès a d'abord utilisé la norme TEI dans le cadre de son projet Lexics, qui a pour but de formater tous ses lexiques (flexionnels, bilingues, toponymiques, spécialisés...) en XML pour les rendre interopérables et lisibles par les machines. S'y est ensuite ajouté le formatage de corpus textuels pour le projet Còrpus qui veut constituer une base de textes pour construire des outils de TAL. Pour mener ces deux chantiers, il a défini des standards de balisage en TEI P5 adaptés au formatage de lexiques et de corpus occitans.

"des standards adaptés au formatage
de lexiques et de corpus occitans"

La norme TEI, qu'est-ce que c'est ?

La norme TEI (Text encoding initiative) est un sous-langage du XML (Extensible Markup Language) qui permet, grâce à des balises, d'indiquer la nature de chaque élément d'un texte (mot, phrase, morphème...). Il est pensé pour rendre les textes lisibles par les machines, en particulier dans les domaines de la linguistique et des sciences humaines et sociales.

Si vous voulez mieux comprendre ce qu'est le format TEI, savoir pourquoi le Congrès l'a choisi et découvrir les possibilités de développement qu'il offre, vous trouverez dans la vidéo ci-dessous les explications d'Aure Séguier, responsable du pôle TAL du Congrès :

Choix de DTD

Les possibilités qu'offre la norme TEI sont très larges et variées. Les préconisations laissent la place à l'interprétation pour pouvoir répondre à des besoins aussi différents que l'étiquetage de dictionnaires, la description de manuscrits, la transcription de l'oral ou l'annotation de corpus. Le Congrès a donc dû choisir quelles balises étaient adaptées au matériel qu'il voulait annoter (dictionnaires bilingues pensés pour l'édition papier, lexiques flexionnels pour la construction d'outils TAL, corpus textuels et audio...) et les spécificités de la langue occitane (gestion de la variété...).

En parallèle, il a fallu définir des standards d'étiquetage de plusieurs données, comme les informations d'usage, les zones géographiques ou les catégories grammaticales. Pour celles-ci, il fallait que le standard soit compatible aussi bien pour le français que pour l'occitan, et facilement convertible dans les différents jeux d'étiquettes utilisés dans le TAL (Eagles, Grace...).

Les standards définis sont décrits dans les documents suivants :

Standard TEI pour le formatage de lexiques occitans

Préconisations du Congrès permanent de la langue occitane

Voir le document

Standard TEI pour le formatage de corpus occitans

Préconisations du Congrès permanent de la langue occitane

Voir le document

Jeu d'étiquettes de catégories grammaticales

Étiquettes de PoS utilisées par le Congrès

Voir le document

En savoir plus

Pour en savoir plus sur la norme TEI en général :

En savoir plus

Formatage TEI

Le Congrès utilise la norme TEI dans le cadre de son projet Lexics, qui a pour but de formater tous ses lexiques

Voir la page

Codes IANA de variétés

Codes standardisés afin d'identifier les langues, leurs variétés, leurs graphies et leurs alphabets.

Voir la page

Etiquettes de POS

Jeu d'étiquettes grammaticales adapté à la langue occitane.

Voir la page