Dans le domaine du TAL, il existe plusieurs standards internationaux pour étiqueter les catégories grammaticales des mots (Eagles, Grace...). Cependant, ils ne sont pas forcément utilisés par tous les outils. Certains, comme le traducteur automatique Apertium, ont leur propre jeu d'étiquettes. De plus, la plupart des standards ne prennent pas en compte les spécificités propre à l'occitan, comme les énonciatifs gascons.
Le Congrès a donc développé un jeu d'étiquettes de catégories grammaticales adapté à la langue occitane, interopérable avec les standards internationaux et les outils TAL libres de droits les plus utilisés.
Ce jeu d'étiquette fonctionne avec 3 niveaux :
- la catégorie générale, correspondant au PoS (Part of Speech) que partagent en général un lemme et ses formes fléchies : « Adj » pour adjectif, « Verbe » pour verbe...
- la catégorie détaillée, correspondant au PoS + les informations morphosyntaxiques (genre, nombre, informations de conjugaison...) : « AdjMS » pour adjectif masculin singulier, « VerbeIndPres1s » pour verbe à la 1e personne du singulier du présent de l'indicatif...
- dans d'autres lexiques, notamment ceux à destination du machine learning, on peut ajouter une étiquette plus générale de famille grammaticale qui rassemble les catégories générales ayant un fonctionnement très similaire : « Det » rassemble les déterminants démonstratifs, exclamatifs, indéfinis, interrogatifs, possessifs, relatifs et définis.
L'utilisation de ce jeu d'étiquette pour toutes les ressources du Congrès permet de les rendre interopérables. Un mot dans un corpus de texte a la même étiquette que dans un dictionnaire. Par exemple, si on a dans un texte la phrase « son paire es grand », l'utilisateur peut cliquer sur « son » et avoir la définition du déterminant possessif « son » sans risquer d'atterrir sur la définition du nom commun « un son » (un bruit).
Le jeu d'étiquette a été construit avec un niveau de granularité très fin. Il permet de distinguer, par exemple, un préadverbe comme « si » (qui ne peut être utilisé que devant un adjectif ou un adverbe), d'un adverbe comme « énormément » (qui peut être utilisé seul). Ou encore le pronom personnel « nos » (« nous ») employé comme pronom tonique (« penser à nous ») ou comme COD antéposé (« il nous regarde »).
Description du jeu d'étiquettes
Presentation du jeu d'étiquettes et description des catégories.
Liste des catégories
Tableur des catégories détaillées et générales avec leurs dénomination.