Lexicographie
Grammaire
Toponymie
Normes
Bibliographie
Technologies de la langue
Contribution
Vous aidez à développer les outils de demain en aidant à construire des ressources nouvelles
Applications et applications mobiles
Correcteur orthographique
Correcteur pour Libre Office, Firefox, Chrome, Thunderbird
Utilitaires
Portails thématiques
Portails partenaires
Accessibilité
Dans le domaine du TAL, il existe plusieurs standards internationaux pour étiqueter les catégories grammaticales des mots (Eagles, Grace...). Cependant, ils ne sont pas forcément utilisés par tous les outils. Certains, comme le traducteur automatique Apertium, ont leur propre jeu d'étiquettes. De plus, la plupart des standards ne prennent pas en compte les spécificités propre à l'occitan, comme les énonciatifs gascons.
Le Congrès a donc développé un jeu d'étiquettes de catégories grammaticales adapté à la langue occitane, interopérable avec les standards internationaux et les outils TAL libres de droits les plus utilisés.
Ce jeu d'étiquette fonctionne avec 3 niveaux :
- la catégorie générale, correspondant au PoS (Part of Speech) que partagent en général un lemme et ses formes fléchies : « Adj » pour adjectif, « Verbe » pour verbe...
- la catégorie détaillée, correspondant au PoS + les informations morphosyntaxiques (genre, nombre, informations de conjugaison...) : « AdjMS » pour adjectif masculin singulier, « VerbeIndPres1s » pour verbe à la 1e personne du singulier du présent de l'indicatif...
- dans d'autres lexiques, notamment ceux à destination du machine learning, on peut ajouter une étiquette plus générale de famille grammaticale qui rassemble les catégories générales ayant un fonctionnement très similaire : « Det » rassemble les déterminants démonstratifs, exclamatifs, indéfinis, interrogatifs, possessifs, relatifs et définis.
L'utilisation de ce jeu d'étiquette pour toutes les ressources du Congrès permet de les rendre interopérables. Un mot dans un corpus de texte a la même étiquette que dans un dictionnaire. Par exemple, si on a dans un texte la phrase « son paire es grand », l'utilisateur peut cliquer sur « son » et avoir la définition du déterminant possessif « son » sans risquer d'atterrir sur la définition du nom commun « un son » (un bruit).
Le jeu d'étiquette a été construit avec un niveau de granularité très fin. Il permet de distinguer, par exemple, un préadverbe comme « si » (qui ne peut être utilisé que devant un adjectif ou un adverbe), d'un adverbe comme « énormément » (qui peut être utilisé seul). Ou encore le pronom personnel « nos » (« nous ») employé comme pronom tonique (« penser à nous ») ou comme COD antéposé (« il nous regarde »).
Description du jeu d'étiquettes
Presentation du jeu d'étiquettes et description des catégories.
Liste des catégories
Tableur des catégories détaillées et générales avec leurs dénomination.

Sous la double tutelle du C.N.R.S. (sections 34 et 26) et de l’Université Côte d’Azur, le laboratoire UMR 7320 Bases, Corpus, Langage (BCL) compte une soixantaine de membres, chercheurs, enseignants-chercheurs, associés, ingénieurs, techniciens, doctorants et administratifs. L’objet d’étude de BCL est le langage, de son architecture cognitive à ses réalisations discursives ou textuelles les plus concrètes. Par ce spectre large qui mène du cerveau à l’esprit, de la langue à la parole et du discours à l’écrit, à travers l’analyse et la modélisation des systèmes phonologique, morphologique et syntaxique, des structures discursive et textuelle, mais aussi des fonctions psycho-cognitives, BCL a une approche intégrative et interdisciplinaire du langage qui lui permet d’associer dans des dynamiques croisées linguistes de la langue, linguistes du discours et psychologues cognitivistes.
Il a engagé plusieurs protocoles expérimentaux, méthodes de traitement et outil de recherche dont le THESAURUS OCCITAN (THESOC). Sa création remonte au colloque de Wégimont organisé par l'AIEO en avril 1989 et consacré aux « Outils de la recherche occitane ». Parmi les conclusions de ce colloque figure l'idée que l'une des fonctions essentielles de l'AIEO consiste à susciter et à soutenir quelques chantiers spécifiques dans le domaine des études occitanes, susceptibles de dynamiser et de fédérer les énergies de recherche et d'aboutir à l'élaboration d'outils de pédagogie et de recherche à mettre à la disposition de la communauté. Le THESOC a alors vu le jour sous la direction de Jean-Philippe DALBERA et il est basé au laboratoire « Bases, Corpus, Langage » (UMR 7320 CNRS - Université Côte d'Azur). Il s’agit d’un outil de travail à la disposition des chercheurs, des pédagogues et du public. Il comporte deux volets :
1. Des ressources : mots, textes, sons, vidéos, images. C’est un trésor rassemblant une multitude de données linguistiques occitanes, qui procèdent toutes de sources orales, à savoir des données linguistiques et périlinguistiques issues d’enquêtes de terrain (cartes et carnets d’enquête des Atlas linguistiques, monographies, enregistrements sonores et vidéos, documents iconographiques), des données linguistiques procédant d'analyses déjà réalisées (dans les domaines de la lemmatisation, dans les domaines morphologique, étymologique, etc.), des données bibliographiques
2. Des outils d’analyse : le THESOC est actuellement en pleine refonte. Ses fonctionnalités seront implémentées progressivement sur le site.
Le C.N.R.S. et le Congrès permanent de la langue occitane ont engagé un partenariat scientifique et technique pluriannuel visant à la mise en interaction du THESOC et de l’infrastructure numérique du Congrès. Un premier bouquet de développements est actuellement en cours :
1. Actualisation de la lemmatisation du THESOC Améliorer la lemmatisation du THESOC pour un meilleur interfaçage avec le dicodòc :
• la notation des accents sur les lemmes créés ;
• les noms propres ;
• le statut des mots composés vs syntagmes (i.e. avec tirets ou sans tirets ?). Déterminer s’il s’agit d’une forme figée possédant une catégorie grammaticale et qui aurait vocation à figurer comme une entrée d'un dictionnaire, ou bien s'il s’agit plutôt d'une expression.
• les corrections nécessaires du point de vue du Congrès, dans la perspective lexicographique occitane, aux lemmes présents dans le dictionnaire d'Alibert (notamment dans l'optique de pouvoir ensuite les utiliser comme maillon intermédiaire pour s'interfacer avec les dictionnaires du Congrès).
• propositions / suggestions de lemmes pour un certain nombre de formes attestées dans le THESOC et présentes dans le dictionnaire de Simin Palay mais absentes d'Alibert (actuellement, ces lemmes-là ont été saisis dans le THESOC avec la forme graphique proposée par Simin Palay, une adaptation en graphie classique est nécessaire).
2. Liaison THESOC->dicodòc :
• renvoi vers le dicodòc si recherche infructueuse
• renvoi vers le dicodòc pour en savoir plus sur un lemme (conjugaisons, rimes, synonymes, exemples en contexte, etc.)
• Afficher le lemme lors d’une recherche par forme fléchie, pour afficher un bon résultat (possibilité de passer par la future API Mots)
• Proposition de synonymes (en cas de recherche infructueuse sur le lemme recherché, mais présence de résultats pour un lemme synonyme dans le THESOC), grâce à l’utilisation de l’API Sinonims développée par le Congrès.
3. Liaison dicodòc->THESOC
• Intégrer dans les résultats de recherche une liste des traductions avec quelques informations et lien vers le THESOC.
• Intégrer une cartographie des occurrences (ou des occurrences des traductions) dans les résultats de recherche.
L’objectif est, par l'harmonisation et l’interfaçage des données, de renforcer la complémentarité de deux infrastructures numériques occitanes de référence (l’une étant normative et l’autre descriptive), avec pour le Congrès la perspective d’intégrer le THESOC dans la future plateforme lexicale, textuelle et toponymique. Les usagers du Congrès auront ainsi un accès optimisé (cartographie restituant les occurrences) à ce véritable trésor occitan qu’est le THESOC.
Tutoriel site web dicodòc
Tutoriel applicacion mobile dicodòc
Tutoriel applicacion mobile vèrbòc
Tutoriel correcteur orthografique
Grâce au soutien de l’eurorégion Nouvelle-Aquitaine/Euskadi/Navarre, le Congrès et la fondation basque Elhuyar ont réalisé un programme de développement de correcteur orthographique universel en occitan languedocien et gascon.
Il s’agit d’un outil « normatif » du Congrès proposé gratuitement au grand public, pour l'éditeur de texte LibreOffice, les navigateurs internet Chrome et Firefox, ainsi que le logiciel de messagerie Thunderbird. L’équipe de lexicographie du Congrès a mené un travail de normalisation graphique et orthographique à partir des travaux du Congrès (Basic, vèrb’Òc, tèrm’Òc, top’Òc ou encore Lofloc) afin de proposer un outil de référence pour les apprenants (scolaires, étudiants, adultes) et usagers de la langue.
Télécharger :
Chrome
Tutoriel clavier prédictif
Le Congrès vient de publier deux claviers prédictifs en occitan (versions gasconne et languedocienne) pour les téléphones portables et tablettes Android (clavier AnySoftKeyboard, téléchargeables sur la boutique Google Play Store).
Ce clavier ergonomique est particulièrement soigné en termes de cohérence linguistique et de la richesse lexicale : il contient 931 000 formes fléchies pour le gascon et 708 000 pour le languedocien, avec des noms propres et des noms de marque. Anysoftkeyboard est un clavier gratuit sous licence libre.
Le clavier a été réalisé dans le cadre de l'appel à projets 2017 « Langues et numérique » de la Délégation générale à la langue française et aux langues de France - Ministère de la Culture et de la Communication, en partenariat avec CLLE-ERSS (CNRS/Université Toulouse Jean-Jaurès), Habiter le monde (Université d’Amiens) et LiLPa (Université de Strasbourg). Lo Congrès a réalisé, avec la fondation Elhuyar, les claviers prédictifs pour l'occitan gascon et l'occitan languedocien. En parallèle, des versions pour l'alsacien et le picard ont été créées.
Pour installer les claviers sur votre mobile :
1) Installer l'application AnySoftKeyboard depuis Google Play Store.
2) Installer l'aplication Occitan gascon for AnySoftKeyboard ou Occitan lengadocian for AnySoftKeyboard (ou les deux) disponibles sur Google Play Store.
3) Installer les autres langues dont vous avez besoin (par exemple French for AnySoftKeyboard).
4) Activer AnySoftKeyboard :
- Aller dans les paramètres, puis « Langue et saisie », puis « Clavier actuel », puis « Sélectionner des claviers ».
- Activer AnySoftKeyboard (même si ce n'est pas la bonne langue qui est inscrite).
- Retourner dans les paramètres, puis « Langue et saisie », puis « Clavier actuel ».
- Choisir AnySoftKeyboard (même si ce n'est pas la bonne langue qui est inscrite).
5) Choisir les langues de saisie :
- Aller dans les paramètres d'AnySoftKeyboard (cliquer sur l'icône de l'application)
- Aller dans la gestion des langues (incône de la planète) puis « Activer les claviers et langues »
- Si l'occitan est bien activé, il y aura un symbole de validation (✔) en haut de l'image du clavier. S'il n'est pas activé, il vous faut cliquer dessus.
- Activez toutes les autres langues dont vous avez besoin et désactivez les autres.
Le choix de la langue se fait quand vous tapez le texte. Quand vous utilisez le clavier, vous pouvez changer la langue de saisie en cliquant sur le nom de la langue qui est affiché en haut à droite.
Tutoriel site web dicodòc
Tutoriel application mobile dicodòc
Tutoriel application mobile vèrbòc
Tutoriel correcteur orthographique
Tutoriel clavier prédictif

Suite à la convention signée en 2019 entre le Congrès permanent de la langue occitane et l’IGN (Institut Géographique National) le Congrès est désormais le référent pour l’occitan sur l’harmonisation des formes graphiques sur les 32 départements occitanophones. Après le Pays Basque, et la Catalogne, la Région Occitanie bénéficiera ainsi d’une mise en valeur, tant au niveau national que local à travers ce projet d’envergure. Pour des contraintes de temps et d’espace, les travaux engagés n’auront pas le niveau de précision de ses prédécesseurs basque et catalan.
Néanmoins, afin que l’information soit fiable, certaines étapes d’une étude micro-toponymique sont incontournables :
- Le toponymiste, dédié à cette mission, doit réaliser une enquête de terrain de deux types : collectage oral auprès de locuteurs de langue maternelle occitane et un enquête écrite qui consiste à relever un minimum de formes anciennes dans les cartes (IGN, cadastre, canton, etc.) et dans les sources anciennes (livres terriers, bulletins paroissiaux, etc.). Les archives locales et départementales doivent ainsi être consultées.
- Compte-tenu de l’ampleur géographique du territoire concerné, un toponymiste seul ne sera pas en mesure de mener à bien cette mission. Ainsi, il aura à charge de mobiliser les acteurs de terrain - élus, techniciens et associatifs dans les communes - afin d’assurer une partie de ces collectages, d’organiser ce travail de collectage et de former des référents qui pourront à leur tour assurer un suivi.
- Ces enquêtes peuvent également servir de support pédagogique aux élèves de 3ème cycle de primaire, tout comme au collège ou au lycée. Encadrés par un enseignant d’occitan, ces travaux alimentent également les données analysables. Le toponymiste aura ensuite à charge d’analyser ces données, en collaboration avec les Université Toulouse-Jean Jaurès, de Pau, Montpellier-Paul Valéry et de Bordeaux, les institutions (CIRDOC - Institut occitan de culture) et les chercheurs locaux indépendants, en les confrontant aux nombreuses sources bibliographiques concernant la microtoponymie occitane. Il est souhaitable que la collaboration avec l’Université se renforce afin d’inciter les étudiants (M1, M2, Doctorat) à réaliser des enquêtes approfondies dans le cadre de mémoires sanctionnés par des diplômes de l’enseignement supérieur. Cette intelligence, co-encadrée par l’Université et le Congrès, permettrait un gain de temps précieux pour ce projet.
Constitution et diffusion d’une base de données
- En partenariat avec le Cirdoc, il sera créé un modèle de fiche d’identification nécessaire à la description précise (coordonnées géographiques, typologie, date et lieu du collectage, sources relevées, formes historiques, etc.) de chaque toponyme occitan. Les standards développés par l’office public de la langue bretonne pour le breton serviraient de base.
- Sous la responsabilité du Congrès, une base de données devra être créée, comme c’est le cas pour les toponymes bretons, basques et catalans. La plateforme locongres.org, désormais la référence pour les ressources linguistiques occitanes, pourrait accueillir une interface dédiée de consultation de la base de données, avec cartographie, recherches multicritères, etc. De même, les données toponymiques seront connectées, à terme, au dicodòc (multidictionnaire occitan, 320 000 visites/an), permettant à l’utilisateur de faire remonter des informations contextualisées en fonction de ses recherches (par exemple, une recherche de la traduction occitane du mot “ferme” renverrait, en plus du contenu des dictionnaires, vers les toponymes “bòria”).
- Les données seront traitées selon des formats permettant l’interopérabilité avec les outils existants, et donc leur usage sur d’autres plateformes (Occitanica).
Information et sensibilisation des collectivités territoriales, des services et des partenaires de la Région (lycée, SNCF, etc.)
- Par ailleurs, il est important que les Régions valorisent ce bilinguisme dans leur communication. Les bâtiments des Régions pourraient, ainsi, être la cible prioritaire, à commencer par les lycées pour lesquels des demandes sont déjà en cours. Cela permettrait, d’une part d’avoir une communication immédiate et conséquente, mais également de former une génération à se réapproprier sa culture.
- La signalétique SNCF est un enjeu majeur pour lequel des discussions ont déjà été engagées. A l’image des projets développés en Nouvelle-Aquitaine ou en Bretagne, il conviendra de définir des lignes stratégiques valorisant des communes engagées dans ces démarches. Un plan de déploiement en Région Occitanie autour des événements de Total Festum pourrait être une piste probante.
- Les départements et les communes ont également une autonomie sur leurs propres voies, il est nécessaire de les sensibiliser quant aux opportunités qu’elles ont en matière de signalétique.
- Les parcs naturels, comme d’autres parcours touristiques, peuvent également faire l’objet d’une communication bilingue en direction de leur public. Plusieurs réalisations sont à signaler, notamment dans le Parc du Haut-Languedoc, qui peuvent être valorisées et répliquées. La Région Occitanie s’est engagée dans cette voie avec le financement de deux contrats doctoraux (Parc naturel de l’Aubrac et des Causses du Quercy).
- Enfin, il est évident que les événements culturels des Régions, tels Total Festum en Occitanie, devront être saisis pour faciliter cette appropriation. Ainsi, les appels à projet des Régions, concernant les langues régionales, pourraient inclure une demande d’information concernant la valorisation visuelle ou sonore de ces langues. Les différents évènements pourraient, de fait, aider la population à s’approprier cette signalétique.
Appui technique pour des réalisations
Selon les retours et l’intérêt des administrations et services sensibilisés, nous serions par la suite en mesure de les accompagner dans différentes réalisations :
- ingénierie linguistique : appui aux opérateurs publics ou privés en termes de diagnostic, méthode et propositions de réalisation adaptées (par exemple accompagnement d’une commune dans le cadre de la mise en place d’une politique linguistique).
- visibilité de la langue (exemple : panneaux de rue de la commune de Toulouse, etc.) pour laquelle nous pourrions nous appuyer sur des expériences existantes.
- signalétique bilingue (exemple : signalétique sonore du métro toulousain, etc.)
- projet toponymique ciblé : monographie communale, coordination de projets édtoriaux, médiation auprès du grand public, création de carte interactive, etc.