Lettre de liaison :

Sélectionnez votre langue

Technologies de la langue

Traitement automatique du langage

Le numérique occitan s’est développé d’une façon générale ces dernières années : contenus encyclopédiques (Wikipédia), patrimoine (Occitanica), médias (Octele), réseaux sociaux sont autant de secteurs désormais investis. Toutefois la langue occitane pâtit toujours d’un important retard numérique avec pour conséquence, une absence quasi totale dans des outils désormais courants (bureautique, téléphonie mobile, etc.). La prégnance croissante de ces technologies dans la vie quotidienne (travail, déplacements, consommation, éducation, vie sociale) font des technologies du langage un facteur supplémentaire de marginalisation pour une langue déjà minorisée.

"Le Congrès a engagé plusieurs programmes de développement
des technologies langagières pour l’occitan.

Ce phénomène est décrit et analysé dans une étude réalisée par META-NET, un réseau de recherche rassemblant différentes institutions, universités et centres de recherche et dont la mission principale est la mise en place de fondations technologiques solides pour une Europe multilingue. Son Livre blanc fait un état actuel des ressources et technologies du langage pour trente langues européennes dans six domaines (la traduction automatique, la synthèse et la reconnaissance vocales, la correction orthographique, l’analyse sémantique, l’analyse grammaticale et la génération automatique de texte) et propose également une grille commune de classification et d’évaluation des ressources et outils numériques. Les résultats de l’étude sont particulièrement alarmants : les éditeurs soulignent l’écart croissant entre les « grandes » et les « petites » langues, il est indispensable d’équiper toutes les langues (y compris les plus petites et les moins dotées) des technologies de base nécessaires, sans quoi ces langues sont condamnées à « l’extinction numérique ».

"plusieurs programmes opérationnels (traducteur automatique,
synthèse vocale, reconnaissance vocale, etc.).

Pour ce faire, l’étude préconise la création massive de données, la mutualisation au niveau européen, le transfert technologique entre les langues, l’interopérabilité des ressources, des outils et des services.
Dans ce cadre, le Congrès avec l’ensemble de ses partenaires scientifiques et institutionnels a engagé plusieurs programmes de développement des technologies langagières pour l’occitan : en 2014 est rédigée la Feuille de route de développement numérique l’occitan, un document cadre pluriannuel de planification des travaux, elle sera suivie de plusieurs programmes opérationnels (traducteur automatique, synthèse vocale, reconnaissance vocale, clavier prédictif, corpus, etc.).


La Farga est le portail collaboratif TAL (traitement automatique de la langue) pour l’occitan. Vous accéderez à l’ensemble des ressources existantes grâce à l’inventaire des ressources, pourrez télécharger les outils (API, modules/plug-in), entrer en contact avec la communauté et faire connaître vos projets.

 

En savoir plus

Formatage TEI

Le Congrès utilise la norme TEI dans le cadre de son projet Lexics, qui a pour but de formater tous ses lexiques

Voir la page

Codes IANA de variétés

Codes standardisés afin d'identifier les langues, leurs variétés, leurs graphies et leurs alphabets.

Voir la page

Etiquettes de POS

Jeu d'étiquettes grammaticales adapté à la langue occitane.

Voir la page

En savoir plus

Traitement automatique des langues

Le Congrès convertit toutes ses ressources au format TEI (Text Encoding Initiative)

Voir la page

En savoir plus

Graphie / phonie

La norme graphique employée, recommandée et gérée par le Congrès est la graphie dite classique.

Voir la page

Lexicographie

Le Basic se veut un dictionnaire unique pour tous les locuteurs et usagers de l'occitan, quelle que soit leur variante.

Voir la page

Grammaire

Le conjugueur automatique vèrbòc et la grammaire en ligne wikigram sont des outils désormais accessibles en ligne.

Voir la page

Onomastique

De nombreux travaux ont été menés pour restaurer et valoriser les formes toponymiques occitanes.

Voir la page

Terminologie

La base terminologique occitane tèrmòc propose un accès unique à tous les lexiques spécialisés.

Voir la page

Unités de mesure

Le Système International d'Unités est le système d'unités de mesure le plus utilisé au monde. 

Voir la page

TAL

Le Congrès a défini des standards pour l’étiquetage informatique de ses lexiques et ses corpus.

Voir la page

Bibliographie

Le Congrès procède à un inventaire général afin de définir une base référentielle de travail.

Voir la page