Lettre de liaison :

Feuille de route 2015-2019 de développement numérique de l'occitan

La feuille de route pour le développement numérique de l'occitan utilise la méthode de l'étude de MetaNet, un réseau européen d'excellence dédié à la promotion des fondations technologiques d'une société multilingue de l'information en Europe. Réalisée par plus de 200 experts internationaux, cette étude fait l'état actuel des ressources et technologies du langage pour 30 langues européennes dans 6 domaines : la traduction automatique, la synthèse et la reconnaissance vocales, la correction orthographique, l'analyse sémantique, l'analyse grammaticale et la génération automatique de texte.

Elle propose également une grille commune de classification et d'évaluation des ressources et outils numériques. Le diagnostic de soutien technologique de la langue occitane nous a permis de recueillir des données objectives concernant la situation numérique de l'occitan (inventaire), et, après échanges avec des experts internationaux (langues basque, bretonne, catalane et galloise), d'identifier les besoins. Pour ces dernières, la feuille de route ci-dessous propose une projection de développement 2015-2019.

Tableau 1 : Tableau synthétique réalisé à partir du Diagnostic et feuille de route pour le développement numérique de la langue occitane : 2015-2019, Media.kom/Elhuyar, 2014.

 
2015
2016
2017
2018
2019
 
Ressources linguistiques
 
 
 
 
 
 
Corpus monolingue spécialisé
 
 
V1
 
V2
 
Corpus web monolingue
 
 
X
 
 
 
Corpus parallèle
 
 
 
X
 
 
Base lexicale monolingue
V1
 
V2
 
 
 
Base lexicale bilingue
 
 
X
 
 
 
Modèles grammaticaux et modèles de langage
 
X
 
 
 
 
Base de connaissance lexicale
 
 
 
X
 
 
Ressources pour la reconnaissance de la parole
 
 
 
 
X
 
Outils intermédiaires
 
 
 
 
 
 
Détecteur de l'occitan
X
 
 
 
 
 
Détecteur des variantes
 
X
 
 
 
 
Analyseur morphologique
 
X
 
 
 
 
Analyseur syntaxique
 
 
 
 
X
 
Transcripteur entre variantes
 
 
X
 
 
 
Outils finaux
 
 
 
 
 
 
Correcteur orthographique polyvalent
 
X
 
 
 
 
Clavier prédictif et autocorrection
 
 
X
 
 
 
Traducteur automatique oc->fr
 
 
X
 
 
 
Traducteur automatique fr->oc
 
 
 
 
X
 
Synthèse vocale
 
 
 
 
X
 
OS e applications principales
 
 
X
 
 
 

 

Le diagramme ci-dessous reprend les éléments en séparant les objectifs en trois sections (ressources, outils intermédiaires, outils finaux) et en montrant les interdépendances entre les « blocs » : par exemple il est nécessaire pour un traducteur automatique d'avoir un analyseur morphosyntaxique, lui-même ayant besoin en amont d'une base lexicale monolingue et de modèles gramaticaux. Un corpus parallèle peut également aider à le perfectionner. Cette lecture permet une vision structurée des travaux et d'envisager la planification des programmes opérationnels.

Tablèu 2 : Document de synthèse réalisé à partir du Diagnostic et feuille de route pour le développement numérique de la langue occitane : 2015-2019, Media.kom/Elhuyar, 2014.

Ressources, outils et dépendances

Glossaire :

Modèles grammaticaux et modèles de langage : grammaire descriptive de l'occitan organisée comme un ensemble de règles pour une utilisation informatique (surtout pour ce qui concerne les analyseurs morphologiques et syntaxique) avec lexiques et corpus annotés.

Base lexicale monolingue : base d'une grande partie des autres ressources et des outils développés, la base lexicale monolingue comprend une liste de mots occitans, avec la catégorie gramaticale (type, genre, nombre, etc.), les formes fléchies (féminin, pluriel, conjugaisons, etc.), la variante et éventuellement des informations concernant l'usage (domaine, registre, etc.). ll y aura également le lien entre deux mêmes mots pour plusieurs variantes.

Base lexicale bilingue : base principale pour la traduction atutomatique. Elle contient des entrées en occitan ayant les mêmes champs que la base lexicale monolingue, mais également sa (ses) traduction(s) en français (on peut envisager à terme l'équivalent en catalan).

Base de connaissance lexicale : il s'agit d'une base de connaissance liant les mots ou les concepts entre eux, avec des relations de catégorie (une pomme est un fruit), de champ lexical (pain et couteau), de dérivation (passé et passation), etc. WordNet, par exemple, est une base de connaissance lexicale.

Corpus : un corpus est un ensemble de documents rassemblés dans un but précis. Dans le domaine des TAL (Traitement automatique du langage), les corpus textuels sont très utiles pour perfectionner les outils grâce à des statistiques sur les mots et la langue. Par exemple, pour un traducteur automatique, le corpus parallèle français-occitan permettra de savoir que, statistiquement, le nom français « son » est plus souvent traduit par « son » que par « bren ».

Corpus monolingue spécialisé : ce type de corpus rassemble une masse de textes en occitan qui attestent d'un usage référentiel de la langue dans différents domaines (littérature, presse, recherche). Ils sont indispensables à la création des outils et des autres ressources.

Corpus monolingue web : collection de textes en occitan présents sur Internet, sans sélection en terme de qualité linguistique. Il sevira surtout aux statitsiques afin de perfectionner les outils.

Corpus parallèle : corpus qui rassemble des textes ayant au moins deux versions correspondant à deux langues différentes. Le corpus parallèle occitan sera un corpus occitan-français (sites web institutionnels, mémoires, etc.).

Ressources pour la reconnaissance de la parole : selon la feuille de route, il est impossible de créer un véritable outil de reconnaissance de la parole (création d'écrit à partir d'un document oral) avant 2019. Il faut commencer par identifier et créer les ressources nécessaires à une telle technologie. Elle pourra être utilisée, par exemple, pour faire du sous-titrage automatique.

Détecteur de l'occitan : il s'agit d'un outil permettant de détecter automatiquement si un texte est en occitan.

Détecteur des variantes de l'occitan : il s'agit d'un outil permettant de détecter automatiquement la variante occitane d'un texte.

Analyseur morphologique (lemmatiseur) : un lemmatiseur est un outil d'analyse morphosyntaxique du contenu d'un texte. Il associe chaque mot à sa forme « canonique » (infinitif pour les verbes, masculin singulier pour les adjectifs, etc.), la catégorie gramaticale ou partie d'un discours, le genre, le nombre, le temps et le mode, la personne (ex : je parle → première personne/singulier, indicatif présent du verbe parler). Il contient également des informations sémantiques et référentielles (définitude, quantification, animé/non animé, humain/non humain, etc.).

Analyseur syntaxique (parser) : met en évidence la structure d'une phrase. L'analyse donne la façon dont les mots sont combinés dans un texte. Il permet de connaître les relations de dépendance des syntagmes (groupes de mots ayant une fonction particulière dans la phrase, par exemple le sujet).

Traducteurs automatiques : ils permettront, à partir d'un texte en occitan, d'obtenir automatiquement une traduction en français, et inversement. Grâce au transcripteur de variantes, il sera possible d'obtenir la traduction en français en n'importe quelle variante.

Transcripteur automatique entre variantes : il fonctionne selon le même principe qu'un traducteur automatique. Il permettra, à partir d'un texte dans une variante de l'occitan, d'obtenir automatiquement une version dans une autre variante.

Correcteur orthographique polyvalent : afin de montrer l'unité de la langue dans le respect de sa diversité, l'idée est d'avoir un seul correcteur orthographique qui propose une correction dans toutes les variantes. L'utilisateur pourra choisir la ou les variante(s) qu'il souhaite pour la correction. Le correcteur sera sur les logiciels les plus utilisés avec une priorité aux formats libres, sans pour autant écarter les commerciaux (LibreOffice, OpenOffice, Microsoft Office, navigateurs, logiciels clients pour courriel, suite Adobe, etc.).

Clavier prédictif et autocorrection : cet outil servira pour les téléphones mobiles, par exemple pour suggérer ou corriger des mots dans les SMS. Il permettra de choisir sa variante et pourra s'installer sur les système d'exploitations les plus courants.

Synthèse vocale : elle consiste à la créacion de documents oraux à partir de documents écrits. Elle est par exemple utilisée pour lire les noms de rue dans les GPS, pour les logiciels d'assistance aux mal-voyants...

OS et applications principales : l'idée est de proposer pour les ordinateurs un système d'exploitation entièrement en occitan, avec les logiciels les plus courants également traduits (bureautique, navigateurs, clients de courriel, etc.).

Voir aussi :