Mise en interaction du Thesoc et de la plateforme linguistique du Congrès

" Un trésor rassemblant une multitude de données linguistiques occitanes "

Sous la double tutelle du C.N.R.S. (sections 34 et 26) et de l’Université Côte d’Azur, le laboratoire UMR 7320 Bases, Corpus, Langage (BCL) compte une soixantaine de membres, chercheurs, enseignants-chercheurs, associés, ingénieurs, techniciens, doctorants et administratifs. L’objet d’étude de BCL est le langage, de son architecture cognitive à ses réalisations discursives ou textuelles les plus concrètes. Par ce spectre large qui mène du cerveau à l’esprit, de la langue à la parole et du discours à l’écrit, à travers l’analyse et la modélisation des systèmes phonologique, morphologique et syntaxique, des structures discursive et textuelle, mais aussi des fonctions psycho-cognitives, BCL a une approche intégrative et interdisciplinaire du langage qui lui permet d’associer dans des dynamiques croisées linguistes de la langue, linguistes du discours et psychologues cognitivistes.

Il a engagé plusieurs protocoles expérimentaux, méthodes de traitement et outil de recherche dont le THESAURUS OCCITAN (THESOC). Sa création remonte au colloque de Wégimont organisé par l'AIEO en avril 1989 et consacré aux « Outils de la recherche occitane ». Parmi les conclusions de ce colloque figure l'idée que l'une des fonctions essentielles de l'AIEO consiste à susciter et à soutenir quelques chantiers spécifiques dans le domaine des études occitanes, susceptibles de dynamiser et de fédérer les énergies de recherche et d'aboutir à l'élaboration d'outils de pédagogie et de recherche à mettre à la disposition de la communauté. Le THESOC a alors vu le jour sous la direction de Jean-Philippe DALBERA et il est basé au laboratoire « Bases, Corpus, Langage » (UMR 7320 CNRS - Université Côte d'Azur). Il s’agit d’un outil de travail à la disposition des chercheurs, des pédagogues et du public. Il comporte deux volets :

1. Des ressources : mots, textes, sons, vidéos, images. C’est un trésor rassemblant une multitude de données linguistiques occitanes, qui procèdent toutes de sources orales, à savoir des données linguistiques et périlinguistiques issues d’enquêtes de terrain (cartes et carnets d’enquête des Atlas linguistiques, monographies, enregistrements sonores et vidéos, documents iconographiques), des données linguistiques procédant d'analyses déjà réalisées (dans les domaines de la lemmatisation, dans les domaines morphologique, étymologique, etc.), des données bibliographiques

2. Des outils d’analyse : le THESOC est actuellement en pleine refonte. Ses fonctionnalités seront implémentées progressivement sur le site.

" Un interfaçage avec le Dicodòc "

Le C.N.R.S. et le Congrès permanent de la langue occitane ont engagé un partenariat scientifique et technique pluriannuel visant à la mise en interaction du THESOC et de l’infrastructure numérique du Congrès. Un premier bouquet de développements est actuellement en cours :

1. Actualisation de la lemmatisation du THESOC Améliorer la lemmatisation du THESOC pour un meilleur interfaçage avec le dicodòc :

• la notation des accents sur les lemmes créés ;

• les noms propres ;

• le statut des mots composés vs syntagmes (i.e. avec tirets ou sans tirets ?). Déterminer s’il s’agit d’une forme figée possédant une catégorie grammaticale et qui aurait vocation à figurer comme une entrée d'un dictionnaire, ou bien s'il s’agit plutôt d'une expression.

• les corrections nécessaires du point de vue du Congrès, dans la perspective lexicographique occitane, aux lemmes présents dans le dictionnaire d'Alibert (notamment dans l'optique de pouvoir ensuite les utiliser comme maillon intermédiaire pour s'interfacer avec les dictionnaires du Congrès).

• propositions / suggestions de lemmes pour un certain nombre de formes attestées dans le THESOC et présentes dans le dictionnaire de Simin Palay mais absentes d'Alibert (actuellement, ces lemmes-là ont été saisis dans le THESOC avec la forme graphique proposée par Simin Palay, une adaptation en graphie classique est nécessaire).

2. Liaison THESOC->dicodòc :

• renvoi vers le dicodòc si recherche infructueuse

• renvoi vers le dicodòc pour en savoir plus sur un lemme (conjugaisons, rimes, synonymes, exemples en contexte, etc.)

• Afficher le lemme lors d’une recherche par forme fléchie, pour afficher un bon résultat (possibilité de passer par la future API Mots)

• Proposition de synonymes (en cas de recherche infructueuse sur le lemme recherché, mais présence de résultats pour un lemme synonyme dans le THESOC), grâce à l’utilisation de l’API Sinonims développée par le Congrès.

3. Liaison dicodòc->THESOC

• Intégrer dans les résultats de recherche une liste des traductions avec quelques informations et lien vers le THESOC.

• Intégrer une cartographie des occurrences (ou des occurrences des traductions) dans les résultats de recherche.

L’objectif est, par l'harmonisation et l’interfaçage des données, de renforcer la complémentarité de deux infrastructures numériques occitanes de référence (l’une étant normative et l’autre descriptive), avec pour le Congrès la perspective d’intégrer le THESOC dans la future plateforme lexicale, textuelle et toponymique. Les usagers du Congrès auront ainsi un accès optimisé (cartographie restituant les occurrences) à ce véritable trésor occitan qu’est le THESOC.

Thesoc

Mise en interaction du Thesoc et de la plateforme linguistique du Congrès

En savoir plus

Linguatec

ReVOc

Transcripteur

LOFlOc

Lexics

Còrpus

ROLF

Plateforme linguistique

THESOC

NOUVEAU

DICODÒC