Letra de ligason :

Sélectionnez votre langue

Huelha de rota

Lo congrès permanent de la lenga occitana - huelha de rota entau desvolopament numeric de l'occitan
Huelha de rota entau desvolopament numeric de l'occitan

La huelha de rota entau desvolopament numeric de l'occitan qu'utiliza lo metòde de l'estudi de MetaNet (site internet), un hialat europèu d'excelléncia dedicat a la promocion de las fondacions tecnologicas d'ua societat multilingua de l'informacion en Euròpa. Realizada per mei de 200 expèrts internacionaus, aqueth estudi que hè l'estat actuau de las ressorsas e tecnologias deu lengatge entà 30 lengas europèas dens 6 maines : la traduccion automatica, la sintèsi e la reconeishença vocaus, la correccion ortografica, l'analisi semantic, l'analisi gramaticau e la generacion automatica de tèxte.

"huelha de rota entau desvolopament numeric de l'occitan,
que s'empleguè lo metòde de MetaNet"

Diagnostic e huelha de rota

Diagnostic e huelha de rota entau desvolopament numeric de la lenga occitana

Véder lo document

Que perpausa tanben ua grasilha comuna de classificacion e d'avaloracion de las ressorsas e atrunas numericas. Lo diagnostic de sostien tecnologic de la lenga occitana que'ns permetó de recuélher dadas objectivas tà çò de la situacion numerica de l'occitan (inventari), e, après escambis dab expèrts internacionaus (lengas basca, bretona, catalana e galesa), d'identificar los besonhs. Entad aquestas, la huelha de rota ací devath que perpausa ua projeccion de desvolopament 2015-2019.

Resultat sintetic e projeccion sus las accions a realizar

Qu'avetz un estat deus lòcs actualizat de l'ensemble deu TAL occitan au site de La Farga.

Definicion deus besonhs prioritaris

Abans de precisar l'etapa deus objectius, que determinèm los besonhs prioritaris entà la lenga occitana, qui resultan de l'analisi de l'inventari e de las experiéncias d'autas lengas. 

Tipe de ressorsa : Còrpus
Ressorsa a crear : Còrpus textuaus

Tipe de ressorsa : Ressorsas lexicaus
Ressorsa a crear : Basa lexicau monolingüa e basa lexicau bilingua

Tipe de ressorsa : Gramaticas
Ressorsa a crear : Basa gramaticau / Sintaxica

En préner aqueth ensemble de prioritats com punt de partença, lo grop de tribalh que devó precisar los objectius estrategics deu desvolopament de las tecnologias lengatgèras entà l'occitan. Que detalham aqueths objectius dens la seccion seguenta.

Definicion deus objectius

Còrpus

Tipe de ressorsa : Còrpus
Ressorsa a crear : Còrpus textuaus
Objectius
  • Tres tipes de còrpus especializats :
    • Còrpus de tèxtes validats, a partir de documents originaument imprimits ; objectiu : 10 a 25 milions de mots
    • Còrpus web : còrpus bastit automaticament en utilizar documents publicats sus Internet ; objectiu : 5 milions de mots
    • Còrpus parallèle francés-occitan ; objectiu : 2 a 5 milions
  • Caracterizacion de tèxtes inclús : variantas, genre, maine de coneishenças, periòdes, qualitat lingüistica (a definir).
    Nivèu d'analisi lingüistica : categoria, puish lèma ; analisi sintaxica (dependéncias).
Realizat
  • Projècte « Còrpus » deu Congrès : realizacion d'un còrpus multivarietat e multimodau (monolingüe, bilingüe alinhat, audio alinhat) : https://dicodoc.eu/oc/corpus

En aost de 2022 :

    • Còrpus monolingüe : 8,5 milions de mots
    • Còrpus bilingüe : 1 milion de mots occitans alinhats dab lo francés, 9 000 mots occitans alinhats dab ua auta lenga
    • Còrpus audio : 1,5 milion de mots, 250 òras

E tanben :

  • BaTelÒc, Basa Textuala per la lenga d'Òc de CLLE-ERSS : còrpus monolingüe de 3,3 milions de mots : http://redac.univ-tlse2.fr/bateloc/
  • Linguatec Tolosa Treebank de CLLE-ERSS : còrpus monolingüe de 14 000 mots anotats sintaxicament : https://zenodo.org/record/3708268
  • Memòrias de traduccion de mejans.fr : còrpus bilingüe anglés-occitan lengadocian de 150 000 frasas : https://www.mejans.fr/article/memoria-de-traduccion.html
  • OcWikiDisc : Còrpus TAL generat a partir de pajas de discussion de la Wikipèdia en occitan (430 000 mots).
  • Oscar : Corpus TAL amassat deu web ençà tà bèra ua lenga, dont l'occitan (34 000 mots tà l'occitan).
  • Còrpus parallèle Softcatalà : Còrpus d'entrainament du sistème de traduccion neuronau de Softcatalà, dab tèxtes alinhats deu catalan de cap a mei d'ua lenga dont l'occitan lengadocian (46 millions de mots).
  • ParCoLaF : Còrpus de tèxtes alinhats en occitan, francés e anglés, de consultar en linha : http://parcolab.univ-tlse2.fr/parcolaf/
  • Annotated Corpus for Occitan : Córpus de mei de 12 000 tokens anotats dab las categorias gramaticaus e los lemas.
  • OcWikiAnnot : Còrpus tirat de Wikipèdia, annoté en POS et lemmatisé (2 millions de mots).
  • Mozilla Common Voice : Còrpus alinhat de frasas audio dab la transcripcion (10 000 mots, 1h45). Dadas amassadas mercés a l'utís en linha Mozilla Common Voice.
  • ReVoc : córpus alinhat 136 óras en occitan gascon e 123 en occitan lengadocian.
Objectius
  • Caracterizacion de tèxtes inclús : varietats, genre, maine de coneishenças, periòdes, qualitat lingüistica (a definir).
Realizat
Objectius
  • Nivèu d'analisi lingüistic : categoria, puish lèma ; analisi sintaxic (dependéncias).
Realizat

Ressorsas lexicaus

Tipe de ressorsa : Ressorsas lexicaus - lexics / Basas terminologicas
Ressorsa a crear : Basa lexicau monolingua
Objectiu
  • Basa de dadas lexicau entà l'occitan : a) enter 500 000 e un milion d'entradas a tèrme (dont las fòrmas flechidas) ; b) informacion sus cada entrada : entrada, lèma, categoria gramaticau, informacions morfosintaxicas, varianta, usatge (iperonimia, maine, registre, geografic…) ligam enter variantas. 
Realizat
Tipe de ressorsa : Ressorsas lexicaus - lexics
Ressorsa a crear : Basa lexicau bilingua
Objectiu
  • Basa terminologica : lo tribalh terminologic que's hè en foncion de las demandas ligadas a las politicas regionaus ; los objectius dens aqueth camp que deven har compte tanben de las demandas deu conselh deus usatgèrs deu Congrès.

Tipe de ressorsa : Basas terminologicas
Ressorsa a crear : Basa lexicau bilingua

Realizat
  • tèrmÒc, basa terminologica deu Congrès de 60 000 tèrmes (varietat etiquetada).
  • Creacion d'ua platafòrma terminologica entà facilitar la creacion de lexics especializats, en perméter ua mei bona comunicacion enter usatgèrs e lingüistas/lexicografes : https://www.termoc.eu
Objectiu
  • Basa de dadas lexicau bilingua :
    • Prioritat francés-occitan
    • Catalan-occitan
    • Medishs camps com la basa lexicau monolingua
    • Orientada cap tà la traduccion automatica
Realizat
  • Diccionari occitan-francés e francés-occitan deu traductor automatic Revirada deu Congrès : 170 000 parelhs de traduccionsverificadas (gascon e lengadocian)
  • Diccionari occitan-francés e francés-occitan deu traductor automatic Apertium, enriquit peu Congrès dens l'encastre de la construccion de Revirada, libre de drets : 100 000 parelhs de traduccions occitan-francés e francés-occitan verificadas (gascon, lengadocian e aranés) : https://github.com/apertium/apertium-oci-fra/blob/master/apertium-oci-fra.oci-fra.dix
  • Basa de dada bruta de 500 000 parelhs de traduccions occitan-francés e francés-occitan, tirada deus diccionaris bilingües (gascons e lengadocians) deu Dicodòc.
  • Diccionari occitan-catalan deu traductor automatic Apertium : 24 500 pars de traduccions liures de drets.
  • Diccionari occitan-espanhòu deu traductor automatic Apertium : 18 700 pars de traduccions liures de drets.

Gramaticas

Tipe de ressorsa : Gramaticas
Ressorsa a crear : Basa gramaticau / sintaxica
Objectius
  • Gramatica descriptiva de l'occitan e de las soas diferentas variantas, concebuda com un ensemble de règlas entà la soa utilizacion ulteriora en informatica (analisaires morfologics e sintaxics automatics). 
Realizat
  • Fichèr de règlas (haut o baish 2 000) entà l'analisi morfosintaxic deu traductor automatic Revirada deu Congrès.

Tractament de la paraula

Tipe de ressorsa : Tractament de la paraula
Ressorsa a crear : Reconeishença de la paraula
Objectius
  • Crear ua vertadèra atruna de reconeishença de la paraula en un temps brac en començant d'identificar e de crear las ressorsas necessàrias au son desvolopament tecnologic. L'interès particular d'aquera atruna que seré la soa utilizacion entau sostitolatge automatic.
Realizat
  • Projècte ReVoc deu Congrès (gascon e lengadocian) : constitucion d'un còrpus audio e d'un còrpus textuau dens l'encastre deu projècte « Còrpus » en vista d'entrainar ua intelligéncia artificiau : https://contribuir.locongres.com/revoc
  • Projète Araina de Col·lectivaT (occitan aranés) : constitucion d'un còrpus audio via Mozilla Common Voice dab l'objectiu d'entraïnar ua intelligéncia artificiau : https://www.projecte-araina.org/
Tipe d'atruna lingüistica : Tractament de la paraula
Atruna a crear : Sintèsi vocau
Objectius
  • Atruna de sintèsi vocau (TTS) :
    • Entà totas las variantas màgers
    • Dus locutors minimum, dab paritat.  
Realizat
  • Votz, sintèsi vocau deu Congrès entà l'occitan gascon (ua locutora) e l'occitan lengadocian (un locutor) : https://votz.eu/
  • Fairseq MMS – ASR : Modèle de reconeishença vocau desvolopat per Facebook tà 1 100 lenga, dab lengas pócas dotadas dont l'occitan.

Deteccion automatica de la lenga

Tipe d'atruna lingüistica : Deteccion automatica de la lenga
Atruna a crear : Detector de l'occitan
Objectius
  • Desvolopament d'un detector de tèxtes escriuts en occitan, a partir de las òbras hèitas dinc adara. 
Realizat
  • Redaccion d'ua notícia entau programa LangId, qui permet de detectar l'occitan au demiei d'un nombre gran d'autas lengas : https://pypi.org/project/langid/
  • Divèrs : mei d'un detector de lenga (open source, disponibles via des API ou privats) que comprenen l'occitan, dont dus logiciaus de deteccion de lenga parlada. Veder la liste en l'inventari de La Farga.
Tipe d'atruna lingüistica : Deteccion automatica de la lenga
Atruna a crear : Detector de las variantas de l'occitan
Objectius
  • Desvolopament d'un detector de las variantas escriutas de l'occitan (entà totas las variantas). 
Realizat
  • Desvolopament d'un prumèr detector per Eve Séguier.
  • Constitucion d'un còrpus textuel multivariétés dens l'encastre deu projècte Còrpus deu Congrès en vista de melhorar lo detector gràcias a l'intelligéncia artificiau

Analisi gramaticau

Tipe d'atruna lingüistica : Analisi ortografica e gramaticau
Atruna a crear : Correctors ortografics
Objectius
  • Corrector ortografic polivalent :
    • Qui permétia a l'utilizator de causir ua o mantua varianta com referéncia entà la correccion
    • Entà tota platafòrma, dab prioritat aus logiciaus libres, mes tanben aus logiciaus mei emplegats :
      • Open Office, Libre Office, Microsoft Office
      • Modules entaus navigators
      • Seguida Adobe, PAO
  • Clavèr predictiu e autocorrection entà totas las variantas e entaus telefònes mobiles mei emplegats (Android, iPhone, Windows... o los a viéner). Basat sus las frequéncias deus mots dens d'uns còrpus.
Realizat
Tipe d'atruna lingüistica : Analisi ortografica e gramaticau
Atruna a crear : Analisaires
Objectius
  • Desvolopament d'un analisaire morfologic (tagger) deus hòrts a partir de las òbras hèitas dinc adara. 
Realizat

Analisi semantic

Tipe d'atruna lingüistica : Analisi semantic
Atruna a crear : Basa de coneishença lexicau
Objectius
  • Desvolopament d'ua atruna d'analisi sintaxic superficiau/pregonda.
    Construccion de la purmèra version de basa de coneishença lexicau entà l'occitan (15 000 concèptes), en utilizar las entradas de la basa de dadas lexicau com hont d'informacion entà las variantas de l'occitan. 
Realizat
  • Preparacion d'ua basa lexicau e d'un bot entà la versar dens Wikidata Lexèmas. Desvolopament d'un serious game entà que la comunautat religue los lexèmas a l'item Wikidata corresponent au lor sens : https://github.com/aitalvivem

Traduccion automatica

Tipe d'atruna lingüistica : Traduccion automatica
Atruna a crear : Traductors automatics
Objectius
  • Desvolopament, en reütilizar las òbras existentas, de las atrunas entà la traduccion automatica :
    • En prioritat, sens occitan → francés (totas las variantas)
    • Francés → occitan (lo sistèma que permeterà a l'utilizator de causir ua o mantua varianta com referéncia(s) entà la traduccion ; utilizar lo transcriptor de variantas au besonh)
    • Besonh de las atrunas basicas entau parelh occitan-anglés. 
Realizat
  • Traductor automatic Revirada occitan<->francés deu Congrès (occitan gascon e lengadocian) : https://revirada.eu/
  • Traductor automatic Apertium : francés<->occitan (gascon e lengadocian), catalan<->occitan (aranés e lengadocian), espanhòu <-> occitan (aranés e lengadocian).: https://apertium.org
  • Traductor automatic Softcatalà occitan (aranés) <-> catalan : https://www.softcatala.org/traductor/
  • Los traductors automatics de la Generalitat de Catalunya et d'Opentrad qu'intègran lo traductor Apertium tà los pars de lenga occitan <-> catalan et occitan <-> espanhòu (occitan aranés e lengadocian) : https://traductor.gencat.cat/
  • Que's publiquèn per Softcatalà e Facebook (Fairseq Flores101) modèles o escripts tà entraïnar traductors automatics basats sus l'intelligéncia artificiau ont été publiés par Softcatalà et Facebook.
Tipe d'atruna lingüistica : Traduccion automatica
Atruna a crear : Transcriptor automatic enter variantas
Objectius
  • Desvolopament d'un convertidor automatic enter variantas, qui tribalha non solament au nivèu deu lexic mes tanben sus la sintaxi. Que permeterà enter autas causas de realizar daubuas atrunas entà ua sola varianta, e de'us poder utilizar apuish dab totas (èx : [traductor francés → occitan lengadocian] + [transcriptor lengadocian → gascon] = [traductor francés → occitan gascon]). 
Realizat
  • Possibilitat d'utilizar lo traductor automatic Revirada dab lo francés com lenga pivòt entà passar de l'occitan gascon a l'occitan lengadocian, shens tròp de pèrta de qualitat.

Logiciaus disponibles en occitan

Autas atrunas - logiciaus : Logiciaus disponibles en occitan
Atruna a crear : OS + Aplicacions màgers
Objectius
  • Traduccion deus logiciaus mei emplegats e deus logiciaus libres (burotica, navigators, corrics, hialats sociaus...).
Realizat
  • Voir la liste actualisée des logiciels traduits sur le site de La Farga.

Huelha de rota

Pendent la configuracion d'ua huelha de rota entà la realizacion deus objectius ací dessús, que devem considerar qu'existeishen dependéncias enter eths. Ací devath, que descrivem las dependéncias mei significativas.

Objectiu : Còrpus monolingüe
Ressorsas / atrunas necessàrias : Numerizacion, OCR e conversion de tèxte a un format estandard tractader per un analisaire

Objectiu : Còrpus web
Ressorsas / atrunas necessàrias : Detector de l'occitan - Detector de las variantas de l'occitan

Objectiu : Còrpus parallèle
Ressorsas / atrunas necessàrias : Colleccion de documents bilingües - Memòrias de traduccion (TMX)

Objectiu : Basa lexicau monolingua
Ressorsas / atrunas necessàrias : Diccionaris monolingües au format electronic (MRD)

Objectiu : Basa lexicau bilingua
Ressorsas / atrunas necessàrias : Diccionaris bilingües au format electronic (MRD)

Objectiu : Correctors ortografics
Ressorsas / atrunas necessàrias : Basa lexicau monolingua

Objectiu : Analisaire morfologic (PoS-tagger, lematizaire)
Ressorsas / atrunas necessàrias : Basa lexicau monolingüa - Basa gramaticau

Objectiu : Analisaire sintaxic
Ressorsas / atrunas necessàrias : Analisaire morfologic - Basa gramaticau/sintaxica

Objectiu : Basa de coneishença lexicau
Ressorsas / atrunas necessàrias : Basa lexicau monolingua

Objectiu : Traductors automatics òcfr (totas las variantas) 
Ressorsas / atrunas necessàrias : Basa lexicau bilingüa - Basa gramaticau/sintaxica

ObjectiuTranscriptor automatic enter variantas 
Ressorsas / atrunas necessàrias : Basa lexicau monolingüa - Basa gramaticau/sintaxica

Objectius e interdependéncias

Lo diagrama ací devath que repren los elements en separar los objectius en tres seccions (ressorsas, atrunas intermediàrias, atrunas finaus) e en muishar las interdependéncias enter los « blòcs » : per exemple que hè besonh un analisaire morfosintaxic entà un traductor automatic, en saber que'u hè besonh en amont ua basa lexicau monolingua e modèles gramaticaus. Un còrpus parallèle que pòt tanben ajudar a'u perfeccionar. Aquera lectura que permet ua vision estructurada de las òbras e de considerar la planificacion deus programas operacionaus.

Ressources, outils et dépendances

Glossari

Modèles gramaticaus e modèles de lengatge : gramatica descriptiva de l'occitan organizada com un ensemble de règlas entà ua utilizacion informatica (sustot entà çò qui tòca los analisaires morfologics e sintaxic) dab lexics e còrpus anotats.

Basa lexicau monolingua : basa d'ua partida grana de las autas ressorsas e de las atrunas desvolopadas, a la basa lexicau monolingua qu'i caben ua lista de mots occitans, dab la categoria gramaticau (tipe, genre, nombre, etc.), las fòrmas flechidas (femenin, plurau, conjugasons, etc.), la varianta e eventuaument informacions tà çò de l'usatge (maine, registre, etc.). Que i aurà tanben lo ligam enter dus medishs mots entà mantua varianta.

Basa lexicau bilingua : basa principau entà la traduccion automatica. Qu'i caben entradas en occitan qui an los medishs camps com la basa lexicau monolingua, mes tanben la soa (las soas) traduccion(s) en francés (que's pòt considerar a tèrme çò d'equivalent en catalan).

Basa de coneishença lexicau : que s'ageish d'ua basa de coneishença ligant los mots o los concèptes enter eths, dab relacions de categoria (ua poma qu'ei un frut), de camp lexicau (pan e cotèth), de derivacion (passat e passacion), etc. WordNet, per exemple, qu'ei ua basa de coneishença lexicau.

Còrpus : un còrpus qu'ei un ensemble de documents amassats dab ua mira precisa. Dens lo maine deus TAL (Tractament automatic deu lengatge), los còrpus textuaus que son plan utiles entà perfeccionar las atrunas gràcias a estatisticas suus mots e la lenga. Per exemple, entà un traductor automatic, lo còrpus parallèle francés-occitan que permeterà de saber que, estatisticament, lo nom francés « son » qu'ei mei sovent tradusit per « son » que per « bren ».

Còrpus monolingüe especializat : aqueth tipe de còrpus qu'amassa ua massa de tèxtes en occitan qui atèstan d'un usatge referenciau de la lenga dens diferents maines (literatura, premsa, recèrca). Que son indispensables a la creacion de las atrunas e de las autas ressorsas.

Còrpus monolingüe web : colleccion de tèxtes en occitan presents sus Internet, shens seleccion en tèrme de qualitat lingüistica. Que servirà mei que mei a las estatisticas entà perfeccionar las atrunas.

Còrpus parallèle : còrpus qui amassa tèxtes qui an au mensh duas versions corresponent a duas lengas diferentas. Lo còrpus parallèle occitan que serà un còrpus occitan-francés (sites web institucionaus, memòrias, etc.).

Ressorsas entà la reconeishença de la paraula : segon la huelha de rota, qu'ei impossible de crear ua vertadèra atruna de reconeishença de la paraula (creacion d'escriut a partir d'un document orau) abans 2019. Que cau començar per identificar e crear las ressorsas necessàrias a ua tau tecnologia. Que poirà estar utilizada, per exemple, entà har sostitolatge automatic.

Detector de l'occitan : que s'ageish d'ua atruna permetent de detectar automaticament si un tèxte ei en occitan.

Detector de las variantas de l'occitan : que s'ageish d'ua atruna permetent de detectar automaticament la varianta occitana d'un tèxte.

Analisaire morfologic (lematizaire) : un lematizaire qu'ei ua atruna d'analisi morfosintaxic deu contiengut d'un tèxte. Qu'assòcia cada mot a la soa fòrma « canonica » (infinitiu entaus vèrbes, masculin singular entaus adjectius, etc.), la categoria gramaticau o partida d'un discors, lo genre, lo nombre, lo temps e lo mòde, la persona (èx : que parli → purmèra persona/singular, indicatiu present deu vèrbe parlar). Qu'i caben tanben informacions semanticas e referenciaus (definitud, qüantificacion, animat/non animat, uman/non uman, etc.).

Analisaire sintaxic (parser) : que met en evidéncia l'estructura d'ua frasa. L'analisi que balha la faiçon dont los mots son combinats dens un tèxte. Que permet de conéisher las relacions de dependéncia deus sintagmas (grops de mots qui an ua foncion particulara dens la frasa, per exemple lo subjècte).

Traductors automatics : que permeteràn, a partir d'un tèxte en occitan, d'obtiéner automaticament ua traduccion en francés, e invèrsament. Gràcias au transcriptor de variantas, que serà possible d'obtiéner la traduccion en francés en quina varianta e de que quina varianta ençà que sia.

Transcriptor automatic enter variantas : que fonciona segon lo medish principi qu'un traductor automatic. Que permeterà, a partir d'un tèxte dens ua varianta de l'occitan, d'obtiéner automaticament ua version dens ua auta varianta.

Corrector ortografic polivalent : entà muishar l'unitat de la lenga en lo respècte de la soa diversitat, l'idèa qu'ei d'aver un sol corrector ortografic qui perpausa ua correccion dens totas las variantas. L'utilizator que poirà causir la o las varianta(s) qui desira entà la correccion. Lo corrector que serà suus logiciaus mei emplegats dab ua prioritat aus formats libres, shens estremar los comerciaus totun (LibreOffice, OpenOffice, Microsoft Office, navigators, logiciaus clients entaus corrics, seguida Adobe, etc.).

Clavèr predictiu e autocorrection : aquera atruna que servirà entaus telefònes mobiles, per exemple entà suggerir o corregir mots dens los SMS. Que permeterà de causir la soa varianta e que's poirà installar suus sistèmas d'espleitacions mei corrents.

Sintèsi vocau : que consisteish a la creacion de documents oraus a partir de documents escriuts. Qu'ei per exemple emplegada entà léger los noms de carrèra dens los GPS, entaus logiciaus d'assisténcia au monde uelhfebles...

OS e aplicacions màgers : l'idèa qu'ei de perpausar entaus ordenadors un sistèma d'espleitacion sancèrament en occitan, dab los logiciaus mei corrents tanben tradusits (burotica, navigators, clients de corric, etc.).

Tà'n saber mei

Presentacion

Presentacion per Gilbert Mercadier, President deu Congrès

Véder la pagina

Diagnostic

Diagnostic de l'estat deu desvolopament numeric occitan

Véder la pagina

Huelha de rota

Huelha de rota deu desvolopament numeric de l'occitan

Véder la pagina