Huelha de rota 2015-2019 de desvolopament numeric tà l'occitan

La huelha de rota tau desvolopament numeric de l'occitan qu'utiliza lo metòde de l'estudi de MetaNet, un hialat europèu d'excelléncia dedicat a la promocion de las plomasons tecnologicas d'ua societat multilingua de l'informacion en Euròpa. Hèit per mei de 200 expèrts internacionaus, aqueth estudi que hè un estat actuau de las ressorsas e tecnologias deu lengatge tà 30 lengas europèas en sheis maines : la traduccion automatica, la sintèsi vocau e la reconeishença vocau, la correccion ortografica, l'analisi semantica, l'analisi gramaticau e la generacion automatica de tèxte.

Que perpausa tanben ua grasilha comuna de classificacion e d'evaluacion de las ressorsas e utís numerics. Lo diagnostic deu sostien tecnologic de la lenga occitana que ns'a permetut purmèr de recaptar dadas objectivas tà çò de la situacion numerica de l'occitan (inventari) e, après escambis dab expèrts internacionaus (lengas basca, bretona, catalana e gualesa), d'identificar las mancas. Tad aquestas, la huelha de rota ací devath que perpausa ua projeccion de desvolopament sus cinc ans (2015-2019).

Tablèu 1 : Tablèu sintetic hèit a partir deu Diagnostic e huelha de rota tau desvolopament numeric de la lenga occitana : 2015-2019, Media.kom/Elhuyar, 2014.

 
2015
2016
2017
2018
2019
 
Ressorsas lingüisticas
 
 
 
 
 
 
Còrpus monolingüe especializat
 
 
V1
 
V2
 
Còrpus web monolingüe
 
 
X
 
 
 
Còrpus parallèle
 
 
 
X
 
 
Basa lexicau monolingua
V1
 
V2
 
 
 
Basa lexicau bilingua
 
 
X
 
 
 
Modèles gramaticaus e modèles de lengatge
 
X
 
 
 
 
Basa de coneishença lexicau
 
 
 
X
 
 
Ressorsas tà la reconeishença de la paraula
 
 
 
 
X
 
Utís intermediaris
 
 
 
 
 
 
Detector de l'occitan
X
 
 
 
 
 
Detector de las variantas
 
X
 
 
 
 
Analisator morfologic
 
X
 
 
 
 
Analisator sintaxic
 
 
 
 
X
 
Transcriptor enter variantas
 
 
X
 
 
 
Utís finaus
 
 
 
 
 
 
Corrector ortografic polivalent
 
X
 
 
 
 
Clavèr predictiu e autocorreccion
 
 
X
 
 
 
Traductor automatic oc->fr
 
 
X
 
 
 
Traductor automatic fr->oc
 
 
 
 
X
 
Sintèsi vocau
 
 
 
 
X
 
OS e aplicacions principaus
 
 
X
 
 
 

 

Lo diagrama ací devath que repren los elements en despartint los objectius en tres seccions (ressorsas, utís intermediaris e utís finaus) e en ensenhant las interdependéncias enter los « blòcs » : per exemple tà un traductor automatic de qualitat que hè besonh d’un analisator morfologic, e aqueth qu'a besonh en amont d'ua basa lexicau e de modèles gramaticaus. Un còrpus parallèle que pòt ajudar a perfeccionà'u. Aquesta lectura que'ns permet d'aver un vision estructurada deus tribalhs, e de pensar a la planificacion deus desvolopaments operacionaus.

Tablèu 2 : Document de sintèsi hèit a partir de la huelha de rota tau desvolopament numeric de la lenga occitana

Ressorsas, utís e dependéncias

Glossari :

Modèles gramaticaus e modèles de lengatge : que serà ua gramatica descriptiva de l'occitan organizada com un ensemble de règlas tà ua utilizacion en informatica (mei que mei taus analisators morfologic e sintaxic) dab lexics e còrpus anotats.

Basa lexicau monolingua : que serà la sòla de la màger part de las autas ressorsas e deus utís desvolopats. Qu'aurà ua lista de mots occitans, dab la categoria gramaticau (tipe, genre, nombre, etc.), las formas flexionaus (feminin, plurau, conjugasons, etc.), la varianta e eventuaument informacions tà çò de l'usatge (maine, registre, etc.). Que i aurà tanben lo ligam enter dus medishs mots tà mantuas variantas.

Basa lexicau bilingua : qu’ei la basa géncer tà la traduccion automatica. Qu’a entradas en occitan qui an los medishs camps que la basa lexicau monolingua, mes tanben la(s) lor(s) traduccion(s) en francés (a tèrmi, que’s pòt pensar tanben a la lor traduccion en catalan).

Basa de coneishença lexicau : qu’ei ua basa de coneishença lexicau qui liga mots o concèptes enter eths, dab relacions de categoria (ua poma qu'ei un hrut), de camp lexicau (« pan » e « cotèth »), de derivacion (« passat » e « passacion »), etc. WordNet, per exemple, qu'ei ua basa de coneishença lexicau.

Còrpus : un còrpus qu'ei un ensemble de documents amassats dens ua mira precisa. Dens lo domeni deu TAL (Tractament automatic deu lengatge), los còrpus textuaus son fòrça utils tà perfeccionar utís dab estatisticas suus mots e la lenga. Per exemple, tà un traductor automatic, lo còrpus parallèl francés-occitan que permeterà de saber que, estatisticament, lo nom « son » francés ei mei sovent revirat per « son » que per « bren ».

Còrpus monolingüe especializat : aqueth tipe de còrpus qu'amassa ua piela de tèxtes en occitan qui atèstan d’un usatge referenciau de lenga en divèrs maines sociaus (literatura, premsa, recèrca). Que son indispensables a la creacion deus utís o de las autas ressorsas.

Còrpus monolingüe web : que serà ua colleccion de tèxtes en occitan trobats sus Internet, shens seleccion en tèrmi de qualitat lingüistica. Que serviràn mei que mei a har estatisticas tà perfeccionar los utís.

Còrpus parallèle : qu'ei un còrpus qui amassa tèxtes qui an a cada còp au mensh duas versions qui corresponen au mensh a duas lengas diferentas. Lo còrpus parallèle occitan que serà un còrpus francés-occitan (sites web institucionaus, memòris, etc.).

Ressorsas tà la reconeishença de la paraula : segon la huelha de rota, non se pòt crear un vertadèr utís de reconeishença de la paraula (creacion d'escriut a partir d'un document orau) abans 2019. Començar que cau d'identificar e de crear las ressorsas qui hèn besonh a ua tecnologia d’aquera pagèra. Que poderà estar utilizada, per exemple, tà har sostitolatge automatic.

Detector de l'occitan : aqueth utís que poderà detectar automaticament se un tèxte ei en occitan.

Detector de las variantas de l'occitan : Aqueth utís que poderà detectar automaticament la varianta occitana d’un tèxte.

Analisator morfologic (lematizator) : un lematizator qu’ei un utís que hè ua analisi morfosintaxica deu contienut d'un tèxte. Qu'associa cada mot a la soa forma « canonica » (infinitiu taus vèrbes, masculin singular taus adjectius, etc.), la categoria gramaticau o partida d'un devís, lo genre, lo nombre, lo temps e lo mòde, la persona (ex. : parli->purmèra persona/singular, indicatiu present deu vèrbe parlar). Qu'a tanben informacions semanticas e referenciaus (definitud, quantificacion, animat/inanimat, uman/pas uman, etc.).

Analisator sintaxic (parser en anglés) : que hica en evidéncia l'estructura d'ua frasa. L'analisi que balha la faiçon dont los mots e son combinats dens lo tèxte. Que permet de conéisher las relacions de dependéncia deus sintagmas (grops de mots qui an ua foncion sintaxica particulara dens la frasa, per exemple lo subjècte).

Traductors automatics : que permeteràn, a partir d'un tèxte en occitan, d'obtiéner automaticament ua traduccion francesa, e invèrsament. Mercés au transcriptor de variantas, que poderà balhar la traduccion d'un tèxte en francés en quau varianta que sia.

Transcriptor automatic enter variantas : qu’a lo medish principi qu’un traductor automatic. Que permeterà, a partir d'un tèxte en ua varianta de l'occitan, d'obtiéner automaticament ua version en ua auta varianta.

Corrector ortografic polivalent : tà amuishar l'unitat de la lenga en respectant la soa diversitat, l'idea qu'ei d'aver un sol corrector ortografic qui perpause ua correccion dens totas las variantas. L'utilizator que poderà causir la(s) varianta(s) qui vòu tà la correccion. Lo corrector que serà suus logiciaus mei utilizats dab prioritat aus formats libres shens estremar los comerciaus (LibreOffice, OpenOffice, Microsoft Office, navigators, clients de corrics, seguida Adobe, etc.).

Clavèr predictiu e autocorreccion : aqueth utís que servirà aus telefonets, per exemple tà suggerir o corregir mots dens los SMS. Que permeterà de causir la soa varianta e que's poderà installar sus sistèmas operatius mei utilizats (Androïd, iOS).

Sintèsi vocau : la sintèsi vocau qu'ei la creacion de documents oraus a partir de documents escriuts. Qu'ei per exemple utilizada tà léger los noms de carrèra en los GPS, taus logiciaus d’assisténcia taus mauvedents, etc.

OS e aplicacions principaus : L'idea qu'ei de perpausar un sistèma operatiu taus ordinators cap e tot en occitan, e dab los logiciaus mei corrents tradusits (burotica, navigators, clients taus corrics...).

Véder tanben :