Tractament automatic de l'occitan : qualques piadas en abans - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2018

Natural Language Processing for Occitan : a few steps forward

Tractament automatic de l'occitan : qualques piadas en abans

Myriam Bras
  • Fonction : Auteur
  • PersonId : 1046948

Résumé

Se pòt constatar, a l'ora d'ara dins la recèrca en linguistica, de mai en mai d'interés per la bastison de corpora, de lexics e d'aisinas de tractament automatic per las lengas qu'an pas o pauc de resorgas d'aquesta mena, dichas lengas « pauc provesidas ». Per aquelas lengas, que l'occitan ne fa partida, l'informatizacion es pas o pauc rendabla e los finançaments per desvolopar aquelas aisinas electronicas son pas de bon trobar. Pr'aquò, es bravament important de provesir aquelas lengas de resorgas electronicas coma de corpora, de lexics e de diccionaris, tant plan coma d'aisinas informaticas per tal d'assegurar lor difusion, lor salvagarda e lor ensenhament, mai que mai als neoparlaires. Dins una amira pus larga, provesir las lengas pauc provesidas permet d'aparar melhor la diversitat de las lengas del monde e de far créisser las donadas a posita dels cercaires en letras e en scienças umanas e socialas-linguistica, psicologia, antropologia, literatura, istòria... Aquesta comunicacion prepausa de porgir a la communautat de la linguistica occitana las resultas del projècte RESTAURE (RESsorgas informatizadas e Tractament AUtomatic per las lengas REgionalas, 2015-2018) ont de cercaires en linguistica occitana se metèron amassa amb de cercaires sus doas autras lengas de França pauc provesidas, lo Picard e l'Alsacian, per bastir d'aisinas e de ressorgas per porgir de ressorgas informatizadas e d'aisinas de tractament automatic per las tres lengas. I desvolopèron de modèls adaptats a las tres lengas en complir l'escomesa d'o far amb pauc de ressorgas per cada lenga e la realitat de lengas pas gaire o pas totalament estandardizadas. Porgirem dins la communicacion las aisinas màgers de la cadena de tractament : lo segmentaire (aisina per segmentar las frasas en mots), l'analisaire morfa-sintactic (aisina per etiquetar los mots amb las categorias gramaticalas e las informacions morfo-sintacticas), lo lexic de formas flechidas e los corpora de tèxtes anotats necites per aquò far. Dins lo debanament del projècte RESTAURE, faguèrem primièr un analisaire morfo-sintactic pel lengadocian, puèi l'utilisèrem per analisar automaticament de tèxtes en gascon, provençau, auvernhàs, vivaro-aupenc e lemosin. Lo bilanç d'aquela experiénça permetrà de noirir lo debat sus l'operativitat de las divisions dialectalas prepausat per l'OLO 2018.

Mots clés

Domaines

Linguistique
Fichier non déposé

Dates et versions

hal-01971538 , version 1 (19-01-2019)

Identifiants

  • HAL Id : hal-01971538 , version 1

Citer

Myriam Bras. Tractament automatic de l'occitan : qualques piadas en abans. Obrador de Linguistica Occitana, Jul 2018, Pau, France. ⟨hal-01971538⟩
48 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More