Construction d'un corpus parallèle français-comorien en utilisant de la TA français-swahili - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2016

Construction d'un corpus parallèle français-comorien en utilisant de la TA français-swahili

Résumé

Building a French-Comorian parallel corpus using French-Swahili MT Comorian or shikomori is a macro-language made of 4 dialects very near one to another (ngazidja, maore, mweli, ndzuani), and quite near to swahili. It is quite under-resourced as far as computerized linguistic resources are concerned, having neither corpora nor dictionaries nor correction or machine translation (MT) tools. It is hence a priori not possible to build efficiently a parallel corpus, as we know how to build one using MT followed by online post-editing (PE): for French-Chinese, 17 mn/page with Google Translate (GT), 12 mn/page with the MosesLIG.fr-zh MT system and SECTra/ iMAG. We are however on the way to achieve it by post-editing swahili "pre-translations" produced by GT. Swahili is used here not as a pivot language, but as an auxiliary target language. We have now a good quality French-Ngazidja corpus containing 14 articles of the Alwatwan newspaper (899 segments, 16224 words, 65 standard pages). We extract in parallel bilingual lexical correspondences. The first application will be the active reading of French for Comorian speakers; it will use the dictionary and the MT system respectively derived from the lexical database and the growing bilingual corpus.
Le comorien ou shikomori est une macro-langue constituée de 4 dialectes (ngazidja, maore, mwali, ndzuani) très proches entre eux, et assez proches du swahili. Il est très peu doté au niveau des ressources linguistiques informatisées, n'ayant ni corpus, ni dictionnaires, ni outils de correction ou de traduction. Il n'est donc a priori pas possible de construire efficacement un corpus parallèle, comme on sait le faire par TA suivie de post-édition (PE) interactive : en français-chinois, 17 mn/page avec Google Translate (GT), 12 mn/page avec le système de TA MosesLIG.fr-zh en utilisant SECTra/iMAG. Nous sommes cependant en train d'y arriver en post-éditant des pré-traductions en swahili produites par GT. Le swahili est utilisé ici non comme langue pivot, mais comme langue cible auxiliaire. Nous avons maintenant un corpus de bonne qualité français-ngazidja formé de 34 articles du journal Alwatwan (899 segments, 16224 mots, 65 pages standard). Nous extrayons en parallèle des correspondances lexicales bilingues. La première application sera la lecture active du français pour des locuteurs du comorien ; elle utilisera le dictionnaire et le système de TA dérivés respectivement de la base lexicale et du corpus, en croissance.
Fichier principal
Vignette du fichier
ABDOURAHAMANE_ET_AL - Construction d’un corpus parallèle français-comorien en utilisant de la TA français-swahili.pdf (670.1 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01992871 , version 1 (24-01-2019)

Identifiants

  • HAL Id : hal-01992871 , version 1

Citer

Moneim Abdourahamane, Christian Boitet, Valérie Bellynck, Lingxiao Wang, Hervé Blanchon. Construction d'un corpus parallèle français-comorien en utilisant de la TA français-swahili. TALAf (Traitement Automatique des Langues africaines), Jul 2016, Paris, France. ⟨hal-01992871⟩
101 Consultations
48 Téléchargements

Partager

Gmail Facebook X LinkedIn More