Construction d'un système lexical multilingue, libre de droits, centré sur le français et le japonais via des méthodes automatiques et contributives

Résumé : Bien que le français et le japonais soient considérées comme des langues bien dotées au niveau des outils et des ressources linguistiques, le couple français-japonais est considéré comme un couple de langues peu doté. Il existe en effet peu de ressources lexicales bilingues électroniques de qualité et libres de droits. Les corpus bilingues ali- gnés et les systèmes de traduction automatique français-japonais sont logiquement tout aussi rares. Pour des raisons historiques autant que pratiques, les Japonais ont mis rapidement l’ac- cent sur l’anglais. Le couple anglais-japonais est donc l’un des mieux dotés à l’heure actuelle avec des ressources très conséquentes. Les dictionnaires japonais-français existants de bonne qualité sont des dictionnaires éditoriaux qui n’existent qu’au format papier ou compilé dans des dictionnaires électro- niques (denshi-jishou). Il n'existe pas d'interface de consultation en ligne. Partant de ce constat, nous avons défini le projet suivant qui consiste à construire un système lexical multilingue riche d’informations avec priorité sur le couple de langues français-japonais. Ce système sera constitué d'une part d'un corpus bilingue aligné fran- çais-japonais et d'autre part d'un dictionnaire bilingue à structure pivot. Le corpus bilingue sera constitué de textes enrichis avec des outils d'analyse automa- tique. Il servira de source pour trouver des exemples. Il peut également être utilisé en traduction automatique statistique, lexicométrie, étude de textes, etc. La construction du dictionnaire se fera d'une part par la réutilisation de ressources exis- tantes (lexiques franco-japonais, Wiktionary) et leur exploitation automatique (réification de liens de traduction, désambiguïsation de sens de mots) et d'autre part par des contri- buteurs bénévoles travaillant en communauté sur le Web. La microstructure des articles est très détaillée et utilise les fonctions-lexicales pour dé- crire les collocations. La macrostructure est constituée de volumes monolingues reliées entre eux au niveau des sens de mot par un volume pivot. Chaque article se verra attri- buer un niveau de qualité. Les ressources ainsi produites seront libres de droits, disponibles en téléchargement public et destinées à être utilisées aussi bien par des humains via des dictionnaires bi- lingues classiques que par des machines (analyse, traduction automatique, etc.). Nous cherchons actuellement des textes et des lexiques bilingues. Si vous êtes dans ce cas, contactez-nous !
Type de document :
Communication dans un congrès
Journée Francophone de la Recherche, Nov 2014, Tokyo, Japon. 2014
Liste complète des métadonnées

https://hal.archives-ouvertes.fr/hal-01107549
Contributeur : Mathieu Mangeot <>
Soumis le : mercredi 21 janvier 2015 - 08:55:14
Dernière modification le : jeudi 11 octobre 2018 - 08:48:03
Document(s) archivé(s) le : mercredi 22 avril 2015 - 10:30:31

Fichier

JFR2014_MM.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01107549, version 1

Collections

Citation

Mathieu Mangeot. Construction d'un système lexical multilingue, libre de droits, centré sur le français et le japonais via des méthodes automatiques et contributives. Journée Francophone de la Recherche, Nov 2014, Tokyo, Japon. 2014. 〈hal-01107549〉

Partager

Métriques

Consultations de la notice

208

Téléchargements de fichiers

265