Construction d'un système lexical multilingue, libre de droits, centré sur le français et le japonais via des méthodes automatiques et contributives : Projet de recherche au Japon

Résumé : Ce projet de recherche se situe dans le domaine du traitement automatique des langues (TAL), à la croisée de l’informatique et de la linguistique, plus précisément sur la lexicographie et la lexicologie multilingues. Lors d'un premier long séjour au Japon de novembre 2001 à mars 2004, nous avions fait le constat que les ressources lexicales français-japonais disponibles sur le Web étaient quasi inexistantes. Ce qui avait donné naissance au projet Papillon de construction d'une base lexicale multilingue à structure pivot (Sérasset et al., 2001). Depuis, des progrès ont été faits dans plusieurs domaines (technique, théorique, social) (Mangeot, 2006) mais la production concrète de données a très peu progressé. D'autre part, la réutilisation de ressources lexicales est à la mode (désambiguïsation lexicale, utilisation de ressources en source ouverte (Wiktionary, dbpedia), fusion avec des ontologies, etc.). Même si elles permettent de consolider et d'élargir la couverture des ressources existantes, ces expériences partent toujours de données créées à la main par des lexicographes. Partant de ce constat, nous avons défini le projet suivant qui consiste à construire un système lexical multilingue riche d’informations avec priorité sur le couple de langues français-japonais. La construction se fera d'une part par la réutilisation de ressources existantes (lexiques franco-japonais, Wiktionary) et leur exploitation automatique (réification de liens de traduction, désambiguïsation de sens de mots) et d'autre part par des contributeurs bénévoles travaillant en communauté sur le Web. Ceux-ci seront amenés à contribuer soit via des jeux lexicaux sérieux, soit directement sur les articles de dictionnaire en fonction de leur niveau d’expertise et de leurs connaissances dans le domaine de la lexicographie ou de la traduction bilingue. Les ressources ainsi produites seront libres de droits et destinées à être utilisées aussi bien par des humains via des dictionnaires bilingues classiques que par des machines pour des outils de traitement automatique de la langue (analyse, traduction automatique, etc.). Nous effectuerons d’abord un bref état des lieux de la lexicographie bilingue en général puis du couple français-japonais en particulier. Nous présenterons ensuite les récentes avancées dans le domaine de la construction de ressources lexicales en ligne. Puis, nous décrirons plus en détails le système lexical que nous envisageons de construire. Nous terminerons par une description des étapes nécessaires à cette construction.
Type de document :
Rapport
[Rapport de recherche] Laboratoire d'Informatique de Grenoble. 2014
Liste complète des métadonnées

Littérature citée [18 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/hal-01294561
Contributeur : Mathieu Mangeot <>
Soumis le : mardi 29 mars 2016 - 14:28:09
Dernière modification le : jeudi 11 octobre 2018 - 08:48:03
Document(s) archivé(s) le : jeudi 30 juin 2016 - 16:31:45

Fichier

ProjetDeRechercheAuJaponMathie...
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01294561, version 1

Collections

Citation

Mathieu Mangeot. Construction d'un système lexical multilingue, libre de droits, centré sur le français et le japonais via des méthodes automatiques et contributives : Projet de recherche au Japon. [Rapport de recherche] Laboratoire d'Informatique de Grenoble. 2014. 〈hal-01294561〉

Partager

Métriques

Consultations de la notice

144

Téléchargements de fichiers

195