Construction d'un système lexical multilingue, libre de droits, centré sur le français et le japonais via des méthodes automatiques et contributives - Archive ouverte HAL Accéder directement au contenu
Rapport (Rapport De Recherche) Année : 2014

Construction d'un système lexical multilingue, libre de droits, centré sur le français et le japonais via des méthodes automatiques et contributives

Résumé

Ce projet de recherche se situe dans le domaine du traitement automatique des langues (TAL), à la croisée de l’informatique et de la linguistique, plus précisément sur la lexicographie et la lexicologie multilingues. Lors d'un premier long séjour au Japon de novembre 2001 à mars 2004, nous avions fait le constat que les ressources lexicales français-japonais disponibles sur le Web étaient quasi inexistantes. Ce qui avait donné naissance au projet Papillon de construction d'une base lexicale multilingue à structure pivot (Sérasset et al., 2001). Depuis, des progrès ont été faits dans plusieurs domaines (technique, théorique, social) (Mangeot, 2006) mais la production concrète de données a très peu progressé. D'autre part, la réutilisation de ressources lexicales est à la mode (désambiguïsation lexicale, utilisation de ressources en source ouverte (Wiktionary, dbpedia), fusion avec des ontologies, etc.). Même si elles permettent de consolider et d'élargir la couverture des ressources existantes, ces expériences partent toujours de données créées à la main par des lexicographes. Partant de ce constat, nous avons défini le projet suivant qui consiste à construire un système lexical multilingue riche d’informations avec priorité sur le couple de langues français-japonais. La construction se fera d'une part par la réutilisation de ressources existantes (lexiques franco-japonais, Wiktionary) et leur exploitation automatique (réification de liens de traduction, désambiguïsation de sens de mots) et d'autre part par des contributeurs bénévoles travaillant en communauté sur le Web. Ceux-ci seront amenés à contribuer soit via des jeux lexicaux sérieux, soit directement sur les articles de dictionnaire en fonction de leur niveau d’expertise et de leurs connaissances dans le domaine de la lexicographie ou de la traduction bilingue. Les ressources ainsi produites seront libres de droits et destinées à être utilisées aussi bien par des humains via des dictionnaires bilingues classiques que par des machines pour des outils de traitement automatique de la langue (analyse, traduction automatique, etc.). Nous effectuerons d’abord un bref état des lieux de la lexicographie bilingue en général puis du couple français-japonais en particulier. Nous présenterons ensuite les récentes avancées dans le domaine de la construction de ressources lexicales en ligne. Puis, nous décrirons plus en détails le système lexical que nous envisageons de construire. Nous terminerons par une description des étapes nécessaires à cette construction.
Fichier principal
Vignette du fichier
ProjetDeRechercheAuJaponMathieuMANGEOT.pdf (796.82 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01294561 , version 1 (29-03-2016)

Identifiants

  • HAL Id : hal-01294561 , version 1

Citer

Mathieu Mangeot. Construction d'un système lexical multilingue, libre de droits, centré sur le français et le japonais via des méthodes automatiques et contributives : Projet de recherche au Japon. [Rapport de recherche] Laboratoire d'Informatique de Grenoble. 2014. ⟨hal-01294561⟩
146 Consultations
192 Téléchargements

Partager

Gmail Facebook X LinkedIn More