Du corpus au dictionnaire. Réalisation automatique d'un outil de gestion de l'information multilingue - Archive ouverte HAL Accéder directement au contenu
Article Dans Une Revue Cahiers de Linguistique Année : 2007

Du corpus au dictionnaire. Réalisation automatique d'un outil de gestion de l'information multilingue

Résumé

In this article, we propose an automatic process to build multi-lingual lexico-semantic resources. The goal of these resources is to browse semantically textual information contained in texts of different languages. This method uses a mathematical model called Atlas sémantiques in order to represent the different senses of each word. It uses the linguistic relations between words to create graphs that are projected into a semantic space. These projections constitute semantic maps that denote the sense trends of each given word. This model is fed with syntactic relations between words extracted from a corpus. Therefore, the lexico-semantic resource produced describes all the words and all their meanings observed in the corpus. The sense trends are expressed by syntactic contexts, typical for a given meaning. The link between each sense trend and the utterances used to build the sense trend are also stored in an index. Thus all the instances of a word in a particular sense are linked and can be browsed easily. And by using several corpora of different languages, several resources are built that correspond with each other through languages. It makes it possible to browse information through languages thanks to syntactic contexts translations (even if some of them are partial).
Dans cet article, nous proposons une méthode automatique de construction de ressources lexico-sémantiques multilingues pour naviguer par le sens à travers l'information contenue dans des bases textuelles de langues différentes. Cette méthode s'appuie sur un modèle mathématique de représentation du sens appelé Atlas sémantiques, qui consiste à exploiter des relations linguistiques entre des unités lexicales pour construire des graphes, projetés dans un espace sémantique qui constitue une carte dénotant les tendances de sens d'un mot considéré. À partir de l'analyse morpho-syntaxique d'un corpus, et en utilisant les relations syntaxiques entre les items du corpus, il est possible de constituer une ressource lexico-sémantique qui décrit l'ensemble des sens attestés dans le corpus pour tout le lexique qui y est représenté, grâce aux contextes syntaxiques typiques des entrées décrites. Il est également possible de conserver un lien systématique entre les tendances de sens représentées et les énoncés qui ont servi à les construire, et donc de relier toutes les instances d'un mot dans un sens donné pour naviguer entre elles. Il est également possible, en utilisant des corpus de langues différentes, de construire des ressources qui se correspondent entre langues, et de naviguer entre les textes grâce à la traduction, même partielle, des contextes syntaxiques.
Fichier principal
Vignette du fichier
JacqueminPloux-final.pdf (247.71 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-00355962 , version 1 (26-01-2009)
hal-00355962 , version 2 (26-01-2009)

Identifiants

Citer

Bernard Jacquemin, Sabine Ploux. Du corpus au dictionnaire. Réalisation automatique d'un outil de gestion de l'information multilingue. Cahiers de Linguistique, 2007, 33 (1), pp.63-82. ⟨hal-00355962v2⟩
304 Consultations
1221 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More