Extraction de concepts et de relations entre concepts à partir des documents multilingues : approche statistique et ontologique

Farah Harrathi 1
1 DRIM - Distribution, Recherche d'Information et Mobilité
LIRIS - Laboratoire d'InfoRmatique en Image et Systèmes d'information
Résumé : Les travaux menés dans le cadre de cette thèse se situent dans la problématique de recherche- indexation des documents et plus spécifiquement dans celle de l’extraction des descripteurs sémantiques pour l’indexation. Le but de la Recherche d’Information (RI) est de mettre en œuvre un ensemble de modèles et de systèmes permettant la sélection d’un ensemble de documents satisfaisant un besoin utilisateur en termes d’information exprimé sous forme d’une requête. Un Système de Recherche d’Information (SRI) est composé principalement de deux processus. Un processus de représentation et un processus de recherche. Le processus de représentation est appelé indexation, il permet de représenter les documents et la requête par des descripteurs ou des indexes. Ces descripteurs reflètent au mieux le contenu des documents. Le processus de recherche consiste à comparer les représentations des documents à la représentation de la requête. Dans les SRIs classiques, les descripteurs utilisés sont des mots (simples ou composés). Ces SRIs considèrent le document comme étant un ensemble de mots, souvent appelé “ sac de mots ”. Dans ces systèmes, les mots sont considérés comme des graphies sans sémantique. Les seules informations exploitées concernant ces mots sont leurs fréquences d’apparition dans les documents. Ces systèmes ne prennent pas en considération les relations sémantiques entre les mots. Par exemple, il est impossible de trouver des documents représentés par un mot M1 synonyme d’un mot M2, dans le cas où la requête est représentée par M2. Aussi, dans un SRI classique un document indexé par le terme “ bus ” ne sera jamais retrouvé par une requête indexée par le terme “taxi ”, pourtant il s’agit de deux termes qui traitent le même thème “ moyen de transport ”. Afin de remédier à ces limites, plusieurs travaux se sont intéressés à la prise en compte de l’aspect sémantique des termes d’indexation. Ce type d’indexation est appelé indexation sémantique ou conceptuelle.
Type de document :
Pré-publication, Document de travail
4556; T. 2009
Liste complète des métadonnées

https://hal.archives-ouvertes.fr/hal-01465800
Contributeur : Équipe Gestionnaire Des Publications Si Liris <>
Soumis le : lundi 13 février 2017 - 10:27:54
Dernière modification le : mardi 14 février 2017 - 01:10:32

Identifiants

  • HAL Id : hal-01465800, version 1

Collections

Citation

Farah Harrathi. Extraction de concepts et de relations entre concepts à partir des documents multilingues : approche statistique et ontologique. 4556; T. 2009. <hal-01465800>

Partager

Métriques

Consultations de la notice

119