Contexte et sémantique pour une indexation de documents semi-structurés. - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2004

Contexte et sémantique pour une indexation de documents semi-structurés.

Résumé

Les documents semi-structurés comme les documents XML présentent l'avantage de posséder une structure explicite qui facilite leur présentation et leur exploitation dans différents contextes. Cependant, très souvent, la majeure partie de l'information reste contenue dans les champs textuels. Il est donc devenu primordial de concevoir des méthodes permettant d'exploiter à la fois la structure et le contenu textuel de ces documents. Les techniques classiques de Recherche d'Information (RI) n'utilisent pas ou peu la structure des documents alors que les langages de requête issus de la communauté Bases de Données (BD) n'exploitent pas le contenu textuel et ne permettent pas une présentation des résultats par ordre de pertinence. De plus en plus de chercheurs essaient de combiner les approches de RI et de BD pour pallier leurs limites respectives. Dans ce travail, nous présentons une structure d'index qui permet des requêtes structurées et une présentation des résultats par ordre de pertinence. Pour cela, nous avons étendu le modèle vectoriel de Salton pour une vue bi-dimensionnelle du document en adaptant le calcul du TF-IDF. Par ailleurs, nous proposons d'utiliser une ontologie reliée aux termes du corpus pour modéliser la notion de voisinage sémantique à l'aide d'un calcul de similarité entre termes. Cette indexation permet donc une recherche contextuelle (par la structure) et sémantique (par l'ontologie).
Fichier non déposé

Dates et versions

hal-00094461 , version 1 (14-09-2006)

Identifiants

  • HAL Id : hal-00094461 , version 1

Citer

Haifa Zargayouna. Contexte et sémantique pour une indexation de documents semi-structurés.. 2004, pp.161-178. ⟨hal-00094461⟩
53 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More