Représentation vectorielle pour l'indexation d'informations structurelles

Résumé : Cet article présente une représentation vectorielle des données structurées visant à réduire la complexité des calculs de dissimilarités dans un contexte de recherche d'information. Cette représentation permet via un calcul de distance adapté, d'approximer la distance entre représentations structurelles aussi bien dans un contexte de distance entre graphes que pour la recherche d'occurences de sousgraphes. De premières expérimentations montrent que la représentation proposée offre des performances comparables à celles de la littérature utilisées pour approximer des distances entre graphes. Mots-clés : Signature de graphes ­ Indexation et recherche d'information structurée ture. Les travaux décrits dans cet article s'inscrivent dans cette démarche. Suivant le cadre applicatif, les informations structurelles décrivent différents aspects du document : 1. La description physique du document, l'agencement des différents paragraphes, des illustrations, des titres, etc... Par exemple, la mise en page d'une page d'un annuaire est significative et reconnaissable au premier coup d'oeil ; 2. L'organisation logique (titre, section, sous-section, paragraphe,...) permet également de différencier des ouvrages, un journal d'un roman par exemple ; 3. Certains types de formes sont souvent représentés par des informations structurelles. C'est le cas, en particulier, des symboles graphiques apparaissant sur les documents techniques. La recherche d'information vise à établir la pertinence d'un document vis-à-vis d'une requête formulée par un utilisateur. Lorsque les documents sont décrits par des informations structurelles, cette mesure de la pertinence est souvent basée sur un calcul de distance entre les représentations structurelles des documents d'une part et de la requête d'autre part. L'objectif est alors de proposer les k documents dont les descriptions structurelles sont le plus en adéquation avec le graphe requête. En effet, la notion de structure d'un document étant sujette à différentes interprétations suivant l'utilisateur, il est important de pouvoir proposer à l'utilisateur de faire le choix final. Ces informations sont presque toujours représentées sous forme de graphes. On trouve d'ailleurs beaucoup de méthodes cherchant à valuer un graphe pour obtenir une représentation de ce type. Cependant, le calcul d'une distance graphe à graphe relève d'un problème NP-Complet. Cette complexité croît de façon exponentielle avec le nombre de noeuds et d'arcs. Cette complexité a souvent dissuadé de l'usage des graphes, mode de représentation pourtant apprécié en raison de son grand pouvoir d'expression.
Type de document :
Communication dans un congrès
Antoine Tabbone et Thierry Paquet. Colloque International Francophone sur l'Ecrit et le Document, Oct 2008, France. Groupe de Recherche en Communication Ecrite, pp.19-24, 2008
Liste complète des métadonnées

https://hal.archives-ouvertes.fr/hal-00335034
Contributeur : Sébastien Adam <>
Soumis le : mardi 28 octobre 2008 - 12:05:49
Dernière modification le : mercredi 11 octobre 2017 - 11:18:05
Document(s) archivé(s) le : lundi 7 juin 2010 - 20:35:35

Fichier

paper-8.pdf
Accord explicite pour ce dépôt

Identifiants

  • HAL Id : hal-00335034, version 1

Collections

Citation

Nicolas Sidère, Pierre Héroux, Jean-Yves Ramel. Représentation vectorielle pour l'indexation d'informations structurelles. Antoine Tabbone et Thierry Paquet. Colloque International Francophone sur l'Ecrit et le Document, Oct 2008, France. Groupe de Recherche en Communication Ecrite, pp.19-24, 2008. 〈hal-00335034〉

Partager

Métriques

Consultations de
la notice

116

Téléchargements du document

316