Représentation vectorielle pour l'indexation d'informations structurelles - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2008

Représentation vectorielle pour l'indexation d'informations structurelles

Résumé

Cet article présente une représentation vectorielle des données structurées visant à réduire la complexité des calculs de dissimilarités dans un contexte de recherche d'information. Cette représentation permet via un calcul de distance adapté, d'approximer la distance entre représentations structurelles aussi bien dans un contexte de distance entre graphes que pour la recherche d'occurences de sousgraphes. De premières expérimentations montrent que la représentation proposée offre des performances comparables à celles de la littérature utilisées pour approximer des distances entre graphes. Mots-clés : Signature de graphes ­ Indexation et recherche d'information structurée ture. Les travaux décrits dans cet article s'inscrivent dans cette démarche. Suivant le cadre applicatif, les informations structurelles décrivent différents aspects du document : 1. La description physique du document, l'agencement des différents paragraphes, des illustrations, des titres, etc... Par exemple, la mise en page d'une page d'un annuaire est significative et reconnaissable au premier coup d'oeil ; 2. L'organisation logique (titre, section, sous-section, paragraphe,...) permet également de différencier des ouvrages, un journal d'un roman par exemple ; 3. Certains types de formes sont souvent représentés par des informations structurelles. C'est le cas, en particulier, des symboles graphiques apparaissant sur les documents techniques. La recherche d'information vise à établir la pertinence d'un document vis-à-vis d'une requête formulée par un utilisateur. Lorsque les documents sont décrits par des informations structurelles, cette mesure de la pertinence est souvent basée sur un calcul de distance entre les représentations structurelles des documents d'une part et de la requête d'autre part. L'objectif est alors de proposer les k documents dont les descriptions structurelles sont le plus en adéquation avec le graphe requête. En effet, la notion de structure d'un document étant sujette à différentes interprétations suivant l'utilisateur, il est important de pouvoir proposer à l'utilisateur de faire le choix final. Ces informations sont presque toujours représentées sous forme de graphes. On trouve d'ailleurs beaucoup de méthodes cherchant à valuer un graphe pour obtenir une représentation de ce type. Cependant, le calcul d'une distance graphe à graphe relève d'un problème NP-Complet. Cette complexité croît de façon exponentielle avec le nombre de noeuds et d'arcs. Cette complexité a souvent dissuadé de l'usage des graphes, mode de représentation pourtant apprécié en raison de son grand pouvoir d'expression.
Fichier principal
Vignette du fichier
paper-8.pdf (274.2 Ko) Télécharger le fichier
Origine : Accord explicite pour ce dépôt

Dates et versions

hal-00335034 , version 1 (28-10-2008)

Identifiants

  • HAL Id : hal-00335034 , version 1

Citer

Nicolas Sidère, Pierre Héroux, Jean-Yves Ramel. Représentation vectorielle pour l'indexation d'informations structurelles. Colloque International Francophone sur l'Ecrit et le Document, Oct 2008, France. pp.19-24. ⟨hal-00335034⟩
202 Consultations
322 Téléchargements

Partager

Gmail Facebook X LinkedIn More