Longueur de branches et arbres de mots - Archive ouverte HAL Accéder directement au contenu
Article Dans Une Revue Corpus Année : 2012

Longueur de branches et arbres de mots

Résumé

Les arbres de mots constituent un des outils de la statistique textuelle pour visualiser les relations sémantiques entre mots d'un texte. Les méthodes de construction de ces arbres à partir d'une distance de co-occurrence dans le texte produisent des arbres dont les longueurs d'arêtes se prêtent mal à l'analyse. Pour faciliter l'interprétation visuelle de l'arbre, l'idéal serait que des longues arêtes séparent des classes sémantiques de mots. Ainsi, découper les arêtes les plus longues de l'arbre devrait conduire à une partition de l'ensemble des mots qui fournit des classes pertinentes. À l'aide de deux corpus dont un sous-ensemble de mots a été partitionné en un ensemble de classes sémantiques, nous évaluons plusieurs formules permettant de recalculer les longueurs d'arêtes de l'arbre construit à partir des distances de co-occurrence, afin de rendre l'interprétation de l'arbre plus facile et plus fiable.
Fichier principal
Vignette du fichier
2012GambetteGalaNasr.pdf (338.51 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-00822993 , version 1 (15-05-2013)

Identifiants

  • HAL Id : hal-00822993 , version 1

Citer

Philippe Gambette, Núria Gala, Alexis Nasr. Longueur de branches et arbres de mots. Corpus, 2012, 11 (-), pp.129-146. ⟨hal-00822993⟩
504 Consultations
307 Téléchargements

Partager

Gmail Facebook X LinkedIn More