Espaces intrinsèques des relations entre mots : une exploration multi-échelle. - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2014

Espaces intrinsèques des relations entre mots : une exploration multi-échelle.

Résumé

Déterminer les liens de co-occurrence entre les mots d'un ensemble de textes nécessite le choix d'un empan, c'est à dire d'un découpage en individus statistiques de plus ou moins grande taille : depuis le simple N-gramme (empan glissant de N mots) jusqu'au texte complet, en passant par le virgulot, la phrase, le paragraphe, etc. Ces liens peuvent donner lieu à diverses catégorisations des mots, selon la "focale" utilisée. Notre étude porte sur un corpus d'articles de presse (3 mois de controverses sur les OGM et les perturbateurs endocriniens) auquel nous appliquons 1) notre procédure Morph d'étiquetage morpho-syntactique, de façon à désambiguer, étiqueter et lemmatiser au mieux la séquence des formes présentes, 2) notre test de validation des liens, par randomisations multiples de la matrice de présence des lemmes étiquetés dans les unités textuelles du niveau choisi, 3) notre procédure de détermination de la dimension intrinsèque de cette matrice, dont découle une estimation du nombre de clusters pertinents pour chaque niveau de granularité de l'analyse. Nos résultats montrent que les niveaux les plus grands détectent les "histoires" dont il est question dans le corpus, ceux de grain intermédiaire détectent en premier lieu les styles, puis les collocations, de degré de figement plus ou moins important. Cette approche 1) généralise celle de l'étiquetage non-supervisé de Schütze et al. (1995), basée sur les N-grammes de mots, 2) détermine l'espace de représentation optimal des mots et des unités de texte choisies, i.e. celui des K* premiers facteurs non-triviaux d'analyse factorielle des correspondances de la matrice (binaire, jusqu'ici), où K* est déterminé par un test de randomisation, adapté à n'importe quelle répartition des effectifs en lignes et en colonnes.
Fichier principal
Vignette du fichier
article_AL-AZ_V6.pdf (158.59 Ko) Télécharger le fichier
Origine : Accord explicite pour ce dépôt
Loading...

Dates et versions

hal-01067984 , version 1 (24-09-2014)

Identifiants

  • HAL Id : hal-01067984 , version 1

Citer

Alain Lelu, Azim Roussanaly. Espaces intrinsèques des relations entre mots : une exploration multi-échelle.. JADT 2014 : 12e Journées internationales d'Analyse statistique des Données Textuelles, Jun 2014, Paris, France. pp.409-420. ⟨hal-01067984⟩
257 Consultations
99 Téléchargements

Partager

Gmail Facebook X LinkedIn More