Espaces intrinsèques des relations entre mots : une exploration multi-échelle.

Résumé : Déterminer les liens de co-occurrence entre les mots d'un ensemble de textes nécessite le choix d'un empan, c'est à dire d'un découpage en individus statistiques de plus ou moins grande taille : depuis le simple N-gramme (empan glissant de N mots) jusqu'au texte complet, en passant par le virgulot, la phrase, le paragraphe, etc. Ces liens peuvent donner lieu à diverses catégorisations des mots, selon la "focale" utilisée. Notre étude porte sur un corpus d'articles de presse (3 mois de controverses sur les OGM et les perturbateurs endocriniens) auquel nous appliquons 1) notre procédure Morph d'étiquetage morpho-syntactique, de façon à désambiguer, étiqueter et lemmatiser au mieux la séquence des formes présentes, 2) notre test de validation des liens, par randomisations multiples de la matrice de présence des lemmes étiquetés dans les unités textuelles du niveau choisi, 3) notre procédure de détermination de la dimension intrinsèque de cette matrice, dont découle une estimation du nombre de clusters pertinents pour chaque niveau de granularité de l'analyse. Nos résultats montrent que les niveaux les plus grands détectent les "histoires" dont il est question dans le corpus, ceux de grain intermédiaire détectent en premier lieu les styles, puis les collocations, de degré de figement plus ou moins important. Cette approche 1) généralise celle de l'étiquetage non-supervisé de Schütze et al. (1995), basée sur les N-grammes de mots, 2) détermine l'espace de représentation optimal des mots et des unités de texte choisies, i.e. celui des K* premiers facteurs non-triviaux d'analyse factorielle des correspondances de la matrice (binaire, jusqu'ici), où K* est déterminé par un test de randomisation, adapté à n'importe quelle répartition des effectifs en lignes et en colonnes.
Type de document :
Communication dans un congrès
Mathieu Valette; Serge Fleury. JADT 2014 : 12e Journées internationales d'Analyse statistique des Données Textuelles, Jun 2014, Paris, France. INALCO, pp.409-420, 2014
Liste complète des métadonnées

Littérature citée [18 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/hal-01067984
Contributeur : Alain Lelu <>
Soumis le : mercredi 24 septembre 2014 - 14:46:50
Dernière modification le : vendredi 6 juillet 2018 - 14:46:01
Document(s) archivé(s) le : jeudi 25 décembre 2014 - 10:55:41

Fichier

article_AL-AZ_V6.pdf
Accord explicite pour ce dépôt

Identifiants

  • HAL Id : hal-01067984, version 1

Citation

Alain Lelu, Azim Roussanaly. Espaces intrinsèques des relations entre mots : une exploration multi-échelle.. Mathieu Valette; Serge Fleury. JADT 2014 : 12e Journées internationales d'Analyse statistique des Données Textuelles, Jun 2014, Paris, France. INALCO, pp.409-420, 2014. 〈hal-01067984〉

Partager

Métriques

Consultations de la notice

324

Téléchargements de fichiers

119