Espaces intrinsèques des relations entre mots : une exploration multi-échelle.

Alain Lelu; Azim Roussanaly

Communication Dans Un Congrès Année : 2014

Espaces intrinsèques des relations entre mots : une exploration multi-échelle.

(1, 2) , (2)

1
2

Alain Lelu

Fonction : Auteur

Edition, Littératures, Langages, Informatique, Arts, Didactique, Discours - UFC (UR 4661)

Knowledge Information and Web Intelligence

Azim Roussanaly

Fonction : Auteur
PersonId : 170011
IdHAL : azim-roussanaly
ORCID : 0000-0002-3311-3613
IdRef : 034126732

Knowledge Information and Web Intelligence

Résumé

Déterminer les liens de co-occurrence entre les mots d'un ensemble de textes nécessite le choix d'un empan, c'est à dire d'un découpage en individus statistiques de plus ou moins grande taille : depuis le simple N-gramme (empan glissant de N mots) jusqu'au texte complet, en passant par le virgulot, la phrase, le paragraphe, etc. Ces liens peuvent donner lieu à diverses catégorisations des mots, selon la "focale" utilisée. Notre étude porte sur un corpus d'articles de presse (3 mois de controverses sur les OGM et les perturbateurs endocriniens) auquel nous appliquons 1) notre procédure Morph d'étiquetage morpho-syntactique, de façon à désambiguer, étiqueter et lemmatiser au mieux la séquence des formes présentes, 2) notre test de validation des liens, par randomisations multiples de la matrice de présence des lemmes étiquetés dans les unités textuelles du niveau choisi, 3) notre procédure de détermination de la dimension intrinsèque de cette matrice, dont découle une estimation du nombre de clusters pertinents pour chaque niveau de granularité de l'analyse. Nos résultats montrent que les niveaux les plus grands détectent les "histoires" dont il est question dans le corpus, ceux de grain intermédiaire détectent en premier lieu les styles, puis les collocations, de degré de figement plus ou moins important. Cette approche 1) généralise celle de l'étiquetage non-supervisé de Schütze et al. (1995), basée sur les N-grammes de mots, 2) détermine l'espace de représentation optimal des mots et des unités de texte choisies, i.e. celui des K* premiers facteurs non-triviaux d'analyse factorielle des correspondances de la matrice (binaire, jusqu'ici), où K* est déterminé par un test de randomisation, adapté à n'importe quelle répartition des effectifs en lignes et en colonnes.

Mots clés

Analyse Factorielle des Correspondances laplacien de graphe espace intrinsèque de matrice binaire. espace intrinsèque de matrice binaire Analyse des données textuelles test de randomisation validation de liens validation de valeurs propres

Domaines

Informatique et langage [cs.CL]

Fichier principal

article_AL-AZ_V6.pdf (158.59 Ko)

Origine : Accord explicite pour ce dépôt

Alain Lelu : Connectez-vous pour contacter le contributeur

https://hal.science/hal-01067984

Soumis le : mercredi 24 septembre 2014-14:46:50

Dernière modification le : lundi 11 septembre 2023-17:41:19

Archivage à long terme le : jeudi 25 décembre 2014-10:55:41

Dates et versions

hal-01067984 , version 1 (24-09-2014)

Identifiants

HAL Id : hal-01067984 , version 1

Citer

Alain Lelu, Azim Roussanaly. Espaces intrinsèques des relations entre mots : une exploration multi-échelle.. JADT 2014 : 12e Journées internationales d'Analyse statistique des Données Textuelles, Jun 2014, Paris, France. pp.409-420. ⟨hal-01067984⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS INRIA UNIV-FCOMTE UNIV-LORRAINE LORIA LORIA-AIS ELLIADD

257 Consultations

99 Téléchargements

Espaces intrinsèques des relations entre mots : une exploration multi-échelle.

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager