Un modèle segmental probabiliste combinant cohésion lexicale et rupture lexicale pour la segmentation thématique - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2013

Un modèle segmental probabiliste combinant cohésion lexicale et rupture lexicale pour la segmentation thématique

Anca-Roxana Simon
  • Fonction : Auteur
  • PersonId : 943583
Pascale Sébillot

Résumé

Identifying topical structure in any text-like data is a challenging task. Most existing techniques rely either on maximizing a measure of the lexical cohesion or on detecting lexical disruptions. A novel method combining the two criteria so as to obtain the best trade-off between cohesion and disruption is proposed in this paper. A new statistical model is defined, based on the work of Isahara and Utiyama (2001), maintaining the properties of domain independence and limited a priori of the latter. Evaluations are performed both on written texts and on automatic transcripts of TV shows, the latter not respecting the norms of written texts, thus increasing the difficulty of the task. Experimental results demonstrate the relevance of combining lexical cohesion and disrupture.
L'identification d'une structure thématique dans des données textuelles quelconques est une tâche difficile. La plupart des techniques existantes reposent soit sur la maximisation d'une mesure de cohésion lexicale au sein d'un segment, soit sur la détection de ruptures lexicales. Nous proposons une nouvelle technique combinant ces deux critères de manière à obtenir le meilleur compromis entre cohésion et rupture. Nous définissons un nouveau modèle probabiliste, fondé sur l'approche proposée par Utiyama et Isahara (2001), en préservant les propriétés d'indépendance au domaine et de faible a priori de cette dernière. Des évaluations sont menées sur des textes écrits et sur des transcriptions automatiques de la parole à la télévision, transcriptions qui ne respectent pas les normes des textes écrits, ce qui accroît la difficulté. Les résultats expérimentaux obtenus démontrent la pertinence de la combinaison des critères de cohésion et de rupture.
Fichier non déposé

Dates et versions

hal-00844112 , version 1 (12-07-2013)

Identifiants

  • HAL Id : hal-00844112 , version 1

Citer

Anca-Roxana Simon, Guillaume Gravier, Pascale Sébillot. Un modèle segmental probabiliste combinant cohésion lexicale et rupture lexicale pour la segmentation thématique. TALN - Conférence sur le traitement automatique des langues naturelles, ATALA, Jun 2013, Les Sables d'Olonne, France. ⟨hal-00844112⟩
230 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More