Un modèle multi-sources pour la segmentation en sujets de journaux radiophoniques

Stéphane Huet; Guillaume Gravier; Pascale Sébillot

Communication Dans Un Congrès Année : 2008

Un modèle multi-sources pour la segmentation en sujets de journaux radiophoniques

(1) , (1) , (1)

Stéphane Huet

Fonction : Auteur
PersonId : 10005
IdHAL : shuet
ORCID : 0000-0003-1838-3807
IdRef : 110355245

Multimedia content-based indexing

Guillaume Gravier

Fonction : Auteur
PersonId : 1046
IdHAL : guig
ORCID : 0000-0002-2266-5682
IdRef : 110355415

Multimedia content-based indexing

Pascale Sébillot

Fonction : Auteur
PersonId : 21840
IdHAL : pascale-sebillot
ORCID : 0000-0002-5429-4302
IdRef : 075988453

Multimedia content-based indexing

Résumé

We present a method for story segmentation of radio broadcast news, based on lexical, syntactic and audio cues. Starting from an existing statistical topic segmentation model which exploits the notion of lexical cohesion, we extend the formalism to include syntactic and acoustic knwoledge sources. Experimental results show that the sole use of lexical cohesion is not efficient for the type of documents under study because of the variable size of the segments and the lack of direct relation between topics and stories. The use of syntactics and acoustics enables a consequent improvement of the quality of the segmentation.

Nous présentons une méthode de segmentation de journaux radiophoniques en sujets, basée sur la prise en compte d'indices lexicaux, syntaxiques et acoustiques. Partant d'un modèle statistique existant de segmentation thématique, exploitant la notion de cohésion lexi-cale, nous étendons le formalisme pour y inclure des informations d'ordre syntaxique et acous-tique. Les résultats expérimentaux montrent que le seul modèle de cohésion lexicale ne suffit pas pour le type de documents étudié en raison de la taille variable des segments et de l'absence d'un lien direct entre segment et thème. L'utilisation d'informations syntaxiques et acoustiques permet une amélioration substantielle de la segmentation obtenue.

Mots clés

segmentation en sujets corpus oraux cohésion lexicale indices acoustiques indices syntaxiques story segmentation spoken documents lexical cohesion acoustic cues syntactic cues

Domaines

Multimédia [cs.MM] Traitement du texte et du document

Fichier principal

TALN08.pdf (140.7 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Stéphane Huet : Connectez-vous pour contacter le contributeur

https://hal.science/hal-02021382

Soumis le : vendredi 15 février 2019-18:32:49

Dernière modification le : vendredi 24 mars 2023-14:53:09

Archivage à long terme le : vendredi 17 mai 2019-10:04:22

Dates et versions

hal-02021382 , version 1 (15-02-2019)

Identifiants

HAL Id : hal-02021382 , version 1

Citer

Stéphane Huet, Guillaume Gravier, Pascale Sébillot. Un modèle multi-sources pour la segmentation en sujets de journaux radiophoniques. 15ème conférence sur le Traitement Automatique des Langues Naturelles (TALN), 2008, Avignon, France. pp.49-58. ⟨hal-02021382⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

EC-PARIS UNIV-RENNES1 CNRS INRIA INSA-RENNES IRISA IRISA-INSA-R INRIA2 UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES INSA-GROUPE UR1-MATH-NUM

36 Consultations

23 Téléchargements

Un modèle multi-sources pour la segmentation en sujets de journaux radiophoniques

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager