Évaluation d'une nouvelle structuration thématique hiérarchique des textes dans un cadre de résumé automatique et de détection d'ancres au sein de vidéos

Anca Simon 1 Guillaume Gravier 1 Pascale Sébillot 1
1 LinkMedia - Creating and exploiting explicit links between multimedia fragments
IRISA-D6 - MEDIA ET INTERACTIONS, Inria Rennes – Bretagne Atlantique
Résumé : Dans cet article, nous évaluons, à travers son intérêt pour le résumé automatique et la détection d'ancres dans des vidéos, le potentiel d'une nouvelle structure thématique extraite de données textuelles, composée d'une hiérarchie de fragments thématiquement focalisés. Cette structure est produite par un algorithme exploitant les distributions temporelles d'apparition des mots dans les textes en se fondant sur une analyse de salves lexicales. La hiérarchie obtenue a pour objet de filtrer le contenu non crucial et de ne conserver que l'information saillante des textes, à différents niveaux de détail. Nous montrons qu'elle permet d'améliorer la production de résumés ou au moins de maintenir les résultats de l'état de l'art, tandis que pour la détection d'ancres, elle nous conduit à la meilleure précision dans le contexte de la tâche Search and Anchoring in Video Archives à MediaEval. Les expériences sont réalisées sur du texte écrit et sur un corpus de transcriptions automatiques d'émissions de télévision. ABSTRACT Evaluation of a novel hierarchical thematic structuring of texts in the framework of text sum-marization and anchor detection for video hyperlinking This paper investigates the potential of a novel topical structure of text-like data in the context of summarization and anchor detection in video hyperlinking. This structure is produced by an algorithm that exploits temporal distributions of words through word burst analysis to generate a hierarchy of topically focused fragments. The obtained hierarchy aims at filtering out non-critical content, retaining only the salient information at various levels of detail. For the tasks we choose to evaluate the structure on, the lost of important information is highly damaging. We show that the structure can actually improve the results of summarization or at least maintain state-of-the-art results, while for anchor detection it leads us to the best precision in the context of the Search and Anchoring in Video Archives task at MediaEval. The experiments were carried on written text and a more challenging corpus containing automatic transcripts of TV shows. MOTS-CLÉS : analyse de salves lexicales, hiérarchie de fragments thématiques, résumé automa-tique, détection d'ancres. KEYWORDS: burst analysis, hierarchy of topical fragments, text summarization, anchor detection. (a) (b) (c) FIGURE 1 – Représentations génériques (a) d'une segmentation thématique linéaire, (b) d'une segmentation thématique hiérarchique dense classique, versus (c) celle d'une hiérarchie de fragments thématiquement focalisés. Les lignes verticales en pointillés illustrent les frontières des thèmes et sous-thèmes.
Type de document :
Communication dans un congrès
Conférence sur le Traitement Automatique des Langues Naturelles, 2016, Paris, France. Actes de la conférence TALN, pp.139-152, 2016
Liste complète des métadonnées

Littérature citée [20 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/hal-01399670
Contributeur : Guillaume Gravier <>
Soumis le : dimanche 20 novembre 2016 - 14:57:52
Dernière modification le : mercredi 2 août 2017 - 10:08:19

Fichier

taln2016.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01399670, version 1

Citation

Anca Simon, Guillaume Gravier, Pascale Sébillot. Évaluation d'une nouvelle structuration thématique hiérarchique des textes dans un cadre de résumé automatique et de détection d'ancres au sein de vidéos. Conférence sur le Traitement Automatique des Langues Naturelles, 2016, Paris, France. Actes de la conférence TALN, pp.139-152, 2016. 〈hal-01399670〉

Partager

Métriques

Consultations de
la notice

429

Téléchargements du document

72