Utilisation de connaissances a priori pour le paramétrage d'un algorithme de détection de textes dans les documents audiovisuels : application à un corpus de journaux télévisés

Abstract : De tous les vecteurs d’informations qu’il est possible d’extraire automatiquement d’un document audiovisuel en vue de l’exploiter (le décrire, l’archiver ou le classer dans un corpus thématique), le texte figure parmi les plus intéressants d’un point de vue descriptif. Nous proposons dans cet article une nouvelle approche de la problématique de la détection du texte artificiel et ceci sur un corpus constitué de six journaux télévisés de 20H. A la différence de la majorité des méthodes déjà proposées, nous essayons ici de construire des modèles statistiques de la "physique" du texte qui reposent sur des connaissances a priori des documents étudiés : notre but est moins de parvenir à extraire tous les textes que de réduire le nombre de fausses alarmes dû à une modélisation trop lâche d’autant plus que ce nombre, lorsqu’il est trop élevé, empêche toute utilisation de l’algorithme de détection à des fins documentaires. Nous présentons ici notre méthode : construction d’un outil de vérité terrain efficace dont le modèle de données est basé sur le schéma de description MPEG7 VideoText ; mise au point, à partir des données issues des vérités terrains, d’un modèle spatio-temporel du texte de nature statistique ; paramétrage d’un algorithme de détection en fonction de ce modèle et évaluation de l’incidence de cet ajustement sur les résultats de l’algorithme.
Document type :
Conference papers
Complete list of metadatas

https://hal.archives-ouvertes.fr/hal-01583299
Contributor : Équipe Gestionnaire Des Publications Si Liris <>
Submitted on : Thursday, September 7, 2017 - 10:54:52 AM
Last modification on : Wednesday, October 9, 2019 - 11:44:04 AM

Identifiers

  • HAL Id : hal-01583299, version 1

Citation

Rémy Landais, Christian Wolf, Laurent Vinet, Jean-Michel Jolion. Utilisation de connaissances a priori pour le paramétrage d'un algorithme de détection de textes dans les documents audiovisuels : application à un corpus de journaux télévisés. RFIA, Jan 2004, Toulouse, France. pp.0. ⟨hal-01583299⟩

Share

Metrics

Record views

87