Skip to Main content Skip to Navigation
New interface
Conference papers

Analyse du corpus MATRICE-INA : exploration et classification automatique d'’archives audiovisuelles de 1930 à 2012

Abstract : Cet article décrit les méthodes mises en place pour permettre l’analyse d’un corpus composé de documents audiovisuels diffusés au cours des 80 dernières années : le corpus MATRICE-INA. Nous proposons une exploration des données permettant de mettre en évidence les différents thèmes et évènements abordés dans le corpus. Cette exploration consiste dans un premier temps à effectuer une analyse temporelle sur les notices documentaires produites manuellement par les documentalistes de l’Institut National de l’Audiovisuel et sur les transcriptions automatiques des documents. Puis, nous montrons, grâce à une technique de clustering automatique, que les transcriptions automatiques permettent également d’effectuer une analyse du corpus faisant émerger des thèmes cohérents avec les données traitées.
Complete list of metadata

https://hal.archives-ouvertes.fr/hal-01836465
Contributor : Limsi Publications Connect in order to contact the contributor
Submitted on : Thursday, July 12, 2018 - 12:39:27 PM
Last modification on : Saturday, June 25, 2022 - 10:32:33 PM

Identifiers

  • HAL Id : hal-01836465, version 1

Collections

Citation

Antoine Laurent, Camille Guinaudeau, Anindya Roy. Analyse du corpus MATRICE-INA : exploration et classification automatique d'’archives audiovisuelles de 1930 à 2012. Journées d'Etude sur la Parole, Jan 2014, Le Mans, France. ⟨hal-01836465⟩

Share

Metrics

Record views

28