Segmentation et regroupement en locuteurs dans des documents audiovisuels, en interaction avec des annotateurs humains - Archive ouverte HAL Accéder directement au contenu
Thèse Année : 2020

Speaker diarization in audiovisual files in interaction with human annotators

Segmentation et regroupement en locuteurs dans des documents audiovisuels, en interaction avec des annotateurs humains

Résumé

The diarization task tries to determine the number of speakers as well as their interventions in an audio file. It is an interesting task for any enterprise willing to index its audiovisual contents. Especially, the French National Audiovisual Institute (INA) desires to apply this task on its archives so as to improve its accessibility and its annotation. However, the uses of the institute need a minimal quality which, most of the time, is not reached by the state-of-the-art automatic diarization systems yet.In order to reach the wanted effectiveness, a human can correct the output of a diarization system. Nevertheless, a human intervention is generally time-consuming and expensive. In order to reduce these costs, a possible solution is to use a computer-assisted system: a human gives some information to a system in order that it can improve its predictions so as to decrease its intervention cost.The present manuscript revolves around the computer-assisted diarization. It proposes a metric so as to assess the human intervention cost to correct a diarization, a framework to evaluate the human corrections of a speaker diarization, an automaton simulating the human corrections to do for a diarization and some computer-assisted diarization systems decreasing the total human intervention cost. More precisely, the proposed computer-assisted diarization systems reassess either only the speaker clustering or the segmentation and the speaker clustering.
La tâche de segmentation et de regroupement en locuteur (SRL) consiste à déterminer le nombre de locuteurs ainsi que leurs interventions dans un document audio. Cette tâche intéresse de nombreuses entreprises qui souhaitent indexer leurs contenus audiovisuels. En particulier, l'institut national de l'audiovisuel (INA) désire appliquer cette tâche sur ses archives afin d'en améliorer l'accessibilité mais également l'annotation.Cependant, les usages de l'institut requièrent une qualité minimum qui n'est, la plupart du temps, pas encore atteinte par les systèmes automatiques de SRL à l'état de l'art.Pour atteindre les performances voulues, un humain peut corriger la sortie d'un système de SRL. Néanmoins, une intervention humaine est généralement chronophage et coûteuse. Afin de réduire ces coûts, une solution possible est d'utiliser un système assisté par l'humain : un humain donne des informations à un système afin qu'il améliore ses prédictions pour faire décroître son coût de correction. Le présent manuscrit s'articule autour de la SRL assistée par l'humain. Il propose une mesure afin d'évaluer le coût d'intervention humain pour corriger une SRL, un protocole pour évaluer les interactions d'un humain pour la SRL, un automate simulant les corrections humaines à faire pour une SRL et des systèmes de SRL assistés réduisant le coût d'intervention humain total. Plus précisément, les systèmes de SRL assistés présentés réévaluent soit uniquement le regroupement en locuteurs, soit la segmentation et le regroupement en locuteurs.
Fichier principal
Vignette du fichier
2020LEMA1001.pdf (5.99 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)
Loading...

Dates et versions

tel-02504539 , version 1 (10-03-2020)
tel-02504539 , version 2 (27-08-2020)

Identifiants

  • HAL Id : tel-02504539 , version 2

Citer

Pierre-Alexandre Broux. Segmentation et regroupement en locuteurs dans des documents audiovisuels, en interaction avec des annotateurs humains. Informatique et langage [cs.CL]. Le Mans Université, 2020. Français. ⟨NNT : 2020LEMA1001⟩. ⟨tel-02504539v2⟩
296 Consultations
122 Téléchargements

Partager

Gmail Facebook X LinkedIn More