Segmentation et regroupement en locuteurs dans des documents audiovisuels, en interaction avec des annotateurs humains

Pierre-Alexandre Broux

Thèse Année : 2020

Speaker diarization in audiovisual files in interaction with human annotators

Segmentation et regroupement en locuteurs dans des documents audiovisuels, en interaction avec des annotateurs humains

(1)

Pierre-Alexandre Broux

Fonction : Auteur

Laboratoire d'Informatique de l'Université du Mans

Résumé

The diarization task tries to determine the number of speakers as well as their interventions in an audio file. It is an interesting task for any enterprise willing to index its audiovisual contents. Especially, the French National Audiovisual Institute (INA) desires to apply this task on its archives so as to improve its accessibility and its annotation. However, the uses of the institute need a minimal quality which, most of the time, is not reached by the state-of-the-art automatic diarization systems yet.In order to reach the wanted effectiveness, a human can correct the output of a diarization system. Nevertheless, a human intervention is generally time-consuming and expensive. In order to reduce these costs, a possible solution is to use a computer-assisted system: a human gives some information to a system in order that it can improve its predictions so as to decrease its intervention cost.The present manuscript revolves around the computer-assisted diarization. It proposes a metric so as to assess the human intervention cost to correct a diarization, a framework to evaluate the human corrections of a speaker diarization, an automaton simulating the human corrections to do for a diarization and some computer-assisted diarization systems decreasing the total human intervention cost. More precisely, the proposed computer-assisted diarization systems reassess either only the speaker clustering or the segmentation and the speaker clustering.

La tâche de segmentation et de regroupement en locuteur (SRL) consiste à déterminer le nombre de locuteurs ainsi que leurs interventions dans un document audio. Cette tâche intéresse de nombreuses entreprises qui souhaitent indexer leurs contenus audiovisuels. En particulier, l'institut national de l'audiovisuel (INA) désire appliquer cette tâche sur ses archives afin d'en améliorer l'accessibilité mais également l'annotation.Cependant, les usages de l'institut requièrent une qualité minimum qui n'est, la plupart du temps, pas encore atteinte par les systèmes automatiques de SRL à l'état de l'art.Pour atteindre les performances voulues, un humain peut corriger la sortie d'un système de SRL. Néanmoins, une intervention humaine est généralement chronophage et coûteuse. Afin de réduire ces coûts, une solution possible est d'utiliser un système assisté par l'humain : un humain donne des informations à un système afin qu'il améliore ses prédictions pour faire décroître son coût de correction. Le présent manuscrit s'articule autour de la SRL assistée par l'humain. Il propose une mesure afin d'évaluer le coût d'intervention humain pour corriger une SRL, un protocole pour évaluer les interactions d'un humain pour la SRL, un automate simulant les corrections humaines à faire pour une SRL et des systèmes de SRL assistés réduisant le coût d'intervention humain total. Plus précisément, les systèmes de SRL assistés présentés réévaluent soit uniquement le regroupement en locuteurs, soit la segmentation et le regroupement en locuteurs.

Mots clés

Diarization Computer-assisted system Human-computer interaction (HCI)

Segmentation et regroupement en locuteurs (SRL) Système assisté Interaction homme-machine (IHM) Annotation

Domaines

Informatique et langage [cs.CL]

Fichier principal

2020LEMA1001.pdf (5.99 Mo)

Origine : Version validée par le jury (STAR)

ABES STAR : Contact

https://hal.science/tel-02504539

Soumis le : jeudi 27 août 2020-15:48:11

Dernière modification le : mercredi 22 février 2023-04:15:24

Dates et versions

tel-02504539 , version 1 (10-03-2020)

tel-02504539 , version 2 (27-08-2020)

Identifiants

HAL Id : tel-02504539 , version 2

Citer

Pierre-Alexandre Broux. Segmentation et regroupement en locuteurs dans des documents audiovisuels, en interaction avec des annotateurs humains. Informatique et langage [cs.CL]. Le Mans Université, 2020. Français. ⟨NNT : 2020LEMA1001⟩. ⟨tel-02504539v2⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-LEMANS STAR LIUM UNIV-LEMANS-THESE

296 Consultations

122 Téléchargements

Speaker diarization in audiovisual files in interaction with human annotators

Segmentation et regroupement en locuteurs dans des documents audiovisuels, en interaction avec des annotateurs humains

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager