Traitement multi-microphone pour la segmentation automatique de la parole en réunion - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2022

Multi-Microphone Algorithms for Automatic Distant Speech Segmentation in Meetings

Traitement multi-microphone pour la segmentation automatique de la parole en réunion

Résumé

"Qui a parlé quand ?" C'est la question à laquelle répond la segmentation et le regroupement de locuteurs. Cette tâche de traitement automatique de la parole consiste à identifier les locuteurs et à déterminer les instants où chacun s'exprime dans un enregistrement audio. Les performances des algorithmes de segmentation et de regroupement des locuteurs sont conditionnées par un ensemble de tâches préalables telles que la détection d'activité vocale (Voice Activity Detection, VAD). La généralisation de l'utilisation des réseaux de neurones profonds et de l'apprentissage automatique a permis d'améliorer les performances des modèles au cours des dernières années. La qualité des résultats tend cependant à se dégrader en conditions acoustiques difficiles (faible rapport signal à-bruit, réverbération...). L'utilisation d'antennes de microphones est un axe pour permettre l'amélioration des performances dans ce contexte. Ces dispositifs, composés de plusieurs capteurs placés à différentes positions, permettent l'acquisition d'informations spatiales sur le champ acoustique. Des méthodes de traitement des signaux telles que la formation de voies permettent de combiner les canaux afin de filtrer le signal dans une certaine direction spatiale. Ces approches requièrent cependant la localisation explicite des locuteurs, parfois délicate à estimer. Récemment introduits dans la littérature, les mécanismes d'attention permettent aux modèles neuronaux de se focaliser automatiquement sur une partie des données d'entrée. Les travaux présentés s'intéressent à l'utilisation de ce type de mécanisme pour pondérer et combiner automatiquement les signaux issus de chaque microphone. Les expériences sont menées sur les données du corpus AMI, enregistrées au cours de réunions en conditions réelles. Deux méthodes de combinaison des canaux sont mises en œuvre pour la tâche de VAD. Les poids de combinaison des canaux sont également analysés, montrant que le modèle localise intrinsèquement le locuteur.
Fichier principal
Vignette du fichier
cfa2022_papier_vf.pdf (1.21 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-03700014 , version 1 (20-06-2022)

Identifiants

  • HAL Id : hal-03700014 , version 1

Citer

Théo Mariotte, Anthony Larcher, Jean-Hugh Thomas, Silvio Montrésor. Traitement multi-microphone pour la segmentation automatique de la parole en réunion. 16ème Congrès Français d'Acoustique, Apr 2022, Marseille, France. ⟨hal-03700014⟩
154 Consultations
128 Téléchargements

Partager

Gmail Facebook X LinkedIn More