Traitement multi-microphone pour la segmentation automatique de la parole en réunion

Théo Mariotte; Anthony Larcher; Jean-Hugh Thomas; Silvio Montrésor

Communication Dans Un Congrès Année : 2022

Multi-Microphone Algorithms for Automatic Distant Speech Segmentation in Meetings

Traitement multi-microphone pour la segmentation automatique de la parole en réunion

(1, 2) , (2) , (1) , (1)

1
2

Théo Mariotte

Fonction : Auteur

Laboratoire d'Acoustique de l'Université du Mans

Laboratoire d'Informatique de l'Université du Mans

Anthony Larcher

Fonction : Auteur
PersonId : 20105
IdHAL : anthony-larcher
ORCID : 0000-0003-4398-0224
IdRef : 139544569

Laboratoire d'Informatique de l'Université du Mans

Jean-Hugh Thomas

Fonction : Auteur
PersonId : 182263
IdHAL : jean-hugh-thomas
ORCID : 0000-0003-3512-214X
IdRef : 164775234

Laboratoire d'Acoustique de l'Université du Mans

Silvio Montrésor

Fonction : Auteur
PersonId : 1184972
IdRef : 146381874

Laboratoire d'Acoustique de l'Université du Mans

Résumé

"Qui a parlé quand ?" C'est la question à laquelle répond la segmentation et le regroupement de locuteurs. Cette tâche de traitement automatique de la parole consiste à identifier les locuteurs et à déterminer les instants où chacun s'exprime dans un enregistrement audio. Les performances des algorithmes de segmentation et de regroupement des locuteurs sont conditionnées par un ensemble de tâches préalables telles que la détection d'activité vocale (Voice Activity Detection, VAD). La généralisation de l'utilisation des réseaux de neurones profonds et de l'apprentissage automatique a permis d'améliorer les performances des modèles au cours des dernières années. La qualité des résultats tend cependant à se dégrader en conditions acoustiques difficiles (faible rapport signal à-bruit, réverbération...). L'utilisation d'antennes de microphones est un axe pour permettre l'amélioration des performances dans ce contexte. Ces dispositifs, composés de plusieurs capteurs placés à différentes positions, permettent l'acquisition d'informations spatiales sur le champ acoustique. Des méthodes de traitement des signaux telles que la formation de voies permettent de combiner les canaux afin de filtrer le signal dans une certaine direction spatiale. Ces approches requièrent cependant la localisation explicite des locuteurs, parfois délicate à estimer. Récemment introduits dans la littérature, les mécanismes d'attention permettent aux modèles neuronaux de se focaliser automatiquement sur une partie des données d'entrée. Les travaux présentés s'intéressent à l'utilisation de ce type de mécanisme pour pondérer et combiner automatiquement les signaux issus de chaque microphone. Les expériences sont menées sur les données du corpus AMI, enregistrées au cours de réunions en conditions réelles. Deux méthodes de combinaison des canaux sont mises en œuvre pour la tâche de VAD. Les poids de combinaison des canaux sont également analysés, montrant que le modèle localise intrinsèquement le locuteur.

Domaines

Intelligence artificielle [cs.AI] Traitement du signal et de l'image [eess.SP]

Fichier principal

cfa2022_papier_vf.pdf (1.21 Mo)

Origine : Fichiers produits par l'(les) auteur(s)

Théo Mariotte : Connectez-vous pour contacter le contributeur

https://univ-lemans.hal.science/hal-03700014

Soumis le : lundi 20 juin 2022-17:28:27

Dernière modification le : vendredi 16 février 2024-09:40:43

Archivage à long terme le : jeudi 22 septembre 2022-11:15:30

Dates et versions

hal-03700014 , version 1 (20-06-2022)

Identifiants

HAL Id : hal-03700014 , version 1

Citer

Théo Mariotte, Anthony Larcher, Jean-Hugh Thomas, Silvio Montrésor. Traitement multi-microphone pour la segmentation automatique de la parole en réunion. 16ème Congrès Français d'Acoustique, Apr 2022, Marseille, France. ⟨hal-03700014⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS UNIV-LEMANS LIUM LIUM-LST LAUM

154 Consultations

128 Téléchargements

Multi-Microphone Algorithms for Automatic Distant Speech Segmentation in Meetings

Traitement multi-microphone pour la segmentation automatique de la parole en réunion

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager