Fusion pour la séparation de sources audio

Xabier Jaureguiberry

Thèse Année : 2015

Fusion for audio source separation

Fusion pour la séparation de sources audio

(1, 2, 3)

1
2
3

Xabier Jaureguiberry

Fonction : Auteur
PersonId : 4932
IdHAL : xabierj
IdRef : 194155412

Speech Modeling for Facilitating Oral-Based Communication

Laboratoire Traitement et Communication de l'Information

Département Traitement du Signal et des Images

Résumé

Underdetermined blind source separation is a complex mathematical problem that can be satisfyingly resolved for some practical applications, providing that the right separation method has been selected and carefully tuned. In order to automate this selection process, we propose in this thesis to resort to the principle of fusion which has been widely used in the related field of classification yet is still marginally exploited in source separation. Fusion consists in combining several methods to solve a given problem instead of selecting a unique one. To do so, we introduce a general fusion framework in which a source estimate is expressed as a linear combination of estimates of this same source given by different separation algorithms, each source estimate being weighted by a fusion coefficient. For a given task, fusion coefficients can then be learned on a representative training dataset by minimizing a cost function related to the separation objective. To go further, we also propose two ways to adapt the fusion coefficients to the mixture to be separated. The first one expresses the fusion of several non-negative matrix factorization (NMF) models in a Bayesian fashion similar to Bayesian model averaging. The second one aims at learning time-varying fusion coefficients thanks to deep neural networks. All proposed methods have been evaluated on two distinct corpora. The first one is dedicated to speech enhancement while the other deals with singing voice extraction. Experimental results show that fusion always outperform simple selection in all considered cases, best results being obtained by adaptive time-varying fusion with neural networks.

La séparation aveugle de sources audio dans le cas sous-déterminé est un problème mathématique complexe dont il est aujourd'hui possible d'obtenir une solution satisfaisante pour certaines applications industrielles, à condition de sélectionner la méthode la plus adaptée au problème posé et de savoir paramétrer celle-ci soigneusement. Afin d'automatiser cette étape de sélection déterminante, nous proposons dans cette thèse de recourir au principe de fusion, très populaire dans le domaine de la classification mais encore peu exploité en séparation de sources. L'idée est simple : il s'agit, pour un problème donné, de sélectionner plusieurs méthodes de résolution plutôt qu'une seule et de les combiner afin d'en améliorer la solution. Pour cela, nous introduisons un cadre général de fusion qui consiste à formuler l'estimée d'une source comme la combinaison de plusieurs estimées de cette même source données par différents algorithmes de séparation, chaque estimée étant pondérée par un coefficient de fusion. Ces coefficients peuvent notamment être appris sur un ensemble d'apprentissage représentatif du problème posé par minimisation d'une fonction de coût liée à l'objectif de séparation. Pour aller plus loin, nous proposons également deux approches permettant d'adapter les coefficients de fusion au signal à séparer. La première formule la fusion de modèles de factorisation en matrices non-négatives (NMF) dans un cadre bayésien, à la manière du moyennage bayésien de modèles. La deuxième exploite la puissance d'apprentissage des réseaux de neurones profonds afin de déterminer des coefficients de fusion variant en temps. Toutes ces approches ont été évaluées sur deux corpus distincts : l'un dédié au rehaussement de la parole, l'autre dédié à l'extraction de voix chantée. Quelle que soit l'approche considérée, nos résultats montrent l'intérêt systématique de la fusion par rapport à la simple sélection, la fusion adaptative par réseau de neurones se révélant être la plus performante.

Mots clés

model fusion model aggregation model combination model selection audio source separation speech enhancement singing voice extraction non-negative matrix factorization NMF variational Bayesian inference Bayesian model averaging deep learning deep neural networks

inférence variationnelle bayésienne factorisation en matrices non-négatives extraction de voix chantée fusion de modèles aggrégation de modèles combinaison de modèles sélection de modèles séparation de sources audio rehaussement de la parole moyennage bayésien de modèles apprentissage profond réseaux de neurones profonds

Domaines

Traitement du signal et de l'image [eess.SP] Machine Learning [stat.ML]

Fichier principal

Manuscrit_vf.pdf (12.51 Mo)

Xabier Jaureguiberry : Connectez-vous pour contacter le contributeur

https://hal.science/tel-01189560

Soumis le : mardi 1 septembre 2015-12:18:04

Dernière modification le : lundi 9 octobre 2023-12:49:39

Archivage à long terme le : mercredi 26 avril 2017-10:56:37

Dates et versions

tel-01189560 , version 1 (01-09-2015)

tel-01189560 , version 2 (04-07-2016)

Identifiants

HAL Id : tel-01189560 , version 1

Citer

Xabier Jaureguiberry. Fusion pour la séparation de sources audio. Traitement du signal et de l'image [eess.SP]. TELECOM ParisTech; INRIA Nancy, équipe Multispeech, 2015. Français. ⟨NNT : 2015ENST0030⟩. ⟨tel-01189560v1⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INRIA GRID5000 UNIV-LORRAINE INRIA2

481 Consultations

425 Téléchargements

Fusion for audio source separation

Fusion pour la séparation de sources audio

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager