Speaker Anonymization: Representation, Evaluation and Formal Guarantees

Brij Mohan Lal Srivastava

Résumé

Large-scale centralized storage of speech data poses severe privacy threats to the speakers. Indeed, the emergence and widespread usage of voice interfaces starting from telephone to mobile applications, and now digital assistants have enabled easier communication between the customers and the service providers. Massive speech data collection allows its users, for instance researchers, to develop tools for human convenience, like voice passwords for banking, personalized smart speakers, etc. However, centralized storage is vulnerable to cybersecurity threats which, when combined with advanced speech technologies like voice cloning, speaker recognition, and spoofing, may endow a malicious entity with the capability to re-identify speakers and breach their privacy by gaining access to their sensitive biometric characteristics, emotional states, personality attributes, pathological conditions, etc. Individuals and the members of civil society worldwide, and especially in Europe, are getting aware of this threat. With firm backing by the GDPR, several initiatives are being launched, including the publication of white papers and guidelines, to spread mass awareness and to regulate voice data so that the citizens' privacy is protected. This thesis is a timely effort to bolster such initiatives and propose solutions to remove the biometric identity of speakers from speech signals, thereby rendering them useless for re-identifying the speakers who spoke them. Besides the goal of protecting the speaker's identity from malicious access, this thesis aims to explore the solutions which do so without degrading the usefulness of speech. We present several anonymization schemes based on voice conversion methods to achieve this two-fold objective. The output of such schemes is a high-quality speech signal that is usable for publication and a variety of downstream tasks. All the schemes are subjected to a rigorous evaluation protocol which is one of the major contributions of this thesis. This protocol led to the finding that the previous approaches do not effectively protect the privacy and thereby directly inspired the VoicePrivacy initiative which is an effort to gather individuals, industry, and the scientific community to participate in building a robust anonymization scheme. We introduce a range of anonymization schemes under the purview of the VoicePrivacy initiative and empirically prove their superiority in terms of privacy protection and utility. Finally, we endeavor to remove the residual speaker identity from the anonymized speech signal using the techniques inspired by differential privacy. Such techniques provide provable analytical guarantees to the proposed anonymization schemes and open up promising perspectives for future research. In practice, the tools developed in this thesis are an essential component to build trust in any software ecosystem where voice data is stored, transmitted, processed, or published. They aim to help the organizations to comply with the rules mandated by civil governments and give a choice to individuals who wish to exercise their right to privacy.

L'émergence et la généralisation des interfaces vocales présentes dans les téléphones, les applications mobiles et les assistants numériques ont permis de faciliter la communication entre les citoyens, utilisateurs d'un service, et les prestataires de services. Citons à titre d'exemple l'utilisation de mots de passe vocaux pour les opérations bancaires, des haut-parleurs intelligents personnalisés, etc. Pour réaliser ces innovations, la collecte massive de données vocales est essentielle aux entreprises comme aux chercheurs. Mais le stockage centralisé à grande échelle des données vocales pose de graves menaces à la vie privée des locuteurs. En effet, le stockage centralisé est vulnérable aux menaces de cybersécurité qui, lorsqu'elles sont combinées avec des technologies vocales avancées telles que le clonage vocal, la reconnaissance du locuteur et l'usurpation d'identité peuvent conférer à une entité malveillante la capacité de ré-identifier les locuteurs et de violer leur vie privée en accédant à leurs caractéristiques biométriques sensibles, leurs états émotionnels, leurs attributs de personnalité, leurs conditions pathologiques, etc. Les individus et les membres de la société civile du monde entier, et particulièrement en Europe, prennent conscience de cette menace. Avec l'entrée en vigueur du règlement général sur la protection des données (RGPD), plusieurs initiatives sont lancées, notamment la publication de livres blancs et de lignes directrices, pour sensibiliser les masses et réguler les données vocales afin que la vie privée des citoyens soit protégée. Cette thèse constitue un effort pour soutenir de telles initiatives et propose des solutions pour supprimer l'identité biométrique des locuteurs des signaux de parole, les rendant ainsi inutiles pour ré-identifier les locuteurs qui les ont prononcés. Outre l'objectif de protéger l'identité du locuteur contre les accès malveillants, cette thèse vise à explorer les solutions qui le font sans dégrader l'utilité de la parole. Nous présentons plusieurs schémas d'anonymisation basés sur des méthodes de conversion vocale pour atteindre ce double objectif. La sortie de tels schémas est un signal vocal de haute qualité qui est utilisable pour la publication et pour un ensemble de tâches en aval. Tous les schémas sont soumis à un protocole d'évaluation rigoureux qui est l'un des apports majeurs de cette thèse. Ce protocole a conduit à la découverte que les approches existantes ne protègent pas efficacement la vie privée et a ainsi directement inspiré l'initiative VoicePrivacy qui rassemble les individus, l'industrie et la communauté scientifique pour participer à la construction d'un schéma d'anonymisation robuste. Nous introduisons une gamme de schémas d'anonymisation dans le cadre de l'initiative VoicePrivacy et prouvons empiriquement leur supériorité en termes de protection de la vie privée et d'utilité. Enfin, nous nous efforçons de supprimer l'identité résiduelle du locuteur du signal de parole anonymisé en utilisant les techniques inspirées de la confidentialité différentielle. De telles techniques fournissent des garanties analytiques démontrables aux schémas d'anonymisation proposés et ouvrent des portes pour de futures recherches. En pratique, les outils développés dans cette thèse sont un élément essentiel pour établir la confiance dans tout écosystème logiciel où les données vocales sont stockées, transmises, traitées ou publiées. Ils visent à aider les organisations à se conformer aux règles mandatées par les gouvernements et à donner le choix aux individus qui souhaitent exercer leur droit à la vie privée.

Speaker Anonymization: Representation, Evaluation and Formal Guarantees

Anonymisation du Locuteur: Représentation, Évaluation et Garanties Formelles

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Partager