Skip to Main content Skip to Navigation
Conference papers

Apprentissage automatique de représentation de voix à l’aide d’une distillation de la connaissance pour le casting vocal

Résumé : La recherche d’acteurs vocaux pour les productions audiovisuelles est réalisée par des directeurs artistiques (DA). Les DA sont constamment à la recherche de nouveaux talents vocaux, mais ne peuvent effectuer des auditions à grande échelle. Les outils automatiques capables de suggérer des voix présentent alors un grand intérêt pour l’industrie audiovisuelle. Dans les travaux précédents, nous avons montré l’existence d’informations acoustiques permettant de reproduire des choix du DA. Dans cet article, nous proposons une approche à base de réseaux de neurones pour construire une représentation adaptée aux personnages/rôles visés, appelée p-vecteur. Nous proposons ensuite de tirer parti de données externes pour la représentation de voix, proches de celles d’origine, au moyen de méthodes de distillation de la connaissance. Les expériences menées sur des extraits de voix de jeux vidéo montrent une amélioration significative de l’approche p-vecteur, avec distillation de la connaissance, par rapport à une représentation x-vecteur, état-de-l’art en reconnaissance du locuteur.
Document type :
Conference papers
Complete list of metadata

Cited literature [23 references]  Display  Hide  Download

https://hal.archives-ouvertes.fr/hal-02798550
Contributor : Sylvain Pogodalla <>
Submitted on : Tuesday, June 23, 2020 - 12:56:03 PM
Last modification on : Wednesday, June 24, 2020 - 3:20:19 PM

File

70.pdf
Publisher files allowed on an open archive

Identifiers

  • HAL Id : hal-02798550, version 3

Citation

Adrien Gresse, Mathias Quillot, Richard Dufour, Jean-François Bonastre. Apprentissage automatique de représentation de voix à l’aide d’une distillation de la connaissance pour le casting vocal. 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole, 2020, Nancy, France. pp.280-288. ⟨hal-02798550v3⟩

Share

Metrics

Record views

36

Files downloads

36