Apprentissage automatique de représentation de voix à l’aide d’une distillation de la connaissance pour le casting vocal - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2020

Apprentissage automatique de représentation de voix à l’aide d’une distillation de la connaissance pour le casting vocal

Adrien Gresse
Mathias Quillot
  • Fonction : Auteur
  • PersonId : 1072639
Richard Dufour

Résumé

La recherche d’acteurs vocaux pour les productions audiovisuelles est réalisée par des directeurs artistiques (DA). Les DA sont constamment à la recherche de nouveaux talents vocaux, mais ne peuvent effectuer des auditions à grande échelle. Les outils automatiques capables de suggérer des voix présentent alors un grand intérêt pour l’industrie audiovisuelle. Dans les travaux précédents, nous avons montré l’existence d’informations acoustiques permettant de reproduire des choix du DA. Dans cet article, nous proposons une approche à base de réseaux de neurones pour construire une représentation adaptée aux personnages/rôles visés, appelée p-vecteur. Nous proposons ensuite de tirer parti de données externes pour la représentation de voix, proches de celles d’origine, au moyen de méthodes de distillation de la connaissance. Les expériences menées sur des extraits de voix de jeux vidéo montrent une amélioration significative de l’approche p-vecteur, avec distillation de la connaissance, par rapport à une représentation x-vecteur, état-de-l’art en reconnaissance du locuteur.
Fichier principal
Vignette du fichier
70.pdf (744.01 Ko) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte
Loading...

Dates et versions

hal-02798550 , version 1 (07-06-2020)
hal-02798550 , version 2 (18-06-2020)
hal-02798550 , version 3 (23-06-2020)

Identifiants

  • HAL Id : hal-02798550 , version 3

Citer

Adrien Gresse, Mathias Quillot, Richard Dufour, Jean-François Bonastre. Apprentissage automatique de représentation de voix à l’aide d’une distillation de la connaissance pour le casting vocal. 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole, 2020, Nancy, France. pp.280-288. ⟨hal-02798550v3⟩
126 Consultations
125 Téléchargements

Partager

Gmail Facebook X LinkedIn More