Apprentissage automatique de représentation de voix à l’aide d’une distillation de la connaissance pour le casting vocal

Adrien Gresse; Mathias Quillot; Richard Dufour; Jean-François Bonastre

Communication Dans Un Congrès Année : 2020

Apprentissage automatique de représentation de voix à l’aide d’une distillation de la connaissance pour le casting vocal

(1) , (1) , (1) , (1)

Adrien Gresse

Fonction : Auteur
PersonId : 172309
IdHAL : adrien-gresse

Laboratoire Informatique d'Avignon

Mathias Quillot

Fonction : Auteur
PersonId : 1072639

Laboratoire Informatique d'Avignon

Richard Dufour

Fonction : Auteur
PersonId : 178348
IdHAL : richard-dufour
ORCID : 0000-0003-1203-9108

Laboratoire Informatique d'Avignon

Jean-François Bonastre

Fonction : Auteur
PersonId : 172421
IdHAL : jean-francois-bonastre
ORCID : 0000-0001-7741-3346
IdRef : 079112978

Laboratoire Informatique d'Avignon

Résumé

La recherche d’acteurs vocaux pour les productions audiovisuelles est réalisée par des directeurs artistiques (DA). Les DA sont constamment à la recherche de nouveaux talents vocaux, mais ne peuvent effectuer des auditions à grande échelle. Les outils automatiques capables de suggérer des voix présentent alors un grand intérêt pour l’industrie audiovisuelle. Dans les travaux précédents, nous avons montré l’existence d’informations acoustiques permettant de reproduire des choix du DA. Dans cet article, nous proposons une approche à base de réseaux de neurones pour construire une représentation adaptée aux personnages/rôles visés, appelée p-vecteur. Nous proposons ensuite de tirer parti de données externes pour la représentation de voix, proches de celles d’origine, au moyen de méthodes de distillation de la connaissance. Les expériences menées sur des extraits de voix de jeux vidéo montrent une amélioration significative de l’approche p-vecteur, avec distillation de la connaissance, par rapport à une représentation x-vecteur, état-de-l’art en reconnaissance du locuteur.

Mots clés

p-vecteur distillation de la connaissance réseaux de neurones profonds. similarité perceptive

Domaines

Informatique et langage [cs.CL]

Fichier principal

70.pdf (744.01 Ko)

Origine : Fichiers éditeurs autorisés sur une archive ouverte

Sylvain Pogodalla : Connectez-vous pour contacter le contributeur

https://hal.science/hal-02798550

Soumis le : mardi 23 juin 2020-12:56:03

Dernière modification le : vendredi 12 novembre 2021-11:18:05

Dates et versions

hal-02798550 , version 1 (07-06-2020)

hal-02798550 , version 2 (18-06-2020)

hal-02798550 , version 3 (23-06-2020)

Identifiants

HAL Id : hal-02798550 , version 3

Citer

Adrien Gresse, Mathias Quillot, Richard Dufour, Jean-François Bonastre. Apprentissage automatique de représentation de voix à l’aide d’une distillation de la connaissance pour le casting vocal. 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole, 2020, Nancy, France. pp.280-288. ⟨hal-02798550v3⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-AVIGNON LIA JEP-TALN-RECITAL2020 TALN-RECITAL

127 Consultations

135 Téléchargements

Apprentissage automatique de représentation de voix à l’aide d’une distillation de la connaissance pour le casting vocal

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager