Audio-Visual Speaker Conversion using Prosody Features

Adela Barbulescu 1, 2, * Thomas Hueber 3 Gérard Bailly 3 Rémi Ronfard 1, *
* Auteur correspondant
1 IMAGINE - Intuitive Modeling and Animation for Interactive Graphics & Narrative Environments
Inria Grenoble - Rhône-Alpes, LJK - Laboratoire Jean Kuntzmann, INPG - Institut National Polytechnique de Grenoble
3 GIPSA-MAGIC - MAGIC
GIPSA-DPC - Département Parole et Cognition
Résumé : L'article présente une approche audio-visuelle pour la conversion de locuteur, basée sur des méthodes statistiques initialement proposées pour la conversion de voix. En utilisant le corpus audiovisuel BIWI 3D, des modèles de conversion entre locuteurs sont calculés séparément pour la voix et les expressions faciales. Les résultats obtenus en combinant les deux modalités sont comparés subjectivement avec d'autres méthodes et démontrent l'importance de la dynamique et de la prosodie.
Type de document :
Communication dans un congrès
AVSP - 12th International Conference on Auditory-Visual Speech Processing (AVSP 2013), Aug 2013, Annecy, France. pp.11-16, 2013



https://hal.inria.fr/hal-00842928
Contributeur : Remi Ronfard <>
Soumis le : mardi 9 juillet 2013 - 17:08:12
Dernière modification le : mercredi 17 juin 2015 - 01:15:53

Fichiers

avsp2013.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-00842928, version 1

Citation

Adela Barbulescu, Thomas Hueber, Gérard Bailly, Rémi Ronfard. Audio-Visual Speaker Conversion using Prosody Features. AVSP - 12th International Conference on Auditory-Visual Speech Processing (AVSP 2013), Aug 2013, Annecy, France. pp.11-16, 2013. <hal-00842928>

Exporter

Partager

Métriques

Consultations de
la notice

507

Téléchargements du document

589