Assessing speaker-independent character information for acted voices - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2021

Assessing speaker-independent character information for acted voices

Évaluation de l'information personnage indépendante du locuteur pour les voix actées

Résumé

While the natural voice is spontaneously generated by people, the acted voice is a controlled vocal interpretation, produced by professional actors and aimed at creating a desired effect on the listener. In this work, we pay attention to the aspects of the voice related to the character played. We particularly focus on actors playing the same video game role in different languages. This article is based on a recent work which proposes to build a neural-network-based voice representation dedicated to the character aspects, namely p-vector. This representation is learnt from recordings only labeled with the acted character. It showed its ability to associate two vocal examples related to the same character, even if the character is unknown during the training phase. However, there is still a possible confusion between speaker and character dimension. To tackle this problem, We propose a protocol to highlight the speaker-independent part of the character information (SICI). We compare the original voice representation with an alternative where the information relating to the characters is neutralised. This experiment shows that performance is not a sufficient metric to assess the quality of a character representation. It also offers the first evidence of the SICI in the voice.
Alors que la voix naturelle est générée spontanément par les locuteurs, la voix jouée est une interprétation vocale contrôlée, produite par des acteurs professionnels et visant à créer un effet désiré sur l'auditeur. Dans ce travail, nous prêtons attention aux aspects de la voix liés au personnage joué. Nous nous concentrons particulièrement sur les acteurs jouant le même rôle d'un jeu vidéo dans différentes langues. Cet article est basé sur un travail récent qui propose de construire une représentation vocale basée sur un réseau de neurones et dédiée aux aspects du personnage, à savoir le p-vecteur. Cette représentation est apprise à partir d'enregistrements uniquement étiquetés avec le personnage joué. Elle a montré sa capacité à associer deux exemples vocaux liés au même personnage, même si le personnage est inconnu pendant la phase d'apprentissage. Cependant, il existe toujours une confusion possible entre la dimension du locuteur et celle du personnage. Pour résoudre ce problème, nous proposons un protocole pour mettre en évidence la partie indépendante du locuteur de l'information sur le caractère (SICI). Nous comparons la représentation vocale originale avec une alternative où les informations relatives aux personnages sont neutralisées. Cette expérience montre que la performance n'est pas une métrique suffisante pour évaluer la qualité d'une représentation de caractères. Elle offre également la première preuve de la présence du SICI dans la voix.
Fichier principal
Vignette du fichier
_SPECOM_2021__Assessing_speaker_independant_character_information.pdf (654.83 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-03348572 , version 1 (19-09-2021)

Identifiants

  • HAL Id : hal-03348572 , version 1

Citer

Mathias Quillot, Richard Dufour, Jean-François Bonastre. Assessing speaker-independent character information for acted voices. 23rd International Conference on Speech and Computer (SPECOM), Sep 2021, Saint Petersburg, Russia. ⟨hal-03348572⟩
31 Consultations
75 Téléchargements

Partager

Gmail Facebook X LinkedIn More