TTS voice corpus reduction for audio-book generation

Meysam Shamsi

Communication Dans Un Congrès Année : 2020

TTS voice corpus reduction for audio-book generation

Réduction du corpus vocal pour la génération de livres audio par TTS

(1)

Meysam Shamsi

Fonction : Auteur
PersonId : 750650
IdHAL : meysam-shamsi
ORCID : 0000-0002-4104-9826

Institut de Recherche en Informatique et Systèmes Aléatoires

Résumé

Nowadays, with emerging new voice corpora, voice corpus reduction in expressive TTS becomes more important. In this study a spitting greedy approach is investigated to remove utterances. In the first step by comparing five objective measures, the TTS global cost has been found as the best available metric for approximation of perceptual quality. The greedy algorithm employs this measure to evaluate the candidates in each step and the synthetic quality resulted by its solution. It turned out that reducing voice corpus size until a certain length (1 hour in our experiment) could not degrade the synthetic quality. By modifying the original greedy algorithm, its computation time is reduced to a reasonable duration. Two perceptual tests have been run to compare this greedy method and the random strategy for voice corpus reduction. They revealed that there is no superiority of using the proposed greedy approach for corpus reduction.

Aujourd’hui, avec l’émergence de nouveaux corpus vocaux, la réduction de voix pour la synthèse de parole TTS expressive devient plus importante. Dans cette étude, une approche de type glouton cracheur pour supprimer des phrases est étudiée. Dans la première étape, en comparant cinq mesure sobjectives, le coût global du TTS s’est révélé être la meilleure mesure disponible pour l’approximation de la qualité perceptuelle. L’algorithme glouton utilise cette mesure pour évaluer les candidats à chaque étape et la qualité synthétique résultant de la solution en construction. Il s’est avéré que réduire la taille du corpus vocal jusqu’à une certaine durée (1 heure dans notre expérience) ne dégradait pas la qualité synthétique. En modifiant l’algorithme glouton d’origine, il produit une solution en temps raisonnable. Deux tests de perception ont été effectués pour comparer cette méthode gloutonne et la stratégie aléatoire de réduction du corpus vocal. Ils ont révélé qu’il n’y a pas de supériorité dans l’utilisation du glouton proposé pour la réduction du corpus.

Mots clés

Perceptual test Greedy algorith Voice corpus Text-to-speech

Synthèse vocale Corpus vocal Algorithme glouton Test de perception

Domaines

Informatique et langage [cs.CL]

Fichier principal

186.pdf (509.09 Ko)

Origine : Fichiers éditeurs autorisés sur une archive ouverte

Sylvain Pogodalla : Connectez-vous pour contacter le contributeur

https://hal.science/hal-02786200

Soumis le : mardi 23 juin 2020-11:44:34

Dernière modification le : vendredi 24 mars 2023-14:53:18

Dates et versions

hal-02786200 , version 1 (07-06-2020)

hal-02786200 , version 2 (17-06-2020)

hal-02786200 , version 3 (23-06-2020)

Identifiants

HAL Id : hal-02786200 , version 3

Citer

Meysam Shamsi. TTS voice corpus reduction for audio-book generation. 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 3 : Rencontre des Étudiants Chercheurs en Informatique pour le TAL, 2020, Nancy, France. pp.193-204. ⟨hal-02786200v3⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INSTITUT-TELECOM UNIV-RENNES1 CNRS INRIA INSA-RENNES IRISA CENTRALESUPELEC UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES INSA-GROUPE JEP-TALN-RECITAL2020 TALN-RECITAL UR1-MATH-NUM

173 Consultations

110 Téléchargements

TTS voice corpus reduction for audio-book generation

Réduction du corpus vocal pour la génération de livres audio par TTS

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager