TTS voice corpus reduction for audio-book generation - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2020

TTS voice corpus reduction for audio-book generation

Réduction du corpus vocal pour la génération de livres audio par TTS

Résumé

Nowadays, with emerging new voice corpora, voice corpus reduction in expressive TTS becomes more important. In this study a spitting greedy approach is investigated to remove utterances. In the first step by comparing five objective measures, the TTS global cost has been found as the best available metric for approximation of perceptual quality. The greedy algorithm employs this measure to evaluate the candidates in each step and the synthetic quality resulted by its solution. It turned out that reducing voice corpus size until a certain length (1 hour in our experiment) could not degrade the synthetic quality. By modifying the original greedy algorithm, its computation time is reduced to a reasonable duration. Two perceptual tests have been run to compare this greedy method and the random strategy for voice corpus reduction. They revealed that there is no superiority of using the proposed greedy approach for corpus reduction.
Aujourd’hui, avec l’émergence de nouveaux corpus vocaux, la réduction de voix pour la synthèse de parole TTS expressive devient plus importante. Dans cette étude, une approche de type glouton cracheur pour supprimer des phrases est étudiée. Dans la première étape, en comparant cinq mesure sobjectives, le coût global du TTS s’est révélé être la meilleure mesure disponible pour l’approximation de la qualité perceptuelle. L’algorithme glouton utilise cette mesure pour évaluer les candidats à chaque étape et la qualité synthétique résultant de la solution en construction. Il s’est avéré que réduire la taille du corpus vocal jusqu’à une certaine durée (1 heure dans notre expérience) ne dégradait pas la qualité synthétique. En modifiant l’algorithme glouton d’origine, il produit une solution en temps raisonnable. Deux tests de perception ont été effectués pour comparer cette méthode gloutonne et la stratégie aléatoire de réduction du corpus vocal. Ils ont révélé qu’il n’y a pas de supériorité dans l’utilisation du glouton proposé pour la réduction du corpus.
Fichier principal
Vignette du fichier
186.pdf (509.09 Ko) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte
Loading...

Dates et versions

hal-02786200 , version 1 (07-06-2020)
hal-02786200 , version 2 (17-06-2020)
hal-02786200 , version 3 (23-06-2020)

Identifiants

  • HAL Id : hal-02786200 , version 3

Citer

Meysam Shamsi. TTS voice corpus reduction for audio-book generation. 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 3 : Rencontre des Étudiants Chercheurs en Informatique pour le TAL, 2020, Nancy, France. pp.193-204. ⟨hal-02786200v3⟩
173 Consultations
110 Téléchargements

Partager

Gmail Facebook X LinkedIn More