Reconnaissance de phones fondée sur du Transfer Learning pour des enfants apprenants lecteurs en environnement de classe - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2020

Reconnaissance de phones fondée sur du Transfer Learning pour des enfants apprenants lecteurs en environnement de classe

Résumé

Current performance of speech recognition for children is below that of the state-of-the-art for adultspeech. Young children’s speech is particularly difficult to recognise, and substantial corpora aremissing to train acoustic models. Furthermore, in the scope of our reading assistant for 5-7-year-oldchildren learning to read, models need to cope with slow reading rate, disfluencies, and classroom-typical babble noise. In this paper, we compare acoustic models for phone recognition on child speechusing data that is very noisy and limited in quantity. We show that transfer learning with adult-trainedtime-delay neural networks and three hours of child speech improves the phone error rate by 7.6%relative, over a model trained on child speech. The addition of vocal tract length normalisation onadult speech further reduces the error rate by 5.1% relative, reaching a PER of 37.1%.
A conditions égales, les performances actuelles de la reconnaissance vocale pour enfants sont inférieures à celles des systèmes pour adultes. La parole des jeunes enfants est particulièrement difficile à reconnaître, et les données disponibles sont rares. En outre, pour notre application d’assistant de lecture pour les enfants de 5-7 ans, les modèles doivent s’adapter à une lecture lente, des disfluences et du bruit de brouhaha typique d’une classe. Nous comparons ici plusieurs modèles acoustiques pour la reconnaissance de phones sur de la parole lue d’enfant avec des données bruitées et en quantité limitée. Nous montrons que faire du Transfer Learning avec des modèles entraînés sur la parole d’adulte et trois heures de parole d’enfant améliore le taux d’erreur au niveau du phone (PER) de 7,6% relatifs, par rapport à un modèle enfant. La normalisation de la longueur du conduit vocal sur la parole d’adulte réduit ce taux d’erreur de 5,1% relatifs supplémentaires, atteignant un PER de 37,1%.
Fichier principal
Vignette du fichier
21.pdf (414.13 Ko) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte
Loading...

Dates et versions

hal-02798545 , version 1 (07-06-2020)
hal-02798545 , version 2 (18-06-2020)
hal-02798545 , version 3 (23-06-2020)

Identifiants

  • HAL Id : hal-02798545 , version 3

Citer

Lucile Gelin, Morgane Daniel, Thomas Pellegrini, Julien Pinquier. Reconnaissance de phones fondée sur du Transfer Learning pour des enfants apprenants lecteurs en environnement de classe. 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole, 2020, Nancy, France. pp.253-261. ⟨hal-02798545v3⟩
216 Consultations
114 Téléchargements

Partager

Gmail Facebook X LinkedIn More