Skip to Main content Skip to Navigation
Conference papers

Deep neural network adaptation for children's and adults' speech recognition

Abstract : English. This paper introduces a novel application of the hybrid deep neural network (DNN)-hidden Markov model (HMM) approach for automatic speech recognition (ASR) to target groups of speakers of a specific age/gender. The group-specific training of DNN is investigated and shown to be inefficient when the amount of training data is limited. To overcome this problem, the recent approach that consists in adapting a general DNN to domain/language specific data is extended to target age/gender groups in the context of hybrid DNN-HMM systems, reducing consistently the phone error rate by 15-20% relative for the three different speaker groups. Italiano. Questo articolo propone l'applicazione del modello ibrido " rete neurale artificiale multistrato-modelli di Markov nascosti " al riconoscimento automatico del parlato per gruppi di parlanti di una specifica fascia di età o genere che in questo caso sono costituiti da: bambini, maschi adulti e femmine adulte. L'addestramente della rete neurale multistrato sì e dimostrato poco efficace quando i dati di addestra-mento erano disponibili solo in piccola quantità per uno specifico gruppo di par-lanti. Per migliorare le prestazioni, un re-cente approccio proposto per adattare una rete neurale multistrato pre-addestrata ad un nuovo domino o ad una nuova linguàlinguà e stato esteso al caso di gruppi di par-lanti di diverse età e genere. L'adozione di di una rete multistrato adattata per cias-cun gruppo di parlanti ha consentito di ottenere una riduzione dell'errore nel ri-conoscimento di fonemi del 15-20% rela-tivo per ciascuno dei tre gruppi di parlanti considerati.
Document type :
Conference papers
Complete list of metadatas

Cited literature [25 references]  Display  Hide  Download
Contributor : Romain Serizel <>
Submitted on : Tuesday, November 8, 2016 - 2:20:47 PM
Last modification on : Friday, July 31, 2020 - 10:44:09 AM
Long-term archiving on: : Tuesday, March 14, 2017 - 11:30:03 PM


Files produced by the author(s)


  • HAL Id : hal-01393975, version 1



Romain Serizel, Diego Giuliani. Deep neural network adaptation for children's and adults' speech recognition. Italian Computational Linguistics Conference (CLiC-it), Dec 2014, Pise, Italy. ⟨hal-01393975⟩



Record views


Files downloads