Prédiction de performance des systèmes de reconnaissance automatique de la parole à l'aide de réseaux de neurones convolutifs

Résumé : Dans ce travail, nous nous intéressons à la tâche de prédiction de performance des systèmes de transcription de la parole. Nous comparons deux approches de prédiction: une approche de l'état de l'art fondée sur l'extraction explicite de traits et une nouvelle approche fondée sur des caractéristiques entraînées implicitement à l'aide des réseaux neuronaux convo-lutifs (CNN). Nous essayons ensuite de comprendre quelles informations sont capturées par notre modèle neuronal et leurs liens avec différents facteurs. Pour tirer profit de cette analyse, nous proposons un système multitâche qui se montre légèrement plus efficace sur la tâche de prédiction de performance. ABSTRACT. This paper focuses on the ASR performance prediction task. Two prediction approaches are compared: a state-of-the-art performance prediction based on engineered features and a new strategy based on learnt features using convolutional neural networks. We also try to better understand which information is captured by the deep model and its relation with different conditioning factors. To take advantage of this analysis, we then try to leverage these 3 types of information at training time through multi-task learning, which is slightly more efficient on ASR performance prediction task. MOTS-CLÉS : prédiction de performance, reconnaissance de la parole continue à grand vocabu-laire, réseau neuronal convolutif.
Document type :
Journal articles
Liste complète des métadonnées

https://hal.archives-ouvertes.fr/hal-01976284
Contributor : Laurent Besacier <>
Submitted on : Wednesday, January 9, 2019 - 10:21:20 PM
Last modification on : Monday, February 11, 2019 - 4:36:02 PM

File

asr_prediction.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-01976284, version 1

Collections

Citation

Zied Elloumi, Benjamin Lecouteux, Olivier Galibert, Laurent Besacier. Prédiction de performance des systèmes de reconnaissance automatique de la parole à l'aide de réseaux de neurones convolutifs. Traitement Automatique des Langues, ATALA, A paraître. ⟨hal-01976284⟩

Share

Metrics

Record views

108

Files downloads

213