Prédiction de performance des systèmes de reconnaissance automatique de la parole à l'aide de réseaux de neurones convolutifs

Résumé : Dans ce travail, nous nous intéressons à la tâche de prédiction de performance des systèmes de transcription de la parole. Nous comparons deux approches de prédiction: une approche de l'état de l'art fondée sur l'extraction explicite de traits et une nouvelle approche fondée sur des caractéristiques entraînées implicitement à l'aide des réseaux neuronaux convo-lutifs (CNN). Nous essayons ensuite de comprendre quelles informations sont capturées par notre modèle neuronal et leurs liens avec différents facteurs. Pour tirer profit de cette analyse, nous proposons un système multitâche qui se montre légèrement plus efficace sur la tâche de prédiction de performance. ABSTRACT. This paper focuses on the ASR performance prediction task. Two prediction approaches are compared: a state-of-the-art performance prediction based on engineered features and a new strategy based on learnt features using convolutional neural networks. We also try to better understand which information is captured by the deep model and its relation with different conditioning factors. To take advantage of this analysis, we then try to leverage these 3 types of information at training time through multi-task learning, which is slightly more efficient on ASR performance prediction task. MOTS-CLÉS : prédiction de performance, reconnaissance de la parole continue à grand vocabu-laire, réseau neuronal convolutif.
Type de document :
Article dans une revue
Traitement Automatique des Langues, ATALA, A paraître
Liste complète des métadonnées

https://hal.archives-ouvertes.fr/hal-01976284
Contributeur : Laurent Besacier <>
Soumis le : mercredi 9 janvier 2019 - 22:21:20
Dernière modification le : lundi 11 février 2019 - 16:36:02

Fichier

asr_prediction.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01976284, version 1

Collections

Citation

Zied Elloumi, Benjamin Lecouteux, Olivier Galibert, Laurent Besacier. Prédiction de performance des systèmes de reconnaissance automatique de la parole à l'aide de réseaux de neurones convolutifs. Traitement Automatique des Langues, ATALA, A paraître. 〈hal-01976284〉

Partager

Métriques

Consultations de la notice

47

Téléchargements de fichiers

59