Exploration de systèmes end-to-end pour la reconnaissance automatique de la parole spontanée
Résumé
Ces dernières années, les systèmes de Reconnaissance Automatique de la Parole (RAP) ont donné de très bons résultats sur les benchmarks de la communauté. Si ces résultats sont très bons sur la parole lue ou médiatique, les performances baissent considérablement pour la Reconnaissance de la Parole Spontanée (RAPS), notamment à cause de la faible disponibilité des corpus et de la difficulté de définir et de modéliser ce type de parole. Dans ce travail, nous souhaitons explorer l’utilisation d’un modèle neuronal pour la RAPS. En effet, l’optimisation end-to-end (de bout en bout) de ces
modèles – sans modèle de langue a priori et en partie sans corpus annoté – offre non seulement des performances intéressantes, mais également l’opportunité d’étudier la modélisation de la parole spontanée uniquement à partir de données.
Origine : Fichiers produits par l'(les) auteur(s)