Développement d'un système de reconnaissance automatique de la parole en coréen avec peu de ressources annotées - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2014

Développement d'un système de reconnaissance automatique de la parole en coréen avec peu de ressources annotées

Résumé

Ce papier décrit le développement d'un système de reconnaissance automatique de la parole pour le coréen. Le coréen est une langue alpha-syllabique, parlée par environ 78 millions de personnes dans le monde. Le développement de ce système a été mené en utilisant très peu de données annotées manuellement. Les modèles acoustiques ont été adaptés de manière non supervisée en utilisant des données provenant de différents sites d'actualités coréens. Le corpus de développement contient des transcriptions approximatives des documents audio : il s'agit d'un corpus transcrit automatiquement et aligné avec des données provenant des mêmes sites Internet. Nous comparons différentes approches dans ce travail, à savoir, des modèles de langue utilisant des unités différentes pour l'apprentissage non supervisé et pour le décodage (des caractères et des mots avec des vocabulaires de différentes tailles), l'utilisation de phonèmes et d'unités ``demi-syllabiques'' et deux approches différentes d'apprentissage non supervisé.
Fichier non déposé

Dates et versions

hal-01843404 , version 1 (18-07-2018)

Identifiants

  • HAL Id : hal-01843404 , version 1

Citer

Antoine Laurent, Lori Lamel. Développement d'un système de reconnaissance automatique de la parole en coréen avec peu de ressources annotées. Journées d'Etude sur la Parole, Jan 2014, Le Mans, France. ⟨hal-01843404⟩
9 Consultations
0 Téléchargements

Partager

Gmail Mastodon Facebook X LinkedIn More