Développement d'un système de reconnaissance automatique de la parole en coréen avec peu de ressources annotées

Antoine Laurent; Lori Lamel

Communication Dans Un Congrès Année : 2014

Développement d'un système de reconnaissance automatique de la parole en coréen avec peu de ressources annotées

(1) , (1)

Antoine Laurent

Fonction : Auteur
PersonId : 1034318

Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur

Lori Lamel

Fonction : Auteur
PersonId : 15965
IdHAL : lori-lamel
ORCID : 0000-0001-7443-9938
IdRef : 127578056

Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur

Résumé

Ce papier décrit le développement d'un système de reconnaissance automatique de la parole pour le coréen. Le coréen est une langue alpha-syllabique, parlée par environ 78 millions de personnes dans le monde. Le développement de ce système a été mené en utilisant très peu de données annotées manuellement. Les modèles acoustiques ont été adaptés de manière non supervisée en utilisant des données provenant de différents sites d'actualités coréens. Le corpus de développement contient des transcriptions approximatives des documents audio : il s'agit d'un corpus transcrit automatiquement et aligné avec des données provenant des mêmes sites Internet. Nous comparons différentes approches dans ce travail, à savoir, des modèles de langue utilisant des unités différentes pour l'apprentissage non supervisé et pour le décodage (des caractères et des mots avec des vocabulaires de différentes tailles), l'utilisation de phonèmes et d'unités ``demi-syllabiques'' et deux approches différentes d'apprentissage non supervisé.

Mots clés

Reconnaissance automatique de la parole apprentissage non supervisé langues sous doutées

Domaines

Informatique [cs] Informatique et langage [cs.CL]

Limsi Publications : Connectez-vous pour contacter le contributeur

https://hal.science/hal-01843404

Soumis le : mercredi 18 juillet 2018-16:55:21

Dernière modification le : samedi 7 octobre 2023-21:36:20

Dates et versions

hal-01843404 , version 1 (18-07-2018)

Identifiants

HAL Id : hal-01843404 , version 1

Citer

Antoine Laurent, Lori Lamel. Développement d'un système de reconnaissance automatique de la parole en coréen avec peu de ressources annotées. Journées d'Etude sur la Parole, Jan 2014, Le Mans, France. ⟨hal-01843404⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS LIMSI UNIV-PARIS-SACLAY SORBONNE-UNIVERSITE LISN

9 Consultations

0 Téléchargements

Développement d'un système de reconnaissance automatique de la parole en coréen avec peu de ressources annotées

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager