Classification de transcriptions automatiques imparfaites : Doit-on adapter le calcul du taux d'erreur-mot ?

Résumé : RÉSUMÉ Les systèmes de reconnaissance automatique de la parole (RAP) sont désormais très performants. Néanmoins, la qualité de transcription est fortement dégradée dans des environnements très bruités, ce qui influe sur les performances des applications les utilisant, telles que les tâches de classification. Dans ce papier, nous proposons d'identifier les thèmes présent dans des services vocaux téléphoniques au moyen de l'approche classique à base de fréquences de mots (TF-IDF avec le critère de pureté Gini) et au moyen de l'approche à base d'espaces de thèmes (LDA). Ces deux représentations sont ensuite utilisées dans un processus de classification utilisant les SVM afin de retrouver le thème présent dans la conversation. Enfin, nous proposons de discuter autour de la qualité, en termes de taux d'erreur-mot, des mots identifiés comme discriminants et non-discriminants par les méthodes de représentation des dialogues étudiées dans cet article. ABSTRACT Classification of highly imperfect automatic transcriptions : Should we adapt the word error rate ? Although the current transcription systems could achieve high recognition performance, they still have a lot of difficulties to transcribe speech in very noisy environments. The transcription quality has a direct impact on classification tasks using text features. In this paper, we propose to identify themes of telephone conversation services with the classical Term Frequency-Inverse Document Frequency using Gini purity criteria (TF-IDF-Gini) method and with a Latent Dirichlet Allocation (LDA) approach. These approaches are coupled with a Support Vector Machine (SVM) classification to resolve theme identification problem. Results show the effectiveness of the proposed LDA-based method compared to the classical TF-IDF-Gini approach in the context of highly imperfect automatic transcriptions. Finally, we discuss the impact of discriminative and non-discriminative words extracted by both methods in terms of transcription accuracy. MOTS-CLÉS : classification automatique, TF-IDF, LDA, taux d'erreur-mot. KEYWORDS: document indexing, TF-IDF, LDA, word error rate. *. Ce travail a été réalisé dans le cadre des projets SUMACC et DECODA financés par l'Agence Nationale de la Recherche (ANR) sous les contrats ANR-10-CORD-007 et ANR-09-CORD-005.
Document type :
Conference papers
Complete list of metadatas

https://hal.archives-ouvertes.fr/hal-01319782
Contributor : Bibliothèque Universitaire Déposants Hal-Avignon <>
Submitted on : Monday, May 23, 2016 - 9:01:13 AM
Last modification on : Saturday, March 23, 2019 - 1:22:13 AM

Identifiers

  • HAL Id : hal-01319782, version 1

Collections

Citation

Mohamed Morchid, Richard Dufour, Georges Linares, Renato de Mori. Classification de transcriptions automatiques imparfaites : Doit-on adapter le calcul du taux d'erreur-mot ?. JEP, Jun 2014, Le Mans, France. ⟨hal-01319782⟩

Share

Metrics

Record views

38