Skip to Main content Skip to Navigation
Conference papers

Analyse du bruit pour la prédiction de la qualité de la transcription automatique de la parole

Résumé : De nombreuses sources de variabilité peuvent dégrader les performances des systèmes de Reconnaissance Automatique de la Parole (RAP). Dans cette étude, les dégradations provoquées par le bruit sont analysées afin de prédire a priori la qualité de la RAP, i.e. avant décodage. Notre méthode d'extraction de paramètre, nommée Sub-band Statistical Feature (S-SF), se base sur une séparation de la parole et du bruit. Une fois séparée, des statistiques sont extraites par bande fréquentielle. Pour relier ces paramètres à un système de RAP, un modèle de régression est calculé. L'expérimentation a été réalisée sur le corpus Wall Street Journal, bruité avec le corpus NOISEX-92 (15 types de bruit) que nous appliquons à 9 niveaux de rapport signal sur bruit. La méthode de régression proposée obtient 8,75 d'erreur de prédiction de WER sur un système de RAP entra¿¿né avec des données non-bruitées. Lorsque 20 tours de parole sont utilisés (durée d'environ 140s), l'erreur de prédiction décro¿¿t à 5,82. Notre extraction de S-SF permet une amélioration relative de 20% par rapport à l'extraction des Sub-band Signal-to-Noise Ratio (S-SNR). Cette prédiction peut être utilisée pour ignorer des portions d'audio dont la transcription automatique de la parole est de mauvaise qualité et pour informer l'utilisateur, au plus tôt, de la qualité de la transcription pouvant être obtenue.
Document type :
Conference papers
Complete list of metadata

Cited literature [14 references]  Display  Hide  Download

https://hal.archives-ouvertes.fr/hal-02950726
Contributor : Open Archive Toulouse Archive Ouverte (OATAO) Connect in order to contact the contributor
Submitted on : Monday, September 28, 2020 - 11:29:45 AM
Last modification on : Monday, July 4, 2022 - 9:05:22 AM
Long-term archiving on: : Thursday, December 3, 2020 - 7:37:59 PM

File

ferreira_26257.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : hal-02950726, version 1
  • OATAO : 26257

Citation

Sébastien Ferreira, Jérome Farinas, Julien Pinquier, Stéphane Rabant. Analyse du bruit pour la prédiction de la qualité de la transcription automatique de la parole. 27e Colloque du Groupe de Recherche sur le Traitement du Signal et des Images (GRETSI 2019), Aug 2019, Lille, France. pp.1-4. ⟨hal-02950726⟩

Share

Metrics

Record views

26

Files downloads

40