Comparaison de systèmes automatiques de reconnaissance grand vocabulaire appliqué à de la parole pathologique

Jérôme Farinas; Thomas Pellegrini; Julien Pinquier

Communication Dans Un Congrès Année : 2019

Comparaison de systèmes automatiques de reconnaissance grand vocabulaire appliqué à de la parole pathologique

(1) , (1) , (1)

Jérôme Farinas

Fonction : Auteur
PersonId : 172411
IdHAL : jerome-farinas
ORCID : 0000-0002-7456-9019
IdRef : 20073234X

Équipe Structuration, Analyse et MOdélisation de documents Vidéo et Audio

Thomas Pellegrini

Fonction : Auteur
PersonId : 741962
IdHAL : thomas-pellegrini
ORCID : 0000-0001-8984-1399
IdRef : 127577955

Équipe Structuration, Analyse et MOdélisation de documents Vidéo et Audio

Julien Pinquier

Fonction : Auteur
PersonId : 21789
IdHAL : julien-pinquier
ORCID : 0000-0003-1556-1284
IdRef : 086752839

Équipe Structuration, Analyse et MOdélisation de documents Vidéo et Audio

Résumé

Les performances actuelles des systèmes automatiques de reconnaissance de la parole grand vocabulaire permettent d'envisager des applications dans le domaine de la santé. Cela permettrait d'envisager des automatisations de divers tests (par exemple la fluence verbale) mais également d'apporter des informations objectives d'assez haut niveau issues de la voix (par exemple des mesures d'intelligibilité). Mais comment se comportent ces systèmes automatiques de reconnaissance de la parole sur des voix pathologiques ? Une solution entièrement automatique est- elle envisageable ? Dans le cadre d'une étude financée par la Société d'Accélération et de Transfert Technologique Toulouse Tech Transfert, une évaluation de systèmes de transcription académiques et industriels a été menée sur un corpus de parole de 385 minutes. Les données sont issues d'enregistrements produits dans différentes conditions : différents styles de parole, environnements bruités, locuteurs avec accents régionaux, personnes atteintes de cancers des voix aériennes supérieures présentant différents degrés de sévérité (extraits du corpus PARALOTHEQUE/C2SI (Astesano 2018)) et également des enregistrements de parole simulant différents degrés de presbyacousie (projet ARCHEAN/Projet AGILE IT (Fontan 2017)). Dix systèmes ont ainsi été évalués : Authôt (société française), Bing de Microsoft, Google, IBM ViaVoice, Nuance, Speechmatics, Sphinx, Wit ainsi que les laboratoires de recherche LIA et IRIT. Aucune adaptation particulière n'a été effectuée sur ce type de données. En effet, une phase d'adaptation permettrait de mettre en meilleure adéquation les modèles (acoustiques et de langage) utilisés par les systèmes de reconnaissance et les enregistrements qui leur sont soumis. Les performances ne sont bien évidemment pas aussi bonnes que celles obtenues sur des enregistrements de parole en conditions normales: environ 94 % de bonnes reconnaissances sur un corpus de 12.500 h d'entrainement (Chiu, 2018). Par exemple, le meilleur système atteint seulement 38 % de taux de reconnaissance de mots sur des voix cancer. Les résultats présentés ici sont donc « bruts » mais permettent d'avoir une vue sur les performances que nous pouvons obtenir directement en utilisant ces services/systèmes. Cela permet également de mesurer l'effort à fournir pour collecter et annoter des données en quantité suffisante pour adapter et rendre pleinement utilisables de tels systèmes afin de traiter des données de voix pathologique.

Mots clés

Reconnaissance de la parole

Domaines

Informatique et langage [cs.CL] Traitement du signal et de l'image [eess.SP]

Fichier principal

farinas_24950.pdf (138.93 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Open Archive Toulouse Archive Ouverte (OATAO) : Connectez-vous pour contacter le contributeur

https://hal.science/hal-02421557

Soumis le : vendredi 20 décembre 2019-15:20:58

Dernière modification le : mercredi 31 janvier 2024-16:16:08

Archivage à long terme le : samedi 21 mars 2020-18:46:18

Dates et versions

hal-02421557 , version 1 (20-12-2019)

Identifiants

HAL Id : hal-02421557 , version 1
OATAO : 24950

Citer

Jérôme Farinas, Thomas Pellegrini, Julien Pinquier. Comparaison de systèmes automatiques de reconnaissance grand vocabulaire appliqué à de la parole pathologique. 8e Journees de Phonetique Clinique (JPC 2019), May 2019, Mons, Belgique. pp.53-54. ⟨hal-02421557⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-TLSE2 CNRS SMS UT1-CAPITOLE IRIT IRIT-SAMOVA ANR IRIT-SI TOULOUSE-INP UNIV-UT3 UT3-TOULOUSEINP

121 Consultations

51 Téléchargements

Comparaison de systèmes automatiques de reconnaissance grand vocabulaire appliqué à de la parole pathologique

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager