Comparaison de systèmes automatiques de reconnaissance grand vocabulaire appliqué à de la parole pathologique - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2019

Comparaison de systèmes automatiques de reconnaissance grand vocabulaire appliqué à de la parole pathologique

Résumé

Les performances actuelles des systèmes automatiques de reconnaissance de la parole grand vocabulaire permettent d'envisager des applications dans le domaine de la santé. Cela permettrait d'envisager des automatisations de divers tests (par exemple la fluence verbale) mais également d'apporter des informations objectives d'assez haut niveau issues de la voix (par exemple des mesures d'intelligibilité). Mais comment se comportent ces systèmes automatiques de reconnaissance de la parole sur des voix pathologiques ? Une solution entièrement automatique est- elle envisageable ? Dans le cadre d'une étude financée par la Société d'Accélération et de Transfert Technologique Toulouse Tech Transfert, une évaluation de systèmes de transcription académiques et industriels a été menée sur un corpus de parole de 385 minutes. Les données sont issues d'enregistrements produits dans différentes conditions : différents styles de parole, environnements bruités, locuteurs avec accents régionaux, personnes atteintes de cancers des voix aériennes supérieures présentant différents degrés de sévérité (extraits du corpus PARALOTHEQUE/C2SI (Astesano 2018)) et également des enregistrements de parole simulant différents degrés de presbyacousie (projet ARCHEAN/Projet AGILE IT (Fontan 2017)). Dix systèmes ont ainsi été évalués : Authôt (société française), Bing de Microsoft, Google, IBM ViaVoice, Nuance, Speechmatics, Sphinx, Wit ainsi que les laboratoires de recherche LIA et IRIT. Aucune adaptation particulière n'a été effectuée sur ce type de données. En effet, une phase d'adaptation permettrait de mettre en meilleure adéquation les modèles (acoustiques et de langage) utilisés par les systèmes de reconnaissance et les enregistrements qui leur sont soumis. Les performances ne sont bien évidemment pas aussi bonnes que celles obtenues sur des enregistrements de parole en conditions normales: environ 94 % de bonnes reconnaissances sur un corpus de 12.500 h d'entrainement (Chiu, 2018). Par exemple, le meilleur système atteint seulement 38 % de taux de reconnaissance de mots sur des voix cancer. Les résultats présentés ici sont donc « bruts » mais permettent d'avoir une vue sur les performances que nous pouvons obtenir directement en utilisant ces services/systèmes. Cela permet également de mesurer l'effort à fournir pour collecter et annoter des données en quantité suffisante pour adapter et rendre pleinement utilisables de tels systèmes afin de traiter des données de voix pathologique.
Fichier principal
Vignette du fichier
farinas_24950.pdf (138.93 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-02421557 , version 1 (20-12-2019)

Identifiants

  • HAL Id : hal-02421557 , version 1
  • OATAO : 24950

Citer

Jérôme Farinas, Thomas Pellegrini, Julien Pinquier. Comparaison de systèmes automatiques de reconnaissance grand vocabulaire appliqué à de la parole pathologique. 8e Journees de Phonetique Clinique (JPC 2019), May 2019, Mons, Belgique. pp.53-54. ⟨hal-02421557⟩
121 Consultations
51 Téléchargements

Partager

Gmail Facebook X LinkedIn More