Corpus de parole pathologique, état d'avancement et enjeux méthodologiques - Archive ouverte HAL Accéder directement au contenu
Article Dans Une Revue Travaux interdisciplinaires du Laboratoire Parole et Langage Année : 2006

Corpus de parole pathologique, état d'avancement et enjeux méthodologiques

Alain Ghio
Connectez-vous pour contacter l'auteur
Julie Locco
  • Fonction : Auteur correspondant
  • PersonId : 846786

Connectez-vous pour contacter l'auteur
Thierry Legou
  • Fonction : Auteur correspondant
  • PersonId : 850065
  • IdRef : 257835849

Connectez-vous pour contacter l'auteur
Corinne Fredouille

Résumé

Depuis une quinzaine d'années, l'étude des dysfonctionnements de la voix et de la parole est sortie du simple cadre de la recherche clinique et intéresse les laboratoires de recherche issus des sciences du langage. Par l'observation des dysfonctionnements, les chercheurs SHS confrontent les résultats de leurs recherches établies sur des corpus de parole "normale" à des situations d'élocution pathologique. En effet, le dysfonctionnement aide à comprendre le fonctionnement. Ces situations permettent un enrichissement des connaissances entre les communautés de scientifiques du langage, des cliniciens mais aussi de chercheurs issus des STIC. Actuellement, les études sur le dysfonctionnement de la voix et de la parole souffrent cruellement d'une dispersion et hétérogénéité des données. Souvent, les analyses portent sur quelques locuteurs enregistrés pour les besoins ponctuels d'une étude, ce qui affaiblit considérablement la portée des résultats et permet mal de généraliser les conclusions. L'enregistrement des données et le stockage sont souvent effectués par du personnel non formé à certains aspects techniques de la prise et du formatage de données, ce qui peut entraîner une impossibilité de diffusion. A cela s'ajoute la perte quasi systématique des méta-données, ce qui explique souvent la difficulté de faire émerger des résultats clairs car l'homogénéité des populations testées devient totalement opaque.Notre projet s'inscrit dans un dessein plus vaste qui vise à décrire et évaluer les dysfonctionnements de la voix et de la parole, ceci dans une optique fédérative et multidisciplinaire, en axant notre effort, dans un premier temps, sur la mise à disposition de masses de données organisées, de méthodes d'analyse et d'outils mutualisés. Pour cela, il est nécessaire d'obtenir un consensus permettant de proposer des recommandations et un mode de fonctionnement assurant un partage effectif des données. Cela implique la rédaction d'un protocole général, de conventions et de directions d'analyse. Le principe n'est pas d'imposer une façon de faire unique mais d'offrir un cadre de travail permettant d'assurer une compatibilité des données recueillies de parole pathologique, des méta-données et enrichissements associés.La deuxième étape consiste à mettre en place et développer un système d'interrogation, d'extraction, de classification des données de parole pathologique. Cela implique l'élaboration d'une organisation en base de données associant informations cliniques et enregistrements sonores et physiologiques, ceci dans une optique multicentrique capable d'intégrer différentes informations variant selon les équipes de recherche. Cette base devra permettre de centraliser et redéployer les informations provenant de divers laboratoires de recherche et centres cliniques impliqués dans l'étude des dysfonctionnements de la voix et de la parole. La consultation de la base doit être rendue publique par Internet avec divers niveaux d'accessibilité en restreignant l'accès selon des modalités à définir entre les partenaires du projet et selon l'ouverture prévue par la suite. De plus, il nous paraît important de fournir un ensemble d'outils d'analyse de ce type de corpus. Si certains outils sont disponibles sous la forme de dispositifs informatisés de tests de perception ou de logiciels d'analyse « classique » du signal, il nous parait intéressant d'introduire des systèmes de traitement issus de la reconnaissance automatique de la parole et du locuteur afin d'être en mesure d'évaluer une grande masse de données et d'obtenir des modèles et résultats statistiquement conséquents. Enfin, il nous paraît intéressant, dans le cadre de ce projet, de proposer un sous-ensemble de données représentatives des troubles de la communication parlée, ceci dans une optique pédagogique qui permettrait de fournir un support aux enseignements à la fois dans les cursus cliniques comme les écoles d'orthophonie mais aussi en sciences du langage ayant des filières « dysfonctionnements ».Notre objectif est d'aboutir dans ce sens au premier corpus conséquent de parole pathologique (dysphonies et dysarthries) de langue française, ainsi qu'à une mise à disposition d'outils communs adaptés à ce type de données. Cela ouvrirait la portée scientifique des études portant sur les dysfonctionnements de la voix et de la parole.Il faut aussi souligner la visée sociale de ce type de projet. Nous touchons au domaine de la santé. Notre projet contribuerait fortement à améliorer ce problème de communication du malade, relevant de la santé publique. Il est clair qu'une meilleure connaissance et évaluation des troubles de la voix et de la parole aurait un impact direct sur la prise en charge des personnes atteintes de ces troubles, celles-ci souffrant bien souvent d'une rupture sociale liée à la dégradation de leur capacité de communication avec leur entourage.Enfin, il faut signaler que la mise à disposition d'un tel type de corpus est d'un grand intérêt pour les laboratoires issus des technologies de l'information et de la communication. En effet, certaines équipes, qui travaillent par exemple sur la reconnaissance automatique de la parole ou du locuteur, manquent totalement de données organisées pour tester leurs systèmes dans des situations atypiques ou encore, pour adapter leurs méthodes aux situations de dysfonctionnement dans le but de fournir des systèmes de classification automatiques dédiés à l'évaluation de la qualité vocale ; le but final de ces travaux étant de fournir une aide au diagnostic et au suivi des dysfonctionnements.
Fichier principal
Vignette du fichier
3015.pdf (3.46 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-00354505 , version 1 (20-01-2009)

Identifiants

  • HAL Id : hal-00354505 , version 1

Citer

Alain Ghio, Bernard Teston, François Viallet, Ludovic Jankowski, Alain Purson, et al.. Corpus de parole pathologique, état d'avancement et enjeux méthodologiques. Travaux interdisciplinaires du Laboratoire Parole et Langage, 2006, 25, pp.109-126. ⟨hal-00354505⟩
841 Consultations
822 Téléchargements

Partager

Gmail Facebook X LinkedIn More