Bayesian modeling of speech motor planning : variability, multisensory goals and perceptuo-motor interactions - Archive ouverte HAL Accéder directement au contenu
Thèse Année : 2018

Bayesian modeling of speech motor planning : variability, multisensory goals and perceptuo-motor interactions

Modélisation Bayésienne de planification motrice de la parole : variabilité, buts multisensoriels et intéraction perceptuo-motrices

Résumé

Context and goal:It is almost a truism to affirm that one of the main features of speech is its variability: variability inter-gender, inter-speaker, but also variability from one context to another, or from one repetition to another for a given subject. Variability underlies at the same time the beauty of speech, the complexity of its treatment by speech technologies, and the difficulty for understanding its mechanism. In this thesis we study certain aspects of speech variability, our starting point being the variability characterizing the repetitions of a given utterance by a given subject, in a given condition, which we call intrinsic variability.Models of speech motor control have mainly focused on the contextual aspects of speech variability, and have rarely considered its intrinsic component, even though it is this fundamental component of variability that gives speech it naturalness. In the general context of motor control, the precise origin of the intrinsic variability of our movements remains controversial and poorly understood, however, a common assumption is that intrinsic variability would mainly originate from neural and muscular noise in the execution chain.The main goal of this thesis is to address the contextual and intrinsic component of speech variability in an integrative computational framework . To this aim, we postulate that the main component of the intrinsic variability of speech is not just execution noise, but that it results from a control strategy where intrinsic variability characterizes the abundance of possible productions of the intended speech item.Methodology:We formalize this idea in a probabilistic computational framework, Bayesian modeling, where the abundance of possible realizations of a given speech item is naturally represented as uncertainty, and where variability is thus formally manipulated. We illustrate the pertinence of this approach with three main contributions.Results:Firstly, we reformulate in Bayesian terms an existing model of speech motor control, the GEPPETO model, and demonstrate that this Bayesian reformulation, which we call B-GEPPETO, contains GEPPETO as a particular case . In particular, we illustrate how the Bayesian approach enables to account for the intrinsic component of speech variability while including the same principles proposed by GEPPETO for the emergence and structuration of its contextual component.Secondly, the Bayesian framework enable us to go beyond and extend B-GEPPETO in order to include a multisensory characterization of speech motor goals, with auditory and somatosensory components. We apply this extension to explore variability in the context of compensations to sensory-motor perturbation in speech production. We account for differences in compensation as sensory preferences implemented by modulating the relative contribution of each sensory modality in the model . The somatosensory characterization of speech motor goals involved a certain number of hypotheses that we intended to evaluate with two experimental studies.Finally, in our third contribution we exploit the formalism for the reinterpretation of recent experimental observations concerning perceptual changes following speech motor adaptation to auditory perturbations. This original analysis is made possible thanks to the unified representation of knowledge in the model, which enables to account for production and perception processes in a single computational framework.Taken together, these contributions illustrate how the Bayesian framework offers a structured and systematic approach for the construction of models in cognitive sciences . The framework facilitates the development of models and their progressive complexification by specifying and clarifying underlying assumptions.
Contexte et objectif:C’est presque une banalité que de dire qu’une des caractéristiques principales de la parole est sa variabilité : variabilité inter-sexe, inter-locuteur, mais aussi variabilité d’un contexte à un autre ou d’une répétition à une autre pour un même sujet. C’est cette variabilité qui fait à la fois la beauté de la parole mais aussi la complexité de son traitement par les technologies vocales, et la difficulté pour en comprendre les mécanismes. Dans cette thèse nous étudions certains aspects de cette variabilité, avec comme point de départ la variabilité observée chez un locuteur dans la répétition d’un même son dans les mêmes conditions, que nous appelons variabilité intrinsèque.Les modèles de contrôle moteur de la parole abordent principalement la variabilité contextuelle de la parole mais prennent rarement en compte sa variabilité intrinsèque, alors même que l’on sait que c’est cette variabilité qui donne à la parole tout son caractère naturel. Dans le contexte général du contrôle moteur, l’origine précise de la variabilité intrinsèque reste peu comprise et controversée. Cependant, une hypothèse courante est que la variabilité intrinsèque serait essentiellement due à du bruit neuronal dans la chaine d’exécution.L’objectif principal de cette thèse est d’aborder la variabilité intrinsèque et contextuelle de la production de la parole dans un cadre formel intégrateur. Pour cela nous faisons l’hypothèse que la variabilité intrinsèque n’est pas que le résultat d’un bruit d’exécution, mais qu’elle résulte aussi d’une stratégie de contrôle où la variabilité inter-répétition fait partie intégrante de la représentation de la tâche.Méthodologie:Nous formalisons cette idée dans un cadre computationnel probabiliste, la modélisation Bayésienne, où l’abondance de réalisations possibles d’un même item de parole est représentée naturellement sous la forme d’incertitudes, et où la variabilité est donc manipulée formellement. Nous illustrons la pertinence de cette approche à travers trois contributions.Résultats:Dans un premier temps, nous reformulons un modèle existant de contrôle optimal de la parole, le modèle GEPPETO, dans le formalisme probabiliste et démontrons que le modèle Bayésien contient GEPPETO comme un cas particulier. En particulier, nous illustrons comment l’approche Bayésienne permet de rendre compte de la variabilité intrinsèque tout en incluant les mêmes principes d’émergence et de structuration de la variabilité contextuelle proposés par GEPPETO.Dans un deuxième temps, le formalisme nous permet de dépasser le cadre de GEPPETO en y intégrant une composante somatosensorielle dans la représentation des buts. Cela permet d’introduire une variabilité interindividuelle sur la préférence sensorielle, c’est-à-dire la modulation des poids relatifs des cibles auditives et somatosensorielles, et permet d’expliquer la variabilité de compensation observée dans les études de perturbation sensorielle. Cette étape a nécessité l’élaboration d’hypothèses sur l’intégration des retours sensoriels dans la planification, dont nous avons cherché à évaluer la pertinence en concevant une expérience originale de production-perception de parole.Dans un troisième temps, nous exploitons le formalisme pour réinterpréter des données expérimentales récentes qui mettent en évidence un changement perceptif consécutif à un apprentissage moteur induit par une altération du retour auditif. Cela est rendu possible grâce à la représentation unifiée des connaissances dans le modèle, qui permet d’intégrer la production et la perception dans un cadre formel unique.L’ensemble de ces travaux illustre la capacité du formalisme Bayésien à proposer une démarche systématique et structurée pour la construction des modèles. Cette démarche facilite le développement des modèles et leur complexification progressive en précisant et explicitant les hypothèses formulées.
Fichier principal
Vignette du fichier
PATRI_2018_archivage.pdf (24.39 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)
Loading...

Dates et versions

tel-01854562 , version 1 (06-08-2018)
tel-01854562 , version 2 (27-11-2019)

Identifiants

  • HAL Id : tel-01854562 , version 2

Citer

Jean-François Patri. Bayesian modeling of speech motor planning : variability, multisensory goals and perceptuo-motor interactions. Computation and Language [cs.CL]. Université Grenoble Alpes, 2018. English. ⟨NNT : 2018GREAS019⟩. ⟨tel-01854562v2⟩
485 Consultations
238 Téléchargements

Partager

Gmail Facebook X LinkedIn More