Synthesized Speech : Naturalness, Subjectivity, Capture of Meaning - Archive ouverte HAL Accéder directement au contenu
Article Dans Une Revue Travaux interdisciplinaires du Laboratoire Parole et Langage Année : 2001

Synthesized Speech : Naturalness, Subjectivity, Capture of Meaning

Résumé

It is now well accepted that linguistic structures cannot completely account for the full variation that one observes in speech. This variation is nevertheless an essential component of communication. Therefore, in order to get more natural synthetic speech, it is necessary to model this variability. Based on experience in reading and spontaneous speech analysis, the grounding hypotheses of this work are : 1- the speaker needs to make the message known (both making it heard and understood), 2- in addition the speaker needs to make the message believed, 3- to be believed, a message has to supply a subjective dimension, 4- a great part of the subjective dimension lies in the F0 excursion within lexical items (and other related prosodic cues). The justification of these claims is given in terms of empirical observations dealing with a number of examples of local variation in pitch range. After the phase of linguistic structure learning (basic learning) which is the current focus of speech synthesis, another phase might be to break free with a strong dependency on normative linguistic links, in effect to adapt these forms to a more subjective expression. This is what infants do, albeit simultaneously, in their mother language learning.
Il est maintenant couramment admis que les structures linguistiques ne peuvent pas rendre complètement compte de la forte variabilité observée dans le domaine de la parole. Cette variabilité est pourtant une composante essentielle de la communication. Il est donc nécessaire pour obtenir une parole de synthèse plus naturelle de modéliser cette variabilité. Les hypothèses basées sur une large expérience dans les secteurs de la lecture et du discours spontané, reposent sur l'idée que le locuteur pour donner à son discours les qualités du naturel, doit satisfaire à plusieurs conditions d'ordre pragmatique : - Faire savoir le contenu du message, ce qui implique à la fois de le faire entendre (contraintes de démarcation et d'intelligibilité sur la forme linguistique), et d'autre part le faire comprendre en mettant en relief prosodique les unités linguistiques qui véhiculent l'information sémantique et/ou pragmatique (contrainte de discrimination) ; - Faire croire le contenu du message. Pour susciter la croyance, puis l'adhésion voire l'action, le message doit comporter une dimension subjective, lieu de la rencontre intra-individuelle. Une grande part de cette dimension subjective réside dans l'excursion de la fréquence fondamentale (ou F0) au sein d'un mot, et autres paramètres prosodiques qui lui sont attachés (durée, énergie). Ces considérations s'appuient sur de nombreuses observations empiriques, et l'article présente un certain nombre d'exemples caractéristiques tirés de corpus de lecture et de corpus de parole spontanée, dans lesquels une forte amplitude est constatée au sein du mot lexical. En synthèse de la parole, après la phase d'apprentissage de la structure linguistique, apprentissage de base qui est l'état actuel de la synthèse, une deuxième phase pourrait lui succéder. Ce serait celle où les systèmes s'affranchiraient localement d'une dépendance forte aux structures linguistiques normatives, afin d'adapter les formes à une expression plus subjective. C'est ce que font les enfants, bien que simultanément, dans l'apprentissage de leur langue maternelle.
Fichier principal
Vignette du fichier
1885.pdf (175.7 Ko) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte
Loading...

Dates et versions

hal-00285546 , version 1 (05-06-2008)

Identifiants

  • HAL Id : hal-00285546 , version 1

Citer

Geneviève Caelen-Haumont. Synthesized Speech : Naturalness, Subjectivity, Capture of Meaning. Travaux interdisciplinaires du Laboratoire Parole et Langage, 2001, 20, pp.11-29. ⟨hal-00285546⟩
95 Consultations
123 Téléchargements

Partager

Gmail Facebook X LinkedIn More