Synthèse de la parole à partir du texte
Résumé
L'objet de la synthèse de la parole à partir du texte (ou TTS, Text-To-Speech) est de calculer automatiquement le signal de parole correspondant à un texte donné. Le texte lui-même peut provenir de diverses sources : journaux, livres, systèmes de réponse vocale, de dialogue ou traduction automatique (borne interactive, assistant personnel), base de données dun système dinformation, jeu vidéo, courriers électroniques, SMS, documents butinés sur la toile, ou tout simplement texte saisi au clavier dun ordinateur. La réponse vocale sous sa forme la plus simple peut être un ensemble de messages préenregistrés (ou « prompts »). Lambition de la synthèse de la parole à partir du texte est plus grande : il sagit de calculer automatiquement les échantillons sonores correspondant à un énoncé écrit quelconque, qui nest pas connu davance et qui peut être de grande taille. Les deux versants de la synthèse de parole sont dune part, lanalyse et linterprétation du texte, dautre part, la prédiction des paramètres acoustico- phonétiques du son et la synthèse du signal proprement dite : analyse du texte. La première étape de la transformation dun texte en parole implique la capacité danalyser, de comprendre le texte écrit, ses nuances et ses connotations, la situation du discours et lacte de parole à effectuer. En plus du texte, le contexte peut être spécifié (style de parole, émotion, attitude, type de personnage, voix spécifique...) ; synthèse du signal. Une fois le texte analysé, il sagit de calculer le signal acoustique qui interprète au mieux le contenu linguistique, avec une voix aussi naturelle que possible, ressemblant à un locuteur particulier, et avec les nuances dattitude, voire démotion que le texte réclame. En plus du signal audio, le synthétiseur peut fournir des indications pour synchroniser le mouvement des lèvres dun avatar ou personnage vidéo, ou les mouvements dun robot.