Phonotactique prédictive et alignement automatique : Application au corpus MARSEC et perspectives - Archive ouverte HAL Accéder directement au contenu
Article Dans Une Revue Travaux interdisciplinaires du Laboratoire Parole et Langage Année : 2003

Phonotactique prédictive et alignement automatique : Application au corpus MARSEC et perspectives

Cyril Auran
  • Fonction : Auteur correspondant
  • PersonId : 845432

Connectez-vous pour contacter l'auteur
Caroline Bouzon

Résumé

This paper presents the methodology used during the generation of Aix-MARSEC, a multi-level aligned corpus (phonemes, sub-syllabic components, syllables, words, stress feet and intonation units). After defining the concepts of alignment and granularity, the main part of this paper details the three phases leading to the aligned phonetic transcription of the corpus : raw dictionary-based grapheme-tophoneme conversion, optimisation by phoneme elision rules and automatic forced Viterbi alignment of the optimised transcription. After the evaluation of both the optimised transcription and the final alignment, perspectives of improvement of these two components are suggested.
Cet article présente la méthodologie employée lors de la constitution du corpus aligné (phonèmes, constituants syllabiques, syllabes, mots, pieds accentuels et unités intonatives) Aix-MARSEC. Après avoir défini les concepts d'alignement et de granularité, cet article détaille, dans sa partie centrale, les trois phases menant à la transcription phonétique alignée du corpus : phonétisation automatique brute par dictionnaire, optimisation par règles d'élision et alignement automatique par "force Viterbi" de la transcription optimisée. Après évaluation de la phonétisation optimisée et de l'alignement final, des perspectives d'amélioration de ces deux composantes sont proposées.
Fichier principal
Vignette du fichier
2102.pdf (1.31 Mo) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte
Loading...

Dates et versions

hal-00285551 , version 1 (05-06-2008)

Identifiants

  • HAL Id : hal-00285551 , version 1

Citer

Cyril Auran, Caroline Bouzon. Phonotactique prédictive et alignement automatique : Application au corpus MARSEC et perspectives. Travaux interdisciplinaires du Laboratoire Parole et Langage, 2003, 22, pp.33-63. ⟨hal-00285551⟩
237 Consultations
263 Téléchargements

Partager

Gmail Facebook X LinkedIn More