Une base de données sur les troncations involontaires de mots en français parlé. - Archive ouverte HAL Accéder directement au contenu
Article Dans Une Revue Travaux interdisciplinaires du Laboratoire Parole et Langage Année : 2006

Une base de données sur les troncations involontaires de mots en français parlé.

Résumé

A study on disfluencies in oral French utterances has been undertaken for 5 years. The oral data transcription reveals a number of specific and frequent phenomena among which involuntary truncations of words. The fragments of words generally are rarely perceived but the guidelines for transcription used by of the "Aix Group of Research in Syntax" (GARS) make it possible to identify them in a univocal way. A systematic collection was carried out in corpora recorded in several areas of France according to a precise protocol (the Corpus of Spoken French Reference). Orthographical transcription and recordings were digitalized (by the team DELIC, Aix-en-Provence.); they are available and aligned on at least the turn taking by the speaker. The corpora are not labelled. The studied phenomena are extracted in context, inserted and analyzed in a spreadsheet (Excel file). They constitute an autonomous data base allowing other analyses such as the words-truncations phonetic description, the uses of connectors inserted at the time of these truncations, etc. This data base currently contains 441 items but will be increased by at least as many fragments of words within one year.
Une étude sur les disfluences en français parlé a été entreprise depuis 5 ans. La transcription des données orales révèle un certain nombre de phénomènes spécifiques et fréquents dont les troncations involontaires de mots. Les amorces de mots sont le plus souvent peu perçues mais les conventions de transcription du Groupe Aixois de Recherche en Syntaxe (GARS) permettent de les identifier de façon univoque. Un recueil systématique a été réalisé à partir de corpus enregistrés dans plusieurs régions de France selon un protocole précis (le Corpus de Référence de Français Parlé). Transcriptions orthographiques et enregistrements ont été numérisés (Équipe DELIC, Aix-en-Provence), sont disponibles et alignés le plus souvent sur les tours de parole. Les corpus ne sont pas étiquetés. Les phénomènes étudiés sont extraits en contexte, insérés et analysés dans un tableur (Excel). Ils constituent une base de données autonome permettant d'autres analyses comme la description phonétique des troncations de mots, celle des emplois de connecteurs insérés à l'occasion de ces troncations, etc. Cette base de données contient actuellement 441 items mais sera augmentée d'au moins autant d'amorces de mots d'ici un an.
Fichier principal
Vignette du fichier
3053.pdf (334.67 Ko) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte
Loading...

Dates et versions

hal-00142932 , version 1 (23-04-2007)

Identifiants

  • HAL Id : hal-00142932 , version 1

Citer

Berthille Pallaud. Une base de données sur les troncations involontaires de mots en français parlé.. Travaux interdisciplinaires du Laboratoire Parole et Langage, 2006, 25, pp.173-184. ⟨hal-00142932⟩
139 Consultations
892 Téléchargements

Partager

Gmail Facebook X LinkedIn More