De l'analyse au partage des données, quel(s) format(s) choisir ? L'exemple d'un corpus d'interactions parents-enfant - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2013

De l'analyse au partage des données, quel(s) format(s) choisir ? L'exemple d'un corpus d'interactions parents-enfant

Loïc Liégeois

Résumé

Any project dealing with corpus building will be faced with any array of different challenges. However, amongst these, the choice of the data encoding format will be central. This article describes the processing chain used during the ALIPE project whose aim is to build a corpus of verbal interactions between parents and their young children. In order to put together an organized, structured, documented, open-access resource with maximal interoperability, we selected two encoding formats: CHAT and XML-TEI. In this article, we introduce the methods used by the research team for data collection and annotation and describe how the data was assembled into a corpus. We also discuss the advantages of using the XML format with respect to data analysis as well as interoperability between corpus processing and analysis software.
Les enjeux inhérents à tout projet de constitution de corpus sont divers mais, parmi ceux-ci, le choix du format d'encodage des données est central. Cet article expose la chaîne de traitement utilisée dans le cadre du projet ALIPE dans le but de constituer un corpus d'interactions orales entre des parents et leur jeune enfant. Afin de constituer une ressource organisée, structurée, documentée, libre d'accès et au maximum interopérable, nous avons retenu deux formats d'encodage : le format CHAT et le format XML-TEI. Nous présentons dans cette étude les méthodes utilisées par l'équipe de recherche pour récolter les données, les annoter et les rassembler dans le but de constituer un corpus. Nous évoquerons également les avantages que l'utilisation du format XML peut apporter pour l'analyse des données ainsi que pour l'interopérabilité entre logiciels de traitement et d'analyse de corpus.
Fichier principal
Vignette du fichier
liegeois_coldoc2012.pdf (339.23 Ko) Télécharger le fichier
liegeois_poster_coldoc.pdf (401.12 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Format : Autre

Dates et versions

hal-00850172 , version 1 (05-08-2013)

Identifiants

  • HAL Id : hal-00850172 , version 1

Citer

Loïc Liégeois. De l'analyse au partage des données, quel(s) format(s) choisir ? L'exemple d'un corpus d'interactions parents-enfant. COLDOC 2012 : Traitement de corpus linguistiques, Oct 2012, Paris, France. pp. 128-142. ⟨hal-00850172⟩

Collections

PRES_CLERMONT LRL
266 Consultations
464 Téléchargements

Partager

Gmail Facebook X LinkedIn More