De l'analyse au partage des données, quel(s) format(s) choisir ? L'exemple d'un corpus d'interactions parents-enfant

Résumé : Les enjeux inhérents à tout projet de constitution de corpus sont divers mais, parmi ceux-ci, le choix du format d'encodage des données est central. Cet article expose la chaîne de traitement utilisée dans le cadre du projet ALIPE dans le but de constituer un corpus d'interactions orales entre des parents et leur jeune enfant. Afin de constituer une ressource organisée, structurée, documentée, libre d'accès et au maximum interopérable, nous avons retenu deux formats d'encodage : le format CHAT et le format XML-TEI. Nous présentons dans cette étude les méthodes utilisées par l'équipe de recherche pour récolter les données, les annoter et les rassembler dans le but de constituer un corpus. Nous évoquerons également les avantages que l'utilisation du format XML peut apporter pour l'analyse des données ainsi que pour l'interopérabilité entre logiciels de traitement et d'analyse de corpus.
Type de document :
Communication dans un congrès
COLDOC 2012 : Traitement de corpus linguistiques, Oct 2012, Paris, France. pp. 128-142, 2013
Liste complète des métadonnées

https://hal.archives-ouvertes.fr/hal-00850172
Contributeur : Loïc Liégeois <>
Soumis le : lundi 5 août 2013 - 11:33:47
Dernière modification le : lundi 3 juillet 2017 - 18:30:20
Document(s) archivé(s) le : mercredi 6 novembre 2013 - 04:19:55

Identifiants

  • HAL Id : hal-00850172, version 1

Collections

Citation

Loïc Liégeois. De l'analyse au partage des données, quel(s) format(s) choisir ? L'exemple d'un corpus d'interactions parents-enfant. COLDOC 2012 : Traitement de corpus linguistiques, Oct 2012, Paris, France. pp. 128-142, 2013. <hal-00850172>

Partager

Métriques

Consultations de
la notice

353

Téléchargements du document

207