ANCOR, premier corpus de français parlé d'envergure annoté en coréférence et distribué librement

Judith Muzerelle 1 Anaïs Lefeuvre 2 Jean-Yves Antoine 2 Emmanuel Schang 1 Denis Maurel 2 Jeanne Villaneau 3 Iris Eshkol 1
2 BDTLN - Bases de données et traitement des langues naturelles
LI - Laboratoire d'Informatique de l'Université de Tours
3 SEASIDE - SEarch, Analyze, Synthesize and Interact with Data Ecosystems
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires, UBS - Université de Bretagne Sud
Résumé : Cet article présente la réalisation d'ANCOR, qui constitue par son envergure (453 000 mots) le premier corpus francophone annoté en anaphores et coréférences permettant le développement d'approches centrées sur les données pour la résolution des anaphores et autres traitements de la coréférence. L'annotation a été réalisée sur trois corpus de parole conversationnelle (Accueil_UBS, OTG et ESLO) qui le destinent plus particulièrement au traitement du langage parlé. En l'absence d'équivalent pour le langage écrit, il est toutefois susceptible d'intéresser l'ensemble de la communauté TAL. Par ailleurs, le schéma d'annotation retenu est suffisamment riche pour permettre des études en linguistique de corpus. Le corpus sera diffusé librement à la mi-2013 sous licence Creative Commons BY-NC-SA. Cet article se concentre sur sa mise en œuvre et décrit brièvement quelques résultats obtenus sur la partie déjà annotée de la ressource.
Type de document :
Communication dans un congrès
ATALA. TALN'2013, 20e conférence sur le Traitement Automatique des Langues Naturelles, Jun 2011, Les Sable d'Olonne, France. pp.555-563, 2011
Liste complète des métadonnées


https://hal.archives-ouvertes.fr/hal-01016562
Contributeur : Jean-Yves Antoine <>
Soumis le : jeudi 3 juillet 2014 - 08:59:49
Dernière modification le : mercredi 2 août 2017 - 10:08:12
Document(s) archivé(s) le : vendredi 3 octobre 2014 - 10:42:10

Fichier

TALN_2013_ANCOR_FINAL.pdf
Fichiers éditeurs autorisés sur une archive ouverte

Identifiants

  • HAL Id : hal-01016562, version 1

Citation

Judith Muzerelle, Anaïs Lefeuvre, Jean-Yves Antoine, Emmanuel Schang, Denis Maurel, et al.. ANCOR, premier corpus de français parlé d'envergure annoté en coréférence et distribué librement. ATALA. TALN'2013, 20e conférence sur le Traitement Automatique des Langues Naturelles, Jun 2011, Les Sable d'Olonne, France. pp.555-563, 2011. <hal-01016562>

Partager

Métriques

Consultations de
la notice

637

Téléchargements du document

206