Annoter ESLO1 par des cascades de transducteurs et par apprentissage automatique

Cette communication vise à présenter l'état des travaux sur l'annotation du corpus oral ESLO1. L'Enquête Socio-Linguistique à Orléans réalisée à la fin des années 1960 a permis la constitution d'un grand corpus oral du français (317 heures d'enregistrements, soit approximativement 4 500 000 mots, plusieurs centaines de locuteurs). Le corpus a été numérisé et transcrit à l'aide du logiciel Transcriber. Il s'agit de la transcription orthographique normée sans ponctuation sauf les point d'interrogation et les majuscules pour les entités nommées. La segmentation en énoncés a été effectuée manuellement et intuitivement par les transcripteurs. Dans la majorité des cas, il s'agit des pauses dans le discours et le changement du locuteur. Pour mettre ce corpus à disposition du public, certaines tâches d'annotation deviennent utiles et/ou indispensable. Nous présenterons deux travaux sur l'annotation de ce corpus : l'un, repérage et annotation des entités nommées et dénommantes, effectué dans le but, entre autre, de son anonymisation, et l'autre, son étiquetage morpho-syntaxique qui pourrait s'avérer très utile dans la consultation du corpus par les linguistes.

Domaines

Informatique et langage [cs.CL] Base de données [cs.DB]

Denis Maurel : Connectez-vous pour contacter le contributeur

https://hal.science/hal-01048608

Soumis le : vendredi 25 juillet 2014-10:16:20

Dernière modification le : vendredi 16 février 2024-18:16:04

Dates et versions

hal-01048608 , version 1 (25-07-2014)

Identifiants

HAL Id : hal-01048608 , version 1

Citer

Iris Eshkol-Taravella, Denis Maurel, Isabelle Tellier, Nathalie Friburger, Samer Taalab. Annoter ESLO1 par des cascades de transducteurs et par apprentissage automatique. Journée d'étude de l'Atala : Annoter les corpus oraux., 2011, Paris, France. ⟨hal-01048608⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-TOURS CNRS UNIV-ORLEANS MSL MSL-THESE LIBDTLN LLL LIFAT INSA-GROUPE INSA-CVL

144 Consultations

0 Téléchargements