Annoter ESLO1 par des cascades de transducteurs et par apprentissage automatique

Résumé : Cette communication vise à présenter l'état des travaux sur l'annotation du corpus oral ESLO1. L'Enquête Socio-Linguistique à Orléans réalisée à la fin des années 1960 a permis la constitution d'un grand corpus oral du français (317 heures d'enregistrements, soit approximativement 4 500 000 mots, plusieurs centaines de locuteurs). Le corpus a été numérisé et transcrit à l'aide du logiciel Transcriber. Il s'agit de la transcription orthographique normée sans ponctuation sauf les point d'interrogation et les majuscules pour les entités nommées. La segmentation en énoncés a été effectuée manuellement et intuitivement par les transcripteurs. Dans la majorité des cas, il s'agit des pauses dans le discours et le changement du locuteur. Pour mettre ce corpus à disposition du public, certaines tâches d'annotation deviennent utiles et/ou indispensable. Nous présenterons deux travaux sur l'annotation de ce corpus : l'un, repérage et annotation des entités nommées et dénommantes, effectué dans le but, entre autre, de son anonymisation, et l'autre, son étiquetage morpho-syntaxique qui pourrait s'avérer très utile dans la consultation du corpus par les linguistes.
Complete list of metadatas

https://hal.archives-ouvertes.fr/hal-01048608
Contributor : Denis Maurel <>
Submitted on : Friday, July 25, 2014 - 10:16:20 AM
Last modification on : Tuesday, July 2, 2019 - 4:02:04 PM

Identifiers

  • HAL Id : hal-01048608, version 1

Citation

Iris Eshkol-Taravella, Denis Maurel, Isabelle Tellier, Nathalie Friburger, Samer Taalab. Annoter ESLO1 par des cascades de transducteurs et par apprentissage automatique. Journée d'étude de l'Atala : Annoter les corpus oraux., 2011, Paris, France. ⟨hal-01048608⟩

Share

Metrics

Record views

229