Le projet ORFEO: Un corpus d'études pour le français contemporain

Résumé : L’article présente le projet dont l’objectif a été de rassembler des données secondaires à partir de corpus existant libres de droits ou mis à disposition par les ayant droits ainsi que de corpus crées pour le projet pour aboutir à 4M. de mots à l’oral et 6M. de mots à l’écrit. L’article présente les choix faits par l’équipe en termes d’harmonisation des données, d’annotations en partie du discours et d’annotations syntaxiques. Les ressources orales ont été unifiées dans un format trs. et alignés avec les fichiers sons au phonème puis segmentés manuellement pour être ensuite annotées en POS et en relation de dépendance semi-automatiquement. La précision des annotations a fait l’objet d’une évaluation. L’ensemble est interrogeable à partir des données mais aussi des métadonnées permettant une sélection des ressources proposées et des recherches à l’aide de requêtes simples ou complexes sur les différents niveaux d’annotation. Il sera mis à disposition en open source courant 2017.
Document type :
Journal articles
Complete list of metadatas

https://hal.archives-ouvertes.fr/hal-01449600
Contributor : Jeanne-Marie Debaisieux <>
Submitted on : Monday, January 30, 2017 - 3:50:47 PM
Last modification on : Wednesday, May 22, 2019 - 3:46:02 PM

Identifiers

  • HAL Id : hal-01449600, version 1

Citation

Jeanne-Marie Debaisieux, Christophe Benzitoun, Henri-José Deulofeu. Le projet ORFEO: Un corpus d'études pour le français contemporain. Revue Corpus, 2016, Corpus de français parlé et français parlé des corpus, 15, pp.91-114. ⟨hal-01449600⟩

Share

Metrics

Record views

281