Skip to Main content Skip to Navigation
Conference papers

Vers un corpus optimal pour la fouille de textes : stratégie de constitution de corpus spécialisés à partir d'ISTEX

Résumé : Préalable indispensable à de nombreuses activités de TAL et de fouille de textes, l’élaboration d’un corpus peut nécessiter plusieurs phases de traitement pour améliorer sa qualité et ainsi obtenir les meilleurs résultats d’analyse automatique. Les post-traitements appliqués à un tel corpus, notamment pour garantir la pertinence de son contenu et l’homogénéité de son format, pourront s’avérer d’autant plus coûteux et fastidieux que la construction du corpus de travail aura été imprécise. Cette démonstration se proposera de tirer parti de la plateforme ISTEX et de ses services associés pour constituer, au travers d’un cycle itératif, un corpus homogène de publications scientifiquement pertinentes pour une utilisation simplifiée par des outils de fouille.
Document type :
Conference papers
Complete list of metadata

https://hal.archives-ouvertes.fr/hal-02768520
Contributor : Sylvain Pogodalla Connect in order to contact the contributor
Submitted on : Tuesday, June 23, 2020 - 11:27:33 AM
Last modification on : Friday, March 12, 2021 - 2:34:34 PM

Files

159.pdf
Publisher files allowed on an open archive

Identifiers

  • HAL Id : hal-02768520, version 3

Citation

Camille de Salabert, Sabine Barreaux. Vers un corpus optimal pour la fouille de textes : stratégie de constitution de corpus spécialisés à partir d'ISTEX. 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 4 : Démonstrations et résumés d'articles internationaux, Jun 2020, Nancy, France. pp.66-69. ⟨hal-02768520v3⟩

Share

Metrics

Record views

177

Files downloads

78