Skip to Main content Skip to Navigation
Conference papers

Bien choisir son outil d'extraction de contenu à partir du Web

Résumé : Nous proposons une démonstration sur l’extraction de contenu textuel dans des pages web ainsi que son évaluation. Nous nous concentrons sur les pages web contenant du texte (articles de presse, magazines en ligne et blogs) et montrons que les textes peuvent varier grandement selon différentes dimensions : diachronique, géographique et typologique. Dès lors, les outils et mesures d’évaluation correspondantes sont sujettes à caution : les indicateurs communément utilisés et censés présider au choix de l’outil approprié par les utilisateurs finaux sont à la fois imprécis et difficiles à interpréter.
Document type :
Conference papers
Complete list of metadata

Cited literature [16 references]  Display  Hide  Download

https://hal.archives-ouvertes.fr/hal-02768510
Contributor : Sylvain Pogodalla Connect in order to contact the contributor
Submitted on : Tuesday, June 23, 2020 - 11:29:57 AM
Last modification on : Friday, December 10, 2021 - 3:02:53 AM

File

164.pdf
Publisher files allowed on an open archive

Identifiers

  • HAL Id : hal-02768510, version 3

Citation

Gaël Lejeune, Adrien Barbaresi. Bien choisir son outil d'extraction de contenu à partir du Web. 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 4 : Démonstrations et résumés d'articles internationaux, Jun 2020, Nancy, France. pp.46-49. ⟨hal-02768510v3⟩

Share

Metrics

Les métriques sont temporairement indisponibles