Author name extraction in blog web pages: a machine learning approach - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2016

Author name extraction in blog web pages: a machine learning approach

Résumé

This paper presents research results concerning the automatic extraction of author names that are explicitly mentioned in blog web pages. It shows that some NLP pre-preprocessing stages (NE recognition, coreference resolution) prior to a SVM classification have a positive impact on accuracy.
Cet article présente les résultats de travaux ayant pour but l'extraction automatique de noms d'auteurs explicites dans des articles de blogs. Il montre que l'ajout de pré-traitements relevant du TAL (détection d'entités nommées, résolution des coréférences) avant une classification de type SVM améliore les performances.
Fichier principal
Vignette du fichier
DUPIN_ET_AL_2016JADT_VPOSTER.pdf (409.13 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01344975 , version 1 (13-07-2016)

Identifiants

  • HAL Id : hal-01344975 , version 1

Citer

Lucie Dupin, Nicolas Labroche, Jean-Yves Antoine, Jean-Christophe Lavocat, Agata Savary. Author name extraction in blog web pages: a machine learning approach. Journées internationales d'Analyse statistique des Données Textuelles, JADT'2016, Jun 2016, Nice, France. ⟨hal-01344975⟩
169 Consultations
564 Téléchargements

Partager

Gmail Facebook X LinkedIn More