Automatic annotation of incomplete and scattered bibliographical references in Digital Humanities papers - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2012

Automatic annotation of incomplete and scattered bibliographical references in Digital Humanities papers

Résumé

In this paper, we deal with the problem of extracting and processing useful information from bibliographic references in Digital Humanities (DH) data. We present our ongoing project BILBO, supported by Google Grant for Digital Humanities that includes the constitution of proper reference corpora and construction of efficient annotation model using several appropriate machine learning techniques. Conditional Random Field is used as a basic approach to automatic annotation of reference fields and Support Vector Machine with a set of newly proposed features is applied for sequence classification. A number of experiments are conducted to find one of the best feature settings for CRF model on these corpora. RÉSUMÉ. L'extraction d'informations bibliographiques depuis un texte non structuré demeure un probléme ouvert que nous abordons, via des approches d'apprentissage automatique, dans le domaine des Humanités Numériques. Nous présentons dans cet article le projet BILBO, soutenu par un Google Digital Humanities Award avec le soutien du projet ANR CAAS : constitution de 3 corpus de référence correspondant à trois localisations des références, élaboration d'un modéle d'annotation puis évaluation. Les champs aléatoires conditionnels (CRFs) sont utilisés pour l'annotation des références bibliographiques et des machines à vecteurs supports (SVMs) pour l'identification des références au sein du texte. De nombreuses expériences sont conduites afin de déterminer les meilleures propriétés devant être exploitées par les modèles numériques.
Fichier non déposé

Dates et versions

hal-01317651 , version 1 (18-05-2016)

Identifiants

  • HAL Id : hal-01317651 , version 1

Citer

Young-Min Kim, Patrice Bellot, Elodie Faath, Marin Dacos. Automatic annotation of incomplete and scattered bibliographical references in Digital Humanities papers. CORIA, Mar 2012, Bordeaux, France. ⟨hal-01317651⟩
240 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More