Automatic annotation of incomplete and scattered bibliographical references in Digital Humanities papers

Résumé : In this paper, we deal with the problem of extracting and processing useful information from bibliographic references in Digital Humanities (DH) data. We present our ongoing project BILBO, supported by Google Grant for Digital Humanities that includes the constitution of proper reference corpora and construction of efficient annotation model using several appropriate machine learning techniques. Conditional Random Field is used as a basic approach to automatic annotation of reference fields and Support Vector Machine with a set of newly proposed features is applied for sequence classification. A number of experiments are conducted to find one of the best feature settings for CRF model on these corpora. RÉSUMÉ. L'extraction d'informations bibliographiques depuis un texte non structuré demeure un probléme ouvert que nous abordons, via des approches d'apprentissage automatique, dans le domaine des Humanités Numériques. Nous présentons dans cet article le projet BILBO, soutenu par un Google Digital Humanities Award avec le soutien du projet ANR CAAS : constitution de 3 corpus de référence correspondant à trois localisations des références, élaboration d'un modéle d'annotation puis évaluation. Les champs aléatoires conditionnels (CRFs) sont utilisés pour l'annotation des références bibliographiques et des machines à vecteurs supports (SVMs) pour l'identification des références au sein du texte. De nombreuses expériences sont conduites afin de déterminer les meilleures propriétés devant être exploitées par les modèles numériques.
Type de document :
Communication dans un congrès
CORIA, Mar 2012, Bordeaux, France
Liste complète des métadonnées

https://hal.archives-ouvertes.fr/hal-01317651
Contributeur : Bibliothèque Universitaire Déposants Hal-Avignon <>
Soumis le : mercredi 18 mai 2016 - 16:41:46
Dernière modification le : vendredi 6 octobre 2017 - 12:10:04

Identifiants

  • HAL Id : hal-01317651, version 1

Collections

Citation

Young-Min Kim, Patrice Bellot, Elodie Faath, Marin Dacos. Automatic annotation of incomplete and scattered bibliographical references in Digital Humanities papers. CORIA, Mar 2012, Bordeaux, France. 〈hal-01317651〉

Partager

Métriques

Consultations de la notice

94