Query selection methods for automated corpora construction with a use case in food-drug interactions

Georgeta Bordea; Tsanta Randriatsitohaina; Natalia Grabar; Fleur Mougin; Thierry Hamon

doi:10.18653/v1/W19-5013

Communication Dans Un Congrès Année : 2019

Query selection methods for automated corpora construction with a use case in food-drug interactions

(1) , (2) , (3) , (1) , (2, 4)

1
2
3
4

Georgeta Bordea

Fonction : Auteur

Bordeaux population health

Tsanta Randriatsitohaina

Fonction : Auteur
PersonId : 1034329

Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur

Natalia Grabar

Fonction : Auteur
PersonId : 6735
IdHAL : natalia-grabar
ORCID : 0000-0002-0237-4554
IdRef : 089015460

Savoirs, Textes, Langage (STL) - UMR 8163

Fleur Mougin

Fonction : Auteur

Bordeaux population health

Thierry Hamon

Fonction : Auteur
PersonId : 11519
IdHAL : thierry-hamon
ORCID : 0000-0002-1521-4875
IdRef : 069054711

Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur

Université Paris 13

Résumé

In this paper, we address the problem of automatically constructing a relevant corpus of scientific articles about food-drug interactions. There is a growing number of scientific publications that describe food-drug interactions but currently building a high-coverage corpus that can be used for information extraction purposes is not trivial. We investigate several methods for automating the query selection process using an expert-curated corpus of food-drug interactions. Our experiments show that index term features along with a decision tree classifier are the best approach for this task and that feature selection approaches and in particular gain ratio outperform frequency-based methods for query selection.

Mots clés

Query selection Corpus construction Food-drug interactions

Domaines

Informatique [cs] Informatique et langage [cs.CL]

Fichier principal

BordeaG-2019-Query-Article_de_colloque.pdf (358.34 Ko)

Origine : Fichiers éditeurs autorisés sur une archive ouverte

Limsi Publications : Connectez-vous pour contacter le contributeur

https://hal.science/hal-02371207

Soumis le : mercredi 31 mars 2021-09:20:52

Dernière modification le : mercredi 28 février 2024-14:37:41

Archivage à long terme le : jeudi 1 juillet 2021-18:09:08

Dates et versions

hal-02371207 , version 1 (31-03-2021)

Licence

Paternité

Identifiants

HAL Id : hal-02371207 , version 1
DOI : 10.18653/v1/W19-5013

Citer

Georgeta Bordea, Tsanta Randriatsitohaina, Natalia Grabar, Fleur Mougin, Thierry Hamon. Query selection methods for automated corpora construction with a use case in food-drug interactions. ACL Workshop on Biomedical Natural Language Processing, Aug 2019, Florence, Italy. pp.115-124, ⟨10.18653/v1/W19-5013⟩. ⟨hal-02371207⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INSERM UNIV-PARIS13 CNRS LIMSI STL CAMPUS-AAR AAI USPC UNIV-PARIS-SACLAY UNIV-LILLE SORBONNE-UNIVERSITE SORBONNE-PARIS-NORD ANR LISN U1219 GS-ENGINEERING GS-COMPUTER-SCIENCE GS-SPORT-HUMAN-MOVEMENT ACT-R

105 Consultations

55 Téléchargements

Query selection methods for automated corpora construction with a use case in food-drug interactions

Résumé

Mots clés

Domaines

Dates et versions

Licence

Identifiants

Citer

Exporter

Collections

Altmetric

Partager