Des bases de données massives au Web de données : désambiguïsation et alignement d'entités géographiques dans les textes scientifiques

Abstract : In this paper we present an automatic approach to disambiguate and align geographic entities. A method based on word embeddings allows, from unsupervised learning, to remove ambiguity with polysemic terms. This allows automatic alignment with different databases (BNF, wikidata...) having a triplestore. We then use semantic web technologies, both to expose the data in a different way (data.istex) but also to allow complex queries that cannot be solved from traditional search engines. We will discuss a concrete case based on the ISTEX database, and a qualitative evaluation of the method will be proposed.
Document type :
Conference papers
Complete list of metadatas

Cited literature [19 references]  Display  Hide  Download

https://hal.archives-ouvertes.fr/hal-02307577
Contributor : Hans Dillaerts <>
Submitted on : Monday, October 7, 2019 - 4:51:09 PM
Last modification on : Wednesday, October 9, 2019 - 1:26:56 AM

File

Cuxac_Collignon_Gregorio_Parme...
Files produced by the author(s)

Identifiers

  • HAL Id : hal-02307577, version 1

Collections

Citation

Pascal Cuxac, Alain Collignon, Stéphanie Gregorio, François Parmentier. Des bases de données massives au Web de données : désambiguïsation et alignement d'entités géographiques dans les textes scientifiques. 12ème Colloque international d’ISKO-France : Données et mégadonnées ouvertes en SHS : de nouveaux enjeux pour l’état et l’organisation des connaissances ?, Oct 2019, Montpellier, France. ⟨hal-02307577⟩

Share

Metrics

Record views

189

Files downloads

45