Vers une détection en temps réel de documents Web centrés sur une entité donnée

Résumé : 3 Université d'Aix-Marseille-LSIS 4 Kware {vincent.bouvier, patrice.bellot}@lsis.org RÉSUMÉ. La tâche de désambiguïsation des entités nommées consiste à lier une mention ambiguë d'une entité dans un document à l'entité correspondante dans une base de connaissances. Dans ce travail, nous nous plaçons dans un cadre applicatif "inverse" et nous ajoutons une contrainte temporelle : nous souhaitons surveiller un flux de nouveaux documents Web et déterminer quels sont ceux mentionnant une entité donnée tout en mesurant l'importance de l'information conte-nue. Une telle approche peut servir à recommander des documents à des contributeurs si une information mérite d'être ajoutée dans la base de connaissances cible. Notre approche repose sur l'utilisation de deux classifieurs prenant en compte, pour déterminer l'intérêt d'un document du flux, des indices comme la fréquence de mentions de l'entité dans le temps ou dans le document, sa position ou encore la présence d'entités liées connues. Notre approche et l'impact des paramètres utilisés ont été évalués via une participation à la tâche "Knowledge Base Acce-leration" de TREC 2012 et a positionné notre équipe au rang 3 sur 11 (Bonnefoy et al., 2012). ABSTRACT. Name entity disambiguation is the task of linking an ambiguous name in a document to the unique real-world entity in a kwnoledge base (KB) its represents. We took the opposite problem and add a time constraint : we monitor a data stream to detect in real-time documents about an entity from a KB and determine to what extent the information in those documents matter. It could be used to reduce time lag between the moment a new important information about an entity shows up and the moment it is added to the knowledge base. We used Random Forests combined with time-related features (eg. count of mentions in time) and document and related entities centric features to tackle this problem. The effectiveness and impact of the features used have been evaluated through our participation to the "Knowledge Base Acceleration" task at TREC 2012 and positionned our team rank 3 on 11 (Bonnefoy et al., 2012). MOTS-CLÉS : entité nommée, base de connaissances, kba, trec, flux
Document type :
Conference papers
Complete list of metadatas

https://hal.archives-ouvertes.fr/hal-01313030
Contributor : Bibliothèque Universitaire Déposants Hal-Avignon <>
Submitted on : Monday, May 9, 2016 - 2:31:39 PM
Last modification on : Tuesday, April 2, 2019 - 2:03:37 AM

Identifiers

  • HAL Id : hal-01313030, version 1

Citation

Ludovic Bonnefoy, Vincent Bouvier, Romain Deveaud, Patrice Bellot. Vers une détection en temps réel de documents Web centrés sur une entité donnée. Coria 2013, Apr 2013, Neuchâtel, Suisse. ⟨hal-01313030⟩

Share

Metrics

Record views

382