Online Refresh Strategies for RSS Feed Crawlers

Roxana Horincar 1 Bernd Amann 1 Thierry Artières 2
1 BD - Bases de Données
LIP6 - Laboratoire d'Informatique de Paris 6
2 MALIRE - Machine Learning and Information Retrieval
LIP6 - Laboratoire d'Informatique de Paris 6
Résumé : Les applications Web 2.0 ont transformé Internet en un espace de partage d’informations interactif, dynamique et vivant. Le format RSS joue un rôle primordial dans la diffusion efficace et rapide de l’évolution des informations dans cet espace. D’un point de vue technique, les flux RSS sont des documents XML qui sont régulièrement rafraîchis par des lecteurs et agrégateurs RSS adaptés pour générer un flux continu d’information. Dans cet article, nous étudions le problème de la complétude d’information dans le contexte de l’agrégateur RoSeS. Nous proposons un modèle de qualité avec une stratégie de rafraîchissement adaptée. Cette stratégie est fondée sur le principe du meilleur effort (best effort) qui a déjà été etudié dans le contexte des pages web. La stratégie est evaluée expérimentalement sur des flux RSS synthétiques et réelles.
Document type :
Conference papers
Complete list of metadatas

https://hal.archives-ouvertes.fr/hal-01284601
Contributor : Lip6 Publications <>
Submitted on : Monday, March 7, 2016 - 5:41:44 PM
Last modification on : Thursday, September 19, 2019 - 2:20:04 PM

Identifiers

  • HAL Id : hal-01284601, version 1

Citation

Roxana Horincar, Bernd Amann, Thierry Artières. Online Refresh Strategies for RSS Feed Crawlers. BDA, Oct 2011, Rabat, Morocco. ⟨hal-01284601⟩

Share

Metrics

Record views

85