Online Refresh Strategies for RSS Feed Crawlers - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2011

Online Refresh Strategies for RSS Feed Crawlers

Roxana Horincar
  • Fonction : Auteur
  • PersonId : 976365
Bernd Amann

Résumé

Les applications Web 2.0 ont transformé Internet en un espace de partage d’informations interactif, dynamique et vivant. Le format RSS joue un rôle primordial dans la diffusion efficace et rapide de l’évolution des informations dans cet espace. D’un point de vue technique, les flux RSS sont des documents XML qui sont régulièrement rafraîchis par des lecteurs et agrégateurs RSS adaptés pour générer un flux continu d’information. Dans cet article, nous étudions le problème de la complétude d’information dans le contexte de l’agrégateur RoSeS. Nous proposons un modèle de qualité avec une stratégie de rafraîchissement adaptée. Cette stratégie est fondée sur le principe du meilleur effort (best effort) qui a déjà été etudié dans le contexte des pages web. La stratégie est evaluée expérimentalement sur des flux RSS synthétiques et réelles.
Fichier non déposé

Dates et versions

hal-01284601 , version 1 (07-03-2016)

Identifiants

  • HAL Id : hal-01284601 , version 1

Citer

Roxana Horincar, Bernd Amann, Thierry Artières. Online Refresh Strategies for RSS Feed Crawlers. BDA, Oct 2011, Rabat, Morocco. ⟨hal-01284601⟩
189 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More