Personalized top-k processing: from centralized to decentralized systems - Archive ouverte HAL Accéder directement au contenu
Thèse Année : 2010

Personalized top-k processing: from centralized to decentralized systems

Traitement personnalisé de requête top-k: des systèmes centralisés aux systèmes décentralisés

Résumé

The Web 2.0 revolution has transformed the Internet from a read-only infrastructure to an active read-write platform. The rapid increasing amount user-generated content in collaborative tagging systems provides a huge source of information. Yet, performing effective search becomes more challenging, especially when we seek the most appropriate items that match a potentially ambiguous query. Personalization is appealing in this context as it limits the search for the items within a small network of participants with similar interests. However, centralized solutions for this personalization do not scale given the large amount of information that needs to be maintained on a user basis, especially given the dynamic nature of the systems where users continuously change their profiles by tagging new items. In this regard, this thesis deals with the efficiency and scalability of personalized query processing, from centralized to decentralized systems, around two axes: (i) the off-line personalization that relies on users' past tagging behaviors and (ii) the on-line personalization that relies on both the past behaviors and the current query. We first present the algorithm P3K, which decentralizes a state-of-the-art approach and achieves off-line personalized top-k processing in peer-to-peer systems. Then we present P4Q, an extension of P3K that enhances the system performance in terms of storage, bandwidth and robustness. Both P3K and P4Q rely on gossip-based protocols to capture the implicit similarity between users and associate each user with a set of social acquaintances to process the query. Analytical and experimental evaluations convey their scalability and efficiency for top-k query processing, as well as the inherent ability of P4Q to cope with users updating profiles and departing. To further improve the result quality for the queries depicting emerging interests of the querier, we propose a hybrid interest model, taking into account both the tagging profile and the query, to perform personalized query processing. This is achieved on-line in a centralized system by doing top-k twice with the algorithm DT². Then we propose the algorithm DT²P² that efficiently performs the same on-line personalization with improved scalability in a fully decentralized system. Experimental results on real datasets show that on-line personalization is promising to fulfill the diverse user preferences while the proposed algorithms make it feasible in both centralized and decentralized systems.
La révolution Web 2.0 a transformé l'Internet, une infrastructure auparavant en lecture seule, en une plate-forme collaborative en lecture-écriture. La forte augmentation des donnés générées par les utilisateurs des systèmes collaboratifs constitue désormais une source considérable d'informations. Pourtant, effectuer efficacement des recherches dans un tel environnement est devenu plus difficile, en particulier lorsque ces recherches engendrent des ambiguïtés. Personnaliser les recherches permet d'éviter ces écueils en limitant les recherches au sein d'un réseau très réduit de participants ayant des intérêts similaires. Toutefois, les solutions centralisées pour mettre en œuvre cette personnalisation s'avèrent difficile compte tenu du volume important d'informations qui doit être maintenu pour chaque utilisateur. La nature dynamique de ces systèmes, dans lesquels les utilisateurs changent potentiellement souvent d'intérêt, complique la tâche. Cette thèse propose de nouveaux algorithmes permettant d'effectuer des recherches personnalisées de manière efficace dans des systèmes dynamiques, centralisés ou décentralisés, selon deux axes majeurs : (i) la personnalisation hors ligne qui s'appuie sur le comportement passé des utilisateurs et (ii) la personnalisation en ligne qui s'appuie sur le comportement passé et la requête en cours. Nous présentons d'abord l'algorithme P3K, qui décentralise une approche existante et réalise le traitement personnalisé des requêtes top-k hors ligne dans les systèmes pair-à-pair. Ensuite, nous présentons P4Q, une extension de P3K qui améliore les performances du système en termes de stockage, bande passante et la robustesse en distribuant le traitement des requêtes. Les deux algorithmes, P3K et P4Q, reposent sur des protocoles épidémiques pour capturer la similarité implicite entre les utilisateurs et associer ainsi à chaque utilisateur un "réseau personnel" dans lequel traiter la requête. Nos évaluations analytiques et expérimentales démontrent leur efficacité pour le traitement des requêtes top-k, y compris dans les systèmes dynamiques, en particulier que la capacité inhérente de P4Q à faire face aux mises à jours des profils des utilisateurs. Dans le but d'améliorer encore la qualité des résultats pour les requêtes représentant les intérêts émergents des utilisateurs, et donc non représentés dans son profil, nous proposons un modèle hybride d'intérêt, prenant en compte à la fois le profil des utilisateurs mais également la requête elle-même. Nous avons proposé une solution à la fois en centralisé, l'algorithme DT², qui effectue une recherche de type top-k à deux reprises: le premier top-k consiste à sélectionner dynamiquement un sous-réseau (le réseau personnel) le plus adapté à la requête et à l'utilisateur la générant. Le second top-k consiste à effectuer la recherche dans ce sous réseau. L'algorithme DT²P², exécute efficacement la personnalisation en ligne de manière entièrement décentralisée. Les résultats expérimentaux sur des traces réelles de systèmes collaboratifs, montrent que la personnalisation en ligne est prometteuse pour répondre aux préférences diverses des utilisateurs.
Fichier principal
Vignette du fichier
Thesis_XiaoBai.pdf (2.05 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00545642 , version 1 (10-12-2010)

Identifiants

  • HAL Id : tel-00545642 , version 1

Citer

Xiao Bai. Personalized top-k processing: from centralized to decentralized systems. Networking and Internet Architecture [cs.NI]. INSA de Rennes, 2010. English. ⟨NNT : ⟩. ⟨tel-00545642⟩
287 Consultations
775 Téléchargements

Partager

Gmail Facebook X LinkedIn More