Recherche d'information sociale : exploitation des signaux sociaux pour améliorer la recherche d'information

Ismail Badache 1
1 DIMAG - Data, Information & content MAnagement Group
LIS - Laboratoire d'Informatique et Systèmes
Résumé : Notre travail se situe dans le contexte de recherche d'information sociale (RIS) et s'intéresse plus particulièrement à l'exploitation du contenu généré par les utilisateurs dans le processus de la recherche d'information. Le contenu généré par les utilisateurs (en anglais User-generated content, ou UGC) se réfère à un ensemble de données (ex. signaux sociaux) dont le contenu est principalement, soit produit, soit directement influencé par les utilisateurs finaux. Il est opposé au contenu traditionnel produit, vendu ou diffusé par les professionnels. Le terme devient populaire depuis l'année 2005, dans les milieux du Web 2.0, ainsi que dans les nouveaux médias sociaux. Ce mouvement reflète la démocratisation des moyens de production et d'interaction dans le Web grâce aux nouvelles technologies. Parmi ces moyens de plus en plus accessibles à un large public, on peut citer les réseaux sociaux, les blogs, les microblogs, les Wikis, etc. Les systèmes de recherche d'information exploitent dans leur majorité deux classes de sources d'évidence pour trier les documents répondant à une requête. La première, la plus exploitée, est dépendante de la requête, elle concerne toutes les caractéristiques relatives à la distribution des termes de la requête dans le document et dans la collection (tf-idf). La seconde classe concerne des facteurs indépendants de la requête, elle mesure une sorte de qualité ou d'importance a priori du document. Parmi ces facteurs, on en distingue le PageRank, la localité thématique du document, la présence d'URL dans le document, ses auteurs, etc. Une des sources importantes que l'on peut également exploiter pour mesurer l'intérêt d'une page Web ou de manière générale une ressource, est le Web social. En effet, grâce aux outils proposés par le Web 2.0 les utilisateurs interagissent de plus en plus entre eux et/ou avec les ressources. Ces interactions (signaux sociaux), traduites par des annotations, des commentaires ou des votes associés aux ressources, peuvent être considérés comme une information additionnelle qui peut jouer un rôle pour mesurer une importance a priori de la ressource en termes de popularité et de réputation, indépendamment de la requête. Nous supposons également que l'impact d'un signal social dépend aussi du temps, c'est-à-dire la date à laquelle l'action de l'utilisateur est réalisée. Nous considérons que les signaux récents devraient avoir un impact supérieur vis-à-vis des signaux anciens dans le calcul de l'importance d'une ressource. La récence des signaux peut indiquer certains intérêts récents à la ressource. Ensuite, nous considérons que le nombre de signaux d'une ressource doit être pris en compte au regard de l'âge (date de publication) de cette ressource. En général, une ressource ancienne en termes de durée d'existence a de fortes chances d'avoir beaucoup plus de signaux qu'une ressource récente. Ceci conduit donc à pénaliser les ressources récentes vis-à-vis de celles qui sont anciennes. Enfin, nous proposons également de prendre en compte la diversité des signaux sociaux au sein d'une ressource.
Type de document :
Thèse
Recherche d'information [cs.IR]. Université Paul Sabatier - Toulouse III, 2016. Français. 〈NNT : 2016TOU30038〉
Liste complète des métadonnées

Littérature citée [69 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/tel-01881286
Contributeur : Ismail Badache <>
Soumis le : mardi 25 septembre 2018 - 16:10:00
Dernière modification le : mercredi 24 octobre 2018 - 21:48:06

Fichier

2016_These_Ismail_Badache.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : tel-01881286, version 1

Collections

Citation

Ismail Badache. Recherche d'information sociale : exploitation des signaux sociaux pour améliorer la recherche d'information. Recherche d'information [cs.IR]. Université Paul Sabatier - Toulouse III, 2016. Français. 〈NNT : 2016TOU30038〉. 〈tel-01881286〉

Partager

Métriques

Consultations de la notice

95

Téléchargements de fichiers

28