Social network ordering to reduce cache misses - Archive ouverte HAL Accéder directement au contenu
Pré-Publication, Document De Travail Année : 2016

Social network ordering to reduce cache misses

Numérotation des graphes sociaux pour la réduction des défauts de cache

Résumé

One of social graph's properties is the community structure, that is, subsets where nodes belonging to the same subset have a higher link density between themselves and a low link density with nodes belonging to external subsets. Futhermore, most social network mining algorithms comprise a local exploration of the underlying graph, which consists in referencing nodes in the neighborhood of a particular node. The idea of this paper is to use the community structure to optimise the storage of large graphs that arise in social network mining. The goal is to reduce cache misses and consequently, execution time. In this paper, after formalizing the problem of social network ordering as a problem of optimal linear arrangement, we present for Katz score, simulations that compare existing data structures (bloc_ds and yale_ds) to their corresponding versions that use the community structure produced by the Louvain algorithm. Results on a NUMA (32 cores) machine using amazon and dblp datasets show that, taking into account the community structure allows to reduce cache misses and consequently execution time. For example with the amazon dataset, we reduced execution time by up to 10.5% (compared to bloc_ds) and 9.5% (compared to yale_ds) ; this reduction of the execution time matches with the reduction by 42% of cache misses.
L'une des propriétés des graphes sociaux est leur structure en communautés, c'est-à-dire en sous-ensembles où les noeuds ont une forte densité de liens entre eux et une faible densité de liens avec l'extérieur. Par ailleurs, la plupart des algorithmes de fouille des réseaux sociaux comportent une exploration locale du graphe sous-jacent, ce qui amène à partir d'un noeud, à faire référence aux noeuds situés dans son voisinage. L'idée de cet article est d'exploiter la structure en communautés pour optimiser le stockage des grands graphes qui surviennent dans la fouille des réseaux sociaux. L'objectif étant de réduire le nombre de défauts de cache avec pour conséquence la réduction du temps d'exécution. Dans cet article, après avoir formalisé le problème de numérotation des noeuds des réseaux sociaux comme un problème d'arrangement linéaire optimal, nous présentons pour le score de Katz, des simulations comparant les structures de données existantes (bloc_ds et yale_ds) à leurs versions exploitant la structure en communautés produite par l'algorithme de Louvain. Les résultats obtenus sur une machine NUMA (de 32 coeurs) à partir des jeux de données amazon et dblp montrent que la prise en compte de la structure en communautés contribue à diminuer les défauts de caches et par conséquent à réduire le temps d'exécution. Par exemple, sur amazon nous avons une diminution du temps d'exécution pouvant aller jusqu'à 10.5% (comparé à bloc_ds) et 9.5% (comparé à yale_ds); cette diminution du temps d'exécution correspond à une réduction des défauts de cache de 42%.
Fichier principal
Vignette du fichier
article_arima_numerotation_des_reseaux_sociaux.pdf (710.62 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-01304968 , version 1 (20-04-2016)
hal-01304968 , version 2 (30-11-2016)
hal-01304968 , version 3 (07-12-2016)
hal-01304968 , version 4 (04-05-2017)
hal-01304968 , version 5 (10-05-2017)

Identifiants

  • HAL Id : hal-01304968 , version 1

Citer

Thomas Messi Nguélé, Maurice Tchuente, Jean-François Méhaut. Social network ordering to reduce cache misses. 2016. ⟨hal-01304968v1⟩
658 Consultations
1189 Téléchargements

Partager

Gmail Facebook X LinkedIn More