Approximate Reverse Nearest Neighbors Search in High Dimensions using Locality-Sensitive Hashing - Archive ouverte HAL Accéder directement au contenu
Rapport (Rapport De Recherche) Année : 2009

Approximate Reverse Nearest Neighbors Search in High Dimensions using Locality-Sensitive Hashing

David Arthur
  • Fonction : Auteur
  • PersonId : 864353
Steve Y. Oudot
  • Fonction : Auteur correspondant
  • PersonId : 845393

Connectez-vous pour contacter l'auteur

Résumé

We investigate the problem of finding approximate reverse nearest neighbors efficiently in high dimensions. Given a point cloud $P$ and a parameter $\e$, our goal is to preprocess $P$ in a way that enables us to quickly return the set of reverse nearest neighbors of any query point $q$ among the points of $P$, plus possibly a small set of false positives that are $\e$-close to being true reverse nearest neighbors. Although provable solutions exist for this problem in low or fixed dimensions, to this date the methods proposed in high dimensions are mostly heuristic. We propose a method that is both provably-good and provably-efficient in all dimensions, based on a reduction of the problem to a small number of instances of the now classical $\e$-nearest neighbor search and $r$-neighbors reporting problems. Although the former has been extensively studied and elegantly solved in high dimensions using Locality-Sensitive Hashing techniques (LSH), the latter has a complexity that is still not well understood. We propose a new analysis of the LSH scheme for $r$-neighbors reporting, which brings out a meaningful output-sensitive term in the complexity of the problem, and which down the road enables us to solve the approximate reverse nearest problem, thanks to our reduction. Along the way, we propose a method to perform exact nearest neighbor search, whose analysis sheds new light on the problem by introducing a notion of {\em condition number} measuring the inherent complexity of a given instance.
Nous étudions le problème de la recherche efficace de plus proches voisins inverses en grandes dimensions. Étant donné un nuage de points $P$ et un paramètre $\e$, notre objectif est de pré-traiter le nuage $P$ de telle sorte à pouvoir trouver rapidement l'ensemble des plus proches voisins inverses d'un point de requête $q$ quelconque, plus éventuellement un petit nombre de faux positifs qui sont proches d'être des plus proches voisins inverses de $q$. Alors que des solutions efficaces et prouvées existent pour ce problème en dimensions petites ou fixées, à ce jour les méthodes proposées en grandes dimensions sont essentiellement heuristiques. Nous proposons une méthode à la fois efficace et prouvée en toutes dimensions, basée sur une réduction du problème à un petit nombre d'instances des problèmes classiques de recherche de plus proche voisin approché et de recherche exhaustive de voisins à distance $r$ fixée. La complexité intrinsèque de ce dernier problème reste peu connue. Nous proposons une nouvelle analyse du comportement du hachage géométrique (LSH) sur ce problème, qui met en évidence une borne dépendant de la taille de la sortie, et qui au final, grâce à notre réduction, nous permet de résoudre le problème de la recherche de plus proches voisins inverses en temps raisonnable. Dans la foulée nous proposons également une méthode pour effectuer des recherches de plus proches voisins exacts, dont l'analyse éclaire le problème d'une nouvelle manière en introduisant une notion de {\em conditionnement} qui mesure la difficulté intrinsèque d'une instance particulière du problème.
Fichier principal
Vignette du fichier
RR-7084.pdf (694.58 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

inria-00429459 , version 1 (06-11-2009)
inria-00429459 , version 2 (09-11-2009)
inria-00429459 , version 3 (31-10-2010)
inria-00429459 , version 4 (08-11-2010)
inria-00429459 , version 5 (22-11-2010)

Identifiants

  • HAL Id : inria-00429459 , version 3

Citer

David Arthur, Steve Y. Oudot. Approximate Reverse Nearest Neighbors Search in High Dimensions using Locality-Sensitive Hashing. [Research Report] RR-7084, 2009. ⟨inria-00429459v3⟩

Collections

INRIA-RRRT
497 Consultations
579 Téléchargements

Partager

Gmail Facebook X LinkedIn More