ECHANTILLONNAGE SOUS CONTRAINTES DE MOTIFS STRUCTURES

Lamine Diop

Résumé

The pattern discovery literature has long struggled with two major problems. First, it is not possible to use the relevant patterns directly if the minimum interest threshold is small because there are far too many. Conversely, if the minimum interest threshold is too large, certain instances will be described little or not at all. Second, the full set of patterns that met the minimum interest threshold constraint may contain many redundancies. Output sampling is a non-exhaustive method for the instant discovery of relevant patterns which ensures good interactivity while providing strong statistical guarantees due to its random nature. Curiously, such an approach studied for different types of patterns, including itemsets and subgraphs, has not yet been applied to sequential patterns and distributed databases. In this thesis, we propose numerous methods dedicated to sequential pattern sampling, pattern sampling in distributed databases and finally trie-based pattern sampling. In addition to answering these complex tasks, the originality of our approaches is to introduce a class of interestingness measures relying on the norm of the pattern, named norm-based interestingness measures. In particular, it enables to add constraints on the norm of sampled patterns to control the length of the drawn patterns and to avoid the pitfall of the ``long tail'' where the rarest patterns flood the user. In this context, we first propose two algorithms called NUSSampling for sequential databases and DDSampling for distributed databases. Based on two-step random procedures incorporating this class of interestingness measures, they randomly draw patterns proportionally to the frequency weighted by a utility based on the norm. Second, we propose TPSampling, a sampling algorithm for itemsets based on the trie structure. Less consumer in memory, it also randomly draws patterns based on frequency weighted by a utility based on the norm. We show that all of our methods perform an exact sampling according to the underlying measure. At the application level, we focus on the interest of norm constraints and exponential decay that help to draw general patterns from the head of the long tail. We also illustrate how to benefit from these sampled patterns to build classifiers dedicated to sequences and itemsets. This classification approach rivals with state-of-the-art proposals showing the interest of sequential pattern sampling with norm-based utility. In addition, we also illustrate the usefulness of the sampled patterns on the distributed data of the Semantic Web for detecting outlier entities in DBpedia and Wikidata.

La littérature de la découverte de motifs a longtemps lutté avec deux problèmes majeurs. Premièrement, il n'est pas possible d’utiliser directement les motifs pertinents si le seuil d'intérêt minimal est petit car ils sont bien trop nombreux. A l'opposé, si le seuil d'intérêt minimal est trop grand, certaines instances seront peu ou pas décrites. Deuxièmement, l'ensemble complet des motifs ayant satisfait la contrainte de seuil d'intérêt minimal peut contenir de nombreuses redondances. L'échantillonnage en sortie est une méthode non exhaustive pour la découverte instantanée de motifs intéressants qui assure une bonne interactivité tout en offrant de solides garanties statistiques en raison de sa nature aléatoire. Curieusement, une telle approche étudiée pour différents types de motifs, y compris les itemsets et les sous-graphes, n'a pas encore été appliquée aux motifs séquentiels et aux bases de données distribuées. Dans cette thèse, nous proposons de nombreuses méthodes dédiées à l'échantillonnage en sortie de motifs séquentiels, l'échantillonnage en sortie de motifs dans des bases de données distribuées et l'échantillonnage en sortie de motifs basé sur les tries. En plus de répondre à ces tâches complexes, l'originalité de nos approches est d'introduire une classe de mesures d'intérêt reposant sur la norme des motifs, nommée classe de mesures d'intérêt fondées sur la norme. En particulier, cette classe permet d'ajouter des contraintes sur la norme des motifs échantillonnés pour contrôler leur longueur et éviter l'écueil de la “longue traîne” où les motifs les plus rares inondent l'utilisateur. Dans ce cadre, nous proposons en premier lieu deux algorithmes nommés NUSSampling pour les bases de données séquentielles et DDSampling pour les bases de données distribuées. Basés sur des procédures aléatoires en deux étapes intégrant cette classe de mesures, ils tirent au hasard des motifs proportionnellement à la fréquence pondérée par une utilité fondée sur la norme. En second lieu, nous proposons TPSampling, un algorithme d'échantillonnage en sortie de motifs ensemblistes basé sur la structure du trie. Moins consommateur en mémoire, il tire aussi aléatoirement des motifs en fonction de leur fréquence pondérée par une utilité fondée sur la norme. Nous montrons que toutes nos méthodes effectuent un échantillonnage exact selon la mesure sous-jacente. Au niveau des applications, nous nous concentrons sur l'intérêt des contraintes de norme et de décroissance exponentielle qui aident à tirer des motifs généraux de la tête de la longue traine. Nous illustrons également comment profiter de ces motifs échantillonnés pour construire des classificateurs dédiés aux séquences et aux itemsets. Cette approche de classification rivalise avec les propositions de l'état de l'art montrant l'intérêt de l'échantillonnage en sortie de motifs avec une mesure d'intérêt fondée sur la norme. Par ailleurs, nous illustrons également l'intérêt des motifs échantillonnés sur les données distribuées du Web sémantique pour détecter des entités aberrantes dans DBpedia et Wikidata.

CONSTRAINED SAMPLING OF STRUCTURED PATTERNS

ECHANTILLONNAGE SOUS CONTRAINTES DE MOTIFS STRUCTURES

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Partager