Vers la génération de jeux de données synthétiques réalistes pour les motifs fréquents - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2007

Vers la génération de jeux de données synthétiques réalistes pour les motifs fréquents

Frédéric Flouvat
Jean-Marc Petit

Résumé

En fouille de données et plus particulièrement pour les problèmes de motifs fréquents, les algorithmes sont toujours évalués sur des jeux de données afin de montrer leur faisabilité en pratique. Le succès ou l'échec des algorithmes peut parfois s'expliquer par rapport aux caractéristiques des données, par exemple données denses ou éparses. Ces jeux de données peuvent être synthétiques, i.e. générés de façon automatique ou provenir d'applications réelles offrant ainsi un gage d'applicabilité. Paradoxalement, il n'est pas rare que les données synthétiques ne correspondent jamais à des données réelles et inversement, que les données réelles ne puissent pas être représentées par des données synthétiques. Dans ce contexte, c'est la validité même des campagnes de tests qui est posée. Dans ce papier, nous proposons de générer des jeux de données synthétiques "réalistes" au sens où ils peuvent s'approcher des caractéristiques de n'importe quel jeu de données réel. Pour le problème des motifs fréquents, nous choisissons de définir la "signature" d'un jeu de données par la distribution des bordures positive et négative. A partir d'une structuration fine de l'ordre colex, une proposition théorique est faite permettant d'éloigner la bordure positive de la bordure négative d'une certaine valeur. Ainsi, un algorithme a pu être conçu puis a été implémenté et testé sur des jeux de données réels confirmant les résultats théoriques. L'intérêt est clairement de pouvoir envisager de véritables campagnes de tests d'algorithmes en s'affranchissant des données réelles.
Fichier principal
Vignette du fichier
2007_BDA_PAscale_Bergeret.pdf (492.58 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-01591045 , version 1 (18-01-2021)

Identifiants

  • HAL Id : hal-01591045 , version 1

Citer

Pascale Bergeret, Frédéric Flouvat, Jean-Marc Petit. Vers la génération de jeux de données synthétiques réalistes pour les motifs fréquents. Bases de Données Avancées (BDA'07), Oct 2007, Marseille, France. ⟨hal-01591045⟩
131 Consultations
43 Téléchargements

Partager

Gmail Facebook X LinkedIn More