Règles d'association pour la qualité des données - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2009

Règles d'association pour la qualité des données

Résumé

Depuis la fin des années 90, le problème de la qualité des données n'a cessé de se poser avec de plus en plus d'acuité face à la croissance accrue des volumes à traiter et des capacités de stockage. En effet, la communauté des chercheurs, académiques soient-ils ou professionnels, propose de plus en plus de paradigmes, modèles et méthodologies afin d'évaluer voire même d'améliorer la qualité des données. Ce problème intéresse, en particulier, les spécialistes du décisionnel qui trouvent dans la détection et prévention des problèmes relatifs à la qualité des données un nouveau champ d'application des techniques de fouille ; surtout avec l'apparition de la notion d'entrepôts de données et la mise en œuvre des processus de l'ETL pour l'intégration des données multisources. Ainsi, depuis 2001, on parle désormais de techniques de fouille pour la qualité des données ou encore Data Quality Mining [Hipp01] C'est dans ce contexte que se positionne notre travail où nous visons à réaliser un double objectif :  curatif; relatif à la détection et correction des données erronées  préventif; relatif à l'explication des erreurs ainsi qu'à la détermination de l'origine de ces problèmes qualité. Nous utilisons comme méthode de Data Mining les règles d'association et nous montrons l'efficacité de cette méthode à détecter les anomalies et les données aberrantes en utilisant un double filtrage au niveau du processus général de l'ECD : à la phase de Data Mining ; en utilisant le critère du lift et à la phase de Post-traitement en utilisant la confiance. Mais avant de détailler notre méthodologie, et de discuter des différents résultats générés, nous dressons un état de l'art sur l'utilisation des règles d'association dans le domaine de la qualité des données en rappelant brièvement le principe de cette méthode.
Fichier non déposé

Dates et versions

hal-00519731 , version 1 (21-09-2010)

Identifiants

  • HAL Id : hal-00519731 , version 1

Citer

Soumaya Ben Hassine-Guetari, Delphine Clément. Règles d'association pour la qualité des données. Atelier Qualité des Données et des Connaissances (EGC 2009), Jan 2009, Strasbourg, France. pp.33-39. ⟨hal-00519731⟩
156 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More