Règles d'association pour la qualité des données
Résumé
Depuis la fin des années 90, le problème de la qualité des données n'a cessé de se poser avec de plus en plus d'acuité face à la croissance accrue des volumes à traiter et des capacités de stockage. En effet, la communauté des chercheurs, académiques soient-ils ou professionnels, propose de plus en plus de paradigmes, modèles et méthodologies afin d'évaluer voire même d'améliorer la qualité des données. Ce problème intéresse, en particulier, les spécialistes du décisionnel qui trouvent dans la détection et prévention des problèmes relatifs à la qualité des données un nouveau champ d'application des techniques de fouille ; surtout avec l'apparition de la notion d'entrepôts de données et la mise en œuvre des processus de l'ETL pour l'intégration des données multisources. Ainsi, depuis 2001, on parle désormais de techniques de fouille pour la qualité des données ou encore Data Quality Mining [Hipp01] C'est dans ce contexte que se positionne notre travail où nous visons à réaliser un double objectif : curatif; relatif à la détection et correction des données erronées préventif; relatif à l'explication des erreurs ainsi qu'à la détermination de l'origine de ces problèmes qualité. Nous utilisons comme méthode de Data Mining les règles d'association et nous montrons l'efficacité de cette méthode à détecter les anomalies et les données aberrantes en utilisant un double filtrage au niveau du processus général de l'ECD : à la phase de Data Mining ; en utilisant le critère du lift et à la phase de Post-traitement en utilisant la confiance. Mais avant de détailler notre méthodologie, et de discuter des différents résultats générés, nous dressons un état de l'art sur l'utilisation des règles d'association dans le domaine de la qualité des données en rappelant brièvement le principe de cette méthode.