A Semantic Measure for Outlier Detection in Knowledge Graph - Archive ouverte HAL Accéder directement au contenu
Pré-Publication, Document De Travail Année : 2021

A Semantic Measure for Outlier Detection in Knowledge Graph

Une mesure sémantique pour la détection de valeurs aberrantes dans un graphe de connaissances

Résumé

Nowadays, there is a growing interest in data mining and information retrieval applications from Knowledge Graphs (KG). However, the latters (KG) suffer from several problems related to data quality such as completeness, correctness and different kinds of errors. In DBpedia, there are several issues related to data quality. Among them, we focus on the following : several entities are in classes to which they do not belong. For instance, a query to get all the entities of the class P erson also returns groups, whereas these should be in the class Group. We call such entities "outliers". Discovery of such outliers is very important for class learning and understanding. In this paper, we propose a new outlier detection method that finds these entities. We define a semantic measure that favors the real entities of the class (inliers) with positive values while penalizing outliers with negative values and improve it with the discovery of frequent and rare itemsets. Our measure outperforms FPOF (frequent pattern outlier factor) ones. Experiments show the efficiency of our approach.
De nos jours, il existe un intérêt croissant pour les applications d'exploration de données et de recherche d'informations à partir de graphes de connaissances (KG). Cependant, ces derniers (KG) souffrent de plusieurs problèmes liés à la qualité des données tels que l'exhaustivité, l'inexactitude et différents types d'erreurs. Dans DBpedia, il existe plusieurs problèmes liés à la qualité des données. Parmi eux, nous nous concentrons sur les points suivants : plusieurs entités se trouvent dans des classes auxquelles elles n'appartiennent pas. Par exemple, une requête visant à obtenir toutes les entités de la classe Person renvoie également des groupes, alors que ceux-ci devraient être dans la classe Group. Nous appelons ces entités "outliers". La découverte de ces entités aberrantes est très importante pour l'apprentissage et la compréhension des classes. Dans cet article, nous proposons une nouvelle méthode de détection de ces entités aberrantes. Nous définissons une mesure sémantique qui favorise les entités réelles de la classe (inliers) avec des valeurs positives tout en pénalisant les outliers avec des valeurs négatives et nous l'améliorons avec la découverte d'itemsets fréquents et rares. Notre mesure est plus performante que celle du FPOF (frequent pattern outlier factor). Les expériences montrent l'efficacité de notre approche.
Fichier principal
Vignette du fichier
ontopod.pdf (544.4 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-03415728 , version 1 (05-11-2021)
hal-03415728 , version 2 (10-03-2022)
hal-03415728 , version 3 (09-04-2022)

Identifiants

  • HAL Id : hal-03415728 , version 1

Citer

Bara Diop, Cheikh Talibouya Diop, Lamine Diop. A Semantic Measure for Outlier Detection in Knowledge Graph. 2021. ⟨hal-03415728v1⟩
166 Consultations
726 Téléchargements

Partager

Gmail Facebook X LinkedIn More