A Semantic Measure for Outlier Detection in Knowledge Graph

Bara Diop; Cheikh Talibouya Diop; Lamine Diop

Pré-Publication, Document De Travail Année : 2021

A Semantic Measure for Outlier Detection in Knowledge Graph

Une mesure sémantique pour la détection de valeurs aberrantes dans un graphe de connaissances

(1) , (1) , (2)

1
2

Bara Diop

Fonction : Auteur
PersonId : 1115903

Université Gaston Berger de Saint-Louis Sénégal

Cheikh Talibouya Diop

Fonction : Auteur

Université Gaston Berger de Saint-Louis Sénégal

Lamine Diop

Fonction : Auteur
PersonId : 1099958

Université de Tours

Résumé

Nowadays, there is a growing interest in data mining and information retrieval applications from Knowledge Graphs (KG). However, the latters (KG) suffer from several problems related to data quality such as completeness, correctness and different kinds of errors. In DBpedia, there are several issues related to data quality. Among them, we focus on the following : several entities are in classes to which they do not belong. For instance, a query to get all the entities of the class P erson also returns groups, whereas these should be in the class Group. We call such entities "outliers". Discovery of such outliers is very important for class learning and understanding. In this paper, we propose a new outlier detection method that finds these entities. We define a semantic measure that favors the real entities of the class (inliers) with positive values while penalizing outliers with negative values and improve it with the discovery of frequent and rare itemsets. Our measure outperforms FPOF (frequent pattern outlier factor) ones. Experiments show the efficiency of our approach.

De nos jours, il existe un intérêt croissant pour les applications d'exploration de données et de recherche d'informations à partir de graphes de connaissances (KG). Cependant, ces derniers (KG) souffrent de plusieurs problèmes liés à la qualité des données tels que l'exhaustivité, l'inexactitude et différents types d'erreurs. Dans DBpedia, il existe plusieurs problèmes liés à la qualité des données. Parmi eux, nous nous concentrons sur les points suivants : plusieurs entités se trouvent dans des classes auxquelles elles n'appartiennent pas. Par exemple, une requête visant à obtenir toutes les entités de la classe Person renvoie également des groupes, alors que ceux-ci devraient être dans la classe Group. Nous appelons ces entités "outliers". La découverte de ces entités aberrantes est très importante pour l'apprentissage et la compréhension des classes. Dans cet article, nous proposons une nouvelle méthode de détection de ces entités aberrantes. Nous définissons une mesure sémantique qui favorise les entités réelles de la classe (inliers) avec des valeurs positives tout en pénalisant les outliers avec des valeurs négatives et nous l'améliorons avec la découverte d'itemsets fréquents et rares. Notre mesure est plus performante que celle du FPOF (frequent pattern outlier factor). Les expériences montrent l'efficacité de notre approche.

Mots clés

Knowledge graph Pattern Mining Itemset Outlier Detection

Domaines

Informatique [cs]

Fichier principal

ontopod.pdf (544.4 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Bara Diop : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-03415728

Soumis le : vendredi 5 novembre 2021-01:30:35

Dernière modification le : jeudi 18 janvier 2024-14:12:21

Archivage à long terme le : dimanche 6 février 2022-18:12:19

Dates et versions

hal-03415728 , version 1 (05-11-2021)

hal-03415728 , version 2 (10-03-2022)

hal-03415728 , version 3 (09-04-2022)

Identifiants

HAL Id : hal-03415728 , version 1

Citer

Bara Diop, Cheikh Talibouya Diop, Lamine Diop. A Semantic Measure for Outlier Detection in Knowledge Graph. 2021. ⟨hal-03415728v1⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

166 Consultations

726 Téléchargements

A Semantic Measure for Outlier Detection in Knowledge Graph

Une mesure sémantique pour la détection de valeurs aberrantes dans un graphe de connaissances

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Partager