Requêtes discriminantes pour l’exploration de données : Application à l’astrophysique

Julien Cumin 1 Jean-Marc Petit 1 Fabien Rouge 1 Christian Surace 2
1 BD - Base de Données
LIRIS - Laboratoire d'InfoRmatique en Image et Systèmes d'information
Résumé : À l'ère du Big Data, il est essentiel de pouvoir explorer les données dont on dispose afin d'en faire éventuellement ressortir des connaissances nouvelles. De part la diversité grandissante des profils d'utilisateurs, qui n'ont souvent qu'un vernis informatique, et la complexité des données accumulées, il est de plus en plus difficile de procéder à cette phase d'exploration. Nous nous plaçons dans un contexte où un analyste a à sa disposition des données gigantesques accessibles en SQL. Nous proposons de l'aider à formuler ses requêtes par une approche de réécriture (ou reformulation) répondant à cette nécessité d'exploration rapide et intuitive des données massives. Pour cela, nous introduisons la notion de \emph{requêtes discriminantes}, une restriction syntaxique de SQL qui oblige de spécifier une condition de sélection qui permet de dissocier des exemples positifs et négatifs. Intuitivement, nous cherchons à construire un petit jeu d'apprentissage dans lequel les exemples positifs correspondent aux résultats souhaités par l'analyste et les exemples négatifs (les contre-exemples) sont ceux qu'il ne veut pas. Nous pouvons alors reformuler la requête initiale en utilisant des techniques d'apprentissage automatique. Nous proposons aussi des mesures pour évaluer la qualité de la réécriture, notamment vis-à-vis de sa diversité en terme de tuples retournés. Un prototype, nommé iSQL, a été développé pour mettre en oeuvre cette approche. Nous l'avons expérimenté sur des bases de données issues de l'astrophysique afin d'évaluer sa pertinence dans un cadre d'exploration des données, avec des résultats préliminaires très encourageants.
Document type :
Preprints, Working Papers, ...
Complete list of metadatas

Cited literature [12 references]  Display  Hide  Download

https://hal.archives-ouvertes.fr/hal-01171569
Contributor : Jean Marc Petit <>
Submitted on : Sunday, July 5, 2015 - 5:21:47 PM
Last modification on : Thursday, July 25, 2019 - 4:34:13 PM
Long-term archiving on : Wednesday, April 26, 2017 - 12:23:46 AM

File

rr.pdf
Files produced by the author(s)

Licence


Distributed under a Creative Commons Attribution - NonCommercial - NoDerivatives 4.0 International License

Identifiers

  • HAL Id : hal-01171569, version 1

Citation

Julien Cumin, Jean-Marc Petit, Fabien Rouge, Christian Surace. Requêtes discriminantes pour l’exploration de données : Application à l’astrophysique. 2015. ⟨hal-01171569⟩

Share

Metrics

Record views

311

Files downloads

480