Extraction de motifs séquentiels dans les flux de données

Alice Marascu 1
1 AxIS - Usage-centered design, analysis and improvement of information systems
CRISAM - Inria Sophia Antipolis - Méditerranée , Inria Paris-Rocquencourt
Résumé : Ces dernières années ont vu apparaître de nombreuses applications traitant des données générées en continu et à de grandes vitesses. Ces données sont désormais connues sous le nom de flux de données. Leurs quantités de données potentiellement infinies ainsi que les contraintes qui en dérivent posent de nombreux problèmes de traitement. Parmi ces contraintes, citons par exemple l'impossibilité de bloquer un flux de données, ou encore le besoin de produire des résultats en temps réel. Néanmoins, les multiples domaines d'application de ces traitements (comme les transactions bancaires, l'usage du Web, la surveillance des réseaux, etc) ont suscité beaucoup d'intérêt tant dans les milieux industriels qu'académiques. Ces quantités potentiellement infinies de données interdisent tout espoir de stockage complet ; toutefois, on a besoin de pouvoir interroger l'historique des flux. Cela a conduit au compromis des « résumés » des flux de données et des résultats « approximatifs ». Aujourd'hui, un grand nombre de méthodes propose différents types de résumés des flux de données. Mais le développement incessant de la technologie et des applications afférentes demande un développement au moins équivalent des méthodes d'analyse et de résumé. De plus, l'extraction de motifs séquentiels y est encore peu étudiée: au commencement de cette thèse, il n'existait aucune méthode d'extraction de motifs séquentiels dans les flux de données. Motivés par ce contexte, nous nous sommes intéressés à une méthode qui résume les flux de données d'une manière efficace et fiable et qui permet principalement d'en extraire des motifs séquentiels. Dans cette thèse, nous proposons l'approche CLARA (CLAssification, Résumés et Anomalies). CLARA permet d'obtenir des clusters à partir d'un flux de séquences d'itemsets, de calculer et gérer des résumés de ces clusters et d'y détecter des anomalies. Les différentes contributions détaillées dans ce mémoire concernent: - La classification non supervisée de séquences d'itemsets sous forme de flux. A notre connaissance, cette technique est la première à permettre une telle classification. - Les résumés de flux de données à l'aide de l'extraction de motifs. Les résumés de CLARA sont composés de motifs séquentiels alignés représentant les clusters associés à leur historique dans le flux. L'ensemble de ces motifs permet de résumer le flux de manière fiable à un instant t. La gestion de l'historique de ces motifs est un point essentiel dans l'analyse des flux. CLARA introduit une nouvelle gestion de la granularité temporelle afin d'optimiser cet historique. - La détection d'anomalies. Cette détection, quand elle concerne les flux, doit être rapide et fiable. En particulier, les contraintes liées aux flux interdisent de consulter l'utilisateur final pour ajuster des paramètres (une anomalie détectée trop tard peut avoir de graves conséquences). Avec CLARA, cette détection est automatique et auto-adaptative. Nous proposerons également un cas d'étude sur des données réelles, réalisé en collaboration avec Orange Labs.
Type de document :
Thèse
Informatique [cs]. Université Nice Sophia Antipolis, 2009. Français
Liste complète des métadonnées

Littérature citée [191 références]  Voir  Masquer  Télécharger

https://tel.archives-ouvertes.fr/tel-00445894
Contributeur : Alice-Maria Marascu <>
Soumis le : lundi 11 janvier 2010 - 15:19:27
Dernière modification le : lundi 11 janvier 2010 - 15:25:15
Document(s) archivé(s) le : vendredi 18 juin 2010 - 00:40:47

Identifiants

  • HAL Id : tel-00445894, version 1

Collections

Citation

Alice Marascu. Extraction de motifs séquentiels dans les flux de données. Informatique [cs]. Université Nice Sophia Antipolis, 2009. Français. 〈tel-00445894〉

Partager

Métriques

Consultations de
la notice

619

Téléchargements du document

2526