Mining String Data under Similarity and Soft-Frequency Constraints: Application to Promoter Sequence Analysis

Ieva Mitasiunaite 1
1 DM2L - Data Mining and Machine Learning
LIRIS - Laboratoire d'InfoRmatique en Image et Systèmes d'information
Résumé : Nous étudions l'extraction de motifs sous contraintes dans des collections de chaînes de caractères et le développement de solveurs complets et génériques pour l'extraction de tous les motifs satisfaisant une combinaison de contraintes primitives. Un solveur comme FAVST permet d'optimiser des conjonctions de contraintes dites monotones et/ou anti-monotones (e.g., des contraintes de fréquence maximale et minimale). Nous avons voulu compléter ce type d'outil en taitant des contraintes pour la découverte de motifs tolérants aux exceptions. Nous proposons différentes définitions des occurrences approchées et l'exploitation de contraintes de fréquence approximative. Ceci nous conduit à spécifier des contraintes difficiles (e.g., pour l'expression de la similarité) comme des conjonctions de primitives monotones et anti-monotones optimisées par notre solveur MARGUERITE. Soucieux de sa mise en œuvre dans des processus de découverte de connaissances à partir de données, nous avons analysé le réglage des paramètres d'extraction (e.g., quel seuil choisir pour les fréquences). Nous proposons une méthode originale pour estimer le nombre de motifs qui satisfont une contrainte au moyen d'un échantillonnage de l'espace des motifs. Nous avons également étudié l'identification des paramètres les plus stringents pour fournir des motifs qui ne sont probablement pas de faux positifs. Ces contributions ont été appliquées à l'analyse des séquences promotrices des gènes. En étroite collaboration avec une équipe de biologistes du CGMC, nous avons pu identifier des sites de fixation putatifs de facteurs transcription impliqués dans le processus de différenciation cellulaire.
Type de document :
Pré-publication, Document de travail
4255; T. 2009
Liste complète des métadonnées

https://hal.archives-ouvertes.fr/hal-01459702
Contributeur : Équipe Gestionnaire Des Publications Si Liris <>
Soumis le : mardi 7 février 2017 - 14:01:11
Dernière modification le : mercredi 8 février 2017 - 14:21:48

Identifiants

  • HAL Id : hal-01459702, version 1

Collections

Citation

Ieva Mitasiunaite. Mining String Data under Similarity and Soft-Frequency Constraints: Application to Promoter Sequence Analysis. 4255; T. 2009. <hal-01459702>

Partager

Métriques

Consultations de la notice

39