Multi-operator Temporal Decision Trees

Vera Shalaeva

Résumé

Rising interest in mining and analyzing time series data in many domains motivates designing machine learning (ML) algorithms that are capable of tackling such complex data. Except of the need in modification, improvement, and creation of novel ML algorithms that initially works with static data, criteria of its interpretability, accuracy and computational efficiency have to be fulfilled. For a domain expert, it becomes crucial to extract knowledge from data and appealing when a yielded model is transparent and interpretable. So that, no preliminary knowledge of ML is required to read and understand results. Indeed, an emphasized by many recent works, it is more and more needed for domain experts to get a transparent and interpretable model from the learning tool, thus allowing them to use it, even if they have few knowledge about ML's theories. Decision Tree is an algorithm that focuses on providing interpretable and quite accurate classification model.More precisely, in this research we address the problem of interpretable time series classification by Decision Tree (DT) method. Firstly, we present Temporal Decision Tree, which is the modification of classical DT algorithm. The gist of this change is the definition of a node's split. Secondly, we propose an extension, called Multi-operator Temporal Decision Tree (MTDT), of the modified algorithm for temporal data that is able to capture different geometrical classes structures. The resulting algorithm improves model readability while preserving the classification accuracy.Furthermore, we explore two complementary issues: computational efficiency of extended algorithm and its classification accuracy. We suggest that decreasing of the former is reachable using a Local Search approach to built nodes. And preserving of the latter can be handled by discovering and weighting discriminative time stamps of time series.

Aujourd'hui, du fait de la multiplication du nombre des capteurs et, plus généralement, de celle des données issues de dispositifs connectés, de nombreux domaines d'activité sont intéressés par la classification automatique des séries temporelles.Au-delà de la recherche théorique de nouveaux algorithmes d'apprentissage automatique capables de traiter ces données complexes, il est important de fournir aux utilisateurs des méthodes capables de construire efficacement des modèles prédictifs, mais aussi de se focaliser sur l'explicabilité des modèles générés et la transparence des processus mis en oeuvre.Ainsi, les utilisateurs qui n'ont pas forcément des connaissances en théorie d'apprentissage peuvent prendre en main plus rapidement ces méthodes et surtout valider la qualité des connaissances apprises vis à vis de leur domaine d'expertise.Dans ce travail de doctorat, nous nous sommes intéressée à la génération d'arbres de décision sur des données temporelles qui est une approche susceptible de construire des modèles assez faciles à interpréter pour un utilisateur "non-expert". Nous avons cherché à améliorer les différentes méthodes présentes dans la littérature en nous focalisant sur trois aspects liés à la construction des noeuds de l'arbre. Premièrement, nous avons introduit la notion d'arbre de décision temporel multi-opérateur (MTDT) qui consiste à utiliser, en concurrence, plusieurs méthodes pour construire chaque noeud. D'une part cela permet d'améliorer les capacités prédictives des arbres en capturant les meilleures structures géométriques discriminantes pour chaque classe et pour chaque niveau de l'arbre. D'autre part, grâce à cette approche on améliore la lisibilité des modèles en réduisant significativement la taille des arbres qui sont produits. Deuxièmement, nous avons cherché à réduire la complexité des algorithmes en utilisant une recherche locale pour explorer les opérateurs de contruction des noeuds. Cette recherche s'appuie sur la définition de bornes dans les métriques utilisées. Enfin, nous avons développé et comparé différentes méthodes automatiques de pondération des sous-séquences des séries temporelles de manière à maximiser la précision des arbres de décision produits.

Multi-operator Temporal Decision Trees

Arbre de décision temporel multi-opérateur

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager