index - IN4BE

Induction for Behavior
Responsable : Marc LEGOC

Mots clés : Découverte de connaissances à partir de données, Apprentissage automatique, Modélisation cognitive, Modélisation automatique, Modélisation du comportement humain, Système temps réel sans état.

Objectif scientifique

La motivation à ce projet se trouve dans le constat suivant : aujourd’hui, toutes les activités humaines mettent en œuvre, directement ou indirectement, des outils technologiques produisant de l’information qui influe sur le déroulement de l’activité elle-même. L’usage d’outils technologiques atteint un niveau d’échange informationnel d’ores et déjà hors de portée des facultés cognitives des êtres humains. Ce phénomène de sur-information concerne aujourd’hui la majeure partie de la population mondiale puisque 80% des êtres humains vivent dans des villes. Cet état de fait constitue un événement majeur à l’échelle de l’histoire de l’humanité puisqu’il marque la fin du Néolithique (-9000 av. J.-C., +2000 ap. J.-C.), période soulignée par le fait que la majorité des activités des êtres humains étaient consacrées à l’élevage et à l’agriculture. Les êtres humains post-néolithiques évoluent désormais dans un environnement urbain caractérisé par l’ubiquité de collecteurs et de distributeurs de messages datés (capteurs, actionneurs, serveurs de données et d’applications, etc.) permettant le développement d’une technologie nomade. Le phénomène de sur-information est aggravé à la fois par la réduction de la durée de vie des technologies, l’allongement de l’espérance de vie et le risque inhérent à l’exploitation d’une technologie récente. Un des enjeux majeurs des sociétés humaines au 21ième siècle est le développement de technologies d’assistance à la personne capables de s’adapter aux objectifs que les êtres humains poursuivent lors de l’exécution de leurs tâches tout en garantissant leur sécurité, en optimisant l’usage des ressources énergétiques et en préservant l’environnement.

La mise en œuvre de technologies d’assistance à la personne repose sur des systèmes logiciels qui effectuent une tâche de surveillance de l’exécution des actions en cours, de diagnostic des actions ayant échoué, de pronostic de la réussite des actions exécutées et de recommandation des prochaines actions à exécuter. Compte tenu de la diversité des comportements humains, le succès de telles technologies repose sur la capacité des logiciels d’assistance à découvrir le but poursuivi par un être humain et à comprendre la méthode poursuivie afin d’identifier et de mobiliser les ressources les plus adaptées à l’atteinte de l’objectif poursuivi et à la méthode utilisée, le tout sans interaction explicite avec les utilisateurs.

Dans ce projet, nous considérons l’interaction entre les êtres humains médiatisée par des technologies. Cette interaction s’effectue par échange de messages datés constituant des traces informatiques de l’exécution de tâches. Le problème scientifique que nous nous proposons d’aborder est donc la compréhension du comportement humain à partir des messages datés échangés avec leur environnement technologique. Il s’agit donc de concevoir les théories, les méthodes et les outils permettant :

d’induire des connaissances sur le comportement humain à partir des traces informatiques laissées par ses actions sur son environnement,
d’induire l’objectif poursuivi par un être humain et la méthode qu’il utilise,
d’en déduire un modèle de son comportement exploitable par une machine,
et de valider ce modèle

La finalité applicative du projet de recherche est donc la conception de logiciels dotés de capacité d’apprentissage automatique pour la modélisation du comportement des êtres humains et des processus immatériels, physiques et biologiques qu’ils exploitent, et d’adapter leur utilisation à partir de ces modèles.

Activité de recherche

Cette thématique est abordée sous trois angles différents et complémentaires :

Induction guidée par la combinaison de modèles cognitifs théoriques et empiriques. Cette démarche suit une approche conjointe ascendante-descendante de la modélisation du comportement humain combinant des modèles cognitifs donnés a priori (i.e. théoriques) et des modèles cognitifs a posteriori (i.e. empiriques) visant à donner une sémantique au comportement perçu à partir des traces d’exécution de tâches finalisées et médiatisées par ordinateur, que ces traces soient ou non volontairement laissées. La capacité à expérimenter les modèles par la simulation est une orientation forte de cette démarche visant à vérifier et parfois même valider les modèles élaborés. Parmi les logiciels développés en Java selon cette approche, il est possible de citer « PatMiner » (modélisation empirique de pratiques de navigation dans un hypermedia) et « Robi » (robot navigateur dans un hypermédia).

Induction par inférence grammaticale. Cette démarche consiste à reprendre les approches de construction automatique d’automates grammaticaux en les adaptant et en les étendant aux traces d’activités médiatisées par ordinateur. Ces traces, lorsqu’elles sont considérées comme des suites de mots d’un langage formel (régulier) peuvent être exploitées par un algorithme d’inférence grammaticale. L’automate obtenu est un des automates parmi l’ensemble de ceux constituant une généralisation possible de l’ensemble des suites de traces d’activités prises comme exemples et contre-exemples. Cette démarche développe également les techniques d’évaluation des automates obtenus, informées (statistiquement ou heuristiquement) ou non. Les algorithmes développés selon cette démarche sont intégrés dans la plate-forme Java « ECAMA ».

Induction par application de la Théorie des Observations Datées. Cette théorie offre un cadre mathématique qui unifie les résultats de la théorie des réseaux bayésiens, de la théorie des chaînes de Markov, de la théorie des processus de Poisson, de la théorie de l’information et de la théorie logique du diagnostic, en les étendant à la dimension temporelle des données. Elle est le fondement d’une méthode d’ingénierie des connaissances dirigée par la syntaxe, la méthode TOM4D (Timed Observations Modeling for Diagnosis), et d’un processus d’apprentissage automatique non supervisé à partir de données datées, le processus TOM4L (Timed Observations Mining for Learning,), qui se révèlent ainsi compatibles et complémentaires. Leur mise en œuvre conjointe est particulièrement adaptée à la modélisation du comportement des processus dynamiques à partir de données datées, et donc des comportements humains à partir de traces d’activités médiatisées par ordinateur. L’un des axes majeurs de développement de cette théorie est la conception d’un processus d’apprentissage automatique autonome, fondé sur le couplage d’une méthode d’abstraction. L’ensemble des algorithmes développés selon cette démarche sont intégrés dans la plate-forme « ElpLab ». Ce processus est fondé sur un nouveau type de machine logicielle, les machines à temps continu sans états, dont la formalisation constitue un des axes de développement théorique majeur de cette démarche.

Parmi les points forts de ce projet, il convient de souligner la complémentarité des trois approches de l’induction à partir de données datées et le développement d’outils logiciels instrumentant ces approches. Ces outils seront intégrés dans une plate-forme logicielle permettant l’induction de modèles de comportement, leur simulation et leur validation, afin de se donner les moyens de produire une vision globale de la problématique opérationnelle de l’induction de comportement à partir de données datées par la comparaison et la combinaison des approches développées à la fois dans et en dehors de ce projet.