Cartographie de l'apprentissage artificiel et de ses algorithmes

Antoine Mazieres

Résumé

An attempt to study "styles of reasoning" specific to machine learning algorithms through their history and usages. Scientific usages in various disciplines are observed with some analysis of WebOfScience data. Engineering usages are observed with data from Kaggle and StackExchange.

L’apprentissage artificiel, ou machine learning, est un ensemble de méthodes permettant d’établir, à partir de données, des modèles de prise de décision, de prédiction ou de classification. L’ axiome plus général qui définirait ce champ de recherche est l’ambition de s’inspirer et d’imiter la capacité humaine et animale à apprendre de l’expérience. Les récents succès de ces méthodes - souvent relayés par des médias grand publics - sont seulement révélateurs de l’attention épisodique portée à des techniques qui remontent quant à elles à une cinquantaine d’années dans le contexte de l’Intelligence Artificielle et de l’informatique, et à plusieurs siècles de traditions scientifiques en mathématique, statistique, physique. Après avoir rendu compte de ces éléments, cette thèse s’intéresse aux différentes épistémès, “styles de pensée” qui rythment cette communauté, en étudiant les principaux algorithmes développés pour parvenir à la prise de décision, la prédiction ou la classification. Chacun des algorithmes est envisagé de manière historique mais aussi via les contraintes techniques et théoriques qu’il porte, et les compromis d’usages qu’il impose - par exemple entre interprétabilité et efficacité. Ces “tribus” de l’apprentissages apparaissent alors comme des tentatives relativement indépendantes de parvenir à un même objectif. Nous envisageons par la suite l’activité de ces sous-communautés algorithmiques dans le champ académique, par l’analyse de corpus bibliographiques extraits de Web of Science. La détection de communautés au sein des réseaux de co-citations construits à partir de ces données nous permet de mettre en lumière les structures thématiques transversales qui innervent les différents types d’algorithmes. Nous avons ainsi pu observer comment chaque discipline scientifique se place de manière spécifique dans le paysage algorithmique de l’apprentissage et entretient ou non des relations privilégiées avec les champs propres à sa recherche fondamentale. Il apparait donc, au terme de cette analyse, qu’il est plus facile pour un auteur de se mouvoir d’une thématique à une autre, que d’une méthode d’apprentissage à une autre. Enfin, nous nous intéressons à des terrains plus ingénieriques de la pratique de l’apprentissage avec une analyse de données issues des forums de questions-réponses Stackexchange et du site de compétitions en ligne Kaggle. On y retrouve plusieurs résultats proches de ceux observés dans le champ académique, comme les disciplines les plus représentées. De nettes différences émergent cependant quant à la diversité et la coprésence de ces algorithmes dans les compétitions et les usages des participants. En conclusion, nous mettons en perspective certains des éléments observés dans cette étude avec les récents débats sur la place de ces algorithmes dans les politiques publiques et discutons la question de leur nature discriminatoire.

Cartography of machine learning and its algorithms

Cartographie de l'apprentissage artificiel et de ses algorithmes

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager