Skip to Main content Skip to Navigation
Book sections

Littérature et intelligence artificielle

Étienne Brunet 1 Ludovic Lebart Laurent Vanni
1 BCL, équipe Logométrie : corpus, traitements, modèles
BCL - Bases, Corpus, Langage (UMR 7320 - UCA / CNRS)
Résumé : De Homère à Shakespeare les questions de paternité littéraire ou de datation passionnent la critique. Or le décryptage de l’ADN résout sans discussion les problèmes de criminalité ou de paternité. L’Intelligence artificielle peut-elle jouer le même rôle dans le déchiffrement des textes? C’est l’objet de la présente étude, menée conjointement dans deux corpus. Dans le premier, on aborde le roman au XXème siècle en proposant à l’algorithme du deep learning un panel de 50 textes et de 25 écrivains (parmi lesquels Roman Gary et Émile Ajar). Il s’agit de reconnaître les textes qui ont le même auteur. Le deep learning réussit l’épreuve sans faillir. Fort de cette réussite, le même algorithme est appliqué au théâtre classique. La conclusion est là aussi catégorique : Racine, Corneille et Molière se distinguent parfaitement sauf dans deux cas (Don Garcie et Les Plaideurs) où le genre vient brouiller la signature. Le présent article s’interroge sur les mécanismes mis en œuvre dans le deep learning. Il s’agit d’abord de contrôler les résultats du deep learning en les confrontant non seulement aux acquis de l’histoire littéraire mais à l’approche classique de la statistique linguistique. Diverses mesures intertextuelles ont été proposées pour tenter de distinguer les distances intra (entre les textes d’un même auteur) et les distances inter (entre les auteurs). Tantôt on évalue la distance intertextuelle à partir des fréquences basses (grâce aux formules convergentes de, Jaccard , Evrard ou Muller), tantôt on s’appuie sur les hautes fréquences en recourant à l’analyse factorielle et à l’analyse arborée. Dans les deux corpus les procédures éprouvées de la lexicométrie confirment l’approche algorithmique du deep learning. On cherche aussi à imiter la démarche du deep learning en appliquant la statistique non pas aux mots individuels mais à des chaînes obtenues par glissement de trois mots adjacents (les triplets) ou bien en séparant, comme fait le deep learning, les textes soumis à l’apprentissage et les textes proposés à la prédiction (ces derniers traités en éléments supplémentaires dans l’analyse factorielle), ou bien en recourant à d’autres méthodes relevant de la technique neuronale (cartes de Kohonen). On vise aussi à expliquer, de l’intérieur, le processus , ici convolutionnel, du deep learning. Par une démarche rétroactive , dite de déconvolution, on s’applique à retrouver les marqueurs qui ont pesé sur les choix et à en relever la trace dans le texte. Mais le but principal est de comprendre et de maîtriser la démarche du deep learning et de la guider dans ses tentatives en s’appuyant sur des procédures plus exploratoires, transparentes, interprétables à chaque étape, avec des résultats visualisés (plans, arbres) ou évalués (zones de confiance bootstrap par exemple). On montre en particulier que l’analyse de correspondance peut obtenir les mêmes résultats que le deep learning, sans se soumettre à la nécessité d’un apprentissage supervisé : en traitant les pages du corpus en vrac, au kilomètre, sans partition explicite des textes.
Complete list of metadata

https://hal.archives-ouvertes.fr/hal-03240145
Contributor : Etienne Brunet <>
Submitted on : Friday, June 11, 2021 - 12:16:38 AM
Last modification on : Wednesday, June 16, 2021 - 12:48:05 PM

Licence


Distributed under a Creative Commons Attribution 4.0 International License

Identifiers

  • HAL Id : hal-03240145, version 1

Collections

Citation

Étienne Brunet, Ludovic Lebart, Laurent Vanni. Littérature et intelligence artificielle. D. Mayaffre, L. Vanni. L'intelligence artificielle des textes, Honoré Champion, pp.73-130, 2021, Lettres Numériques, 9782745356406. ⟨hal-03240145⟩

Share

Metrics

Record views

91