Machine Learning under the light of Phraseology expertise: use case of presidential speeches, De Gaulle -Hollande (1958-2016)

Mélanie Ducoffe 1 Damon Mayaffre 2 Frédéric Precioso 1 Frédéric Lavigne 3 Laurent Vanni 2 A Tre-Hardy 1
1 Laboratoire d'Informatique, Signaux, et Systèmes de Sophia-Antipolis (I3S) / Projet MinD
SPARKS - Scalable and Pervasive softwARe and Knowledge Systems
2 BCL, équipe Logométrie et corpus politiques, médiatiques et littéraires
BCL - Bases, Corpus, Langage (UMR 7320 - UNS / CNRS)
3 BCL, équipe Langage et Cognition
BCL - Bases, Corpus, Langage (UMR 7320 - UNS / CNRS)
Résumé : L'identification de l'auteur et la gen ese d'un texte ont toujours eté une question de tr es grand intérêt pour la com-munauté de l'analyse statistique des données textuelles. Les récentes avancées dans le domaine de l'apprentissage machine ont permis l'´ emergence d'algorithmes concurrençant les méthodes de linguistique computationnelles de l'´ etat de l'art pour des tâches spécifiques en traitement automatique du langage (´ etiquetage des parties du dis-cours, segmentation et l'analyse du texte, etc). En particulier, les architectures profondes pour la linguistique sont fondées sur la connaissance des spécificités linguistiques telles que la grammaire ou la structure sémantique. Ces mod eles sont considérés comme les plus compétitifs grâcè a leur capacité supposée de capturer la syntaxe. Toute-fois, si ces méthodes ont prouvé leur efficacité, leurs mécanismes sous-jacents, tant du point de vue théorique que du point de vue de l'analyse empirique, restent difficilè a la fois a expliciter et a maintenir stables, ce qui limite leur domaine d'application. Notre article visè a mettre enlumì ere certains des mécanismes impliqués dans l'apprentissage profond lorsqu'il est appliqué a des tâches de traitement automatique du langage (TAL). L'algorithme Query-By-Dropout-Committee (QBDC) est une technique d'apprentissage actif, nous avons conçu pour les architectures profondes : il sélectionne itérativement les echantillons les plus pertinents pour etre ajoutés a l'ensemble d'entrainement afin que le mod ele soit amélioré de façon optimale lorsqu'on il est mis a jour a partir du nouvel ensemble d'entrainement. Cependant, dans cet article, nous ne détaillons pas l'algorithme QBDC-qui a déj a ´ eté etudié dans l'article original sur QBDC-mais nous confrontons plutôt la pertinence des phrases choisies par notre stratégie active aux techniques de l'´ etat de l'art en phraséologie. Nous avons donc mené des expériences sur les discours présidentiels des présidents C. De Gaulle , N. Sarkozy et F. Hollande afin de présenter l' intérêt de notre méthode d'apprentissage profond actif en termes de d'identification de l'auteur d'un discours et pour analyser les motifs linguistiques extraits par notre approche artificielle par rapport aux techniques de phraséologie standard.
Type de document :
Communication dans un congrès
Damon Mayaffre; Céline Poudat; Laurent Vanni; Véronique Magri; Peter Follette. JADT 2016 - Statistical Analysis of Textual Data, Jun 2016, Nice, France. Presses de FacImprimeur, JADT - Statistical Analysis of Textual Data, Volume 1, pp.157-168, 2016, JADT 2016 - Statistical Analysis of Textual Data. 〈https://jadt2016.sciencesconf.org/〉
Liste complète des métadonnées

https://hal.archives-ouvertes.fr/hal-01343209
Contributeur : Damon Mayaffre <>
Soumis le : mercredi 7 septembre 2016 - 22:13:30
Dernière modification le : lundi 10 octobre 2016 - 11:18:14

Fichier

JADT2016_Ducoffe_et_al.pdf
Accord explicite pour ce dépôt

Identifiants

  • HAL Id : hal-01343209, version 2

Collections

UNICE | BCL | I3S

Citation

Mélanie Ducoffe, Damon Mayaffre, Frédéric Precioso, Frédéric Lavigne, Laurent Vanni, et al.. Machine Learning under the light of Phraseology expertise: use case of presidential speeches, De Gaulle -Hollande (1958-2016). Damon Mayaffre; Céline Poudat; Laurent Vanni; Véronique Magri; Peter Follette. JADT 2016 - Statistical Analysis of Textual Data, Jun 2016, Nice, France. Presses de FacImprimeur, JADT - Statistical Analysis of Textual Data, Volume 1, pp.157-168, 2016, JADT 2016 - Statistical Analysis of Textual Data. 〈https://jadt2016.sciencesconf.org/〉. 〈hal-01343209v2〉

Partager

Métriques

Consultations de
la notice

271

Téléchargements du document

130