Skip to Main content Skip to Navigation
New interface
Conference papers

Classification automatique d'articles encyclopédiques

Ludovic Moncla 1 Khaled Chabane 1 Alice Brenon 1, 2, 3 
1 DM2L - Data Mining and Machine Learning
LIRIS - Laboratoire d'InfoRmatique en Image et Systèmes d'information
2 TWEAK - Traces, Web, Education, Adaptation, Knowledge
LIRIS - Laboratoire d'InfoRmatique en Image et Systèmes d'information
Résumé : Cet article propose une étude comparative de différentes approches de classification supervisée appliquées à la classification automatique d'articles encyclopédiques. Notre corpus d'apprentissage est constitué des 17 volumes de texte de l'Encyclopédie de Diderot et d'Alembert (1751-1772) représentant un total d'environ 70 000 articles. Nous avons expérimenté différentes approches de vectorisation de textes (sac de mots et plongement de mots) combinées à des méthodes d'apprentissage automatique classiques, d'apprentissage profond et des architectures BERT. En plus de la comparaison de ces différentes approches, notre objectif est d'identifier de manière automatique les domaines des articles non classés de l'Encyclopédie (environ 2 400 articles). Le meilleur modèle permet d'obtenir 83% de f-mesure moyenne pour l'ensemble des 38 classes. Par ailleurs, notre étude met en avant la difficulté à distinguer certaines classes proches sémantiquement. L'ensemble du code développé ainsi que les résultats obtenus dans le cadre de ce projet sont disponibles en open-source.
Document type :
Conference papers
Complete list of metadata

https://hal.archives-ouvertes.fr/hal-03481219
Contributor : Ludovic Moncla Connect in order to contact the contributor
Submitted on : Wednesday, December 15, 2021 - 11:09:16 AM
Last modification on : Saturday, October 1, 2022 - 3:57:14 AM
Long-term archiving on: : Wednesday, March 16, 2022 - 6:32:27 PM

File

Soumission_stage_GEODE_EGC_202...
Files produced by the author(s)

Identifiers

  • HAL Id : hal-03481219, version 1

Citation

Ludovic Moncla, Khaled Chabane, Alice Brenon. Classification automatique d'articles encyclopédiques. Extraction et Gestion des Connaissances (EGC'2022), Jan 2022, Blois, France. ⟨hal-03481219⟩

Share

Metrics

Record views

76

Files downloads

52