Extraction et chaînage supervisés de connaissances d'un corpus d'entretiens en histoire des sciences

Résumé : Les données des sciences de l'homme forment souvent des corpus de textes, qui sont hétérogènes par leurs forme et contenus; spécifiques par leurs terminologie et signification. Ceci rend particulièrement délicate leur exploitation automatique à des fins de gestion de connaissances. À partir d'un corpus d'entretiens en histoire des sciences, nous présentons une méthode supervisée générant un réseau de documents liés par leurs proximités de contenus. Il s'agit d'un graphe multiple flou, basé sur l'extraction de \textit{n-grams} à taille variable. Un prototype en Python permet d'évaluer la méthode. Dans cet article, nous confrontons, de manière interdisciplinaire, le réseau d'informations construit par la méthode numérique à l'analyse qualitative du corpus historique. Nous essayons d'en dégager, d'une part, des améliorations de la méthode, et, d'autre part, des outils heuristiques pour l'historien.
Type de document :
Poster
Conférence EGC 2017 - Extraction et Gestion des Connaissances, Jan 2017, Grenoble, France. 2017, <http://egc2017.imag.fr/>
Liste complète des métadonnées

https://hal.archives-ouvertes.fr/hal-01449239
Contributeur : Benjamin Hervy <>
Soumis le : lundi 30 janvier 2017 - 11:31:07
Dernière modification le : samedi 4 mars 2017 - 01:08:36

Fichier

poster.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01449239, version 1

Citation

Benjamin Hervy, Matthieu Quantin, Pierre Teissier. Extraction et chaînage supervisés de connaissances d'un corpus d'entretiens en histoire des sciences. Conférence EGC 2017 - Extraction et Gestion des Connaissances, Jan 2017, Grenoble, France. 2017, <http://egc2017.imag.fr/>. <hal-01449239>

Partager

Métriques

Consultations de
la notice

279

Téléchargements du document

22