Skip to Main content Skip to Navigation
Conference papers

Toolbox : une chaîne de traitement de corpus pour les humanités numériques

Johanna Mayra Cordova 1 Yoann Dupont 1 Ljudmila Petkovic 1 James Gawley 1 Motasem Alrahabi 1 Glenn Roe 1 
1 ObTIC - Observatoire des textes, des idées et des corpus
BnF - Bibliothèque nationale de France, CELLF - Centre d’étude de la langue et des littératures françaises, SCAI - Sorbonne Center for Artificial Intelligence
Résumé : Le projet Toolbox propose une chaîne de traitement pour la manipulation et le traitement de corpus textuels incluant la numérisation (OCR/HTR), la conversion au format TEI, la fouille de texte (reconnaissance d’entités nommées) et la visualisation de données. Les fonctionnalités sont accessibles via une interface en ligne qui sert de surcouche graphique à des scripts développés par nos soins ou utilisant des outils externes. Elles permettent d’automatiser les tâches élémentaires de traitement de corpus pour les chercheurs en humanités numériques. Cet outil est ouvert aux contributions externes.
Document type :
Conference papers
Complete list of metadata

https://hal.archives-ouvertes.fr/hal-03701464
Contributor : Yannick Parmentier Connect in order to contact the contributor
Submitted on : Friday, June 24, 2022 - 4:40:27 PM
Last modification on : Friday, August 5, 2022 - 3:44:54 PM

File

3565.pdf
Publisher files allowed on an open archive

Identifiers

  • HAL Id : hal-03701464, version 1

Citation

Johanna Mayra Cordova, Yoann Dupont, Ljudmila Petkovic, James Gawley, Motasem Alrahabi, et al.. Toolbox : une chaîne de traitement de corpus pour les humanités numériques. Traitement Automatique des Langues Naturelles, 2022, Avignon, France. pp.11-13. ⟨hal-03701464⟩

Share

Metrics

Record views

158

Files downloads

7