Définition et conception d'une interface pour l'exploitation de corpus arborés pour non-informaticiens : la plateforme ScienQuest du projet Scientext

Résumé : La communauté du TAL développe de nombreux corpus, souvent librement disponibles, disposant d'annotations riches. Toutefois, ces annotations sont difficilement accessibles pour des chercheurs ayant peu d'expertise en informatique. Si la communauté du TAL souhaite ouvrir ses corpus à un public plus large de chercheurs non-informaticiens, elle doit impérativement concevoir et déployer des interfaces simples à manipuler, permettant l'exploitation de ces annotations par des non-informaticiens. Or, l'exploitation de corpus annotés pour le public non spécialiste n'est pas un problème trivial. Dans cet article, nous présentons un outil, ScienQuest, développé afin de démocratiser l'accès aux corpus d'écrits scientifiques, français et anglais, du projet Scientext. Cette plateforme permet d'explorer librement ces corpus en ligne, pour effectuer de recherches portant sur les parties textuelles, les parties du discours et les fonctions syntaxiques, avec un soin particulier porté à l'accessibilité. L'environnement ScienQuest est ouvert à d'autres corpus, et devrait permettre rapidement d'intégrer de nouvelles ressources textuelles libres.
Type de document :
Article dans une revue
Traitement Automatique des Langues, ATALA, 2012
Liste complète des métadonnées

https://hal.archives-ouvertes.fr/hal-00953676
Contributeur : Gilles Sérasset <>
Soumis le : vendredi 28 février 2014 - 14:41:09
Dernière modification le : jeudi 11 octobre 2018 - 08:48:03

Identifiants

  • HAL Id : hal-00953676, version 1

Citation

Achille Falaise, Agnès Tutin, Olivier Kraif. Définition et conception d'une interface pour l'exploitation de corpus arborés pour non-informaticiens : la plateforme ScienQuest du projet Scientext. Traitement Automatique des Langues, ATALA, 2012. 〈hal-00953676〉

Partager

Métriques

Consultations de la notice

181