Skip to Main content Skip to Navigation
Conference papers

ISTEX, un projet national d'archives documentaires : au-delà de l'accès au texte intégral, l'enrichissement des données par méthodes de fouille de textes.

Résumé : Titre : ISTEX, un projet national d'archives documentaires : au-delà de l'accès au texte intégral, l'enrichissement des données par méthodes de fouille de textes. Résumé : Le projet ISTEX (initiative d'excellence en Information Scientifique et Technique) a pour objectif de permettre à la communauté scientifique française d'accéder, à une bibliothèque numérique pluridisciplinaire en texte intégral regroupant l'essentiel des publications scientifiques mondiales. Ces dernières sont accessibles à tous les chercheurs, notamment ceux gravitants autour des thématiques de la fouille de texte, du TAL, de la recherche d'Information, etc. Cela se concrétise par des actions R&D à la fois pour enrichir les données brutes et aussi pour développer de nouveaux algorithmes de fouille et d'analyse de textes. A travers quatre axes d'enrichissement (structuration des documents ; indexation automatique ; reconnaissance d'entités nommées ; catégorisation des documents) nous avons répondu aux trois principaux challenges rencontrés :  Mise au point et intégration d'outils : entraînement, adaptation, mise en production,  Passage à l'échelle : 20 millions de documents à traiter,  Reversement des données. Le résultat d'une ou toute partie de ces travaux a permis de proposer un nouveau processus de diffusion d'ISTEX en construisant des triplets de données alignées et interopérables selon les standards du web sémantique (LOD). Nous envisageons la création d'une plateforme dédiée à la fouille de textes directement connectée aux données ISTEX. Les outils mis à disposition, pourront être développés en collaboration avec tout laboratoire désireux de faire partager une application.
Document type :
Conference papers
Complete list of metadatas

https://hal.archives-ouvertes.fr/hal-01869036
Contributor : Alain Collignon <>
Submitted on : Monday, September 10, 2018 - 10:35:54 AM
Last modification on : Wednesday, October 14, 2020 - 12:52:01 PM

Identifiers

  • HAL Id : hal-01869036, version 1

Collections

Citation

Pascal Cuxac, Alain Collignon. ISTEX, un projet national d'archives documentaires : au-delà de l'accès au texte intégral, l'enrichissement des données par méthodes de fouille de textes.. Analyser la science : les bibliothèques numériques comme objet de recherche in 85ème Congrès ACFAS, May 2017, Montréal, Canada. ⟨hal-01869036⟩

Share

Metrics

Record views

74

Files downloads

17