FILTRAR-S : un outil de filtrage sémantique et de fouille de textes pour la veille - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2010

FILTRAR-S : un outil de filtrage sémantique et de fouille de textes pour la veille

Nicolas Campion
  • Fonction : Auteur
  • PersonId : 968630
Jacques Closson
  • Fonction : Auteur
  • PersonId : 1065763
Olivier Ferret
Jin Shin
  • Fonction : Auteur
Jean-Marc Lazare
  • Fonction : Auteur
Dhafer Lahbib
  • Fonction : Auteur
Jean-Marc Floret
  • Fonction : Auteur
  • PersonId : 1065764
Amar-Djalil Mezaour
  • Fonction : Auteur
  • PersonId : 836598

Résumé

Actuellement développé et testé avec le soutien financier de l'ANR, FILTRAR-S est un outil d'analyse sémantique automatique de textes écrits qui combine les fonctions de filtrage, d'indexation et de fouille sur les documents indexés. Le filtrage est réalisé par l'extraction inductive de structures sémantiques associatives et conduit à l'indexation thématique du contenu des documents. La fouille du contenu des textes prend en compte une dimension factuelle par l'extraction non supervisée des relations entre entités nommées. L'interrogation en langage naturel est prise en charge par un système de question-réponse qui utilise les indexations thématiques et factuelles des textes produites par le système. Pour le filtrage, un objectif de modélisation du fonctionnement associatif de la mémoire sémantique nous a conduit à utiliser l'algorithme LDA du Topic Model. Les résultats d'une première expérimentation pour le traitement d'un corpus d'articles du journal « Le Monde » montre l'efficacité du système pour l'extraction des topics et l'indexation par topics des documents du corpus. Du point de vue de la fouille fondée sur la dimension factuelle des textes, une première expérimentation sur un corpus d'articles du « New York Times » donne également des résultats intéressants. Les développements en cours visent à mettre en oeuvre des procédures de calcul de similarité sémantique entre le contenu d'un texte et celui de profils thématiques et factuels, ainsi qu'un fonctionnement interactif des modules, notamment en réponse à une question précise de l'utilisateur. Il faut enfin souligner que si FILTRAR-S est d'abord développé à des fins de sécurité et de protection du citoyen, les fonctionnalités dont il se dote pour la recherche d'information et pour la veille technologique intéressent des domaines divers.
Fichier non déposé

Dates et versions

hal-02496879 , version 1 (03-03-2020)

Identifiants

  • HAL Id : hal-02496879 , version 1

Citer

Nicolas Campion, Jacques Closson, Olivier Ferret, Jin Shin, Brigitte Grau, et al.. FILTRAR-S : un outil de filtrage sémantique et de fouille de textes pour la veille. Colloque international Veille Stratégique Scientifique & Technologique (VVST'2010), 2010, Toulouse, France. ⟨hal-02496879⟩
50 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More