Découverte de connaissances dans les séquences par CRF non-supervisés

Vincent Claveau 1 Abir Ncibi 1
1 TEXMEX - Multimedia content-based indexing
IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires, Inria Rennes – Bretagne Atlantique
Résumé : Les tâches de découverte de connaissances ont pour but de faire émerger des groupes d'entités cohérents. Ils reposent le plus souvent sur du clustering, tout l'enjeu étant de définir une notion de similarité pertinentes entre ces entités. Dans cet article, nous proposons de détourner les champs aléatoires conditionnels (CRF), qui ont montré leur intérêt pour des tâches d'étiquetage supervisées, pour calculer indirectement ces similarités sur des séquences de textes. Pour cela, nous générons des problèmes d'étiquetage factices sur les données à traiter pour faire apparaître des régularités dans les étiquetages des entités. Nous décrivons comment ce cadre peut être mis en œuvre et l'expérimentons sur deux tâches d'extraction d'informations. Les résultats obtenus démontrent l'intérêt de cette approche non-supervisée, qui ouvre de nombreuses pistes pour le calcul de similarités dans des espaces de représentations complexes de séquences.
Document type :
Conference papers
Complete list of metadatas

Cited literature [26 references]  Display  Hide  Download

https://hal.archives-ouvertes.fr/hal-00912314
Contributor : Vincent Claveau <>
Submitted on : Sunday, December 1, 2013 - 10:59:12 PM
Last modification on : Friday, November 16, 2018 - 1:24:30 AM
Long-term archiving on : Monday, March 3, 2014 - 8:47:03 PM

File

Claveau_TALN13.pdf
Publisher files allowed on an open archive

Identifiers

  • HAL Id : hal-00912314, version 1

Citation

Vincent Claveau, Abir Ncibi. Découverte de connaissances dans les séquences par CRF non-supervisés. 20ème conférence sur le Traitement Automatique des Langues Naturelles, TALN, Jun 2013, Sables d'Olonne, France. pp.volume 1. ⟨hal-00912314⟩

Share

Metrics

Record views

355

Files downloads

435