Discovering linguistic patterns using sequence mining

Nicolas Béchet 1 Peggy Cellier 2 Thierry Charnois 1 Bruno Crémilleux 1
1 Equipe CODAG - Laboratoire GREYC - UMR6072
GREYC - Groupe de Recherche en Informatique, Image, Automatique et Instrumentation de Caen
2 LIS - Logical Information Systems
IRISA-D7 - GESTION DES DONNÉES ET DE LA CONNAISSANCE
Abstract : In this paper, we present a method based on data mining techniques to automatically discover linguistic patterns matching appositive qualifying phrases. We develop an algorithm mining sequential patterns made of itemsets with gap and linguistic constraints. The itemsets allow several kinds of information to be associated with one term. The advantage is the extraction of linguistic patterns with more expressiveness than the usual sequential patterns. In addition, the constraints enable to automatically prune irrelevant patterns. In order to manage the set of generated patterns, we propose a solution based on a partial ordering. A human user can thus easily validate them as relevant linguistic patterns.We illustrate the efficiency of our approach over two corpora coming from a newspaper
Type de document :
Communication dans un congrès
Gelbukh, Alexander F. 13th Int. Conf. on Intelligent Text Processing and Computational Linguistics (CICLing'12), Mar 2012, new delhi, India. 7181, pp.154-165, 2012
Liste complète des métadonnées

Littérature citée [18 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/hal-01023109
Contributeur : Greyc Référent <>
Soumis le : mardi 15 juillet 2014 - 09:15:45
Dernière modification le : mardi 23 janvier 2018 - 01:20:02
Document(s) archivé(s) le : jeudi 20 novembre 2014 - 18:15:11

Fichier

ACTI-BECHET-2012-1.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01023109, version 1

Citation

Nicolas Béchet, Peggy Cellier, Thierry Charnois, Bruno Crémilleux. Discovering linguistic patterns using sequence mining. Gelbukh, Alexander F. 13th Int. Conf. on Intelligent Text Processing and Computational Linguistics (CICLing'12), Mar 2012, new delhi, India. 7181, pp.154-165, 2012. 〈hal-01023109〉

Partager

Métriques

Consultations de la notice

358

Téléchargements de fichiers

189