Sequence Covering Similarity for Symbolic Sequence Comparison

Pierre-François Marteau 1
1 EXPRESSION - Expressiveness in Human Centered Data/Media
UBS - Université de Bretagne Sud, IRISA-D6 - MEDIA ET INTERACTIONS
Abstract : This paper introduces the sequence covering similarity, that we formally define for evaluating the similarity between a symbolic sequence (string) and a set of symbolic sequences (strings). From this covering similarity we derive a pair-wise distance to compare two symbolic sequences. We show that this covering distance is a semimetric. Few examples are given to show how this string metric in $O(n \cdot log n)$ compares with the Levenshtein's distance that is in $O(n^2)$. A final example presents its application to plagiarism detection.
Type de document :
Pré-publication, Document de travail
2018
Liste complète des métadonnées

https://hal.archives-ouvertes.fr/hal-01689286
Contributeur : Pierre-François Marteau <>
Soumis le : jeudi 8 mars 2018 - 15:42:48
Dernière modification le : mercredi 16 mai 2018 - 11:24:07
Document(s) archivé(s) le : samedi 9 juin 2018 - 14:17:05

Fichiers

CoveringSimilarity-v2.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01689286, version 3
  • ARXIV : 1801.07013

Citation

Pierre-François Marteau. Sequence Covering Similarity for Symbolic Sequence Comparison. 2018. 〈hal-01689286v3〉

Partager

Métriques

Consultations de la notice

191

Téléchargements de fichiers

40