Accurate comparison of tree sets using HMM-based descriptor vectors - Archive ouverte HAL Accéder directement au contenu
Pré-Publication, Document De Travail Année : 2022

Accurate comparison of tree sets using HMM-based descriptor vectors

Comparaison d'ensembles d'arbres à l'aide de descripteurs vectoriels basés sur les modèles de Markov cachés

Résumé

Trees are among the most studied data structures and several techniques have consequently been developed for comparing two trees belonging to the same category. Until the end of year 2020, there was a serious lack of suitable metrics for comparing two weighted trees or two trees from different categories. The problem of comparing two tree sets was not also specifically addressed. These limitations have been overcome in a paper published in 2021 where a customizable metric based on hidden Markov models have been proposed for comparing two tree sets, each containing a mixture of trees belonging to various categories. Unfortunately, that metric does not allow the use of non metric-dependent classifiers which take descriptor vectors as inputs. This paper addresses this drawback by deriving a descriptor vector for each tree set from the behavior of its associated models after a sufficiently long time. The comparison between two tree sets is then realized by comparing their associated descriptor vectors. Classification experiments carried out on the databases FirstLast-L (FL), FirstLast-LW (FLW) and Stanford Sentiment Treebank (SSTB) respectively showed best accuracies of 99.75%, 99.75% and 87.22%. These performances are respectively 40.75% and 20.52% better than the tree Edit distance respectively for FLW and SSTB. Additional clustering experiments exhibited 54.25%, 98.75% and 75.53% of correctly clustered instances respectively for FL, FLW and SSTB. No clustering was performed in existing work.
Les arbres font partie des structures de données les plus étudiées et plusieurs techniques ont par conséquent été développées pour comparer deux arbres appartenant à la même catégorie. Jusqu'à la fin de l'année 2020, il y avait un sérieux manque de métriques appropriées pour comparer deux arbres pondérés ou deux arbres de catégories différentes. Le problème de la comparaison de deux ensembles d'arbres n'a pas non plus été spécifiquement abordé. Ces limites ont été surmontées dans un article publié en 2021 dans lequel une métrique paramétrable basée sur des modèles de Markov cachés a été proposée pour comparer deux ensembles d'arbres, chacun contenant un mélange d'arbres appartenant à différentes catégories. Malheureusement, cette métrique ne permet pas l'utilisation de classificateurs ne dépendant pas d'une mesure de distance qui prennent généralement des vecteurs en entrées. Le présent article s'attaque à cette limite en proposant un descripteur vectoriel pour chaque ensemble d'arbres à partir du comportement sur une longue période des modèles qui lui sont associés. La comparaison entre deux ensembles d'arbres est alors réalisée en comparant leurs descripteurs vectoriels respectifs. Des expériences en classification menées sur les bases de données FirstLast-L (FL), FirstLast-LW (FLW) et Stanford Sentiment Treebank (SSTB) ont respectivement permis d'obtenir les meilleures performances de 99,75 %, 99,75 % et 87,22 %. Ces performances sont respectivement 40,75% et 20,52% meilleures que la 'Tree Edit distance' respectivement pour FLW et SSTB. Des expériences supplémentaires en clustering ont permis d'avoir respectivement 54,25 %, 98,75 % et 75,53 % instances correctement groupées pour FL, FLW et SSTB. Aucun clustering n'avait été effectué dans les travaux existants.
Fichier principal
Vignette du fichier
ilogaARIMA.pdf (1.57 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-03582092 , version 1 (21-02-2022)
hal-03582092 , version 2 (28-05-2022)
hal-03582092 , version 3 (13-08-2022)

Identifiants

  • HAL Id : hal-03582092 , version 1

Citer

Sylvain Iloga. Accurate comparison of tree sets using HMM-based descriptor vectors. 2022. ⟨hal-03582092v1⟩
101 Consultations
350 Téléchargements

Partager

Gmail Facebook X LinkedIn More