Normalisation et Apprentissage de Transductions d'Arbres en Mots

Grégoire Laurence

Thèse Année : 2014

Normalization and Learning of Tree to Words Transductions

Normalisation et Apprentissage de Transductions d'Arbres en Mots

(1, 2)

1
2

Grégoire Laurence

Fonction : Auteur
PersonId : 863927

Laboratoire d'Informatique Fondamentale de Lille

Linking Dynamic Data

Résumé

Storage, management and sharing of data are central issues in computer science. Structuring data in trees has become a standard (XML, JSON). To ensure preservation and quick exchange of data, one must identify new me- chanisms to automatize such transformations. We focus on the study of tree to words transformations represented by finite state machines. We define sequential tree to words transducers, that use each node of the input tree exactly once to produce an output. Using reduction to the equivalence problem of morphisms applied to context- free grammars (Plandowski, 95), we prove that equivalence of sequential trans- ducers is decidable in polynomial time. We introduce the concept of earliest transducer, sequential transducers normal form, which aim to produce output "as soon as possible" during the transduction. Using normalization and minimization algorithms, we prove the existence of a canonical transducer, unique, minimal and earliest, for each transduction of our class. Deciding the existence of a transducer representing a sample, i.e. pairs of input and output of a transformation, is proved NP-hard. Thus, we propose a learning algorithm that generate a canonical transducer from a sample, or fail, while remaining polynomial. This algorithm is based on grammatical inference techniques and the adaptation of a Myhill-Nerode theorem.

Le stockage et la gestion de données sont des questions centrales en infor- matique. La structuration sous forme d'arbres est devenue la norme (XML, JSON). Pour en assurer la pérennité et l'échange efficace des données, il est nécessaire d'identifier de nouveaux mécanismes de transformations automati- sables. Nous nous concentrons sur l'étude de transformations d'arbres en mots représentées par des machines à états finies. Nous définissons les transducteurs séquentiels d'arbres en mots ne pouvant utiliser qu'une et unique fois chaque nœud de l'arbre d'entrée pour décider de la production. En réduisant le problème d'équivalence des transducteurs séquentiels à celui des morphismes appliqués à des grammaires algébriques (Plandowski, 95), nous prouvons qu'il est décidable en temps polynomial. Cette thèse introduit la notion de transducteur travailleur, forme norma- lisée de transducteurs séquentiels, cherchant à produire la sortie le "plus tôt possible" dans la transduction. A l'aide d'un algorithme de normalisation et de minimisation, nous prouvons qu'il existe un représentant canonique, unique transducteur travailleur minimal, pour chaque transduction de notre classe. La décision de l'existence d'un transducteur séquentiel représentant un échantillon, i.e. paires d'entrées et sorties d'une transformation, est prouvée NP-difficile. Nous proposons un algorithme d'apprentissage produisant à par- tir d'un échantillon le transducteur canonique le représentant, ou échouant, le tout en restant polynomial. Cet algorithme se base sur des techniques d'infé- rence grammaticales et sur l'adaptation du théorème de Myhill-Nerode.

Mots clés

transducer grammatical inference data trees normalization learning

transducteur transformation inférence grammaticale arbres de données XML normalisation apprentissage

Domaines

Base de données [cs.DB] Apprentissage [cs.LG] Théorie et langage formel [cs.FL] Algorithme et structure de données [cs.DS]

Fichier principal

main.pdf (1.57 Mo)

Grégoire Laurence : Connectez-vous pour contacter le contributeur

https://theses.hal.science/tel-01053084

Soumis le : mardi 29 juillet 2014-15:13:50

Dernière modification le : vendredi 24 mars 2023-14:52:59

Archivage à long terme le : mardi 25 novembre 2014-20:21:08

Dates et versions

tel-01053084 , version 1 (29-07-2014)

Identifiants

HAL Id : tel-01053084 , version 1

Citer

Grégoire Laurence. Normalisation et Apprentissage de Transductions d'Arbres en Mots. Base de données [cs.DB]. Université des Sciences et Technologie de Lille - Lille I, 2014. Français. ⟨NNT : 41446⟩. ⟨tel-01053084⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-LILLE3 CNRS INRIA CRISTAL INRIA2 CRISTAL-LINKS

470 Consultations

688 Téléchargements

Normalization and Learning of Tree to Words Transductions

Normalisation et Apprentissage de Transductions d'Arbres en Mots

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager