Sentence embeddings and their relation with sentence structures - Archive ouverte HAL Accéder directement au contenu
Thèse Année : 2022

Sentence embeddings and their relation with sentence structures

Plongements de phrases et leurs relations avec les structures de phrases

Résumé

Historically, models of human language assume that sentences have a symbolic structure and that this structure allows us to compute their meaning by composition. In recent years, deep learning models have successfully processed tasks automatically without relying on an explicit language structure, thus challenging this fundamental assumption. This thesis thus seeks to identify better the role of structure in language modeling by deep learning methods. The dissertation specifically investigates the construction of sentence embeddings---semantic representations based on vectors---by deep neural networks. Firstly, we study the integration of linguistic biases in neural network architectures to constrain their composition sequence based on a traditional tree structure. Secondly, we relax these constraints to analyze the latent structures induced by neural networks. In both cases, we analyze the compositional properties of the models as well as the semantic properties of the sentence embeddings. The thesis begins with an overview of the main methods used to represent the meaning of sentences, either symbolically or using deep learning. The second part proposes several experiments introducing linguistic biases in neural network architectures to build sentence embeddings. The first chapter explicitly combines several sentence structures to build semantic representations. The second chapter jointly learns symbolic structures and vector representations. The third chapter introduces a formal framework for graph transformers. Finally, the fourth chapter studies the impact of the structure on the generalization capacity of the models and compares their compositional capabilities. The last part compares the models to larger-scale approaches. It seeks to discuss current trends that favor larger models, more easily parallelized and trained on more data, at the expense of finer modeling. The two chapters report on the training of large models of automatic language processing and compare these approaches with those developed in the second part from a qualitative and quantitative point of view.
Historiquement, la modélisation du langage humain suppose que les phrases ont une structure symbolique et que cette structure permet d'en calculer le sens par composition. Ces dernières années, les modèles d'apprentissage profond parviennent à traiter automatiquement des tâches sans s'appuyer sur une structure explicite du langage, remettant ainsi en question cette hypothèse fondamentale. Cette thèse cherche ainsi à mieux identifier le rôle de la structure lors de la modélisation du langage par des modèles d'apprentissage profond. Elle se place dans le cadre spécifique de la construction de plongements de phrases---des représentations sémantiques basées sur des vecteurs---par des réseaux de neurones. Dans un premier temps, on étudie l'intégration de biais linguistiques dans les architectures de réseaux neuronaux, pour contraindre leur séquence de composition selon une structure traditionnelle en arbres. Dans un second temps, on relâche ces contraintes pour analyser les structure latentes induites par les réseaux neuronaux. Dans les deux cas, on analyse les propriétés de composition des modèles ainsi que les propriétés sémantiques des plongements. La thèse s'ouvre sur un état de l'art présentant les principales méthodes de représentation du sens des phrases, qu'elles soient symboliques ou basées sur des méthodes d'apprentissage profond. La deuxième partie propose plusieurs expériences introduisant des biais linguistiques dans les architectures des réseaux de neurones pour construire des plongement de phrases. Le premier chapitre combine explicitement plusieurs structures de phrases pour construire des représentations sémantiques. Le deuxième chapitre apprend conjointement des structures symboliques et des représentations vectorielles. Le troisième chapitre introduit un cadre formel pour les transformers selon une structure de graphes. Finalement le quatrième chapitre étudie l'impact de la structure vis à vis de la capacité de généralisation et de composition des modèles. La thèse se termine par une mise en concurrence de ces approches avec des méthodes de passage à l'échelle. On cherche à y discuter les tendances actuelles qui privilégient des modèles plus gros, plus facilement parallélisables et entrainés sur plus de données, aux dépens de modélisations plus fines. Les deux chapitres relatent l'entrainement de larges modèles de traitement automatique du langage et comparent ces approches avec celles développées dans la deuxième partie d'un point de vue qualitatif et quantitatif.
Fichier principal
Vignette du fichier
va_Simoulin_Antoine.pdf (6.2 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03791935 , version 1 (29-09-2022)
tel-03791935 , version 2 (09-01-2024)

Identifiants

  • HAL Id : tel-03791935 , version 2

Citer

Antoine Simoulin. Sentence embeddings and their relation with sentence structures. Linguistics. Université Paris Cité, 2022. English. ⟨NNT : 2022UNIP7190⟩. ⟨tel-03791935v2⟩
149 Consultations
183 Téléchargements

Partager

Gmail Facebook X LinkedIn More