Mining and Learning from Multilingual Text Collections using Topic Models and Word Embeddings

Résumé : Dans cette thèse, nous nous intéressons à l'apprentissage de représentations textuelles basé sur l'hypothèse distributionnelle stipulant que les éléments linguistiques qui co-occurrent dans le même contexte avec la même fréquence sont similaires. Dans la première partie de la thèse, nous considérons les modèles latents probabilistes pour les corpus de textes monolingues et bilingues. Nous identifions certaines limitations de ces modèles, par exemple le fait qu'ils ne tiennent pas compte de la structure du texte, et nous proposons des solutions pour les prendre en compte. La deuxième partie de la thèse concerne les embeddings de mots, c'est-à-dire les représentations de mots continus apprises avec des réseaux profonds. Nous étudions différents paramètres de classification de textes et des problèmes de récupération de documents. Nous proposons des algorithmes qui bénéficient de l'expressivité des embeddings de mots, soit en utilisant les réseaux neuronaux profonds, soit une reformulation du problème par le transport optimal.
Type de document :
Thèse
Artificial Intelligence [cs.AI]. Grenoble 1 UGA - Université Grenoble Alpes, 2017. English
Liste complète des métadonnées

Littérature citée [189 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/tel-01706347
Contributeur : Georgios Balikas <>
Soumis le : dimanche 11 février 2018 - 14:12:20
Dernière modification le : jeudi 11 octobre 2018 - 08:48:05
Document(s) archivé(s) le : lundi 7 mai 2018 - 21:24:58

Fichier

thesis_balikas_final.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : tel-01706347, version 1

Collections

Citation

Georgios Balikas. Mining and Learning from Multilingual Text Collections using Topic Models and Word Embeddings. Artificial Intelligence [cs.AI]. Grenoble 1 UGA - Université Grenoble Alpes, 2017. English. 〈tel-01706347〉

Partager

Métriques

Consultations de la notice

137

Téléchargements de fichiers

263