Régularisation spatiale de représentations distribuées de mots
Résumé
Stimulated by the heavy use of smartphones, the joint use of textual and spatial data in space-textual objects (eg., tweets) has become the mainstay of many applications, such as the finding of places of interest. These tasks are fundamentally based on the representation of spatial objects and the definition of matching functions. In this article, we focus on the representation of these objects. More precisely, reinforced by the success of distributed word representations approaches, we propose to regularize word embeddings that can be combined to construct object representations, using their spatial distributions. The purpose is to reveal possible local semantic relationships between words and the multiplicity of meanings of the same word. Experiments based on a semantic location prediction task demonstrate that the integration of our method of spatial retrofitting of word embeddings into a basic matching model provides significant improvements over strong baselines.
Stimulée par l’usage intensif des téléphones mobiles, l’exploitation conjointe des don-nées textuelles et des données spatiales présentes dans les objets spatio-textuels (p. ex. tweets)est devenue la pierre angulaire à de nombreuses applications comme la recherche de lieux d’attraction. Du point de vue scientifique, ces tâches reposent de façon critique sur la représentation d’objets spatiaux et la définition de fonctions d’appariement entre ces objets. Dans cet article,nous nous intéressons au problème de représentation de ces objets. Plus spécifiquement, confortés par le succès des représentations distribuées basées sur les approches neuronales, nous proposons de régulariser les représentations distribuées de mots (c.-à-d. plongements lexicaux ou word embeddings), pouvant être combinées pour construire des représentations d’objets,grâce à leurs répartitions spatiales. L’objectif sous-jacent est de révéler d’éventuelles relations sémantiques locales entre mots ainsi que la multiplicité des sens d’un même mot. Les expérimentations basées sur une tâche de recherche d’information qui consiste à retourner le lieu physique faisant l’objet (sujet) d’un géo-texte montrent que l’intégration notre méthode de régularisation spatiale de représentations distribuées de mots dans un modèle d’appariement de base permet d’obtenir des améliorations significatives par rapport aux modèles de référence.
Origine : Fichiers produits par l'(les) auteur(s)
Loading...