Integrating Contextual and Commonsense Information for Automatic Discourse Understanding : Contributions to Temporal Relation Classification and Bridging Anaphora Resolution - Archive ouverte HAL Accéder directement au contenu
Thèse Année : 2021

Integrating Contextual and Commonsense Information for Automatic Discourse Understanding : Contributions to Temporal Relation Classification and Bridging Anaphora Resolution

Intégration d’informations contextuelles et de sens commun pour la compréhension automatique du discours : Contributions à la classification des relations temporelles et à la résolution des anaphores associatives

Onkar Pandit
  • Fonction : Auteur
  • PersonId : 1123309

Résumé

Establishing temporal order between events and resolving bridging references are crucial for automatic discourse understanding. For that, effective event and mention representations are essential to accurately solve temporal relation classification and bridging resolution. This thesis addresses exactly that and designs novel approaches to obtain more expressive event and mention representations. Contextual and commonsense information is needed for obtaining such effective representations. However, acquiring and injecting it is a challenging task because, on the one hand, it is hard to distinguish useful context itself from bigger paragraphs or documents and also equally difficult to process bigger contexts computationally. On the other hand, obtaining commonsense information like humans acquire, is still an open research question. The earlier attempts of hand engineered event and mention representations are not sufficient for acquiring contextual information. Moreover, most of the approaches are inadequate at capturing commonsense information as they again resorted to hand-picky approaches of acquiring such information from sources like dictionaries, web, or knowledge graphs. In our work, we get rid of these inefficacious approaches of getting event and mention representations. First, we obtain contextual information to improve event representations by providing neighboring n-words of the event. We also use character-based representation of events to capture additional tense, and aspect information from the internal structure of event headwords. We also go a step further and learn interactions over these event representations to get rich event-pair representations. We find that our improved event representations demonstrate substantial gains over an approach which relied only on the event head embeddings. Also, our ablation study proves the effectiveness of complex interaction learning as well as the role of character-based representations. Next, we probe transformer language models (e.g. BERT) that are proved to be better at capturing context. We investigate specifically for bridging inference to understand the capacity of these models at capturing it. The purpose of this investigation is to use these understandings for making informed decisions at designing better transformer models to further improve mention representations. For that, we examine the model’s internal structure individually and then the whole model. The investigation shows that pre-trained models are surprisingly good at capturing bridging information and these capabilities are highly context dependent, as they perform poorly with distorted contexts. Further, our qualitative analysis shows that BERT is capable of capturing basic commonsense information but fails to capture sophisticated information which is required for bridging resolution. Finally, we combine both contextual and commonsense information for further improving event and mention representations. We inject commonsense information with the use of knowledge graphs for both temporal relation classification and bridging anaphora resolution tasks. We take a principled approach at acquiring such knowledge where we employ graph node embeddings learned over knowledge graphs to capture the overall topology of the graph as a result gaining holistic external information. Specifically, we combine knowledge graph based representations and contextual representations learned with text-only embeddings to produce knowledge-aware representations. We evaluate our approach over standard datasets like ISNotes, BASHI, and ARRAU for bridging anaphora resolution and MATRES for temporal relation classification. We observe substantial gains in performances over text-only representations on both tasks proving the effectiveness of our approach.
Etablir l’ordre temporel entre les événements et résoudre les anaphores associatives sont cruciaux pour la compréhension automatique du discours. La résolution de ces tâches nécessite en premier lieu une représentation efficace des événements et de mentions d’entités. Cette thèse s’attaque directement à cette problématique, à savoir la conception de nouvelles approches pour obtenir des représentations d’événements et de mentions plus expressives. Des informations contextuelles et de sens commun sont nécessaires pour obtenir de telles représentations. Cependant, leur acquisition et leur injection dans les modèles d’apprentissage est une tâche difficile car, d’une part, il est compliqué de distinguer le contexte utile à l’intérieur de paragraphes ou de documents plus volumineux, et il est tout aussi difficile au niveau computationnel de traiter de plus grands contextes. D’autre part, acquérir des informations de sens commun à la manière des humains reste une question de recherche ouverte. Les tentatives antérieures reposant sur un codage manuel des représentations d’événements et de mentions ne sont pas suffisantes pour acquérir des informations contextuelles. De plus, la plupart des approches sont inadéquates pour capturer des informations de sens commun, car elles ont à nouveau recours à des approches manuelles pour acquérir ces informations à partir de sources telles que des dictionnaires, le Web ou des graphes de connaissances. Dans notre travail, nous abandonnons ces approches inefficaces d’obtention de représentations d’événements et de mentions. Premièrement, nous obtenons des informations contextuelles pour améliorer les représentations des événements en fournissant des n-grams de mots voisins de l’événement. Nous utilisons également une représentation des événements basée sur les caractères pour capturer des informations supplémentaires sur le temps et l’aspect de la structure interne des têtes lexicales des événements. Nous allons aussi plus loin en apprenant les interactions sur ces représentations d’événements pour obtenir des représentations riches de paires d’événements. Nous constatons que nos représentations d’événements améliorées démontrent des gains substantiels par rapport à une approche qui ne repose que sur les plongements de la tête lexical de l’événement. De plus, notre étude d’ablation prouve l’efficacité de l’apprentissage d’interactions complexes ainsi que le rôle des représentations basées sur les caractères. Ensuite, nous sondons les modèles de langage de type transformer (par exemple BERT) qui se sont révélés meilleurs pour capturer le contexte. Nous étudions spécifiquement les anaphores associatives pour comprendre la capacité de ces modèles à capturer ce type de relation inférentielle. Le but de cette étude est d’utiliser ces connaissances pour prendre des décisions éclairées lors de la conception de meilleurs modèles de transformer afin d’améliorer encore les représentations des mentions. Pour cela, nous examinons individuellement la structure interne du modèle puis l’ensemble du modèle. L’examen montre que les modèles pré-entraînés sont étonnamment bons pour capturer des informations associatives et que ces capacités dépendent fortement du contexte, car elles fonctionnent mal avec des contextes déformés. De plus, notre analyse qualitative montre que BERT est capable de capturer des informations de base de sens commun mais ne parvient pas à capturer des informations sophistiquées, qui sont nécessaires pour la résolution des anaphores associatives. Enfin, nous combinons à la fois des informations contextuelles et de sens commun pour améliorer encore les représentations des événements et des mentions. Nous injectons des informations de sens commun à l’aide de graphes de connaissances pour les tâches de classification des relations temporelles et de résolution d’anaphores associatives. Notre approche pour acquérir de telles connaissances se fonde sur des plongements de nœuds de graphe appris sur des graphes de connaissances pour capturer la topologie globale du graphe, obtenant ainsi des informations externes plus globales. Plus précisément, nous combinons des représentations basées sur des graphes de connaissances et des représentations contextuelles apprises avec des plongements uniquement textuels pour produire des représentations plus riches en connaissances. Nous évaluons notre approche sur des jeux de données standard comme ISNotes, BASHI et ARRAU pour la résolution des anaphores associatives et MATRES pour la classification des relations temporelles. Nous observons des gains substantiels de performance par rapport aux représentations uniquement textuelles sur les deux tâches démontrant l’efficacité de notre approche.
Fichier principal
Vignette du fichier
onkar_pandit_thesis.pdf (1.43 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

tel-03523670 , version 2 (12-01-2022)
tel-03523670 , version 1 (17-01-2022)

Identifiants

  • HAL Id : tel-03523670 , version 1

Citer

Onkar Pandit. Integrating Contextual and Commonsense Information for Automatic Discourse Understanding : Contributions to Temporal Relation Classification and Bridging Anaphora Resolution. Artificial Intelligence [cs.AI]. Université de Lille, 2021. English. ⟨NNT : ⟩. ⟨tel-03523670v1⟩
120 Consultations
262 Téléchargements

Partager

Gmail Facebook X LinkedIn More