Domain Adaptation and Model Combination for the Annotation of Multi-source, Multi-domain Texts

Tian Tian

Résumé

The increasing mass of User-Generated Content (UGC) on the Internet means that people are now willing to comment, edit or share their opinions on different topics. This content is now the main ressource for sentiment analysis on the Internet. Due to abbreviations, noise, spelling errors and all other problems with UGC, traditional Natural Language Processing (NLP) tools, including Named Entity Recognizers and part-of-speech (POS) taggers, perform poorly when compared to their usual results on canonical text (Ritter et al., 2011).This thesis deals with Named Entity Recognition (NER) on some User-Generated Content (UGC). We have created an evaluation dataset including multi-domain and multi-sources texts. We then developed a Conditional Random Fields (CRFs) model trained on User-Generated Content (UGC).In order to improve NER results in this context, we first developed a POStagger on UGC and used the predicted POS tags as a feature in the CRFs model. To turn UGC into canonical text, we also developed a normalization model using neural networks to propose a correct form for Non-Standard Words (NSW) in the UGC.

Internet propose aujourd’hui aux utilisateurs de services en ligne de commenter, d’éditer et de partager leurs points de vue sur différents sujets de discussion. Ce type de contenu est maintenant devenu la ressource principale pour les analyses d’opinions sur Internet. Néanmoins, à cause des abréviations, du bruit, des fautes d’orthographe et toutes autres sortes de problèmes, les outils de traitements automatiques des langues, y compris les reconnaisseurs d’entités nommées et les étiqueteurs automatiques morphosyntaxiques, ont des performances plus faibles que sur les textes bien-formés (Ritter et al., 2011).Cette thèse a pour objet la reconnaissance d’entités nommées sur les contenus générés par les utilisateurs sur Internet. Nous avons établi un corpus d’évaluation avec des textes multi-sources et multi-domaines. Ensuite, nous avons développé un modèle de champs conditionnels aléatoires, entrainé sur un corpus annoté provenant des contenus générés par les utilisateurs.Dans le but d’améliorer les résultats de la reconnaissance d’entités nommées, nous avons d’abord développé un étiqueteur morpho-syntaxique sur les contenus générés par les utilisateurs et nous avons utilisé les étiquettesprédites comme un attribut du modèle des champs conditionnels aléatoire. Enfin, pour transformer les contenus générés par les utilisateurs en textes bien-formés, nous avons développé un modèle de normalisation lexicale basé sur des réseaux de neurones pour proposer une forme correcte pour les mots non-standard.

各种社交网络应用使得互联网用户对各种话题的实时评价，编辑和分享成为可能。这类用户生成的文本内容(User Generated content)已成为社交网络上意见分析的主要目标和来源。但是，此类文本内容中包含的缩写，噪声（不规则词），拼写错误以及其他各种问题导致包括命名实体识别，词性标注在内的传统的自然语言处理工具的性能，相比良好组成的文本降低了许多【参见Ritter 2011】。本论文的主要目标是针对社交网络上用户生成文本内容的命名实体识别。我们首先建立了一个包含多来源，多领域文本的有标注的语料库作为标准评价语料库。然后，我们开发了一个由社交网络用户生成文本训练的基于条件随机场(Conditional Random Fields)的序列标注模型。基于改善这个命名实体识别模型的目的，我们又开发了另一个同样由社交网络用户生成内容训练的词性标注模型，并使用此模型预测的词性作为命名实体识别的条件随机场模型的特征。最后，为了将用户生成文本内容转换成相对标准的良好文本内容，我们开发了一个基于神经网络的词汇标准化模型，用以改正用户生成文本内容中的不标准字，并使用模型提供的改正形式作为命名实体识别的条件随机场模型的特征，借以改善原模型的性能。

Domain Adaptation and Model Combination for the Annotation of Multi-source, Multi-domain Texts

Adaptation au domaine et combinaison de modèles pour l’annotation de textes multi-sources et multi-domaines

领域自适应与组合模型在多来源和多领域内的文本标注中的应用

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager