Adapting WSJ-trained parsers to the British National Corpus using in-domain self-training

Jennifer Foster; Joachim Wagner; Djamé Seddah; Josef van Genabith

Communication Dans Un Congrès Année : 2007

Adapting WSJ-trained parsers to the British National Corpus using in-domain self-training

(1) , (1) , (2) , (1)

1
2

Jennifer Foster

Fonction : Auteur

National Centre for Language Technology

Joachim Wagner

Fonction : Auteur

National Centre for Language Technology

Djamé Seddah

Fonction : Auteur
PersonId : 11545
IdHAL : djameseddah
IdRef : 086185136

Langues, logiques, informatiques, cognition

Josef van Genabith

Fonction : Auteur

National Centre for Language Technology

Résumé

We introduce a set of 1,000 gold standard parse trees for the British National Corpus (BNC) and perform a series of self-training experiments with Charniak and Johnson's reranking parser and BNC sentences. We show that retraining this parser with a combination of one million BNC parse trees (produced by the same parser) and the original WSJ training data yields improvements of 0.4% on WSJ Section 23 and 1.7% on the new BNC gold standard set.

Mots clés

parsing Probabilistic parsing out of domain parsing BNC

Domaines

Traitement du texte et du document

Fichier principal

jfoster_et_al_07.pdf (28.79 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Brigitte Briot : Connectez-vous pour contacter le contributeur

https://inria.hal.science/inria-00545429

Soumis le : vendredi 10 décembre 2010-10:58:15

Dernière modification le : vendredi 24 mars 2023-14:52:53

Archivage à long terme le : vendredi 11 mars 2011-03:16:18

Dates et versions

inria-00545429 , version 1 (10-12-2010)

Identifiants

HAL Id : inria-00545429 , version 1

Citer

Jennifer Foster, Joachim Wagner, Djamé Seddah, Josef van Genabith. Adapting WSJ-trained parsers to the British National Corpus using in-domain self-training. Proceedings of the 10th International Conference on Parsing Technologies : IWPT '07, Association for Computational Linguistics, 2007, Prague, Czech Republic. pp.33--35. ⟨inria-00545429⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS SORBONNE-UNIVERSITE SU-LETTRES

58 Consultations

142 Téléchargements

Adapting WSJ-trained parsers to the British National Corpus using in-domain self-training

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager