Computational phraseology discovery in corpora with the MWETOOLKIT - Archive ouverte HAL Accéder directement au contenu
Chapitre D'ouvrage Année : 2020

Computational phraseology discovery in corpora with the MWETOOLKIT

Résumé

Computer tools can help discovering new phraseological units in corpora, thanks to their ability to quickly draw statistics from large amounts of textual data. While the research community has focused on developing and evaluating original algorithms for the automatic discovery of phraseological units, little has been done to transform these sophisticated methods into usable software. In this chapter, we present a brief survey of the main approaches to computational phraseology available. Furthermore, we provide worked out examples of how to apply these methods using the mwetoolkit, a free software for the discovery and identification of multiword expressions. The usefulness of the automatically extracted units depends on various factors such as language, corpus size, target units, and available taggers and parsers. Nonetheless, the mwetoolkit allows fine-grained tuning so that this variability is taken into account, adapting the tool to the specificities of each lexicographic environmen
Les outils informatiques peuvent assister la découverte de nouvelles unités phraséologiques dans les corpus grâce à leur facilité pour calculer rapidement des statistiques à partir de grands volumes de données textuelles. Alors que la communauté de recherche s'est concentrée sur le développement et l'évaluation d'algorithmes originaux pour la découverte automatique d'unités phraséologiques, la transformation de ces méthodes sophistiquées en logiciels utilisables est souvent ignorée. Ce chapitre présente un bref résumé des principales approches informatiques disponibles pour la découverte d'unités phraséologiques. Nous présenterons des exemples détaillés de l'application de ces approches avec le mwetoolkit, un logiciel libre pour la découverte et l'identification d'unités polylexicales. L'utilité des unités extraites automatiquement dépend de plusieurs facteurs comme la langue, la taille du corpus, les unités cibles, et les étiqueteurs et analyseurs disponibles. Néanmoins, le mwetoolkit permet un paramétrage fin, de manière à ce que cette variabilité soit prise en compte dans l'adaptation de l'outil à chaque environnement lexicographique.
Fichier principal
Vignette du fichier
phraseology-chapter-preprintNotice.pdf (570.19 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-02739265 , version 1 (02-06-2020)

Identifiants

Citer

Carlos Ramisch. Computational phraseology discovery in corpora with the MWETOOLKIT. Gloria Corpas Pastor; Jean-Pierre Colson. Computational Phraseology, 24, John Benjamins, pp.111-134, 2020, IVITRA Research in Linguistics and Literature, 9789027205353. ⟨10.1075/ivitra.24.06ram⟩. ⟨hal-02739265⟩
33 Consultations
222 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More