Corpus de registres différents pour le développement d'un aligneur d'unités polylexicales - Archive ouverte HAL Accéder directement au contenu
Pré-Publication, Document De Travail Année : 2019

Corpus de registres différents pour le développement d'un aligneur d'unités polylexicales

Résumé

Comment trouver des données exprimant les mêmes concepts dans des registres de langue différents ? Après un essai infructueux d'extraction terminologique à partir de corpus comparables spécialisés dans trois langues différentes, l'idée est d'ajouter pour chaque langue des sous-corpus du registre courant afin d'y détecter des relations de synonymie. Or ce type de ressource n'existe pas. Nous présentons la constitution d'un corpus de 400 K mots en allemand dans le domaine de la cancérologie, subdivisé en deux sous-corpus de même taille. À partir d'équivalents en allemand du mot clé « cancer du sein », nous avons recueilli pour un premier sous-corpus, des textes qui s'adressent à des patientes (et des patients) ou à leurs familles, et pour un second sous-corpus, des textes qui s'adressent à des médecins ou des chercheurs en médecine. Introduction Dans le cadre de la communication d'entreprise, il est exprimé le besoin d'obtenir des données décrivant les mêmes signifiés mais dans des registres différents. La première idée a été de collecter des textes d'experts dans un domaine spécialisé et dans différentes langues, afin d'extraire automatiquement de ces corpus des termes ayant à l'intérieur d'une même langue une relation de synonymie. L'extraction terminologique à partir des corpus de textes pour experts n'a pas fourni les résultats escomptés (Delpech, 2013). La seconde idée pour créer cet aligneur d'unités polylexicales est alors d'ajouter au corpus des textes sur un sujet d'expertise, mais cette fois rédigés en langue générale, afin de s'assurer de la présence dans la même langue de plusieurs termes ayant une relation paraphrastique entre eux. Un nouveau besoin apparaît alors en corpus de qualité, construit à partir de textes d'experts du domaine médical dans différentes langues, pour une part rédigés pour d'autres experts, et pour une autre part égale, à destination du grand public. Or il s'avère qu'une telle ressource n'existe pas, du moins dans le domaine médical. Nous avons construit la ressource nécessaire pour l'allemand, à partir de textes contenant les mots « Brustkrebs » ou « Mammakarzinom », équivalents du terme « cancer du sein ». La première partie de cet article présente comment les textes ont été collectés, choisis et recensés. La seconde partie décrit le nettoyage des textes, leur anonymisation et le résultat final.
Fichier principal
Vignette du fichier
Lemaire_2018.pdf (617.44 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-02991905 , version 1 (06-11-2020)

Identifiants

  • HAL Id : hal-02991905 , version 1

Citer

Claire Lemaire. Corpus de registres différents pour le développement d'un aligneur d'unités polylexicales. 2019. ⟨hal-02991905⟩
31 Consultations
52 Téléchargements

Partager

Gmail Facebook X LinkedIn More