Vers l’élaboration d’une ontologie interlingue pour le Lexique Scientifique Transdiciplinaire
Résumé
Le discours scientifique intègre un lexique relevant de catégories sémantiques et épistémologiques spécifiques, le lexique scientifique transdisciplinaire (Pecman 2004, Paquot 2010, Hatier et al. 2016). Ce lexique intègre des unités lexicales comme hypothèse, montrer, quantitatif mais aussi des expressions polylexicales et des routines plus larges comme obtenir des résultats encourageants, comme on l’a vu précédemment, les résultats montrent que … Dans le cadre du projet ANR Termith (2012-2016), le LIDILEM a élaboré un lexique sémantique de ce type discours intégrant des étiquettes sémantiques et une organisation ontologique, à partir d’informations obtenues à partir de techniques distributionnelles appliquées à des corpus du français (Hatier et al. 2016). Dans le cadre du présent projet, nous souhaitons étendre ce lexique à une version anglaise, en exploitant des techniques d’alignement de corpus (Schulz et al. 2016, Och et al. 1999) et des méthodes d’analyse distributionnelle sémantique, permettant de caractériser le sens des mots à partir de leurs contextes phrastiques (Mikolov et al. 2013, ltszyler et al., 2016).
La première étape du projet a permis de constituer un corpus bilingue d'articles scientifiques en SHS, pour environ 4 millions de mots par langue (EN et FR). Le corpus a été analysé syntaxiquement et aligné au niveau des phrases et des mots. Les entrées du LST pour le français ont été projetées sur le corpus. La prochaine étape consistera à tirer des alignements au niveau lexical une liste de candidats pour la partie anglaise, en vue d'élaborer une ontologie interlingue du domaine.
Domaines
Informatique et langage [cs.CL]
Origine : Fichiers produits par l'(les) auteur(s)
Loading...