SEMPEDIA : Sémantisation à partir des documents semi-structurés - Enrichissement de DBPédia - Archive ouverte HAL Accéder directement au contenu
Rapport (Rapport Contrat/Projet) Année : 2020

SEMPEDIA : Sémantisation à partir des documents semi-structurés - Enrichissement de DBPédia

Résumé

Cette thèse s'inscrit dans le cadre d'un projet interdisciplinaire appelé SemPedia qui a fait l'objet d'un partenariat entre les équipes Melodi et ERSS de l'Institut de Recherche en Informatique de Toulouse (IRIT) et du laboratoire Cognition, Langue, Langage, Ergonomie (CLLE). L'objectif est de mettre en commun des compétences en informatique, linguistique et traitement automatique des langues pour le développement d'outils d'extraction de connaissances à partir de textes visant l'enrichissement du Web des données en français. Le Web des données permet la publication de données structurées pour constituer un réseau de connaissances à l'échelle du Web. Or, les contenus relatifs au français restent très insuffisants par rapport à leurs équivalents en anglais. Ainsi, la ressource DBPedia en français est 20 000 fois plus pauvre que la version anglaise de DBPedia. Ce rapport rend compte des méthodes mises au point dans le cadre du projet SemPedia pour la construction automatique de ressources sémantiques à grande échelle pour le français. Elles reposent sur le développement de plusieurs extracteurs de connaissances à partir du corpus Wikipedia, constitué de textes de nature encyclopédique particulièrement riches en informations. Cette ressource textuelle a été généralement exploitée par des techniques analysant seulement la partie la plus fortement structurée de la base (infoboxes, catégories, etc.), délaissant la majorité de l'information textuelle disponible. Le projet SemPediaa pour objectif d'évaluer les apports de méthodes qui visent à tirer parti de toutes les informations textuelles disponibles dans le corpus Wikipedia en combinant des approches variées d'extraction des connaissances, basées à la fois sur des règles linguistiques (patrons morpho-syntaxiques) et sur des processus d'apprentissage (supervision distante). Le projet s'est focalisé sur l'extraction de connaissances de nature taxonomique, qui constituent l'ossature principale des ressources sémantiques. Elles organisent les concepts sous forme de hiérarchies, selon une relation dite de spécialisation en intelligence artificielle, appelée hyperonymie en linguistique. L'extraction de relations à partir des textes a motivé de nombreux travaux, conduisant à un foisonnement de méthodes qui s'explique à la fois par la disparité des situations d'acquisition et par les évolutions technologiques. La thèse implémente plusieurs techniques complémentaires, afin d'évaluer les conditions optimales de leur utilisation, en fonction du type de ressources textuelles disponibles (plus ou moins normalisées et structurées) et de la nature de l'information textuelle mobilisée (contenu textuel standard, titres, énumérations, etc.). Ce rapport présente la problématique de la thèse, fait un bilan des travaux antérieurs sur cette question, et détaille les différents volets de la contribution en faisant varier plusieurs paramètres : la nature des textes (textes spécifiques ou ensemble du corpus Wikipedia), les caractéristiques de l'information textuelle (texte brut ou structuré), et les types de techniques mobilisés (approche par règles ou par apprentissage). Les chapitres relatifs à la contribution présentent et intègrent 4 des 5 publications réalisées dans le cadre du projet.
Fichier principal
Vignette du fichier
Aussenac_et_al_RapportFinal_sempedia2019.pdf (2.69 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-02960440 , version 1 (07-10-2020)

Identifiants

  • HAL Id : hal-02960440 , version 1

Citer

Nathalie Aussenac-Gilles, Cécile Fabre, Adel Ghamnia, Mouna Kamel, Cassia Trojahn dos Santos. SEMPEDIA : Sémantisation à partir des documents semi-structurés - Enrichissement de DBPédia. [Contrat] Université de Toulouse-le-Mirail. 2020. ⟨hal-02960440⟩
98 Consultations
156 Téléchargements

Partager

Gmail Facebook X LinkedIn More