SEMPEDIA : Sémantisation à partir des documents semi-structurés - Enrichissement de DBPédia

Cette thèse s'inscrit dans le cadre d'un projet interdisciplinaire appelé SemPedia qui a fait l'objet d'un partenariat entre les équipes Melodi et ERSS de l'Institut de Recherche en Informatique de Toulouse (IRIT) et du laboratoire Cognition, Langue, Langage, Ergonomie (CLLE). L'objectif est de mettre en commun des compétences en informatique, linguistique et traitement automatique des langues pour le développement d'outils d'extraction de connaissances à partir de textes visant l'enrichissement du Web des données en français. Le Web des données permet la publication de données structurées pour constituer un réseau de connaissances à l'échelle du Web. Or, les contenus relatifs au français restent très insuffisants par rapport à leurs équivalents en anglais. Ainsi, la ressource DBPedia en français est 20 000 fois plus pauvre que la version anglaise de DBPedia. Ce rapport rend compte des méthodes mises au point dans le cadre du projet SemPedia pour la construction automatique de ressources sémantiques à grande échelle pour le français. Elles reposent sur le développement de plusieurs extracteurs de connaissances à partir du corpus Wikipedia, constitué de textes de nature encyclopédique particulièrement riches en informations. Cette ressource textuelle a été généralement exploitée par des techniques analysant seulement la partie la plus fortement structurée de la base (infoboxes, catégories, etc.), délaissant la majorité de l'information textuelle disponible. Le projet SemPediaa pour objectif d'évaluer les apports de méthodes qui visent à tirer parti de toutes les informations textuelles disponibles dans le corpus Wikipedia en combinant des approches variées d'extraction des connaissances, basées à la fois sur des règles linguistiques (patrons morpho-syntaxiques) et sur des processus d'apprentissage (supervision distante). Le projet s'est focalisé sur l'extraction de connaissances de nature taxonomique, qui constituent l'ossature principale des ressources sémantiques. Elles organisent les concepts sous forme de hiérarchies, selon une relation dite de spécialisation en intelligence artificielle, appelée hyperonymie en linguistique. L'extraction de relations à partir des textes a motivé de nombreux travaux, conduisant à un foisonnement de méthodes qui s'explique à la fois par la disparité des situations d'acquisition et par les évolutions technologiques. La thèse implémente plusieurs techniques complémentaires, afin d'évaluer les conditions optimales de leur utilisation, en fonction du type de ressources textuelles disponibles (plus ou moins normalisées et structurées) et de la nature de l'information textuelle mobilisée (contenu textuel standard, titres, énumérations, etc.). Ce rapport présente la problématique de la thèse, fait un bilan des travaux antérieurs sur cette question, et détaille les différents volets de la contribution en faisant varier plusieurs paramètres : la nature des textes (textes spécifiques ou ensemble du corpus Wikipedia), les caractéristiques de l'information textuelle (texte brut ou structuré), et les types de techniques mobilisés (approche par règles ou par apprentissage). Les chapitres relatifs à la contribution présentent et intègrent 4 des 5 publications réalisées dans le cadre du projet.

Mots clés

Web des données extraction de connaissances bases de connaissances traitement automatique des langues relations sémantiques

Domaines

Intelligence artificielle [cs.AI]

Fichier principal

Aussenac_et_al_RapportFinal_sempedia2019.pdf (2.69 Mo)

Origine : Fichiers produits par l'(les) auteur(s)

Laboratoire IRIT : Connectez-vous pour contacter le contributeur

https://hal.science/hal-02960440

Soumis le : mercredi 7 octobre 2020-16:52:55

Dernière modification le : samedi 20 avril 2024-03:13:11

Dates et versions

hal-02960440 , version 1 (07-10-2020)

Identifiants

HAL Id : hal-02960440 , version 1

Citer

Nathalie Aussenac-Gilles, Cécile Fabre, Adel Ghamnia, Mouna Kamel, Cassia Trojahn dos Santos. SEMPEDIA : Sémantisation à partir des documents semi-structurés - Enrichissement de DBPédia. [Contrat] Université de Toulouse-le-Mirail. 2020. ⟨hal-02960440⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

EPHE UNIV-TLSE2 CNRS CLLE UT1-CAPITOLE LARA PSL UNIV-BORDEAUX-MONTAIGNE IRIT IRIT-MELODI IRIT-IA IRIT-CNRS IRIT-UT3 TOULOUSE-INP UNIV-UT3 UT3-TOULOUSEINP

98 Consultations

156 Téléchargements