Enrichissement contrôlé de bases de connaissances à partir de documents semi-structurés annotés
Résumé
Grâce au Linked Open Data, les sources RDF mises à disposition sur le Web sont de plus en plus nombreuses. Cependant, ces sources contiennent relativement peu d'information par comparaison au volume d'informations contenues dans les documents semi-structurés. De nombreux outils ont pour objectif d'annoter sémantiquement ces documents mais l'extraction de relations reste une tâche particulièrement difficile quand la structure et le vocabulaire des documents sont hétérogènes. Nous proposons une approche permettant d'enrichir et d'interroger une ou plusieurs bases de connaissances RDF/OWL en exploitant un ensemble de documents sémantiquement annotés. Ces bases sont enrichies par des instances de relations incertaines inférées à partir de la structure des documents, des ontologies et des faits présents dans les bases de connaissances. Une requête SPARQL formulée dans le vocabulaire du domaine est reformulée afin de combiner les faits issus des différentes bases et de trier les réponses en fonction de poids assignés. L'approche a été expérimentée sur des documents HTML et des bases de connaissances issues du Linked Open Data. Les résultats montrent que 63,3% des relations trouvées sont nouvelles avec une précision atteignant 62%.
Origine : Fichiers éditeurs autorisés sur une archive ouverte
Loading...