Fouille de règles d'annotation partielles pour la reconnaissance des entités nommées

Ces dernières décennies, l'accroissement des volumes de données a rendu disponible une diversité toujours plus importante de types de contenus échangés (texte, image, audio, vidéo, SMS, tweet, données statistiques, spatiales, etc.). En conséquence, de nouvelles problématiques ont vu le jour, dont la recherche d'information au sein de données potentiellement bruitées. Dans cet article, nous nous penchons sur la reconnaissance d'entités nommées au sein de transcriptions (manuelles ou automatiques) d'émissions radiodiffusées et télévisuelles. À cet effet, nous mettons en oeuvre une approche originale par fouille de données afin d'extraire des motifs, que nous nommons règles d'annotation. Au sein d'un modèle, ces règles réalisent l'annotation automatique de transcriptions. Dans le cadre de la campagne d'évaluation Etape, nous mettons à l'épreuve le système implémenté, mXS, étudions les règles extraites et rapportons les performances du système. Il obtient de bonnes performances, en particulier lorsque les transcriptions sont bruitées.

Mots clés

Entités nommées Fouille de données Règles d'annotation

Domaines

Informatique et langage [cs.CL]

Fichier principal

2013_TALN_REN_MXS.pdf (445.81 Ko)

Origine : Fichiers éditeurs autorisés sur une archive ouverte

Jean-Yves Antoine : Connectez-vous pour contacter le contributeur

https://hal.science/hal-01016535

Soumis le : mardi 1 juillet 2014-18:09:24

Dernière modification le : vendredi 16 février 2024-18:16:04

Archivage à long terme le : mercredi 1 octobre 2014-11:30:36

Dates et versions

hal-01016535 , version 1 (01-07-2014)

Identifiants

HAL Id : hal-01016535 , version 1

Citer

Damien Nouvel, Jean-Yves Antoine, Nathalie Friburger, Arnaud Soulet. Fouille de règles d'annotation partielles pour la reconnaissance des entités nommées. TALN'2013, 20e conférence sur le Traitement Automatique des Langues Naturelles, Jun 2011, Les Sable d'Olonne, France. pp.421-444. ⟨hal-01016535⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-TOURS CNRS LIBDTLN LIFAT INSA-GROUPE INSA-CVL

88 Consultations

75 Téléchargements