Les Entitées Nommées, de la linguistique au TAL : Statut théorique et méthodes de désambiguïsation

Résumé : Le traitement des entités nommées fait aujourd’hui figure d’incontournable en Traitement Automatique des Langues. Apparue au milieu des années 1990 à la faveur des dernières conférences muc (Message Understanding Conferences), la tâche de reconnaissance et de catégorisation des noms de personnes, de lieux, d’organisations, etc. apparaît en effet comme fondamentale pour diverses applications participant de l’analyse de contenu et nombreux sont les travaux se consacrant à sa mise en oeuvre, obtenant des résultats plus qu’honorables. Fort de ce succès, le traitement des entités nommées s’oriente désormais vers de nouvelles perspectives avec, entre autres, la désambiguïsation et une annotation enrichie de ces unités. Ces nouveaux défis rendent cependant d’autant plus cruciale la question du statut théorique des entités nommées, lequel n’a guère été discuté jusqu’à aujourd’hui. Deux axes de recherche ont par conséquent été investis durant ce travail de thèse : nous avons, d’une part, tenté de proposer une définition des entités nomm ées et, d’autre part, expérimenté des méthodes de désambiguïsation. A la suite d’un état des lieux de la tâche de reconnaissance de ces unités et d’un exposé des difficultés pouvant se présenter à l’occasion d’une telle entreprise, il fut avant tout nécessaire d’examiner, d’un point de vue méthodologique, comment aborder la question de la définition des entités nommées. La démarche adoptée invita à se tourner du cˆoté de la linguistique, avec les noms propres et les descriptions définies, puis du cˆoté du traitement automatique, ce parcours visant au final à proposer une définition tenant compte tant des aspects du langage que des capacit és et exigences des systèmes informatiques. La suite du mémoire rend compte d’un travail davantage expérimental, avec l’exposé d’une méthode d’annotation fine tout d’abord, de résolution de métonymie enfin. Ces travaux, combinant approche symbolique et approche distributionnelle, rendent compte de la possibilité d’une double annotation (catégories générales et catégories fines) et d’une désambiguïsation des entités nommées.
Type de document :
Thèse
Informatique et langage [cs.CL]. Paris Diderot University, 2008. Français
Liste complète des métadonnées

Littérature citée [114 références]  Voir  Masquer  Télécharger

https://hal.archives-ouvertes.fr/tel-01639190
Contributeur : Maud Ehrmann <>
Soumis le : lundi 20 novembre 2017 - 12:57:49
Dernière modification le : mercredi 22 novembre 2017 - 01:22:37
Document(s) archivé(s) le : mercredi 21 février 2018 - 16:02:17

Fichier

2008-065.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : tel-01639190, version 1

Collections

Citation

Maud Ehrmann. Les Entitées Nommées, de la linguistique au TAL : Statut théorique et méthodes de désambiguïsation. Informatique et langage [cs.CL]. Paris Diderot University, 2008. Français. 〈tel-01639190〉

Partager

Métriques

Consultations de la notice

364

Téléchargements de fichiers

268