Identification des reprises et interprétation automatique des expressions pronominales dans des textes en français - Archive ouverte HAL Accéder directement au contenu
Thèse Année : 2001

Referential links identification and automatic interpretation of pronominal expressions in French texts

Identification des reprises et interprétation automatique des expressions pronominales dans des textes en français

Résumé

English abstract not available
Le travail présenté dans la thèse a été réalisé dans le cadre d'une Convention industrielle de formation par la recherche en entreprise (CIFRE) au Centre de recherche européen de Xerox (XRCE), le laboratoire universitaire associé étant le Groupe de recherche dans les industries de la langue (GRIL) de l'université Blaise-Pascal à Clermont-Ferrand.
La thèse est organisée en deux parties: nous présentons, dans une première partie, une étude générale des « phénomènes de reprises », et, dans une deuxième partie, l'implantation d'un système d'interprétation automatique des pronoms personnels et déterminants possessifs de troisième personne. La thèse a en outre pour objectif d'illustrer une méthode de travail qui exige que les descriptions linguistiques que nous proposerons puissent être et soient évaluées, c'est-à-dire confrontées à la réalité observable des textes.
La première partie de la thèse a pour double objectif de présenter une étude générale des phénomènes de reprise et d'illustrer une méthodologie, qui met l'accent sur la nécessité de tester les hypothèses par rapport au réel observable.
Le premier chapitre est consacré à la délimitation des phénomènes de reprise. Il y a reprise lorsqu'entre deux expressions d'un même texte existe un lien sémantique caractérisé en ayant recours à une relation d'identité. La notion de reprise recouvre la relation de coréférence, mais également d'autres relations. Elle recouvre également certains phénomènes d'anaphore, mais, contrairement à cette dernière, elle ne met pas en jeu une caractérisation du phénomène par la forme des expressions. La caractérisation des différents types de liens de reprise fait l'objet du chapitre 2.
Ces deux chapitres ont pour vocation de spécifier un système d'organisation des données linguistiques: on définit les objets qui devront être observés, et comment ils devront l'être. Étant donné un texte quelconque et les définitions des chapitres 1 et 2, un observateur quelconque doit pouvoir spécifier quels sont les liens de reprise à l'intérieur de ce texte.
Les chapitres 3 et 4 abordent la problématique de l'évaluation. Le chapitre 3 est plus particulièrement dédié à la définition de critères et de mesures d'évaluation pour les phénomènes relevant de la coréférence au sens strict. Des critères et mesures d'évaluation pour la coréférence existaient préalablement à cette thèse; nous en proposons de nouveaux, en les justifiant.
Pour attester l'existence de conditions d'évaluation externes à un système d'hypothèses, il est nécessaire de montrer que l'observation des phénomènes visés est inter-subjective. Le chapitre 4 présente les résultats d'une expérience visant à évaluer cette inter-subjectivité sur l'observation des différentes relations à distance qui peuvent être observées entre les expressions d'un même texte. Cinq étudiants du GRIL ont noté les relations qu'ils observaient sur trois articles de journaux, observations que nous comparons avec les observations que nous-mêmes avions faites sur ces textes. L'existence des conditions d'évaluation dépendra du degré d'accord entre les observations faites par les étudiants et nos propres observations.
Si la première partie de la thèse donne une vue générale des phénomènes de reprise, la seconde partie a un caractère plus applicatif: on y décrit l'implantation d'un système d'interprétation automatique des pronoms personnels et déterminants possessifs de troisième personne dans les textes en français.
Le chapitre 5 décrit notre objectif pour cette seconde partie de la thèse, l'environnement de travail et la méthodologie adoptée.
Le chapitre 6 présente les approches possibles du problème que nous voulons résoudre. On recense d'abord les différentes sources d'information qui peuvent entrer en jeu dans les mécanismes d'interprétation des expressions pronominales (syntaxe, sémantique, etc.), puis on décrit quelques-uns des principaux systèmes d'interprétation automatique des pronoms, par rapport auxquels nous mettons notre propre système en perspective.
Le chapitre 7 décrit les données sur lesquelles seront exprimées nos hypothèses sur l'interprétation des pronoms. Il s'agit essentiellement d'une représentation de la structure syntaxique des phrases, telle que produite par l'analyseur syntaxique développé au Centre de recherche de Xerox (XRCE).
Nos hypothèses sur l'interprétation des expressions pronominales retenues ont été implantées dans le formalisme de l'outil XIP, développé à XRCE. La description de ce formalisme fait l'objet du chapitre 8.
Notre système d'hypothèses sur l'interprétation des expressions pronominales est présenté plus spécifiquement dans les chapitres 9 (organisation globale du système), 10 et 11 (description précise des hypothèses). Il est ensuite évalué dans le chapitre suivant. Le système donne une interprétation correcte pour 75 % des expressions pronominales visées, évaluation effectuée sur un ensemble de 417 expressions apparaissant dans un recueil d'articles de presse traitant du domaine de la finance.
Fichier principal
Vignette du fichier
these_ftrouilleux.pdf (2.06 Mo) Télécharger le fichier

Dates et versions

tel-01152394 , version 1 (16-05-2015)

Licence

Paternité - Pas d'utilisation commerciale - Partage selon les Conditions Initiales

Identifiants

  • HAL Id : tel-01152394 , version 1

Citer

François Trouilleux. Identification des reprises et interprétation automatique des expressions pronominales dans des textes en français. Linguistique. Université Blaise-Pascal, Clermont-Ferrand, 2001. Français. ⟨NNT : ⟩. ⟨tel-01152394⟩
344 Consultations
100 Téléchargements

Partager

Gmail Facebook X LinkedIn More