Traitement automatique d'un corpus de récits de voyages pyrénéens : Analyse syntaxique, sémantique et pragmatique dans le cadre de la théorie des types

Anaïs Lefeuvre; Richard Moot; Christian Retoré

Communication Dans Un Congrès Année : 2012

Traitement automatique d'un corpus de récits de voyages pyrénéens : Analyse syntaxique, sémantique et pragmatique dans le cadre de la théorie des types

(1, 2) , (1) , (1)

1
2

Anaïs Lefeuvre

Fonction : Auteur
PersonId : 21863
IdHAL : lefeuvre-halftermeyer-anais
ORCID : 0000-0003-1069-191X
IdRef : 184554446

Laboratoire Bordelais de Recherche en Informatique

Linguistic signs, grammar and meaning: computational logic for natural language

Richard Moot

Fonction : Auteur
PersonId : 738689
IdHAL : richard-moot
ORCID : 0000-0002-6450-1600
IdRef : 164827560

Laboratoire Bordelais de Recherche en Informatique

Christian Retoré

Fonction : Auteur
PersonId : 578
IdHAL : christian-retore
ORCID : 0000-0002-2401-9158
IdRef : 076006913

Laboratoire Bordelais de Recherche en Informatique

Résumé

Cet article décrit les étapes qui composent notre analyse du discours, en partant du texte brut, et pour en produire une représentation sémantique dans le cadre de la Discourse Representation Theory, désormais DRT (Kamp and Reyle, 1993). Une chaîne complète de traitement est proposée et testée sur le corpus Itipy, "Itinéraires Pyrénéens", lequel a été proposé par la médiathèque de Pau. Le premier but applicatif consiste à attacher un lieu aux portions de texte narrant une action dans ce lieu. Nous exploitons alors ce corpus de récits de voyage du XIXème siècle dans l'objectif d'extraire automatiquement les itinéraires décrits et afin d'indexer les portions de texte prenant effectivement pour décors les lieux géographiques en question. Notre outil, Grail est un parser pour grammaire logique de types avec un ensemble restreint de règles fixes et utilisant un lexique riche. Tout d'abord, la première phase a consisté en l'acquisition de la grammaire sur un corpus annoté (Paris 7 Treebank). Ce corpus nous a permis d'obtenir les informations grammaticales propres aux unités du lexique de la langue française présentes dans le corpus, le lexique produit ne contient donc pas la totalité des mots du français et contient plusieurs catégories pour les entrées les plus fréquentes. Dans la chaine de traitement, la méthode d'attribution de la catégorie intègre une approche statistique : lors- qu'un mot est absent du lexique, l'analyse propose une catégorie ou lorsqu'il présente plusieurs catégories possibles, elle sélectionne la plus appropriée. Chaque mot du texte est taggé, puis supertaggé en fonction des autres unités se trouvant dans son contexte proche (la phrase). Le supertagger propose plusieurs formules qui correspondent à une analyse syntaxique partielle pour chaque phrase du texte dans le cadre des grammaires catégorielles, et plus précisément du calcul de Lambek. S'ensuit une étape de combinaison de toutes les analyses partielles pour donner l'analyse globale. La structure obtenant la meilleure probabilité étant sélectionnée, on garde cette structure comme organisation du calcul de la représentation sémantique en fonction des unités qui la composent. On associe alors à chaque mot son λ-terme à partir du lexique sémantique cette fois et dont la formule correspond à celle présente dans le lexique grammatical pour cette même entrée (Moot, 2010). Le λ -terme pour chaque unité sémantique est saisi à la main dans le style de la λ -DRT. La représentation sémantique étant produite automatiquement à partir de l'analyse syntaxique, nous obtenons une représentation logique sémantique bien formée. La dimension pragmatique quant à elle ne peut être reléguée à un plan inférieur dans l'interprétation du discours. En effet, une analyse du discours impose de fait une interaction entre la sémantique des unités de langue dont on doit interpréter le sens en discours et la prise en compte de la dimension pragmatique de ce qui est dit. Notre approche s'inspire de l'approche de Busquets et al. (2001), "une théorie de l'interprétation des discours doit être aussi en fait une théorie de la sémantique, de la pragmatique, et de leur interaction, c'est-à-dire une théorie de l'interface pragmatique-sémantique" . Certains phénomènes sémantiques restent cependant difficiles à traiter, certains cas de glissement de sens montrent qu'une flexibilité dans le typage doit être permise, alors que dans les cas les plus courants le typage doit être rigide pour éviter une repré- sentation inappropriée. Nous donnerons quelques exemples à propos et proposons donc afin d'améliorer les résultats de notre chaîne traitement de traiter ces phénomènes par l'affinement des λ -termes du lexique dans le cadre du système F, λ -calcul d'ordre supérieur. Nous détaillerons ici notre corpus et nos objectifs applicatifs quant à celui-ci, nous présenterons les étapes de traitement du discours, commençant par l'acquisition de la grammaire du français sur corpus annoté, puis l'analyse syntaxique dans le cadre des grammaires catégorielles. Nous expliquerons plus amplement l'interface syntaxe-sémantique dans la théorie des types logiques permettant la construction de nos repré- sentations sémantiques en λ-DRT. Nous présenterons le système F et notre traitement des phénomènes discursifs mettant en jeu l'interaction sémantique-pragmatique puis nous présenterons les perspectives de ce travail.

Mots clés

récit de voyage grammaire catégorielle théorie des types interface sémantique-pragmatique interface syntaxe-sémantique compositionalité

Domaines

Théorie et langage formel [cs.FL] Informatique et langage [cs.CL] Linguistique

Fichier principal

CMLFLMR.pdf (103.79 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Anaïs Lefeuvre : Connectez-vous pour contacter le contributeur

https://hal.science/hal-00750750

Soumis le : lundi 12 novembre 2012-11:57:06

Dernière modification le : lundi 5 juin 2023-16:52:12

Archivage à long terme le : mercredi 13 février 2013-03:43:59

Dates et versions

hal-00750750 , version 1 (12-11-2012)

Identifiants

HAL Id : hal-00750750 , version 1

Citer

Anaïs Lefeuvre, Richard Moot, Christian Retoré. Traitement automatique d'un corpus de récits de voyages pyrénéens : Analyse syntaxique, sémantique et pragmatique dans le cadre de la théorie des types. 3e Congrès Mondial de Linguistique Française, Jul 2012, Lyon, France. pp. 2485-2497. ⟨hal-00750750⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS INRIA LABRI INRIA2

443 Consultations

275 Téléchargements

Traitement automatique d'un corpus de récits de voyages pyrénéens : Analyse syntaxique, sémantique et pragmatique dans le cadre de la théorie des types

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager