Linguistique computationnelle : entre sciences cognitives et traitement automatique des langues

Maxime Amblard 1 Greg Kobele 2 Christian Retoré 3
1 SEMAGRAMME - Semantic Analysis of Natural Language
Inria Nancy - Grand Est, LORIA - NLPKD - Department of Natural Language Processing & Knowledge Discovery
3 SIGNES - Linguistic signs, grammar and meaning: computational logic for natural language
INRIA Futurs, Université Sciences et Technologies - Bordeaux 1, École Nationale Supérieure d'Électronique, Informatique et Radiocommunications de Bordeaux (ENSEIRB), Université Bordeaux Montaigne, CNRS - Centre National de la Recherche Scientifique : UMR5800
Résumé : Sciences cognitives (SC) Traitement automatique des langues (TAL) Buts : Description du processus langagier humain • mécanismes de production (du sens aux sons) • mécanismes d'analsye et de compréhension (des sons au sens) Réalisation d'outils • similaires au comportement humain (IHM) • utiles mais non humains (recherche sur Internet) Modèles • grammaires formelles, machines virtuelles (automates) • logique de description et de raisonnement • sémantique formelle et philosophie du langage • grammaires régulières ou algébriques • statistiques • système d'information, représentation des connaissances Conception du langage : • un phénomène biologique/psychologque individuel • un ensemble fini de mécanismes décrivant l'infini potentiel des dires (compétence) • limité par les capacités de la mémoire à court terme (performance) • un phénomène collectif • un ensemble fini de productions langagières (copus) Succès: description adéquate (prédiction) et explicative: expression, compréhension, acquisition fonctionalité: couverture, efficacité, pertinence pour d'autres applications Limites problème de passage à l'échelle résultats souvent inexploitables par d'autres applications Intérêt : Leurs particularités peuvent être appliquées pour deux points : 1. la syntaxe des langues possède une structure plus riche que celle recon-nue par les grammaires hors-contextes, donc l'utilisation de représenta-tions linguistiques permet de représenter directement des analyses qui ne pouvaient être atteinte que statistiquement. 2. les représentations cognitives peuvent permettre de décider localement d'une meilleure solution. Les applications du traitement automatique des langues ont deux aspects : 1. un noyau génératif (une grammaire hors-contexte) 2. une suite d'outils spécifiques qui de manière stochastique cherche une représentation optimale du lexique pour un petit fragment de l'ensemble des productions. Exemple d'architecture mixte TAL/SC extraction automatique des paragraphes géographiquement pertinents dans un grand corpus régional ... et puis je me dirigerai vers le sud jusqu'à trouver le pic sur ma gauche... Géo-localisation de l!itinéraire trouver des textes traitant de cet itinéraire retourner à l!utilisateur les passages concernant l!itinéraire Conclusion constat: • objectifs différents • manque de communication TAL / SC idée pour dépasser les limites actuelles: utilisation raisonnée de modèles cognitifs linguistiques pour • améliorer les applications • tester les performances algorithmiques des modèles. (cf. l'amélioration de la compression d'image par incorporation de structures cognitives) References [ManningSchutze 99] Manning C. D. et Schütze H. (1999), Foundations of Statistical Natural Language Pro-cessing. [Moot 06] Moot R. (2006), Automated extraction of type-logical supertags from the spoken Dutch corpus. In The complexity of Lexical Descriptions and its Relevance to NLP: A Supertagging Approach. [Pollock 97] Pollock J.-Y. (1997), Langage et Cognition: la programme minimaliste de la grammaire générative. [Retore 05] Retoré C. (2005), Syntaxe et traitement automatique des langues. In F. Lambert et H. Nolke, editors, La syntaxe au coeur de la grammaire: mélanges offerts à Claude Muller. [Schmalz 05] Schmalz M. S. (2005), On the convergence of image compression and object recognition. In Proceedings of the 43rd Annual Association for Computing Machinery Southeast Conference.
Document type :
Poster communications
Liste complète des métadonnées

https://hal.archives-ouvertes.fr/hal-01079258
Contributor : Maxime Amblard <>
Submitted on : Friday, October 31, 2014 - 4:34:35 PM
Last modification on : Tuesday, December 18, 2018 - 4:38:01 PM
Document(s) archivé(s) le : Monday, February 2, 2015 - 4:40:49 PM

Identifiers

  • HAL Id : hal-01079258, version 1

Citation

Maxime Amblard, Greg Kobele, Christian Retoré. Linguistique computationnelle : entre sciences cognitives et traitement automatique des langues. ARCo, Mar 2006, Bordeaux, France. 2006. 〈hal-01079258〉

Share

Metrics

Record views

395

Files downloads

889