Caractérisation des discours scientifiques et vulgarisés en français, japonais et russe - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2007

Caractérisation des discours scientifiques et vulgarisés en français, japonais et russe

Résumé

L'objectif principal de notre travail consiste à étudier la notion de comparabilité des corpus et nous abordons cette question dans un contexte multilingue en cherchant à distinguer les documents scientifiques et vulgarisés. Nous travaillons séparément sur des corpus composés de documents du domaine médical dans trois langues à forte distance linguistique (le français, le japonais et le russe). Dans notre approche, les documents sont caractérisés dans chaque langue selon leur thématique et une typologie discursive qui se situe à trois niveaux de l'analyse des documents: structurel, modal et lexical. Le typage des documents est implémenté avec deux algorithmes d'apprentissage (SVMlight et C4.5). L'évaluation des résultats montre que la typologie discursive proposée est portable d'une langue à l'autre car elle permet en effet de distinguer les deux discours. Nous constatons néanmoins des performances très variées selon les langues, les algorithmes et les types de caractéristiques discursives.
Fichier non déposé

Dates et versions

hal-00411273 , version 1 (26-08-2009)

Identifiants

  • HAL Id : hal-00411273 , version 1

Citer

Lorraine Goeuriot, Natalia Grabar, Béatrice Daille. Caractérisation des discours scientifiques et vulgarisés en français, japonais et russe. 14e conférence sur le Traitement Automatique des Langues Naturelles (TALN 2007), Jun 2007, France. pp.93-102. ⟨hal-00411273⟩
80 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More