Reconnaissance de critères de comparabilité dans un corpus multilingue spécialisé - Archive ouverte HAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2009

Reconnaissance de critères de comparabilité dans un corpus multilingue spécialisé

Résumé

Notre objectif est d'automatiser la construction de corpus comparables spécialisés à partir du Web. La comparabilité se base sur trois niveaux : le domaine, le thème et le type de discours. Le domaine et le thème peuvent être filtrés grâce aux mots-clés utilisés lors de la recherche. Nous présentons dans cet article la reconnaissance automatique du type de discours dans des documents spécialisés français et japonais, qui nécessite une analyse linguistique poussée. Une analyse contrastive des documents nous permet de déterminer quelles informations paraissent discriminantes. En s'inspirant des travaux classiques de recherche d'information, nous créons une typologie robuste et linguistiquement motivée basée sur trois niveaux d'analyse : structurel, modal et lexical. Cette typologie nous permet d'apprendre des modèles de classification qui donnent de bons résultats, ce qui montre l'efficacité de cette typologie. Our goal is to automate the compilation of smart specialized comparable corpora. The comparability is based on three levels: domain, topic and type of discourse. Domain and topic can be filtered with the keywords used through web search. We present in this paper the automatic detection of the type of discourse in French and Japanese documents, which needs a wide linguistic analysis. A contrastive analysis of the documents leads us to specify which information is relevant to distinguish them. Referring to classical studies on information retrieval, we create a robust and linguistically motivated typology based on three analysis levels: structural, modal and lexical. This typology is used to learn classification models using shallow parsing. We obtain good results, that demonstrates the efficiency of this typology.
Fichier non déposé

Dates et versions

hal-00411269 , version 1 (26-08-2009)

Identifiants

  • HAL Id : hal-00411269 , version 1

Citer

Lorraine Goeuriot, Emmanuel Morin, Béatrice Daille. Reconnaissance de critères de comparabilité dans un corpus multilingue spécialisé. Conférence en Recherche d'Information et Applications (CORIA'09), May 2009, France. pp.33-47. ⟨hal-00411269⟩
77 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More