Alignement de documents multilingues sans présupposé de parallélisme - Archive ouverte HAL Accéder directement au contenu
Thèse Année : 2011

Multilingual document alignment method without assumption of parallelism

Alignement de documents multilingues sans présupposé de parallélisme

Résumé

Today the works using multilingual documents are turning to the study of comparable texts even though all aspects of parallel documents have not been studied nor alignmentmethod locks raised, including their formatting and the cases of inversions and deletions at macro level.Thus, to date there is no tools to take benefit from this wealth of information, to extract resources as massively as envisaged, despite their usefulness both for translators and lexicologists. . . We present a method without assumption of parallelism between the different components of a multiple document.The basic idea of this work is: between two components of a multi-document, there are grains that maximize the parallelism, we call them multizones. They can cover several realities: document, series of paragraphs, paragraphs, proposals. . .Their boundaries can not be defined in an ad hoc way, it should be done in context and independently of languages. To this end, we combine several original processes: study each multiple document through a collection of multi-document, use the formatting of documents by direct processing of source or process repeated strings rather than words. The purpose of this work is twofold: matching and alignment, i.e. resource creation and document analysis.This method requires little supervision. Add a new language or change corpus of entry do not represent a significant cost.
Aujourd’hui les travaux exploitant des documents multilingues se tournent vers l’étude de textes comparables alors même que tous les aspects des documents parallèles n’ont pas été étudiés ni tous les verrous liés aux méthodes d’alignement levés, notamment leur mise en forme et les cas d’inversions et de suppressions au niveau sur-phrastique. Ainsi, nous ne disposons pas à ce jour d’outils permettant de valoriser cette mine d’informations, d’en extraire aussi massivement qu’envisagé des ressources pourtant utiles tant aux traducteurs qu’aux lexicologues. Nous présentons ici une méthode sans présupposé de parallélisme entre les différents volets d’un multidocument. L’idée essentielle de ces travaux est la suivante : entre deux volets d’un multidocument, il existe des grains qui maximisent le parallélisme, nous les appelons des multizones. Celles-ci peuvent recouvrir plusieurs réalités : documents, série de paragraphes, paragraphes, propositions. . . Ces multizones ne sont pas délimitables de façon ad hoc, il convient de le faire en contexte et de façon indépendante des langues. À ces fins, nous combinons plusieurs procédés originaux : étudier chaque multidocument au travers d’une collection de multidocuments, exploiter la mise en forme des documents par traitement direct du source ou encore traiter des chaînes de caractères répétées plutôt que des mots. Notre objectif est double : appariement et alignement, i.e. création de ressources et analyse de documents. Cette méthode requiert peu de supervision, l’ajout d’une nouvelle langue ou le changement de corpus d’entrée ne représentent pas un coût important.
Fichier principal
Vignette du fichier
these_charlotte_lecluze_2011.pdf (5.05 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-01075742 , version 1 (20-10-2014)

Identifiants

  • HAL Id : tel-01075742 , version 1

Citer

Charlotte Lecluze. Alignement de documents multilingues sans présupposé de parallélisme. Traitement du texte et du document. Université de Caen, 2011. Français. ⟨NNT : ⟩. ⟨tel-01075742⟩
264 Consultations
241 Téléchargements

Partager

Gmail Facebook X LinkedIn More