Multilingual document alignment method without assumption of parallelism
Alignement de documents multilingues sans présupposé de parallélisme
Résumé
Today the works using multilingual documents are turning to the study of comparable
texts even though all aspects of parallel documents have not been studied nor
alignmentmethod locks raised, including their formatting and the cases of inversions and
deletions at macro level.Thus, to date there is no tools to take benefit from this wealth of
information, to extract resources as massively as envisaged, despite their usefulness both
for translators and lexicologists. . .
We present a method without assumption of parallelism between the different components
of a multiple document.The basic idea of this work is: between two components
of a multi-document, there are grains that maximize the parallelism, we call them multizones.
They can cover several realities: document, series of paragraphs, paragraphs,
proposals. . .Their boundaries can not be defined in an ad hoc way, it should be done
in context and independently of languages. To this end, we combine several original
processes: study each multiple document through a collection of multi-document, use
the formatting of documents by direct processing of source or process repeated strings
rather than words.
The purpose of this work is twofold: matching and alignment, i.e. resource creation
and document analysis.This method requires little supervision. Add a new language or
change corpus of entry do not represent a significant cost.
Aujourd’hui les travaux exploitant des documents multilingues se tournent vers l’étude de textes comparables alors même que tous les aspects des documents parallèles n’ont pas été étudiés ni tous les verrous liés aux méthodes d’alignement levés, notamment leur mise en forme et les cas d’inversions et de suppressions au niveau sur-phrastique. Ainsi, nous ne disposons pas à ce jour d’outils permettant de valoriser cette mine d’informations, d’en extraire aussi massivement qu’envisagé des ressources pourtant utiles tant aux traducteurs qu’aux lexicologues.
Nous présentons ici une méthode sans présupposé de parallélisme entre les différents volets d’un multidocument. L’idée essentielle de ces travaux est la suivante : entre deux volets d’un multidocument, il existe des grains qui maximisent le parallélisme, nous les appelons des multizones. Celles-ci peuvent recouvrir plusieurs réalités : documents, série de paragraphes, paragraphes, propositions. . . Ces multizones ne sont pas délimitables de façon ad hoc, il convient de le faire en contexte et de façon indépendante des langues. À ces fins, nous combinons plusieurs procédés originaux : étudier chaque multidocument au travers d’une collection de multidocuments, exploiter la mise en forme des documents par traitement direct du source ou encore traiter des chaînes de caractères répétées plutôt que des mots.
Notre objectif est double : appariement et alignement, i.e. création de ressources et analyse de documents. Cette méthode requiert peu de supervision, l’ajout d’une nouvelle langue ou le changement de corpus d’entrée ne représentent pas un coût important.
Domaines
Traitement du texte et du document
Loading...