Compression de textes en langue naturelle

Claude Martineau

Thèse Année : 2001

Compression of texts in natural language

Compression de textes en langue naturelle

(1)

Claude Martineau

Fonction : Auteur
PersonId : 1497
IdHAL : claude-martineau

Laboratoire d'Informatique Gaspard-Monge

Résumé

In this Ph. D. Thesis we investigate several data compression methods on text in natural language. Our study is focused on algorithms that use the word as the basic units, they are usually called word-based text compression algorithms. We have developed algorithms that allow to divide original size of the text by an average factor of 3. 5 and keeps (medium an index) direct access to the compressed form of the text. The set of words of a text, (the lexicon) is not a priori known. An efficient compression of the text requires an efficient compression of its lexicon. For this purpose, we have developed a compact representation of the lexicon that allows, by the application of Markov chain based compression algorithms, to get very high compression rates. The early algorithms dedicated to compress text in natural language have been elaborated to process very large text databases in which the size of the lexicon is very small versus the data one. Our algorithms can be apply also to every day text size (from some fifty Ko up to some Mo) for which the size of the lexicon is an important part of the size of the text

Nous étudions dans cette thèse les méthodes de compression de données dans le cadre de leur utilisation pour le traitement de textes en langue naturelle. Nous nous intéressons particulièrement aux algorithmes utilisant les mots comme unité de base. Nous avons développé des algorithmes qui permettent de diviser la taille originale du texte par un coefficient de l'ordre de 3,5 en conservant l'accès direct (via un index) au texte sous forme comprimée. L'ensemble des mots qui composent un texte (le lexique) n'est pas, (a priori) connu. Compresser efficacement un texte nécessite donc de compresser également le lexique des mots qui le constitue. Dans ce but, nous avons mis au point une méthode de représentation des lexiques qui permet, en lui appliquant une compression à base de chaînes de Markov, d'obtenir des taux de compression très importants. Les premiers algorithmes dédiés à la compression de textes en langue naturelle ont été élaborés dans le but d'archiver de volumineuses bases de données textuelles, pouvant atteindre plusieurs dizaines de gigaoctets, pour lesquelles la taille du lexique est très inférieure à celle des données. Nos algorithmes peuvent s'appliquer aussi aux textes de taille usuelle (variant d'une cinquantaine de Ko à quelques Mo) pour lesquels la taille du lexique représente une part importante de celle du texte

Mots clés

Lexicons Natural Language Data compression Text compression

Compression de textes Lexiques Langue naturelle Compression de données

Domaines

Informatique et langage [cs.CL] Linguistique

Fichier principal

Compression_de_textes_en_langue_naturelle.pdf (1.44 Mo)

Origine : Fichiers produits par l'(les) auteur(s)

Claude Martineau : Connectez-vous pour contacter le contributeur

https://hal.science/tel-02076650

Soumis le : vendredi 22 mars 2019-11:45:06

Dernière modification le : jeudi 28 mars 2024-03:26:58

Archivage à long terme le : dimanche 23 juin 2019-14:11:13

Dates et versions

tel-02076650 , version 1 (22-03-2019)

Identifiants

HAL Id : tel-02076650 , version 1

Citer

Claude Martineau. Compression de textes en langue naturelle. Informatique et langage [cs.CL]. Université de Marne-la-Vallée, 2001. Français. ⟨NNT : 2001MARN0123⟩. ⟨tel-02076650⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

ENPC CNRS LIGM_LINGU PARISTECH LIGM LIGM_MOA UNIV-EIFFEL RISC_THESE_HDR LIGM_ADA JSE2024

173 Consultations

609 Téléchargements

Compression of texts in natural language

Compression de textes en langue naturelle

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager