Différenciation de documents textes Arabe et Latin par filtre de Gabor

Sofiene Haboubi; Samia Maddouri; Noureddine Ellouze

Pré-Publication, Document De Travail Année : 2007

Différenciation de documents textes Arabe et Latin par filtre de Gabor

(1) , (1) , (1)

Sofiene Haboubi

Fonction : Auteur
PersonId : 833865

Laboratoire des Systèmes et du Traitement du Signal [ENIT]

Samia Maddouri

Fonction : Auteur

Laboratoire des Systèmes et du Traitement du Signal [ENIT]

Noureddine Ellouze

Fonction : Auteur

Laboratoire des Systèmes et du Traitement du Signal [ENIT]

Résumé

Une des premières étapes dans le problème de la reconnaissance automatique de documents textes est l'identification de la langue. Dans cet article nous proposons une méthode d'identification de la langue qui traite le cas des écritures arabes et latines dans des documents imprimés ou manuscrits. Cette méthode est basée sur une analyse spatio-fréquentielle, en appliquant les filtres de Gabor, pour l'extraction des caractéristiques sous forme d'un vecteur de dimension 32. Ceci est effectuée après une normalisation du texte traité (correction d'inclinaison, normalisation d'interlignes et d'intermots,...). L'apprentissage est effectuée sur une base de 400 documents classés selon leur langue (arabe ou latine) et leur nature (imprimée ou manuscrite).

Mots clés

différenciation multilingues analyse spatio-fréquentielle filtre de Gabor

Domaines

Informatique

Fichier principal

taima07-1.pdf (492.15 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Sofiene Haboubi : Connectez-vous pour contacter le contributeur

https://hal.science/hal-00166346

Soumis le : vendredi 3 août 2007-17:33:38

Dernière modification le : mercredi 28 octobre 2020-09:52:03

Archivage à long terme le : vendredi 9 avril 2010-00:20:54

Dates et versions

hal-00166346 , version 1 (03-08-2007)

Identifiants

HAL Id : hal-00166346 , version 1

Citer

Sofiene Haboubi, Samia Maddouri, Noureddine Ellouze. Différenciation de documents textes Arabe et Latin par filtre de Gabor. 2007. ⟨hal-00166346⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

94 Consultations

553 Téléchargements

Différenciation de documents textes Arabe et Latin par filtre de Gabor

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Partager