Différenciation de documents textes Arabe et Latin par filtre de Gabor - Archive ouverte HAL Accéder directement au contenu
Pré-Publication, Document De Travail Année : 2007

Différenciation de documents textes Arabe et Latin par filtre de Gabor

Résumé

Une des premières étapes dans le problème de la reconnaissance automatique de documents textes est l'identification de la langue. Dans cet article nous proposons une méthode d'identification de la langue qui traite le cas des écritures arabes et latines dans des documents imprimés ou manuscrits. Cette méthode est basée sur une analyse spatio-fréquentielle, en appliquant les filtres de Gabor, pour l'extraction des caractéristiques sous forme d'un vecteur de dimension 32. Ceci est effectuée après une normalisation du texte traité (correction d'inclinaison, normalisation d'interlignes et d'intermots,...). L'apprentissage est effectuée sur une base de 400 documents classés selon leur langue (arabe ou latine) et leur nature (imprimée ou manuscrite).

Domaines

Informatique
Fichier principal
Vignette du fichier
taima07-1.pdf (492.15 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-00166346 , version 1 (03-08-2007)

Identifiants

  • HAL Id : hal-00166346 , version 1

Citer

Sofiene Haboubi, Samia Maddouri, Noureddine Ellouze. Différenciation de documents textes Arabe et Latin par filtre de Gabor. 2007. ⟨hal-00166346⟩
94 Consultations
553 Téléchargements

Partager

Gmail Facebook X LinkedIn More