Différenciation de documents textes Arabe et Latin par filtre de Gabor
Résumé
Une des premières étapes dans le problème de la reconnaissance automatique de documents textes est l'identification de la langue. Dans cet article nous proposons une méthode d'identification de la langue qui traite le cas des écritures arabes et latines dans des documents imprimés ou manuscrits. Cette méthode est basée sur une analyse spatio-fréquentielle, en appliquant les filtres de Gabor, pour l'extraction des caractéristiques sous forme d'un vecteur de dimension 32. Ceci est effectuée après une normalisation du texte traité (correction d'inclinaison, normalisation d'interlignes et d'intermots,...). L'apprentissage est effectuée sur une base de 400 documents classés selon leur langue (arabe ou latine) et leur nature (imprimée ou manuscrite).
Domaines
Informatique
Origine : Fichiers produits par l'(les) auteur(s)
Loading...