Techniques D’apprentissage Automatique Pour La Reconnaissance Des Formes : Application À La Reconnaissance De L’écriture Arabe Manuscrite
Résumé: L’objectif de ce mémoire est d’élaborer un système pour la catégorisation de documents manuscrits arabes, une problématique très peu abordée, voir pas du tout, dans la littérature. La catégorisation consiste à détecter le thème abordé dans un document à travers l’examen des mots contenus dans celui-ci. Afin d’extraire les mots des documents, nous avons mis en place un système de reconnaissance de mots manuscrits arabes. L’approche utilisée pour la reconnaissance est une approche analytique à base des modèles de Markov cachés (HMM) avec segmentation implicite : les images de mots sont découpées de manière implicite par l’utilisation de fenêtres glissantes qui permettent de transformer les images en séquences de vecteurs de caractéristiques. Les caractères des mots sont modélisés par des HMMs gaussiens, et les mots sont reconstruits ensuite par concaténation des modèles de caractères qui les composent. La catégorisation des documents est effectuée sur les transcriptions issues de la reconnaissance; un sous-ensemble de mots est sélectionné d’abord pour représenter les documents par des vecteurs de caractéristiques, ces vecteurs sont soumis par la suite à un classifieur de type k-ppv qui fait la catégorisation. Les résultats obtenus montrent que notre système de catégorisation obtient des performances satisfaisantes sur la base de documents construite spécialement pour cette étude.
Mots-clès:
Nos services universitaires et académiques
Thèses-Algérie vous propose ses divers services d’édition: mise en page, révision, correction, traduction, analyse du plagiat, ainsi que la réalisation des supports graphiques et de présentation (Slideshows).
Obtenez dès à présent et en toute facilité votre devis gratuit et une estimation de la durée de réalisation et bénéficiez d'une qualité de travail irréprochable et d'un temps de livraison imbattable!