Les Ngrammes Dans La Catégorisation Automatique De Textes Arabes
2009
Mémoire de Magister
Informatique

Université 8 Mai 1945 - Guelma

L
Legrini, Samira

Résumé: La catégorisation automatique de textes est un domaine de recherche en plein essor, en raison de l’explosion de la quantité d’information disponible sous format électronique, et la difficulté d’accéder à l’information pertinente parmi toutes celles qui sont accessibles. Son principal enjeu est de rendre une application informatique capable d’assigner d’une façon autonome une catégorie à un document en se basant sur son contenu. Pour décrire le contenu des documents, la quasi-totalité des systèmes actuels se base sur la représentation sac de mots en raison de sa simplicité. Néanmoins avec une telle représentation le sens de termes dans la majorité des cas reste ambigu, de plus la description de certains concepts nécessite l’utilisation de quelques mots pris simultanément, mais pas séparément. Dans ce cas, l’utilisation des mots simple pour décrire ces concepts va engendrer une ambigüité sémantique L’objectif de ce mémoire est de proposer une approche qui tente de réduire cette ambigüité et d’améliorer les performances des systèmes de catégorisation de textes arabes en se basant sur des descripteurs plus informatifs et plus discriminants que les mots. L’idée de base de cette approche consiste à bénéficier des avantages liés à utilisation des Ngrammes et plus précisément les unigrames et les bi-grammes ayant un apport informationnel élevé pour la représentation des documents, et de tester leur influence sur les performances globales des systèmes de catégorisation de textes arabes. Afin d’évaluer cette approche, nous utilisons comme classifieur les machine à vecteur support (SVM), et comme base d’apprentissage un corpus en langue arabe. Notons que le choix des SVM est dû essentiellement à leur robustesse ainsi à leur capacité à traiter des espaces de données de grande dimensionnalité.

Mots-clès:

catégorisation automatique de textes
langue arabe
n-gramme
svm
Nos services universitaires et académiques

Thèses-Algérie vous propose ses divers services d’édition: mise en page, révision, correction, traduction, analyse du plagiat, ainsi que la réalisation des supports graphiques et de présentation (Slideshows).

Obtenez dès à présent et en toute facilité votre devis gratuit et une estimation de la durée de réalisation et bénéficiez d'une qualité de travail irréprochable et d'un temps de livraison imbattable!

Comment ça marche?
Nouveau
Si le fichier est volumineux, l'affichage peut échouer. Vous pouvez obtenir le fichier directement en cliquant sur le bouton "Télécharger".
Logo Université


Documents et articles similaires:


footer.description

Le Moteur de recherche des thèses, mémoires et rapports soutenus en Algérie

Doctorat - Magister - Master - Ingéniorat - Licence - PFE - Articles - Rapports


©2025 Thèses-Algérie - Tous Droits Réservés
Powered by Abysoft