Noyaux Rationnels Pour La Classification Des Données Non Structurées : Documents Web En Arabe
2017
Autre
Informatique

Université Amar Telidji - Laghouat

N
NEHAR , Attia
C
CHERROUN Hadda

Résumé: La classification de documents a pour objectif d'assigner, d'une manière efficace, un document à une des classes d'un ensemble prédéfini de classes. Pour la langue arabe, cette tâche présente des particularités liées à la langue. Des opérations telles que la racinisation et l'extraction de radicaux doivent se faire d'une manière efficace. La représentation des documents sous forme vectorielle permet d'appliquer des algorithmes conventionnels d'apprentissage. Cependant, elle engendre une perte d'information liées à l'ordre et la co-occurrence des mots et phrases. Une solution à ce problème consiste à utiliser des N-grammes (avec N > 1) à la place de termes simples isolés, ou modèle de sac-à-mots. Cette approche se fonde sur l'hypothèse qu'un ensemble de termes peut capter la similarité entre documents mieux que des termes simples isolés. Notre thèse s'inscrit dans le cadre de la classification de documents en arabe. L'objectif de notre travail a été d'une part, de proposer une technique efficace d'extraction de radicaux des mots. D'autre part, de proposer une plateforme unifiée pour analyser l'effet de l'extraction de radicaux et la taille des N-grammes sur la performance des systèmes de classification de documents en arabe. Les résultats ont montré que l'utilisation des transducteurs pour l'extraction de radicaux constitue un choix naturel, ont montré que l'utilisation des transducteurs pour l'extraction de radicaux constitue un choix naturel, vue leur capacité à modéliser la forme flexionnelle des mots en langues arabe. De plus, l'extraction de racines améliore légèrement la qualité des classificateurs en termes d'exactitude, rappel et F1, mais elle diminue légèrement la précision. Les classificateurs basés sur le noyau 3-grammes ont atteint les meilleurs résultats. Pour le niveau N-gramme terme, les résultats ont montré que l'insertion des trous n'améliore pas les performances.

Mots-clès:

Nos services universitaires et académiques

Thèses-Algérie vous propose ses divers services d’édition: mise en page, révision, correction, traduction, analyse du plagiat, ainsi que la réalisation des supports graphiques et de présentation (Slideshows).

Obtenez dès à présent et en toute facilité votre devis gratuit et une estimation de la durée de réalisation et bénéficiez d'une qualité de travail irréprochable et d'un temps de livraison imbattable!

Comment ça marche?
Nouveau
Si le fichier est volumineux, l'affichage peut échouer. Vous pouvez obtenir le fichier directement en cliquant sur le bouton "Télécharger".


footer.description

Le Moteur de recherche des thèses, mémoires et rapports soutenus en Algérie

Doctorat - Magister - Master - Ingéniorat - Licence - PFE - Articles - Rapports


©2025 Thèses-Algérie - Tous Droits Réservés
Powered by Abysoft