Noyaux Rationnels Pour La Classification Des Données Non Structurées : Documents Web En Arabe
Résumé: La classification de documents a pour objectif d'assigner, d'une manière efficace, un document à une des classes d'un ensemble prédéfini de classes. Pour la langue arabe, cette tâche présente des particularités liées à la langue. Des opérations telles que la racinisation et l'extraction de radicaux doivent se faire d'une manière efficace. La représentation des documents sous forme vectorielle permet d'appliquer des algorithmes conventionnels d'apprentissage. Cependant, elle engendre une perte d'information liées à l'ordre et la co-occurrence des mots et phrases. Une solution à ce problème consiste à utiliser des N-grammes (avec N > 1) à la place de termes simples isolés, ou modèle de sac-à-mots. Cette approche se fonde sur l'hypothèse qu'un ensemble de termes peut capter la similarité entre documents mieux que des termes simples isolés. Notre thèse s'inscrit dans le cadre de la classification de documents en arabe. L'objectif de notre travail a été d'une part, de proposer une technique efficace d'extraction de radicaux des mots. D'autre part, de proposer une plateforme unifiée pour analyser l'effet de l'extraction de radicaux et la taille des N-grammes sur la performance des systèmes de classification de documents en arabe. Les résultats ont montré que l'utilisation des transducteurs pour l'extraction de radicaux constitue un choix naturel, ont montré que l'utilisation des transducteurs pour l'extraction de radicaux constitue un choix naturel, vue leur capacité à modéliser la forme flexionnelle des mots en langues arabe. De plus, l'extraction de racines améliore légèrement la qualité des classificateurs en termes d'exactitude, rappel et F1, mais elle diminue légèrement la précision. Les classificateurs basés sur le noyau 3-grammes ont atteint les meilleurs résultats. Pour le niveau N-gramme terme, les résultats ont montré que l'insertion des trous n'améliore pas les performances.
Mots-clès:
Nos services universitaires et académiques
Thèses-Algérie vous propose ses divers services d’édition: mise en page, révision, correction, traduction, analyse du plagiat, ainsi que la réalisation des supports graphiques et de présentation (Slideshows).
Obtenez dès à présent et en toute facilité votre devis gratuit et une estimation de la durée de réalisation et bénéficiez d'une qualité de travail irréprochable et d'un temps de livraison imbattable!