Technique Basee Hits/svm Pour La Reduction Et La Ponderation Des Caracteristiques Des Pages Web
2017
Thèse de Doctorat
Biologie Et Sciences De La Nature Et De La Vie

Université Mohamed Khider - Biskra

M
MEADI, MOHAMED NADJIB

Résumé: Le nombre de pages Web publiées sur le World Wide Web est estimé des centaines de millions. La fouille de ces pages demande un effort intellectuel incroyable qui dépasse les capacités humaines. Pour ce problème, il est conseillé d'utiliser de classificateurs automatiques qui permettent d'organiser et d'obtenir des informations de ces importantes ressources. En général, les classificateurs automatique de pages Web doivent gérer des millions de pages web, des dizaines de milliers de caractéristiques (généralement des termes) et des centaines de catégories. La plupart des classificateurs utilisent le modèle vectoriel pour représenter l'ensemble des pages Web. Ce modèle produit des vecteurs des caractéristiques de taille importante, ce qui va ralentir le temps de traitement et augmenter les demandes de ressources. Par conséquent, il y a une demande croissante pour atténuer ces problèmes en réduisant la dimension des données d'entrée sans dégrader les performances des classificateurs. La littérature compte plusieurs travaux de réduction de dimensions, mais le problème est que ces propositions importent des techniques qui consomment beaucoup de temps qui peuvent influencer sur le temps de l'apprentissage des classificateurs. Dans cette thèse, nous proposons une approche novatrice qui améliore les classificateurs de la page Web en réduisant la dimension des données d'entrée c-à-d sélection de caractéristiques, en sélectionnant les plus importantes. Nous avons présenté l'importance d'une caractéristiques par une valeur qui s'appelle " valeur d'autorité " Cette dernière est l'une de deux sorties de l'algorithme HITS (Hypertext Induced Topic Search). Cet algorithme est très connu dans le domaine de l'analyse des liens où il est utilisé pour classer les pages Web selon leur importance dans le corpus d'entrée. Pour valider notre approche, nous l'avons comparée avec deux algorithmes de sélection des caractéristiques, qui sont chi-square et information gain, et nous sommes arrivé à des résultats très encourageants qui confirment la possibilité d'utiliser notre proposition comme un sélecteur des caractéristiques. Nous proposons aussi d'utiliser le vecteur des autorités pour calculer les poids des caractéristiques restantes. Nous avons évalué la précision de notre approche en la comparant au classificateur TFIDF en tant qu'un modèle de pondération et nous sommes arrivés à des résultats très compétitifs. Ces résultats confirment que notre approche peut être utilisée comme un schéma de pondération. D'après les expérimentations que nous avons effectué sur plusieurs ensembles des pages Web, nous avons remarqué que notre approche réduit considérablement le temps nécessaire pour la classification

Mots-clès:

Nos services universitaires et académiques

Thèses-Algérie vous propose ses divers services d’édition: mise en page, révision, correction, traduction, analyse du plagiat, ainsi que la réalisation des supports graphiques et de présentation (Slideshows).

Obtenez dès à présent et en toute facilité votre devis gratuit et une estimation de la durée de réalisation et bénéficiez d'une qualité de travail irréprochable et d'un temps de livraison imbattable!

Comment ça marche?
Nouveau
Si le fichier est volumineux, l'affichage peut échouer. Vous pouvez obtenir le fichier directement en cliquant sur le bouton "Télécharger".


footer.description

Le Moteur de recherche des thèses, mémoires et rapports soutenus en Algérie

Doctorat - Magister - Master - Ingéniorat - Licence - PFE - Articles - Rapports


©2025 Thèses-Algérie - Tous Droits Réservés
Powered by Abysoft