Les Entrepots De Textes (text Warehousing)
2015
Thèse de Doctorat

Université Saad Dahleb - Blida

L
Lamia, Oukid

Résumé: Les technologies d'entreposage de données et d'analyse en ligne (On-Line Analytical Processing OLAP) ont largement fait leurs preuves pour l'analyse de données structurées, mais elles sont inadaptées pour l'analyse des données textuelles, faute d'outils et de méthodes adaptés. Pour analyser en ligne des données textuelles, il est donc nécessaire de faire évoluer les cubes de données classiques vers des cubes de textes tout en proposant de nouveaux opérateurs permettant l'agrégation de ces données. En e et, les opérateurs d'agrégation classiques tels que somme, moyenne, min, max, etc., ont montré leur e cacité pour l'analyse en ligne des données numériques, mais ils sont inadaptés pour l'analyse des données textuelles. Nous proposons une solution pour l'analyse en ligne de données textuelles en s'inspirant de techniques issues des domaines de la recherche d'information et de la fouille de textes. Nous proposons un modèle de cube textuel basé sur le contexte nommé CXT-Cube (Contextual Text Cube model ), qui comporte plusieurs dimensions contextuelles, chacune représente un paramètre contextuel lié aux données textuelles. Nous dé nissons deux types de dimensions contextuelles : les dimensions sémantiques et les dimensions méta-données. Les attributs de chaque dimension sémantique sont regroupés dans une hiérarchie de concepts, extraite à partir d'une ontologie de domaine utilisée comme une ressource externe. Une dimension méta-données représente un type de méta-donnée associé aux données textuelles. Notre cube de textes comprend une mesure d'analyse textuelle qui s'appuie à la fois sur un modèle vectoriel adapté à l'OLAP et sur une technique de propagation de pertinence. D'autre part, nous introduisons deux opérateurs d'agrégation permettant des analyses en ligne sur les cubes de textes, ainsi qu'une méthode d'enrichissement de requêtes d'analyse a n de délivrer des analyses personnalisées aux décideurs. Le premier opérateur d'agrégation, baptisé ORank(OLAP-Rank ), permet d'agréger les données textuelles dans un environnement OLAP sous forme d'un classement (Rank), en s'appuyant sur une adaptation du modèle vectoriel à l'analyse en ligne. Le deuxième est un opérateur d'agrégation par catégorisation, nommé TLabel (Text Label ), qui permet d'agréger les données textuelles en plusieurs classes de documents. À chaque classe est associée une étiquette (Label ) qui représente le contenu sémantique des données textuelles de la classe. Cela grâce à une adaptation des techniques de fouille de textes à l'OLAP. A n de valider nos contributions, nous avons e ectué une étude expérimentale sur un corpus de CVs. Les résultats retournés par nos opérateurs d'agrégation montrent l'intérêt de notre solution pour l'analyse en ligne de données textuelles et donnent une perspective de naissance d'une nouvelle génération de systèmes décisionnels.

Mots-clès:

contexte
enrichissement de requétes
Nos services universitaires et académiques

Thèses-Algérie vous propose ses divers services d’édition: mise en page, révision, correction, traduction, analyse du plagiat, ainsi que la réalisation des supports graphiques et de présentation (Slideshows).

Obtenez dès à présent et en toute facilité votre devis gratuit et une estimation de la durée de réalisation et bénéficiez d'une qualité de travail irréprochable et d'un temps de livraison imbattable!

Comment ça marche?
Nouveau
Si le fichier est volumineux, l'affichage peut échouer. Vous pouvez obtenir le fichier directement en cliquant sur le bouton "Télécharger".


footer.description

Le Moteur de recherche des thèses, mémoires et rapports soutenus en Algérie

Doctorat - Magister - Master - Ingéniorat - Licence - PFE - Articles - Rapports


©2025 Thèses-Algérie - Tous Droits Réservés
Powered by Abysoft