L’agrégation Sémantique Olap
Résumé: A l'heure actuelle les entrepôts de données et l'OLAP sont des technologies relativement bien maîtrisées quand il s'agit de données "simples". Cependant, l'avènement des données complexes (texte, image, son, vidéo, …) a remis en cause ce processus d'entreposage et d'analyse en ligne. Les opérateurs OLAP sont définis pour des données classiques et sont souvent inadaptés quand il s'agit de données complexes par exemple composées de textes, images, son ou vidéos. Avec les opérateurs OLAP standards, il est impossible de résumer des données textuelles ou des données images selon une fonction d'agrégation telle que la somme ou la moyenne. Les limites de l'OLAP ainsi que la spécificité des données complexes nécessitent une évolution ou adaptation de l'OLAP. Il devient nécessaire de : (1) prendre en compte la complexité des données dans leur modélisation multidimensionnelle et dans leur analyse; (2) créer une analyse en ligne adaptée aux données complexes avec des opérateurs adéquats; (3) faire évoluer l'OLAP vers une analyse sémantique des données. Une première solution a été d’associer l’OLAP à la fouille de données (data mining). Ce couplage a permis d’enrichir l’analyse en ligne par des opérateurs d’explication, de prédiction et a permis de commencer à étendre l’OLAP aux données complexes. Sachant que les données complexes contiennent entre autres du texte, des documents, nous pensons qu’une nouvelle piste de recherche pour l’analyse en ligne des données complexes est d’associer l’OLAP aux techniques de recherche d’information. L’objectif de la thèse est de travailler sur la combinaison OLAP – fouille de données – recherche d’information pour l'analyse en ligne des données textuelles. Pour l’analyse en ligne des documents textes, plusieurs problèmes seront abordés dans le cadre de la thèse : (1) les faits doivent avoir non seulement des dimensions classiques mais aussi une dimension textuelle. L’utilisateur doit aussi pouvoir naviguer sur la dimension textuelle avec une hiérarchie adaptée. (2) Une ou des mesures textuelles doivent permettre de résumer le contenu d’un document. La mesure textuelle doit être assortie d’une fonction d’agrégation adaptée. (3) Une matérialisation efficace des cubes contenant des documents et des mesures textuelles doit être étudiée. Plus précisément, l’objectif est de proposer des mesures adaptées aux données textuelles et s’adaptant au contexte puis de travailler sur des fonctions d’agrégation sémantique et dynamique. En prolongeant les travaux du laboratoire ERIC sur l’opérateur OPAC, cette nouvelle thèse devrait permettre de construire automatiquement la hiérarchie d’une dimension textuelle Cette construction pourrait se faire préalablement à l’analyse avec tous les faits contenus dans l’entrepôt ou se faire dynamiquement lors de la construction du cube et de l’analyse. D’un point de vue technique, les propositions conceptuelles et théoriques faites par le doctorant seront également développées au sein d’une plateforme logicielle dédiée à l’analyse en ligne des données complexes afin de proposer une application complète pour la constitution, la gestion et l’analyse des données textuelles. Cette application doit prendre en compte la nature des données, offrir une interaction avec les utilisateurs et impliquer ces derniers le plus possible dans le processus de l’analyse.
Mots-clès:
Nos services universitaires et académiques
Thèses-Algérie vous propose ses divers services d’édition: mise en page, révision, correction, traduction, analyse du plagiat, ainsi que la réalisation des supports graphiques et de présentation (Slideshows).
Obtenez dès à présent et en toute facilité votre devis gratuit et une estimation de la durée de réalisation et bénéficiez d'une qualité de travail irréprochable et d'un temps de livraison imbattable!


