Summarization Des Documents Dans Les Cubes De Textes
Résumé: Les systèmes décisionnels ont émergé dans la dernière décennie autour de l’utilisation des entrepôts de données (Data warehouses) et l’analyse en ligne (OLAP, On-Line Analytical Processing). Bien que ces technologies gagnent de plus en plus en populari-té au sein des organisations, seuls 20% des informations extraites des données, dites struc-turées, peuvent être traitées par un système OLAP. En effet, les 80% restants de l’information sont contenus dans des documents non structurés ou semi-structurés. Il est admis que les textes constituent l’essentiel de ces données, car il est le moyen le plus ré-pandu pour exprimer les informations et les connaissances. Avec la croissance explosive des données textuelles, aussi bien dans les organisations que sur le web, il devient néces-saire d’aller au-delà de l’analyse en ligne des données structurées, pour prendre en charge également les données textuelles, non structurées, et couvrir ainsi les 100% des données d’un système d’information. Or, la prise en charge des données textuelles par les systèmes décisionnels constitue un défi pour deux principaux problèmes. Le premier est relatif à l’intégration et au stockage des informations issues de documents hétérogènes. Le second problème consiste à déterminer les informations à extraire des documents textuels pour servir aux différents processus de restitution, notamment l’analyse OLAP. L’agrégation des données textuelles constitue l’un des challenges que doit relever les processus OLAP. En effet, avec les outils OLAP classiques, il est impossible d’agréger des données textuelles selon des fonctions arithmétiques. L’environnement OLAP de données textuelles, a besoin de nouvelles techniques d'agrégation pour ce type de données. Nos propositions se résument en quatre fonctions de summarization, utilisant des techniques du domaine de la fouille de texte. L’objectif de la summarization est d’exploiter la mesure textuelle du cube de textes pour résumer le contenu des documents textuels sous une nouvelle forme appréhendable par le décideur. Ces fonctions sont : Classes, Clusters, Top_Keyphrases et Summary. La fonction Classes résume les documents textuels en offrant au décideur un ensemble d’agrégats sous forme de n classes. Pour obtenir ces classes, nous utilisons la technique de catégorisation de texte par le contenu. La fonction Clusters résume les documents textuels en k groupes, pour cela la classification non supervisée (clustering) est utilisée. La fonction Top_Keyphrases permet l’agrégation d’un ensemble de documents en les thèmes les plus représentatifs. Enfin, la fonction Summary fournit un résumé sous forme des phrases les plus pertinentes extraites des documents à agréger. Nos propositions ont pour objectif, d’aller au-delà des analyses quantitatives sur les documents textuels où un comptage des instances des documents est effectué, et permettre des analyses qualitatives et sémantiques sur le contenu textuel des documents.
Mots-clès:
Nos services universitaires et académiques
Thèses-Algérie vous propose ses divers services d’édition: mise en page, révision, correction, traduction, analyse du plagiat, ainsi que la réalisation des supports graphiques et de présentation (Slideshows).
Obtenez dès à présent et en toute facilité votre devis gratuit et une estimation de la durée de réalisation et bénéficiez d'une qualité de travail irréprochable et d'un temps de livraison imbattable!