Qualité Des Données Dans Un Data Warehouse
Résumé: Un Entrepôt de données est utilisé pour la prise de décisions dans l'entreprise par le biais de statistiques et de rapports réalisés via des outils de reporting. Son but est de fournir un ensemble de données servant à stocker d'énormes quantités de données, et qui sont mémorisées à partir de différentes sources. Pour cette raison, le problème de la non-qualité des données est posé. Il y aura un déduplication des données, Des données incomplètes, ou des valeurs nulles, ou des données ne sont pas efficaces …etc. Notre travail consiste à la suppression des données dupliquées. C’est une étape très importante dans le processus d'intégration de données hétérogènes. Nous allons intégrer l'Algorithme de déduplication des données similaires dans l'application "Talend Open Studio", qui est un produit d'intégration de données open source conçu pour combiner, convertir et mettre à jour des données dans divers endroits à travers une entreprise. Grâce à ce travail, nous allons pouvoir trouver une solution au problème de la duplication des données.A data warehouse for decision-making in the company through statistics and reports made through reporting tools, its purpose is to provide a set of data providing a single reference, For storing the data, For its ability to absorb and store huge amounts of data, And which are stored from different sources, For this reason, be non-quality data, there will be a data deduplication, Incomplete data, Or null values, Or data are not effective…. Our work for the process of removing duplicate data, And that is a very important step in the process of integration of heterogeneous data. We will integrate deduplication algorithm similar data in the application "Talend Open Studio", which is an open source integration product designed to combine data, convert and update data in various locations across an enterprise. with this process, we can solve the problem of data duplication.تستعمل مستودع البيانات في اتخاذ القرارات في الشركة، من خلال الإحصائيات والتقارير التي تتم من خلال أدوات إعداد التقارير، والغرض منو ىو توفير مجموعة من البيانات وتوفير مرجعية واحدة، لتخزين بياناتها، لقدرتو على استيعاب وتخزين كميات ىائلة من البيانات، والتي يتم تخزينها من مصادر مختلفة، لهذا السبب، تكون لا جودة للبيانات، وسوف يكون ىناك بيانات مكررة، اوغير مكتملة، أو الخالية، أو ناقصة، أو بيانات عير فعالة … الخ سنعمل على إزالة البيانات المكررة، وىي خطوة ىامة جدا في عملية تكامل البيانات غير المتجانسة. سنقوم بدمج خوارزمية إلغاء بيانات المتماثلة المكررة في تطبيق " Talend Open Studio "، وىو منتج يعمل على تكامل البيانات وىو مفتوح المصدر يهدف إلى جمع وتحويل وتحديث البيانات في مواقع مختلفة في المؤسسات )شركات(. مع ىذه العملية، يمكننا حل مشكلة البيانات المتكررة
Mots-clès:
Nos services universitaires et académiques
Thèses-Algérie vous propose ses divers services d’édition: mise en page, révision, correction, traduction, analyse du plagiat, ainsi que la réalisation des supports graphiques et de présentation (Slideshows).
Obtenez dès à présent et en toute facilité votre devis gratuit et une estimation de la durée de réalisation et bénéficiez d'une qualité de travail irréprochable et d'un temps de livraison imbattable!