Konsolidacja hurtowni danych i technologii business intelligence za pomocą AWS

12 sierpnia 2022

Konsolidacja hurtowni danych i technologii business intelligence za pomoca AWS

Organizacje od wielu lat wykorzystują workloady hurtowni danych i tzw. business intelligence (DWBI) do wspierania podejmowania decyzji biznesowych. Workloady te są przenoszone na platformę Amazon Web Services (AWS), aby wykorzystać zalety chmury AWS. Jednak są one tworzone przy użyciu narzędzi i technologii wielu dostawców, a klient ponosi ciężar kosztów administracyjnych.

Ten post zawiera wskazówki dotyczące architektury umożliwiające konsolidację wielu technologii DWBI w usługach AWS Managed Services, aby pomóc zmniejszyć koszty administracyjne, zapewnić łatwość operacyjną i wydajność biznesową. Badane są dwa scenariusze:

  1. Bazy transakcyjne, które istnieją już w AWS
  2. Bazy transakcyjne, które są obecne w centrum danych typu on-premise

Wyzwania stojące przed organizacją

Organizacje są zaangażowane w zarządzanie wieloma technologiami DWBI z powodu przejęć, fuzji i procesu lift-and-shift workloadów. Workloady te wykorzystują narzędzia wyodrębniania, przekształcania i ładowania (ETL) do odczytywania danych relacyjnych z nadrzędnych transakcyjnych baz danych, przetwarzania ich i przechowywania w hurtowni danych. Następnie workloady wykorzystują narzędzia business intelligence do generowania cennych informacji i prezentowania ich użytkownikom w postaci raportów i dashboardów.

Te technologie DWBI są zazwyczaj instalowane i utrzymywane na własnym serwerze. Rysunek 1 pokazuje zwiększone koszty administracyjne organizacji, ale także pokazuje wyzwania w utrzymaniu ogólnej wiedzy zespołu.Konsolidacja hurtowni danych i technologii business intelligence za pomocą AWS

Rysunek 1. Workload DWBI z wieloma narzędziami

Dlatego organizacje chcą skonsolidować wykorzystanie technologii i nadal wspierać ważne funkcje biznesowe.

Scenariusz 1

Jak wiemy, trzy główne funkcje workstreamu DWBI to:

  • ETL danych przy użyciu narzędzia
  • Przechowywanie/zarządzanie danymi w hurtowni danych
  • Generowanie informacji z danych za pomocą Business Intelligence

Każdą z tych funkcji można sprawnie wykonać za pomocą usługi AWS. Na przykład AWS Glue może być używany do ETL, Amazon Redshift do hurtowni danych i Amazon QuickSight do business intelligence.

Za pomocą wspomnianych usług AWS organizacje będą mogły skonsolidować wykorzystanie technologii DWBI. Organizacje również będą mogły szybko dostosować się do tych usług, ponieważ ich zespół inżynierów może łatwiej wykorzystać swoją wiedzę DWBI za pomocą tych usług. Na przykład wykorzystanie wiedzy SQL w zadaniach AWS Glue z SprakSQL, w zapytaniach Amazon Redshift i w dashboardach Amazon QuickSight.

Rysunek 2 przedstawia przeprojektowaną architekturę z Rysunku 1 przy użyciu usług AWS. W tej architekturze funkcje ETL są konsolidowane w AWS Glue. Crawler AWS Glue służy do automatycznego katalogowania metadanych tabeli źródłowej i docelowej; następnie zadania AWS Glue ETL używają tych katalogów do odczytu danych ze źródła i zapisu do celu (hurtownia danych). Zadania AWS Glue również stosują niezbędne przekształcenia (takie jak łączenie, filtrowanie i agregowanie) danych przed ich zapisem. Dodatkowo trigger AWS Glue jest używany do planowania wykonywania zadań. Alternatywnie, do planowania zadań można użyć AWS Managed Workflows for Apache Airflow.

Konsolidacja hurtowni danych i technologii business intelligence za pomocą AWS2

Rysunek 2. Skonsolidowany workload ze źródłem w AWS

Podobnie funkcja hurtowni danych jest skonsolidowana z Amazon Redshift. Amazon Redshift służy do przechowywania i organizowania wzbogaconych danych, a także wymusza odpowiednią kontrolę dostępu do danych zarówno dla workloadów, jak i użytkowników.

Wreszcie, funkcje Business Intelligence są konsolidowane za pomocą Amazon QuickSight. Usługa ta służy do tworzenia niezbędnych dashboardów, które pozyskują dane z Amazon Redshift i stosują złożoną logikę biznesową do tworzenia niezbędnych wykresów potrzebnych do wglądu biznesowego. Służy również do wdrażania niezbędnych ograniczeń dostępu do dashboardów i danych.

Scenariusz 2

W sytuacji, gdy źródłowe bazy danych znajdują się w centrum danych typu on-premises, ogólne rozwiązanie będzie podobne do scenariusza 1, z dodatkowym krokiem polegającym na ciągłym przenoszeniu danych z lokalnej bazy danych do bucketu  Amazon Simple Storage Service (Amazon S3). Przenoszenie danych może być efektywnie obsługiwane przez usługę AWS Database Migration Service (AWS DMS).

Aby źródłowa baza danych była dostępna dla AWS DMS, należy nawiązać połączenie między chmurą AWS a siecią on-premise. W oparciu o wymagania dotyczące wydajności i przepustowości organizacja może wybrać usługę AWS Direct Connect lub usługę AWS Site-to-Site VPN, aby bezpiecznie przenosić dane. Na potrzeby tego przykładu, rozważamy usługę AWS Direct Connect.

Na rysunku 3 zadanie AWS DMS jest używane do wykonania pełnego załadowania, a następnie przechwycenia danych w celu ciągłego przenoszenia danych do bucketu S3. W tym scenariuszu AWS Glue służy do katalogowania i odczytywania danych z bucketu S3. Pozostała część przepływu danych jest taka sama, jak wspomniana w scenariuszu 1.

Konsolidacja hurtowni danych i technologii business intelligence za pomocą AWS3

Skalowanie

Obie zaktualizowane architektury zapewniają niezbędne skalowanie:

  • Funkcja automatycznego skalowania może być używana do zwiększania lub zmniejszania zasobów zadania AWS Glue ETL
  • Funkcja skalowania może być wykorzystana do obsługi praktycznie nieograniczonej liczby jednoczesnych użytkowników i zapytań w Amazon Redshift
  • Zasoby Amazon QuickSight (serwer sieciowy, silnik Amazon QuickSight i SPICE) są automatycznie skalowane zgodnie z projektem

Bezpieczeństwo, monitorowanie i audyt

Aktualizowane architektury zapewniają niezbędne bezpieczeństwo, wykorzystując kontrolę dostępu, szyfrowanie danych w stanie spoczynku i podczas przesyłania, monitorowanie oraz audytowania.

  • Usługa AWS Key Management Service może służyć do generowania kluczy niezbędnych do szyfrowania danych w spoczynku.
  • Usługa AWS CloudTrail może być używana do śledzenia aktywności użytkowników i wykorzystania API do kontroli oraz rozwiązywania problemów.
  • Usługa Amazon CloudWatch może być używana do monitorowania usługi Amazon Redshift i logów generowanych przez zadania AWS Glue.
  • Usługa Amazon Simple Notification Service może być używana do wysyłania powiadomień z chmury AWS. Na przykład status wykonania zadań AWS Glue, powiadomienie o awarii danych Amazon QuickSight SPICE.
  • Usługa AWS Identity and Access Management służy do zarządzania dostępem grup i użytkowników na koncie organizacji AWS.

Podsumowanie

W tym poście omówiliśmy, w jaki sposób można wykorzystać AWS Glue, Amazon Redshift i Amazon QuickSight do konsolidacji technologii DWBI. Omówiliśmy również, w jaki sposób architektura może pomóc organizacji w tworzeniu skalowalnego, bezpiecznego workloadu z automatycznym skalowaniem, kontrolą dostępu, monitorowaniem logów i audytem aktywności.

Dodatkowe źródła informacji:

Źródło: AWS

Case Studies
Referencje

Rekomendujemy firmę Hostersi Sp. z o.o. jako odpowiedzialnego i wykwalifikowanego partnera, dbającego o wysoki poziom obsługi klienta. Zlecenie zostało wykonane profesjonalnie, według najlepszych standardów, w bardzo krótkim czasie.

Paweł Rokicki
Managing Director
W skrócie o nas
Specjalizujemy się w dostarczaniu rozwiązań IT w obszarach projektowania infrastruktury serwerowej, wdrażania chmury obliczeniowej, opieki administracyjnej i bezpieczeństwa danych.