Do wakacji wciąż daleko, jednak nic nie stoi na przeszkodzie, aby wybrać się na wycieczkę nad jezioro danych (ang. Data Lake). Jeziora danych stają się ostatnimi czasy coraz popularniejszym tematem. Mnogość gotowych serwisów i narzędzi sprawia, że o wiele łatwiej możemy stać się właścicielem takiego jeziora i czerpać z niego różne korzyści. Warto jednak zaznajomić się z podstawami tejże tematyki, aby nie zaliczyć skoku na zbyt głęboką wodę. W trakcie prezentacji dowiecie się jak sprawić sobie takie jezioro na AWS oraz jak nie dopuścić, by przekształciło się wkrótce w bagno danych (ang. Data Swamp). Poznacie również takie serwisy, jak AWS Lake Formation, AWS Glue, czy Amazon Athena.
2. PIERWSZA WYCIECZKA NAD JEZIORO (DANYCH)
O MNIE
‣ SOFTWARE ARCHITECT
W THE SOFTWARE HOUSE
‣ RICHTSCHEID@GMAIL.COM
‣ LINKEDIN.COM/IN/RICHTSCHEID
‣ GITHUB.COM/BAROGRAF
MARIUSZ RICHTSCHEID
3. PIERWSZA WYCIECZKA NAD JEZIORO (DANYCH)
AGENDA
‣ TROCHĘ TEORII
‣ PRZEGLĄD DOSTĘPNYCH SERWISÓW
‣ PRZYKŁADOWA ARCHITEKTURA
‣ OMÓWIENIE SERWISÓW PLUS PRZYKŁAD
IMPLEMENTACJI
‣ USZANOWANKO PODSUMOWANKO
5. PIERWSZA WYCIECZKA NAD JEZIORO (DANYCH)
JEZIORO – NATURALNY ŚRÓDLĄDOWY ZBIORNIK WODNY,
KTÓREGO WYSTĘPOWANIE UWARUNKOWANE JEST
ISTNIENIEM ZAGŁĘBIENIA, W KTÓRYM MOGĄ GROMADZIĆ
SIĘ WODY POWIERZCHNIOWE, ORAZ ZASILANIEM
PRZEWYŻSZAJĄCYM STRATY WODY WSKUTEK
PAROWANIA LUB ODPŁYWU.
6. PIERWSZA WYCIECZKA NAD JEZIORO (DANYCH)
WG ANGIELSKIEJ WIKIPEDII
‣ SYSTEM LUB REPOZYTORIUM DANYCH PRZECHOWYWANYCH W NATURALNEJ,
NIEPRZETWORZONEJ FORMIE
‣ UJEDNOLICONE ŹRÓDŁO ZAWIERAJĄCE DANE SUROWE, JAK RÓWNIEŻ PO
TRANSFORMACJI
‣ MOŻE ZAWIERAĆ DANE USTRUKTURYZOWANE (BAZY DANYCH, PLIKI CSV) LUB
NIEUSTRUKTURYZOWANE (DOKUMENTY PDF, OBRAZKI, FILMY)
9. PIERWSZA WYCIECZKA NAD JEZIORO (DANYCH)
KILKA DODATKOWYCH PYTAŃ
‣ CZY POTRZEBUJĘ SKŁADOWAĆ OGROMNE ILOŚCI DANYCH W CHMURZE
OBLICZENIOWEJ? (PETABAJTY)
‣ CZY POTRZEBUJĘ ŁĄCZYĆ DANE Z WIELU RÓŻNYCH ŹRÓDEŁ W CELU DOKONANIA
LEPSZYCH ANALIZ? (BAZY DANYCH, PLIKI, STRUMIENIE)
‣ CZY POTRZEBUJĘ DOKONYWAĆ NOWYCH ANALIZ NA DANYCH HISTORYCZNYCH?
11. PIERWSZA WYCIECZKA NAD JEZIORO (DANYCH)
CZEGO POTRZEBUJEMY?
‣ MIEJSCE NA PRZECHOWYWANIE OBIEKTÓW I
PLIKÓW
‣ MECHANIZM PRZENOSZĄCY I KATALOGUJĄCY DANE
‣ ZARZĄDZANIE UPRAWNIENIAMI
‣ WYKONYWANIE ZAPYTAŃ
‣ WIZUALIZACJA ZAPYTAŃ
15. WYZWALACZ
AWS S3
AWS RDS
AWS
DYNAMODB
AWS KINESIS
ŹRÓDŁA DANYCH NARZĘDZIA BI
TABLEAU
QUICKSIGHT
METABASE
DANE
METADANE
JEZIORO DANYCH / AWS LAKE FORMATION
AWS S3 AWS ATHENA
DATA CATALOG
CRAWLERS
JOBS
ZDARZENIE
AWS GLUE
17. PIERWSZA WYCIECZKA NAD JEZIORO (DANYCH)
CECHY
‣ MAGAZYN OBIEKTOWY - KLUCZ, WARTOŚĆ
‣ NIELIMITOWANE MIEJSCE, PLIKI DO 5TB
‣ TRWAŁOŚĆ DANYCH NA POZIOMIE 99.999999999%
‣ 3500 OPERACJI ZAPISU I 5500 OPERACJI ODCZYTU NA SEKUNDĘ DLA DANEGO
PREFIKSU
‣ NIELIMITOWANA LICZBA PREFIKSÓW
20. PIERWSZA WYCIECZKA NAD JEZIORO (DANYCH)
CECHY
‣ SERWIS W MODELU SERVERLESS DO ODKRYWANIA, EKSTRAKCJI, TRANSFORMACJI I
ŁADOWANIA DANYCH (ETL, ELT)
‣ OFERUJE WIELE GOTOWYCH ROZWIĄZAŃ: CONNECTORS, CRAWLERS, JOBS,
TRIGGERS, WORKFLOWS, BLUEPRINTS
‣ MOŻLIWOŚĆ GENEROWANIA (GLUE STUDIO) I PISANIA SKRYPTÓW W PYTHON LUB
SCALA
‣ POD SPODEM UŻYWA APACHE SPARK
22. PIERWSZA WYCIECZKA NAD JEZIORO (DANYCH)
POTRZEBNE KROKI
‣ KONFIGURACJA GLUE CONNECTORA
‣ ZDEFINIOWANIE I URUCHOMIENIE GLUE CRAWLERA
‣ NAPISANIE I URUCHOMIENIE SKRYPTU GLUE JOB
• GLUE STUDIO
• KOD
43. PIERWSZA WYCIECZKA NAD JEZIORO (DANYCH)
CECHY
‣ MODEL SERVERLESS
‣ URUCHAMIANIE I ŁĄCZENIE ZAPYTAŃ SQL NA WIELU ŹRÓDŁACH DANYCH (S3,
MONGODB, POSTGRESQL I INNE)
‣ 5$ ZA 1TB PRZESKANOWANYCH DANYCH
‣ POD SPODEM WYKORZYSTUJE PRESTO
‣ BRAK WIZUALIZACJI ZAPYTAŃ, KIEPSKI UI
46. PIERWSZA WYCIECZKA NAD JEZIORO (DANYCH)
CECHY
‣ NARZĘDZIE BI DO URUCHAMIANIA ANALIZ I GENEROWANIA WYKRESÓW
‣ MOŻE SŁUŻYĆ JAKO „FRONTEND” DO AWS ATHENA
‣ DOSTĘPNE PŁATNIE W CHMURZE LUB ZA DARMO ON-PREMISE (OBRAZ
DOCKEROWY)
‣ BRAK OFICJALNEJ WTYCZKI DO AWS ATHENA W WERSJI CHMUROWEJ
47. PIERWSZA WYCIECZKA NAD JEZIORO (DANYCH)
HTTPS://GITHUB.COM/DACORT/METABASE-ATHENA-DRIVER
48.
49.
50. PIERWSZA WYCIECZKA NAD JEZIORO (DANYCH)
PODSUMOWANKO
‣ WARTO POZNAĆ
DOSTĘPNE USŁUGI
‣ ŁATWO ZACZĄĆ
DZIĘKI GOTOWYM
SERWISOM
‣ TRUDNO UTRZYMAĆ
W PORZĄDKU
‣ LEPIEJ ZACZĄĆ OD
MNIEJSZEJ
FUNKCJONALNOŚCI
‣ I STOPNIOWO
WPROWADZAĆ
AUTOMATYZACJĘ