Pierwsza wycieczka nad jezioro (danych)

1. MARIUSZ RICHTSCHEID GLIWICE, 23.02.2022 PIERWSZA WYCIECZKA NAD JEZIORO (DANYCH)

2. PIERWSZA WYCIECZKA NAD JEZIORO (DANYCH) O MNIE ‣ SOFTWARE ARCHITECT  W THE SOFTWARE HOUSE ‣ RICHTSCHEID@GMAIL.COM ‣ LINKEDIN.COM/IN/RICHTSCHEID ‣ GITHUB.COM/BAROGRAF MARIUSZ RICHTSCHEID

3. PIERWSZA WYCIECZKA NAD JEZIORO (DANYCH) AGENDA ‣ TROCHĘ TEORII ‣ PRZEGLĄD DOSTĘPNYCH SERWISÓW ‣ PRZYKŁADOWA ARCHITEKTURA ‣ OMÓWIENIE SERWISÓW PLUS PRZYKŁAD IMPLEMENTACJI ‣ USZANOWANKO PODSUMOWANKO

4. CZYM JEST JEZIORO DANYCH WG POLSKIEJ WIKIPEDII?

5. PIERWSZA WYCIECZKA NAD JEZIORO (DANYCH) JEZIORO – NATURALNY ŚRÓDLĄDOWY ZBIORNIK WODNY, KTÓREGO WYSTĘPOWANIE UWARUNKOWANE JEST ISTNIENIEM ZAGŁĘBIENIA, W KTÓRYM MOGĄ GROMADZIĆ SIĘ WODY POWIERZCHNIOWE, ORAZ ZASILANIEM PRZEWYŻSZAJĄCYM STRATY WODY WSKUTEK PAROWANIA LUB ODPŁYWU.

6. PIERWSZA WYCIECZKA NAD JEZIORO (DANYCH) WG ANGIELSKIEJ WIKIPEDII ‣ SYSTEM LUB REPOZYTORIUM DANYCH PRZECHOWYWANYCH W NATURALNEJ, NIEPRZETWORZONEJ FORMIE ‣ UJEDNOLICONE ŹRÓDŁO ZAWIERAJĄCE DANE SUROWE, JAK RÓWNIEŻ PO TRANSFORMACJI ‣ MOŻE ZAWIERAĆ DANE USTRUKTURYZOWANE (BAZY DANYCH, PLIKI CSV) LUB NIEUSTRUKTURYZOWANE (DOKUMENTY PDF, OBRAZKI, FILMY)

7. BAGNA DANYCH (ANG. DATA SWAMP)

8. CZY JEST MI TO POTRZEBNE?

9. PIERWSZA WYCIECZKA NAD JEZIORO (DANYCH) KILKA DODATKOWYCH PYTAŃ ‣ CZY POTRZEBUJĘ SKŁADOWAĆ OGROMNE ILOŚCI DANYCH W CHMURZE OBLICZENIOWEJ? (PETABAJTY) ‣ CZY POTRZEBUJĘ ŁĄCZYĆ DANE Z WIELU RÓŻNYCH ŹRÓDEŁ W CELU DOKONANIA LEPSZYCH ANALIZ? (BAZY DANYCH, PLIKI, STRUMIENIE) ‣ CZY POTRZEBUJĘ DOKONYWAĆ NOWYCH ANALIZ NA DANYCH HISTORYCZNYCH?

10. PIERWSZY KROK TO ROZPOZNANIE DOSTĘPNYCH USŁUG

11. PIERWSZA WYCIECZKA NAD JEZIORO (DANYCH) CZEGO POTRZEBUJEMY? ‣ MIEJSCE NA PRZECHOWYWANIE OBIEKTÓW I PLIKÓW ‣ MECHANIZM PRZENOSZĄCY I KATALOGUJĄCY DANE ‣ ZARZĄDZANIE UPRAWNIENIAMI ‣ WYKONYWANIE ZAPYTAŃ ‣ WIZUALIZACJA ZAPYTAŃ

14. PRZYKŁADOWA ARCHITEKTURA

15. WYZWALACZ AWS S3 AWS RDS AWS DYNAMODB AWS KINESIS ŹRÓDŁA DANYCH NARZĘDZIA BI TABLEAU QUICKSIGHT METABASE DANE METADANE JEZIORO DANYCH / AWS LAKE FORMATION AWS S3 AWS ATHENA DATA CATALOG CRAWLERS JOBS ZDARZENIE AWS GLUE

16. GDZIE BĘDZIEMY TRZYMAĆ DANE?

17. PIERWSZA WYCIECZKA NAD JEZIORO (DANYCH) CECHY ‣ MAGAZYN OBIEKTOWY - KLUCZ, WARTOŚĆ ‣ NIELIMITOWANE MIEJSCE, PLIKI DO 5TB ‣ TRWAŁOŚĆ DANYCH NA POZIOMIE 99.999999999% ‣ 3500 OPERACJI ZAPISU I 5500 OPERACJI ODCZYTU NA SEKUNDĘ DLA DANEGO PREFIKSU ‣ NIELIMITOWANA LICZBA PREFIKSÓW

19. JAK PRZENIEŚĆ DANE?

20. PIERWSZA WYCIECZKA NAD JEZIORO (DANYCH) CECHY ‣ SERWIS W MODELU SERVERLESS DO ODKRYWANIA, EKSTRAKCJI, TRANSFORMACJI I ŁADOWANIA DANYCH (ETL, ELT) ‣ OFERUJE WIELE GOTOWYCH ROZWIĄZAŃ: CONNECTORS, CRAWLERS, JOBS, TRIGGERS, WORKFLOWS, BLUEPRINTS ‣ MOŻLIWOŚĆ GENEROWANIA (GLUE STUDIO) I PISANIA SKRYPTÓW W PYTHON LUB SCALA ‣ POD SPODEM UŻYWA APACHE SPARK

21. PRZYKŁAD: PRZENIESIENIE DANYCH Z RDS DO S3

22. PIERWSZA WYCIECZKA NAD JEZIORO (DANYCH) POTRZEBNE KROKI ‣ KONFIGURACJA GLUE CONNECTORA ‣ ZDEFINIOWANIE I URUCHOMIENIE GLUE CRAWLERA ‣ NAPISANIE I URUCHOMIENIE SKRYPTU GLUE JOB • GLUE STUDIO • KOD

24. ZACZNIJMY OD INFRASTRUKTURY

25. import pulumi import pulumi_aws as aws aws.glue.Job( "rdsToS3GlueJob", name=job_name, role_arn=role.arn, command=aws.glue.JobCommandArgs( script_location=f"s3://{script_bucket}/{rds_to_s3_job_file_name}", python_version="3", ), connections=[connection.name], glue_version="2.0", default_arguments={ "--job-bookmark-option": "job-bookmark-enable", "--CRAWLER": crawler_name, "--DEST_TABLE_PREFIX": "dl_", "--DEST": f”{data_lake_bkt}/{crawler_name}/tables", "--REGION": region, "--CATALOG": glue_catalog_database_name, }, number_of_workers=10, worker_type="G.1X", )

29. SKRYPT GLUE JOB

30. # various imports args = getResolvedOptions( sys.argv, ["JOB_NAME", "REGION", "CRAWLER", "CATALOG", "DEST", "DEST_TABLE_PREFIX"] ) sc = SparkContext() glueContext = GlueContext(sc) job = Job(glueContext) job.init(args["JOB_NAME"], args) # operations job.commit()

31. client = boto3.client("glue", region_name=args["REGION"]) paginator = client.get_paginator("get_tables") page_iterator = paginator.paginate(DatabaseName=args["CATALOG"]) for page in page_iterator: for table in page["TableList"]: if not table_valid(table, args): continue [db, schema, tbl_name] = table["StorageDescriptor"]["Location"].split(".") dest_path = f"{args['DEST']}/{tbl_name}" print(f"Dumping table {tbl_name} to {dest_path}") # dump code

35. source_dynf = glueContext.create_dynamic_frame.from_catalog( database=args["CATALOG"], table_name=table["Name"], transformation_ctx=f"source_dynf_{tbl_name}", additional_options={ "jobBookmarkKeys": ["updated_at"], "jobBookmarksKeysSortOrder": "asc", }, )

36. source_df = source_dynf.toDF() partitioned_df = source_df.withColumn( "year", functions.year(functions.col("created_at")) ).withColumn("month", functions.month(functions.col("created_at"))) partitioned_dynf = DynamicFrame.fromDF( partitioned_df, glueContext, f"partitioned_dynf_{tbl_name}" )

37. sink = glueContext.getSink( connection_type="s3", path=f"s3a://{dest_path}", enableUpdateCatalog=True, updateBehavior="UPDATE_IN_DATABASE", partitionKeys=["year", "month"], ) sink.setFormat("glueparquet") sink.setCatalogInfo( catalogDatabase=args["CATALOG"], catalogTableName=f"{args['DEST_TABLE_PREFIX']}{tbl_name}", ) sink.writeFrame(partitioned_dynf)

42. GDZIE WYKONAMY ZAPYTANIA?

43. PIERWSZA WYCIECZKA NAD JEZIORO (DANYCH) CECHY ‣ MODEL SERVERLESS ‣ URUCHAMIANIE I ŁĄCZENIE ZAPYTAŃ SQL NA WIELU ŹRÓDŁACH DANYCH (S3, MONGODB, POSTGRESQL I INNE) ‣ 5$ ZA 1TB PRZESKANOWANYCH DANYCH ‣ POD SPODEM WYKORZYSTUJE PRESTO ‣ BRAK WIZUALIZACJI ZAPYTAŃ, KIEPSKI UI

45. GDZIE ZWIZUALIZUJEMY ZAPYTANIA?

46. PIERWSZA WYCIECZKA NAD JEZIORO (DANYCH) CECHY ‣ NARZĘDZIE BI DO URUCHAMIANIA ANALIZ I GENEROWANIA WYKRESÓW ‣ MOŻE SŁUŻYĆ JAKO „FRONTEND” DO AWS ATHENA ‣ DOSTĘPNE PŁATNIE W CHMURZE LUB ZA DARMO ON-PREMISE (OBRAZ DOCKEROWY) ‣ BRAK OFICJALNEJ WTYCZKI DO AWS ATHENA W WERSJI CHMUROWEJ

47. PIERWSZA WYCIECZKA NAD JEZIORO (DANYCH) HTTPS://GITHUB.COM/DACORT/METABASE-ATHENA-DRIVER

50. PIERWSZA WYCIECZKA NAD JEZIORO (DANYCH) PODSUMOWANKO ‣ WARTO POZNAĆ DOSTĘPNE USŁUGI ‣ ŁATWO ZACZĄĆ DZIĘKI GOTOWYM SERWISOM ‣ TRUDNO UTRZYMAĆ W PORZĄDKU ‣ LEPIEJ ZACZĄĆ OD MNIEJSZEJ FUNKCJONALNOŚCI ‣ I STOPNIOWO WPROWADZAĆ AUTOMATYZACJĘ

51. DZIĘKI! ŹRÓDŁO IKON: ICON POND - WWW.FLATICON.COM

52. NEWSLETTER DLA DEVELOPERÓW I CTO HTTPS://TSH.IO/NEWSLETTER

Pierwsza wycieczka nad jezioro (danych)

Recommandé

Recommandé

Contenu connexe

Similaire à Pierwsza wycieczka nad jezioro (danych)

Similaire à Pierwsza wycieczka nad jezioro (danych) (20)

Plus de The Software House

Plus de The Software House (20)

Dernier

Dernier (20)

Pierwsza wycieczka nad jezioro (danych)