jSession #2 - Tomasz Gimbut - Przetwarzanie wsadowe z wykorzystaniem Spring Batch

•

0 j'aime•275 vues

Temat prezentacji – "Przetwarzanie wsadowe z wykorzystaniem Spring Batch". Podczas prelekcji dowiecie się: * co kryje się pod pojęciem przetwarzania wsadowego, * czym charakteryzuje się framework Spring Batch oraz jakie są jego podstawowe zalety, * jakie techniki skalowania wspiera Spring Batch i jak ich realizacja wygląda w praktyce, * jak utworzyć aplikację realizującą przetwarzanie wsadowe Kod źródłowy: https://github.com/jSessionPL/local-spring-batch-job

Technologie

„Batch processing … is deﬁned as the processing of data
without interrac-on or interrup-on.”

Michael Minella, Pro Spring Batch

Typowe przypadki użycia
—  Procesy ETL (Extract, Transform and Load)
—  Generowanie raportów
—  Analizy statystyczne
—  Procesowanie transakcji bankowych

Spring Batch - cechy
—  Zarządzenie transakcjami
—  Optymalizacja operacji odczytu, zapisu
—  Komponenty realizujące operacje I/O – (ﬂat ﬁle, baza
danych) zapewnione przez framework
—  Obsługa wyjątków
—  Webowy interfejs Spring Batch Admin
—  Bazuje na spring framework

Podstawowe komponenty
—  Job – zawiera cały proces. Składa się z jednego bądź kilku
kroków uszeregowanych w określonej kolejności
—  Step – każdy z kroków jest niezależny od pozostałych,
reprezentuje określony etap przetwarzania wsadowego

Podstawowe komponenty
—  Item - pojedynczy element danych, procesowany w ramach
kroku
—  Item reader – dostarcza dane do przetwarzania/zapisu
—  Item processor – przetwarza dane dostarczone przez Item
reader (komponent opcjonalny)
—  Item writer – zapisuje przetworzone bądź odczytane dane

Podstawowe komponenty
—  Job launcher - odpowiada za uruchamianie joba
—  Job repository - zapewnia operacje CRUD umożliwiające
zarządzanie aktualnym stanem joba oraz jego
poszczególnych kroków

Tasklet Step
—  alternatywa dla wzorca Reader-Processor-Writer
—  Konieczność wywołania zdalnych usług, skryptu SQL itp.

Skalowanie oraz przetwarzanie
równoległe

Wielowątkowy krok
Step 1
ItemReader
ItemProcessor
ItemWriter
Step 2
ItemReader
ItemProcessor
ItemWriter
Step 3
ItemReader
ItemProcessor
ItemWriter

Równoległe wykonywanie kroków
Step 2
ItemReader
ItemProcessor
ItemWriter
Step 3
ItemReader
ItemProcessor
ItemWriter
Step 4
ItemReader
ItemProcessor
ItemWriter
Step 1
ItemReader
ItemProcessor
ItemWriter

Zdalne przetwarzanie „porcji”
danych
Step 1
ItemReader
ItemProcessor
ItemWriter
Master
ItemReader
Chunk
provider
Step 3
ItemReader
ItemProcessor
ItemWriter
Slave 1
Chunk
processor
ItemProcessor
ItemWriter
Slave 2
Chunk
processor
ItemProcessor
ItemWriter
Slave 3
Chunk
processor
ItemProcessor
ItemWriter

Partycjonowanie
Step 1
ItemReader
ItemProcessor
ItemWriter
Master
Par``oner
Step 3
ItemReader
ItemProcessor
ItemWriter
Slave 1
ItemReader
ItemProcessor
ItemWriter
Slave 2
ItemReader
ItemProcessor
ItemWriter
Slave 3
ItemReader
ItemProcessor
ItemWriter

Źródła
—  Spring Batch
hbp://projects.spring.io/spring-batch/
—  Spring Batch on GitHub
hbps://github.com/spring-projects/spring-batch
—  Spring Batch Admin
hbp://docs.spring.io/spring-batch-admin/

Recommandé

jSession#6 - Adam Bieńkowski - JGiven - BDD testing in plain JavajSession

jSession #4 - Maciej Puchalski - Zaawansowany retrofitjSession

jSession #4 - Maciej Próchniak - Java 9, OSGi - czy w epoce mikroserwisów pot...jSession

jSession #3 - Rafał Garbowski - ratpack.io - jasna strona mocy prototypowania...jSession

jSession #3 - Krzysztof Czajkowski - Lombok in JavajSession

2024 State of Marketing Report – by HubspotMarius Sescu

Everything You Need To Know About ChatGPTExpeed Software

Product Design Trends in 2024 | Teenage EngineeringsPixeldarts

Recommandé

jSession#6 - Adam Bieńkowski - JGiven - BDD testing in plain JavajSession

jSession #4 - Maciej Puchalski - Zaawansowany retrofitjSession

jSession #4 - Maciej Próchniak - Java 9, OSGi - czy w epoce mikroserwisów pot...jSession

jSession #3 - Rafał Garbowski - ratpack.io - jasna strona mocy prototypowania...jSession

jSession #3 - Krzysztof Czajkowski - Lombok in JavajSession

2024 State of Marketing Report – by HubspotMarius Sescu

Everything You Need To Know About ChatGPTExpeed Software

Product Design Trends in 2024 | Teenage EngineeringsPixeldarts

How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow

AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork

Skeleton Culture CodeSkeleton Technologies

PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley

Content Methodology: A Best Practices Report (Webinar)contently

How to Prepare For a Successful Job Search for 2024Albert Qian

Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)

Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal

5 Public speaking tips from TED - Visualized summarySpeakerHub

ChatGPT and the Future of Work - Clark Boyd Clark Boyd

Getting into the tech field. what next Tessa Mero

Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray

How to have difficult conversations Rajiv Jayarajah, MAppComm, ACC

Introduction to Data ScienceChristy Abraham Joy

Time Management & Productivity - Best PracticesVit Horky

The six step guide to practical project managementMindGenius

Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36

Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools

12 Ways to Increase Your Influence at WorkGetSmarter

ChatGPT webinar slidesAlireza Esmikhani

Contenu connexe

En vedette

How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow

AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork

Skeleton Culture CodeSkeleton Technologies

PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley

Content Methodology: A Best Practices Report (Webinar)contently

How to Prepare For a Successful Job Search for 2024Albert Qian

Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)

Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal

5 Public speaking tips from TED - Visualized summarySpeakerHub

ChatGPT and the Future of Work - Clark Boyd Clark Boyd

Getting into the tech field. what next Tessa Mero

Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray

How to have difficult conversations Rajiv Jayarajah, MAppComm, ACC

Introduction to Data ScienceChristy Abraham Joy

Time Management & Productivity - Best PracticesVit Horky

The six step guide to practical project managementMindGenius

Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36

Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools

12 Ways to Increase Your Influence at WorkGetSmarter

ChatGPT webinar slidesAlireza Esmikhani

En vedette (20)

How Race, Age and Gender Shape Attitudes Towards Mental Health

AI Trends in Creative Operations 2024 by Artwork Flow.pdf

Skeleton Culture Code

PEPSICO Presentation to CAGNY Conference Feb 2024

Content Methodology: A Best Practices Report (Webinar)

How to Prepare For a Successful Job Search for 2024

Social Media Marketing Trends 2024 // The Global Indie Insights

Trends In Paid Search: Navigating The Digital Landscape In 2024

5 Public speaking tips from TED - Visualized summary

ChatGPT and the Future of Work - Clark Boyd

Getting into the tech field. what next

Google's Just Not That Into You: Understanding Core Updates & Search Intent

How to have difficult conversations

Introduction to Data Science

Time Management & Productivity - Best Practices

The six step guide to practical project management

Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...

Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...

12 Ways to Increase Your Influence at Work

ChatGPT webinar slides

jSession #2 - Tomasz Gimbut - Przetwarzanie wsadowe z wykorzystaniem Spring Batch

1. Przetwarzanie wsadowe z wykorzystaniem Spring Batch

2. „Batch processing … is deﬁned as the processing of data without interrac-on or interrup-on.” Michael Minella, Pro Spring Batch

3. Typowe przypadki użycia —  Procesy ETL (Extract, Transform and Load) —  Generowanie raportów —  Analizy statystyczne —  Procesowanie transakcji bankowych

4. Spring Batch

5. Spring Batch - cechy —  Zarządzenie transakcjami —  Optymalizacja operacji odczytu, zapisu —  Komponenty realizujące operacje I/O – (ﬂat ﬁle, baza danych) zapewnione przez framework —  Obsługa wyjątków —  Webowy interfejs Spring Batch Admin —  Bazuje na spring framework

6. Architektura

7. Podstawowe komponenty —  Job – zawiera cały proces. Składa się z jednego bądź kilku kroków uszeregowanych w określonej kolejności —  Step – każdy z kroków jest niezależny od pozostałych, reprezentuje określony etap przetwarzania wsadowego

8. Podstawowe komponenty —  Item - pojedynczy element danych, procesowany w ramach kroku —  Item reader – dostarcza dane do przetwarzania/zapisu —  Item processor – przetwarza dane dostarczone przez Item reader (komponent opcjonalny) —  Item writer – zapisuje przetworzone bądź odczytane dane

9. Podstawowe komponenty —  Job launcher - odpowiada za uruchamianie joba —  Job repository - zapewnia operacje CRUD umożliwiające zarządzanie aktualnym stanem joba oraz jego poszczególnych kroków

10. Wzorzec Reader-Processor-Writer

11. Wzorzec Reader-Processor-Writer

12. Tasklet Step —  alternatywa dla wzorca Reader-Processor-Writer —  Konieczność wywołania zdalnych usług, skryptu SQL itp.

13. Skalowanie oraz przetwarzanie równoległe

14. Wielowątkowy krok Step 1 ItemReader ItemProcessor ItemWriter Step 2 ItemReader ItemProcessor ItemWriter Step 3 ItemReader ItemProcessor ItemWriter

15. Równoległe wykonywanie kroków Step 2 ItemReader ItemProcessor ItemWriter Step 3 ItemReader ItemProcessor ItemWriter Step 4 ItemReader ItemProcessor ItemWriter Step 1 ItemReader ItemProcessor ItemWriter

16. Zdalne przetwarzanie „porcji” danych Step 1 ItemReader ItemProcessor ItemWriter Master ItemReader Chunk provider Step 3 ItemReader ItemProcessor ItemWriter Slave 1 Chunk processor ItemProcessor ItemWriter Slave 2 Chunk processor ItemProcessor ItemWriter Slave 3 Chunk processor ItemProcessor ItemWriter

17. Partycjonowanie Step 1 ItemReader ItemProcessor ItemWriter Master Par``oner Step 3 ItemReader ItemProcessor ItemWriter Slave 1 ItemReader ItemProcessor ItemWriter Slave 2 ItemReader ItemProcessor ItemWriter Slave 3 ItemReader ItemProcessor ItemWriter

18. Źródła —  Spring Batch hbp://projects.spring.io/spring-batch/ —  Spring Batch on GitHub hbps://github.com/spring-projects/spring-batch —  Spring Batch Admin hbp://docs.spring.io/spring-batch-admin/

19. Dziękuję za uwagę

Notes de l'éditeur

Przetwarzanie wsadowe polega na wykonywaniu serii zadań przez komputer. Zazwyczaj kolejne zadania są ze sobą powiązane: dane wyjściowe po zakończeniu danego etapu przekazywane są kolejnemu któremu służą jako dane wejściowe. Zadania wsadowe organizowane są w ten sposób, by ich realizacja przebiegała bez udziału użytkownika co kontrastuje z pracą programów interaktywnych, które tego wymagają. Dzięki temu przetwarzanie wsadowe posiada pewne zalety. Minimalizacja czasu bezczynności systemu dzięki pracy bez ingerencji użytkownika oraz efektywne wykorzystanie zasobów (zazwyczaj drogiego) systemu.
Używany słownik pojęć
Innym typem kroku jest Tasklet Step – w przypadku kiedy nie można zastosować powyższego modelu zorientowanego na przetwarzanie pojedynczych elementów (Konieczność wywołania zdalnych usług, skryptu SQL itp.)
Operacje odczytu, procesowania oraz zapisu dla danej porcji danych odbywają się w oddzielnym wątku Konieczność synchronizacji operacji odczytu oraz zapisu (współdzielone obiekty ItemReader, ItemWriter mogą być obiektami stanowymi) Zawartość poszczególnych porcji danych może się różnic w stosunku do przetwarzania kroku w jednym wątku
przetwarzanie w ramach danego kroku jest rozdzielone pomiędzy różne procesy komunikujące się ze sobą za pomocą warstwy pośredniczącej. Master step (single process) odczytuje dane, przesyła je do slaveów (multiple remote processes). problem z przesyłaniem znacznych ilości danych do/z slaveów możliwość bezczynności slave’ów procesowanie powinno być bardziej kosztowne niż odczyt danych
Partitioning a Step (single or multi process) do zrealizowania w ramach jednego procesu (każdy krok w ramach innego wątku) bądź rozdzielenie przetwarzania pomiędzy różne procesy Framework tworzy identyczne kopie kroków (każdy zawierający oddzielną instancję reader procesor oraz wiriter) operujących na ściśle określonych zbiorach danych. Elementy przeznaczone do procesowania są dzielone na określone partycje i przypisywane do określonym krokom do wykonania Brak problemu wyścigów brak wąskich gardeł wynikających z potrzeby synchronizacji operacji ItemReader oraz Item Writer Mechanizm określający jak podzielić dane może być złożony Konieczność oczekiwania aż ostatni ze slave’ów zakończy działanie. (potencjalnie gorszy load balancing) Konieczność efektywnego podzielenia danych pomiędzy slave’y