K8s-native Daten-Pipelines mit Argo Workflows und Events

•

0 j'aime•25 vues

Data2Day, Karlsruhe, September 2022, Mario-Leander Reimer (@LeanderReimer, Principal Software Architect bei QAware). == Dokument bitte herunterladen, falls unscharf! Please download slides if blurred! == Daten sind der neue Brennstoff für moderne digital Produkte. Aber auch Daten müssen zunächst gefördert und anschließend aufwendig raffiniert und angereichert werden, bevor sie wirklich nutzbringend verwendet werden können. Die hierfür verwendeten ETL- und ELT-Ansätze und Tools sind dabei häufig entweder proprietär oder extrem individuell. Die Wartbarkeit und Skalierbarkeit solcher Ansätze ist leider beschränkt. Dieser Vortrag beschreibt die Evolution und Migration einer individuellen Datenversorgung auf Basis von Jenkins und einzelnen Maven-Projekten, hinzu flexibel orchestrierbaren Kubernetes-nativen Datenpipelines auf Basis von Argo Workflows und Events zur Orchestrierung.

Données & analyses

qaware.de
K8s-native Daten-Pipelines mit
Argo Workﬂows und Events
Mario-Leander Reimer
mario-leander.reimer@qaware.de
@LeanderReimer

2
Mario-Leander Reimer
Principal Software Architect
@LeanderReimer
#cloudnativenerd #qaware
#gernperDude

■ In einem Whitepaper haben wir Ende 2018 zunächst die Modernisierung und Cloudiﬁzierung des
kompletten Systemverbunds beschrieben. Migration in 3 Phasen:
– Enabling (Infrastruktur, CI/CD)
– Microservice Decomposition und Service Migration
– Data Decomposition, Solr und Loader Migration
■ Natürlich gab es unvorhergesehene Herausforderungen:
– Zunehmende Datenmenge machte kurzfristige Bedatungs-Jobs quasi unmöglich
– Datenqualität der Quellsysteme ist häuﬁg suboptimal und wird erst zu spät erkannt
– Instabilitäten der On-Premise Infrastruktur sorgen für schlechte Availability
– EOL der Server-Hardware der Solr und Loader Services verschärft die Dringlichkeit
– AWS EC2 Instanzen mit AMIs zur Loader Orchestrierung funktioniert, führt jedoch zu langen
Feedback Cycles und schlechter Dev-Prod Parity
– Betriebsverantwortung und TLM für self-hosted Services (z.B. Jenkins) ist aufwändig
Seit dem ist viel passiert …
QAware | 6

Die einfachen Kubernetes Resources sind nicht für komplexe
containerisierte Workﬂow Orchestrierung geeignet.
QAware | 8

Argo Workﬂow im Überblick
QAware | 10
■ Open source Container-native Workﬂow Engine zur parallelen Job Orchestrierung mit Kubernetes
■ Ermöglicht die einfache und schnelle Ausführung von rechenintensive Jobs für maschinelles Lernen,
Datenverarbeitung und ETL Jobs, CI/CD sowie Infrastructure Automation auf Kubernetes.
■ Deﬁnition der Workﬂows erfolgt über Kubernetes CRDs (Custom Resource Deﬁnition).
– Jeder Schritt einer Workﬂow Deﬁnition ist dabei ein Container
– Komplexe Workﬂows können über eine Sequenz von Schritten einfach abgebildet werden, oder
aber über eine DAG (Directed Acyclic Graph)
– Workﬂows können parametrisiert werden, über Artifacts können Ergebnisse zwischen Steps
ausgetauscht und übergeben werden
– Zahlreiche Features wie Schleifen, Conditionals, Parallelität, Synchronisation, Retries, Templates,
Lifecycle Hooks werden unterstützt
■ Einfache Installation via Plain YAML oder Helm Chart

QAware | 11
WorkﬂowTemplate
Workﬂow CronWorkﬂow
submit
reference
Container Script
Resource
Suspend
HTTP
Steps DAG
Resources
Work Items
Argo Workﬂow Concepts
Execution
reference
Parameters
inputs
entrypoint

Argo Events im Überblick
QAware | 13
■ Ein Event-driven Workﬂow Automation Framework für Kubernetes
■ Ermöglicht das generische Triggern von K8s Objects, Argo Workﬂows, Serverless Workloads, etc. auf
Basis von Events aus mehr als 20+ verschiedenen unterstützten Quellen
– Trigger: Argo Rollouts, Argo Workﬂows, HTTP Requests, Slack Notiﬁcations, Kubernetes Objects,
Kafka und NATS Message, etc.pp
– Sources: Webhooks, Kubernetes Objects, File-based Events, Minio, AWS SNS, AWS SQS, etc.pp
■ Einfache Installation via Plain YAML oder Helm Chart

Argo Events Conceptual Architecture
QAware | 14

lreimer/k8s-dataﬂows
argoproj/argo-workﬂows
argoproj/argo-events

qaware.de
QAware GmbH
Aschauer Straße 32
81549 München
Tel. +49 89 232315-0
info@qaware.de
twitter.com/qaware
linkedin.com/company/qaware-gmbh
xing.com/companies/qawaregmbh
slideshare.net/qaware
github.com/qaware

Recommandé

Kubernetes ist so viel mehr als ein Container OrchestriererQAware GmbH

Steinzeit war gestern! Wege der Cloud-nativen Evolution.QAware GmbH

Public Cloud Erfahrungsbericht SBBBATbern

Cloud Infrastructure with CrossplaneQAware GmbH

ANEO | Automatisierung mit RedHat AnsibleCarolineAuerMarcher

Make Developers Fly: Principles for Platform EngineeringQAware GmbH

Infrastructure as Code mit TerraformHarald Schmaldienst

Amazon Web Services: Flaggschiff des Cloud ComputingsLothar Wieske

Recommandé

Kubernetes ist so viel mehr als ein Container OrchestriererQAware GmbH

Steinzeit war gestern! Wege der Cloud-nativen Evolution.QAware GmbH

Public Cloud Erfahrungsbericht SBBBATbern

Cloud Infrastructure with CrossplaneQAware GmbH

ANEO | Automatisierung mit RedHat AnsibleCarolineAuerMarcher

Make Developers Fly: Principles for Platform EngineeringQAware GmbH

Infrastructure as Code mit TerraformHarald Schmaldienst

Amazon Web Services: Flaggschiff des Cloud ComputingsLothar Wieske

Enterprise Cloud Native ist das neue NormalQAware GmbH

Monitoring Openstack - LinuxTag 2013NETWAYS

Caching mit Spring Boot - Pain & Gain @ JCON22QAware GmbH

Enterprise Cloud Native ist das neue NormalQAware GmbH

20190604_DOAGDatabase2019_OracleNoSQLDB_for_DBAsKarin Patenge

Auf gehts in die Cloud: „Das kann doch nicht so schwer sein!“OPEN KNOWLEDGE GmbH

Dataservices - Data Processing mit MicroservicesQAware GmbH

Raus aus dem Data Vault - Virtualisierung und Logical WarheouseTorsten Glunde

Cloud-native and Enterprise Java? Hold my beer!OPEN KNOWLEDGE GmbH

Elegantes In-Memory Computing mit Apache Ignite und Kubernetes. @data2dayMario-Leander Reimer

In-Memory Computing mit Apache Ignite und KubernetesQAware GmbH

A Hitchhiker's Guide to the Cloud Native StackQAware GmbH

A Hitchhiker’s Guide to the Cloud Native Stack. #ContainerConfMario-Leander Reimer

Digicomp sqlday migrationDigicomp Academy AG

Clean ArchitectureQAware GmbH

Steinzeit war gestern! Wege der cloud-nativen EvolutionQAware GmbH

Where are all transactions gone? Was in_der_cloud_alles_verboten_istRamon Anger

MEAN SCS in der CloudTorsten Fink

Meet Magento - High performance magentoAOE

Blueprints bei E-Commerce Workloads mit AWSroot360 GmbH

50 Shades of K8s Autoscaling #JavaLand24.pdfQAware GmbH

Make Agile Great - PM-Erfahrungen aus zwei virtuellen internationalen SAFe-Pr...QAware GmbH

Contenu connexe

Similaire à K8s-native Daten-Pipelines mit Argo Workflows und Events

Enterprise Cloud Native ist das neue NormalQAware GmbH

Monitoring Openstack - LinuxTag 2013NETWAYS

Caching mit Spring Boot - Pain & Gain @ JCON22QAware GmbH

Enterprise Cloud Native ist das neue NormalQAware GmbH

20190604_DOAGDatabase2019_OracleNoSQLDB_for_DBAsKarin Patenge

Auf gehts in die Cloud: „Das kann doch nicht so schwer sein!“OPEN KNOWLEDGE GmbH

Dataservices - Data Processing mit MicroservicesQAware GmbH

Raus aus dem Data Vault - Virtualisierung und Logical WarheouseTorsten Glunde

Cloud-native and Enterprise Java? Hold my beer!OPEN KNOWLEDGE GmbH

Elegantes In-Memory Computing mit Apache Ignite und Kubernetes. @data2dayMario-Leander Reimer

In-Memory Computing mit Apache Ignite und KubernetesQAware GmbH

A Hitchhiker's Guide to the Cloud Native StackQAware GmbH

A Hitchhiker’s Guide to the Cloud Native Stack. #ContainerConfMario-Leander Reimer

Digicomp sqlday migrationDigicomp Academy AG

Clean ArchitectureQAware GmbH

Steinzeit war gestern! Wege der cloud-nativen EvolutionQAware GmbH

Where are all transactions gone? Was in_der_cloud_alles_verboten_istRamon Anger

MEAN SCS in der CloudTorsten Fink

Meet Magento - High performance magentoAOE

Blueprints bei E-Commerce Workloads mit AWSroot360 GmbH

Similaire à K8s-native Daten-Pipelines mit Argo Workflows und Events (20)

Enterprise Cloud Native ist das neue Normal

Monitoring Openstack - LinuxTag 2013

Caching mit Spring Boot - Pain & Gain @ JCON22

Enterprise Cloud Native ist das neue Normal

20190604_DOAGDatabase2019_OracleNoSQLDB_for_DBAs

Auf gehts in die Cloud: „Das kann doch nicht so schwer sein!“

Dataservices - Data Processing mit Microservices

Raus aus dem Data Vault - Virtualisierung und Logical Warheouse

Cloud-native and Enterprise Java? Hold my beer!

Elegantes In-Memory Computing mit Apache Ignite und Kubernetes. @data2day

In-Memory Computing mit Apache Ignite und Kubernetes

A Hitchhiker's Guide to the Cloud Native Stack

A Hitchhiker’s Guide to the Cloud Native Stack. #ContainerConf

Digicomp sqlday migration

Clean Architecture

Steinzeit war gestern! Wege der cloud-nativen Evolution

Where are all transactions gone? Was in_der_cloud_alles_verboten_ist

MEAN SCS in der Cloud

Meet Magento - High performance magento

Blueprints bei E-Commerce Workloads mit AWS

Plus de QAware GmbH

50 Shades of K8s Autoscaling #JavaLand24.pdfQAware GmbH

Make Agile Great - PM-Erfahrungen aus zwei virtuellen internationalen SAFe-Pr...QAware GmbH

Fully-managed Cloud-native Databases: The path to indefinite scale @ CNN MainzQAware GmbH

Down the Ivory Tower towards Agile ArchitectureQAware GmbH

"Mixed" Scrum-Teams – Die richtige Mischung macht's!QAware GmbH

Make Developers Fly: Principles for Platform EngineeringQAware GmbH

Der Tod der Testpyramide? – Frontend-Testing mit PlaywrightQAware GmbH

Was kommt nach den SPAsQAware GmbH

Cloud Migration mit KI: der Turbo QAware GmbH

Migration von stark regulierten Anwendungen in die Cloud: Dem Teufel die See...QAware GmbH

Aus blau wird grün! Ansätze und Technologien für nachhaltige Kubernetes-Cluster QAware GmbH

Endlich gute API Tests. Boldly Testing APIs Where No One Has Tested Before.QAware GmbH

Kubernetes with Cilium in AWS - Experience Report!QAware GmbH

50 Shades of K8s AutoscalingQAware GmbH

Kontinuierliche Sicherheitstests für APIs mit Testkube und OWASP ZAPQAware GmbH

Service Mesh Pain & Gain. Experiences from a client project.QAware GmbH

50 Shades of K8s AutoscalingQAware GmbH

Blue turns green! Approaches and technologies for sustainable K8s clusters.QAware GmbH

Per Anhalter zu Cloud Nativen API GatewaysQAware GmbH

Aus blau wird grün! Ansätze und Technologien für nachhaltige Kubernetes-Cluster QAware GmbH

Plus de QAware GmbH (20)

50 Shades of K8s Autoscaling #JavaLand24.pdf

Make Agile Great - PM-Erfahrungen aus zwei virtuellen internationalen SAFe-Pr...

Fully-managed Cloud-native Databases: The path to indefinite scale @ CNN Mainz

Down the Ivory Tower towards Agile Architecture

"Mixed" Scrum-Teams – Die richtige Mischung macht's!

Make Developers Fly: Principles for Platform Engineering

Der Tod der Testpyramide? – Frontend-Testing mit Playwright

Was kommt nach den SPAs

Cloud Migration mit KI: der Turbo

Migration von stark regulierten Anwendungen in die Cloud: Dem Teufel die See...

Aus blau wird grün! Ansätze und Technologien für nachhaltige Kubernetes-Cluster

Endlich gute API Tests. Boldly Testing APIs Where No One Has Tested Before.

Kubernetes with Cilium in AWS - Experience Report!

50 Shades of K8s Autoscaling

Kontinuierliche Sicherheitstests für APIs mit Testkube und OWASP ZAP

Service Mesh Pain & Gain. Experiences from a client project.

50 Shades of K8s Autoscaling

Blue turns green! Approaches and technologies for sustainable K8s clusters.

Per Anhalter zu Cloud Nativen API Gateways

Aus blau wird grün! Ansätze und Technologien für nachhaltige Kubernetes-Cluster

K8s-native Daten-Pipelines mit Argo Workflows und Events

1. qaware.de K8s-native Daten-Pipelines mit Argo Workﬂows und Events Mario-Leander Reimer mario-leander.reimer@qaware.de @LeanderReimer

2. 2 Mario-Leander Reimer Principal Software Architect @LeanderReimer #cloudnativenerd #qaware #gernperDude

3. Anno 2016 QAware | 3

4. Anno 2017 QAware | 4

5. Anno 2018 QAware | 5

6. ■ In einem Whitepaper haben wir Ende 2018 zunächst die Modernisierung und Cloudiﬁzierung des kompletten Systemverbunds beschrieben. Migration in 3 Phasen: – Enabling (Infrastruktur, CI/CD) – Microservice Decomposition und Service Migration – Data Decomposition, Solr und Loader Migration ■ Natürlich gab es unvorhergesehene Herausforderungen: – Zunehmende Datenmenge machte kurzfristige Bedatungs-Jobs quasi unmöglich – Datenqualität der Quellsysteme ist häuﬁg suboptimal und wird erst zu spät erkannt – Instabilitäten der On-Premise Infrastruktur sorgen für schlechte Availability – EOL der Server-Hardware der Solr und Loader Services verschärft die Dringlichkeit – AWS EC2 Instanzen mit AMIs zur Loader Orchestrierung funktioniert, führt jedoch zu langen Feedback Cycles und schlechter Dev-Prod Parity – Betriebsverantwortung und TLM für self-hosted Services (z.B. Jenkins) ist aufwändig Seit dem ist viel passiert … QAware | 6

7. TO THE RESCUE?

8. Die einfachen Kubernetes Resources sind nicht für komplexe containerisierte Workﬂow Orchestrierung geeignet. QAware | 8

9. TO THE RESCUE!

10. Argo Workflow im Überblick QAware | 10 ■ Open source Container-native Workflow Engine zur parallelen Job Orchestrierung mit Kubernetes ■ Ermöglicht die einfache und schnelle Ausführung von rechenintensive Jobs für maschinelles Lernen, Datenverarbeitung und ETL Jobs, CI/CD sowie Infrastructure Automation auf Kubernetes. ■ Definition der Workflows erfolgt über Kubernetes CRDs (Custom Resource Definition). – Jeder Schritt einer Workflow Definition ist dabei ein Container – Komplexe Workflows können über eine Sequenz von Schritten einfach abgebildet werden, oder aber über eine DAG (Directed Acyclic Graph) – Workflows können parametrisiert werden, über Artifacts können Ergebnisse zwischen Steps ausgetauscht und übergeben werden – Zahlreiche Features wie Schleifen, Conditionals, Parallelität, Synchronisation, Retries, Templates, Lifecycle Hooks werden unterstützt ■ Einfache Installation via Plain YAML oder Helm Chart

11. QAware | 11 WorkflowTemplate Workflow CronWorkflow submit reference Container Script Resource Suspend HTTP Steps DAG Resources Work Items Argo Workflow Concepts Execution reference Parameters inputs entrypoint

12. Argo Workﬂow Example QAware | 12

13. Argo Events im Überblick QAware | 13 ■ Ein Event-driven Workflow Automation Framework für Kubernetes ■ Ermöglicht das generische Triggern von K8s Objects, Argo Workflows, Serverless Workloads, etc. auf Basis von Events aus mehr als 20+ verschiedenen unterstützten Quellen – Trigger: Argo Rollouts, Argo Workflows, HTTP Requests, Slack Notifications, Kubernetes Objects, Kafka und NATS Message, etc.pp – Sources: Webhooks, Kubernetes Objects, File-based Events, Minio, AWS SNS, AWS SQS, etc.pp ■ Einfache Installation via Plain YAML oder Helm Chart

14. Argo Events Conceptual Architecture QAware | 14

15. lreimer/k8s-dataﬂows argoproj/argo-workﬂows argoproj/argo-events

16. qaware.de QAware GmbH Aschauer Straße 32 81549 München Tel. +49 89 232315-0 info@qaware.de twitter.com/qaware linkedin.com/company/qaware-gmbh xing.com/companies/qawaregmbh slideshare.net/qaware github.com/qaware