Jan Matoušek na konferenci Data Restart 2020: Připraví AutoML datové vědce o práci? Na trhu je patrný razantní nástup automatického machine learningu. Budeme bez práce, nebo naopak? Anatomie AutoML systému, jeho výhody a nevýhody. Jaká práce zbývá? Vyřeší to všechny naše problémy automaticky?
2. Technologie Business
JAN MATOUŠEK / DATA MIND HLAVNI ANALYTIK, CEO
1995 SPSS Statistics
2003 SPSS Modeler
2013 R
2016 Python
2018 Deep learning
2020Auto ML
strana 2
1998 Cati programátor
2003 O2/ Eurotel Zákaznická
Segmentace
2013+ Data Mind desítky
modelů segmentačních,
predikčních, next-best-offer
apod.
„Kdo se každý rok nenaučí novou věc, je mrtvý analytik“
3. Automl Naive Blueprint – Přísliby nebo kecy?
• Od syrových dat po produkční prostředí
Všechno samo
• je tak chytrý, že se sám zoptimalizuje
Umělá inteligence řídí umělou inteligenci
• S autopilotem to dá každý
Pro každého/ nováčky / manažery
Co je AutoML? Stavební kameny
ML
+Automatizace
Prediktivní analytika
4. AnatomieAutoML systému – co je Auto ML technicky
•Automatizované Feature engeneering
•Tj. Automatická tvorba odvozených
proměnných
•Například logaritmy a jiné
transformace
•Interakce proměnných
•Faktory
•Clustery z proměnných
•Testovací a validační vzorky
Příprava dat II
• Výběr a vývoj jednotlivých algoritmů
• Hledání optimálních parametrů modelu
• Tj. vyzkoušíme všechny varianty a
necháme nejlepší
• Vyhodnocení nejlepších modelů
• „Ansámbl“
• Sborový model složený ze všech či
několika nejlepších modelů
Modelování • Výsledky modelů
• Testy stability na validačních a testovacích
datech
• Deskriptivní statistiky
• Pokročilé nástroje
• Skóringová soustava skriptů
• (Skoring pipeline)
• Zjednodušené modely pro interpretaci
• Deployment (nasazení) do API či pipeline
Interpretace a
nasazení
5. Jakou část práce nám Auto ML nahrazuje
Nahrazuje
■Ladění a výběr modelů
■Druhou část přípravy dat
Ladění nezávislých proměnných
■Některé, technické části vyhodnocení
Nenahrazuje
■Správně určený target – cílovou proměnnou
NapříkladVýpověď, Nákup, CustomerValue
■Časový a koncepční design prediktivních
modelů
■Porozumění businessu a významu dat
6. 3 kategorieAuto ML
Open source
■ Komunitní Open source
Auto Sklearn, Auto Keras,TPOT
Specializovaný startup
■ Data Robot (komerční)
■ H20 (Open source i komerční )
Technologický gigant
■ IBM SPSS (Auto classifier, licenční model)
■ Google Auto ML (Výpočetní pay as you go)
■ Amazon Sagemaker Autopilot
■ MS Azure AutoML
*LOGA a názvy jsou majetkem jejich vlastníků /autorů
7. Jak se liší ambice jednotlivých řešení
Základní automatizace s ambicemi
■ Auto - Sklearn (Open)
Automatizuje základní ladění parametrů a část datové přípravy
Funguje dobře na malých a středních datech
První zastávka na cestě
■ Auto – Keras (deep learning a obrázky)
■ TPOT (Open)
Pokročilejší a ambiciózní projekt „konkurenční“ k Auto - Sklearn
Tree-based Pipeline Optimization Tool
Zjednodušuje mnoho oblastí
■ IBM SPSS ModelerAuto* Modely (Komerční)
Spouštění několika modelů, výběr nejlepšího, deployment
■ H2O (Open)
Poměrně kompletní sada i se základním uživatelským rozhraním
Plnohodnotná automatizace
■ GoogleAutoML (Komerční)
I pro nováčky, plná automatizace, málo možností, trochu blackbox
■ Data Robot (Komerční)
Uživatelské rozhraní, kompletní automatizace, interpretace, část. deployment
■ H20 Driverless (Komerční)
Velmi pokročilé uživatelské rozhraní, kompletní automatizace, interpretace, část. deployment
Kompletní
Řešení
Zdarmaaotevřené
*LOGA jsou majetkem jejich vlastníků / autorů
9. Co říkají drahé** agentury
Gartner visionáři
2020
*OCHARNNÉ známky agentur jsou majetkem jejich vlastníků
**Synonymum vážené; Zdroj: Agentury Gartner a Forrester
Gartner Magic Quadrant for Data Science and Machine
Learning Platforms
11. Jak dobré ty systémy jsou
Problém:
■Predikce dalšího nákupu obuvi u stávajících,
registrovaných zákazníků
■Data: Reálná, anonymizovaná cca 60 tisíc, 20
tisíc pozitivních
Benchmark řešení
Model Technologie CPU – minut Čas data scientist
Logistická regrese IBM SPSS Statistics 0 10 hodin
AutoML H20 Driverless AI 20 1 hodina
AutoML H20 (Open) 30 2 hodiny
12. Logistická regrese - cca 10 hodin práce
■Interakce významným proměnných
Ruční zadání do kódu či interaktivně
■Výběr proměnných
Poloautomatický, komerční software IBM SPSS Statistics (starší verze)
■Ladění parametrů modelu
Statistická významnost
Parametry výběru proměnných
Testovací vzorky
Stabilita modelu
18. Porovnání na ROC křivkách (x= true positive, y= false positive)
Logistic regression
+ 10h data scientist
H20 Driverless AI
Default, bezpracné
H20 (Open)
+1-2 hodiny práce, default
AUC = 0,73 AUC = 0,74 AUC = 0,75
• 2-3 % nárůst výkonu díky Auto – ML řešením
• Jednoznačná úspora času
• Automatický výběr pokročilého modelu
19. Závěry - Připraví AutoML data scientisty o práci?
• Hledání parametrů
• Výběr algoritmu
• Odvozené a transformované
proměnné
• Sestavení skoringové pipeline
(částečně)
• Obchodní cíle
• Doménová znalost
• Definice úloh
• Použití modelů v praxi
• Stabilita v čase
• Obchodní část interpretace
20. www.datamind.cz
Data Mind s.r.o., Pobřežní 18/16, 186 00 Praha 8
Loga a registrované značky uvedené v této prezentaci jsou majetkem jejich právoplatných majitelů.
Jan Matoušek
jan.matousek@datamind.cz
+420 720 705 639