2020: AutoML, aneb nahradí roboti analytiky?

…cílíme přesně
AutoML
ANEB NAHRADÍ ROBOTI ANALYTIKY?

Technologie Business
JAN MATOUŠEK / DATA MIND HLAVNI ANALYTIK, CEO
1995 SPSS Statistics
2003 SPSS Modeler
2013 R
2016 Python
2018 Deep learning
2020Auto ML
strana 2
1998 Cati programátor
2003 O2/ Eurotel Zákaznická
Segmentace
2013+ Data Mind desítky
modelů segmentačních,
predikčních, next-best-offer
apod.
„Kdo se každý rok nenaučí novou věc, je mrtvý analytik“

Automl Naive Blueprint – Přísliby nebo kecy?
• Od syrových dat po produkční prostředí
Všechno samo
• je tak chytrý, že se sám zoptimalizuje
Umělá inteligence řídí umělou inteligenci
• S autopilotem to dá každý
Pro každého/ nováčky / manažery
Co je AutoML? Stavební kameny
ML
+Automatizace
Prediktivní analytika

AnatomieAutoML systému – co je Auto ML technicky
•Automatizované Feature engeneering
•Tj. Automatická tvorba odvozených
proměnných
•Například logaritmy a jiné
transformace
•Interakce proměnných
•Faktory
•Clustery z proměnných
•Testovací a validační vzorky
Příprava dat II
• Výběr a vývoj jednotlivých algoritmů
• Hledání optimálních parametrů modelu
• Tj. vyzkoušíme všechny varianty a
necháme nejlepší
• Vyhodnocení nejlepších modelů
• „Ansámbl“
• Sborový model složený ze všech či
několika nejlepších modelů
Modelování • Výsledky modelů
• Testy stability na validačních a testovacích
datech
• Deskriptivní statistiky
• Pokročilé nástroje
• Skóringová soustava skriptů
• (Skoring pipeline)
• Zjednodušené modely pro interpretaci
• Deployment (nasazení) do API či pipeline
Interpretace a
nasazení

Jakou část práce nám Auto ML nahrazuje
Nahrazuje
■Ladění a výběr modelů
■Druhou část přípravy dat
 Ladění nezávislých proměnných
■Některé, technické části vyhodnocení
Nenahrazuje
■Správně určený target – cílovou proměnnou
 NapříkladVýpověď, Nákup, CustomerValue
■Časový a koncepční design prediktivních
modelů
■Porozumění businessu a významu dat

3 kategorieAuto ML
Open source
■ Komunitní Open source
 Auto Sklearn, Auto Keras,TPOT
Specializovaný startup
■ Data Robot (komerční)
■ H20 (Open source i komerční )
Technologický gigant
■ IBM SPSS (Auto classifier, licenční model)
■ Google Auto ML (Výpočetní pay as you go)
■ Amazon Sagemaker Autopilot
■ MS Azure AutoML
*LOGA a názvy jsou majetkem jejich vlastníků /autorů

Jak se liší ambice jednotlivých řešení
Základní automatizace s ambicemi
■ Auto - Sklearn (Open)
 Automatizuje základní ladění parametrů a část datové přípravy
 Funguje dobře na malých a středních datech
 První zastávka na cestě
■ Auto – Keras (deep learning a obrázky)
■ TPOT (Open)
 Pokročilejší a ambiciózní projekt „konkurenční“ k Auto - Sklearn
 Tree-based Pipeline Optimization Tool
Zjednodušuje mnoho oblastí
■ IBM SPSS ModelerAuto* Modely (Komerční)
 Spouštění několika modelů, výběr nejlepšího, deployment
■ H2O (Open)
 Poměrně kompletní sada i se základním uživatelským rozhraním
Plnohodnotná automatizace
■ GoogleAutoML (Komerční)
 I pro nováčky, plná automatizace, málo možností, trochu blackbox
■ Data Robot (Komerční)
 Uživatelské rozhraní, kompletní automatizace, interpretace, část. deployment
■ H20 Driverless (Komerční)
 Velmi pokročilé uživatelské rozhraní, kompletní automatizace, interpretace, část. deployment
Kompletní
Řešení
Zdarmaaotevřené
*LOGA jsou majetkem jejich vlastníků / autorů

Poměry v táboře - Google trends vyhledávací dotazy

Co říkají drahé** agentury
Gartner visionáři
2020
*OCHARNNÉ známky agentur jsou majetkem jejich vlastníků
**Synonymum vážené; Zdroj: Agentury Gartner a Forrester
Gartner Magic Quadrant for Data Science and Machine
Learning Platforms

Case study
Predikce prodeje módní obuvi
DEEP DIVE – NEUTOPTE SE
strana 10

Jak dobré ty systémy jsou
Problém:
■Predikce dalšího nákupu obuvi u stávajících,
registrovaných zákazníků
■Data: Reálná, anonymizovaná cca 60 tisíc, 20
tisíc pozitivních
Benchmark řešení
Model Technologie CPU – minut Čas data scientist
Logistická regrese IBM SPSS Statistics 0 10 hodin
AutoML H20 Driverless AI 20 1 hodina
AutoML H20 (Open) 30 2 hodiny

Logistická regrese - cca 10 hodin práce
■Interakce významným proměnných
 Ruční zadání do kódu či interaktivně
■Výběr proměnných
 Poloautomatický, komerční software IBM SPSS Statistics (starší verze)
■Ladění parametrů modelu
 Statistická významnost
 Parametry výběru proměnných
 Testovací vzorky
 Stabilita modelu

…cílíme přesně
Benchmark

Porovnání na ROC křivkách (x= true positive, y= false positive)
Logistic regression
+ 10h data scientist
H20 Driverless AI
Default, bezpracné
H20 (Open)
+1-2 hodiny práce, default
AUC = 0,73 AUC = 0,74 AUC = 0,75
• 2-3 % nárůst výkonu díky Auto – ML řešením
• Jednoznačná úspora času
• Automatický výběr pokročilého modelu

Závěry - Připraví AutoML data scientisty o práci?
• Hledání parametrů
• Výběr algoritmu
• Odvozené a transformované
proměnné
• Sestavení skoringové pipeline
(částečně)
• Obchodní cíle
• Doménová znalost
• Definice úloh
• Použití modelů v praxi
• Stabilita v čase
• Obchodní část interpretace

www.datamind.cz
Data Mind s.r.o., Pobřežní 18/16, 186 00 Praha 8
Loga a registrované značky uvedené v této prezentaci jsou majetkem jejich právoplatných majitelů.
Jan Matoušek
jan.matousek@datamind.cz
+420 720 705 639

2020: AutoML, aneb nahradí roboti analytiky?

Recommandé

Recommandé

Contenu connexe

Similaire à 2020: AutoML, aneb nahradí roboti analytiky?

Similaire à 2020: AutoML, aneb nahradí roboti analytiky? (20)

Plus de Taste Medio

Plus de Taste Medio (20)

2020: AutoML, aneb nahradí roboti analytiky?