SlideShare une entreprise Scribd logo
1  sur  20
Télécharger pour lire hors ligne
…cílíme přesně
AutoML
ANEB NAHRADÍ ROBOTI ANALYTIKY?
Technologie Business
JAN MATOUŠEK / DATA MIND HLAVNI ANALYTIK, CEO
1995 SPSS Statistics
2003 SPSS Modeler
2013 R
2016 Python
2018 Deep learning
2020Auto ML
strana 2
1998 Cati programátor
2003 O2/ Eurotel Zákaznická
Segmentace
2013+ Data Mind desítky
modelů segmentačních,
predikčních, next-best-offer
apod.
„Kdo se každý rok nenaučí novou věc, je mrtvý analytik“
Automl Naive Blueprint – Přísliby nebo kecy?
• Od syrových dat po produkční prostředí
Všechno samo
• je tak chytrý, že se sám zoptimalizuje
Umělá inteligence řídí umělou inteligenci
• S autopilotem to dá každý
Pro každého/ nováčky / manažery
Co je AutoML? Stavební kameny
ML
+Automatizace
Prediktivní analytika
AnatomieAutoML systému – co je Auto ML technicky
•Automatizované Feature engeneering
•Tj. Automatická tvorba odvozených
proměnných
•Například logaritmy a jiné
transformace
•Interakce proměnných
•Faktory
•Clustery z proměnných
•Testovací a validační vzorky
Příprava dat II
• Výběr a vývoj jednotlivých algoritmů
• Hledání optimálních parametrů modelu
• Tj. vyzkoušíme všechny varianty a
necháme nejlepší
• Vyhodnocení nejlepších modelů
• „Ansámbl“
• Sborový model složený ze všech či
několika nejlepších modelů
Modelování • Výsledky modelů
• Testy stability na validačních a testovacích
datech
• Deskriptivní statistiky
• Pokročilé nástroje
• Skóringová soustava skriptů
• (Skoring pipeline)
• Zjednodušené modely pro interpretaci
• Deployment (nasazení) do API či pipeline
Interpretace a
nasazení
Jakou část práce nám Auto ML nahrazuje
Nahrazuje
■Ladění a výběr modelů
■Druhou část přípravy dat
 Ladění nezávislých proměnných
■Některé, technické části vyhodnocení
Nenahrazuje
■Správně určený target – cílovou proměnnou
 NapříkladVýpověď, Nákup, CustomerValue
■Časový a koncepční design prediktivních
modelů
■Porozumění businessu a významu dat
3 kategorieAuto ML
Open source
■ Komunitní Open source
 Auto Sklearn, Auto Keras,TPOT
Specializovaný startup
■ Data Robot (komerční)
■ H20 (Open source i komerční )
Technologický gigant
■ IBM SPSS (Auto classifier, licenční model)
■ Google Auto ML (Výpočetní pay as you go)
■ Amazon Sagemaker Autopilot
■ MS Azure AutoML
*LOGA a názvy jsou majetkem jejich vlastníků /autorů
Jak se liší ambice jednotlivých řešení
Základní automatizace s ambicemi
■ Auto - Sklearn (Open)
 Automatizuje základní ladění parametrů a část datové přípravy
 Funguje dobře na malých a středních datech
 První zastávka na cestě
■ Auto – Keras (deep learning a obrázky)
■ TPOT (Open)
 Pokročilejší a ambiciózní projekt „konkurenční“ k Auto - Sklearn
 Tree-based Pipeline Optimization Tool
Zjednodušuje mnoho oblastí
■ IBM SPSS ModelerAuto* Modely (Komerční)
 Spouštění několika modelů, výběr nejlepšího, deployment
■ H2O (Open)
 Poměrně kompletní sada i se základním uživatelským rozhraním
Plnohodnotná automatizace
■ GoogleAutoML (Komerční)
 I pro nováčky, plná automatizace, málo možností, trochu blackbox
■ Data Robot (Komerční)
 Uživatelské rozhraní, kompletní automatizace, interpretace, část. deployment
■ H20 Driverless (Komerční)
 Velmi pokročilé uživatelské rozhraní, kompletní automatizace, interpretace, část. deployment
Kompletní
Řešení
Zdarmaaotevřené
*LOGA jsou majetkem jejich vlastníků / autorů
Poměry v táboře - Google trends vyhledávací dotazy
Co říkají drahé** agentury
Gartner visionáři
2020
*OCHARNNÉ známky agentur jsou majetkem jejich vlastníků
**Synonymum vážené; Zdroj: Agentury Gartner a Forrester
Gartner Magic Quadrant for Data Science and Machine
Learning Platforms
Case study
Predikce prodeje módní obuvi
DEEP DIVE – NEUTOPTE SE
strana 10
Jak dobré ty systémy jsou
Problém:
■Predikce dalšího nákupu obuvi u stávajících,
registrovaných zákazníků
■Data: Reálná, anonymizovaná cca 60 tisíc, 20
tisíc pozitivních
Benchmark řešení
Model Technologie CPU – minut Čas data scientist
Logistická regrese IBM SPSS Statistics 0 10 hodin
AutoML H20 Driverless AI 20 1 hodina
AutoML H20 (Open) 30 2 hodiny
Logistická regrese - cca 10 hodin práce
■Interakce významným proměnných
 Ruční zadání do kódu či interaktivně
■Výběr proměnných
 Poloautomatický, komerční software IBM SPSS Statistics (starší verze)
■Ladění parametrů modelu
 Statistická významnost
 Parametry výběru proměnných
 Testovací vzorky
 Stabilita modelu
H20 Driverless AI
H20 Driverless AI
H20 Open source
H20 Open source
…cílíme přesně
Benchmark
Porovnání na ROC křivkách (x= true positive, y= false positive)
Logistic regression
+ 10h data scientist
H20 Driverless AI
Default, bezpracné
H20 (Open)
+1-2 hodiny práce, default
AUC = 0,73 AUC = 0,74 AUC = 0,75
• 2-3 % nárůst výkonu díky Auto – ML řešením
• Jednoznačná úspora času
• Automatický výběr pokročilého modelu
Závěry - Připraví AutoML data scientisty o práci?
• Hledání parametrů
• Výběr algoritmu
• Odvozené a transformované
proměnné
• Sestavení skoringové pipeline
(částečně)
• Obchodní cíle
• Doménová znalost
• Definice úloh
• Použití modelů v praxi
• Stabilita v čase
• Obchodní část interpretace
www.datamind.cz
Data Mind s.r.o., Pobřežní 18/16, 186 00 Praha 8
Loga a registrované značky uvedené v této prezentaci jsou majetkem jejich právoplatných majitelů.
Jan Matoušek
jan.matousek@datamind.cz
+420 720 705 639

Contenu connexe

Similaire à 2020: AutoML, aneb nahradí roboti analytiky?

AI Restart 2024: Lukáš Kostka - Automatizace analýzy klíčových slov aneb změn...
AI Restart 2024: Lukáš Kostka - Automatizace analýzy klíčových slov aneb změn...AI Restart 2024: Lukáš Kostka - Automatizace analýzy klíčových slov aneb změn...
AI Restart 2024: Lukáš Kostka - Automatizace analýzy klíčových slov aneb změn...Taste
 
SEO pohledem datového analytika
SEO pohledem datového analytikaSEO pohledem datového analytika
SEO pohledem datového analytikaTaste Medio
 
Rockaway AWS Hackaton – Kick-off Meeting
Rockaway AWS Hackaton – Kick-off MeetingRockaway AWS Hackaton – Kick-off Meeting
Rockaway AWS Hackaton – Kick-off MeetingRockawayCapital
 
2018 11-28 snidane-serie-kuchyne
2018 11-28 snidane-serie-kuchyne2018 11-28 snidane-serie-kuchyne
2018 11-28 snidane-serie-kuchyneProfinit
 
Jak na Smartlook, nejen pro Shoptet
Jak na Smartlook, nejen pro ShoptetJak na Smartlook, nejen pro Shoptet
Jak na Smartlook, nejen pro ShoptetMarek Čech
 
Automatizace search term optimalizace
Automatizace search term optimalizaceAutomatizace search term optimalizace
Automatizace search term optimalizaceTaste Medio
 
PROFICIO na PPC Restartu 2018
PROFICIO na PPC Restartu 2018PROFICIO na PPC Restartu 2018
PROFICIO na PPC Restartu 2018PROFICIO
 
EXALEAD OnePart pro rychlé vyhledávání v CAD datech a technické dokumentaci
EXALEAD OnePart pro rychlé vyhledávání v CAD datech a technické dokumentaciEXALEAD OnePart pro rychlé vyhledávání v CAD datech a technické dokumentaci
EXALEAD OnePart pro rychlé vyhledávání v CAD datech a technické dokumentaciTECHNODAT, CAE - systémy, s.r.o.
 
NMI13 Michal Illich - Extrakce strukturovaných dat z webových stránek
NMI13 Michal Illich - Extrakce strukturovaných dat z webových stránekNMI13 Michal Illich - Extrakce strukturovaných dat z webových stránek
NMI13 Michal Illich - Extrakce strukturovaných dat z webových stránekNew Media Inspiration
 
BIInfrastructure
BIInfrastructureBIInfrastructure
BIInfrastructureJan Bízik
 
Nástroje pro vizualizaci a analýzu dat (nejen) ve fyzikální praktiku
Nástroje pro vizualizaci a analýzu dat (nejen) ve fyzikální praktiku Nástroje pro vizualizaci a analýzu dat (nejen) ve fyzikální praktiku
Nástroje pro vizualizaci a analýzu dat (nejen) ve fyzikální praktiku Michal Černý
 
Extrakce strukturovaných dat z webových stránek
Extrakce strukturovaných dat z webových stránekExtrakce strukturovaných dat z webových stránek
Extrakce strukturovaných dat z webových stránekmichalillich
 
Google Data Studio na MargadoFest 2018
Google Data Studio na MargadoFest 2018Google Data Studio na MargadoFest 2018
Google Data Studio na MargadoFest 2018Tomáš Hanáček
 
Prezentace - Business intelligence
Prezentace - Business intelligence Prezentace - Business intelligence
Prezentace - Business intelligence PsaniPraci.cz
 
Strojové učení z rychlíku
Strojové učení z rychlíkuStrojové učení z rychlíku
Strojové učení z rychlíkumichalillich
 

Similaire à 2020: AutoML, aneb nahradí roboti analytiky? (20)

Adobe je dobré
Adobe je dobréAdobe je dobré
Adobe je dobré
 
Linuxalt 2010
Linuxalt 2010Linuxalt 2010
Linuxalt 2010
 
AI Restart 2024: Lukáš Kostka - Automatizace analýzy klíčových slov aneb změn...
AI Restart 2024: Lukáš Kostka - Automatizace analýzy klíčových slov aneb změn...AI Restart 2024: Lukáš Kostka - Automatizace analýzy klíčových slov aneb změn...
AI Restart 2024: Lukáš Kostka - Automatizace analýzy klíčových slov aneb změn...
 
SEO pohledem datového analytika
SEO pohledem datového analytikaSEO pohledem datového analytika
SEO pohledem datového analytika
 
Rockaway AWS Hackaton – Kick-off Meeting
Rockaway AWS Hackaton – Kick-off MeetingRockaway AWS Hackaton – Kick-off Meeting
Rockaway AWS Hackaton – Kick-off Meeting
 
2018 11-28 snidane-serie-kuchyne
2018 11-28 snidane-serie-kuchyne2018 11-28 snidane-serie-kuchyne
2018 11-28 snidane-serie-kuchyne
 
Moderni ERP v cloudu - Možnosti a úskalí
Moderni ERP v cloudu - Možnosti a úskalíModerni ERP v cloudu - Možnosti a úskalí
Moderni ERP v cloudu - Možnosti a úskalí
 
Jak na Smartlook, nejen pro Shoptet
Jak na Smartlook, nejen pro ShoptetJak na Smartlook, nejen pro Shoptet
Jak na Smartlook, nejen pro Shoptet
 
Automatizace search term optimalizace
Automatizace search term optimalizaceAutomatizace search term optimalizace
Automatizace search term optimalizace
 
PROFICIO na PPC Restartu 2018
PROFICIO na PPC Restartu 2018PROFICIO na PPC Restartu 2018
PROFICIO na PPC Restartu 2018
 
EXALEAD OnePart pro rychlé vyhledávání v CAD datech a technické dokumentaci
EXALEAD OnePart pro rychlé vyhledávání v CAD datech a technické dokumentaciEXALEAD OnePart pro rychlé vyhledávání v CAD datech a technické dokumentaci
EXALEAD OnePart pro rychlé vyhledávání v CAD datech a technické dokumentaci
 
Smact a průmysl 4.0
Smact a průmysl 4.0Smact a průmysl 4.0
Smact a průmysl 4.0
 
NMI13 Michal Illich - Extrakce strukturovaných dat z webových stránek
NMI13 Michal Illich - Extrakce strukturovaných dat z webových stránekNMI13 Michal Illich - Extrakce strukturovaných dat z webových stránek
NMI13 Michal Illich - Extrakce strukturovaných dat z webových stránek
 
Google Data Studio
Google Data StudioGoogle Data Studio
Google Data Studio
 
BIInfrastructure
BIInfrastructureBIInfrastructure
BIInfrastructure
 
Nástroje pro vizualizaci a analýzu dat (nejen) ve fyzikální praktiku
Nástroje pro vizualizaci a analýzu dat (nejen) ve fyzikální praktiku Nástroje pro vizualizaci a analýzu dat (nejen) ve fyzikální praktiku
Nástroje pro vizualizaci a analýzu dat (nejen) ve fyzikální praktiku
 
Extrakce strukturovaných dat z webových stránek
Extrakce strukturovaných dat z webových stránekExtrakce strukturovaných dat z webových stránek
Extrakce strukturovaných dat z webových stránek
 
Google Data Studio na MargadoFest 2018
Google Data Studio na MargadoFest 2018Google Data Studio na MargadoFest 2018
Google Data Studio na MargadoFest 2018
 
Prezentace - Business intelligence
Prezentace - Business intelligence Prezentace - Business intelligence
Prezentace - Business intelligence
 
Strojové učení z rychlíku
Strojové učení z rychlíkuStrojové učení z rychlíku
Strojové učení z rychlíku
 

Plus de Taste Medio

Zodpovědně na automatizovaný účet
Zodpovědně na automatizovaný účetZodpovědně na automatizovaný účet
Zodpovědně na automatizovaný účetTaste Medio
 
Pépécéčkaři versus Google Analytics 4
Pépécéčkaři versus Google Analytics 4Pépécéčkaři versus Google Analytics 4
Pépécéčkaři versus Google Analytics 4Taste Medio
 
Jak (a proč) pracovat s klíčovkou?
Jak (a proč) pracovat s klíčovkou?Jak (a proč) pracovat s klíčovkou?
Jak (a proč) pracovat s klíčovkou?Taste Medio
 
Vyhodnocování tendrů aneb insighty z B2B průzkumů
Vyhodnocování tendrů aneb insighty z B2B průzkumůVyhodnocování tendrů aneb insighty z B2B průzkumů
Vyhodnocování tendrů aneb insighty z B2B průzkumůTaste Medio
 
Právní bitvy o PPCčka aneb věděli jste, že...?
Právní bitvy o PPCčka aneb věděli jste, že...?Právní bitvy o PPCčka aneb věděli jste, že...?
Právní bitvy o PPCčka aneb věděli jste, že...?Taste Medio
 
Retenční analýza - krok za krokem
 Retenční analýza - krok za krokem Retenční analýza - krok za krokem
Retenční analýza - krok za krokemTaste Medio
 
Dejte data z vašeho XML feedu do správné kondice
Dejte data z vašeho XML feedu do správné kondiceDejte data z vašeho XML feedu do správné kondice
Dejte data z vašeho XML feedu do správné kondiceTaste Medio
 
Impresní remarketing RTB a FB
Impresní remarketing RTB a FBImpresní remarketing RTB a FB
Impresní remarketing RTB a FBTaste Medio
 
Symboly značky prakticky
Symboly značky praktickySymboly značky prakticky
Symboly značky praktickyTaste Medio
 
Marketingový framework PAVRD
Marketingový framework PAVRDMarketingový framework PAVRD
Marketingový framework PAVRDTaste Medio
 
Pozornost jako spouštěč i zabiják krizí
Pozornost jako spouštěč i zabiják krizíPozornost jako spouštěč i zabiják krizí
Pozornost jako spouštěč i zabiják krizíTaste Medio
 
DOBRO-INFLUENCE: Jak propojit síť influencerů ke smysluplné změně?
DOBRO-INFLUENCE: Jak propojit síť influencerů ke smysluplné změně?DOBRO-INFLUENCE: Jak propojit síť influencerů ke smysluplné změně?
DOBRO-INFLUENCE: Jak propojit síť influencerů ke smysluplné změně?Taste Medio
 
Od luxusu k ekologické odpovědnosti, aneb jak s pomocí PR a kampaně na sociál...
Od luxusu k ekologické odpovědnosti, aneb jak s pomocí PR a kampaně na sociál...Od luxusu k ekologické odpovědnosti, aneb jak s pomocí PR a kampaně na sociál...
Od luxusu k ekologické odpovědnosti, aneb jak s pomocí PR a kampaně na sociál...Taste Medio
 
Bageta plná hejtu
Bageta plná hejtuBageta plná hejtu
Bageta plná hejtuTaste Medio
 
Collabim: behind the scene (part #001)
Collabim: behind the scene (part #001)Collabim: behind the scene (part #001)
Collabim: behind the scene (part #001)Taste Medio
 
"Jak výhodně incestovat" aneb srandy s klíčovkami
"Jak výhodně incestovat" aneb srandy s klíčovkami"Jak výhodně incestovat" aneb srandy s klíčovkami
"Jak výhodně incestovat" aneb srandy s klíčovkamiTaste Medio
 
Agentura/In-house/Freelance - kde dělat SEO?
Agentura/In-house/Freelance - kde dělat SEO?Agentura/In-house/Freelance - kde dělat SEO?
Agentura/In-house/Freelance - kde dělat SEO?Taste Medio
 
Příběh zákazníka po 3 letech od první návštěvy až k CLV a vlastní atribuci
Příběh zákazníka po 3 letech od první návštěvy až k CLV a vlastní atribuciPříběh zákazníka po 3 letech od první návštěvy až k CLV a vlastní atribuci
Příběh zákazníka po 3 letech od první návštěvy až k CLV a vlastní atribuciTaste Medio
 
Kde jsou limity zákaznické 360°?
 Kde jsou limity zákaznické 360°? Kde jsou limity zákaznické 360°?
Kde jsou limity zákaznické 360°?Taste Medio
 
Marketing a data. Umíme v nich najít hodnotu?
Marketing a data. Umíme v nich najít hodnotu?Marketing a data. Umíme v nich najít hodnotu?
Marketing a data. Umíme v nich najít hodnotu?Taste Medio
 

Plus de Taste Medio (20)

Zodpovědně na automatizovaný účet
Zodpovědně na automatizovaný účetZodpovědně na automatizovaný účet
Zodpovědně na automatizovaný účet
 
Pépécéčkaři versus Google Analytics 4
Pépécéčkaři versus Google Analytics 4Pépécéčkaři versus Google Analytics 4
Pépécéčkaři versus Google Analytics 4
 
Jak (a proč) pracovat s klíčovkou?
Jak (a proč) pracovat s klíčovkou?Jak (a proč) pracovat s klíčovkou?
Jak (a proč) pracovat s klíčovkou?
 
Vyhodnocování tendrů aneb insighty z B2B průzkumů
Vyhodnocování tendrů aneb insighty z B2B průzkumůVyhodnocování tendrů aneb insighty z B2B průzkumů
Vyhodnocování tendrů aneb insighty z B2B průzkumů
 
Právní bitvy o PPCčka aneb věděli jste, že...?
Právní bitvy o PPCčka aneb věděli jste, že...?Právní bitvy o PPCčka aneb věděli jste, že...?
Právní bitvy o PPCčka aneb věděli jste, že...?
 
Retenční analýza - krok za krokem
 Retenční analýza - krok za krokem Retenční analýza - krok za krokem
Retenční analýza - krok za krokem
 
Dejte data z vašeho XML feedu do správné kondice
Dejte data z vašeho XML feedu do správné kondiceDejte data z vašeho XML feedu do správné kondice
Dejte data z vašeho XML feedu do správné kondice
 
Impresní remarketing RTB a FB
Impresní remarketing RTB a FBImpresní remarketing RTB a FB
Impresní remarketing RTB a FB
 
Symboly značky prakticky
Symboly značky praktickySymboly značky prakticky
Symboly značky prakticky
 
Marketingový framework PAVRD
Marketingový framework PAVRDMarketingový framework PAVRD
Marketingový framework PAVRD
 
Pozornost jako spouštěč i zabiják krizí
Pozornost jako spouštěč i zabiják krizíPozornost jako spouštěč i zabiják krizí
Pozornost jako spouštěč i zabiják krizí
 
DOBRO-INFLUENCE: Jak propojit síť influencerů ke smysluplné změně?
DOBRO-INFLUENCE: Jak propojit síť influencerů ke smysluplné změně?DOBRO-INFLUENCE: Jak propojit síť influencerů ke smysluplné změně?
DOBRO-INFLUENCE: Jak propojit síť influencerů ke smysluplné změně?
 
Od luxusu k ekologické odpovědnosti, aneb jak s pomocí PR a kampaně na sociál...
Od luxusu k ekologické odpovědnosti, aneb jak s pomocí PR a kampaně na sociál...Od luxusu k ekologické odpovědnosti, aneb jak s pomocí PR a kampaně na sociál...
Od luxusu k ekologické odpovědnosti, aneb jak s pomocí PR a kampaně na sociál...
 
Bageta plná hejtu
Bageta plná hejtuBageta plná hejtu
Bageta plná hejtu
 
Collabim: behind the scene (part #001)
Collabim: behind the scene (part #001)Collabim: behind the scene (part #001)
Collabim: behind the scene (part #001)
 
"Jak výhodně incestovat" aneb srandy s klíčovkami
"Jak výhodně incestovat" aneb srandy s klíčovkami"Jak výhodně incestovat" aneb srandy s klíčovkami
"Jak výhodně incestovat" aneb srandy s klíčovkami
 
Agentura/In-house/Freelance - kde dělat SEO?
Agentura/In-house/Freelance - kde dělat SEO?Agentura/In-house/Freelance - kde dělat SEO?
Agentura/In-house/Freelance - kde dělat SEO?
 
Příběh zákazníka po 3 letech od první návštěvy až k CLV a vlastní atribuci
Příběh zákazníka po 3 letech od první návštěvy až k CLV a vlastní atribuciPříběh zákazníka po 3 letech od první návštěvy až k CLV a vlastní atribuci
Příběh zákazníka po 3 letech od první návštěvy až k CLV a vlastní atribuci
 
Kde jsou limity zákaznické 360°?
 Kde jsou limity zákaznické 360°? Kde jsou limity zákaznické 360°?
Kde jsou limity zákaznické 360°?
 
Marketing a data. Umíme v nich najít hodnotu?
Marketing a data. Umíme v nich najít hodnotu?Marketing a data. Umíme v nich najít hodnotu?
Marketing a data. Umíme v nich najít hodnotu?
 

2020: AutoML, aneb nahradí roboti analytiky?

  • 2. Technologie Business JAN MATOUŠEK / DATA MIND HLAVNI ANALYTIK, CEO 1995 SPSS Statistics 2003 SPSS Modeler 2013 R 2016 Python 2018 Deep learning 2020Auto ML strana 2 1998 Cati programátor 2003 O2/ Eurotel Zákaznická Segmentace 2013+ Data Mind desítky modelů segmentačních, predikčních, next-best-offer apod. „Kdo se každý rok nenaučí novou věc, je mrtvý analytik“
  • 3. Automl Naive Blueprint – Přísliby nebo kecy? • Od syrových dat po produkční prostředí Všechno samo • je tak chytrý, že se sám zoptimalizuje Umělá inteligence řídí umělou inteligenci • S autopilotem to dá každý Pro každého/ nováčky / manažery Co je AutoML? Stavební kameny ML +Automatizace Prediktivní analytika
  • 4. AnatomieAutoML systému – co je Auto ML technicky •Automatizované Feature engeneering •Tj. Automatická tvorba odvozených proměnných •Například logaritmy a jiné transformace •Interakce proměnných •Faktory •Clustery z proměnných •Testovací a validační vzorky Příprava dat II • Výběr a vývoj jednotlivých algoritmů • Hledání optimálních parametrů modelu • Tj. vyzkoušíme všechny varianty a necháme nejlepší • Vyhodnocení nejlepších modelů • „Ansámbl“ • Sborový model složený ze všech či několika nejlepších modelů Modelování • Výsledky modelů • Testy stability na validačních a testovacích datech • Deskriptivní statistiky • Pokročilé nástroje • Skóringová soustava skriptů • (Skoring pipeline) • Zjednodušené modely pro interpretaci • Deployment (nasazení) do API či pipeline Interpretace a nasazení
  • 5. Jakou část práce nám Auto ML nahrazuje Nahrazuje ■Ladění a výběr modelů ■Druhou část přípravy dat  Ladění nezávislých proměnných ■Některé, technické části vyhodnocení Nenahrazuje ■Správně určený target – cílovou proměnnou  NapříkladVýpověď, Nákup, CustomerValue ■Časový a koncepční design prediktivních modelů ■Porozumění businessu a významu dat
  • 6. 3 kategorieAuto ML Open source ■ Komunitní Open source  Auto Sklearn, Auto Keras,TPOT Specializovaný startup ■ Data Robot (komerční) ■ H20 (Open source i komerční ) Technologický gigant ■ IBM SPSS (Auto classifier, licenční model) ■ Google Auto ML (Výpočetní pay as you go) ■ Amazon Sagemaker Autopilot ■ MS Azure AutoML *LOGA a názvy jsou majetkem jejich vlastníků /autorů
  • 7. Jak se liší ambice jednotlivých řešení Základní automatizace s ambicemi ■ Auto - Sklearn (Open)  Automatizuje základní ladění parametrů a část datové přípravy  Funguje dobře na malých a středních datech  První zastávka na cestě ■ Auto – Keras (deep learning a obrázky) ■ TPOT (Open)  Pokročilejší a ambiciózní projekt „konkurenční“ k Auto - Sklearn  Tree-based Pipeline Optimization Tool Zjednodušuje mnoho oblastí ■ IBM SPSS ModelerAuto* Modely (Komerční)  Spouštění několika modelů, výběr nejlepšího, deployment ■ H2O (Open)  Poměrně kompletní sada i se základním uživatelským rozhraním Plnohodnotná automatizace ■ GoogleAutoML (Komerční)  I pro nováčky, plná automatizace, málo možností, trochu blackbox ■ Data Robot (Komerční)  Uživatelské rozhraní, kompletní automatizace, interpretace, část. deployment ■ H20 Driverless (Komerční)  Velmi pokročilé uživatelské rozhraní, kompletní automatizace, interpretace, část. deployment Kompletní Řešení Zdarmaaotevřené *LOGA jsou majetkem jejich vlastníků / autorů
  • 8. Poměry v táboře - Google trends vyhledávací dotazy
  • 9. Co říkají drahé** agentury Gartner visionáři 2020 *OCHARNNÉ známky agentur jsou majetkem jejich vlastníků **Synonymum vážené; Zdroj: Agentury Gartner a Forrester Gartner Magic Quadrant for Data Science and Machine Learning Platforms
  • 10. Case study Predikce prodeje módní obuvi DEEP DIVE – NEUTOPTE SE strana 10
  • 11. Jak dobré ty systémy jsou Problém: ■Predikce dalšího nákupu obuvi u stávajících, registrovaných zákazníků ■Data: Reálná, anonymizovaná cca 60 tisíc, 20 tisíc pozitivních Benchmark řešení Model Technologie CPU – minut Čas data scientist Logistická regrese IBM SPSS Statistics 0 10 hodin AutoML H20 Driverless AI 20 1 hodina AutoML H20 (Open) 30 2 hodiny
  • 12. Logistická regrese - cca 10 hodin práce ■Interakce významným proměnných  Ruční zadání do kódu či interaktivně ■Výběr proměnných  Poloautomatický, komerční software IBM SPSS Statistics (starší verze) ■Ladění parametrů modelu  Statistická významnost  Parametry výběru proměnných  Testovací vzorky  Stabilita modelu
  • 18. Porovnání na ROC křivkách (x= true positive, y= false positive) Logistic regression + 10h data scientist H20 Driverless AI Default, bezpracné H20 (Open) +1-2 hodiny práce, default AUC = 0,73 AUC = 0,74 AUC = 0,75 • 2-3 % nárůst výkonu díky Auto – ML řešením • Jednoznačná úspora času • Automatický výběr pokročilého modelu
  • 19. Závěry - Připraví AutoML data scientisty o práci? • Hledání parametrů • Výběr algoritmu • Odvozené a transformované proměnné • Sestavení skoringové pipeline (částečně) • Obchodní cíle • Doménová znalost • Definice úloh • Použití modelů v praxi • Stabilita v čase • Obchodní část interpretace
  • 20. www.datamind.cz Data Mind s.r.o., Pobřežní 18/16, 186 00 Praha 8 Loga a registrované značky uvedené v této prezentaci jsou majetkem jejich právoplatných majitelů. Jan Matoušek jan.matousek@datamind.cz +420 720 705 639