Publicité

2020: AutoML, aneb nahradí roboti analytiky?

Taste Medio
11 Mar 2020
Publicité

Contenu connexe

Publicité

2020: AutoML, aneb nahradí roboti analytiky?

  1. …cílíme přesně AutoML ANEB NAHRADÍ ROBOTI ANALYTIKY?
  2. Technologie Business JAN MATOUŠEK / DATA MIND HLAVNI ANALYTIK, CEO 1995 SPSS Statistics 2003 SPSS Modeler 2013 R 2016 Python 2018 Deep learning 2020Auto ML strana 2 1998 Cati programátor 2003 O2/ Eurotel Zákaznická Segmentace 2013+ Data Mind desítky modelů segmentačních, predikčních, next-best-offer apod. „Kdo se každý rok nenaučí novou věc, je mrtvý analytik“
  3. Automl Naive Blueprint – Přísliby nebo kecy? • Od syrových dat po produkční prostředí Všechno samo • je tak chytrý, že se sám zoptimalizuje Umělá inteligence řídí umělou inteligenci • S autopilotem to dá každý Pro každého/ nováčky / manažery Co je AutoML? Stavební kameny ML +Automatizace Prediktivní analytika
  4. AnatomieAutoML systému – co je Auto ML technicky •Automatizované Feature engeneering •Tj. Automatická tvorba odvozených proměnných •Například logaritmy a jiné transformace •Interakce proměnných •Faktory •Clustery z proměnných •Testovací a validační vzorky Příprava dat II • Výběr a vývoj jednotlivých algoritmů • Hledání optimálních parametrů modelu • Tj. vyzkoušíme všechny varianty a necháme nejlepší • Vyhodnocení nejlepších modelů • „Ansámbl“ • Sborový model složený ze všech či několika nejlepších modelů Modelování • Výsledky modelů • Testy stability na validačních a testovacích datech • Deskriptivní statistiky • Pokročilé nástroje • Skóringová soustava skriptů • (Skoring pipeline) • Zjednodušené modely pro interpretaci • Deployment (nasazení) do API či pipeline Interpretace a nasazení
  5. Jakou část práce nám Auto ML nahrazuje Nahrazuje ■Ladění a výběr modelů ■Druhou část přípravy dat  Ladění nezávislých proměnných ■Některé, technické části vyhodnocení Nenahrazuje ■Správně určený target – cílovou proměnnou  NapříkladVýpověď, Nákup, CustomerValue ■Časový a koncepční design prediktivních modelů ■Porozumění businessu a významu dat
  6. 3 kategorieAuto ML Open source ■ Komunitní Open source  Auto Sklearn, Auto Keras,TPOT Specializovaný startup ■ Data Robot (komerční) ■ H20 (Open source i komerční ) Technologický gigant ■ IBM SPSS (Auto classifier, licenční model) ■ Google Auto ML (Výpočetní pay as you go) ■ Amazon Sagemaker Autopilot ■ MS Azure AutoML *LOGA a názvy jsou majetkem jejich vlastníků /autorů
  7. Jak se liší ambice jednotlivých řešení Základní automatizace s ambicemi ■ Auto - Sklearn (Open)  Automatizuje základní ladění parametrů a část datové přípravy  Funguje dobře na malých a středních datech  První zastávka na cestě ■ Auto – Keras (deep learning a obrázky) ■ TPOT (Open)  Pokročilejší a ambiciózní projekt „konkurenční“ k Auto - Sklearn  Tree-based Pipeline Optimization Tool Zjednodušuje mnoho oblastí ■ IBM SPSS ModelerAuto* Modely (Komerční)  Spouštění několika modelů, výběr nejlepšího, deployment ■ H2O (Open)  Poměrně kompletní sada i se základním uživatelským rozhraním Plnohodnotná automatizace ■ GoogleAutoML (Komerční)  I pro nováčky, plná automatizace, málo možností, trochu blackbox ■ Data Robot (Komerční)  Uživatelské rozhraní, kompletní automatizace, interpretace, část. deployment ■ H20 Driverless (Komerční)  Velmi pokročilé uživatelské rozhraní, kompletní automatizace, interpretace, část. deployment Kompletní Řešení Zdarmaaotevřené *LOGA jsou majetkem jejich vlastníků / autorů
  8. Poměry v táboře - Google trends vyhledávací dotazy
  9. Co říkají drahé** agentury Gartner visionáři 2020 *OCHARNNÉ známky agentur jsou majetkem jejich vlastníků **Synonymum vážené; Zdroj: Agentury Gartner a Forrester Gartner Magic Quadrant for Data Science and Machine Learning Platforms
  10. Case study Predikce prodeje módní obuvi DEEP DIVE – NEUTOPTE SE strana 10
  11. Jak dobré ty systémy jsou Problém: ■Predikce dalšího nákupu obuvi u stávajících, registrovaných zákazníků ■Data: Reálná, anonymizovaná cca 60 tisíc, 20 tisíc pozitivních Benchmark řešení Model Technologie CPU – minut Čas data scientist Logistická regrese IBM SPSS Statistics 0 10 hodin AutoML H20 Driverless AI 20 1 hodina AutoML H20 (Open) 30 2 hodiny
  12. Logistická regrese - cca 10 hodin práce ■Interakce významným proměnných  Ruční zadání do kódu či interaktivně ■Výběr proměnných  Poloautomatický, komerční software IBM SPSS Statistics (starší verze) ■Ladění parametrů modelu  Statistická významnost  Parametry výběru proměnných  Testovací vzorky  Stabilita modelu
  13. H20 Driverless AI
  14. H20 Driverless AI
  15. H20 Open source
  16. H20 Open source
  17. …cílíme přesně Benchmark
  18. Porovnání na ROC křivkách (x= true positive, y= false positive) Logistic regression + 10h data scientist H20 Driverless AI Default, bezpracné H20 (Open) +1-2 hodiny práce, default AUC = 0,73 AUC = 0,74 AUC = 0,75 • 2-3 % nárůst výkonu díky Auto – ML řešením • Jednoznačná úspora času • Automatický výběr pokročilého modelu
  19. Závěry - Připraví AutoML data scientisty o práci? • Hledání parametrů • Výběr algoritmu • Odvozené a transformované proměnné • Sestavení skoringové pipeline (částečně) • Obchodní cíle • Doménová znalost • Definice úloh • Použití modelů v praxi • Stabilita v čase • Obchodní část interpretace
  20. www.datamind.cz Data Mind s.r.o., Pobřežní 18/16, 186 00 Praha 8 Loga a registrované značky uvedené v této prezentaci jsou majetkem jejich právoplatných majitelů. Jan Matoušek jan.matousek@datamind.cz +420 720 705 639
Publicité