#DevoxxFR @cfalguiere
Devoxx France 2016
Claude Falguière
@cfalguiere
1
https://github.com/cfalguiere/H2ODemo/blob/master/h2o-devoxx-2016.pdf
www.h2o.ai
H2O
Le Machine Learning sans coder
… ou presque
#DevoxxFR @cfalguiere 2
Open Source Math & Machine learning for Big Data!
!
importer et parser des sources
manipuler les dataframes
ajuster un modèle prédictif
calculer une prédiction
sauver les modèles et les réutiliser
#DevoxxFR @cfalguiere 3
Source Wikipedia
20
192
27 76 77
24 80 14
6 140 57
Données Titanic
#DevoxxFR @cfalguiere 4
Données
connues
Ajustement d’un
Modèle Prédictif
Nouvelles
données
Calcul d’une
Prédiction
#DevoxxFR @cfalguiere 5
Class
(x1)
Age
(x2)
Sex
(x3)
Survived
(x4)
1 42 1 1
3 26 1 0
2 33 2 1
2 6 1 1
Par exemple
déterminer p0, p1, p2, p3 pour que
p0 + p1x1 + p2x2 + p3x3 = x4
fixer p0, p1, p2, p3
calculer x’4
évaluer l’écart avec x4 

(Loss function)
Adapter p0, p1, p2, p3 pour
minimiser l’écart
itérer
Machine Learning
Données
Modèle
#DevoxxFR @cfalguiere 6
Données
connues
!
Entrainement d’un
modèle prédictif
Jeu d’entraînement Jeu de validation
Prédiction et
vérification
!
Modèle
potentiel
!
Modèle
validé
#DevoxxFR @cfalguiere 7
Nouvelles
données
PrédictionJeu de travail+ ->
!
Modèle
validé
#DevoxxFR @cfalguiere 8
Données
p0
p1
p2
p3
C A Sx Su
1 42 1 1
3 26 1 0
2 33 2 1
2 6 1 1
Modèle Prédiction
Su’
1
0
1
1
#DevoxxFR @cfalguiere 9
C A Sx Su
1 42 1 1
3 26 1 0
2 33 2 1
2 6 1 1
Su’
1
0
1
1
p0
p1
p2
p3
p0
p1
p2
p3
p0
p1
p2
p3
p0 p0 p3
p0 p0 p3
p0 p0 p3
p0
p1
p2
p3
Réseau de neurones
Données Modèle Prédiction
#DevoxxFR @cfalguiere
Menu pour
générer les
cellules et
autres
actions
H2O Flow
10
Les cellules contiennent
Une instruction H2O
ou du texte
ou du code R ou Python
L’ensemble des
cellules constitue
un Flow
#DevoxxFR @cfalguiere 11
Démo
H2O Flow
#DevoxxFR @cfalguiere 12
Jeu préparé !
classe, sexe, adulte/enfant!
avec équipage
Distributed Random ForestDistributed Random Forest
Jeu détaillé !
avec en plus âge, poids, bateau, destination !
passagers seulement
Deep Learning
#DevoxxFR @cfalguiere
Algorithmes dans H2O
13
Supervised*learning*
!
On!a!un!jeu!de!données!dont!
on!connait!les!réponses!et!
on!veut!une!formule!pour!
es5mer!la!réponse!sur!
d’autres!jeux!de!données!
#DevoxxFR @cfalguiere 14
Unsupervised+learning+
!
On!recherche!!une!formule!
perme.ant!de!définir!des!!
groupes!d’observa:ons!se!
ressemblant!ou!suivant!le!
même!pa.ern.!
Algorithmes dans H2O
#DevoxxFR @cfalguiere 15
Autre
Pré-requis
Java
Architectures
Flow UI
API REST
Langages Bindings R
et Python
Tout en mémoire
RAM = 4 x Data
#DevoxxFR @cfalguiere
Clusters
16
Peut constituer son propre cluster
Ou fonctionner sur des clusters Spark
ou Hadoop existants
Versions spécifiques Hadoop
Sparkling Water pour Spark
Même mode de fonctionnement
#DevoxxFR @cfalguiere
APIs
17
#DevoxxFR @cfalguiere 18
H2O Flow est attractif
Utilisation très facile du cluster Hadoop
Essayer des modèles très rapidement
!
Conclusion
Compléter
avec l’API!
Combiner les modèles
Intégrer la préparation des données
Industrialiser
Prise en
main facile!
#DevoxxFR @cfalguiere 19
Merci
!
Avez vous des
questions ?

H2O , Le machine learning sans coder ou presque - Devoxx france 2016