SlideShare une entreprise Scribd logo
Démystifions le Machine
Learning avec Spark
David MARTIN
DIRECTEUR DU CONSEIL
dmartin@ippon.fr
@_dmartin_
Simple facts
90% de la donnée
mondialeactuelle générée
au cours des 2 dernières années
Machine
Learning ?
Définition
Le Machine Learning est une branche de l’Intelligence Artificielle…
… qui s’attache à étudier les techniques permettant à un système d’apprendre à
réaliser des tâches.
Souvent couplé au Data Mining, l’ensemble permet d’apporter une réponse
complète aux problématiques d’analyse et de traitement de la donnée.
Machine Learning paradigm == Programming by example
Présentation
par l’exemple
Prédire un prix
Déterminer le bon prix pour vendre un bien
Quels paramètres pour construire le modèle ?
Surface habitable, surface terrain, exposition, nombre de chambres, salles de
bains, année de construction, ...
Catégorisation d’entités
Déterminer si un équipement présente un risque de panne
Quels paramètres ?
Nb heures de fonctionnement, température(s), régime, nombre total d’opérations,
contraintes, ...
Création de groupes de données
Grouper les données : segmenter une base clients
Apprentissage non supervisé : l’algorithme n’a pas reçu d’information d’
appartenance à une catégorie, il crée lui même les groupes
Reconnaissance d’objets
Reconnaître un objet, une forme, une lettre, un son, ...
Mais aussi...
> Optimisations de campagnes marketing
> Détection de fraude
> Optimisations de chaines d’approvisionnement
> Sécurisation de la fidélité client (customer churn prediction)
> Moteurs de recommandation
> Publicité ou Contenu ciblés
> Nouveaux services disruptifs
...
Les principaux
algorithmes
Catégories d’algorithmes
Catégories d’algorithmes d’apprentissage :
> Apprentissage supervisé
> Apprentissage non supervisé
> Apprentissage semi supervisé
> Apprentissage par renforcement
...
Principaux algorithmes
Des algorithmes ou familles fréquemment utilisé(e)s :
> Logistic regression
> Linear regression
> Support Vector Machine
> Decision Tree / Random Forest
> K-Means
> (Deep) Neural networks
...
De la donnée
brute à la
prédiction
La donnée brute
Au départ, beaucoup de données…
… potentiellement issues de beaucoup de systèmes
… traitant d’aspects divers
De la donnée brute, encore impropre à la consommation
La préparation
Nettoyer, Filtrer, Harmoniser les informations pour commencer à travailler
> Supprimer ou compléter les données incomplètes
> Retenir les données relatives au domaine ciblé
> Homogénéiser les formats, les valeurs (si issues de systèmes différents…)
> Qualifier si besoin les informations (cas de l’apprentissage supervisé)
> Dériver les informations de la masse existante
Identifier le cas d’utilisation
Identifier la catégorie du cas d’utilisation
pour identifier le ou les algorithmes potentiellement adaptés
et sélectionner les paramètres en entrée offrant la meilleure pertinence
Le bon choix d’algorithme(s) importe tout autant que la bonne identification et
préparation des paramètres d’entrée
Implémenter, ajuster, itérer
> Construire un modèle de prédiction sur la base d’une partie des données
préparées
> Tester le modèle
> Déduire les ajustements nécessaires
> Réitérer cette étape si besoin
Le processus est itératif…
… et peut prendre un temps important
avant de donner satisfaction
Prédire !
Prédire reste la finalité
Mais le modèle peut/doit vivre. Les postulats initiaux évoluent.
Il doit être regénéré sur la base de données actualisées
> A/B Testing
> Sauvegarde et versioning des modèles
En image
Raw data
Processed
data
Clean
Format
Extract features
...
Algorithm
training
Test
Precision
threshold
Prediction
Input
(validation set / real data)
En synthèse
Les points importants :
> Disposer de beaucoup de données : le plus le mieux très souvent (mais pas
toujours)
> Pertinence et nombre des paramètres
> Commencer simple et itérer (!= optimisation précoce)
De la théorie à
la pratique
Implémentations
Rappels
On n’implémente pas sa version d’un algorithme
On utilise une implémentation existante, testée et éprouvée
Approches et outils
Approche SaaS
> API spécialisées ou génériques
> Azure Machine Learning
> Amazon Machine Learning
> Google Prediction API ...
Approche “tailor made” (plus bas niveau)
> Pandas / Scikit Learn
> Vowpal Wabbit
> Weka
> Apache Spark ...
Apache Spark
Apache Spark en quelques points
> Projet de l’Université de Berkeley (2009)
> Solution générique et performante de traitement de données
> Adaptée aux très gros volumes de données
> Distribue les traitements
> Données en mémoire pour une meilleure performance
> Ecrit en Scala, bindings Java, Python et R
> Traction de plus en plus forte
Apache Spark
Spark offre une solution performante de traitements de la donnée
Spark ML / ML Lib
Principaux algorithmes supportés
> Classification et régression
○ Linear regression, logistic regression, SVM
○ Naive Bayes (classification)
○ Decision Trees (Random Forest, Gradient-Boosted Trees)
> Système de recommandation
○ Collaborative Filtering (Alternating Least Squares)
> Clustering
○ K-Means, Latent Dirichlet allocation, …
> Frequent Pattern Mining
> Facilités pour la réduction de dimension (SVD, PCA)
> Optimisations possibles (Stochastic Gradient Descent…)
> Organisation des traitements sous forme de Pipelines (Spark ML)
External libraries / Extensions
Spark peut être étendu :
> librairies additionnelles tirant profit du framework
> Time Series
> Deep Learning
> Graph (GraphFrame)
et profiter de solutions externes :
> Notebooks (Zeppelin, Databricks, …)
> Solutions de dashboards
(Databricks Dashboards)
Pour conclure
Apache Spark est une solution
polyvalente et en pleine croissance
⇒ Pertinence de la plateforme à l’
ère du Big Data
Les perspectives futures sont très
intéressantes :
● Evolution constante de la
bibliothèque d’algorithmes,
● librairies externes
complémentaires spécialisées,
● traction en forte accélération, ...
Venez nous rendre visite au
STAND IPPON 501
PARIS - BORDEAUX - NANTES
WASHINGTON DC - NEW-YORK - RICHMOND
contact@ippon.fr
www.ippon.fr - www.ippon-hosting.com - www.ippon-digital.fr
@ippontech - 01 46 12 48 48

Contenu connexe

Tendances

Support programmation orientée aspect mohamed youssfi (aop)
Support programmation orientée aspect mohamed youssfi (aop)Support programmation orientée aspect mohamed youssfi (aop)
Support programmation orientée aspect mohamed youssfi (aop)
ENSET, Université Hassan II Casablanca
 
Telosys tools jug-nantes-2014-v1.2
Telosys tools jug-nantes-2014-v1.2Telosys tools jug-nantes-2014-v1.2
Telosys tools jug-nantes-2014-v1.2
Laurent Guérin
 
Support de cours angular
Support de cours angularSupport de cours angular
Support de cours angular
ENSET, Université Hassan II Casablanca
 
Nouveau look pour une nouvelle vie : HTML5, Spring, NoSQL et Mobile
Nouveau look pour une nouvelle vie : HTML5, Spring, NoSQL et MobileNouveau look pour une nouvelle vie : HTML5, Spring, NoSQL et Mobile
Nouveau look pour une nouvelle vie : HTML5, Spring, NoSQL et Mobile
Ippon
 
Formation JPA Avancé / Hibernate gratuite par Ippon 2014
Formation JPA Avancé / Hibernate gratuite par Ippon 2014Formation JPA Avancé / Hibernate gratuite par Ippon 2014
Formation JPA Avancé / Hibernate gratuite par Ippon 2014
Ippon
 
Web API & Cache, the HTTP way - Ippevent 10 Juin 2014
Web API & Cache, the HTTP way - Ippevent 10 Juin 2014Web API & Cache, the HTTP way - Ippevent 10 Juin 2014
Web API & Cache, the HTTP way - Ippevent 10 Juin 2014
Ippon
 
Cours de Génie Logiciel / ESIEA 2013-2014
Cours de Génie Logiciel / ESIEA 2013-2014 Cours de Génie Logiciel / ESIEA 2013-2014
Cours de Génie Logiciel / ESIEA 2013-2014
Thierry Leriche-Dessirier
 
Cours design pattern m youssfi partie 3 decorateur
Cours design pattern m youssfi partie 3 decorateurCours design pattern m youssfi partie 3 decorateur
Cours design pattern m youssfi partie 3 decorateur
ENSET, Université Hassan II Casablanca
 
Design patterns
Design patternsDesign patterns
Design patterns
Eric Toguem
 
Support POO Java première partie
Support POO Java première partieSupport POO Java première partie
Support POO Java première partie
ENSET, Université Hassan II Casablanca
 
Drools et les moteurs de règles
Drools et les moteurs de règlesDrools et les moteurs de règles
Drools et les moteurs de règles
Publicis Sapient Engineering
 
Hibernate
HibernateHibernate
Hibernate
Ghazouani Mahdi
 
Hibernate
HibernateHibernate
Tutoriel java
Tutoriel javaTutoriel java
Tutoriel java
Kalilou DIABY
 
Design Pattern introduction
Design Pattern introductionDesign Pattern introduction
Design Pattern introduction
neuros
 
PerfUG Comment tester et optimiser la performance d'un SI ?
PerfUG Comment tester et optimiser la performance d'un SI ?PerfUG Comment tester et optimiser la performance d'un SI ?
PerfUG Comment tester et optimiser la performance d'un SI ?
Marc Bojoly
 
Abstract factory+adapter
Abstract factory+adapterAbstract factory+adapter
Abstract factory+adapter
Kamel Eddine Heragmi
 
Java entreprise edition et industrialisation du génie logiciel par m.youssfi
Java entreprise edition et industrialisation du génie logiciel par m.youssfiJava entreprise edition et industrialisation du génie logiciel par m.youssfi
Java entreprise edition et industrialisation du génie logiciel par m.youssfi
ENSET, Université Hassan II Casablanca
 
Architecture jee principe de inversion de controle et injection des dependances
Architecture jee principe de inversion de controle et injection des dependancesArchitecture jee principe de inversion de controle et injection des dependances
Architecture jee principe de inversion de controle et injection des dependances
ENSET, Université Hassan II Casablanca
 

Tendances (20)

Support programmation orientée aspect mohamed youssfi (aop)
Support programmation orientée aspect mohamed youssfi (aop)Support programmation orientée aspect mohamed youssfi (aop)
Support programmation orientée aspect mohamed youssfi (aop)
 
Telosys tools jug-nantes-2014-v1.2
Telosys tools jug-nantes-2014-v1.2Telosys tools jug-nantes-2014-v1.2
Telosys tools jug-nantes-2014-v1.2
 
Support de cours angular
Support de cours angularSupport de cours angular
Support de cours angular
 
Nouveau look pour une nouvelle vie : HTML5, Spring, NoSQL et Mobile
Nouveau look pour une nouvelle vie : HTML5, Spring, NoSQL et MobileNouveau look pour une nouvelle vie : HTML5, Spring, NoSQL et Mobile
Nouveau look pour une nouvelle vie : HTML5, Spring, NoSQL et Mobile
 
Formation JPA Avancé / Hibernate gratuite par Ippon 2014
Formation JPA Avancé / Hibernate gratuite par Ippon 2014Formation JPA Avancé / Hibernate gratuite par Ippon 2014
Formation JPA Avancé / Hibernate gratuite par Ippon 2014
 
Web API & Cache, the HTTP way - Ippevent 10 Juin 2014
Web API & Cache, the HTTP way - Ippevent 10 Juin 2014Web API & Cache, the HTTP way - Ippevent 10 Juin 2014
Web API & Cache, the HTTP way - Ippevent 10 Juin 2014
 
Cours de Génie Logiciel / ESIEA 2013-2014
Cours de Génie Logiciel / ESIEA 2013-2014 Cours de Génie Logiciel / ESIEA 2013-2014
Cours de Génie Logiciel / ESIEA 2013-2014
 
Cours design pattern m youssfi partie 3 decorateur
Cours design pattern m youssfi partie 3 decorateurCours design pattern m youssfi partie 3 decorateur
Cours design pattern m youssfi partie 3 decorateur
 
Design patterns
Design patternsDesign patterns
Design patterns
 
Support POO Java première partie
Support POO Java première partieSupport POO Java première partie
Support POO Java première partie
 
Drools et les moteurs de règles
Drools et les moteurs de règlesDrools et les moteurs de règles
Drools et les moteurs de règles
 
Hibernate
HibernateHibernate
Hibernate
 
Hibernate
HibernateHibernate
Hibernate
 
Hibernate 3
Hibernate 3Hibernate 3
Hibernate 3
 
Tutoriel java
Tutoriel javaTutoriel java
Tutoriel java
 
Design Pattern introduction
Design Pattern introductionDesign Pattern introduction
Design Pattern introduction
 
PerfUG Comment tester et optimiser la performance d'un SI ?
PerfUG Comment tester et optimiser la performance d'un SI ?PerfUG Comment tester et optimiser la performance d'un SI ?
PerfUG Comment tester et optimiser la performance d'un SI ?
 
Abstract factory+adapter
Abstract factory+adapterAbstract factory+adapter
Abstract factory+adapter
 
Java entreprise edition et industrialisation du génie logiciel par m.youssfi
Java entreprise edition et industrialisation du génie logiciel par m.youssfiJava entreprise edition et industrialisation du génie logiciel par m.youssfi
Java entreprise edition et industrialisation du génie logiciel par m.youssfi
 
Architecture jee principe de inversion de controle et injection des dependances
Architecture jee principe de inversion de controle et injection des dependancesArchitecture jee principe de inversion de controle et injection des dependances
Architecture jee principe de inversion de controle et injection des dependances
 

En vedette

Quoi de neuf pour JHipster en 2016
Quoi de neuf pour JHipster en 2016Quoi de neuf pour JHipster en 2016
Quoi de neuf pour JHipster en 2016
Ippon
 
Système d’Information à l’Apec : un nouveau coeur de métier mis en place avec...
Système d’Information à l’Apec : un nouveau coeur de métier mis en place avec...Système d’Information à l’Apec : un nouveau coeur de métier mis en place avec...
Système d’Information à l’Apec : un nouveau coeur de métier mis en place avec...
Ippon
 
Formation Spring Avancé gratuite par Ippon 2014
Formation Spring Avancé gratuite par Ippon 2014Formation Spring Avancé gratuite par Ippon 2014
Formation Spring Avancé gratuite par Ippon 2014
Ippon
 
Multi criteria queries on a cassandra application
Multi criteria queries on a cassandra applicationMulti criteria queries on a cassandra application
Multi criteria queries on a cassandra application
Ippon
 
Realtime Web avec Akka, Kafka, Spark et Mesos - Devoxx Paris 2014
Realtime Web avec Akka, Kafka, Spark et Mesos - Devoxx Paris 2014Realtime Web avec Akka, Kafka, Spark et Mesos - Devoxx Paris 2014
Realtime Web avec Akka, Kafka, Spark et Mesos - Devoxx Paris 2014
Ippon
 
Formation Usine Logicielle gratuite par Ippon 2014
Formation Usine Logicielle gratuite par Ippon 2014Formation Usine Logicielle gratuite par Ippon 2014
Formation Usine Logicielle gratuite par Ippon 2014
Ippon
 
One Web (API?) – Alexandre Bertails - Ippevent 10 juin 2014
One Web (API?) – Alexandre Bertails - Ippevent 10 juin 2014One Web (API?) – Alexandre Bertails - Ippevent 10 juin 2014
One Web (API?) – Alexandre Bertails - Ippevent 10 juin 2014
Ippon
 
Cassandra Java Driver : vers Cassandra 1.2 et au-delà
Cassandra Java Driver : vers Cassandra 1.2 et au-delàCassandra Java Driver : vers Cassandra 1.2 et au-delà
Cassandra Java Driver : vers Cassandra 1.2 et au-delà
Ippon
 
Agilité, n’oublions pas les valeurs
Agilité, n’oublions pas les valeursAgilité, n’oublions pas les valeurs
Agilité, n’oublions pas les valeurs
Ippon
 
Formation GIT gratuite par ippon 2014
Formation GIT gratuite par ippon 2014Formation GIT gratuite par ippon 2014
Formation GIT gratuite par ippon 2014
Ippon
 
Atelier TDD (Test Driven Development)
Atelier TDD (Test Driven Development)Atelier TDD (Test Driven Development)
Atelier TDD (Test Driven Development)
Ippon
 
Formation Gratuite Total Tests par les experts Java Ippon
Formation Gratuite Total Tests par les experts Java Ippon Formation Gratuite Total Tests par les experts Java Ippon
Formation Gratuite Total Tests par les experts Java Ippon
Ippon
 
Paris stormusergroup intrudocution
Paris stormusergroup intrudocutionParis stormusergroup intrudocution
Paris stormusergroup intrudocution
Paris_Storm_UG
 
Apache Storm - Introduction au traitement temps-réel avec Storm
Apache Storm - Introduction au traitement temps-réel avec StormApache Storm - Introduction au traitement temps-réel avec Storm
Apache Storm - Introduction au traitement temps-réel avec Storm
Paris_Storm_UG
 
Formation html5 CSS3 offerte par ippon 2014
Formation html5 CSS3 offerte par ippon 2014Formation html5 CSS3 offerte par ippon 2014
Formation html5 CSS3 offerte par ippon 2014
Ippon
 
JPA avec Cassandra, grâce à Achilles
JPA avec Cassandra, grâce à AchillesJPA avec Cassandra, grâce à Achilles
JPA avec Cassandra, grâce à Achilles
Ippon
 
Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...
Petit-déjeuner OCTO Technology :  Calculez vos indicateurs en temps réel ave...Petit-déjeuner OCTO Technology :  Calculez vos indicateurs en temps réel ave...
Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...
OCTO Technology
 
L'entreprise libérée
L'entreprise libéréeL'entreprise libérée
L'entreprise libérée
SOAT
 
HDFS HA : Stockage à haute disponibilité par Damien Hardy
HDFS HA : Stockage à haute disponibilité par Damien HardyHDFS HA : Stockage à haute disponibilité par Damien Hardy
HDFS HA : Stockage à haute disponibilité par Damien Hardy
Olivier DASINI
 
Universitélang scala tools
Universitélang scala toolsUniversitélang scala tools
Universitélang scala tools
Fabrice Sznajderman
 

En vedette (20)

Quoi de neuf pour JHipster en 2016
Quoi de neuf pour JHipster en 2016Quoi de neuf pour JHipster en 2016
Quoi de neuf pour JHipster en 2016
 
Système d’Information à l’Apec : un nouveau coeur de métier mis en place avec...
Système d’Information à l’Apec : un nouveau coeur de métier mis en place avec...Système d’Information à l’Apec : un nouveau coeur de métier mis en place avec...
Système d’Information à l’Apec : un nouveau coeur de métier mis en place avec...
 
Formation Spring Avancé gratuite par Ippon 2014
Formation Spring Avancé gratuite par Ippon 2014Formation Spring Avancé gratuite par Ippon 2014
Formation Spring Avancé gratuite par Ippon 2014
 
Multi criteria queries on a cassandra application
Multi criteria queries on a cassandra applicationMulti criteria queries on a cassandra application
Multi criteria queries on a cassandra application
 
Realtime Web avec Akka, Kafka, Spark et Mesos - Devoxx Paris 2014
Realtime Web avec Akka, Kafka, Spark et Mesos - Devoxx Paris 2014Realtime Web avec Akka, Kafka, Spark et Mesos - Devoxx Paris 2014
Realtime Web avec Akka, Kafka, Spark et Mesos - Devoxx Paris 2014
 
Formation Usine Logicielle gratuite par Ippon 2014
Formation Usine Logicielle gratuite par Ippon 2014Formation Usine Logicielle gratuite par Ippon 2014
Formation Usine Logicielle gratuite par Ippon 2014
 
One Web (API?) – Alexandre Bertails - Ippevent 10 juin 2014
One Web (API?) – Alexandre Bertails - Ippevent 10 juin 2014One Web (API?) – Alexandre Bertails - Ippevent 10 juin 2014
One Web (API?) – Alexandre Bertails - Ippevent 10 juin 2014
 
Cassandra Java Driver : vers Cassandra 1.2 et au-delà
Cassandra Java Driver : vers Cassandra 1.2 et au-delàCassandra Java Driver : vers Cassandra 1.2 et au-delà
Cassandra Java Driver : vers Cassandra 1.2 et au-delà
 
Agilité, n’oublions pas les valeurs
Agilité, n’oublions pas les valeursAgilité, n’oublions pas les valeurs
Agilité, n’oublions pas les valeurs
 
Formation GIT gratuite par ippon 2014
Formation GIT gratuite par ippon 2014Formation GIT gratuite par ippon 2014
Formation GIT gratuite par ippon 2014
 
Atelier TDD (Test Driven Development)
Atelier TDD (Test Driven Development)Atelier TDD (Test Driven Development)
Atelier TDD (Test Driven Development)
 
Formation Gratuite Total Tests par les experts Java Ippon
Formation Gratuite Total Tests par les experts Java Ippon Formation Gratuite Total Tests par les experts Java Ippon
Formation Gratuite Total Tests par les experts Java Ippon
 
Paris stormusergroup intrudocution
Paris stormusergroup intrudocutionParis stormusergroup intrudocution
Paris stormusergroup intrudocution
 
Apache Storm - Introduction au traitement temps-réel avec Storm
Apache Storm - Introduction au traitement temps-réel avec StormApache Storm - Introduction au traitement temps-réel avec Storm
Apache Storm - Introduction au traitement temps-réel avec Storm
 
Formation html5 CSS3 offerte par ippon 2014
Formation html5 CSS3 offerte par ippon 2014Formation html5 CSS3 offerte par ippon 2014
Formation html5 CSS3 offerte par ippon 2014
 
JPA avec Cassandra, grâce à Achilles
JPA avec Cassandra, grâce à AchillesJPA avec Cassandra, grâce à Achilles
JPA avec Cassandra, grâce à Achilles
 
Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...
Petit-déjeuner OCTO Technology :  Calculez vos indicateurs en temps réel ave...Petit-déjeuner OCTO Technology :  Calculez vos indicateurs en temps réel ave...
Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...
 
L'entreprise libérée
L'entreprise libéréeL'entreprise libérée
L'entreprise libérée
 
HDFS HA : Stockage à haute disponibilité par Damien Hardy
HDFS HA : Stockage à haute disponibilité par Damien HardyHDFS HA : Stockage à haute disponibilité par Damien Hardy
HDFS HA : Stockage à haute disponibilité par Damien Hardy
 
Universitélang scala tools
Universitélang scala toolsUniversitélang scala tools
Universitélang scala tools
 

Similaire à Démystifions le machine learning avec spark par David Martin pour le Salon Big Data Paris 2016

Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning
Novagen Conseil
 
First step about IA and business
First step about IA and businessFirst step about IA and business
First step about IA and business
David Argellies
 
Ritme data solutions : Plateforme Data Science COsMO
Ritme data solutions : Plateforme Data Science COsMORitme data solutions : Plateforme Data Science COsMO
Ritme data solutions : Plateforme Data Science COsMO
Aurélien Adamo
 
Projet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de donnéesProjet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de données
Jean-Marc Dupont
 
Smart Factory par Copa Data
Smart Factory par Copa DataSmart Factory par Copa Data
Smart Factory par Copa Data
Mathias BAUMGARTNER
 
Le Data Engineer qui veut se faire aussi gros que le Data Scientist
Le Data Engineer qui veut se faire aussi gros que le Data ScientistLe Data Engineer qui veut se faire aussi gros que le Data Scientist
Le Data Engineer qui veut se faire aussi gros que le Data Scientist
Bachir Aitmbarek
 
SmartFactory par Copa Data
SmartFactory par Copa DataSmartFactory par Copa Data
SmartFactory par Copa Data
Mathias BAUMGARTNER
 
UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...
UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...
UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...
OCTO Technology
 
Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data Mining
Takfarinas KENOUCHE
 
Visite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des donnéesVisite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des données
Gautier Poupeau
 
AI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigAI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine Learnig
Felipe Sanchez Garzon
 
Diginova - Session sur le machine learning avec ML.NET
Diginova - Session sur le machine learning avec ML.NETDiginova - Session sur le machine learning avec ML.NET
Diginova - Session sur le machine learning avec ML.NET
Julien Chable
 
SQL Server et les développeurs
SQL Server et les développeurs SQL Server et les développeurs
SQL Server et les développeurs
Microsoft
 
Apprentissage Automatique et moteurs de recherche
Apprentissage Automatique et moteurs de rechercheApprentissage Automatique et moteurs de recherche
Apprentissage Automatique et moteurs de recherche
Philippe YONNET
 
Intelligence artificielle : du buzz à la réalité [webinaire]
Intelligence artificielle : du buzz à la réalité [webinaire] Intelligence artificielle : du buzz à la réalité [webinaire]
Intelligence artificielle : du buzz à la réalité [webinaire]
Technologia Formation
 
Debuteraveclesmls
DebuteraveclesmlsDebuteraveclesmls
ALT.NET Modéliser Parallèle avec C# 4.0
ALT.NET Modéliser Parallèle avec C# 4.0ALT.NET Modéliser Parallèle avec C# 4.0
ALT.NET Modéliser Parallèle avec C# 4.0
Bruno Boucard
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigData
Ludovic Piot
 
Mappingobjetrelationnel[1]
Mappingobjetrelationnel[1]Mappingobjetrelationnel[1]
Mappingobjetrelationnel[1]
linasafaa
 
BIPEA 2023 Yvon Gervaise : L'IA Matrice du Laboratoire du Futur ..
BIPEA 2023 Yvon Gervaise : L'IA Matrice du Laboratoire du Futur ..BIPEA 2023 Yvon Gervaise : L'IA Matrice du Laboratoire du Futur ..
BIPEA 2023 Yvon Gervaise : L'IA Matrice du Laboratoire du Futur ..
YvonGervaise
 

Similaire à Démystifions le machine learning avec spark par David Martin pour le Salon Big Data Paris 2016 (20)

Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning
 
First step about IA and business
First step about IA and businessFirst step about IA and business
First step about IA and business
 
Ritme data solutions : Plateforme Data Science COsMO
Ritme data solutions : Plateforme Data Science COsMORitme data solutions : Plateforme Data Science COsMO
Ritme data solutions : Plateforme Data Science COsMO
 
Projet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de donnéesProjet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de données
 
Smart Factory par Copa Data
Smart Factory par Copa DataSmart Factory par Copa Data
Smart Factory par Copa Data
 
Le Data Engineer qui veut se faire aussi gros que le Data Scientist
Le Data Engineer qui veut se faire aussi gros que le Data ScientistLe Data Engineer qui veut se faire aussi gros que le Data Scientist
Le Data Engineer qui veut se faire aussi gros que le Data Scientist
 
SmartFactory par Copa Data
SmartFactory par Copa DataSmartFactory par Copa Data
SmartFactory par Copa Data
 
UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...
UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...
UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...
 
Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data Mining
 
Visite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des donnéesVisite guidée au pays de la donnée - Traitement automatique des données
Visite guidée au pays de la donnée - Traitement automatique des données
 
AI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigAI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine Learnig
 
Diginova - Session sur le machine learning avec ML.NET
Diginova - Session sur le machine learning avec ML.NETDiginova - Session sur le machine learning avec ML.NET
Diginova - Session sur le machine learning avec ML.NET
 
SQL Server et les développeurs
SQL Server et les développeurs SQL Server et les développeurs
SQL Server et les développeurs
 
Apprentissage Automatique et moteurs de recherche
Apprentissage Automatique et moteurs de rechercheApprentissage Automatique et moteurs de recherche
Apprentissage Automatique et moteurs de recherche
 
Intelligence artificielle : du buzz à la réalité [webinaire]
Intelligence artificielle : du buzz à la réalité [webinaire] Intelligence artificielle : du buzz à la réalité [webinaire]
Intelligence artificielle : du buzz à la réalité [webinaire]
 
Debuteraveclesmls
DebuteraveclesmlsDebuteraveclesmls
Debuteraveclesmls
 
ALT.NET Modéliser Parallèle avec C# 4.0
ALT.NET Modéliser Parallèle avec C# 4.0ALT.NET Modéliser Parallèle avec C# 4.0
ALT.NET Modéliser Parallèle avec C# 4.0
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigData
 
Mappingobjetrelationnel[1]
Mappingobjetrelationnel[1]Mappingobjetrelationnel[1]
Mappingobjetrelationnel[1]
 
BIPEA 2023 Yvon Gervaise : L'IA Matrice du Laboratoire du Futur ..
BIPEA 2023 Yvon Gervaise : L'IA Matrice du Laboratoire du Futur ..BIPEA 2023 Yvon Gervaise : L'IA Matrice du Laboratoire du Futur ..
BIPEA 2023 Yvon Gervaise : L'IA Matrice du Laboratoire du Futur ..
 

Plus de Ippon

Offre 2015 numeriq_ippon
Offre 2015 numeriq_ipponOffre 2015 numeriq_ippon
Offre 2015 numeriq_ippon
Ippon
 
CDI par la pratique
CDI par la pratiqueCDI par la pratique
CDI par la pratique
Ippon
 
Stateful is beautiful
Stateful is beautifulStateful is beautiful
Stateful is beautiful
Ippon
 
Présentation Ippon DGA Liferay Symposium 2011
Présentation Ippon DGA Liferay Symposium 2011Présentation Ippon DGA Liferay Symposium 2011
Présentation Ippon DGA Liferay Symposium 2011
Ippon
 
Scrum et forfait
Scrum et forfaitScrum et forfait
Scrum et forfait
Ippon
 
Mule ESB Summit 2010 avec Ippon
Mule ESB Summit 2010 avec IpponMule ESB Summit 2010 avec Ippon
Mule ESB Summit 2010 avec Ippon
Ippon
 
Présentation du retour d'expérience sur Git
Présentation du retour d'expérience sur GitPrésentation du retour d'expérience sur Git
Présentation du retour d'expérience sur Git
Ippon
 
Présentation Rex GWT 2.0
Présentation Rex GWT 2.0Présentation Rex GWT 2.0
Présentation Rex GWT 2.0
Ippon
 
Presentation Rex Methodes Agiles
Presentation Rex Methodes AgilesPresentation Rex Methodes Agiles
Presentation Rex Methodes Agiles
Ippon
 
Seminaire Portail Open Source
Seminaire Portail Open SourceSeminaire Portail Open Source
Seminaire Portail Open Source
Ippon
 

Plus de Ippon (10)

Offre 2015 numeriq_ippon
Offre 2015 numeriq_ipponOffre 2015 numeriq_ippon
Offre 2015 numeriq_ippon
 
CDI par la pratique
CDI par la pratiqueCDI par la pratique
CDI par la pratique
 
Stateful is beautiful
Stateful is beautifulStateful is beautiful
Stateful is beautiful
 
Présentation Ippon DGA Liferay Symposium 2011
Présentation Ippon DGA Liferay Symposium 2011Présentation Ippon DGA Liferay Symposium 2011
Présentation Ippon DGA Liferay Symposium 2011
 
Scrum et forfait
Scrum et forfaitScrum et forfait
Scrum et forfait
 
Mule ESB Summit 2010 avec Ippon
Mule ESB Summit 2010 avec IpponMule ESB Summit 2010 avec Ippon
Mule ESB Summit 2010 avec Ippon
 
Présentation du retour d'expérience sur Git
Présentation du retour d'expérience sur GitPrésentation du retour d'expérience sur Git
Présentation du retour d'expérience sur Git
 
Présentation Rex GWT 2.0
Présentation Rex GWT 2.0Présentation Rex GWT 2.0
Présentation Rex GWT 2.0
 
Presentation Rex Methodes Agiles
Presentation Rex Methodes AgilesPresentation Rex Methodes Agiles
Presentation Rex Methodes Agiles
 
Seminaire Portail Open Source
Seminaire Portail Open SourceSeminaire Portail Open Source
Seminaire Portail Open Source
 

Démystifions le machine learning avec spark par David Martin pour le Salon Big Data Paris 2016

  • 2. David MARTIN DIRECTEUR DU CONSEIL dmartin@ippon.fr @_dmartin_
  • 3. Simple facts 90% de la donnée mondialeactuelle générée au cours des 2 dernières années
  • 5. Définition Le Machine Learning est une branche de l’Intelligence Artificielle… … qui s’attache à étudier les techniques permettant à un système d’apprendre à réaliser des tâches. Souvent couplé au Data Mining, l’ensemble permet d’apporter une réponse complète aux problématiques d’analyse et de traitement de la donnée. Machine Learning paradigm == Programming by example
  • 7. Prédire un prix Déterminer le bon prix pour vendre un bien Quels paramètres pour construire le modèle ? Surface habitable, surface terrain, exposition, nombre de chambres, salles de bains, année de construction, ...
  • 8. Catégorisation d’entités Déterminer si un équipement présente un risque de panne Quels paramètres ? Nb heures de fonctionnement, température(s), régime, nombre total d’opérations, contraintes, ...
  • 9. Création de groupes de données Grouper les données : segmenter une base clients Apprentissage non supervisé : l’algorithme n’a pas reçu d’information d’ appartenance à une catégorie, il crée lui même les groupes
  • 10. Reconnaissance d’objets Reconnaître un objet, une forme, une lettre, un son, ...
  • 11. Mais aussi... > Optimisations de campagnes marketing > Détection de fraude > Optimisations de chaines d’approvisionnement > Sécurisation de la fidélité client (customer churn prediction) > Moteurs de recommandation > Publicité ou Contenu ciblés > Nouveaux services disruptifs ...
  • 13. Catégories d’algorithmes Catégories d’algorithmes d’apprentissage : > Apprentissage supervisé > Apprentissage non supervisé > Apprentissage semi supervisé > Apprentissage par renforcement ...
  • 14. Principaux algorithmes Des algorithmes ou familles fréquemment utilisé(e)s : > Logistic regression > Linear regression > Support Vector Machine > Decision Tree / Random Forest > K-Means > (Deep) Neural networks ...
  • 15. De la donnée brute à la prédiction
  • 16. La donnée brute Au départ, beaucoup de données… … potentiellement issues de beaucoup de systèmes … traitant d’aspects divers De la donnée brute, encore impropre à la consommation
  • 17. La préparation Nettoyer, Filtrer, Harmoniser les informations pour commencer à travailler > Supprimer ou compléter les données incomplètes > Retenir les données relatives au domaine ciblé > Homogénéiser les formats, les valeurs (si issues de systèmes différents…) > Qualifier si besoin les informations (cas de l’apprentissage supervisé) > Dériver les informations de la masse existante
  • 18. Identifier le cas d’utilisation Identifier la catégorie du cas d’utilisation pour identifier le ou les algorithmes potentiellement adaptés et sélectionner les paramètres en entrée offrant la meilleure pertinence Le bon choix d’algorithme(s) importe tout autant que la bonne identification et préparation des paramètres d’entrée
  • 19. Implémenter, ajuster, itérer > Construire un modèle de prédiction sur la base d’une partie des données préparées > Tester le modèle > Déduire les ajustements nécessaires > Réitérer cette étape si besoin Le processus est itératif… … et peut prendre un temps important avant de donner satisfaction
  • 20. Prédire ! Prédire reste la finalité Mais le modèle peut/doit vivre. Les postulats initiaux évoluent. Il doit être regénéré sur la base de données actualisées > A/B Testing > Sauvegarde et versioning des modèles
  • 21. En image Raw data Processed data Clean Format Extract features ... Algorithm training Test Precision threshold Prediction Input (validation set / real data)
  • 22. En synthèse Les points importants : > Disposer de beaucoup de données : le plus le mieux très souvent (mais pas toujours) > Pertinence et nombre des paramètres > Commencer simple et itérer (!= optimisation précoce)
  • 23. De la théorie à la pratique
  • 24. Implémentations Rappels On n’implémente pas sa version d’un algorithme On utilise une implémentation existante, testée et éprouvée
  • 25. Approches et outils Approche SaaS > API spécialisées ou génériques > Azure Machine Learning > Amazon Machine Learning > Google Prediction API ... Approche “tailor made” (plus bas niveau) > Pandas / Scikit Learn > Vowpal Wabbit > Weka > Apache Spark ...
  • 26. Apache Spark Apache Spark en quelques points > Projet de l’Université de Berkeley (2009) > Solution générique et performante de traitement de données > Adaptée aux très gros volumes de données > Distribue les traitements > Données en mémoire pour une meilleure performance > Ecrit en Scala, bindings Java, Python et R > Traction de plus en plus forte
  • 27. Apache Spark Spark offre une solution performante de traitements de la donnée
  • 28. Spark ML / ML Lib Principaux algorithmes supportés > Classification et régression ○ Linear regression, logistic regression, SVM ○ Naive Bayes (classification) ○ Decision Trees (Random Forest, Gradient-Boosted Trees) > Système de recommandation ○ Collaborative Filtering (Alternating Least Squares) > Clustering ○ K-Means, Latent Dirichlet allocation, … > Frequent Pattern Mining > Facilités pour la réduction de dimension (SVD, PCA) > Optimisations possibles (Stochastic Gradient Descent…) > Organisation des traitements sous forme de Pipelines (Spark ML)
  • 29. External libraries / Extensions Spark peut être étendu : > librairies additionnelles tirant profit du framework > Time Series > Deep Learning > Graph (GraphFrame) et profiter de solutions externes : > Notebooks (Zeppelin, Databricks, …) > Solutions de dashboards (Databricks Dashboards)
  • 30. Pour conclure Apache Spark est une solution polyvalente et en pleine croissance ⇒ Pertinence de la plateforme à l’ ère du Big Data Les perspectives futures sont très intéressantes : ● Evolution constante de la bibliothèque d’algorithmes, ● librairies externes complémentaires spécialisées, ● traction en forte accélération, ...
  • 31. Venez nous rendre visite au STAND IPPON 501 PARIS - BORDEAUX - NANTES WASHINGTON DC - NEW-YORK - RICHMOND contact@ippon.fr www.ippon.fr - www.ippon-hosting.com - www.ippon-digital.fr @ippontech - 01 46 12 48 48