SlideShare une entreprise Scribd logo
DÉMYSTIFIONS
LA DATA SCIENCE !
DAVID-STÉPHANEFALA
DirecteurPracticeBigData&DataIntelligence
TANGUYLENOUVEL
DirecteurPracticeDataScience
BIG DATA &
DATA SCIENCE :
LES BEST PRACTICES
Mardi24janvier2017
1. INTRODUCTION
2. BIG DATA : À L’HEURE DU CONSTAT
3. DATA MINING ET DATA SCIENCE
4. BEST PRACTICES POUR ALLER VERS LA DATA SCIENCE
5. JUSQU’OÙ PEUT-ON EXPLOITER LES BIG DATAS
6. CONCLUSIONS ET PERSPECTIVES
Table des matières
DÉMYSTIFIONS LA DATA SCIENCE !
INTRODUCTION
4
PREAMBULE
Nous sommes
tous d’accord …
… nous entrons
dans une
nouvelle ère avec
les big datas
INNOVATION
PERMANENTE
Google glasses/car, iWatch,
3D printing, …
VIE
HYPER
CONNECTÉE
4 à 6 heures par jour
web + mobile
LES MACHINES
PARLENT
Internet of (every)Things
… 20 à 50 milliards d’objets
connectés d’ici 2020
INFORMATION
CONSTANTE
60s = 4mio Google queries,
2.5mio nouveaux contenus
Facebook, …
NOUVEAUX
ECOSYSTEMES
Co-conception avec les
clients / utilisateurs, start-
ups, social networks, …
Matinée Découverte – 24-01-2017
5
UN NOUVEAU MONDE CONNECTÉ
De nouveaux usages amenés par un monde hyper connecté
Matinée Découverte – 24-01-2017
“The Internet of Everything”
Mainframe
1970’s
IBM
Client-Serveur
1990’s
ORACLE
SocialMobileCloud
Aujourd'hui
Hadoop
Distribué
Isolé Semi-Connecté Tout connecté
6
LES NOUVEAUX BARBARES ARRIVENT
L'émergence de l'économie disruptive
Matinée Découverte – 24-01-2017
La plus grande
compagnie de taxis
au monde …
N'a pas de
véhicules
Le plus grand
média …
Ne crée pas
de contenus
Le distributeur le
plus valorisé …
N'a pas
d'inventaire
La plus grande
chaîne hôtelière au
monde …
Ne possède
pas d'hôtel
Dans votre
industrie, xxx …
N'a pas de
…
?
7
révolution
transition
numérique
Transformation
digital
ubérisation cloud
mutationmobilité
robots
Watson
Intelligence
artificielle
Internet des
objets
Big data
High-tech
usage
disruption
La révolution numérique
c’est quoi concrètement
Matinée Découverte – 24-01-2017
8Quand on pense révolution numérique, on pense …
Matinée Découverte – 24-01-2017
9
Distributeur de pizza à Beauvoir sur mer
Mais la transformation numérique, c’est aussi…
Matinée Découverte – 24-01-2017
10
…les
imprimantes 3D
Matinée Découverte – 24-01-2017
11…ou encore l’intelligence artificielle
Matinée Découverte – 24-01-2017
12
En fait, le
numérique a
changé nos vies !
Matinée Découverte – 24-01-2017
13
Tous les
secteurs sont
touchés
Matinée Découverte – 24-01-2017
14LEUR POINT COMMUN ?
Demande des technologies disruptives
Ils interagissent principalement avec leurs clients
via le web, utilisent des architectures de données
modernes et font de la data science
Matinée Découverte – 24-01-2017Matinée Découverte – 04-20-2016
15
À L’HEURE DU CONSTAT
BIG DATA :
16
• La transformation numérique c'est la vraie vie
• Le numérique, ce n’est pas les start up, c’est bien plus
• La masse est remplacée par la multitude
• La transition numérique implique une rupture profonde
• L’entreprise doit passer du produit / service à l’expérience client
• La question de la gouvernance est essentielle pour affronter les
nouveaux enjeux.
Quelques repères pour s’y retrouver
Matinée Découverte – 24-01-2017
17
• Le Big Data n’est pas une fatalité ou une obligation.
• Les enjeux métiers passent avant la dimension technologique.
• Les technologies associées au Big Data doivent supporter vos
enjeux et non l’inverse.
• La Gouvernance est un préalable à tout projet Big Data
• Il faut être réaliste (se poser les questions quant à la captation de
l’information, sa sécurité, sa disponibilité, sa volumétrie, sa durée
de vie)
• Au final le choix des technologies importe peu, qu’il s’agisse de Big
Data, NoSQL, technologies disruptives, c’est votre projet qui va
conditionner le choix des technologies
Quelques repères pour s’y retrouver
Matinée Découverte – 24-01-2017
18
• Une grande partie des cas d’usages sur lesquels s’appuient « les
nouveaux barbares » ne pourraient pas se réaliser sans la Data
Science.
• Elle est à l’initiative de 50% de nos projets Big Data
• Elle est partie intégrante des plateformes Big Data
• Mais le Big Data n’est pas nécessaire pour débuter en Data Science
• L’industrialisation de la Data Science nécessite une réelle
expérience et une compréhension fine de vos enjeux
• Ne pas oublier la dimension juridique !
Et la Data Science dans tout cela
Matinée Découverte – 24-01-2017
19
L'EXEMPLE AMAZON GO
Boot Camp Big Data - (C) Micropole Institut - Jan.2017 - Tous droits réservés
20
LES TECHNOLOGIES QUI RENDENT POSSIBLE AMAZON GO
Boot Camp Big Data - (C) Micropole Institut - Jan.2017 - Tous droits réservés
Data Science CRM
SCM
Deep Learning
Sensor Fusion
Données structurées
Données non-structurées Socle Big Data
21
CE SONT AUSSI DES QUESTIONS
Boot Camp Big Data - (C) Micropole Institut - Jan.2017 - Tous droits réservés
 Quel avenir pour les caissières ?
 Pour les personnes travaillant dans la chaîne d'approvisionnement ?
 Plus globalement quel est l'impact du Big Data sur notre société de demain ?
 Comment accompagner les entreprises dans la conduite du changement ?
 La théorie du déversement
 Les impacts politiques
22
DATA SCIENCE
DATA MINING &
23
FOCUS SUR LA
DATA SCIENCE
REVENONS SUR CES
DERNIÈRES ANNÉES
• Des dizaines de milliers
d’articles et beaucoup de buzz
dans les médias
• De nombreux nouveaux acteurs.
De multiples acquisitions
• Des cas d’usage à foison …
telles que prédire l’évolution
d’épidémies, la survenance de
catastrophes naturelles :: IBM acquires AlchemyAPI, a deep learning startup
:: Microsoft buys Revolution Analytics, a predictive analysis startup
:: En rachetant TupleJump, Apple se positionne aussi sur le machine learning
Matinée Découverte – 24-01-2017
24
LE BIG DATA
PEUT-IL TOUT
PRÉDIRE ?
Prédiction de l’évolution
d’une épidémie de
grippe aux Etats-Unis
• Quand Google prépare une
« app » ayant vocation à prédire
l’évolution d’épidémies en
fonction des recherches sur son
moteur de recherche
• Et que quelques data scientists
détectent la supercherie…
Matinée Découverte – 24-01-2017
This month, in a Science magazine article, four quantitatively adept social scientists reported that Google’s
flu-tracking service not only wildly overestimated the number of flu cases in the United States in the 2012-
13 flu season — a well-known miss — but has also consistently overshot in the last few years.
En France, on utilise le
réseau Sentinelle
25
DATA MINING &
DATA SCIENCE
UN LIEN TRÈS FORT !
CHRONOLOGIE :
1850 : STATISTIQUE
Quelques centaines d’individus et quelques
variables, recueillies selon un protocole strict
pour une étude scientifique
1960 : ANALYSE DE DONNÉES
Quelques dizaines de milliers d’individus et
quelques dizaines de variables recueillies de
façon rigoureuse pour une enquête précise
1990 : DATA MINING
Plusieurs millions d’individus et plusieurs
centaines de variables hétérogènes,
recueillies dans le système d’information des
entreprises pour de l’aide à la décision
2010 : DATA SCIENCE
Les Big Datas avec plusieurs centaines de
millions d’individus et plusieurs milliers de
variables, de tous types, recueillies dans les
entreprises, les systèmes, Internet, pour de
l’aide à la décision, de nouveaux services
 La data science
n’est pas nouvelle.
 Elle représente l’application
(et l’adaptation) du data mining
aux Big Datas…
Matinée Découverte – 24-01-2017
26
DATA MINING &
DATA SCIENCE
ON RETROUVE LES DEUX
MÊMES APPROCHES
 Les techniques DESCRIPTIVES – EXPLORATOIRES
• visent à mettre en évidence des informations
présentes mais cachées par le volume des
données (segments de clients aux profils
comparables, présence d’associations de
produits dans les tickets de caisse)
• réduisent, résument, synthétisent les données
et permettent une meilleure compréhension
• il n’y a pas de variable « cible »
 Les techniques PREDICTIVES – DECISIONNELLES
• visent à expliquer et/ou prédire un évènement
(Achat, Résiliation, Panne) ou un phénomène
(Fréquentation en magasin, Nombre d’appels)
à partir des informations du passé
• expliquent les données
• il y a une variable « cible » à prédire, à
expliquer
Matinée Découverte – 24-01-2017
Ces 2 approches sont
complémentaires
27
DATA MINING &
DATA SCIENCE
ET AUSSI LA MÊME
DÉMARCHE
Matinée Découverte – 24-01-2017
Quel que soit l’objectif à
atteindre ou la nature des
informations à traiter, la
démarche méthodologique
ne change pas.
 Démarche itérative en 6 étapes
 Ces étapes peuvent se transposer pour la quasi-totalité des projets.
 Les trois premières phases sont les plus déterminantes pour la réussite du
projet, ce sont aussi celles qui prennent le plus de temps et.
 Que l’on parle de data mining ou de data science, il n’y a rien
de magique là-dedans mais une démarche minutieuse,
réfléchie et très itérative !
 S’il suffisait de stocker un maximum de données et de les passer à la
moulinette d’algorithmes pour trouver des pépites…
EVALUATION ET
SUIVI DE LA
PERFORMANCE
VALIDATION DES
OBJECTIFS ET
INDUSTRIALISATION
EXPLORATION,
MODÉLISATION,
OPTIMISATION
SÉLECTION,
EXPLORATION
ET PRÉPARATION
DES
DONNÉES
CADRAGE
DU PROJET
DÉFINITION DES
OBJECTIFS
28
DATA MINING &
DATA SCIENCE
QUELLES DIFFÉRENCES
ALORS ???
 NOMBRE DE VARIABLES / CRITERES / FEATURES
Plusieurs milliers en data science versus quelques centaines en data mining
 OPEN SOURCE
• Accès généralisé à des fonctionnalités et des algorithmes de dernière génération
qui jusque-là n’étaient disponibles que dans des suites logicielles payantes et
parfois onéreuses : Arbres boostés (GBM), Règles d’association séquentielles,
Régressions logistiques Ridge, Lasso, ElasticNet, SVM, Réseaux de neurones…
• In-Memory : si ça passe, c’est beaucoup plus rapide !
• Parallel processing : pour tirer un maximum de la machine et gagner du temps
• Nouvelles données : de nombreux outils/API/packages pour extraire, stocker et
transformer des données issues du Web, des médias sociaux, de l’open data,
données météo, images ou vidéos, IoT
 BUZZ MARKETING – DISCOURS TRÈS TECHNOLOGIQUE
Matinée Découverte – 24-01-2017
Et bien pas mal finalement !
29
DATA MINING &
DATA SCIENCE
ILLUSTRATION DES
DIFFÉRENCES EN
MATIÈRE DE
MODÉLISATION
 Illustration avec un exemple volontairement simplifié
• Contexte :
o Données issues d’une enquête online, réalisée sur
un panel de plusieurs centaines de milliers de personnes.
o Avec cette enquête, nous connaissons l’âge, le genre,
le niveau d’équipement et les loisirs des répondants
o Parmi les question posées : Aimez-vous les jeux vidéo ?
Donnez une note de 0 (non, pas du tout) à 10 (oui, beaucoup).
• Objectif de l’étude : Modéliser l’attrait pour les jeux vidéo à partir des
informations disponibles
• Pour notre compréhension, nous allons suivre plus particulièrement les
5 personnes suivantes :
Matinée Découverte – 24-01-2017
30
DATA MINING
ARBRE DE DECISION
 Modélisation par arbre de décision
Matinée Découverte – 24-01-2017
25%
Score = 7.1
15%
Score = 5.5
Garçon ?
NO
20%
Score = 3.8
40%
Score = 1.9
A une tablette ?
NO
10%
Score = 4.3
10%
Score = 3.3
Utilise son PC chaque jour ?
NO
100%
Score = 3.8
Aimez-vous les jeux vidéos ?
40%
Score = 6.5
60%
Score = 2.0
Moins de 15 ans ?
O N
Fonctionnement :
De haut en bas, à chaque
segmentation, on teste toutes les
variables et on choisit la « meilleure »
Pour les variables continues, on teste
toutes les coupures possibles et on
choisit la meilleure
On s’arrête lorsque l’on atteint un des
critères d’arrêt (segment trop petit,
différence non significative)
Tous les répondants sont classés dans
une des feuilles de l’arbre. On calcule
ensuite la note moyenne d’intérêt
pour les jeux vidéos dans chaque
feuille : le score
Le modèle est intuitif et
ne requiert aucune
connaissance spécifique
en data mining pour le
comprendre
Cette feuille (i.e. segment)
correspond aux jeunes garçons
de moins de 15 ans. Ils aiment
plus les jeux vidéo que les
autres avec une note moyenne
de 7.1
On peut facilement
prédire l’attrait pour les
jeux vidéos de quelqu’un
qui n’aurait pas répondu à
l’enquête.
Il est donc facilement
industrialisable
31
DATA MINING
ARBRE DE DECISION
 Le modèle est-il bon ?
 Plus les écarts entres les notes réelles et les notes prédites sont petits en
valeur absolue et meilleur est le modèle… en apparence.
 Erreur moyenne de prédiction en valeur absolue = 1.7Matinée Découverte – 24-01-2017
Nous nous intéressons ici à
l’erreur apparente de prédiction.
Pour mesurer la « vraie » erreur
de prédiction, il aurait fallu dès le
départ mettre de côté un
échantillon de répondants (dont
on connaît la note d’amour pour
les jeux vidéos), leur appliquer le
modèle et calculer alors l’erreur
de prédiction.
Répondant
Aimez-
vous les
jeux vidéo
?
Note
prédite par
l’arbre de
décision
Ecart
10 7.1 2.9
8 5.5 2.5
2 1.9 0.1
5 4.3 0.7
1 3.3 -2,3
… … … …
32
DATA SCIENCE
ARBRES DE DECISION
BOOSTÉS
 On calcule plusieurs arbres de décision successivement.
Les arbres sont moins profonds et contiennent moins de segments. Chaque arbre
est moins bon que celui du data mining mais les prédictions finales sont meilleures :
 Les prédictions finales (i.e. notes prédites) des répondants sont calculées
en sommant les scores obtenus dans chaque arbre :
Matinée Découverte – 24-01-2017
100%
Score = 3.8
40%
Score = 6.5
25%
Score = 7.1
15%
Score = 5.5
60%
Score = 2.0
ARBRE N°1
Aimez-vous les jeux vidéos ?
Moins de 15 ans ?
O N
Garçon ?
NO
Fonctionnement :
1. Arbre n°1 : construit comme en data
mining.
2. Calcul de l’erreur de prédiction pour
chaque répondant.
3. Arbre n°2 : construit en modélisant
non plus « Aimez-vous les jeux vidéos
? » mais l’erreur de prédiction.
4. Mise à jour des prédictions : somme
des scores des arbres précédents pour
chaque répondant.
5. Mise à jour des erreurs de prédictions
6+ On continue de construire de
nouveaux arbres tant qu’on arrive à
faire baisser l’erreur de prédiction en
répétant les étapes 3 à 5
100%
Score = 0
65%
Score = +1.5
30%
Score = +1.54
35%
Score = 0.82
35%
Score = -1
ARBRE N°2
Erreur de prédiction
Utilise son PC chaque jour ?
O N
A une tablette ?
NO
Note prédite ( ) = 7.1 + 1.54 = 8.64 Note prédite ( ) = 2 – 1 = 1
33
DATA SCIENCE
ARBRES DE DECISION
BOOSTÉS
 Le modèle est-il apparemment bon ?
 Note prédite = SOMME(scores des différents arbres)
 Erreur moyenne de prédiction en valeur absolue = 1,064Matinée Découverte – 24-01-2017
On obtient dans cet exemple
de meilleurs résultats qu’avec
un arbre unique.
Dans la pratique, c’est
quasiment systématique.
Les résultats sont même
souvent bluffants avec
relativement peu d’efforts !
Répondant
Aimez-
vous les
jeux
vidéo ?
Score
prédit par
l’arbre n°1
Ecart
Etape 1
Score
prédit par
l’arbre n°2
Note
prédite
par les 2
arbres
Ecart
Etape 2
10 7.1 2.9 +1.54 8.64 1.36
8 5.5 2.5 +0.82 6.32 1.68
2 2 0 +0.82 2.82 -0.82
5 2 3 +1,54 3.54 1.46
1 2 -1 -1 1 0
… … … … … …
34
DATA SCIENCE
ARBRES DE DECISION
BOOSTÉS
 En pratique, on enchaine non pas 2 arbres mais des centaines
voire des milliers d’arbres.
 Le modèle devient donc illisible et ininterprétable… mais dans
certains cas la précision prime sur la compréhension (Risque,
recommandations en ligne, automates)
 Les seules informations
disponibles pour aider à
la compréhension
concernent l’importance
des variables et leur
fréquence d’apparition
dans les différents arbres
construits
Matinée Découverte – 24-01-2017
En revanche, on perd en
lisibilité et donc en
compréhension /
connaissances
35
DATA SCIENCE
AGRÉGATION DE
MODÈLES, MÉLANGES…
Bagging :
• Construction de N échantillons par tirage
aléatoire avec remise (bootstrap)
à partir de l’échantillon initial.
• Construction de N modèles : un par
échantillon
• Prédiction finale obtenue en calculant la
moyenne des prédictions des N modèles.
Boosting :
• Processus itératif basé sur une succession de
tirages aléatoires avec remise et l’introduction
d’une pondération donnant plus de poids aux
individus mal classés/scorés par le modèle
construit lors de l’itération.
• Prédiction finale obtenue en calculant la
moyenne des prédictions des N modèles,
pondérée selon l’erreur de prédiction de
chaque modèle.
Matinée Découverte – 24-01-2017
Même si ces approches ne
sont pas récentes, on
constate une très forte
montée en puissance de leur
utilisation
Plus on agrège de modèles et
meilleures sont les
prédictions…
Echantillon d’apprentissage
Echantillons Bagging Echantillons Boosting
36
DATA SCIENCE
AGRÉGATION DE
MODÈLES, MÉLANGES…
Stacking :
Prédiction à partir de prédictions
• 1ère étape : on construit plusieurs modèles
avec des algorithmes différents.
• 2ème étape : on construit un ou plusieurs
modèles à partir des prédictions des modèles
précédents (variables explicatives).
Blending :
Mélange de modèles
• Phase finale de la modélisation.
• Assemblage de modèles (moyenne,
combinaison linéaire, voire nouvelle
modélisation)
Matinée Découverte – 24-01-2017
Induit une forte complexité
tant dans la phase de
construction que
d’industrialisation
Xgboost : arbres boostés
RF : Random Forests – Forêts aléatoires
GLMNET : régressions logistiques
NN : Neural Network – Réseaux de Neurones
KNN : K Nearest Neighours, K plus proches voisins
37
DATA SCIENCE
BILAN : DES PROMESSES
ET QUELQUES DÉRIVES
 Des solutions trop complexes, impossibles à industrialiser ou à
maintenir
 Exemple d’une stratégie de modélisation d’un participant à un concours de
data science proposé par Kaggle (7ème sur 1 326 participants) :
o Près de 400 modèles imbriqués dans une approche
intégrant bagging, boosting, stacking, blending !!!
Matinée Découverte – 24-01-2017
On observe des dérives dans
la pratique où l’on passe bien
trop de temps sur la
modélisation et pas assez sur
la compréhension du sujet et
la préparation des données.
Les modèles obtenus
permettent peut-être de
gagner des concours mais ne
seront sans doute jamais
industrialisés. Xgboost : arbres boostés
RF : Random Forests – Forêts aléatoires
GLMNET : régressions logistiques lasso et elastic-net
NN : Neural Network – Réseaux de Neurones
KNN : K Nearest Neighours, K plus proches voisins
38
DATA SCIENCE
LES DÉRIVES
 NETFLIX n’a jamais implémenté la solution
développée par les gagnants de leur
concours à 1 Million de dollars pour
optimiser leur moteur de
recommandations
 Pourquoi ?
Matinée Découverte – 24-01-2017
EXEMPLE AVEC NETFLIX
“This is a truly impressive compilation and culmination of years of work,
blending hundreds of predictive models to finally cross the finish line,”
they say. “We evaluated some of the new methods offline but the
additional accuracy gains that we measured did not seem to justify the
engineering effort needed to bring them into a production
environment.”
39
DATA SCIENCE
LES DÉRIVES  Objectif : optimiser la gestion des sinistres en identifiant les
dossiers sans risque pouvant faire l’objet de remboursements
accélérés
 Jeu de données :
• 145 231 déclarations de sinistres,
• 1 934 infos anonymisées (V1, V2, …, V1934) par déclaration
• 1 variable à prédire prenant la valeur 1 si pas de risque, 0 sinon
 Comparaison de deux stratégies gagnantesMatinée Découverte – 24-01-2017
EXEMPLE AVEC LE
CONCOURS KAGGLE –
BNP PARIBAS :
Can you accelerate BNP
Paribas Cardif's claims
management process ?
2 926 Participants
30 K$ de gains
40
DATA SCIENCE
LES DÉRIVES
Matinée Découverte – 24-01-2017
A nouveau plusieurs
centaines de modèles
Les efforts déployés pour
améliorer le modèle ont
probablement peu de valeur
d’un point de vue
opérationnel.
Stratégie de modélisation de l’équipe classée 2ème
41
DATA SCIENCE
LES DÉRIVES
L’anonymisation des données
empêche théoriquement
d’injecter des indicateurs
métiers plus intelligents que
les données brutes.
Sauf pour cette équipe qui a su
déjouer cette situation.
Avec un seul modèle prédictif,
elle devance la solution
précédente.
Par contre, le modèle est
inexploitable car il utilise les
données du futur pour prédire
le passé…
1. Identifier les variables les plus importantes à l’aide d’un premier modèle
prédictif. Arrêter la modélisation.
2. Donner un sens à ces variables en s’intéressant à la problématique traitée
• On travaille sur des déclarations de sinistres… Un client peut avoir
plusieurs sinistres. Les sinistres ont lieu à un moment précis. Les contrats
n’ont pas tous la même ancienneté…
• Donc je devrais pouvoir trouver plusieurs champs « date » et un
identifiant client dans mes données anonymisées et donc calculer des
agrégats…
3. Calculer des agrégats/indicateurs qui résument le profil et la trajectoire des
clients : Nombre de contrats, anciennetés, nombre de sinistres, nombre
de sinistres constatés au cours des X derniers mois…
4. Modéliser avec des arbres boostés
Matinée Découverte – 24-01-2017
Stratégie de modélisation de l’équipe gagnante
“In the end we created a useless model for Bnp, as our lead(target)
variables use information from the future:)”
42
DATA MINING &
DATA SCIENCE
QUESTIONS /
REFLÉXIONS ?
 « Si mes prédictions étaient plus précises, le réseau
commercial les utiliserait-il davantage ? »
 « Si mes prédictions ne sont pas performantes, est-ce un
problème de conception, de cadrage ou d’optimisation ? »
 « Si je prédis bien le caractère frauduleux de certaines
déclarations :
• Je peux m’en servir pour transmettre à mes contrôleurs
une liste de dossiers à contrôler en priorité
• Mais si je suis incapable de qualifier chaque dossier en
termes de profil de fraude et d’indicateurs à investiguer,
utiliseront-ils mon ciblage ? »
Matinée Découverte – 24-01-2017
43
DATA MINING &
DATA SCIENCE
ON DOIT TIRER
PROFIT DES DEUX
 Finalement
• Un bon modèle est un modèle utilisable
et utilisé, qui améliore l’existant
• Lorsque la compréhension importe moins
que la précision, les modèles « boites
noires » sont à privilégier à condition
d’être industrialisables et d’apporter une
réelle plus-value.
• Lorsque la compréhension est
indispensable :
o Soit on fait 2 modèles (un pour prédire et
un pour expliquer/convaincre),
o Soit on trouve un modèle qui optimise le
compromis « Performance /
Compréhension ».
Matinée Découverte – 24-01-2017
44
DATA MINING &
DATA SCIENCE
LE CADRAGE : UNE
ETAPE ESSENTIELLE
 Objectifs du cadrage : fixer le cadre du projet et maximiser ses chances de
succès en se posant les bonnes questions et en embarquant les bons profils
(équipes Métiers, Data Science et IT) dès le départ
Matinée Découverte – 24-01-2017
45
DATA MINING &
DATA SCIENCE
LE CADRAGE : UNE
ETAPE ESSENTIELLE
 Objectifs du cadrage : fixer le cadre du projet et maximiser ses chances de
succès en se posant les bonnes questions et en embarquant les bons profils
(équipes Métiers, Data Science et IT) dès le départ
PROBLEMATIQUE
Description du contexte
Constats précédents
Objectifs métiers
Objectifs opérationnels
KPI Quanti / Quali
Contexte d’industrialisation et
contraintes associées
LIVRABLES
Date de livraison souhaitée
Types de livrables souhaités
Liste de diffusion
Données à restituer
Déploiement
DONNEES
Cartogragphie des sources de
données internes et externes
éligibles à l'étude
Périmètre des données à extraire
Période d'analyse
Définition de la ou des variable(s) à
expliquer s'il s'agit de modèles
prédictifs
Contraintes sur les données
Nettoyage des données
Agrégation des données
METHODOLOGIE
Proposition d'approche
ETAPES PROJET
Etapes Acteurs Deadline
Ateliers Cadrage Métiers / Data / IT
Collecte des données
Préparation des données
Validation du périmètre de l'étude
Exploration / Modélisation
Livraison intermédiaire
Validation des résultats / modèles -
Corrections
Livraison finale
Déploiement
Back-Testing – Suivi des perfs
Documentation
Matinée Découverte – 24-01-2017
ORGANISATION - PILOTAGE
46
DEMARCHE
DATA SCIENCE
EXTRAIT DES
PRINCIPAUX CRITÈRES
DE SUCCÈS
 Des objectifs précis, opérationnels et réalistes
 La qualité des données
 La préparation et la sélection des données pertinentes par rapport à
l’objectif et au sujet traité
 La collaboration des compétences métiers et data science avec organisation
d’ateliers d’échanges :
• Dès le démarrage du projet pour préciser les attentes, les objectifs, le contexte
opérationnel du projet,
• Pour impliquer et fédérer les équipes internes
• Pour traduire en nouveaux indicateurs la connaissance des experts
 La collaboration avec l’IT pour définir les conditions de mise en production
de la solution cible et le planning de déploiement
 Points de validation réguliers permettant de valider les travaux effectués et
de passer aux étapes suivantes
• Ordres de grandeur, Compréhension des données
• Résultats intermédiaires
• Adéquation des premiers résultats avec les objectifs opérationnels visés
Matinée Découverte – 24-01-2017
47
VERS LA DATA SCIENCE
BEST PRACTICES POUR ALLER
48
BEST PRACTICES
POUR ALLER VERS
LA DATA SCIENCE
LAISSER LA
TECHNOLOGIE A SA
PLACE
EN ABORDANT VOS BESOINS D’UN
POINT DE VUE MÉTIER ET NON
D’UN POINT DE VUE TECHNO /
OUTILS
1. Se concentrer sur vos besoins métiers et non sur
des questions technologiques ou de choix d’outils
• Sachant que :
o La data science est censée pouvoir prédire tout ce qu’un expert saurait
prédire ou diagnostiquer à condition…
o On peut tester l’apport de nouvelles données, structurées ou non (open
data, météo, logs webs, IoT , images, vidéos, textes) par rapport à un
objectif précis, sans coût additionnel de licence et sans plate-forme
BigData.
o Les algorithmes prédictifs de dernière génération sont directement
accessibles dans les outils open source,
o L’intelligence en matière de data science se situe davantage dans la
traduction de nouveaux indicateurs reflétant la connaissance des
experts que dans le choix d’une solution ou d’un algorithme
• Les besoins métiers ou cas d’usage n’ont pas vocation à
démontrer la valeur ajoutée de choix d’architectures ou de
technologies mais plutôt à les orienter.
Matinée Découverte – 24-01-2017
49
BEST PRACTICES
POUR ALLER VERS
LA DATA SCIENCE
LES PROFILS ?
2.Inutile de chercher
le mouton à 12 pattes
• Sachant que :
o Il n’existe peut-être pas
o Vous ne pourriez peut-être pas le recruter…
o Depuis 5 ans, la plupart des diplômés sont
bac+5 et n’apprennent a priori pas
2 fois plus vite qu’avant… Leurs profs n’ont
fondamentalement pas changé non plus
o Vous disposez sans doute déjà de profils
susceptibles de monter en compétences
o C’est un travail d’équipe qui nécessite des
compétences pluri-disciplinaires qu’il sera
difficile de trouver au sein d’un même
profil
o Le profil du « Modern Data Scientist » a été
défini par des experts du e-Commerce
marketing… (4 en tout en fait)
o Les data miners n’ont qu’une marche à
monter pour y arriver !
Matinée Découverte – 24-01-2017
50
BEST PRACTICES
POUR ALLER VERS
LA DATA SCIENCE
LES PROFILS ?
Une marche à monter pour
le data miner !
 Apprentissage de nouveaux langages (R, Python pour commencer)
 Adaptation / Formation : nouveaux algorithmes, nouvelles
approches, concepts
 Transfert de compétences : co-réalisation
 Ressources en lignes :
Analytique
Connaît les modèles
statistiques théoriques et est
capable de les construire
Métier
Est capable de comprendre le
besoin client (en amont), de faire
des recommandations business
sur la base d’analyses (en aval)
Analytique
Connaît les modèles
statistiques théoriques et est
capable de les construire
Métier
Est capable de comprendre le
besoin client (en amont), de faire
des recommandations business
sur la base d’analyses (en aval)
Analytique
Connaît les modèles
statistiques théoriques et est
capable de les construire
Développement
Evolue avec aisance dans les
nouveaux environnements et avec les
nouveaux outils
(notamment R et Python)
Statisticien Data Miner Data Scientist
Data
management
Gère les bases data mining,
construit et exploite les KPI
Data
management
Gère les bases data mining,
construit et exploite les KPI
Data
management
Gère les bases data mining,
construit et exploite les KPI
Matinée Découverte – 24-01-2017
51
BEST PRACTICES
POUR ALLER VERS
LA DATA SCIENCE
OPEN SOURCE, QUELLE
STRATÉGIE ?
3. Ne pas tout miser sur l’open source
• Sauf si on souhaite devenir éditeur de ses propres solutions… avec
toutes les charges que cela suppose :
o Développement, maintenance, installation, formation, documentation,
support, backup
o Tests de non régression, corrections de bugs natifs (car il y en a !),
développements spécifiques…
o Tests de montées de versions, de compatibilité entre packages,
versionning, mises en production, migrations
• Trouver un bon compromis
o On utilise l’open source pour toutes ses fonctionnalités additionnelles
o On conserve ce qui est industrialisé et ce qui donne satisfaction sur les
outils actuels puis on évalue la complexité, les risques et le ROI d’une
migration progressive vers l’open source
• S’en passer
o Ce serait se priver de fonctionnalités dont la valeur ajoutée est grande
Matinée Découverte – 24-01-2017
52
BEST PRACTICES
POUR ALLER VERS
LA DATA SCIENCE
ORGANISATION
 Monter une équipe pluri-disciplinaire réunissant des
compétences :
• Métiers, terrain
• Analytiques (data prep, dataviz, data mining),
• Architecture, administration de bases de données, Qualité de données,
BigData, Sécurité
• Programmation SQL, R, Python,
• Administration fonctionnelle (garant des bonnes pratiques)
• Correspondant Informatique et Libertés
 Eventuellement en mode lab, création d’une pizza team pour
désiloter les projets et les équipes
 Définir un plan de montée en compétences progressif avec des
objectifs réalistes en privilégiant une approche agile et
pragmatique qui s’insère bien dans le plan de chargesMatinée Découverte – 24-01-2017
53
EXEMPLE DE TRAJECTOIRE DATA SCIENCE EN 6 ÉTAPES
Avant-
projet
Formation et transfert de compétences Bilan et
Organisation cible
Matinée Découverte – 24-01-2017
54
EXPLOITER LES BIG DATA ?
JUSQU’OÙ PEUT-ON
55
JUSQU’OÙ PEUT-
ON EXPLOITER
LES BIG DATAS ?
CATÉGORIES DE
DONNÉES
 Données objectives
• Elles ne font pas l’objet d’appropriation
• Elles « appartiennent » à tous
• Exemples : données météo, données de trafic,
caractéristiques des immeubles
 Données à caractère personnel
• Une donnée personnelle est une donnée se rapportant à une personne
physique, qui peut être identifiée quel que soit le moyen utilisé
• Impact sur la vie privée
• Surveillance et sanction de la CNIL
• Déclaration préalable
• Exemples : nom et prénom, photo d'un visage, vidéo montrant une
personne, extrait sonore de la voix d'une personne, numéro de sécurité
sociale, numéro d'employé, numéro de téléphone, croisement date de
naissance et ville de naissanceMatinée Découverte – 24-01-2017
56
JUSQU’OÙ PEUT-
ON EXPLOITER
LES BIG DATAS ?
DEVOIRS
 A partir du moment ou l’on traite, à titre
professionnel des données personnelles, la loi
informatique et libertés s'applique et nous
devons sous peine de sanctions pénales :
• déclarer nos traitements à la CNIL,
• mettre en place toute les mesures de sécurité
nécessaire pour protéger ces données,
• nous assurer de collecter uniquement des données
pertinentes et le faire de manière loyale,
• ne pas transférer ces données hors de l'UE, et en
particulier dans des pays à faible niveau de
protection, etc.
Matinée Découverte – 24-01-2017
57
JUSQU’OÙ PEUT-
ON EXPLOITER
LES BIG DATAS ?
CONDITIONS POUR LA
LICÉITÉ DU
TRAITEMENT DE
DONNÉES À CARACTÈRE
PERSONNEL
 1 socle (la finalité du traitement) + 4 conditions
• Finalité explicite et légitime
• Loyauté dans la mise en œuvre du traitement
• Données pertinentes
• Durée de conservation non excessive
• Sécurité
 Et indispensable :
le consentement
préalable et éclairé
de la personne physique
concernée
Matinée Découverte – 24-01-2017
58
JUSQU’OÙ PEUT-
ON EXPLOITER
LES BIG DATAS ?
COMMENT EXPLOITER
SES DONNÉES SANS
CONSENTEMENT ?
 Pseudonymisation : niveau de protection insuffisant
 K-anonymisation : réduire le niveau de détail des données de telle sorte
qu’il y ait au moins k individus identiques pour chaque combinaison de
critères considérés comme des « quasi-identifiants »
 Autres approches : I-diversité, confidentialité différentielle
Matinée Découverte – 24-01-2017
59
PERSPECTIVES
CONCLUSION &
60
CONCLUSION &
PERSPECTIVES
 Se concentrer sur vos besoins métiers et non sur
des questions technologiques ou de choix d’outils
 Testez l’apport des nouvelles approches de data science et de
nouvelles données en adoptant une approche pragmatique et
agile
 Faites-vous challenger par des partenaires
 Ne pas minimiser les compétences nécessaires pour aborder ces
nouveaux sujets
 Ne pas négliger la complexité des nouvelles plate-formes
 Vous mettre en conformité vis-à-vis de la CNIL
 Vers une démarche big data / data science écologique ?
Matinée Découverte – 24-01-2017
TANGUY LE NOUVEL
DIRECTEUR PRACTICE DATA SCIENCE
M +33 (0) 6 81 95 84 22
@ tlenouvel@micropole.com
WWW.MICROPOLE.COM
91-95 RUE CARNOT - 92 300 LEVALLOIS-PERRET
T +33 (0)1 74 18 74 18 / F +33 (0)1 74 18 74 00
DAVID-STÉPHANE FALA
DIRECTEUR PRACTICE BIG DATA & DATA INTELLIGENCE
M +33 (0) 6 87 34 61 04
@ dfala@micropole.com
WWW.MICROPOLE.COM
91-95 RUE CARNOT - 92 300 LEVALLOIS-PERRET
T +33 (0)1 74 18 74 18 / F +33 (0)1 74 18 74 00
MERCI DE VOTRE ATTENTION
QUESTIONS
62
LE GROUPE MICROPOLE1 100 COLLABORATEURS
100 M€ de CA
25+ ANS
D'EXPERTISE OPÉRATIONNELLE
7 SITES EN FRANCE
[PARIS / LYON / AIX-EN-PROVENCE /
SOPHIA ANTIPOLIS / TOULOUSE /
RENNES / NANTES / LILLE]
5 SITES EN EUROPE
[GENÈVE / LAUSANNE / ROTTERDAM /
BRUXELLES / LUXEMBOURG]
3 SITES EN CHINE
[PÉKIN / SHANGHAÏ / HONG KONG]
 UN POSITIONNEMENT
DE SPÉCIALISTE
 Alliance d’expertises
fonctionnelles et techniques
 Une agence intégrée spécialisée
dans l’Expérience Client (Wide)
 Savoir-faire historique centré Data
Intelligence et Digitalisation des
processus Internes / Externes
 UNE CULTURE DE L'INNOVATION
 Au cœur de notre expertise, tournée
vers les usages au service de nos clients
 Accompagnement de « Start Up »
valorisant la donnée
 Diffusion de l’innovation : Micropole Lab
Network
63
Segmentation de la clientèle des
commerçants et recommandations
sur les offres
à leur adresser.
Qualification des transactionsQualification des transactions
Transactions
étudiées
Moteur de règles
Analyse et classement
des transactions
Transactions renseignées
sur le profil
 Qualification des transactionsQualification des transactions
Transactions
étudiées
Moteur de règles
Analyse et classement
des transactions
Transactions renseignées
sur le profil

Agrégation et calcul
d’indicateurs pour chaque
carte, sur chaque profil
Cartes renseignées sur
l’affectation des
dépenses en € et en nb
Calcul dCalcul d’’indicateurs par carteindicateurs par carte
 Agrégation et calcul
d’indicateurs pour chaque
carte, sur chaque profil
Cartes renseignées sur
l’affectation des
dépenses en € et en nb
Calcul dCalcul d’’indicateurs par carteindicateurs par carte

Segmentation des cartesSegmentation des cartes
Segmentation des cartes
pour chaque profil
Affectation des cartes
dans les segments
 Segmentation des cartesSegmentation des cartes
Segmentation des cartes
pour chaque profil
Affectation des cartes
dans les segments

Ciblage des cartesCiblage des cartes
 Ciblage des cartesCiblage des cartes

Segmentation des joueurs de live betting
(paris en temps réel)
Scores d’attrition et valeur client
Mise en place de l’architecture fonctionnelle
de SAS pour le département Pricing
Modélisation de la valeur résiduelle des
véhicules en fin de contrat de location
Enrichissement du référentiel produits par la
notion d’œuvre (Rapprochement de données
non structurées via Text mining, Fuzzy
matching et data science)
Fusion de référentiels musicaux indépendants
par fuzzy matching
Modélisation du départ des clients à la
concurrence à partir des nouveaux
algorithmes de machine learning et de
nouvelles données relationnelles
Construction d’un datalake
dédié et mise en œuvre de
modèles prédictifs de la fraude
(secteur entreprises) à l’aide des
dernières approches en matière
de modélisation prédictive et de
plusieurs milliers de variables
Amélioration d’un dispositif de géo-
localisation d’objets Indoor à partir de
données issues de capteurs géolocalisant des
puces RFID. Conseil en architecture BigData et
modélisation de la localisation des objets via
une approche data Science
LUXE CONFIDENTIEL
Analyse et classification d’images diffusées
sur les réseaux sociaux pour identification
d’objets de la marque dans le but d’identifier
des influenceurs, de comprendre et de
maximiser leur impact sur le développement
du CA
Segmentation de la clientèle des pros selon les
usages croisés que font les clients La Poste des
produits présents au catalogue. Recherche de
segments à fort potentiel, de nouveaux
packages de produits et de quicks wins.
EXTRAIT DE PROJETS DATA SCIENCE
Matinée Découverte – 24-01-2017

Contenu connexe

Tendances

Valtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech
 
Business & Decision - Atteignez le ROI2 sur vos projets Data - Congrès Big Da...
Business & Decision - Atteignez le ROI2 sur vos projets Data - Congrès Big Da...Business & Decision - Atteignez le ROI2 sur vos projets Data - Congrès Big Da...
Business & Decision - Atteignez le ROI2 sur vos projets Data - Congrès Big Da...
Business & Decision
 
Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...
Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...
Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...
Romain Fonnier
 
Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...
Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...
Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...
Jean-Michel Franco
 
Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012
datasio
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
Amal Abid
 
Bi et partage des données financières en libre -service
Bi et partage des données financières en libre -serviceBi et partage des données financières en libre -service
Bi et partage des données financières en libre -service
Jean-Michel Franco
 
[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend
Jean-Michel Franco
 
Introduction au BIG DATA
Introduction au BIG DATAIntroduction au BIG DATA
Introduction au BIG DATA
Zakariyaa AIT ELMOUDEN
 
Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"
Philippe METAYER
 
La valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usagesLa valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usages
SAS FRANCE
 
Big Data... Big Analytics à travers les âges, les industries et les technologies
Big Data... Big Analytics à travers les âges, les industries et les technologiesBig Data... Big Analytics à travers les âges, les industries et les technologies
Big Data... Big Analytics à travers les âges, les industries et les technologies
Hassan Lâasri
 
Big data
Big dataBig data
Competitic big data et commerce
Competitic   big data et commerceCompetitic   big data et commerce
Competitic big data et commerce
COMPETITIC
 
DATA FORUM MICROPOLE 2015 - Atelier Semarchy
 DATA FORUM MICROPOLE 2015 - Atelier Semarchy DATA FORUM MICROPOLE 2015 - Atelier Semarchy
DATA FORUM MICROPOLE 2015 - Atelier Semarchy
Micropole Group
 
Livre blanc "Big Data" de l'EBG
Livre blanc "Big Data" de l'EBGLivre blanc "Big Data" de l'EBG
Livre blanc "Big Data" de l'EBG
Margarita Zlatkova
 
Technologies pour le Big Data
Technologies pour le Big DataTechnologies pour le Big Data
Technologies pour le Big Data
Minyar Sassi Hidri
 
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
Micropole Group
 
Matinée Micropole DE LA BI A LA DATA INTELLIGENCE 18-10-2016
Matinée Micropole DE LA BI A LA DATA INTELLIGENCE 18-10-2016Matinée Micropole DE LA BI A LA DATA INTELLIGENCE 18-10-2016
Matinée Micropole DE LA BI A LA DATA INTELLIGENCE 18-10-2016
Micropole Group
 
Conférence big data
Conférence big dataConférence big data
Conférence big data
Stéphane Traumat
 

Tendances (20)

Valtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entreprise
 
Business & Decision - Atteignez le ROI2 sur vos projets Data - Congrès Big Da...
Business & Decision - Atteignez le ROI2 sur vos projets Data - Congrès Big Da...Business & Decision - Atteignez le ROI2 sur vos projets Data - Congrès Big Da...
Business & Decision - Atteignez le ROI2 sur vos projets Data - Congrès Big Da...
 
Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...
Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...
Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...
 
Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...
Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...
Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...
 
Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012Datasio - Big Data Congress Paris 2012
Datasio - Big Data Congress Paris 2012
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
Bi et partage des données financières en libre -service
Bi et partage des données financières en libre -serviceBi et partage des données financières en libre -service
Bi et partage des données financières en libre -service
 
[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend
 
Introduction au BIG DATA
Introduction au BIG DATAIntroduction au BIG DATA
Introduction au BIG DATA
 
Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"
 
La valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usagesLa valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usages
 
Big Data... Big Analytics à travers les âges, les industries et les technologies
Big Data... Big Analytics à travers les âges, les industries et les technologiesBig Data... Big Analytics à travers les âges, les industries et les technologies
Big Data... Big Analytics à travers les âges, les industries et les technologies
 
Big data
Big dataBig data
Big data
 
Competitic big data et commerce
Competitic   big data et commerceCompetitic   big data et commerce
Competitic big data et commerce
 
DATA FORUM MICROPOLE 2015 - Atelier Semarchy
 DATA FORUM MICROPOLE 2015 - Atelier Semarchy DATA FORUM MICROPOLE 2015 - Atelier Semarchy
DATA FORUM MICROPOLE 2015 - Atelier Semarchy
 
Livre blanc "Big Data" de l'EBG
Livre blanc "Big Data" de l'EBGLivre blanc "Big Data" de l'EBG
Livre blanc "Big Data" de l'EBG
 
Technologies pour le Big Data
Technologies pour le Big DataTechnologies pour le Big Data
Technologies pour le Big Data
 
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
 
Matinée Micropole DE LA BI A LA DATA INTELLIGENCE 18-10-2016
Matinée Micropole DE LA BI A LA DATA INTELLIGENCE 18-10-2016Matinée Micropole DE LA BI A LA DATA INTELLIGENCE 18-10-2016
Matinée Micropole DE LA BI A LA DATA INTELLIGENCE 18-10-2016
 
Conférence big data
Conférence big dataConférence big data
Conférence big data
 

En vedette

Le nouvel acte uniforme relatif au droit comptable et à l'information financière
Le nouvel acte uniforme relatif au droit comptable et à l'information financièreLe nouvel acte uniforme relatif au droit comptable et à l'information financière
Le nouvel acte uniforme relatif au droit comptable et à l'information financière
EY
 
Open data : faire parler les données
Open data  : faire parler les donnéesOpen data  : faire parler les données
Open data : faire parler les données
Florent Pousserot
 
Enquête ETI 2017
Enquête ETI 2017Enquête ETI 2017
Enquête ETI 2017
Bpifrance
 
Bpifrance le Lab - PME - 64e enquête de conjoncture - Janvier 2017
Bpifrance le Lab - PME - 64e enquête de conjoncture - Janvier 2017Bpifrance le Lab - PME - 64e enquête de conjoncture - Janvier 2017
Bpifrance le Lab - PME - 64e enquête de conjoncture - Janvier 2017
Bpifrance
 
[MaddyTalk] La Ville - Carnet de tendances
[MaddyTalk] La Ville - Carnet de tendances [MaddyTalk] La Ville - Carnet de tendances
[MaddyTalk] La Ville - Carnet de tendances
Startup et Innovation
 
Numérique et nouvelles activités - Les propostions du Medef
Numérique et nouvelles activités - Les propostions du MedefNumérique et nouvelles activités - Les propostions du Medef
Numérique et nouvelles activités - Les propostions du Medef
Adm Medef
 
EY Pharmastudie 2017
EY Pharmastudie 2017EY Pharmastudie 2017
EY Pharmastudie 2017
EY
 
EY Biotechnology Report 2017: Beyond borders - Staying the course
EY Biotechnology Report 2017: Beyond borders  - Staying the courseEY Biotechnology Report 2017: Beyond borders  - Staying the course
EY Biotechnology Report 2017: Beyond borders - Staying the course
EY
 
Assekuranz: Bei Immobilien sind Einzelhandel und Sicherheit wieder top
Assekuranz: Bei Immobilien sind Einzelhandel und Sicherheit wieder topAssekuranz: Bei Immobilien sind Einzelhandel und Sicherheit wieder top
Assekuranz: Bei Immobilien sind Einzelhandel und Sicherheit wieder top
EY
 
IFRS 15 Benchmarking survey for financial services
IFRS 15 Benchmarking survey for financial servicesIFRS 15 Benchmarking survey for financial services
IFRS 15 Benchmarking survey for financial services
EY
 
Vorstände deutscher Konzerne bleiben Männerdomäne
Vorstände deutscher Konzerne bleiben MännerdomäneVorstände deutscher Konzerne bleiben Männerdomäne
Vorstände deutscher Konzerne bleiben Männerdomäne
EY
 
Deutsche Kommunen drehen an der Steuerschraube
Deutsche Kommunen drehen an der SteuerschraubeDeutsche Kommunen drehen an der Steuerschraube
Deutsche Kommunen drehen an der Steuerschraube
EY
 
Monter une filiale à l'étranger
Monter une filiale à l'étranger Monter une filiale à l'étranger
Monter une filiale à l'étranger
Bpifrance
 
Deutsche Autokonzerne Weltspitze beim Gewinn
Deutsche Autokonzerne Weltspitze beim GewinnDeutsche Autokonzerne Weltspitze beim Gewinn
Deutsche Autokonzerne Weltspitze beim Gewinn
EY
 
Deutsche fast viereinhalb Stunden täglich online
Deutsche fast viereinhalb Stunden täglich onlineDeutsche fast viereinhalb Stunden täglich online
Deutsche fast viereinhalb Stunden täglich online
EY
 
Etude sur les relations entre Startups et Grandes Entreprises
Etude sur les relations entre Startups et Grandes EntreprisesEtude sur les relations entre Startups et Grandes Entreprises
Etude sur les relations entre Startups et Grandes Entreprises
Startup et Innovation
 
DigiData Novembre 2016
DigiData Novembre 2016DigiData Novembre 2016
DigiData Novembre 2016
Digitools.io
 
ORCHESTRA - Gouvernance des donnees et MDM - Data forum MICROPOLE 2016
ORCHESTRA -  Gouvernance des donnees et MDM -  Data forum MICROPOLE 2016 ORCHESTRA -  Gouvernance des donnees et MDM -  Data forum MICROPOLE 2016
ORCHESTRA - Gouvernance des donnees et MDM - Data forum MICROPOLE 2016
Micropole Group
 
Kommunen in der Finanzkrise
Kommunen in der FinanzkriseKommunen in der Finanzkrise
Kommunen in der Finanzkrise
EY
 
Mittelständler mit besserer Frauenquote als börsennotierte Unternehmen
Mittelständler mit besserer Frauenquote als börsennotierte UnternehmenMittelständler mit besserer Frauenquote als börsennotierte Unternehmen
Mittelständler mit besserer Frauenquote als börsennotierte Unternehmen
EY
 

En vedette (20)

Le nouvel acte uniforme relatif au droit comptable et à l'information financière
Le nouvel acte uniforme relatif au droit comptable et à l'information financièreLe nouvel acte uniforme relatif au droit comptable et à l'information financière
Le nouvel acte uniforme relatif au droit comptable et à l'information financière
 
Open data : faire parler les données
Open data  : faire parler les donnéesOpen data  : faire parler les données
Open data : faire parler les données
 
Enquête ETI 2017
Enquête ETI 2017Enquête ETI 2017
Enquête ETI 2017
 
Bpifrance le Lab - PME - 64e enquête de conjoncture - Janvier 2017
Bpifrance le Lab - PME - 64e enquête de conjoncture - Janvier 2017Bpifrance le Lab - PME - 64e enquête de conjoncture - Janvier 2017
Bpifrance le Lab - PME - 64e enquête de conjoncture - Janvier 2017
 
[MaddyTalk] La Ville - Carnet de tendances
[MaddyTalk] La Ville - Carnet de tendances [MaddyTalk] La Ville - Carnet de tendances
[MaddyTalk] La Ville - Carnet de tendances
 
Numérique et nouvelles activités - Les propostions du Medef
Numérique et nouvelles activités - Les propostions du MedefNumérique et nouvelles activités - Les propostions du Medef
Numérique et nouvelles activités - Les propostions du Medef
 
EY Pharmastudie 2017
EY Pharmastudie 2017EY Pharmastudie 2017
EY Pharmastudie 2017
 
EY Biotechnology Report 2017: Beyond borders - Staying the course
EY Biotechnology Report 2017: Beyond borders  - Staying the courseEY Biotechnology Report 2017: Beyond borders  - Staying the course
EY Biotechnology Report 2017: Beyond borders - Staying the course
 
Assekuranz: Bei Immobilien sind Einzelhandel und Sicherheit wieder top
Assekuranz: Bei Immobilien sind Einzelhandel und Sicherheit wieder topAssekuranz: Bei Immobilien sind Einzelhandel und Sicherheit wieder top
Assekuranz: Bei Immobilien sind Einzelhandel und Sicherheit wieder top
 
IFRS 15 Benchmarking survey for financial services
IFRS 15 Benchmarking survey for financial servicesIFRS 15 Benchmarking survey for financial services
IFRS 15 Benchmarking survey for financial services
 
Vorstände deutscher Konzerne bleiben Männerdomäne
Vorstände deutscher Konzerne bleiben MännerdomäneVorstände deutscher Konzerne bleiben Männerdomäne
Vorstände deutscher Konzerne bleiben Männerdomäne
 
Deutsche Kommunen drehen an der Steuerschraube
Deutsche Kommunen drehen an der SteuerschraubeDeutsche Kommunen drehen an der Steuerschraube
Deutsche Kommunen drehen an der Steuerschraube
 
Monter une filiale à l'étranger
Monter une filiale à l'étranger Monter une filiale à l'étranger
Monter une filiale à l'étranger
 
Deutsche Autokonzerne Weltspitze beim Gewinn
Deutsche Autokonzerne Weltspitze beim GewinnDeutsche Autokonzerne Weltspitze beim Gewinn
Deutsche Autokonzerne Weltspitze beim Gewinn
 
Deutsche fast viereinhalb Stunden täglich online
Deutsche fast viereinhalb Stunden täglich onlineDeutsche fast viereinhalb Stunden täglich online
Deutsche fast viereinhalb Stunden täglich online
 
Etude sur les relations entre Startups et Grandes Entreprises
Etude sur les relations entre Startups et Grandes EntreprisesEtude sur les relations entre Startups et Grandes Entreprises
Etude sur les relations entre Startups et Grandes Entreprises
 
DigiData Novembre 2016
DigiData Novembre 2016DigiData Novembre 2016
DigiData Novembre 2016
 
ORCHESTRA - Gouvernance des donnees et MDM - Data forum MICROPOLE 2016
ORCHESTRA -  Gouvernance des donnees et MDM -  Data forum MICROPOLE 2016 ORCHESTRA -  Gouvernance des donnees et MDM -  Data forum MICROPOLE 2016
ORCHESTRA - Gouvernance des donnees et MDM - Data forum MICROPOLE 2016
 
Kommunen in der Finanzkrise
Kommunen in der FinanzkriseKommunen in der Finanzkrise
Kommunen in der Finanzkrise
 
Mittelständler mit besserer Frauenquote als börsennotierte Unternehmen
Mittelständler mit besserer Frauenquote als börsennotierte UnternehmenMittelständler mit besserer Frauenquote als börsennotierte Unternehmen
Mittelständler mit besserer Frauenquote als börsennotierte Unternehmen
 

Similaire à Matinée Découverte Big Data & Data Science - 24012017

Etude AKOYA Big Data
Etude AKOYA Big DataEtude AKOYA Big Data
Etude AKOYA Big Data
Jocelyn Muret
 
Big data-2-170220212621
Big data-2-170220212621Big data-2-170220212621
Big data-2-170220212621
Haifa Akermi
 
Big data : Défi, enjeux et impacts métiers
Big data : Défi, enjeux et impacts métiersBig data : Défi, enjeux et impacts métiers
Big data : Défi, enjeux et impacts métiers
Bruno Patin
 
Big Data RenaissanceNumerique
Big Data RenaissanceNumeriqueBig Data RenaissanceNumerique
Big Data RenaissanceNumerique
Fanny Despouys
 
Big Data ete learning Analytics
Big Data ete learning AnalyticsBig Data ete learning Analytics
Big Data ete learning Analytics
Mokhtar Ben Henda
 
Livre blanc #G9plus : Big Data - l'accélérateur d'innovation
Livre blanc #G9plus : Big Data - l'accélérateur d'innovationLivre blanc #G9plus : Big Data - l'accélérateur d'innovation
Livre blanc #G9plus : Big Data - l'accélérateur d'innovation
Institut G9+
 
Big data, l'accélération d'innovation
Big data, l'accélération d'innovationBig data, l'accélération d'innovation
Big data, l'accélération d'innovation
Lionel Martins
 
1-2-Economie-Georgios Fradelos Big Data et évolution des Big Data-3
1-2-Economie-Georgios Fradelos Big Data et évolution des Big Data-31-2-Economie-Georgios Fradelos Big Data et évolution des Big Data-3
1-2-Economie-Georgios Fradelos Big Data et évolution des Big Data-3
Georgios Fradelos
 
LIVRE BLANC - Les vrais chiffres du Big Data
LIVRE BLANC - Les vrais chiffres du Big DataLIVRE BLANC - Les vrais chiffres du Big Data
LIVRE BLANC - Les vrais chiffres du Big Data
Inetum
 
#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big Data#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big Data
NetSecure Day
 
De l'importance de développer une culture des données dans les organisations
De l'importance de développer une culture des données dans les organisationsDe l'importance de développer une culture des données dans les organisations
De l'importance de développer une culture des données dans les organisations
Fing
 
Big data : avis d'Experts
Big data : avis d'ExpertsBig data : avis d'Experts
Big data : avis d'Experts
Linda Bor
 
Big data et marketing digital
Big data et marketing digital Big data et marketing digital
Big data et marketing digital
Hamza Sossey
 
Le Big Data
Le Big DataLe Big Data
Le Big Data
BigDataJDA
 
3 minutes pour comprendre ... le Big Data
3 minutes pour comprendre ... le Big Data3 minutes pour comprendre ... le Big Data
3 minutes pour comprendre ... le Big Data
Alain KHEMILI
 
bgi-data-1 (1).pptx
bgi-data-1 (1).pptxbgi-data-1 (1).pptx
bgi-data-1 (1).pptx
ImedMessaoudi2
 
Livre Blanc Big Data : fin ou renouveau du Marketing ?
Livre Blanc Big Data : fin ou renouveau du Marketing ?Livre Blanc Big Data : fin ou renouveau du Marketing ?
Livre Blanc Big Data : fin ou renouveau du Marketing ?
Aproged
 
Hadoop et le big data
Hadoop et le big dataHadoop et le big data
Hadoop et le big data
Juvénal CHOKOGOUE
 
Parcours Big Data @ Cetic (6 mai 2014)
Parcours Big Data @ Cetic (6 mai 2014)Parcours Big Data @ Cetic (6 mai 2014)
Parcours Big Data @ Cetic (6 mai 2014)
Agence du Numérique (AdN)
 

Similaire à Matinée Découverte Big Data & Data Science - 24012017 (20)

Etude AKOYA Big Data
Etude AKOYA Big DataEtude AKOYA Big Data
Etude AKOYA Big Data
 
Big data-2-170220212621
Big data-2-170220212621Big data-2-170220212621
Big data-2-170220212621
 
Big data : Défi, enjeux et impacts métiers
Big data : Défi, enjeux et impacts métiersBig data : Défi, enjeux et impacts métiers
Big data : Défi, enjeux et impacts métiers
 
Big Data RenaissanceNumerique
Big Data RenaissanceNumeriqueBig Data RenaissanceNumerique
Big Data RenaissanceNumerique
 
Big Data ete learning Analytics
Big Data ete learning AnalyticsBig Data ete learning Analytics
Big Data ete learning Analytics
 
Livre blanc #G9plus : Big Data - l'accélérateur d'innovation
Livre blanc #G9plus : Big Data - l'accélérateur d'innovationLivre blanc #G9plus : Big Data - l'accélérateur d'innovation
Livre blanc #G9plus : Big Data - l'accélérateur d'innovation
 
2014-12-16-G9plus-LB-Big-Data
2014-12-16-G9plus-LB-Big-Data2014-12-16-G9plus-LB-Big-Data
2014-12-16-G9plus-LB-Big-Data
 
Big data, l'accélération d'innovation
Big data, l'accélération d'innovationBig data, l'accélération d'innovation
Big data, l'accélération d'innovation
 
1-2-Economie-Georgios Fradelos Big Data et évolution des Big Data-3
1-2-Economie-Georgios Fradelos Big Data et évolution des Big Data-31-2-Economie-Georgios Fradelos Big Data et évolution des Big Data-3
1-2-Economie-Georgios Fradelos Big Data et évolution des Big Data-3
 
LIVRE BLANC - Les vrais chiffres du Big Data
LIVRE BLANC - Les vrais chiffres du Big DataLIVRE BLANC - Les vrais chiffres du Big Data
LIVRE BLANC - Les vrais chiffres du Big Data
 
#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big Data#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big Data
 
De l'importance de développer une culture des données dans les organisations
De l'importance de développer une culture des données dans les organisationsDe l'importance de développer une culture des données dans les organisations
De l'importance de développer une culture des données dans les organisations
 
Big data : avis d'Experts
Big data : avis d'ExpertsBig data : avis d'Experts
Big data : avis d'Experts
 
Big data et marketing digital
Big data et marketing digital Big data et marketing digital
Big data et marketing digital
 
Le Big Data
Le Big DataLe Big Data
Le Big Data
 
3 minutes pour comprendre ... le Big Data
3 minutes pour comprendre ... le Big Data3 minutes pour comprendre ... le Big Data
3 minutes pour comprendre ... le Big Data
 
bgi-data-1 (1).pptx
bgi-data-1 (1).pptxbgi-data-1 (1).pptx
bgi-data-1 (1).pptx
 
Livre Blanc Big Data : fin ou renouveau du Marketing ?
Livre Blanc Big Data : fin ou renouveau du Marketing ?Livre Blanc Big Data : fin ou renouveau du Marketing ?
Livre Blanc Big Data : fin ou renouveau du Marketing ?
 
Hadoop et le big data
Hadoop et le big dataHadoop et le big data
Hadoop et le big data
 
Parcours Big Data @ Cetic (6 mai 2014)
Parcours Big Data @ Cetic (6 mai 2014)Parcours Big Data @ Cetic (6 mai 2014)
Parcours Big Data @ Cetic (6 mai 2014)
 

Plus de Micropole Group

API Management
API ManagementAPI Management
API Management
Micropole Group
 
Micropole Data Forum 2017 - Atelier Pitney Bowes
Micropole Data Forum 2017 - Atelier Pitney BowesMicropole Data Forum 2017 - Atelier Pitney Bowes
Micropole Data Forum 2017 - Atelier Pitney Bowes
Micropole Group
 
Micropole Data Forum 2017 - Atelier Oracle
Micropole Data Forum 2017 - Atelier OracleMicropole Data Forum 2017 - Atelier Oracle
Micropole Data Forum 2017 - Atelier Oracle
Micropole Group
 
Micropole Data Forum 2017 - Atelier Informatica
Micropole Data Forum 2017 - Atelier InformaticaMicropole Data Forum 2017 - Atelier Informatica
Micropole Data Forum 2017 - Atelier Informatica
Micropole Group
 
DATA FORUM 2017 - Présentation Micropole - Les tendances Data 2018
DATA FORUM 2017 - Présentation Micropole - Les tendances Data 2018DATA FORUM 2017 - Présentation Micropole - Les tendances Data 2018
DATA FORUM 2017 - Présentation Micropole - Les tendances Data 2018
Micropole Group
 
Matinée Micropole GDPR
Matinée Micropole GDPRMatinée Micropole GDPR
Matinée Micropole GDPR
Micropole Group
 
ORACLE - La vue 360 de vos clients dans le cloud - Data forum MICROPOLE 2016
ORACLE - La vue 360  de vos clients dans le cloud -  Data forum MICROPOLE 2016 ORACLE - La vue 360  de vos clients dans le cloud -  Data forum MICROPOLE 2016
ORACLE - La vue 360 de vos clients dans le cloud - Data forum MICROPOLE 2016
Micropole Group
 
HARLAY Avocats big ou smart, les nouveaux enjeux juridiques de la gouvernan...
HARLAY Avocats   big ou smart, les nouveaux enjeux juridiques de la gouvernan...HARLAY Avocats   big ou smart, les nouveaux enjeux juridiques de la gouvernan...
HARLAY Avocats big ou smart, les nouveaux enjeux juridiques de la gouvernan...
Micropole Group
 
CONTENTSERV - PIM le noyau central d'un ecosysteme digital - Data forum MIC...
CONTENTSERV -  PIM le noyau central d'un ecosysteme digital -  Data forum MIC...CONTENTSERV -  PIM le noyau central d'un ecosysteme digital -  Data forum MIC...
CONTENTSERV - PIM le noyau central d'un ecosysteme digital - Data forum MIC...
Micropole Group
 
ASG - Maitriser ses donnees dans le cadre reglementaire - Data forum MICROPO...
ASG -  Maitriser ses donnees dans le cadre reglementaire - Data forum MICROPO...ASG -  Maitriser ses donnees dans le cadre reglementaire - Data forum MICROPO...
ASG - Maitriser ses donnees dans le cadre reglementaire - Data forum MICROPO...
Micropole Group
 
Informatica - le MDM nouvelle génération - Data forum MICROPOLE 2016
Informatica - le MDM nouvelle génération - Data forum MICROPOLE 2016 Informatica - le MDM nouvelle génération - Data forum MICROPOLE 2016
Informatica - le MDM nouvelle génération - Data forum MICROPOLE 2016
Micropole Group
 
Presentation Matinée Gouvernance des donnees
Presentation Matinée Gouvernance des donneesPresentation Matinée Gouvernance des donnees
Presentation Matinée Gouvernance des donnees
Micropole Group
 
Wide Coffee La Connaissance Client en mode digital
Wide Coffee La Connaissance Client en mode digitalWide Coffee La Connaissance Client en mode digital
Wide Coffee La Connaissance Client en mode digital
Micropole Group
 
Présentation Evénement Datavisualisation
Présentation Evénement DatavisualisationPrésentation Evénement Datavisualisation
Présentation Evénement Datavisualisation
Micropole Group
 
DATA FORUM 2015 - Atelier ORACLE
DATA FORUM 2015 - Atelier ORACLEDATA FORUM 2015 - Atelier ORACLE
DATA FORUM 2015 - Atelier ORACLE
Micropole Group
 
DATA FORUM MICROPOLE - 2015
DATA FORUM MICROPOLE - 2015DATA FORUM MICROPOLE - 2015
DATA FORUM MICROPOLE - 2015
Micropole Group
 
DATA FORUM MICROPOLE 2015 - Atelier Orchestra
 DATA FORUM MICROPOLE 2015 - Atelier Orchestra DATA FORUM MICROPOLE 2015 - Atelier Orchestra
DATA FORUM MICROPOLE 2015 - Atelier Orchestra
Micropole Group
 
DATA FORUM MICROPOLE 2015 - Atelier Talend
 DATA FORUM MICROPOLE 2015 - Atelier Talend DATA FORUM MICROPOLE 2015 - Atelier Talend
DATA FORUM MICROPOLE 2015 - Atelier Talend
Micropole Group
 
DATA FORUM MICROPOLE 2015 - Information Builders
 DATA FORUM MICROPOLE 2015 -  Information Builders DATA FORUM MICROPOLE 2015 -  Information Builders
DATA FORUM MICROPOLE 2015 - Information Builders
Micropole Group
 
DATA FORUM MICROPOLE 2015 - Forrester - Data Gouvernance Valuation
 DATA FORUM MICROPOLE 2015 - Forrester - Data Gouvernance Valuation DATA FORUM MICROPOLE 2015 - Forrester - Data Gouvernance Valuation
DATA FORUM MICROPOLE 2015 - Forrester - Data Gouvernance Valuation
Micropole Group
 

Plus de Micropole Group (20)

API Management
API ManagementAPI Management
API Management
 
Micropole Data Forum 2017 - Atelier Pitney Bowes
Micropole Data Forum 2017 - Atelier Pitney BowesMicropole Data Forum 2017 - Atelier Pitney Bowes
Micropole Data Forum 2017 - Atelier Pitney Bowes
 
Micropole Data Forum 2017 - Atelier Oracle
Micropole Data Forum 2017 - Atelier OracleMicropole Data Forum 2017 - Atelier Oracle
Micropole Data Forum 2017 - Atelier Oracle
 
Micropole Data Forum 2017 - Atelier Informatica
Micropole Data Forum 2017 - Atelier InformaticaMicropole Data Forum 2017 - Atelier Informatica
Micropole Data Forum 2017 - Atelier Informatica
 
DATA FORUM 2017 - Présentation Micropole - Les tendances Data 2018
DATA FORUM 2017 - Présentation Micropole - Les tendances Data 2018DATA FORUM 2017 - Présentation Micropole - Les tendances Data 2018
DATA FORUM 2017 - Présentation Micropole - Les tendances Data 2018
 
Matinée Micropole GDPR
Matinée Micropole GDPRMatinée Micropole GDPR
Matinée Micropole GDPR
 
ORACLE - La vue 360 de vos clients dans le cloud - Data forum MICROPOLE 2016
ORACLE - La vue 360  de vos clients dans le cloud -  Data forum MICROPOLE 2016 ORACLE - La vue 360  de vos clients dans le cloud -  Data forum MICROPOLE 2016
ORACLE - La vue 360 de vos clients dans le cloud - Data forum MICROPOLE 2016
 
HARLAY Avocats big ou smart, les nouveaux enjeux juridiques de la gouvernan...
HARLAY Avocats   big ou smart, les nouveaux enjeux juridiques de la gouvernan...HARLAY Avocats   big ou smart, les nouveaux enjeux juridiques de la gouvernan...
HARLAY Avocats big ou smart, les nouveaux enjeux juridiques de la gouvernan...
 
CONTENTSERV - PIM le noyau central d'un ecosysteme digital - Data forum MIC...
CONTENTSERV -  PIM le noyau central d'un ecosysteme digital -  Data forum MIC...CONTENTSERV -  PIM le noyau central d'un ecosysteme digital -  Data forum MIC...
CONTENTSERV - PIM le noyau central d'un ecosysteme digital - Data forum MIC...
 
ASG - Maitriser ses donnees dans le cadre reglementaire - Data forum MICROPO...
ASG -  Maitriser ses donnees dans le cadre reglementaire - Data forum MICROPO...ASG -  Maitriser ses donnees dans le cadre reglementaire - Data forum MICROPO...
ASG - Maitriser ses donnees dans le cadre reglementaire - Data forum MICROPO...
 
Informatica - le MDM nouvelle génération - Data forum MICROPOLE 2016
Informatica - le MDM nouvelle génération - Data forum MICROPOLE 2016 Informatica - le MDM nouvelle génération - Data forum MICROPOLE 2016
Informatica - le MDM nouvelle génération - Data forum MICROPOLE 2016
 
Presentation Matinée Gouvernance des donnees
Presentation Matinée Gouvernance des donneesPresentation Matinée Gouvernance des donnees
Presentation Matinée Gouvernance des donnees
 
Wide Coffee La Connaissance Client en mode digital
Wide Coffee La Connaissance Client en mode digitalWide Coffee La Connaissance Client en mode digital
Wide Coffee La Connaissance Client en mode digital
 
Présentation Evénement Datavisualisation
Présentation Evénement DatavisualisationPrésentation Evénement Datavisualisation
Présentation Evénement Datavisualisation
 
DATA FORUM 2015 - Atelier ORACLE
DATA FORUM 2015 - Atelier ORACLEDATA FORUM 2015 - Atelier ORACLE
DATA FORUM 2015 - Atelier ORACLE
 
DATA FORUM MICROPOLE - 2015
DATA FORUM MICROPOLE - 2015DATA FORUM MICROPOLE - 2015
DATA FORUM MICROPOLE - 2015
 
DATA FORUM MICROPOLE 2015 - Atelier Orchestra
 DATA FORUM MICROPOLE 2015 - Atelier Orchestra DATA FORUM MICROPOLE 2015 - Atelier Orchestra
DATA FORUM MICROPOLE 2015 - Atelier Orchestra
 
DATA FORUM MICROPOLE 2015 - Atelier Talend
 DATA FORUM MICROPOLE 2015 - Atelier Talend DATA FORUM MICROPOLE 2015 - Atelier Talend
DATA FORUM MICROPOLE 2015 - Atelier Talend
 
DATA FORUM MICROPOLE 2015 - Information Builders
 DATA FORUM MICROPOLE 2015 -  Information Builders DATA FORUM MICROPOLE 2015 -  Information Builders
DATA FORUM MICROPOLE 2015 - Information Builders
 
DATA FORUM MICROPOLE 2015 - Forrester - Data Gouvernance Valuation
 DATA FORUM MICROPOLE 2015 - Forrester - Data Gouvernance Valuation DATA FORUM MICROPOLE 2015 - Forrester - Data Gouvernance Valuation
DATA FORUM MICROPOLE 2015 - Forrester - Data Gouvernance Valuation
 

Matinée Découverte Big Data & Data Science - 24012017

  • 1. DÉMYSTIFIONS LA DATA SCIENCE ! DAVID-STÉPHANEFALA DirecteurPracticeBigData&DataIntelligence TANGUYLENOUVEL DirecteurPracticeDataScience BIG DATA & DATA SCIENCE : LES BEST PRACTICES Mardi24janvier2017
  • 2. 1. INTRODUCTION 2. BIG DATA : À L’HEURE DU CONSTAT 3. DATA MINING ET DATA SCIENCE 4. BEST PRACTICES POUR ALLER VERS LA DATA SCIENCE 5. JUSQU’OÙ PEUT-ON EXPLOITER LES BIG DATAS 6. CONCLUSIONS ET PERSPECTIVES Table des matières DÉMYSTIFIONS LA DATA SCIENCE !
  • 4. 4 PREAMBULE Nous sommes tous d’accord … … nous entrons dans une nouvelle ère avec les big datas INNOVATION PERMANENTE Google glasses/car, iWatch, 3D printing, … VIE HYPER CONNECTÉE 4 à 6 heures par jour web + mobile LES MACHINES PARLENT Internet of (every)Things … 20 à 50 milliards d’objets connectés d’ici 2020 INFORMATION CONSTANTE 60s = 4mio Google queries, 2.5mio nouveaux contenus Facebook, … NOUVEAUX ECOSYSTEMES Co-conception avec les clients / utilisateurs, start- ups, social networks, … Matinée Découverte – 24-01-2017
  • 5. 5 UN NOUVEAU MONDE CONNECTÉ De nouveaux usages amenés par un monde hyper connecté Matinée Découverte – 24-01-2017 “The Internet of Everything” Mainframe 1970’s IBM Client-Serveur 1990’s ORACLE SocialMobileCloud Aujourd'hui Hadoop Distribué Isolé Semi-Connecté Tout connecté
  • 6. 6 LES NOUVEAUX BARBARES ARRIVENT L'émergence de l'économie disruptive Matinée Découverte – 24-01-2017 La plus grande compagnie de taxis au monde … N'a pas de véhicules Le plus grand média … Ne crée pas de contenus Le distributeur le plus valorisé … N'a pas d'inventaire La plus grande chaîne hôtelière au monde … Ne possède pas d'hôtel Dans votre industrie, xxx … N'a pas de … ?
  • 7. 7 révolution transition numérique Transformation digital ubérisation cloud mutationmobilité robots Watson Intelligence artificielle Internet des objets Big data High-tech usage disruption La révolution numérique c’est quoi concrètement Matinée Découverte – 24-01-2017
  • 8. 8Quand on pense révolution numérique, on pense … Matinée Découverte – 24-01-2017
  • 9. 9 Distributeur de pizza à Beauvoir sur mer Mais la transformation numérique, c’est aussi… Matinée Découverte – 24-01-2017
  • 11. 11…ou encore l’intelligence artificielle Matinée Découverte – 24-01-2017
  • 12. 12 En fait, le numérique a changé nos vies ! Matinée Découverte – 24-01-2017
  • 13. 13 Tous les secteurs sont touchés Matinée Découverte – 24-01-2017
  • 14. 14LEUR POINT COMMUN ? Demande des technologies disruptives Ils interagissent principalement avec leurs clients via le web, utilisent des architectures de données modernes et font de la data science Matinée Découverte – 24-01-2017Matinée Découverte – 04-20-2016
  • 15. 15 À L’HEURE DU CONSTAT BIG DATA :
  • 16. 16 • La transformation numérique c'est la vraie vie • Le numérique, ce n’est pas les start up, c’est bien plus • La masse est remplacée par la multitude • La transition numérique implique une rupture profonde • L’entreprise doit passer du produit / service à l’expérience client • La question de la gouvernance est essentielle pour affronter les nouveaux enjeux. Quelques repères pour s’y retrouver Matinée Découverte – 24-01-2017
  • 17. 17 • Le Big Data n’est pas une fatalité ou une obligation. • Les enjeux métiers passent avant la dimension technologique. • Les technologies associées au Big Data doivent supporter vos enjeux et non l’inverse. • La Gouvernance est un préalable à tout projet Big Data • Il faut être réaliste (se poser les questions quant à la captation de l’information, sa sécurité, sa disponibilité, sa volumétrie, sa durée de vie) • Au final le choix des technologies importe peu, qu’il s’agisse de Big Data, NoSQL, technologies disruptives, c’est votre projet qui va conditionner le choix des technologies Quelques repères pour s’y retrouver Matinée Découverte – 24-01-2017
  • 18. 18 • Une grande partie des cas d’usages sur lesquels s’appuient « les nouveaux barbares » ne pourraient pas se réaliser sans la Data Science. • Elle est à l’initiative de 50% de nos projets Big Data • Elle est partie intégrante des plateformes Big Data • Mais le Big Data n’est pas nécessaire pour débuter en Data Science • L’industrialisation de la Data Science nécessite une réelle expérience et une compréhension fine de vos enjeux • Ne pas oublier la dimension juridique ! Et la Data Science dans tout cela Matinée Découverte – 24-01-2017
  • 19. 19 L'EXEMPLE AMAZON GO Boot Camp Big Data - (C) Micropole Institut - Jan.2017 - Tous droits réservés
  • 20. 20 LES TECHNOLOGIES QUI RENDENT POSSIBLE AMAZON GO Boot Camp Big Data - (C) Micropole Institut - Jan.2017 - Tous droits réservés Data Science CRM SCM Deep Learning Sensor Fusion Données structurées Données non-structurées Socle Big Data
  • 21. 21 CE SONT AUSSI DES QUESTIONS Boot Camp Big Data - (C) Micropole Institut - Jan.2017 - Tous droits réservés  Quel avenir pour les caissières ?  Pour les personnes travaillant dans la chaîne d'approvisionnement ?  Plus globalement quel est l'impact du Big Data sur notre société de demain ?  Comment accompagner les entreprises dans la conduite du changement ?  La théorie du déversement  Les impacts politiques
  • 23. 23 FOCUS SUR LA DATA SCIENCE REVENONS SUR CES DERNIÈRES ANNÉES • Des dizaines de milliers d’articles et beaucoup de buzz dans les médias • De nombreux nouveaux acteurs. De multiples acquisitions • Des cas d’usage à foison … telles que prédire l’évolution d’épidémies, la survenance de catastrophes naturelles :: IBM acquires AlchemyAPI, a deep learning startup :: Microsoft buys Revolution Analytics, a predictive analysis startup :: En rachetant TupleJump, Apple se positionne aussi sur le machine learning Matinée Découverte – 24-01-2017
  • 24. 24 LE BIG DATA PEUT-IL TOUT PRÉDIRE ? Prédiction de l’évolution d’une épidémie de grippe aux Etats-Unis • Quand Google prépare une « app » ayant vocation à prédire l’évolution d’épidémies en fonction des recherches sur son moteur de recherche • Et que quelques data scientists détectent la supercherie… Matinée Découverte – 24-01-2017 This month, in a Science magazine article, four quantitatively adept social scientists reported that Google’s flu-tracking service not only wildly overestimated the number of flu cases in the United States in the 2012- 13 flu season — a well-known miss — but has also consistently overshot in the last few years. En France, on utilise le réseau Sentinelle
  • 25. 25 DATA MINING & DATA SCIENCE UN LIEN TRÈS FORT ! CHRONOLOGIE : 1850 : STATISTIQUE Quelques centaines d’individus et quelques variables, recueillies selon un protocole strict pour une étude scientifique 1960 : ANALYSE DE DONNÉES Quelques dizaines de milliers d’individus et quelques dizaines de variables recueillies de façon rigoureuse pour une enquête précise 1990 : DATA MINING Plusieurs millions d’individus et plusieurs centaines de variables hétérogènes, recueillies dans le système d’information des entreprises pour de l’aide à la décision 2010 : DATA SCIENCE Les Big Datas avec plusieurs centaines de millions d’individus et plusieurs milliers de variables, de tous types, recueillies dans les entreprises, les systèmes, Internet, pour de l’aide à la décision, de nouveaux services  La data science n’est pas nouvelle.  Elle représente l’application (et l’adaptation) du data mining aux Big Datas… Matinée Découverte – 24-01-2017
  • 26. 26 DATA MINING & DATA SCIENCE ON RETROUVE LES DEUX MÊMES APPROCHES  Les techniques DESCRIPTIVES – EXPLORATOIRES • visent à mettre en évidence des informations présentes mais cachées par le volume des données (segments de clients aux profils comparables, présence d’associations de produits dans les tickets de caisse) • réduisent, résument, synthétisent les données et permettent une meilleure compréhension • il n’y a pas de variable « cible »  Les techniques PREDICTIVES – DECISIONNELLES • visent à expliquer et/ou prédire un évènement (Achat, Résiliation, Panne) ou un phénomène (Fréquentation en magasin, Nombre d’appels) à partir des informations du passé • expliquent les données • il y a une variable « cible » à prédire, à expliquer Matinée Découverte – 24-01-2017 Ces 2 approches sont complémentaires
  • 27. 27 DATA MINING & DATA SCIENCE ET AUSSI LA MÊME DÉMARCHE Matinée Découverte – 24-01-2017 Quel que soit l’objectif à atteindre ou la nature des informations à traiter, la démarche méthodologique ne change pas.  Démarche itérative en 6 étapes  Ces étapes peuvent se transposer pour la quasi-totalité des projets.  Les trois premières phases sont les plus déterminantes pour la réussite du projet, ce sont aussi celles qui prennent le plus de temps et.  Que l’on parle de data mining ou de data science, il n’y a rien de magique là-dedans mais une démarche minutieuse, réfléchie et très itérative !  S’il suffisait de stocker un maximum de données et de les passer à la moulinette d’algorithmes pour trouver des pépites… EVALUATION ET SUIVI DE LA PERFORMANCE VALIDATION DES OBJECTIFS ET INDUSTRIALISATION EXPLORATION, MODÉLISATION, OPTIMISATION SÉLECTION, EXPLORATION ET PRÉPARATION DES DONNÉES CADRAGE DU PROJET DÉFINITION DES OBJECTIFS
  • 28. 28 DATA MINING & DATA SCIENCE QUELLES DIFFÉRENCES ALORS ???  NOMBRE DE VARIABLES / CRITERES / FEATURES Plusieurs milliers en data science versus quelques centaines en data mining  OPEN SOURCE • Accès généralisé à des fonctionnalités et des algorithmes de dernière génération qui jusque-là n’étaient disponibles que dans des suites logicielles payantes et parfois onéreuses : Arbres boostés (GBM), Règles d’association séquentielles, Régressions logistiques Ridge, Lasso, ElasticNet, SVM, Réseaux de neurones… • In-Memory : si ça passe, c’est beaucoup plus rapide ! • Parallel processing : pour tirer un maximum de la machine et gagner du temps • Nouvelles données : de nombreux outils/API/packages pour extraire, stocker et transformer des données issues du Web, des médias sociaux, de l’open data, données météo, images ou vidéos, IoT  BUZZ MARKETING – DISCOURS TRÈS TECHNOLOGIQUE Matinée Découverte – 24-01-2017 Et bien pas mal finalement !
  • 29. 29 DATA MINING & DATA SCIENCE ILLUSTRATION DES DIFFÉRENCES EN MATIÈRE DE MODÉLISATION  Illustration avec un exemple volontairement simplifié • Contexte : o Données issues d’une enquête online, réalisée sur un panel de plusieurs centaines de milliers de personnes. o Avec cette enquête, nous connaissons l’âge, le genre, le niveau d’équipement et les loisirs des répondants o Parmi les question posées : Aimez-vous les jeux vidéo ? Donnez une note de 0 (non, pas du tout) à 10 (oui, beaucoup). • Objectif de l’étude : Modéliser l’attrait pour les jeux vidéo à partir des informations disponibles • Pour notre compréhension, nous allons suivre plus particulièrement les 5 personnes suivantes : Matinée Découverte – 24-01-2017
  • 30. 30 DATA MINING ARBRE DE DECISION  Modélisation par arbre de décision Matinée Découverte – 24-01-2017 25% Score = 7.1 15% Score = 5.5 Garçon ? NO 20% Score = 3.8 40% Score = 1.9 A une tablette ? NO 10% Score = 4.3 10% Score = 3.3 Utilise son PC chaque jour ? NO 100% Score = 3.8 Aimez-vous les jeux vidéos ? 40% Score = 6.5 60% Score = 2.0 Moins de 15 ans ? O N Fonctionnement : De haut en bas, à chaque segmentation, on teste toutes les variables et on choisit la « meilleure » Pour les variables continues, on teste toutes les coupures possibles et on choisit la meilleure On s’arrête lorsque l’on atteint un des critères d’arrêt (segment trop petit, différence non significative) Tous les répondants sont classés dans une des feuilles de l’arbre. On calcule ensuite la note moyenne d’intérêt pour les jeux vidéos dans chaque feuille : le score Le modèle est intuitif et ne requiert aucune connaissance spécifique en data mining pour le comprendre Cette feuille (i.e. segment) correspond aux jeunes garçons de moins de 15 ans. Ils aiment plus les jeux vidéo que les autres avec une note moyenne de 7.1 On peut facilement prédire l’attrait pour les jeux vidéos de quelqu’un qui n’aurait pas répondu à l’enquête. Il est donc facilement industrialisable
  • 31. 31 DATA MINING ARBRE DE DECISION  Le modèle est-il bon ?  Plus les écarts entres les notes réelles et les notes prédites sont petits en valeur absolue et meilleur est le modèle… en apparence.  Erreur moyenne de prédiction en valeur absolue = 1.7Matinée Découverte – 24-01-2017 Nous nous intéressons ici à l’erreur apparente de prédiction. Pour mesurer la « vraie » erreur de prédiction, il aurait fallu dès le départ mettre de côté un échantillon de répondants (dont on connaît la note d’amour pour les jeux vidéos), leur appliquer le modèle et calculer alors l’erreur de prédiction. Répondant Aimez- vous les jeux vidéo ? Note prédite par l’arbre de décision Ecart 10 7.1 2.9 8 5.5 2.5 2 1.9 0.1 5 4.3 0.7 1 3.3 -2,3 … … … …
  • 32. 32 DATA SCIENCE ARBRES DE DECISION BOOSTÉS  On calcule plusieurs arbres de décision successivement. Les arbres sont moins profonds et contiennent moins de segments. Chaque arbre est moins bon que celui du data mining mais les prédictions finales sont meilleures :  Les prédictions finales (i.e. notes prédites) des répondants sont calculées en sommant les scores obtenus dans chaque arbre : Matinée Découverte – 24-01-2017 100% Score = 3.8 40% Score = 6.5 25% Score = 7.1 15% Score = 5.5 60% Score = 2.0 ARBRE N°1 Aimez-vous les jeux vidéos ? Moins de 15 ans ? O N Garçon ? NO Fonctionnement : 1. Arbre n°1 : construit comme en data mining. 2. Calcul de l’erreur de prédiction pour chaque répondant. 3. Arbre n°2 : construit en modélisant non plus « Aimez-vous les jeux vidéos ? » mais l’erreur de prédiction. 4. Mise à jour des prédictions : somme des scores des arbres précédents pour chaque répondant. 5. Mise à jour des erreurs de prédictions 6+ On continue de construire de nouveaux arbres tant qu’on arrive à faire baisser l’erreur de prédiction en répétant les étapes 3 à 5 100% Score = 0 65% Score = +1.5 30% Score = +1.54 35% Score = 0.82 35% Score = -1 ARBRE N°2 Erreur de prédiction Utilise son PC chaque jour ? O N A une tablette ? NO Note prédite ( ) = 7.1 + 1.54 = 8.64 Note prédite ( ) = 2 – 1 = 1
  • 33. 33 DATA SCIENCE ARBRES DE DECISION BOOSTÉS  Le modèle est-il apparemment bon ?  Note prédite = SOMME(scores des différents arbres)  Erreur moyenne de prédiction en valeur absolue = 1,064Matinée Découverte – 24-01-2017 On obtient dans cet exemple de meilleurs résultats qu’avec un arbre unique. Dans la pratique, c’est quasiment systématique. Les résultats sont même souvent bluffants avec relativement peu d’efforts ! Répondant Aimez- vous les jeux vidéo ? Score prédit par l’arbre n°1 Ecart Etape 1 Score prédit par l’arbre n°2 Note prédite par les 2 arbres Ecart Etape 2 10 7.1 2.9 +1.54 8.64 1.36 8 5.5 2.5 +0.82 6.32 1.68 2 2 0 +0.82 2.82 -0.82 5 2 3 +1,54 3.54 1.46 1 2 -1 -1 1 0 … … … … … …
  • 34. 34 DATA SCIENCE ARBRES DE DECISION BOOSTÉS  En pratique, on enchaine non pas 2 arbres mais des centaines voire des milliers d’arbres.  Le modèle devient donc illisible et ininterprétable… mais dans certains cas la précision prime sur la compréhension (Risque, recommandations en ligne, automates)  Les seules informations disponibles pour aider à la compréhension concernent l’importance des variables et leur fréquence d’apparition dans les différents arbres construits Matinée Découverte – 24-01-2017 En revanche, on perd en lisibilité et donc en compréhension / connaissances
  • 35. 35 DATA SCIENCE AGRÉGATION DE MODÈLES, MÉLANGES… Bagging : • Construction de N échantillons par tirage aléatoire avec remise (bootstrap) à partir de l’échantillon initial. • Construction de N modèles : un par échantillon • Prédiction finale obtenue en calculant la moyenne des prédictions des N modèles. Boosting : • Processus itératif basé sur une succession de tirages aléatoires avec remise et l’introduction d’une pondération donnant plus de poids aux individus mal classés/scorés par le modèle construit lors de l’itération. • Prédiction finale obtenue en calculant la moyenne des prédictions des N modèles, pondérée selon l’erreur de prédiction de chaque modèle. Matinée Découverte – 24-01-2017 Même si ces approches ne sont pas récentes, on constate une très forte montée en puissance de leur utilisation Plus on agrège de modèles et meilleures sont les prédictions… Echantillon d’apprentissage Echantillons Bagging Echantillons Boosting
  • 36. 36 DATA SCIENCE AGRÉGATION DE MODÈLES, MÉLANGES… Stacking : Prédiction à partir de prédictions • 1ère étape : on construit plusieurs modèles avec des algorithmes différents. • 2ème étape : on construit un ou plusieurs modèles à partir des prédictions des modèles précédents (variables explicatives). Blending : Mélange de modèles • Phase finale de la modélisation. • Assemblage de modèles (moyenne, combinaison linéaire, voire nouvelle modélisation) Matinée Découverte – 24-01-2017 Induit une forte complexité tant dans la phase de construction que d’industrialisation Xgboost : arbres boostés RF : Random Forests – Forêts aléatoires GLMNET : régressions logistiques NN : Neural Network – Réseaux de Neurones KNN : K Nearest Neighours, K plus proches voisins
  • 37. 37 DATA SCIENCE BILAN : DES PROMESSES ET QUELQUES DÉRIVES  Des solutions trop complexes, impossibles à industrialiser ou à maintenir  Exemple d’une stratégie de modélisation d’un participant à un concours de data science proposé par Kaggle (7ème sur 1 326 participants) : o Près de 400 modèles imbriqués dans une approche intégrant bagging, boosting, stacking, blending !!! Matinée Découverte – 24-01-2017 On observe des dérives dans la pratique où l’on passe bien trop de temps sur la modélisation et pas assez sur la compréhension du sujet et la préparation des données. Les modèles obtenus permettent peut-être de gagner des concours mais ne seront sans doute jamais industrialisés. Xgboost : arbres boostés RF : Random Forests – Forêts aléatoires GLMNET : régressions logistiques lasso et elastic-net NN : Neural Network – Réseaux de Neurones KNN : K Nearest Neighours, K plus proches voisins
  • 38. 38 DATA SCIENCE LES DÉRIVES  NETFLIX n’a jamais implémenté la solution développée par les gagnants de leur concours à 1 Million de dollars pour optimiser leur moteur de recommandations  Pourquoi ? Matinée Découverte – 24-01-2017 EXEMPLE AVEC NETFLIX “This is a truly impressive compilation and culmination of years of work, blending hundreds of predictive models to finally cross the finish line,” they say. “We evaluated some of the new methods offline but the additional accuracy gains that we measured did not seem to justify the engineering effort needed to bring them into a production environment.”
  • 39. 39 DATA SCIENCE LES DÉRIVES  Objectif : optimiser la gestion des sinistres en identifiant les dossiers sans risque pouvant faire l’objet de remboursements accélérés  Jeu de données : • 145 231 déclarations de sinistres, • 1 934 infos anonymisées (V1, V2, …, V1934) par déclaration • 1 variable à prédire prenant la valeur 1 si pas de risque, 0 sinon  Comparaison de deux stratégies gagnantesMatinée Découverte – 24-01-2017 EXEMPLE AVEC LE CONCOURS KAGGLE – BNP PARIBAS : Can you accelerate BNP Paribas Cardif's claims management process ? 2 926 Participants 30 K$ de gains
  • 40. 40 DATA SCIENCE LES DÉRIVES Matinée Découverte – 24-01-2017 A nouveau plusieurs centaines de modèles Les efforts déployés pour améliorer le modèle ont probablement peu de valeur d’un point de vue opérationnel. Stratégie de modélisation de l’équipe classée 2ème
  • 41. 41 DATA SCIENCE LES DÉRIVES L’anonymisation des données empêche théoriquement d’injecter des indicateurs métiers plus intelligents que les données brutes. Sauf pour cette équipe qui a su déjouer cette situation. Avec un seul modèle prédictif, elle devance la solution précédente. Par contre, le modèle est inexploitable car il utilise les données du futur pour prédire le passé… 1. Identifier les variables les plus importantes à l’aide d’un premier modèle prédictif. Arrêter la modélisation. 2. Donner un sens à ces variables en s’intéressant à la problématique traitée • On travaille sur des déclarations de sinistres… Un client peut avoir plusieurs sinistres. Les sinistres ont lieu à un moment précis. Les contrats n’ont pas tous la même ancienneté… • Donc je devrais pouvoir trouver plusieurs champs « date » et un identifiant client dans mes données anonymisées et donc calculer des agrégats… 3. Calculer des agrégats/indicateurs qui résument le profil et la trajectoire des clients : Nombre de contrats, anciennetés, nombre de sinistres, nombre de sinistres constatés au cours des X derniers mois… 4. Modéliser avec des arbres boostés Matinée Découverte – 24-01-2017 Stratégie de modélisation de l’équipe gagnante “In the end we created a useless model for Bnp, as our lead(target) variables use information from the future:)”
  • 42. 42 DATA MINING & DATA SCIENCE QUESTIONS / REFLÉXIONS ?  « Si mes prédictions étaient plus précises, le réseau commercial les utiliserait-il davantage ? »  « Si mes prédictions ne sont pas performantes, est-ce un problème de conception, de cadrage ou d’optimisation ? »  « Si je prédis bien le caractère frauduleux de certaines déclarations : • Je peux m’en servir pour transmettre à mes contrôleurs une liste de dossiers à contrôler en priorité • Mais si je suis incapable de qualifier chaque dossier en termes de profil de fraude et d’indicateurs à investiguer, utiliseront-ils mon ciblage ? » Matinée Découverte – 24-01-2017
  • 43. 43 DATA MINING & DATA SCIENCE ON DOIT TIRER PROFIT DES DEUX  Finalement • Un bon modèle est un modèle utilisable et utilisé, qui améliore l’existant • Lorsque la compréhension importe moins que la précision, les modèles « boites noires » sont à privilégier à condition d’être industrialisables et d’apporter une réelle plus-value. • Lorsque la compréhension est indispensable : o Soit on fait 2 modèles (un pour prédire et un pour expliquer/convaincre), o Soit on trouve un modèle qui optimise le compromis « Performance / Compréhension ». Matinée Découverte – 24-01-2017
  • 44. 44 DATA MINING & DATA SCIENCE LE CADRAGE : UNE ETAPE ESSENTIELLE  Objectifs du cadrage : fixer le cadre du projet et maximiser ses chances de succès en se posant les bonnes questions et en embarquant les bons profils (équipes Métiers, Data Science et IT) dès le départ Matinée Découverte – 24-01-2017
  • 45. 45 DATA MINING & DATA SCIENCE LE CADRAGE : UNE ETAPE ESSENTIELLE  Objectifs du cadrage : fixer le cadre du projet et maximiser ses chances de succès en se posant les bonnes questions et en embarquant les bons profils (équipes Métiers, Data Science et IT) dès le départ PROBLEMATIQUE Description du contexte Constats précédents Objectifs métiers Objectifs opérationnels KPI Quanti / Quali Contexte d’industrialisation et contraintes associées LIVRABLES Date de livraison souhaitée Types de livrables souhaités Liste de diffusion Données à restituer Déploiement DONNEES Cartogragphie des sources de données internes et externes éligibles à l'étude Périmètre des données à extraire Période d'analyse Définition de la ou des variable(s) à expliquer s'il s'agit de modèles prédictifs Contraintes sur les données Nettoyage des données Agrégation des données METHODOLOGIE Proposition d'approche ETAPES PROJET Etapes Acteurs Deadline Ateliers Cadrage Métiers / Data / IT Collecte des données Préparation des données Validation du périmètre de l'étude Exploration / Modélisation Livraison intermédiaire Validation des résultats / modèles - Corrections Livraison finale Déploiement Back-Testing – Suivi des perfs Documentation Matinée Découverte – 24-01-2017 ORGANISATION - PILOTAGE
  • 46. 46 DEMARCHE DATA SCIENCE EXTRAIT DES PRINCIPAUX CRITÈRES DE SUCCÈS  Des objectifs précis, opérationnels et réalistes  La qualité des données  La préparation et la sélection des données pertinentes par rapport à l’objectif et au sujet traité  La collaboration des compétences métiers et data science avec organisation d’ateliers d’échanges : • Dès le démarrage du projet pour préciser les attentes, les objectifs, le contexte opérationnel du projet, • Pour impliquer et fédérer les équipes internes • Pour traduire en nouveaux indicateurs la connaissance des experts  La collaboration avec l’IT pour définir les conditions de mise en production de la solution cible et le planning de déploiement  Points de validation réguliers permettant de valider les travaux effectués et de passer aux étapes suivantes • Ordres de grandeur, Compréhension des données • Résultats intermédiaires • Adéquation des premiers résultats avec les objectifs opérationnels visés Matinée Découverte – 24-01-2017
  • 47. 47 VERS LA DATA SCIENCE BEST PRACTICES POUR ALLER
  • 48. 48 BEST PRACTICES POUR ALLER VERS LA DATA SCIENCE LAISSER LA TECHNOLOGIE A SA PLACE EN ABORDANT VOS BESOINS D’UN POINT DE VUE MÉTIER ET NON D’UN POINT DE VUE TECHNO / OUTILS 1. Se concentrer sur vos besoins métiers et non sur des questions technologiques ou de choix d’outils • Sachant que : o La data science est censée pouvoir prédire tout ce qu’un expert saurait prédire ou diagnostiquer à condition… o On peut tester l’apport de nouvelles données, structurées ou non (open data, météo, logs webs, IoT , images, vidéos, textes) par rapport à un objectif précis, sans coût additionnel de licence et sans plate-forme BigData. o Les algorithmes prédictifs de dernière génération sont directement accessibles dans les outils open source, o L’intelligence en matière de data science se situe davantage dans la traduction de nouveaux indicateurs reflétant la connaissance des experts que dans le choix d’une solution ou d’un algorithme • Les besoins métiers ou cas d’usage n’ont pas vocation à démontrer la valeur ajoutée de choix d’architectures ou de technologies mais plutôt à les orienter. Matinée Découverte – 24-01-2017
  • 49. 49 BEST PRACTICES POUR ALLER VERS LA DATA SCIENCE LES PROFILS ? 2.Inutile de chercher le mouton à 12 pattes • Sachant que : o Il n’existe peut-être pas o Vous ne pourriez peut-être pas le recruter… o Depuis 5 ans, la plupart des diplômés sont bac+5 et n’apprennent a priori pas 2 fois plus vite qu’avant… Leurs profs n’ont fondamentalement pas changé non plus o Vous disposez sans doute déjà de profils susceptibles de monter en compétences o C’est un travail d’équipe qui nécessite des compétences pluri-disciplinaires qu’il sera difficile de trouver au sein d’un même profil o Le profil du « Modern Data Scientist » a été défini par des experts du e-Commerce marketing… (4 en tout en fait) o Les data miners n’ont qu’une marche à monter pour y arriver ! Matinée Découverte – 24-01-2017
  • 50. 50 BEST PRACTICES POUR ALLER VERS LA DATA SCIENCE LES PROFILS ? Une marche à monter pour le data miner !  Apprentissage de nouveaux langages (R, Python pour commencer)  Adaptation / Formation : nouveaux algorithmes, nouvelles approches, concepts  Transfert de compétences : co-réalisation  Ressources en lignes : Analytique Connaît les modèles statistiques théoriques et est capable de les construire Métier Est capable de comprendre le besoin client (en amont), de faire des recommandations business sur la base d’analyses (en aval) Analytique Connaît les modèles statistiques théoriques et est capable de les construire Métier Est capable de comprendre le besoin client (en amont), de faire des recommandations business sur la base d’analyses (en aval) Analytique Connaît les modèles statistiques théoriques et est capable de les construire Développement Evolue avec aisance dans les nouveaux environnements et avec les nouveaux outils (notamment R et Python) Statisticien Data Miner Data Scientist Data management Gère les bases data mining, construit et exploite les KPI Data management Gère les bases data mining, construit et exploite les KPI Data management Gère les bases data mining, construit et exploite les KPI Matinée Découverte – 24-01-2017
  • 51. 51 BEST PRACTICES POUR ALLER VERS LA DATA SCIENCE OPEN SOURCE, QUELLE STRATÉGIE ? 3. Ne pas tout miser sur l’open source • Sauf si on souhaite devenir éditeur de ses propres solutions… avec toutes les charges que cela suppose : o Développement, maintenance, installation, formation, documentation, support, backup o Tests de non régression, corrections de bugs natifs (car il y en a !), développements spécifiques… o Tests de montées de versions, de compatibilité entre packages, versionning, mises en production, migrations • Trouver un bon compromis o On utilise l’open source pour toutes ses fonctionnalités additionnelles o On conserve ce qui est industrialisé et ce qui donne satisfaction sur les outils actuels puis on évalue la complexité, les risques et le ROI d’une migration progressive vers l’open source • S’en passer o Ce serait se priver de fonctionnalités dont la valeur ajoutée est grande Matinée Découverte – 24-01-2017
  • 52. 52 BEST PRACTICES POUR ALLER VERS LA DATA SCIENCE ORGANISATION  Monter une équipe pluri-disciplinaire réunissant des compétences : • Métiers, terrain • Analytiques (data prep, dataviz, data mining), • Architecture, administration de bases de données, Qualité de données, BigData, Sécurité • Programmation SQL, R, Python, • Administration fonctionnelle (garant des bonnes pratiques) • Correspondant Informatique et Libertés  Eventuellement en mode lab, création d’une pizza team pour désiloter les projets et les équipes  Définir un plan de montée en compétences progressif avec des objectifs réalistes en privilégiant une approche agile et pragmatique qui s’insère bien dans le plan de chargesMatinée Découverte – 24-01-2017
  • 53. 53 EXEMPLE DE TRAJECTOIRE DATA SCIENCE EN 6 ÉTAPES Avant- projet Formation et transfert de compétences Bilan et Organisation cible Matinée Découverte – 24-01-2017
  • 54. 54 EXPLOITER LES BIG DATA ? JUSQU’OÙ PEUT-ON
  • 55. 55 JUSQU’OÙ PEUT- ON EXPLOITER LES BIG DATAS ? CATÉGORIES DE DONNÉES  Données objectives • Elles ne font pas l’objet d’appropriation • Elles « appartiennent » à tous • Exemples : données météo, données de trafic, caractéristiques des immeubles  Données à caractère personnel • Une donnée personnelle est une donnée se rapportant à une personne physique, qui peut être identifiée quel que soit le moyen utilisé • Impact sur la vie privée • Surveillance et sanction de la CNIL • Déclaration préalable • Exemples : nom et prénom, photo d'un visage, vidéo montrant une personne, extrait sonore de la voix d'une personne, numéro de sécurité sociale, numéro d'employé, numéro de téléphone, croisement date de naissance et ville de naissanceMatinée Découverte – 24-01-2017
  • 56. 56 JUSQU’OÙ PEUT- ON EXPLOITER LES BIG DATAS ? DEVOIRS  A partir du moment ou l’on traite, à titre professionnel des données personnelles, la loi informatique et libertés s'applique et nous devons sous peine de sanctions pénales : • déclarer nos traitements à la CNIL, • mettre en place toute les mesures de sécurité nécessaire pour protéger ces données, • nous assurer de collecter uniquement des données pertinentes et le faire de manière loyale, • ne pas transférer ces données hors de l'UE, et en particulier dans des pays à faible niveau de protection, etc. Matinée Découverte – 24-01-2017
  • 57. 57 JUSQU’OÙ PEUT- ON EXPLOITER LES BIG DATAS ? CONDITIONS POUR LA LICÉITÉ DU TRAITEMENT DE DONNÉES À CARACTÈRE PERSONNEL  1 socle (la finalité du traitement) + 4 conditions • Finalité explicite et légitime • Loyauté dans la mise en œuvre du traitement • Données pertinentes • Durée de conservation non excessive • Sécurité  Et indispensable : le consentement préalable et éclairé de la personne physique concernée Matinée Découverte – 24-01-2017
  • 58. 58 JUSQU’OÙ PEUT- ON EXPLOITER LES BIG DATAS ? COMMENT EXPLOITER SES DONNÉES SANS CONSENTEMENT ?  Pseudonymisation : niveau de protection insuffisant  K-anonymisation : réduire le niveau de détail des données de telle sorte qu’il y ait au moins k individus identiques pour chaque combinaison de critères considérés comme des « quasi-identifiants »  Autres approches : I-diversité, confidentialité différentielle Matinée Découverte – 24-01-2017
  • 60. 60 CONCLUSION & PERSPECTIVES  Se concentrer sur vos besoins métiers et non sur des questions technologiques ou de choix d’outils  Testez l’apport des nouvelles approches de data science et de nouvelles données en adoptant une approche pragmatique et agile  Faites-vous challenger par des partenaires  Ne pas minimiser les compétences nécessaires pour aborder ces nouveaux sujets  Ne pas négliger la complexité des nouvelles plate-formes  Vous mettre en conformité vis-à-vis de la CNIL  Vers une démarche big data / data science écologique ? Matinée Découverte – 24-01-2017
  • 61. TANGUY LE NOUVEL DIRECTEUR PRACTICE DATA SCIENCE M +33 (0) 6 81 95 84 22 @ tlenouvel@micropole.com WWW.MICROPOLE.COM 91-95 RUE CARNOT - 92 300 LEVALLOIS-PERRET T +33 (0)1 74 18 74 18 / F +33 (0)1 74 18 74 00 DAVID-STÉPHANE FALA DIRECTEUR PRACTICE BIG DATA & DATA INTELLIGENCE M +33 (0) 6 87 34 61 04 @ dfala@micropole.com WWW.MICROPOLE.COM 91-95 RUE CARNOT - 92 300 LEVALLOIS-PERRET T +33 (0)1 74 18 74 18 / F +33 (0)1 74 18 74 00 MERCI DE VOTRE ATTENTION QUESTIONS
  • 62. 62 LE GROUPE MICROPOLE1 100 COLLABORATEURS 100 M€ de CA 25+ ANS D'EXPERTISE OPÉRATIONNELLE 7 SITES EN FRANCE [PARIS / LYON / AIX-EN-PROVENCE / SOPHIA ANTIPOLIS / TOULOUSE / RENNES / NANTES / LILLE] 5 SITES EN EUROPE [GENÈVE / LAUSANNE / ROTTERDAM / BRUXELLES / LUXEMBOURG] 3 SITES EN CHINE [PÉKIN / SHANGHAÏ / HONG KONG]  UN POSITIONNEMENT DE SPÉCIALISTE  Alliance d’expertises fonctionnelles et techniques  Une agence intégrée spécialisée dans l’Expérience Client (Wide)  Savoir-faire historique centré Data Intelligence et Digitalisation des processus Internes / Externes  UNE CULTURE DE L'INNOVATION  Au cœur de notre expertise, tournée vers les usages au service de nos clients  Accompagnement de « Start Up » valorisant la donnée  Diffusion de l’innovation : Micropole Lab Network
  • 63. 63 Segmentation de la clientèle des commerçants et recommandations sur les offres à leur adresser. Qualification des transactionsQualification des transactions Transactions étudiées Moteur de règles Analyse et classement des transactions Transactions renseignées sur le profil  Qualification des transactionsQualification des transactions Transactions étudiées Moteur de règles Analyse et classement des transactions Transactions renseignées sur le profil  Agrégation et calcul d’indicateurs pour chaque carte, sur chaque profil Cartes renseignées sur l’affectation des dépenses en € et en nb Calcul dCalcul d’’indicateurs par carteindicateurs par carte  Agrégation et calcul d’indicateurs pour chaque carte, sur chaque profil Cartes renseignées sur l’affectation des dépenses en € et en nb Calcul dCalcul d’’indicateurs par carteindicateurs par carte  Segmentation des cartesSegmentation des cartes Segmentation des cartes pour chaque profil Affectation des cartes dans les segments  Segmentation des cartesSegmentation des cartes Segmentation des cartes pour chaque profil Affectation des cartes dans les segments  Ciblage des cartesCiblage des cartes  Ciblage des cartesCiblage des cartes  Segmentation des joueurs de live betting (paris en temps réel) Scores d’attrition et valeur client Mise en place de l’architecture fonctionnelle de SAS pour le département Pricing Modélisation de la valeur résiduelle des véhicules en fin de contrat de location Enrichissement du référentiel produits par la notion d’œuvre (Rapprochement de données non structurées via Text mining, Fuzzy matching et data science) Fusion de référentiels musicaux indépendants par fuzzy matching Modélisation du départ des clients à la concurrence à partir des nouveaux algorithmes de machine learning et de nouvelles données relationnelles Construction d’un datalake dédié et mise en œuvre de modèles prédictifs de la fraude (secteur entreprises) à l’aide des dernières approches en matière de modélisation prédictive et de plusieurs milliers de variables Amélioration d’un dispositif de géo- localisation d’objets Indoor à partir de données issues de capteurs géolocalisant des puces RFID. Conseil en architecture BigData et modélisation de la localisation des objets via une approche data Science LUXE CONFIDENTIEL Analyse et classification d’images diffusées sur les réseaux sociaux pour identification d’objets de la marque dans le but d’identifier des influenceurs, de comprendre et de maximiser leur impact sur le développement du CA Segmentation de la clientèle des pros selon les usages croisés que font les clients La Poste des produits présents au catalogue. Recherche de segments à fort potentiel, de nouveaux packages de produits et de quicks wins. EXTRAIT DE PROJETS DATA SCIENCE Matinée Découverte – 24-01-2017