Data Exchange Platform Blue DME - Trouver de la donnée pertinente

© Blue DME SAS | Diffusion interdite sans accord
DEX : Data Exchange Platform
Mathieu DESPRIEE, CTO
mde@bluedme.com
@mdespriee

Qui sommes-nous?
Julien
CEO
ESME. Ms IAE Paris
Mathieu
CTO
ENSEIRB
Mohamed
Data Scientist
PhD Math LMV
Aurélien
Senior Engineer
Telecom Paris
Christophe
Data Engineer
INSA
Kevin
Data Engineer
EISTI. Heriot-Watt
Adrian
Resp. Data Science
ENSAI
Katia
Senior Engineer
Universad de
Bilbao
Equipe
Clients
Offre
Blue DME SAS est une startup française (JEI) créée début 2015
#Data Science
Optimiser la performance
business en passant au
prédictif
Marketing
Commerce
Risques
#Data Platform
Simplifier et fluidifier l’accès
aux données externes
Parcours digitaux
Capteurs
Open Data
Partenaires
Groupe
#Data Monetization
Valoriser la contribution de
vos données à leur valeur
d’usage et développer de
nouvelles offres de services
pour vos clients
Enseignement
Cedric
CSO
Polytech. Sud HEC
© Blue DME SAS | Diffusion interdite sans accord 22

BlueDME DEX
Une plateforme de recherche de
données pour les analystes, les
statisticiens et les data scientists
conçue pour monétiser la valeur d’usage et favoriser les
transactions entre entités
3

Les usages de la Data
Modélisation des risques
Acquérir une connaissance plus
riche des comportements pour
l’amélioration des modèles de
risque auprès de tiers de haute
qualité, ex: consommation
électrique, entretien véhicule,
utilisation des transports en
communs, …
Prédiction des sinistres
Identifier les facteurs leaders, les
phénomènes d’emballement
psycho-sociaux et détecter les
populations à risques à partir des
données médiatiques,
économétriques digitales et
comportementales
Lutte contre la fraude
Détecter les situations suspectes
par croisement des données
sociales et comportementales pour
les personnes physiques, les
professionnels et les entreprises
Identifier les contextes socio-
économiques propices aux
différents types de fraude
Pricing comportemental
Construire des modèles de pricing
« as you go » basés sur les
comportements observés par des
tiers, ex. objets connectés, véhicules
intelligents, opérateurs télécoms, …
Prétargeting
Enrichir les prospects et les entrées
en relation de données issues
d’entités externes pour déployer
une relation client personnalisée
dès le début et améliorer la
segmentation des bases de
prospects
Ciblage multi-modal
Augmenter la performance des
campagnes de ciblage en limitant
l’usure de la base de données
clients par un enrichissement de
données comportementales,
sociales, tendancielles et de
parcours de forte qualité issus
d’entités externes.
Lutte contre l’attrition
Détecter les signaux de churn court
terme et moyen terme par
acquisition de données auprès de
tiers (comparateurs, distributeurs,
auto, …) pour permettre la mise en
place des actions de rétention le
plus en amont possible.
Parcours client omni-canal
Enrichir la vision client 360 des
parcours sur des canaux externes à
l’entreprise (médias, distribution,
internet, …) et réduire les coûts de
campagne par une meilleure
évaluation de l’appétence aux
canaux de relation client
Mieux Vendre Mieux Opérer

Utiliser les données pour prédire
(aka. Machine Learning / Data Science)
y = f (X)
Observations
du passé
Variable à prédire
(eg. « acheteur »)
0
1
0
0
1
0
…
Connaissance
(eg. sur un client)y x1 x2 x3 … … xn
Prédire = Appliquer la fonction inférée f à de nouvelles observations (eg. nouveau prospect)
32
23
56
71
19
24
…
• Profil socio-démo
• Catégorie client
• Offres déjà souscrites
…
• Promoteur réseau
sociaux
75
92
33
18
01
13
…
VIP
PRO
Famille
Senior
15/25
…
0.1
-0.7
0.0
0.5
0.8
0.4
…
…
Données « assemblées »
Sources de données d’origine
Collecte
Préparation
Apprentissage

Datascience process
• Import en masse
• Flux
• Emission d’événements
ApprentissageInterprétation
Intégration
Modélisation
Collecte
Préparation
Dashboard
Visualisation interactive
Jointure
Profiling
Nettoyage, Filtrage
Import en masse/en flux
Rapport
Export en masse
Modèles prédictifs
Sampling
Feature engineering
Model engineering
Model testing
Agrégation
Modélisation
Feature computing

Le quotidien du datascientist…
79% du temps des data scientists est passé dans l’étape de
Data Preparation (« collecting data sets » 19% + « Cleaning
and organizing data » 60%).
La Data Preparation est l'étape la moins
appréciée pour un Data scientist (78%).

Les usages de la Data
Modélisation des risques
Acquérir une connaissance plus
riche des comportements pour
l’amélioration des modèles de
risque auprès de tiers de haute
qualité, ex: consommation
électrique, entretien véhicule,
utilisation des transports en
communs, …
Prédiction des sinistres
Identifier les facteurs leaders, les
phénomènes d’emballement
psycho-sociaux et détecter les
populations à risques à partir des
données médiatiques,
économétriques digitales et
comportementales
Lutte contre la fraude
Détecter les situations suspectes
par croisement des données
sociales et comportementales pour
les personnes physiques, les
professionnels et les entreprises
Identifier les contextes socio-
économiques propices aux
différents types de fraude
Pricing comportemental
Construire des modèles de pricing
« as you go » basés sur les
comportements observés par des
tiers, ex. objets connectés, véhicules
intelligents, opérateurs télécoms, …
Prétargeting
Enrichir les prospects et les entrées
en relation de données issues
d’entités externes pour déployer
une relation client personnalisée
dès le début et améliorer la
segmentation des bases de
prospects
Ciblage multi-modal
Augmenter la performance des
campagnes de ciblage en limitant
l’usure de la base de données
clients par un enrichissement de
données comportementales,
sociales, tendancielles et de
parcours de forte qualité issus
d’entités externes.
Lutte contre l’attrition
Détecter les signaux de churn court
terme et moyen terme par
acquisition de données auprès de
tiers (comparateurs, distributeurs,
auto, …) pour permettre la mise en
place des actions de rétention le
plus en amont possible.
Parcours client omni-canal
Enrichir la vision client 360 des
parcours sur des canaux externes à
l’entreprise (médias, distribution,
internet, …) et réduire les coûts de
campagne par une meilleure
évaluation de l’appétence aux
canaux de relation client
Mieux Vendre Mieux Opérer
Comment accéder des
données au delà des silos de
l’organisation?
La recherche et la
qualification des données
représente 60 à 70% de
l’effort d’un projet Data dans
l’industrie

Un moteur de recherche de données internes et externes
apportant de la valeur
Contexte
Pour le compte des départements d’actuariat,
marketing et risques des entités du groupe,
fournir une solution sous la forme d’une
plateforme de recherche de données
innovantes, basée sur la solution DEX de Blue
DME, permettant:
• De rechercher des données sur les clients, la
matière assurable et les risques dans tous les
silos des entités et dans 14 000 jeux de
données externes
• Trouver de manière automatique les données
permettant d’améliorer les modèles de
scoring et de pricing, en réduisant l’effort de
60%
• Partager dans toute l’organisation les
données les plus utiles et à plus forte valeur
ajoutée par des fonctions de collaboration sur
la data
DEX
Analyste RisquesActuariat Marketing
Pricing P&C
Potentiel de marché
Attribution TV
Prédiction du churn
Risques
environnementaux
Risques climatiques
Données
Entité A
Données
Entité B
Données
Externes
(non-open)
Open Data
Client : Confidentiel
Secteur Assurances

Les 2 dimensions du Data Exchange
Echanger des données entre entités
Une gouvernance
décentralisée, et
des échanges entre
entités
Trouver des données à valeur ajoutée
Recherche sémantique
Recherche Open Data
Amélioration automatique de score
Enrichissement automatique
Analyse automatisée
Evaluation de la qualité

Data Selection
Engine
Une plateforme de recherche et
de sélection de données multi-
sources
Les projets de Data Science et les Data Apps
consomment de nombreuses données issues de
plusieurs sources internes et externes.
Data Selection Engine permet de rechercher des
données à valeur ajoutée permettant d’enrichir
vos données et vos modèles de scores à partir de
milliers de sources de données de manière
automatique
Data Selection Engine permet de construire des
services d'agrégation de données monétisables
en temps réel pour vos data apps
Enrichir les Data Apps avec des données
externes de partenaires et Open Data
Recherche de données externes Analyseur de données externes
Service intelligent de recherche de
données externes améliorant un score
existant
Service intelligent de recherche de
variables prédictives

Recherche

Analyse automatisée

Enrichissement

Amélioration automatique de score prédictif
par apport de variables supplémentaires

Valeur d’usage
Valeur du bénéfice de posséder les données
• Ecart de performance avec ou sans les données : A/B Testing
• Ecart de performance des modèles prédictifs (avec ou sans
les features externes)
• Le calcul de l’apport de la prédiction repose sur la
comparaison entre les AUC de différents modèles
• RF sur les données de l’utilisateur
• RF sur les données de l’utilisateur augmentées
par un fichier A
• RF sur les données de l’utilisateur augmentées
par un fichier B

Architecture technique
17
DEX MANAGEMENT SERVER
https front
(nginx)
play2
SEARCH INDEX
Elastic Search
(Optionally in cluster)
DB
User
DEX DATA PROCESSING ENGINE
Job Queue
Data Processor
Scala / jre 8
Embedded
Spark driver
(CUSTOMER PROVIDED) HADOOP CLUSTER
YARN
Resource
Manager
HDFS
Name
Node
Cluster
node
Cluster
node
Cluster
node
…
Dedicated
folders
in HDFS
Web
HDFS
Auth
Provider
(ldap)
Network
filesystem
mount point
One node hosting DEX components
Customer provided
Cluster
node
Perf monitor
Tools

Score enrichment process
Dataset to enrich
Analysis
Spark
Dataframes
Stats on columns
Text analysis
Matching
« fuzzy join »
STORAGE CLUSTER :
+10 000 DATASETS
Classification model
Classification model
with joined data
Any column can be a join candidate a priori

K min values
http://people.mpi-inf.mpg.de/~rgemulla/publications/beyer07distinct.pdf

K-Min Value (KMV) Synopsis
• Hashing = dropping DVs uniformly on [0,1]
• KMV synopsis:
• Estimator
• Unbiased
– Cf paper…
• Space complexity : constant !
)(/ kUkcard 
XX X X X X X X
a
e
b
…
D distinct values
hash
a
a
Partition
X X
1/D
},...,,{ )()2()1( kUUUL 
0 1U(1)
U(2)
U(k)
k-min
...
)(/)1( kUkcard 

Choose k ?

(Multiset) Union of Partitions
0
XX X X
k-min
0
XX X X
k-min
0
XX X X

XX X X
k-min
U(k)
L
LA LB
 Combine KMV synopses: L=LALB
 Theorem: L is a KMV synopsis of AB
 Can use previous unbiased estimator:
… 1 … 1
… 1
X
)(/)1( kUkcard 

 L=LALB as with union (contains k elements)
 Note: L corresponds to a uniform random sample of DVs in AB
 K = # values in L that are also in D(AB)
 Theorem: Can compute from LA and LB alone
 K/k estimates Jaccard distance:
 estimates
 Unbiased estimator of #DVs in the intersection:
 See paper for variance of estimator
 Can extend to general compound partitions from ordinary set
operations
(Multiset) Intersection of Partitions
)(/)1(ˆ
kUkD  )( BADD 







 
 

)(
1ˆ
kU
k
k
K
D
)(
)(
BAD
BAD
D
D






REX d’utilisation du KMV pour le matching
SIGMOD 07
Une métrique d’intersection
approximative, mais :
• suffisante pour éliminer les
datasets non-pertinents
(eg. 3000 -> 75)
• 100-1000x plus rapide
d’estimer une jointure avec
un KMV que de l’exécuter

REX d’utilisation du KMV pour le matching
• Les erreurs importantes se
situent sur les petites
intersections de datasets (peu
de recouvrement)
• Lié au calcul de similarité de
Jaccard

Une implémentation simpliste !

Data Exchange - Internet of Data
Interentreprises
Filière
Groupe
Interne
CRM
Gestion
Finance
COMMERCE
Diminuer la durée du cycle de
vente par une priorisation des
comportements et des
situations de vente
MARKETING
Engager vos clients par leurs
parcours omni canal et leurs
cycles de vie avec l’ensemble de
vos partenaires
Data MonétisationData ExchangeData Solution
PRICING
Améliorer la performance des
modèles de pricing en tenant
compte de la sensibilité et de la
pression exercée sur les
prospects
Plateforme ouverte Blue DME
SOURCING DE DONNEES
Constituer un écosystème de
partenaires d’échange de données
par une approche directe et
désintermédiée
VALORISATION DE DONNEES
Calculer la valeur d’usage et la valeur
de marché des données dans le cadre
d’échange bilatéral pour estimer
l’attribution et/ou le prix des données
EXECUTION D’ECHANGES
Sécuriser et exécuter les transactions
d’échange de données en
respectant les directives de data
privacy et en protégeant votre
capital informationnel
Laboratoire de données
Big Data
Contrôleur de Data
Privacy
Marché électronique
d’échange de données
Référentiels de données
exogènes
Algo. de prédiction des
futurs évènements
(machine learning)

Merci !
contact@bluedme.com
@mdespriee

Data Exchange Platform Blue DME - Trouver de la donnée pertinente

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (20)

Similaire à Data Exchange Platform Blue DME - Trouver de la donnée pertinente

Similaire à Data Exchange Platform Blue DME - Trouver de la donnée pertinente (20)

Data Exchange Platform Blue DME - Trouver de la donnée pertinente