SlideShare une entreprise Scribd logo
1  sur  28
© Blue DME SAS | Diffusion interdite sans accord
DEX : Data Exchange Platform
Mathieu DESPRIEE, CTO
mde@bluedme.com
@mdespriee
Qui sommes-nous?
Julien
CEO
ESME. Ms IAE Paris
Mathieu
CTO
ENSEIRB
Mohamed
Data Scientist
PhD Math LMV
Aurélien
Senior Engineer
Telecom Paris
Christophe
Data Engineer
INSA
Kevin
Data Engineer
EISTI. Heriot-Watt
Adrian
Resp. Data Science
ENSAI
Katia
Senior Engineer
Universad de
Bilbao
Equipe
Clients
Offre
Blue DME SAS est une startup française (JEI) créée début 2015
#Data Science
Optimiser la performance
business en passant au
prédictif
Marketing
Commerce
Risques
#Data Platform
Simplifier et fluidifier l’accès
aux données externes
Parcours digitaux
Capteurs
Open Data
Partenaires
Groupe
#Data Monetization
Valoriser la contribution de
vos données à leur valeur
d’usage et développer de
nouvelles offres de services
pour vos clients
Enseignement
Cedric
CSO
Polytech. Sud HEC
© Blue DME SAS | Diffusion interdite sans accord 22
© Blue DME SAS | Diffusion interdite sans accord
BlueDME DEX
Une plateforme de recherche de
données pour les analystes, les
statisticiens et les data scientists
conçue pour monétiser la valeur d’usage et favoriser les
transactions entre entités
3
Les usages de la Data
© Blue DME SAS | Diffusion interdite sans accord 4
Modélisation des risques
Acquérir une connaissance plus
riche des comportements pour
l’amélioration des modèles de
risque auprès de tiers de haute
qualité, ex: consommation
électrique, entretien véhicule,
utilisation des transports en
communs, …
Prédiction des sinistres
Identifier les facteurs leaders, les
phénomènes d’emballement
psycho-sociaux et détecter les
populations à risques à partir des
données médiatiques,
économétriques digitales et
comportementales
Lutte contre la fraude
Détecter les situations suspectes
par croisement des données
sociales et comportementales pour
les personnes physiques, les
professionnels et les entreprises
Identifier les contextes socio-
économiques propices aux
différents types de fraude
Pricing comportemental
Construire des modèles de pricing
« as you go » basés sur les
comportements observés par des
tiers, ex. objets connectés, véhicules
intelligents, opérateurs télécoms, …
Prétargeting
Enrichir les prospects et les entrées
en relation de données issues
d’entités externes pour déployer
une relation client personnalisée
dès le début et améliorer la
segmentation des bases de
prospects
Ciblage multi-modal
Augmenter la performance des
campagnes de ciblage en limitant
l’usure de la base de données
clients par un enrichissement de
données comportementales,
sociales, tendancielles et de
parcours de forte qualité issus
d’entités externes.
Lutte contre l’attrition
Détecter les signaux de churn court
terme et moyen terme par
acquisition de données auprès de
tiers (comparateurs, distributeurs,
auto, …) pour permettre la mise en
place des actions de rétention le
plus en amont possible.
Parcours client omni-canal
Enrichir la vision client 360 des
parcours sur des canaux externes à
l’entreprise (médias, distribution,
internet, …) et réduire les coûts de
campagne par une meilleure
évaluation de l’appétence aux
canaux de relation client
Mieux Vendre Mieux Opérer
Utiliser les données pour prédire
(aka. Machine Learning / Data Science)
© Blue DME SAS | Diffusion interdite sans accord
y = f (X)
Observations
du passé
Variable à prédire
(eg. « acheteur »)
0
1
0
0
1
0
…
Connaissance
(eg. sur un client)y x1 x2 x3 … … xn
Prédire = Appliquer la fonction inférée f à de nouvelles observations (eg. nouveau prospect)
32
23
56
71
19
24
…
• Profil socio-démo
• Catégorie client
• Offres déjà souscrites
…
• Promoteur réseau
sociaux
75
92
33
18
01
13
…
VIP
PRO
Famille
Senior
15/25
…
0.1
-0.7
0.0
0.5
0.8
0.4
…
…
Données « assemblées »
Sources de données d’origine
Collecte
Préparation
Apprentissage
Datascience process
© Blue DME SAS | Diffusion interdite sans accord 6
• Import en masse
• Flux
• Emission d’événements
ApprentissageInterprétation
Intégration
Modélisation
Collecte
Préparation
Dashboard
Visualisation interactive
Jointure
Profiling
Nettoyage, Filtrage
Import en masse/en flux
Rapport
Export en masse
Modèles prédictifs
Sampling
Feature engineering
Model engineering
Model testing
Agrégation
Modélisation
Feature computing
Le quotidien du datascientist…
© Blue DME SAS | Diffusion interdite sans accord 7
79% du temps des data scientists est passé dans l’étape de
Data Preparation (« collecting data sets » 19% + « Cleaning
and organizing data » 60%).
La Data Preparation est l'étape la moins
appréciée pour un Data scientist (78%).
Les usages de la Data
© Blue DME SAS | Diffusion interdite sans accord 8
Modélisation des risques
Acquérir une connaissance plus
riche des comportements pour
l’amélioration des modèles de
risque auprès de tiers de haute
qualité, ex: consommation
électrique, entretien véhicule,
utilisation des transports en
communs, …
Prédiction des sinistres
Identifier les facteurs leaders, les
phénomènes d’emballement
psycho-sociaux et détecter les
populations à risques à partir des
données médiatiques,
économétriques digitales et
comportementales
Lutte contre la fraude
Détecter les situations suspectes
par croisement des données
sociales et comportementales pour
les personnes physiques, les
professionnels et les entreprises
Identifier les contextes socio-
économiques propices aux
différents types de fraude
Pricing comportemental
Construire des modèles de pricing
« as you go » basés sur les
comportements observés par des
tiers, ex. objets connectés, véhicules
intelligents, opérateurs télécoms, …
Prétargeting
Enrichir les prospects et les entrées
en relation de données issues
d’entités externes pour déployer
une relation client personnalisée
dès le début et améliorer la
segmentation des bases de
prospects
Ciblage multi-modal
Augmenter la performance des
campagnes de ciblage en limitant
l’usure de la base de données
clients par un enrichissement de
données comportementales,
sociales, tendancielles et de
parcours de forte qualité issus
d’entités externes.
Lutte contre l’attrition
Détecter les signaux de churn court
terme et moyen terme par
acquisition de données auprès de
tiers (comparateurs, distributeurs,
auto, …) pour permettre la mise en
place des actions de rétention le
plus en amont possible.
Parcours client omni-canal
Enrichir la vision client 360 des
parcours sur des canaux externes à
l’entreprise (médias, distribution,
internet, …) et réduire les coûts de
campagne par une meilleure
évaluation de l’appétence aux
canaux de relation client
Mieux Vendre Mieux Opérer
Comment accéder des
données au delà des silos de
l’organisation?
La recherche et la
qualification des données
représente 60 à 70% de
l’effort d’un projet Data dans
l’industrie
Un moteur de recherche de données internes et externes
apportant de la valeur
© Blue DME SAS | Diffusion interdite sans accord 9
Contexte
Pour le compte des départements d’actuariat,
marketing et risques des entités du groupe,
fournir une solution sous la forme d’une
plateforme de recherche de données
innovantes, basée sur la solution DEX de Blue
DME, permettant:
• De rechercher des données sur les clients, la
matière assurable et les risques dans tous les
silos des entités et dans 14 000 jeux de
données externes
• Trouver de manière automatique les données
permettant d’améliorer les modèles de
scoring et de pricing, en réduisant l’effort de
60%
• Partager dans toute l’organisation les
données les plus utiles et à plus forte valeur
ajoutée par des fonctions de collaboration sur
la data
DEX
Analyste RisquesActuariat Marketing
Pricing P&C
Potentiel de marché
Attribution TV
Prédiction du churn
Risques
environnementaux
Risques climatiques
Données
Entité A
Données
Entité B
Données
Externes
(non-open)
Open Data
Client : Confidentiel
Secteur Assurances
Les 2 dimensions du Data Exchange
© Blue DME SAS | Diffusion interdite sans accord 10
Echanger des données entre entités
Une gouvernance
décentralisée, et
des échanges entre
entités
Trouver des données à valeur ajoutée
Recherche sémantique
Recherche Open Data
Amélioration automatique de score
Enrichissement automatique
Analyse automatisée
Evaluation de la qualité
Data Selection
Engine
Une plateforme de recherche et
de sélection de données multi-
sources
Les projets de Data Science et les Data Apps
consomment de nombreuses données issues de
plusieurs sources internes et externes.
Data Selection Engine permet de rechercher des
données à valeur ajoutée permettant d’enrichir
vos données et vos modèles de scores à partir de
milliers de sources de données de manière
automatique
Data Selection Engine permet de construire des
services d'agrégation de données monétisables
en temps réel pour vos data apps
Enrichir les Data Apps avec des données
externes de partenaires et Open Data
Recherche de données externes Analyseur de données externes
Service intelligent de recherche de
données externes améliorant un score
existant
Service intelligent de recherche de
variables prédictives
© Blue DME SAS | Diffusion interdite sans accord 11
Recherche
© Blue DME SAS | Diffusion interdite sans accord 12
Analyse automatisée
© Blue DME SAS | Diffusion interdite sans accord 13
Enrichissement
© Blue DME SAS | Diffusion interdite sans accord 14
Amélioration automatique de score prédictif
par apport de variables supplémentaires
© Blue DME SAS | Diffusion interdite sans accord 15
Valeur d’usage
© Blue DME SAS | Diffusion interdite sans accord
Valeur du bénéfice de posséder les données
• Ecart de performance avec ou sans les données : A/B Testing
• Ecart de performance des modèles prédictifs (avec ou sans
les features externes)
• Le calcul de l’apport de la prédiction repose sur la
comparaison entre les AUC de différents modèles
• RF sur les données de l’utilisateur
• RF sur les données de l’utilisateur augmentées
par un fichier A
• RF sur les données de l’utilisateur augmentées
par un fichier B
Architecture technique
17
DEX MANAGEMENT SERVER
https front
(nginx)
play2
SEARCH INDEX
Elastic Search
(Optionally in cluster)
DB
User
DEX DATA PROCESSING ENGINE
Job Queue
Data Processor
Scala / jre 8
Embedded
Spark driver
(CUSTOMER PROVIDED) HADOOP CLUSTER
YARN
Resource
Manager
HDFS
Name
Node
Cluster
node
Cluster
node
Cluster
node
…
Dedicated
folders
in HDFS
Web
HDFS
Auth
Provider
(ldap)
Network
filesystem
mount point
One node hosting DEX components
Customer provided
Cluster
node
Perf monitor
Tools
Score enrichment process
Dataset to enrich
Analysis
Spark
Dataframes
Stats on columns
Text analysis
Matching
« fuzzy join »
STORAGE CLUSTER :
+10 000 DATASETS
Classification model
Classification model
with joined data
Any column can be a join candidate a priori
K min values
© Blue DME SAS | Diffusion interdite sans accord 19
http://people.mpi-inf.mpg.de/~rgemulla/publications/beyer07distinct.pdf
K-Min Value (KMV) Synopsis
• Hashing = dropping DVs uniformly on [0,1]
• KMV synopsis:
• Estimator
• Unbiased
– Cf paper…
• Space complexity : constant !
)(/ kUkcard 
XX X X X X X X
a
e
b
…
D distinct values
hash
a
a
Partition
X X
1/D
},...,,{ )()2()1( kUUUL 
0 1U(1)
U(2)
U(k)
k-min
...
)(/)1( kUkcard 
Choose k ?
© Blue DME SAS | Diffusion interdite sans accord 21
(Multiset) Union of Partitions
0
XX X X
k-min
0
XX X X
k-min
0
XX X X

XX X X
k-min
U(k)
L
LA LB
 Combine KMV synopses: L=LALB
 Theorem: L is a KMV synopsis of AB
 Can use previous unbiased estimator:
… 1 … 1
… 1
X
)(/)1( kUkcard 
 L=LALB as with union (contains k elements)
 Note: L corresponds to a uniform random sample of DVs in AB
 K = # values in L that are also in D(AB)
 Theorem: Can compute from LA and LB alone
 K/k estimates Jaccard distance:
 estimates
 Unbiased estimator of #DVs in the intersection:
 See paper for variance of estimator
 Can extend to general compound partitions from ordinary set
operations
(Multiset) Intersection of Partitions
)(/)1(ˆ
kUkD  )( BADD 







 
 

)(
1ˆ
kU
k
k
K
D
)(
)(
BAD
BAD
D
D





REX d’utilisation du KMV pour le matching
SIGMOD 07
Une métrique d’intersection
approximative, mais :
• suffisante pour éliminer les
datasets non-pertinents
(eg. 3000 -> 75)
• 100-1000x plus rapide
d’estimer une jointure avec
un KMV que de l’exécuter
REX d’utilisation du KMV pour le matching
© Blue DME SAS | Diffusion interdite sans accord 25
• Les erreurs importantes se
situent sur les petites
intersections de datasets (peu
de recouvrement)
• Lié au calcul de similarité de
Jaccard
Une implémentation simpliste !
© Blue DME SAS | Diffusion interdite sans accord 26
Data Exchange - Internet of Data
© Blue DME SAS | Diffusion interdite sans accord 27
Interentreprises
Filière
Groupe
Interne
CRM
Gestion
Finance
COMMERCE
Diminuer la durée du cycle de
vente par une priorisation des
comportements et des
situations de vente
MARKETING
Engager vos clients par leurs
parcours omni canal et leurs
cycles de vie avec l’ensemble de
vos partenaires
Data MonétisationData ExchangeData Solution
PRICING
Améliorer la performance des
modèles de pricing en tenant
compte de la sensibilité et de la
pression exercée sur les
prospects
Plateforme ouverte Blue DME
SOURCING DE DONNEES
Constituer un écosystème de
partenaires d’échange de données
par une approche directe et
désintermédiée
VALORISATION DE DONNEES
Calculer la valeur d’usage et la valeur
de marché des données dans le cadre
d’échange bilatéral pour estimer
l’attribution et/ou le prix des données
EXECUTION D’ECHANGES
Sécuriser et exécuter les transactions
d’échange de données en
respectant les directives de data
privacy et en protégeant votre
capital informationnel
Laboratoire de données
Big Data
Contrôleur de Data
Privacy
Marché électronique
d’échange de données
Référentiels de données
exogènes
Algo. de prédiction des
futurs évènements
(machine learning)
© Blue DME SAS | Diffusion interdite sans accord
Merci !
contact@bluedme.com
@mdespriee

Contenu connexe

Tendances

Le Big Data au coeur de la stratégie des PME par où commencer ?
Le Big Data au coeur de la stratégie des PME par où commencer ? Le Big Data au coeur de la stratégie des PME par où commencer ?
Le Big Data au coeur de la stratégie des PME par où commencer ? Silicon Salad
 
Big Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendancesBig Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendancesJean-Michel Franco
 
Ch&cie présentation du big data dans l'assurance
Ch&cie présentation du big data dans l'assuranceCh&cie présentation du big data dans l'assurance
Ch&cie présentation du big data dans l'assuranceBetito Yan
 
Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013ADBS
 
L'utilisation du Big Data en entreprise
L'utilisation du Big Data en entrepriseL'utilisation du Big Data en entreprise
L'utilisation du Big Data en entrepriseMathieu Lahaye
 
Gestion des données clients et leur exploitation, un enjeu dans la transforma...
Gestion des données clients et leur exploitation, un enjeu dans la transforma...Gestion des données clients et leur exploitation, un enjeu dans la transforma...
Gestion des données clients et leur exploitation, un enjeu dans la transforma...Pitney Bowes
 
Livre blanc big data écosystème français
Livre blanc big data écosystème françaisLivre blanc big data écosystème français
Livre blanc big data écosystème françaisMatthias Fille
 
La Big Data et ses applications
La Big Data et ses applicationsLa Big Data et ses applications
La Big Data et ses applicationsAffinity Engine
 
Big data en (ré)assurance régis delayet
Big data en (ré)assurance   régis delayetBig data en (ré)assurance   régis delayet
Big data en (ré)assurance régis delayetKezhan SHI
 
Business & Decision - Big Data : Retours d'expériences concrets - Congrès Big...
Business & Decision - Big Data : Retours d'expériences concrets - Congrès Big...Business & Decision - Big Data : Retours d'expériences concrets - Congrès Big...
Business & Decision - Big Data : Retours d'expériences concrets - Congrès Big...Business & Decision
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data VirtualizationDenodo
 
Maximisez les bénéfices de votre BI self-service avec la Data Virtualization
Maximisez les bénéfices de votre BI self-service avec la Data VirtualizationMaximisez les bénéfices de votre BI self-service avec la Data Virtualization
Maximisez les bénéfices de votre BI self-service avec la Data VirtualizationDenodo
 
Mémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociauxMémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociauxChloé Marty
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel businessMouhsine LAKHDISSI
 
Mastère Big Data et Assurance de l'Ecole d'Ingénieur Léonard de Vinci - ESILV
Mastère Big Data et Assurance de l'Ecole d'Ingénieur Léonard de Vinci - ESILVMastère Big Data et Assurance de l'Ecole d'Ingénieur Léonard de Vinci - ESILV
Mastère Big Data et Assurance de l'Ecole d'Ingénieur Léonard de Vinci - ESILVRomain Jouin
 
[livre blanc] "Les Big Data pour les services publics : enjeux, technologies ...
[livre blanc] "Les Big Data pour les services publics : enjeux, technologies ...[livre blanc] "Les Big Data pour les services publics : enjeux, technologies ...
[livre blanc] "Les Big Data pour les services publics : enjeux, technologies ...yann le gigan
 

Tendances (20)

Le Big Data au coeur de la stratégie des PME par où commencer ?
Le Big Data au coeur de la stratégie des PME par où commencer ? Le Big Data au coeur de la stratégie des PME par où commencer ?
Le Big Data au coeur de la stratégie des PME par où commencer ?
 
Big Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendancesBig Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendances
 
Group DIS - Datacenter
Group DIS - DatacenterGroup DIS - Datacenter
Group DIS - Datacenter
 
Ch&cie présentation du big data dans l'assurance
Ch&cie présentation du big data dans l'assuranceCh&cie présentation du big data dans l'assurance
Ch&cie présentation du big data dans l'assurance
 
Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013
 
Big data
Big dataBig data
Big data
 
L'utilisation du Big Data en entreprise
L'utilisation du Big Data en entrepriseL'utilisation du Big Data en entreprise
L'utilisation du Big Data en entreprise
 
I love BIG DATA
I love BIG DATAI love BIG DATA
I love BIG DATA
 
Etude sur le Big Data
Etude sur le Big DataEtude sur le Big Data
Etude sur le Big Data
 
Gestion des données clients et leur exploitation, un enjeu dans la transforma...
Gestion des données clients et leur exploitation, un enjeu dans la transforma...Gestion des données clients et leur exploitation, un enjeu dans la transforma...
Gestion des données clients et leur exploitation, un enjeu dans la transforma...
 
Livre blanc big data écosystème français
Livre blanc big data écosystème françaisLivre blanc big data écosystème français
Livre blanc big data écosystème français
 
La Big Data et ses applications
La Big Data et ses applicationsLa Big Data et ses applications
La Big Data et ses applications
 
Big data en (ré)assurance régis delayet
Big data en (ré)assurance   régis delayetBig data en (ré)assurance   régis delayet
Big data en (ré)assurance régis delayet
 
Business & Decision - Big Data : Retours d'expériences concrets - Congrès Big...
Business & Decision - Big Data : Retours d'expériences concrets - Congrès Big...Business & Decision - Big Data : Retours d'expériences concrets - Congrès Big...
Business & Decision - Big Data : Retours d'expériences concrets - Congrès Big...
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
 
Maximisez les bénéfices de votre BI self-service avec la Data Virtualization
Maximisez les bénéfices de votre BI self-service avec la Data VirtualizationMaximisez les bénéfices de votre BI self-service avec la Data Virtualization
Maximisez les bénéfices de votre BI self-service avec la Data Virtualization
 
Mémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociauxMémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociaux
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel business
 
Mastère Big Data et Assurance de l'Ecole d'Ingénieur Léonard de Vinci - ESILV
Mastère Big Data et Assurance de l'Ecole d'Ingénieur Léonard de Vinci - ESILVMastère Big Data et Assurance de l'Ecole d'Ingénieur Léonard de Vinci - ESILV
Mastère Big Data et Assurance de l'Ecole d'Ingénieur Léonard de Vinci - ESILV
 
[livre blanc] "Les Big Data pour les services publics : enjeux, technologies ...
[livre blanc] "Les Big Data pour les services publics : enjeux, technologies ...[livre blanc] "Les Big Data pour les services publics : enjeux, technologies ...
[livre blanc] "Les Big Data pour les services publics : enjeux, technologies ...
 

En vedette

Government Data Exchange and Open Government Data Platform
Government Data Exchange and Open Government Data PlatformGovernment Data Exchange and Open Government Data Platform
Government Data Exchange and Open Government Data PlatformAnveshi Gutta
 
Digital Data Exchange for Mobile Distribution Network
Digital Data Exchange for Mobile Distribution NetworkDigital Data Exchange for Mobile Distribution Network
Digital Data Exchange for Mobile Distribution NetworkCA. B.C. Chechani
 
Data Exchange Standards & STEP, EXPRESS & EXPRESS-G
Data Exchange Standards & STEP, EXPRESS & EXPRESS-GData Exchange Standards & STEP, EXPRESS & EXPRESS-G
Data Exchange Standards & STEP, EXPRESS & EXPRESS-Gmetalalp
 
What do We Know about Drag Kings?
What do We Know about Drag Kings?What do We Know about Drag Kings?
What do We Know about Drag Kings?Teila123
 
PhD Thesis presentation
PhD Thesis presentationPhD Thesis presentation
PhD Thesis presentationJavier Ortega
 
Hileman Group: Marketing Automation Matters
Hileman Group: Marketing Automation MattersHileman Group: Marketing Automation Matters
Hileman Group: Marketing Automation MattersKyle Chandler
 
Prsentation eng 101
Prsentation  eng 101Prsentation  eng 101
Prsentation eng 101sopno100
 
Salem Area Market Statistics Q1 2011
Salem Area Market Statistics Q1 2011Salem Area Market Statistics Q1 2011
Salem Area Market Statistics Q1 2011Christopher Polak
 
2011 Global Social Work Student Conference - Silver School of Social Work – N...
2011 Global Social Work Student Conference - Silver School of Social Work – N...2011 Global Social Work Student Conference - Silver School of Social Work – N...
2011 Global Social Work Student Conference - Silver School of Social Work – N...IFSW
 
User eXitus - Nenechte sve navstevniky odchazet BarCamp 2011 Ostrava
User eXitus - Nenechte sve navstevniky odchazet BarCamp 2011 OstravaUser eXitus - Nenechte sve navstevniky odchazet BarCamp 2011 Ostrava
User eXitus - Nenechte sve navstevniky odchazet BarCamp 2011 Ostravajirikomar
 
Carlos lenin estrada
Carlos lenin estradaCarlos lenin estrada
Carlos lenin estradacarloslenin19
 
28th Social Work Day at the United Nations 2011
28th Social Work Day at the  United Nations 201128th Social Work Day at the  United Nations 2011
28th Social Work Day at the United Nations 2011IFSW
 
What is your earliest memory
What is your earliest memoryWhat is your earliest memory
What is your earliest memorymarco_fro19
 
Power guineu 1[1]
Power guineu 1[1]Power guineu 1[1]
Power guineu 1[1]43705656K
 
Francais orthographe
Francais orthographeFrancais orthographe
Francais orthographezouhaer
 

En vedette (20)

Government Data Exchange and Open Government Data Platform
Government Data Exchange and Open Government Data PlatformGovernment Data Exchange and Open Government Data Platform
Government Data Exchange and Open Government Data Platform
 
Digital Data Exchange for Mobile Distribution Network
Digital Data Exchange for Mobile Distribution NetworkDigital Data Exchange for Mobile Distribution Network
Digital Data Exchange for Mobile Distribution Network
 
Data Exchange Standards & STEP, EXPRESS & EXPRESS-G
Data Exchange Standards & STEP, EXPRESS & EXPRESS-GData Exchange Standards & STEP, EXPRESS & EXPRESS-G
Data Exchange Standards & STEP, EXPRESS & EXPRESS-G
 
What do We Know about Drag Kings?
What do We Know about Drag Kings?What do We Know about Drag Kings?
What do We Know about Drag Kings?
 
PhD Thesis presentation
PhD Thesis presentationPhD Thesis presentation
PhD Thesis presentation
 
Hileman Group: Marketing Automation Matters
Hileman Group: Marketing Automation MattersHileman Group: Marketing Automation Matters
Hileman Group: Marketing Automation Matters
 
Prsentation eng 101
Prsentation  eng 101Prsentation  eng 101
Prsentation eng 101
 
Salem Area Market Statistics Q1 2011
Salem Area Market Statistics Q1 2011Salem Area Market Statistics Q1 2011
Salem Area Market Statistics Q1 2011
 
2011 Global Social Work Student Conference - Silver School of Social Work – N...
2011 Global Social Work Student Conference - Silver School of Social Work – N...2011 Global Social Work Student Conference - Silver School of Social Work – N...
2011 Global Social Work Student Conference - Silver School of Social Work – N...
 
Slide
SlideSlide
Slide
 
Dani h
Dani hDani h
Dani h
 
User eXitus - Nenechte sve navstevniky odchazet BarCamp 2011 Ostrava
User eXitus - Nenechte sve navstevniky odchazet BarCamp 2011 OstravaUser eXitus - Nenechte sve navstevniky odchazet BarCamp 2011 Ostrava
User eXitus - Nenechte sve navstevniky odchazet BarCamp 2011 Ostrava
 
Carlos lenin estrada
Carlos lenin estradaCarlos lenin estrada
Carlos lenin estrada
 
28th Social Work Day at the United Nations 2011
28th Social Work Day at the  United Nations 201128th Social Work Day at the  United Nations 2011
28th Social Work Day at the United Nations 2011
 
What is your earliest memory
What is your earliest memoryWhat is your earliest memory
What is your earliest memory
 
TP 13
TP 13TP 13
TP 13
 
La moral kantiana( què he de fer
La moral kantiana( què he de ferLa moral kantiana( què he de fer
La moral kantiana( què he de fer
 
Power guineu 1[1]
Power guineu 1[1]Power guineu 1[1]
Power guineu 1[1]
 
Francais orthographe
Francais orthographeFrancais orthographe
Francais orthographe
 
Khalid
KhalidKhalid
Khalid
 

Similaire à Data Exchange Platform Blue DME - Trouver de la donnée pertinente

Monétisation des données - BlueDME - prez Meetup
Monétisation des données  - BlueDME - prez MeetupMonétisation des données  - BlueDME - prez Meetup
Monétisation des données - BlueDME - prez MeetupMathieu DESPRIEE
 
Formation stratégie numérique
Formation stratégie numériqueFormation stratégie numérique
Formation stratégie numériqueDanielle Tardif
 
HUBREPORT - Future of Data & CRM [EXTRAIT]
HUBREPORT - Future of Data & CRM [EXTRAIT]HUBREPORT - Future of Data & CRM [EXTRAIT]
HUBREPORT - Future of Data & CRM [EXTRAIT]HUB INSTITUTE
 
Soft Computing & IBM : Digital, Big Data & DMP
Soft Computing & IBM : Digital, Big Data & DMPSoft Computing & IBM : Digital, Big Data & DMP
Soft Computing & IBM : Digital, Big Data & DMPSoft Computing
 
19/10/17 Séminaire Référentiel Client Unique
19/10/17 Séminaire Référentiel Client Unique19/10/17 Séminaire Référentiel Client Unique
19/10/17 Séminaire Référentiel Client UniqueSoft Computing
 
Webinaire Business&Decision - Trifacta
Webinaire  Business&Decision - TrifactaWebinaire  Business&Decision - Trifacta
Webinaire Business&Decision - TrifactaVictor Coustenoble
 
25/01/18 Matinale Data Science
25/01/18 Matinale Data Science25/01/18 Matinale Data Science
25/01/18 Matinale Data ScienceSoft Computing
 
[Fr] Information builders - MDM et Big Data
[Fr] Information builders - MDM et Big Data[Fr] Information builders - MDM et Big Data
[Fr] Information builders - MDM et Big DataYann Gourvennec
 
Formation M2i - Placer la Data au cœur de la stratégie de l'entreprise
Formation M2i - Placer la Data au cœur de la stratégie de l'entrepriseFormation M2i - Placer la Data au cœur de la stratégie de l'entreprise
Formation M2i - Placer la Data au cœur de la stratégie de l'entrepriseM2i Formation
 
Les 4 étapes clés pour transformer les données client en valeur
Les 4 étapes clés pour transformer les données client en valeurLes 4 étapes clés pour transformer les données client en valeur
Les 4 étapes clés pour transformer les données client en valeurJean-Michel Franco
 
Collecte unifiée Server-to-Server - Tealium SNCF Connect (@EBG 2023)
Collecte unifiée Server-to-Server - Tealium SNCF Connect (@EBG 2023)Collecte unifiée Server-to-Server - Tealium SNCF Connect (@EBG 2023)
Collecte unifiée Server-to-Server - Tealium SNCF Connect (@EBG 2023)François
 
Offre onepoint - Data science et big data
Offre onepoint  - Data science et big data Offre onepoint  - Data science et big data
Offre onepoint - Data science et big data GroupeONEPOINT
 
Matinale Technologique SAS
Matinale Technologique SASMatinale Technologique SAS
Matinale Technologique SASSoft Computing
 
Le cloud, source de visibilité
Le cloud, source de visibilité Le cloud, source de visibilité
Le cloud, source de visibilité PRODWARE
 
Francois Paulus Semsoft Big Data & analyse
Francois Paulus Semsoft Big Data & analyseFrancois Paulus Semsoft Big Data & analyse
Francois Paulus Semsoft Big Data & analyseInsurance_Marketing
 

Similaire à Data Exchange Platform Blue DME - Trouver de la donnée pertinente (20)

Monétisation des données - BlueDME - prez Meetup
Monétisation des données  - BlueDME - prez MeetupMonétisation des données  - BlueDME - prez Meetup
Monétisation des données - BlueDME - prez Meetup
 
[Infographie] comment passer des big data aux smart data
[Infographie] comment passer des big data aux smart data[Infographie] comment passer des big data aux smart data
[Infographie] comment passer des big data aux smart data
 
Formation stratégie numérique
Formation stratégie numériqueFormation stratégie numérique
Formation stratégie numérique
 
HUBREPORT - Future of Data & CRM [EXTRAIT]
HUBREPORT - Future of Data & CRM [EXTRAIT]HUBREPORT - Future of Data & CRM [EXTRAIT]
HUBREPORT - Future of Data & CRM [EXTRAIT]
 
Soft Computing & IBM : Digital, Big Data & DMP
Soft Computing & IBM : Digital, Big Data & DMPSoft Computing & IBM : Digital, Big Data & DMP
Soft Computing & IBM : Digital, Big Data & DMP
 
La datavisualisation
La datavisualisationLa datavisualisation
La datavisualisation
 
19/10/17 Séminaire Référentiel Client Unique
19/10/17 Séminaire Référentiel Client Unique19/10/17 Séminaire Référentiel Client Unique
19/10/17 Séminaire Référentiel Client Unique
 
Webinaire Business&Decision - Trifacta
Webinaire  Business&Decision - TrifactaWebinaire  Business&Decision - Trifacta
Webinaire Business&Decision - Trifacta
 
25/01/18 Matinale Data Science
25/01/18 Matinale Data Science25/01/18 Matinale Data Science
25/01/18 Matinale Data Science
 
Séminaire RCU
Séminaire RCUSéminaire RCU
Séminaire RCU
 
JOJC mars 2023
JOJC mars 2023JOJC mars 2023
JOJC mars 2023
 
Pilotage & Performance 2012
Pilotage & Performance 2012Pilotage & Performance 2012
Pilotage & Performance 2012
 
[Fr] Information builders - MDM et Big Data
[Fr] Information builders - MDM et Big Data[Fr] Information builders - MDM et Big Data
[Fr] Information builders - MDM et Big Data
 
Formation M2i - Placer la Data au cœur de la stratégie de l'entreprise
Formation M2i - Placer la Data au cœur de la stratégie de l'entrepriseFormation M2i - Placer la Data au cœur de la stratégie de l'entreprise
Formation M2i - Placer la Data au cœur de la stratégie de l'entreprise
 
Les 4 étapes clés pour transformer les données client en valeur
Les 4 étapes clés pour transformer les données client en valeurLes 4 étapes clés pour transformer les données client en valeur
Les 4 étapes clés pour transformer les données client en valeur
 
Collecte unifiée Server-to-Server - Tealium SNCF Connect (@EBG 2023)
Collecte unifiée Server-to-Server - Tealium SNCF Connect (@EBG 2023)Collecte unifiée Server-to-Server - Tealium SNCF Connect (@EBG 2023)
Collecte unifiée Server-to-Server - Tealium SNCF Connect (@EBG 2023)
 
Offre onepoint - Data science et big data
Offre onepoint  - Data science et big data Offre onepoint  - Data science et big data
Offre onepoint - Data science et big data
 
Matinale Technologique SAS
Matinale Technologique SASMatinale Technologique SAS
Matinale Technologique SAS
 
Le cloud, source de visibilité
Le cloud, source de visibilité Le cloud, source de visibilité
Le cloud, source de visibilité
 
Francois Paulus Semsoft Big Data & analyse
Francois Paulus Semsoft Big Data & analyseFrancois Paulus Semsoft Big Data & analyse
Francois Paulus Semsoft Big Data & analyse
 

Data Exchange Platform Blue DME - Trouver de la donnée pertinente

  • 1. © Blue DME SAS | Diffusion interdite sans accord DEX : Data Exchange Platform Mathieu DESPRIEE, CTO mde@bluedme.com @mdespriee
  • 2. Qui sommes-nous? Julien CEO ESME. Ms IAE Paris Mathieu CTO ENSEIRB Mohamed Data Scientist PhD Math LMV Aurélien Senior Engineer Telecom Paris Christophe Data Engineer INSA Kevin Data Engineer EISTI. Heriot-Watt Adrian Resp. Data Science ENSAI Katia Senior Engineer Universad de Bilbao Equipe Clients Offre Blue DME SAS est une startup française (JEI) créée début 2015 #Data Science Optimiser la performance business en passant au prédictif Marketing Commerce Risques #Data Platform Simplifier et fluidifier l’accès aux données externes Parcours digitaux Capteurs Open Data Partenaires Groupe #Data Monetization Valoriser la contribution de vos données à leur valeur d’usage et développer de nouvelles offres de services pour vos clients Enseignement Cedric CSO Polytech. Sud HEC © Blue DME SAS | Diffusion interdite sans accord 22
  • 3. © Blue DME SAS | Diffusion interdite sans accord BlueDME DEX Une plateforme de recherche de données pour les analystes, les statisticiens et les data scientists conçue pour monétiser la valeur d’usage et favoriser les transactions entre entités 3
  • 4. Les usages de la Data © Blue DME SAS | Diffusion interdite sans accord 4 Modélisation des risques Acquérir une connaissance plus riche des comportements pour l’amélioration des modèles de risque auprès de tiers de haute qualité, ex: consommation électrique, entretien véhicule, utilisation des transports en communs, … Prédiction des sinistres Identifier les facteurs leaders, les phénomènes d’emballement psycho-sociaux et détecter les populations à risques à partir des données médiatiques, économétriques digitales et comportementales Lutte contre la fraude Détecter les situations suspectes par croisement des données sociales et comportementales pour les personnes physiques, les professionnels et les entreprises Identifier les contextes socio- économiques propices aux différents types de fraude Pricing comportemental Construire des modèles de pricing « as you go » basés sur les comportements observés par des tiers, ex. objets connectés, véhicules intelligents, opérateurs télécoms, … Prétargeting Enrichir les prospects et les entrées en relation de données issues d’entités externes pour déployer une relation client personnalisée dès le début et améliorer la segmentation des bases de prospects Ciblage multi-modal Augmenter la performance des campagnes de ciblage en limitant l’usure de la base de données clients par un enrichissement de données comportementales, sociales, tendancielles et de parcours de forte qualité issus d’entités externes. Lutte contre l’attrition Détecter les signaux de churn court terme et moyen terme par acquisition de données auprès de tiers (comparateurs, distributeurs, auto, …) pour permettre la mise en place des actions de rétention le plus en amont possible. Parcours client omni-canal Enrichir la vision client 360 des parcours sur des canaux externes à l’entreprise (médias, distribution, internet, …) et réduire les coûts de campagne par une meilleure évaluation de l’appétence aux canaux de relation client Mieux Vendre Mieux Opérer
  • 5. Utiliser les données pour prédire (aka. Machine Learning / Data Science) © Blue DME SAS | Diffusion interdite sans accord y = f (X) Observations du passé Variable à prédire (eg. « acheteur ») 0 1 0 0 1 0 … Connaissance (eg. sur un client)y x1 x2 x3 … … xn Prédire = Appliquer la fonction inférée f à de nouvelles observations (eg. nouveau prospect) 32 23 56 71 19 24 … • Profil socio-démo • Catégorie client • Offres déjà souscrites … • Promoteur réseau sociaux 75 92 33 18 01 13 … VIP PRO Famille Senior 15/25 … 0.1 -0.7 0.0 0.5 0.8 0.4 … … Données « assemblées » Sources de données d’origine Collecte Préparation Apprentissage
  • 6. Datascience process © Blue DME SAS | Diffusion interdite sans accord 6 • Import en masse • Flux • Emission d’événements ApprentissageInterprétation Intégration Modélisation Collecte Préparation Dashboard Visualisation interactive Jointure Profiling Nettoyage, Filtrage Import en masse/en flux Rapport Export en masse Modèles prédictifs Sampling Feature engineering Model engineering Model testing Agrégation Modélisation Feature computing
  • 7. Le quotidien du datascientist… © Blue DME SAS | Diffusion interdite sans accord 7 79% du temps des data scientists est passé dans l’étape de Data Preparation (« collecting data sets » 19% + « Cleaning and organizing data » 60%). La Data Preparation est l'étape la moins appréciée pour un Data scientist (78%).
  • 8. Les usages de la Data © Blue DME SAS | Diffusion interdite sans accord 8 Modélisation des risques Acquérir une connaissance plus riche des comportements pour l’amélioration des modèles de risque auprès de tiers de haute qualité, ex: consommation électrique, entretien véhicule, utilisation des transports en communs, … Prédiction des sinistres Identifier les facteurs leaders, les phénomènes d’emballement psycho-sociaux et détecter les populations à risques à partir des données médiatiques, économétriques digitales et comportementales Lutte contre la fraude Détecter les situations suspectes par croisement des données sociales et comportementales pour les personnes physiques, les professionnels et les entreprises Identifier les contextes socio- économiques propices aux différents types de fraude Pricing comportemental Construire des modèles de pricing « as you go » basés sur les comportements observés par des tiers, ex. objets connectés, véhicules intelligents, opérateurs télécoms, … Prétargeting Enrichir les prospects et les entrées en relation de données issues d’entités externes pour déployer une relation client personnalisée dès le début et améliorer la segmentation des bases de prospects Ciblage multi-modal Augmenter la performance des campagnes de ciblage en limitant l’usure de la base de données clients par un enrichissement de données comportementales, sociales, tendancielles et de parcours de forte qualité issus d’entités externes. Lutte contre l’attrition Détecter les signaux de churn court terme et moyen terme par acquisition de données auprès de tiers (comparateurs, distributeurs, auto, …) pour permettre la mise en place des actions de rétention le plus en amont possible. Parcours client omni-canal Enrichir la vision client 360 des parcours sur des canaux externes à l’entreprise (médias, distribution, internet, …) et réduire les coûts de campagne par une meilleure évaluation de l’appétence aux canaux de relation client Mieux Vendre Mieux Opérer Comment accéder des données au delà des silos de l’organisation? La recherche et la qualification des données représente 60 à 70% de l’effort d’un projet Data dans l’industrie
  • 9. Un moteur de recherche de données internes et externes apportant de la valeur © Blue DME SAS | Diffusion interdite sans accord 9 Contexte Pour le compte des départements d’actuariat, marketing et risques des entités du groupe, fournir une solution sous la forme d’une plateforme de recherche de données innovantes, basée sur la solution DEX de Blue DME, permettant: • De rechercher des données sur les clients, la matière assurable et les risques dans tous les silos des entités et dans 14 000 jeux de données externes • Trouver de manière automatique les données permettant d’améliorer les modèles de scoring et de pricing, en réduisant l’effort de 60% • Partager dans toute l’organisation les données les plus utiles et à plus forte valeur ajoutée par des fonctions de collaboration sur la data DEX Analyste RisquesActuariat Marketing Pricing P&C Potentiel de marché Attribution TV Prédiction du churn Risques environnementaux Risques climatiques Données Entité A Données Entité B Données Externes (non-open) Open Data Client : Confidentiel Secteur Assurances
  • 10. Les 2 dimensions du Data Exchange © Blue DME SAS | Diffusion interdite sans accord 10 Echanger des données entre entités Une gouvernance décentralisée, et des échanges entre entités Trouver des données à valeur ajoutée Recherche sémantique Recherche Open Data Amélioration automatique de score Enrichissement automatique Analyse automatisée Evaluation de la qualité
  • 11. Data Selection Engine Une plateforme de recherche et de sélection de données multi- sources Les projets de Data Science et les Data Apps consomment de nombreuses données issues de plusieurs sources internes et externes. Data Selection Engine permet de rechercher des données à valeur ajoutée permettant d’enrichir vos données et vos modèles de scores à partir de milliers de sources de données de manière automatique Data Selection Engine permet de construire des services d'agrégation de données monétisables en temps réel pour vos data apps Enrichir les Data Apps avec des données externes de partenaires et Open Data Recherche de données externes Analyseur de données externes Service intelligent de recherche de données externes améliorant un score existant Service intelligent de recherche de variables prédictives © Blue DME SAS | Diffusion interdite sans accord 11
  • 12. Recherche © Blue DME SAS | Diffusion interdite sans accord 12
  • 13. Analyse automatisée © Blue DME SAS | Diffusion interdite sans accord 13
  • 14. Enrichissement © Blue DME SAS | Diffusion interdite sans accord 14
  • 15. Amélioration automatique de score prédictif par apport de variables supplémentaires © Blue DME SAS | Diffusion interdite sans accord 15
  • 16. Valeur d’usage © Blue DME SAS | Diffusion interdite sans accord Valeur du bénéfice de posséder les données • Ecart de performance avec ou sans les données : A/B Testing • Ecart de performance des modèles prédictifs (avec ou sans les features externes) • Le calcul de l’apport de la prédiction repose sur la comparaison entre les AUC de différents modèles • RF sur les données de l’utilisateur • RF sur les données de l’utilisateur augmentées par un fichier A • RF sur les données de l’utilisateur augmentées par un fichier B
  • 17. Architecture technique 17 DEX MANAGEMENT SERVER https front (nginx) play2 SEARCH INDEX Elastic Search (Optionally in cluster) DB User DEX DATA PROCESSING ENGINE Job Queue Data Processor Scala / jre 8 Embedded Spark driver (CUSTOMER PROVIDED) HADOOP CLUSTER YARN Resource Manager HDFS Name Node Cluster node Cluster node Cluster node … Dedicated folders in HDFS Web HDFS Auth Provider (ldap) Network filesystem mount point One node hosting DEX components Customer provided Cluster node Perf monitor Tools
  • 18. Score enrichment process Dataset to enrich Analysis Spark Dataframes Stats on columns Text analysis Matching « fuzzy join » STORAGE CLUSTER : +10 000 DATASETS Classification model Classification model with joined data Any column can be a join candidate a priori
  • 19. K min values © Blue DME SAS | Diffusion interdite sans accord 19 http://people.mpi-inf.mpg.de/~rgemulla/publications/beyer07distinct.pdf
  • 20. K-Min Value (KMV) Synopsis • Hashing = dropping DVs uniformly on [0,1] • KMV synopsis: • Estimator • Unbiased – Cf paper… • Space complexity : constant ! )(/ kUkcard  XX X X X X X X a e b … D distinct values hash a a Partition X X 1/D },...,,{ )()2()1( kUUUL  0 1U(1) U(2) U(k) k-min ... )(/)1( kUkcard 
  • 21. Choose k ? © Blue DME SAS | Diffusion interdite sans accord 21
  • 22. (Multiset) Union of Partitions 0 XX X X k-min 0 XX X X k-min 0 XX X X  XX X X k-min U(k) L LA LB  Combine KMV synopses: L=LALB  Theorem: L is a KMV synopsis of AB  Can use previous unbiased estimator: … 1 … 1 … 1 X )(/)1( kUkcard 
  • 23.  L=LALB as with union (contains k elements)  Note: L corresponds to a uniform random sample of DVs in AB  K = # values in L that are also in D(AB)  Theorem: Can compute from LA and LB alone  K/k estimates Jaccard distance:  estimates  Unbiased estimator of #DVs in the intersection:  See paper for variance of estimator  Can extend to general compound partitions from ordinary set operations (Multiset) Intersection of Partitions )(/)1(ˆ kUkD  )( BADD              )( 1ˆ kU k k K D )( )( BAD BAD D D     
  • 24. REX d’utilisation du KMV pour le matching SIGMOD 07 Une métrique d’intersection approximative, mais : • suffisante pour éliminer les datasets non-pertinents (eg. 3000 -> 75) • 100-1000x plus rapide d’estimer une jointure avec un KMV que de l’exécuter
  • 25. REX d’utilisation du KMV pour le matching © Blue DME SAS | Diffusion interdite sans accord 25 • Les erreurs importantes se situent sur les petites intersections de datasets (peu de recouvrement) • Lié au calcul de similarité de Jaccard
  • 26. Une implémentation simpliste ! © Blue DME SAS | Diffusion interdite sans accord 26
  • 27. Data Exchange - Internet of Data © Blue DME SAS | Diffusion interdite sans accord 27 Interentreprises Filière Groupe Interne CRM Gestion Finance COMMERCE Diminuer la durée du cycle de vente par une priorisation des comportements et des situations de vente MARKETING Engager vos clients par leurs parcours omni canal et leurs cycles de vie avec l’ensemble de vos partenaires Data MonétisationData ExchangeData Solution PRICING Améliorer la performance des modèles de pricing en tenant compte de la sensibilité et de la pression exercée sur les prospects Plateforme ouverte Blue DME SOURCING DE DONNEES Constituer un écosystème de partenaires d’échange de données par une approche directe et désintermédiée VALORISATION DE DONNEES Calculer la valeur d’usage et la valeur de marché des données dans le cadre d’échange bilatéral pour estimer l’attribution et/ou le prix des données EXECUTION D’ECHANGES Sécuriser et exécuter les transactions d’échange de données en respectant les directives de data privacy et en protégeant votre capital informationnel Laboratoire de données Big Data Contrôleur de Data Privacy Marché électronique d’échange de données Référentiels de données exogènes Algo. de prédiction des futurs évènements (machine learning)
  • 28. © Blue DME SAS | Diffusion interdite sans accord Merci ! contact@bluedme.com @mdespriee