Vers une meilleure connaissance client grâce au big data
1. Thomas ANGLADE - Data Scientist
Thomas.anglade@data2b.net
06 60 30 00 14
data2b.net
2. Vers une meilleure connaissance client
grâce au big data
Data2Breakfast – 07/02/2017
1. La révolution big data : utiliser les données comme
matière première
2. Cas concret : mieux connaître ses clients pour détecter la
fraude
3. Comment améliorer la segmentation client grâce au big
data
3. 3
Utiliser la donnée comme matière
première
(Big) data
010011001100
000110011100
110110011011
000111001101
4. Explosion des données
01 La révolution technologique qui ne pourra être remplacée que
par l’ordinateur quantique
Les 3V : Volume, Variety, Velocity
Il est estimé que 90% des données récoltées depuis le début de
l’humanité ont été générées durant les 2 dernières années
Le développement de la data science à été permis par le big data et
notamment l’invention du paradigme hadoop (2003)
Passage de l’ère de la causalité à celle de la corrélation : le big data
permet de faire mieux mais on ne sait pas forcément pourquoi…
5. Que vaut la donnée ?
La donnée a pris de la valeur car elle est passée de luxe a commodité
La donnée est désormais produite de manière différente, pas forcément de
manière consciente et intentionnelle.
Valeur de ré-utilisation énorme
Matière 1ère (circulation – blé)
Outil de levier / décision
Actif stratégique
6. Avantage compétitif grâce aux data
Marketing
Finance &
assurances
E-commerce
Santé
RH
Transports
Logistique
Maintenance
Agro-alimentaire
Environnement
Le data scientist peut-il faire mieux que l’expert ?
7. La data est un « business » de volume
« Un algorithme moins performant couplé à un plus gros volume de
données donne de meilleurs résultats qu’un algorithme performant sur
un échantillon plus restreint »
valeur de la data personnelle / an / personne selon OCDE
Collecter des données avant de savoir comment les exploiter ??
10. Détection de fraude – le problème
25%demandes de remboursement frauduleuses
Fraude à l’assurance en 2014 2,5Md€
Achat d'une police après la
survenance
« Crash for cash »
Inventer un sinistre de
toutes pièces
« Gonfler » les montants
des sinistres
Déclaration pour une
blessure antérieure
Dupliquer un sinistre
1 2
3 4
65
11. Détection de fraude – les méthodes
Lot of
Data
Variety of
Data
Machine
learning
Less
Fraud
x x =
DEMO !
13. Type de segmentation
Étapes de la vie Public cible Segmentation discrète
TOUS les clients Sous-groupe de clients
ayant un comportement /
attribut
Décrire un ensemble
spécifique de personnes
a travers le temps
(cohortes)
Chaque client est
seulement dans un
segment
Aucune relation
naturelle a travers les
segments
Statique - les gens ne
bougent pas du segment
Suivi de la progression
de segments
Suivi de l'adhésion
(entrée ou sortie) du
segment et suivi des
membres du segment
Suivre le comportement
au fil du temps
Utilisation en
combinaison avec
segments cibles
Utilisé pour des
campagnes et offres
spécifiques
Utilisé pour l'analyse de
rétention et l'analyse
saisonnière
14. + interactions clients = + données
• Données internes
Association données marketing avec des données d'autres
divisions de la société (ventes, opérations, service client, etc.)
• Données externes
Réseaux sociaux, logs, géolocalisation, open data, etc.
15. Meilleure technologie = données mieux
utilisées
• Exploiter de nombreux formats d'information - le
contenu d'une image ou d'une vidéo et la signification des
données textuelles
• Nouveaux algorithmes de segmentation tels que l'analyse
de réseaux (network science) et le regroupement par densité
(density-based clustering).
• Amélioration des performances matérielles et logicielles
sur de grandes quantités de données.
• Capacité à calculer des segmentations dynamiques en
temps réel, grâce à Spark Streaming et Flink.
16. Network science
Clustering coefficient
Les amis de mes amis
sont mes amis.
Ce coefficient mesure à quel
point le voisinage d'un
sommet est connecté.
- Segmentation dynamique
18. Density-based clustering
Paramètres
ɛ Le rayon autour d'un point de données p.
minPts Le nombre minimum de points que nous voulons dans un cluster.
Points
Points de noyeau Un point p est point de noyau si | Nbhd (p, ɛ) | > = MinPts.
Points de frontière Un point q est point de frontière si Nbhd (q, ɛ) contient
moins minPts, mais q est accessible à partir d'un point de noyau p.
Outlier Un point o est un outlier si ce n'est ni un point de noyau ni un point de
frontière.
19. Density-based clustering
Algorithme
• Choisissez un point au hasard qui n'a pas été affecté à un cluster ou
qui a été désigné comme outlier.
• Déterminer si c'est un point de noyau. Si oui, démarrez un cluster
autour de ce point. Si non, étiquettez le point comme outlier.
• Répétez ces deux étapes jusqu'à ce que tous les points soient soit
assignés à un cluster ou désignés comme outlier.
21. Big Data + segmentation on action
Possibilité d'avoir autant
de segmentations que de
questions à répondre.
Industrialisation des segmentations
dynamiques mises à jour
automatiquement en temps réel.