Big Data by Soft Computing - Lille

© Soft Computing – www.softcomputing.com
Big Data by Soft Computing
Big Data, tout le monde en parle…
Soft Computing le pratique au quotidien : concepts, outils, applications marketing, retours d’expérience.
12/06/2015

© 3
Merci de votre présence
Sylvain BELLIER
Directeur du pôle Marketing
Services Soft Computing

© 4
SOMMAIRESommaire
1. Introduction
2. Big Data : le décor
3. Big Data : quoi de neuf ?
4. Analyses : évolutions des usages et méthodes
5. Organisation et outillage
6. Illustration sur un cas concret
7. Pour conclure

© 5
Compétences InterlocuteursPrestations Modalités Marchés
Data
Science
Information
Technologies
Direction Digital,
Marketing, Data
IT
AMOA
Think
Build
Run
Délégation
d’expertise
Mode projet
Centre de
services
Digital
Marketing
Clients : 80% des
F500 Français
12 pays servis
Expertises
Sectorielles
Retail
FinanceServices
Industrie
Carte d’identité : spécialiste Digital, Big Data & CRM
Spécialiste
Digital : 12,6 M€
Big Data: 11 M€
CRM: 14,5 M€

© 6
Big Data : ça reste à mode

© 7
Oui, mais on aborde la vallée des désillusions
Big Data

© 8
Du vécu métier
2003 2015
Web mining
15 M Clients
5 ans
Recommandations
Temps réel
Réseaux
d’influence
Analyse de
sentiments
50 To+

© 9
Du recul aussi sur le plan technique

© 10
Mais également de l’humilité…

© 11
SOMMAIRESommaire
1. Introduction
7. Pour conclure

© 12
Défi technique #1 : se préparer à gérer des volumes inimaginables
2005 2015

© 13
Défi technique #2 : sortir de la quadrature du triangle
2005 2015
Disponibilité
« Les données sont
toujours accessibles »
Tolérance
« seul la panne
totale interromp »
Cohérence
« Les commits
rendent
l’ensemble des
données
cohérentes »
Disponibilité
« Les données sont
toujours accessibles »
Tolérance
« seul la panne
totale interromp »
Cohérence
« Les commits
rendent
l’ensemble des
données
cohérentes »
Commit en
2 phases

© 14
Défi technique #3 : exécuter tout calcul en moins de 0,14
secondes
2005 2015
Trading Desk
(ATD)
Editeur de
site
Demand Side
Platform
(DSP)
Ad exchange
(Adex)
Supply Side
Platform
(SSP)
Annonceur
ou Agence
média
Ad Server de
l’éditeur ou
Ad network
RTB &
programmati
que

© 16
Un segment (sur?) peuplé
Xaas
Hardware
Projets Open SourceDistributions
Données AnalyseVisualisation Application
EMR
Bigquery
Professionnal services (tec & biz)

© 17
Les grandes familles NoSQL
SQL
Cohérence
indispensable
Relationnel
Oracle, SQL
Server, DB2…
Clé-
valeur
Structure simple
Stockage clé
valeur
Dynamodb, Redis,
Riak, MS Azure
table, Oracle
NoSQL
Colonnes
Analytique
Stockage en
colonne pour des
recherches
rapides
Bigtable,
Cassandra,
Hbase, Hadoop
Document
Structure
complexe, temps
de réponse
Clé-valeur avec
de multiples
attributs (semi-
structuré (XML…)
Couchdb,
Mongodb
Autres
Hérarchiques
(ldap…), Graph
(Neoj4…), OODB
(Versant…)
Principes techniques :
• Shared-nothing
• Schemaless
• Interfaces Restful simples
Avantages :
• Evolutivité des schémas
• Scalabilité horizontale
• Protocoles simples
Inconvénients :
• Requêtes plus complexes
• Pas de cohérence garantie
• Pas de clé unique garantie

© 18
Les caractéristiques communes
Nosql
Non-
relationnel
Evolutivité
horizontale
Traitement
distribué
Débit rapide
Matériel
banalisé
Haute
disponibilité
Tolérance
Cohérence
éventuelle

© 19
Trouver un nouvel équilibre
« Since the inception of ebay,
not a single data was
deleted ! »
Meg Whitman, DG eBay
« Toute donnée stockée doit
être justifiée par un
traitement »
Mon DSI
« Où mettre le
curseur entre ces
deux extrêmes ? »

© 20
SOMMAIRESommaire
1. Introduction
7. Pour conclure

© 21
Big data 2015
Démocratisation

© 22
Démocratisation hardware
5 nœuds
1 namenode, 20 cœurs, 192 Go ram
4 datanodes, 64 cœurs, 64 Gb ram, 10 To DD

© 23
Démocratisation : stockage

© 24
Démocratisation : outils de datavisualisation

© 25
Démocratisation : de plus en plus de données en libre service

© 26
Démocratisation : de plus en plus de données à coût modique

© 27
Démocratisation : analytique ML en cloud

© 28
Démocratisation : ML « as a service »

© 29
Impact sur les usages : notre synthèse
+
Données
Détail
Temps réel
Prédictif
Non-
structuré
Ouvert sur
l’extérieur
Autonome
Hybride

© 30
Données Détail
Elément de structure
Région
Segment
Bonne
gamme
Client
Mr XXX
Contrat
Compte
courant
Ecriture
Code
commerçant

© 31
Décisionnel
analytique
Temps réel
Transaction
opérationnelle
Evénements
Traitement
métier
Stockage
données
Interception à
la source
Analyse
Ex : page vue, ….
Ex : display
Résultats AlerteEx : RTB

© 32
Non-structuré
Streams sociaux Weblogs Capteurs E-mails
Détail transactions Pages web Documents scannés Trace GPS
Données boursières Enregistrements
téléphoniques
Video-surveillance Données d’usage

© 34
HybrideSystèmessources
SystèmesbancairesdeproductionExternes
ETL Appliance
Entrepôt
Vision unique
du client
Datamarts
Sandbox
Entrepôt Hadoop
Usages
Reporting
Tableaux de
bord
Cubes OLAP
Statistique
(SAS...)
Systèmes
front-end
Base
métier
Données de référence
Synthèses transactions
Données externes
structurées
Données externes
peu structurées
Données
volumétrie importante
Réintégration données
après pré-traitement
Sasde
sécurité
Accès
Accès
Accès
Données externes
à la demande
Eléments de ciblage (dont scores)
Extractions Métiers (dont scores, segmentations...)
Base
métier
Base
métier
Base
métier
Base
métier
Base
métier
Web Services
Services temps réel
À destination des front-end

© 35
SOMMAIRESommaire
1. Introduction
7. Pour conclure

© 36
Les nouveaux besoins d’analyse
Améliorer la performance
de détection / de prévision
avec des données exogènes
Agilité, pertinence, auto
apprentissage
Personnalisation one to oneIdentifier et optimiser les
parcours omnicanaux

© 37
Les nouvelles méthodologies utilisées
Random Forest
Boosting Gradient
Machine
Textmining/
Voicemining
Réseau Bayesien
Support Vector
Machines
Sequential Pattern
Analysis

© 38
SOMMAIRESommaire
1. Introduction
7. Pour conclure

© 39
Où est quoi : architecture générale
Big data : données
chaudes
Big data : données
froides
Dataware : données
structurées
Agrégatsdesignauxforts
DonnéesCRM&mémoirecourte
Historique
Prédictif
Données CRM
Prédictif & signaux forts

© 42
Connecteurs
Loader
Couche d’accès
Query
StockerExplorerTransformerModéliserAppliquer
BI Dataviz Statistique Machine
learning
Script Langage Environne
ment
Fonctions * outillage

© 46
Solution fonctionnelle
Prototyper l’algorithme de
substitution
Produire la matrice
d’association
Suivre et optimiser la
performance l’algorithme
Proposer des susbstitutions
Intégrer l’algorithme de
substitution
Développer l’algorithme de
substitution
algorithme
Algorithme
« industrialisé »
Matrice
d’association
Historique des propositions
Référentiels
produit
Scan list
Programme
de production des
matrices
d’associations
Hub
Produits
éligibles
EAN
substituts

© 47
Architecture
Lab data Large Data Fast Data
Prototyper l’algorithme de
substitution
Produire la matrice
d’association
Suivre et optimiser la
performance l’algorithme
Proposer des substitutions
Intégrer l’algorithme de
substitution
Développer l’algorithme de
substitution

© 49
Planning
Run
Initialisation du centre de services
Conception et réalisation « large »
Maintenance
Monitoring applications
Administration
Gestion des projets de setup
Gestion du centre de servicesProgram Management
Gestion des projets d’évolutions
BusinessIT
Gestiondeprojetet
deservices
Setup
Sprints algorithme sur le
« lab »
Mise en place
architecture
Définition du SLA
Conception et réalisation « fast »
Tests
Sprints d’amélioration algorithme sur le « lab »
Surveillance de la santé de l’algorithme « lab »
Infra
Hard & soft
Hébergement et monitoring
Data
exploration
M1 M2 M3 M4 M5

© 51
R.O.I.
Connaissance Datamining
Assortiments en magasins
Rapports
Rapports industriels
Données : vision 360° client et produit
Campagnes ciblées
Technologies
1
2
3
4
Business Driven

Big Data by Soft Computing - Lille

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (20)

Similaire à Big Data by Soft Computing - Lille

Similaire à Big Data by Soft Computing - Lille (20)

Plus de Soft Computing

Plus de Soft Computing (10)

Big Data by Soft Computing - Lille