Contenu connexe Similaire à Big Data by Soft Computing - Lille (20) Plus de Soft Computing (10) Big Data by Soft Computing - Lille1. © Soft Computing – www.softcomputing.com
Big Data by Soft Computing
Big Data, tout le monde en parle…
Soft Computing le pratique au quotidien : concepts, outils, applications marketing, retours d’expérience.
12/06/2015
2. © 3
Merci de votre présence
Sylvain BELLIER
Directeur du pôle Marketing
Services Soft Computing
3. © 4
SOMMAIRESommaire
1. Introduction
2. Big Data : le décor
3. Big Data : quoi de neuf ?
4. Analyses : évolutions des usages et méthodes
5. Organisation et outillage
6. Illustration sur un cas concret
7. Pour conclure
4. © 5
Compétences InterlocuteursPrestations Modalités Marchés
Data
Science
Information
Technologies
Direction Digital,
Marketing, Data
IT
AMOA
Think
Build
Run
Délégation
d’expertise
Mode projet
Centre de
services
Digital
Marketing
Clients : 80% des
F500 Français
12 pays servis
Expertises
Sectorielles
Retail
FinanceServices
Industrie
Carte d’identité : spécialiste Digital, Big Data & CRM
Spécialiste
Digital : 12,6 M€
Big Data: 11 M€
CRM: 14,5 M€
7. © 8
Du vécu métier
2003 2015
Web mining
15 M Clients
5 ans
Recommandations
Temps réel
Réseaux
d’influence
Analyse de
sentiments
50 To+
10. © 11
SOMMAIRESommaire
1. Introduction
2. Big Data : le décor
3. Big Data : quoi de neuf ?
4. Analyses : évolutions des usages et méthodes
5. Organisation et outillage
6. Illustration sur un cas concret
7. Pour conclure
12. © 13
Défi technique #2 : sortir de la quadrature du triangle
2005 2015
Disponibilité
« Les données sont
toujours accessibles »
Tolérance
« seul la panne
totale interromp »
Cohérence
« Les commits
rendent
l’ensemble des
données
cohérentes »
Disponibilité
« Les données sont
toujours accessibles »
Tolérance
« seul la panne
totale interromp »
Cohérence
« Les commits
rendent
l’ensemble des
données
cohérentes »
Commit en
2 phases
13. © 14
Défi technique #3 : exécuter tout calcul en moins de 0,14
secondes
2005 2015
Trading Desk
(ATD)
Editeur de
site
Demand Side
Platform
(DSP)
Ad exchange
(Adex)
Supply Side
Platform
(SSP)
Annonceur
ou Agence
média
Ad Server de
l’éditeur ou
Ad network
RTB &
programmati
que
14. © 16
Un segment (sur?) peuplé
Xaas
Hardware
Projets Open SourceDistributions
Données AnalyseVisualisation Application
EMR
Bigquery
Professionnal services (tec & biz)
15. © 17
Les grandes familles NoSQL
SQL
Cohérence
indispensable
Relationnel
Oracle, SQL
Server, DB2…
Clé-
valeur
Structure simple
Stockage clé
valeur
Dynamodb, Redis,
Riak, MS Azure
table, Oracle
NoSQL
Colonnes
Analytique
Stockage en
colonne pour des
recherches
rapides
Bigtable,
Cassandra,
Hbase, Hadoop
Document
Structure
complexe, temps
de réponse
Clé-valeur avec
de multiples
attributs (semi-
structuré (XML…)
Couchdb,
Mongodb
Autres
Hérarchiques
(ldap…), Graph
(Neoj4…), OODB
(Versant…)
Principes techniques :
• Shared-nothing
• Schemaless
• Interfaces Restful simples
Avantages :
• Evolutivité des schémas
• Scalabilité horizontale
• Protocoles simples
Inconvénients :
• Requêtes plus complexes
• Pas de cohérence garantie
• Pas de clé unique garantie
16. © 18
Les caractéristiques communes
Nosql
Non-
relationnel
Evolutivité
horizontale
Traitement
distribué
Débit rapide
Matériel
banalisé
Haute
disponibilité
Tolérance
Cohérence
éventuelle
17. © 19
Trouver un nouvel équilibre
« Since the inception of ebay,
not a single data was
deleted ! »
Meg Whitman, DG eBay
« Toute donnée stockée doit
être justifiée par un
traitement »
Mon DSI
« Où mettre le
curseur entre ces
deux extrêmes ? »
18. © 20
SOMMAIRESommaire
1. Introduction
2. Big Data : le décor
3. Big Data : quoi de neuf ?
4. Analyses : évolutions des usages et méthodes
5. Organisation et outillage
6. Illustration sur un cas concret
7. Pour conclure
27. © 29
Impact sur les usages : notre synthèse
+
Données
Détail
Temps réel
Prédictif
Non-
structuré
Ouvert sur
l’extérieur
Autonome
Hybride
30. © 32
Non-structuré
Streams sociaux Weblogs Capteurs E-mails
Détail transactions Pages web Documents scannés Trace GPS
Données boursières Enregistrements
téléphoniques
Video-surveillance Données d’usage
32. © 34
HybrideSystèmessources
SystèmesbancairesdeproductionExternes
ETL Appliance
Entrepôt
Vision unique
du client
Datamarts
Sandbox
Entrepôt Hadoop
Usages
Reporting
Tableaux de
bord
Cubes OLAP
Statistique
(SAS...)
Systèmes
front-end
Base
métier
Données de référence
Synthèses transactions
Données externes
structurées
Données externes
peu structurées
Données
volumétrie importante
Réintégration données
après pré-traitement
Sasde
sécurité
Accès
Accès
Accès
Données externes
à la demande
Eléments de ciblage (dont scores)
Extractions Métiers (dont scores, segmentations...)
Base
métier
Base
métier
Base
métier
Base
métier
Base
métier
Web Services
Services temps réel
À destination des front-end
33. © 35
SOMMAIRESommaire
1. Introduction
2. Big Data : le décor
3. Big Data : quoi de neuf ?
4. Analyses : évolutions des usages et méthodes
5. Organisation et outillage
6. Illustration sur un cas concret
7. Pour conclure
34. © 36
Les nouveaux besoins d’analyse
Améliorer la performance
de détection / de prévision
avec des données exogènes
Agilité, pertinence, auto
apprentissage
Personnalisation one to oneIdentifier et optimiser les
parcours omnicanaux
35. © 37
Les nouvelles méthodologies utilisées
Random Forest
Boosting Gradient
Machine
Textmining/
Voicemining
Réseau Bayesien
Support Vector
Machines
Sequential Pattern
Analysis
36. © 38
SOMMAIRESommaire
1. Introduction
2. Big Data : le décor
3. Big Data : quoi de neuf ?
4. Analyses : évolutions des usages et méthodes
5. Organisation et outillage
6. Illustration sur un cas concret
7. Pour conclure
37. © 39
Où est quoi : architecture générale
Big data : données
chaudes
Big data : données
froides
Dataware : données
structurées
Agrégatsdesignauxforts
DonnéesCRM&mémoirecourte
Historique
Prédictif
Données CRM
Prédictif & signaux forts
39. © 41
Outillage : exemples
Query BI Dataviz Statistique Machine
learning
Script Langage Environne
ment
Couche d’accès
41. © 43
Compétences * fonctions
MarketingDatascience Programmation
Stocker
Explorer
Transformer
Modéliser
Appliquer
42. © 44
SOMMAIRESommaire
1. Introduction
2. Big Data : le décor
3. Big Data : quoi de neuf ?
4. Analyses : évolutions des usages et méthodes
5. Organisation et outillage
6. Illustration sur un cas concret
7. Pour conclure
44. © 46
Solution fonctionnelle
Prototyper l’algorithme de
substitution
Produire la matrice
d’association
Suivre et optimiser la
performance l’algorithme
Proposer des susbstitutions
Intégrer l’algorithme de
substitution
Développer l’algorithme de
substitution
algorithme
Algorithme
« industrialisé »
Matrice
d’association
Historique des propositions
Référentiels
produit
Scan list
Programme
de production des
matrices
d’associations
Hub
Produits
éligibles
EAN
substituts
45. © 47
Architecture
Lab data Large Data Fast Data
Prototyper l’algorithme de
substitution
Produire la matrice
d’association
Suivre et optimiser la
performance l’algorithme
Proposer des substitutions
Intégrer l’algorithme de
substitution
Développer l’algorithme de
substitution
47. © 49
Planning
Run
Initialisation du centre de services
Conception et réalisation « large »
Maintenance
Monitoring applications
Administration
Gestion des projets de setup
Gestion du centre de servicesProgram Management
Gestion des projets d’évolutions
BusinessIT
Gestiondeprojetet
deservices
Setup
Sprints algorithme sur le
« lab »
Mise en place
architecture
Définition du SLA
Conception et réalisation « fast »
Tests
Sprints d’amélioration algorithme sur le « lab »
Surveillance de la santé de l’algorithme « lab »
Infra
Hard & soft
Hébergement et monitoring
Data
exploration
M1 M2 M3 M4 M5
48. © 50
SOMMAIRESommaire
1. Introduction
2. Big Data : le décor
3. Big Data : quoi de neuf ?
4. Analyses : évolutions des usages et méthodes
5. Organisation et outillage
6. Illustration sur un cas concret
7. Pour conclure
53. © 55
Offre de services
S
ensibilisation
tratégie
andbox
R
oadmap
ollout
un