© Soft Computing – www.softcomputing.com
Big Data by Soft Computing
Big Data, tout le monde en parle…
Soft Computing le pratique au quotidien : concepts, outils, applications marketing, retours d’expérience.
12/06/2015
© 3
Merci de votre présence
Sylvain BELLIER
Directeur du pôle Marketing
Services Soft Computing
© 4
SOMMAIRESommaire
1. Introduction
2. Big Data : le décor
3. Big Data : quoi de neuf ?
4. Analyses : évolutions des usages et méthodes
5. Organisation et outillage
6. Illustration sur un cas concret
7. Pour conclure
© 5
Compétences InterlocuteursPrestations Modalités Marchés
Data
Science
Information
Technologies
Direction Digital,
Marketing, Data
IT
AMOA
Think
Build
Run
Délégation
d’expertise
Mode projet
Centre de
services
Digital
Marketing
Clients : 80% des
F500 Français
12 pays servis
Expertises
Sectorielles
Retail
FinanceServices
Industrie
Carte d’identité : spécialiste Digital, Big Data & CRM
Spécialiste
Digital : 12,6 M€
Big Data: 11 M€
CRM: 14,5 M€
© 6
Big Data : ça reste à mode
© 7
Oui, mais on aborde la vallée des désillusions
Big Data
© 8
Du vécu métier
2003 2015
Web mining
15 M Clients
5 ans
Recommandations
Temps réel
Réseaux
d’influence
Analyse de
sentiments
50 To+
© 9
Du recul aussi sur le plan technique
© 10
Mais également de l’humilité…
© 11
SOMMAIRESommaire
1. Introduction
2. Big Data : le décor
3. Big Data : quoi de neuf ?
4. Analyses : évolutions des usages et méthodes
5. Organisation et outillage
6. Illustration sur un cas concret
7. Pour conclure
© 12
Défi technique #1 : se préparer à gérer des volumes inimaginables
2005 2015
© 13
Défi technique #2 : sortir de la quadrature du triangle
2005 2015
Disponibilité
« Les données sont
toujours accessibles »
Tolérance
« seul la panne
totale interromp »
Cohérence
« Les commits
rendent
l’ensemble des
données
cohérentes »
Disponibilité
« Les données sont
toujours accessibles »
Tolérance
« seul la panne
totale interromp »
Cohérence
« Les commits
rendent
l’ensemble des
données
cohérentes »
Commit en
2 phases
© 14
Défi technique #3 : exécuter tout calcul en moins de 0,14
secondes
2005 2015
Trading Desk
(ATD)
Editeur de
site
Demand Side
Platform
(DSP)
Ad exchange
(Adex)
Supply Side
Platform
(SSP)
Annonceur
ou Agence
média
Ad Server de
l’éditeur ou
Ad network
RTB &
programmati
que
© 16
Un segment (sur?) peuplé
Xaas
Hardware
Projets Open SourceDistributions
Données AnalyseVisualisation Application
EMR
Bigquery
Professionnal services (tec & biz)
© 17
Les grandes familles NoSQL
SQL
Cohérence
indispensable
Relationnel
Oracle, SQL
Server, DB2…
Clé-
valeur
Structure simple
Stockage clé
valeur
Dynamodb, Redis,
Riak, MS Azure
table, Oracle
NoSQL
Colonnes
Analytique
Stockage en
colonne pour des
recherches
rapides
Bigtable,
Cassandra,
Hbase, Hadoop
Document
Structure
complexe, temps
de réponse
Clé-valeur avec
de multiples
attributs (semi-
structuré (XML…)
Couchdb,
Mongodb
Autres
Hérarchiques
(ldap…), Graph
(Neoj4…), OODB
(Versant…)
Principes techniques :
• Shared-nothing
• Schemaless
• Interfaces Restful simples
Avantages :
• Evolutivité des schémas
• Scalabilité horizontale
• Protocoles simples
Inconvénients :
• Requêtes plus complexes
• Pas de cohérence garantie
• Pas de clé unique garantie
© 18
Les caractéristiques communes
Nosql
Non-
relationnel
Evolutivité
horizontale
Traitement
distribué
Débit rapide
Matériel
banalisé
Haute
disponibilité
Tolérance
Cohérence
éventuelle
© 19
Trouver un nouvel équilibre
« Since the inception of ebay,
not a single data was
deleted ! »
Meg Whitman, DG eBay
« Toute donnée stockée doit
être justifiée par un
traitement »
Mon DSI
« Où mettre le
curseur entre ces
deux extrêmes ? »
© 20
SOMMAIRESommaire
1. Introduction
2. Big Data : le décor
3. Big Data : quoi de neuf ?
4. Analyses : évolutions des usages et méthodes
5. Organisation et outillage
6. Illustration sur un cas concret
7. Pour conclure
© 21
Big data 2015
Démocratisation
© 22
Démocratisation hardware
5 nœuds
1 namenode, 20 cœurs, 192 Go ram
4 datanodes, 64 cœurs, 64 Gb ram, 10 To DD
© 23
Démocratisation : stockage
© 24
Démocratisation : outils de datavisualisation
© 25
Démocratisation : de plus en plus de données en libre service
© 26
Démocratisation : de plus en plus de données à coût modique
© 27
Démocratisation : analytique ML en cloud
© 28
Démocratisation : ML « as a service »
© 29
Impact sur les usages : notre synthèse
+
Données
Détail
Temps réel
Prédictif
Non-
structuré
Ouvert sur
l’extérieur
Autonome
Hybride
© 30
Données Détail
Elément de structure
Région
Segment
Bonne
gamme
Client
Mr XXX
Contrat
Compte
courant
Ecriture
Code
commerçant
© 31
Décisionnel
analytique
Temps réel
Transaction
opérationnelle
Evénements
Traitement
métier
Stockage
données
Interception à
la source
Analyse
Ex : page vue, ….
Ex : display
Résultats AlerteEx : RTB
© 32
Non-structuré
Streams sociaux Weblogs Capteurs E-mails
Détail transactions Pages web Documents scannés Trace GPS
Données boursières Enregistrements
téléphoniques
Video-surveillance Données d’usage
© 33
Autonome
© 34
HybrideSystèmessources
SystèmesbancairesdeproductionExternes
ETL Appliance
Entrepôt
Vision unique
du client
Datamarts
Sandbox
Entrepôt Hadoop
Usages
Reporting
Tableaux de
bord
Cubes OLAP
Statistique
(SAS...)
Systèmes
front-end
Base
métier
Données de référence
Synthèses transactions
Données externes
structurées
Données externes
peu structurées
Données
volumétrie importante
Réintégration données
après pré-traitement
Sasde
sécurité
Accès
Accès
Accès
Données externes
à la demande
Eléments de ciblage (dont scores)
Extractions Métiers (dont scores, segmentations...)
Base
métier
Base
métier
Base
métier
Base
métier
Base
métier
Web Services
Services temps réel
À destination des front-end
© 35
SOMMAIRESommaire
1. Introduction
2. Big Data : le décor
3. Big Data : quoi de neuf ?
4. Analyses : évolutions des usages et méthodes
5. Organisation et outillage
6. Illustration sur un cas concret
7. Pour conclure
© 36
Les nouveaux besoins d’analyse
Améliorer la performance
de détection / de prévision
avec des données exogènes
Agilité, pertinence, auto
apprentissage
Personnalisation one to oneIdentifier et optimiser les
parcours omnicanaux
© 37
Les nouvelles méthodologies utilisées
Random Forest
Boosting Gradient
Machine
Textmining/
Voicemining
Réseau Bayesien
Support Vector
Machines
Sequential Pattern
Analysis
© 38
SOMMAIRESommaire
1. Introduction
2. Big Data : le décor
3. Big Data : quoi de neuf ?
4. Analyses : évolutions des usages et méthodes
5. Organisation et outillage
6. Illustration sur un cas concret
7. Pour conclure
© 39
Où est quoi : architecture générale
Big data : données
chaudes
Big data : données
froides
Dataware : données
structurées
Agrégatsdesignauxforts
DonnéesCRM&mémoirecourte
Historique
Prédictif
Données CRM
Prédictif & signaux forts
© 40
Cohabitation Datawarehouse et big data
Connecteurs
SQL
Loader
(import/export)
© 41
Outillage : exemples
Query BI Dataviz Statistique Machine
learning
Script Langage Environne
ment
Couche d’accès
© 42
Connecteurs
Loader
Couche d’accès
Query
StockerExplorerTransformerModéliserAppliquer
BI Dataviz Statistique Machine
learning
Script Langage Environne
ment
Fonctions * outillage
© 43
Compétences * fonctions
MarketingDatascience Programmation
Stocker
Explorer
Transformer
Modéliser
Appliquer
© 44
SOMMAIRESommaire
1. Introduction
2. Big Data : le décor
3. Big Data : quoi de neuf ?
4. Analyses : évolutions des usages et méthodes
5. Organisation et outillage
6. Illustration sur un cas concret
7. Pour conclure
© 45
Exemple de problématique
© 46
Solution fonctionnelle
Prototyper l’algorithme de
substitution
Produire la matrice
d’association
Suivre et optimiser la
performance l’algorithme
Proposer des susbstitutions
Intégrer l’algorithme de
substitution
Développer l’algorithme de
substitution
algorithme
Algorithme
« industrialisé »
Matrice
d’association
Historique des propositions
Référentiels
produit
Scan list
Programme
de production des
matrices
d’associations
Hub
Produits
éligibles
EAN
substituts
© 47
Architecture
Lab data Large Data Fast Data
Prototyper l’algorithme de
substitution
Produire la matrice
d’association
Suivre et optimiser la
performance l’algorithme
Proposer des substitutions
Intégrer l’algorithme de
substitution
Développer l’algorithme de
substitution
© 48
Lab data Large Data Fast Data
© 49
Planning
Run
Initialisation du centre de services
Conception et réalisation « large »
Maintenance
Monitoring applications
Administration
Gestion des projets de setup
Gestion du centre de servicesProgram Management
Gestion des projets d’évolutions
BusinessIT
Gestiondeprojetet
deservices
Setup
Sprints algorithme sur le
« lab »
Mise en place
architecture
Définition du SLA
Conception et réalisation « fast »
Tests
Sprints d’amélioration algorithme sur le « lab »
Surveillance de la santé de l’algorithme « lab »
Infra
Hard & soft
Hébergement et monitoring
Data
exploration
M1 M2 M3 M4 M5
© 50
SOMMAIRESommaire
1. Introduction
2. Big Data : le décor
3. Big Data : quoi de neuf ?
4. Analyses : évolutions des usages et méthodes
5. Organisation et outillage
6. Illustration sur un cas concret
7. Pour conclure
© 51
R.O.I.
Connaissance Datamining
Assortiments en magasins
Rapports
Rapports industriels
Données : vision 360° client et produit
Campagnes ciblées
Technologies
1
2
3
4
Business Driven
© 52
Best-of-breed intégré et verticalisé avec IBM
Outils
© 53
Cibler des R.O.I. < 6 mois
© 54
Reconsidérer chaque
année les ROI : les
barrières à l’entrée
baissent toujours plus
© 55
Offre de services
S
ensibilisation
tratégie
andbox
R
oadmap
ollout
un
© 56

Big Data by Soft Computing - Lille

  • 1.
    © Soft Computing– www.softcomputing.com Big Data by Soft Computing Big Data, tout le monde en parle… Soft Computing le pratique au quotidien : concepts, outils, applications marketing, retours d’expérience. 12/06/2015
  • 2.
    © 3 Merci devotre présence Sylvain BELLIER Directeur du pôle Marketing Services Soft Computing
  • 3.
    © 4 SOMMAIRESommaire 1. Introduction 2.Big Data : le décor 3. Big Data : quoi de neuf ? 4. Analyses : évolutions des usages et méthodes 5. Organisation et outillage 6. Illustration sur un cas concret 7. Pour conclure
  • 4.
    © 5 Compétences InterlocuteursPrestationsModalités Marchés Data Science Information Technologies Direction Digital, Marketing, Data IT AMOA Think Build Run Délégation d’expertise Mode projet Centre de services Digital Marketing Clients : 80% des F500 Français 12 pays servis Expertises Sectorielles Retail FinanceServices Industrie Carte d’identité : spécialiste Digital, Big Data & CRM Spécialiste Digital : 12,6 M€ Big Data: 11 M€ CRM: 14,5 M€
  • 5.
    © 6 Big Data: ça reste à mode
  • 6.
    © 7 Oui, maison aborde la vallée des désillusions Big Data
  • 7.
    © 8 Du vécumétier 2003 2015 Web mining 15 M Clients 5 ans Recommandations Temps réel Réseaux d’influence Analyse de sentiments 50 To+
  • 8.
    © 9 Du reculaussi sur le plan technique
  • 9.
    © 10 Mais égalementde l’humilité…
  • 10.
    © 11 SOMMAIRESommaire 1. Introduction 2.Big Data : le décor 3. Big Data : quoi de neuf ? 4. Analyses : évolutions des usages et méthodes 5. Organisation et outillage 6. Illustration sur un cas concret 7. Pour conclure
  • 11.
    © 12 Défi technique#1 : se préparer à gérer des volumes inimaginables 2005 2015
  • 12.
    © 13 Défi technique#2 : sortir de la quadrature du triangle 2005 2015 Disponibilité « Les données sont toujours accessibles » Tolérance « seul la panne totale interromp » Cohérence « Les commits rendent l’ensemble des données cohérentes » Disponibilité « Les données sont toujours accessibles » Tolérance « seul la panne totale interromp » Cohérence « Les commits rendent l’ensemble des données cohérentes » Commit en 2 phases
  • 13.
    © 14 Défi technique#3 : exécuter tout calcul en moins de 0,14 secondes 2005 2015 Trading Desk (ATD) Editeur de site Demand Side Platform (DSP) Ad exchange (Adex) Supply Side Platform (SSP) Annonceur ou Agence média Ad Server de l’éditeur ou Ad network RTB & programmati que
  • 14.
    © 16 Un segment(sur?) peuplé Xaas Hardware Projets Open SourceDistributions Données AnalyseVisualisation Application EMR Bigquery Professionnal services (tec & biz)
  • 15.
    © 17 Les grandesfamilles NoSQL SQL Cohérence indispensable Relationnel Oracle, SQL Server, DB2… Clé- valeur Structure simple Stockage clé valeur Dynamodb, Redis, Riak, MS Azure table, Oracle NoSQL Colonnes Analytique Stockage en colonne pour des recherches rapides Bigtable, Cassandra, Hbase, Hadoop Document Structure complexe, temps de réponse Clé-valeur avec de multiples attributs (semi- structuré (XML…) Couchdb, Mongodb Autres Hérarchiques (ldap…), Graph (Neoj4…), OODB (Versant…) Principes techniques : • Shared-nothing • Schemaless • Interfaces Restful simples Avantages : • Evolutivité des schémas • Scalabilité horizontale • Protocoles simples Inconvénients : • Requêtes plus complexes • Pas de cohérence garantie • Pas de clé unique garantie
  • 16.
    © 18 Les caractéristiquescommunes Nosql Non- relationnel Evolutivité horizontale Traitement distribué Débit rapide Matériel banalisé Haute disponibilité Tolérance Cohérence éventuelle
  • 17.
    © 19 Trouver unnouvel équilibre « Since the inception of ebay, not a single data was deleted ! » Meg Whitman, DG eBay « Toute donnée stockée doit être justifiée par un traitement » Mon DSI « Où mettre le curseur entre ces deux extrêmes ? »
  • 18.
    © 20 SOMMAIRESommaire 1. Introduction 2.Big Data : le décor 3. Big Data : quoi de neuf ? 4. Analyses : évolutions des usages et méthodes 5. Organisation et outillage 6. Illustration sur un cas concret 7. Pour conclure
  • 19.
    © 21 Big data2015 Démocratisation
  • 20.
    © 22 Démocratisation hardware 5nœuds 1 namenode, 20 cœurs, 192 Go ram 4 datanodes, 64 cœurs, 64 Gb ram, 10 To DD
  • 21.
  • 22.
    © 24 Démocratisation :outils de datavisualisation
  • 23.
    © 25 Démocratisation :de plus en plus de données en libre service
  • 24.
    © 26 Démocratisation :de plus en plus de données à coût modique
  • 25.
    © 27 Démocratisation :analytique ML en cloud
  • 26.
    © 28 Démocratisation :ML « as a service »
  • 27.
    © 29 Impact surles usages : notre synthèse + Données Détail Temps réel Prédictif Non- structuré Ouvert sur l’extérieur Autonome Hybride
  • 28.
    © 30 Données Détail Elémentde structure Région Segment Bonne gamme Client Mr XXX Contrat Compte courant Ecriture Code commerçant
  • 29.
  • 30.
    © 32 Non-structuré Streams sociauxWeblogs Capteurs E-mails Détail transactions Pages web Documents scannés Trace GPS Données boursières Enregistrements téléphoniques Video-surveillance Données d’usage
  • 31.
  • 32.
    © 34 HybrideSystèmessources SystèmesbancairesdeproductionExternes ETL Appliance Entrepôt Visionunique du client Datamarts Sandbox Entrepôt Hadoop Usages Reporting Tableaux de bord Cubes OLAP Statistique (SAS...) Systèmes front-end Base métier Données de référence Synthèses transactions Données externes structurées Données externes peu structurées Données volumétrie importante Réintégration données après pré-traitement Sasde sécurité Accès Accès Accès Données externes à la demande Eléments de ciblage (dont scores) Extractions Métiers (dont scores, segmentations...) Base métier Base métier Base métier Base métier Base métier Web Services Services temps réel À destination des front-end
  • 33.
    © 35 SOMMAIRESommaire 1. Introduction 2.Big Data : le décor 3. Big Data : quoi de neuf ? 4. Analyses : évolutions des usages et méthodes 5. Organisation et outillage 6. Illustration sur un cas concret 7. Pour conclure
  • 34.
    © 36 Les nouveauxbesoins d’analyse Améliorer la performance de détection / de prévision avec des données exogènes Agilité, pertinence, auto apprentissage Personnalisation one to oneIdentifier et optimiser les parcours omnicanaux
  • 35.
    © 37 Les nouvellesméthodologies utilisées Random Forest Boosting Gradient Machine Textmining/ Voicemining Réseau Bayesien Support Vector Machines Sequential Pattern Analysis
  • 36.
    © 38 SOMMAIRESommaire 1. Introduction 2.Big Data : le décor 3. Big Data : quoi de neuf ? 4. Analyses : évolutions des usages et méthodes 5. Organisation et outillage 6. Illustration sur un cas concret 7. Pour conclure
  • 37.
    © 39 Où estquoi : architecture générale Big data : données chaudes Big data : données froides Dataware : données structurées Agrégatsdesignauxforts DonnéesCRM&mémoirecourte Historique Prédictif Données CRM Prédictif & signaux forts
  • 38.
    © 40 Cohabitation Datawarehouseet big data Connecteurs SQL Loader (import/export)
  • 39.
    © 41 Outillage :exemples Query BI Dataviz Statistique Machine learning Script Langage Environne ment Couche d’accès
  • 40.
    © 42 Connecteurs Loader Couche d’accès Query StockerExplorerTransformerModéliserAppliquer BIDataviz Statistique Machine learning Script Langage Environne ment Fonctions * outillage
  • 41.
    © 43 Compétences *fonctions MarketingDatascience Programmation Stocker Explorer Transformer Modéliser Appliquer
  • 42.
    © 44 SOMMAIRESommaire 1. Introduction 2.Big Data : le décor 3. Big Data : quoi de neuf ? 4. Analyses : évolutions des usages et méthodes 5. Organisation et outillage 6. Illustration sur un cas concret 7. Pour conclure
  • 43.
    © 45 Exemple deproblématique
  • 44.
    © 46 Solution fonctionnelle Prototyperl’algorithme de substitution Produire la matrice d’association Suivre et optimiser la performance l’algorithme Proposer des susbstitutions Intégrer l’algorithme de substitution Développer l’algorithme de substitution algorithme Algorithme « industrialisé » Matrice d’association Historique des propositions Référentiels produit Scan list Programme de production des matrices d’associations Hub Produits éligibles EAN substituts
  • 45.
    © 47 Architecture Lab dataLarge Data Fast Data Prototyper l’algorithme de substitution Produire la matrice d’association Suivre et optimiser la performance l’algorithme Proposer des substitutions Intégrer l’algorithme de substitution Développer l’algorithme de substitution
  • 46.
    © 48 Lab dataLarge Data Fast Data
  • 47.
    © 49 Planning Run Initialisation ducentre de services Conception et réalisation « large » Maintenance Monitoring applications Administration Gestion des projets de setup Gestion du centre de servicesProgram Management Gestion des projets d’évolutions BusinessIT Gestiondeprojetet deservices Setup Sprints algorithme sur le « lab » Mise en place architecture Définition du SLA Conception et réalisation « fast » Tests Sprints d’amélioration algorithme sur le « lab » Surveillance de la santé de l’algorithme « lab » Infra Hard & soft Hébergement et monitoring Data exploration M1 M2 M3 M4 M5
  • 48.
    © 50 SOMMAIRESommaire 1. Introduction 2.Big Data : le décor 3. Big Data : quoi de neuf ? 4. Analyses : évolutions des usages et méthodes 5. Organisation et outillage 6. Illustration sur un cas concret 7. Pour conclure
  • 49.
    © 51 R.O.I. Connaissance Datamining Assortimentsen magasins Rapports Rapports industriels Données : vision 360° client et produit Campagnes ciblées Technologies 1 2 3 4 Business Driven
  • 50.
    © 52 Best-of-breed intégréet verticalisé avec IBM Outils
  • 51.
    © 53 Cibler desR.O.I. < 6 mois
  • 52.
    © 54 Reconsidérer chaque annéeles ROI : les barrières à l’entrée baissent toujours plus
  • 53.
    © 55 Offre deservices S ensibilisation tratégie andbox R oadmap ollout un
  • 54.