Lionel Molas: Data Architecte
Herve Desaunois: Directeur technique
2
Sommaire
• La révolution est en marche
• BI traditionnelle
• Les changements, les impacts
• Cartographie des impacts du changements pour l’entreprise
• Architecture Big Data dans un SI
• C’est maintenant le changement
• Le plan de transformation
• Illustration concrète du BI au Big Data
• La convergence
Du BI au BIG DATA
3
La révolution
est en marche
4
BI
Traditionnelle
L'analyse multidimensionnelle
des données
36 M€
USA
36,3 M€
EUROPE DU SUD
65,1 M€
EUROPE
DU NORD
5
Mécanismes d'extraction,
de transfert et de consolidation
BI traditionnelle
Centralisation des données Reporting
10,2 M€
Reste
du
Monde
36 M€
USA 65,1 M€
EUROPE
DU NORD
6
Data warehouse vs Business intelligence
10,2 M€
Reste
du
Monde
36 M€
USA 65,1 M€
EUROPE
DU NORD
7
Les analystes veulent couper leur
données en “slice et dice”
Les analystes ont besoin
d’accéder à des données très
agrégées.
Les analystes veulent parcourir les
données en profondeur (d’aller du
générale vers les détails).
Data warehouse
10,2 M€
Reste
du
Monde
36 M€
USA 65,1 M€
EUROPE
DU NORD
8
Open Source
• BIRT
• JasperReport
• Pentaho
Enterprise
• Oracle Business Intelligence
Publisher
• Microsoft SQL Server Reporting
• SAP HANA-optimized BI
Outils de reporting
9
Les changements,
les impacts
Changement de nature des données
10
Les changements
Changement de volumétrie
Changement de référentiels de données,
du Data Warehouse au Data Lake
Changement de processus
de production
11
Data ScientistBig Data Process
Les changements
Changement
d’architecture
Changement
de compétences
12
Cartographie
Des impacts SI
13
Big Impact SI
Big
Data
Impact
36 M€
USA
36,3 M€
EUROPE DU SUD
14
Big impact
Cloud Public ou Privé
Data Lake
Architecture Lambda
Intégration dans le SI
15
Architecture
Big Data dans un SI
10,2 M€
Reste
du
Monde
36 M€
USA
36,3 M€
EUROPE DU SUD
65,1 M€
EUROPE
DU NORD
Architecture classique du SI
16
Architecture classique du SI et le BIG DATA
17
18
Plateforme Big Data
Ecosystème Hadoop
19
Architecture Big Data
Private Cloud or Public Cloud
20
Lambda Architecture
21
C’est maintenant
le changement
22
Gartner
Gartner Says Big Data Creates Big Jobs:
4.4 Million IT Jobs Globally to Support
Big Data By 2015
23
Projet Big Data
IT Innovation / Transformation / Marketing digital
• Vue 360 Clients
• Analyse comportementale multicanal digital
• Système d’archive de données
• Datawerhouse offload et remplacement ETL
• Infrastructure Log Analysis
• Analyse de risques / fraudes
• Maintenance industrielle (IoT)
• Nouveaux business modèle : le tout connecté (équipement, voitures, ..)
• Segmentation clients en temps réels
• KPI temps réels / Analyse cross systèmes
24
Une nouvelle démarche
25
• Utilisation de KNIME pour le
prototypage, la fouille de données
• Utilisation de TULIP pour le
prototypage, la visualisations de
données
Big Data prototypage
• Déclinaison vers des implémentations
Big Data / Cloud Computing
26
Le plan de
Transformation
10,2 M€
Reste
du
Monde
36 M€
USA
36,3 M€
EUROPE DU SUD
27
Conduite du changement
Participation
VALTECH
Communication
Formation
10,2 M€
Reste
du
Monde
36 M€
USA
36,3 M€
EUROPE DU SUD
65,1 M€
EUROPE
DU NORD
28
Formation Big Data
• Formation aux
technologies
Big Data
• Formation Data Scientist
• Introduction aux bases de données NOSQL
• Développer avec MongoDB
• Développement d'applications avec Neo4j
• Apache Hadoop 2.0 : Hortonworks (certifiant)
• KNIME
• Analyse de données pour HADOOP:
Hortonworks (certifiant)
• Jump Start Data Scientist / Big Data
VALTECH
29
Case study
Illustration du
BI au Big Data
30
Case study
Velib’
• Données fournies par
JCDecaux en temps réel
sur l’utilisation des
stations Velib
• Durée: début d’année 2014
• Stockage: base de
données sur Microsoft
Azure
31
Les données
Chaque fois qu’un velo
est loué ou retoutné une
transaction est loggée
Elements :
• Station Id
• Timestamp
• Bornes disponibles
• Vélos disponibles
32
Analyse des données: extraction de dimensionsTransformation
33
Calcul de mesures
Pour une période d’une heure
Transformation
34
L’usage moyen des vélos par jour de la semaineReporting
Mars Avril Mai
Juin Juillet
35
Usage moyen des vélos par heure du jourReporting
36
Usage moyen des vélos par heure du jour et par
station
Reporting
37
Usage moyen des vélos par heure du jours, pour les
jours de la semaine
Nombre de transactions (en vert)
Reporting
Lundi Mardi Mercredi
Jeudi Vendredi
38
Usage moyen des vélos par heure du jours, pour
samedi et dimanche
Nombre de transactions (en vert)
Reporting
Samedi
Dimanche
39
Enrichir les
données
• Enrichir la donnée fournie par
JCDecaux en temps réel en integrant
d’autres sources de données
• Météo
• Spectacles
• Restaurants
• IoT
• Informer un usager de la tendance
de sa station cible pour une date
déterminée (court terme)
40
Axes de prédiction
 La base de toute prédiction est l’historique de la station
 Séparer les jours ouvrés des jours non travaillés
 Utilisation du calendrier scolaire
 Introduire la dimension météorologique (pluie, vent)
 Pondérer la prédiction à court terme
41
Prototypage
Définition d’un model prédictif
• KNIME
42
Prototypage
Définition d’un model prédictif
• Data Scientist
 Problématique liée au Time-series
 Préparation de données pour l’apprentissage
 Régression linéaire
 Séparation des données en données d’apprentissage et données de test

 Choix d’algorithme d’apprentissage
 Apprentissage supervisé
 Apprentissage non-supervisé
Approche de type Batch
Architecture
Big Data Velib
44
La plateforme Big Data Demo
45
Itération I
Data sources layer Data integration layer Data batch layer
Import des données
46
Itération I Import des données météo
Calcul du modèle prédictif
Data sources layer Data integration layer Data batch layer Service layer reporting
47
Itération II Intégration des vacances scolaires
Calcul du modèle prédictif
Data sources layer Data integration layer Data batch layer Service layer reporting
48
La convergence
36 M€
USA 65,1 M€
EUROPE
DU NORD
49
Convergence
technique
SQL Engine / No more NoSQL Data Lake
Data Warehouse nouvelle génération
(In Memory & Column Oriented )
R
50
Merci

Valtech - Du BI au Big Data, une révolution dans l’entreprise