SlideShare une entreprise Scribd logo
1  sur  26
Télécharger pour lire hors ligne
DataViz BIG DATA 
Cours d’Introduction 
Big Data l Analytics l 
BIG DATA l ANALYTICS l DATAVIZ 
www.data-business.fr
2 
“Big data is like teenage sex: everyone talks about it, nobody 
really knows how to do it, everyone thinks everyone else is doing 
it, so everyone claims they are doing it...” 
Dan Ariely
Sommaire 
Big Data : Définition 
2 Explication des 3V : Volume, Variété, Vélocité 
Quelques exemples d’application 
3 
4 Les technologies derrière le Big Data 
1 
Copyright © Data-Business.fr. 3
4 
Pourquoi BIG Data ? 
L’historique du Big Data 
• 1951 : LEO, le premier ordinateur d’entreprise 
• Quelques exemples connus de Data-Mining 
• Les origines du Big Data dans la médecine génomique 
• Google et Yahoo : pionniers technologiques 
• The Economist : the Data Deluge 
• L’étude McKinsey : Big Data for Business 
Alors, buzz ou révolution ? 
Grâce à des évolutions sociales et des innovations technologiques, le Big Data permet de 
généraliser l’approche Data-Driven à tous les métiers et tous les secteurs
5 
Démarche Data-Driven : l’AB Testing 
QUEL PAGE CONVERTIT LE MIEUX ?
6 
Démarche Data-Driven : l’AB Testing 
QUEL PAGE CONVERTIT LE MIEUX ? 
Principe de l’AB Testing : diffuser des pages différentes à des internautes de manière aléatoire et 
observer les taux de clics et de conversion 
8,26% 11,6% 
Variation de +40%, soit 2,8 millions d’inscriptions en plus
7 
Fondamentaux : les piliers du Big Data 
• Innovations technologiques 
– Objets connectés 
– Cloud computing 
– Data Science, DataViz 
• Evolutions sociales et culturelles 
– Partage d’informations personnelles 
– Quantified Self, VRM 
• Innovations d’usage et opportunités business 
– Acquisition, fidélisation de clients 
– Amélioration des processus 
– Développement du business model
8 
Illustration : le Real-Time Bidding 
RTB : Enchères en temps réel pour la diffusion de publicités display (exemple : publicités youtube) 
L’utilisateur se 
connecte sur 
un site 
Son profil est qualifié 
et scoré (Démographie, 
Comportement, Intention) 
La publicité de l’annonceur 
avec la meilleure enchère 
des diffusée 
L’espace publicitaire est mis aux enchères auprès d’annonceurs
9 
Définition des 3V 
Les 3V sont une grille de lecture établie en 2001 par le cabinet Gartner, qui fait 
référence pour analyser le passage à l’échelle Big Data. 
Volume : massification et automatisation des échanges de 
données 
Variété : multiplication des sources et des types de 
données 
Vélocité : nécessité de collecter et de traiter les données 
en temps-réel 
1 
2 
3 
Depuis, d’autres ont essayé d’approfondir le sujet, en incluant des éléments comme la Validité, 
la Véracité, la Valeur ou la Visibilité des data.
• Données des entreprises : les emails, les documents, les bases de données, tous les historiques de processus métiers (logs)… 
• Données en dehors des entreprises : bases de données externes (publiques ou fournisseurs de données), contenus échangés sur 
les réseaux sociaux ou publiés en ligne, les historiques de navigation et de recherche, les données transmises par les objets 
connectés 
Exemple : Avec l’avènement du smartphone, l’entreprise AT&T a vu ses coûts de stockage d’enregistrements tripler entre 2010 et 2013 
(géolocalisation, historique de recherche, données d’applications…) 
BIG DATA – ESILV – Septembre 2014 10 
3V : Le Volume 
A Quelques chiffres 
• 30 milliards de contenus ajoutés sur Facebook par mois, par plus de 600 millions d’utilisateurs actifs 
• Plus de 2 milliards de vidéos regardées sur Youtube chaque jour 
• En 2008, le nombre d’appareils connectés à Internet a dépassé le nombre d’humains 
• On estime que fin 2011, 20 foyers moyens généraient plus de trafic que la totalité des utilisateurs Internet en 2008 
• 80% des données ont été créées dans les 12 derniers mois 
B Types de données 
Infographie volume big data
BIG DATA – ESILV – Septembre 2014 11 
3V : la Variété 
A Variété des sources 
• Données internes de l’entreprise (CRM, tracking site web, logs…) 
• Données externes (OpenData, Météo, indicateurs économiques…) 
• Données comportementales clients (géolocalisation, réseaux sociaux, wearables…) 
• Données Machine-To-Machine 
B Variété des contenus 
• Données structurées : informations que l’on trouve dans les bases de données 
• Données semi-structurées : contenu composé d’éléments s’adressant à un humain à d’éléments s’adressant à 
une machine (emails, page web) 
• Données non-structurées : contenu ne comportant pas de “balises” structurées lisibles par une machine (pile de 
CVs, enregistrement audio, vidéo…) 
Exemple : la vision “à 360°” du consommateur
A Fast Data, la capacité de traiter de la donnée en mouvement 
BIG DATA – ESILV – Septembre 2014 12 
3V : la Vélocité 
• Grâce aux innovations dans les infrastructures d’échange et dans le domaine du traitement de données 
(Hadoop, MapReduce), la vitesse d’analyse des données à été multipliée 
• Combinés aux outils décisionnels nouvelle génération, ils permettent d’améliorer l’efficacité de l’entreprise grâce 
à l’optimisation en temps réel des activités marketing et des processus internes 
B Exemples d’utilisation 
• Gestion du risque financier (banques, fonds d’investissement) 
• Déclenchement d’actions marketing en temps réel (retargeting, Real-Time Bidding) 
• Optimisation de trajets et alertes sur les risques matériels 
• Smart Grid / Smart City / Smart Building
13 
Illustration des 3V : le programme de surveillance PRISM 
"The NSA has built an infrastructure that allows it to intercept 
almost everything. With this capability, the vast majority of human 
communications are automatically ingested without targeting…” 
E. Snowden
14 
Illustration des 3V : le programme de surveillance PRISM 
Volume 
• L’ensemble des communications (téléphone et web) transitant par les US sont archivées et stockées 
•PRISM intercepte et stocke 30 milliards de «Data Points » par mois dont environ 5Mds d’emails 
Des sources… …et des contenus… 
•Email 
•TélChat audio 
•Photos / Vidéos 
•Login/Mdp 
•Conversations tél 
•Géo-localisation 
•Réseaux sociaux 
•….. 
…pour analyser les 
comportements et 
détecter des risques 
potentiels 
Variété 
Vélocité 
• Couches d’analyse sémantiques et de meta-données en temps réel sur les périmètres considérés « à risque » 
• En cas d’alerte, possibilité de suivre en temps réel l’ensemble des communications et des déplacements d’une cible
15 
Big Data : exemples d’application 
Customer Cen A tric: Acquisition et fidélisation de clients 
• Casinos Harra’s : intervenir avant que les pertes des joueurs ne soient trop élevées 
• Netflix : algorithmes de recommandation 
• Wal-Mart : prédiction de la demande et optimisation des promotions 
B Process Centric : Amélioration de l’efficacité opérationnelle 
• Qantas Airways : maintenance prédictive grâce aux capteurs embarqués 
• IRS : détection des fraudes fiscales 
• UPS : prédiction de la demande et optimisation des trajets 
C Diversification du Business Model 
• Orange : revente de données géolocalisées 
• Monster.com : développement d’une expertise en analyse automatisée des CVs 
• DHL : vente d’indicateurs économiques
16 
4 innovations à l’origine de la vague Big Data 
• Les Objets Connectés et l’automatisation des échanges 
• Le Cloud Computing, Hadoop et NoSQL 
• Les Analytics Avancés 
• La DataViz
17 
Les Objets Connectés 
• Explosion du nombre d’objets communicants : 15 mds en 2014 - 80 mds en 2020 
• Catégories d’objets connectés : 
– Wearables / Quantified Self 
– Capteurs embarqués (machine-to-machine) 
– Domotique & Hi-Tech 
• Exemples d’usage : 
– Etihad Airways : maintenance prédictive (Taleris) 
– Optimisation des services et allocations des ressources publiques 
– Quantified Self : comprendre et maîtriser son comportement
18 
Le Cloud, Hadoop et le NoSQL 
• Le Cloud Computing permet aux entreprises d’externaliser le stockage et le calcul de 
données massives de manière flexible à très faible coût 
 Capacité à héberger, traiter et interroger les données 
 Scalabilité et flexibilité 
 Très bas coût généralement réparti entre stockage et 
requêtes 
- < 0,20 € par giga-octets par mois pour le stockage 
- < 0,05 € par giga-octet traité par requête 
 Interfaces simples et standardisées 
 Facilité d’intégration et déploiement rapide 
Amazon Web Service EC2 
Google Cloud Compute Engine 
IBM SmartCloud Enterprise 
Microsoft Windows Azure 
En croissance de 43,7% en 2013, le marché du 
Cloud devrait s’élever à 9 Mds € en 2014 * 
Une solution adaptée aux enjeux du BIG DATA
19 
Le Cloud, Hadoop et le NoSQL 
• MapReduce, Hadoop et le NoSQL sont en train de remplacer les systèmes de gestion de 
bases de données classiques (relationnelles) sur certaines activités 
• Hadoop : framework Java libre permettant de créer des applications distribuées et scalables. Basé sur un 
système de fichiers distribués (HDFS), conçu pour stocker de très gros volumes de données sur un grand 
nombre de machines. Intègre le patron d’architecture MapReduce dans lequels sont effectués les calculs 
parralèles 
– Distributions : Cloudera, HortonWorks, MapR Technologies 
• Le NoSQL (not only SQL) : systèmes de gestion de bases de données à faible structuration relationnelle basé 
sur un modèle clé-valeur, facilement scalable en multipliant les serveurs. 
– Produits : Cassandra (Twitter), BigTable (Google), Hbase (Facebook), MongoDB, Neo4j
20 
Les Analytics Avancés / Data Science 
Data Science : quelques techniques 
• Régression : analyse d’une variable en fonction de variables explicatives 
 Qualité du vin = 12.145 + 0.00117 x (précipitations Oct. à Mars) + 0.0614 x (temp. moy Avr. à Sept.) – 
0.00386 x (précipitations Août et Sept) (source) 
1 
• Clustering : groupements d’individus aux caractéristiques communes 
 Permet d’optimiser le ciblage et la personnalisation de l’offre (algorithmes de recommandation…) 
2 
3 
• Text Mining (ou Traitement Automatisé du Langage) 
 Exemple : analyse des commentaires web client chez Disneyland et au Puy du Fou 
• 4 
Design Expérimental : test d’hypothèses sur des groupes aléatoires
21 
La DataViz 
A Définition 
« L’ensemble des techniques de représentation graphique et d’exploration visuelle de données 
quantitatives permettant de traduire un ensemble de données brutes en information afin de faciliter la 
prise de décision » 
• Information interprétable : claire, quelque soit le volume, la nature ou la provenance des données 
• Pertinente : qui réponde à un objectif métier dans un contexte défini 
• Novatrice : qui fournisser une perspective différente qui permet de découvrir de nouvelles opportunités 
B Types de Visualisations 
• Les méthodes graphiques : diagrammes, cartes de chaleur, diagrammes de Mekko 
• Les Visualisations interactives : D3.js, HTML5 (Snake Oil, Metropolitain.io) 
• Les infographies
22 
La DataViz : preuve du concept 
A Le quarter d’Ascombe
23 
La DataViz : preuve du concept 
A Le quarter d’Ascombe
24 
Prochains cours 
1. Cours d’Introduction 
2. Applications du Big Data en Entreprise 
3. L’individu dans l’ère Big Data 
4. L’ubiquité des données
25 
Présentation de Data-Business.fr 
Vincent de Stoecklin 
 HEC Paris, Mines ParisTech 
 Fondateur Data-Business.fr 
 Capgemini Consulting 
COMPÉTENCES FONCTIONNELLES 
 Stratégie Big Data 
 Transformation digitale 
 Webmarketing & Growth Hacking 
 Data Science 
• 1er site Big Data / Analytics / Dataviz 
• Expertise Usages et Applications Big Data 
• Missions de conseil et formations 
• Communauté de Data Scientists 
www.data-business.fr
CONTACT 
vincent@data-business.fr 
06.72.48.39.84 
BIG DATA l ANALYTICS l DATAVIZ 
www.data-business.fr

Contenu connexe

Tendances

Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & SparkAlexia Audevart
 
TP1 Big Data - MapReduce
TP1 Big Data - MapReduceTP1 Big Data - MapReduce
TP1 Big Data - MapReduceAmal Abid
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceLilia Sfaxi
 
Introduction au big data
Introduction au big dataIntroduction au big data
Introduction au big dataAbdelghani Azri
 
BigData_TP3 : Spark
BigData_TP3 : SparkBigData_TP3 : Spark
BigData_TP3 : SparkLilia Sfaxi
 
Big Data... Big Analytics à travers les âges, les industries et les technologies
Big Data... Big Analytics à travers les âges, les industries et les technologiesBig Data... Big Analytics à travers les âges, les industries et les technologies
Big Data... Big Analytics à travers les âges, les industries et les technologiesHassan Lâasri
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkAmal Abid
 
Chp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleChp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleLilia Sfaxi
 
La Big Data et ses applications
La Big Data et ses applicationsLa Big Data et ses applications
La Big Data et ses applicationsAffinity Engine
 
BigData_Chp3: Data Processing
BigData_Chp3: Data ProcessingBigData_Chp3: Data Processing
BigData_Chp3: Data ProcessingLilia Sfaxi
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2Amal Abid
 
Introduction à la big data V2
Introduction à la big data V2Introduction à la big data V2
Introduction à la big data V2Mehdi TAZI
 
Présentation Big Data DFCG
Présentation Big Data DFCGPrésentation Big Data DFCG
Présentation Big Data DFCGMicropole Group
 
BigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopBigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopLilia Sfaxi
 

Tendances (20)

Big Data, Hadoop & Spark
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & Spark
 
Chapitre i-intro
Chapitre i-introChapitre i-intro
Chapitre i-intro
 
TP1 Big Data - MapReduce
TP1 Big Data - MapReduceTP1 Big Data - MapReduce
TP1 Big Data - MapReduce
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-Reduce
 
Introduction au big data
Introduction au big dataIntroduction au big data
Introduction au big data
 
BigData_TP3 : Spark
BigData_TP3 : SparkBigData_TP3 : Spark
BigData_TP3 : Spark
 
Big Data... Big Analytics à travers les âges, les industries et les technologies
Big Data... Big Analytics à travers les âges, les industries et les technologiesBig Data... Big Analytics à travers les âges, les industries et les technologies
Big Data... Big Analytics à travers les âges, les industries et les technologies
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - Spark
 
Big data
Big dataBig data
Big data
 
Data Mining
Data MiningData Mining
Data Mining
 
Chapitre 2 hadoop
Chapitre 2 hadoopChapitre 2 hadoop
Chapitre 2 hadoop
 
Etude sur le Big Data
Etude sur le Big DataEtude sur le Big Data
Etude sur le Big Data
 
Chp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleChp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique Décisionnelle
 
La Big Data et ses applications
La Big Data et ses applicationsLa Big Data et ses applications
La Big Data et ses applications
 
Cours Big Data Part I
Cours Big Data Part ICours Big Data Part I
Cours Big Data Part I
 
BigData_Chp3: Data Processing
BigData_Chp3: Data ProcessingBigData_Chp3: Data Processing
BigData_Chp3: Data Processing
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2
 
Introduction à la big data V2
Introduction à la big data V2Introduction à la big data V2
Introduction à la big data V2
 
Présentation Big Data DFCG
Présentation Big Data DFCGPrésentation Big Data DFCG
Présentation Big Data DFCG
 
BigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopBigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans Hadoop
 

En vedette

Valtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech
 
The Truth Behind The Greatest Assassinations In American
The Truth Behind The Greatest Assassinations In AmericanThe Truth Behind The Greatest Assassinations In American
The Truth Behind The Greatest Assassinations In Americanguest25e0a66
 
Filmindustry 131019052154-phpapp01 ir n
Filmindustry 131019052154-phpapp01 ir nFilmindustry 131019052154-phpapp01 ir n
Filmindustry 131019052154-phpapp01 ir nhaverstockmedia
 
Crm Analytique vision et convictions
Crm Analytique vision et convictionsCrm Analytique vision et convictions
Crm Analytique vision et convictionsSoft Computing
 
Conférence Big Data HEC Paris 2015
Conférence Big Data HEC Paris 2015Conférence Big Data HEC Paris 2015
Conférence Big Data HEC Paris 2015Francois Cazals
 
Memoire recherche
Memoire rechercheMemoire recherche
Memoire recherchetmauriac
 
Mémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociauxMémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociauxChloé Marty
 
Introduction to Apache Pig
Introduction to Apache PigIntroduction to Apache Pig
Introduction to Apache PigJason Shao
 
Big data et marketing :Vers une analyse prédictif de d'acte d'achat
Big data et marketing :Vers une analyse prédictif de d'acte d'achatBig data et marketing :Vers une analyse prédictif de d'acte d'achat
Big data et marketing :Vers une analyse prédictif de d'acte d'achatfifi75
 
Mieux exploiter ses données pour augmenter ses ventes avec microsoft data mining
Mieux exploiter ses données pour augmenter ses ventes avec microsoft data miningMieux exploiter ses données pour augmenter ses ventes avec microsoft data mining
Mieux exploiter ses données pour augmenter ses ventes avec microsoft data miningGaël Duhamel
 
Présentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopPrésentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopJoseph Glorieux
 
NoSql : conception des schémas, requêtage, et optimisation
NoSql : conception des schémas, requêtage, et optimisationNoSql : conception des schémas, requêtage, et optimisation
NoSql : conception des schémas, requêtage, et optimisationMicrosoft Technet France
 
Big Data Analytics for connected home
Big Data Analytics for connected homeBig Data Analytics for connected home
Big Data Analytics for connected homeHéloïse Nonne
 
Bases de données NoSQL
Bases de données NoSQLBases de données NoSQL
Bases de données NoSQLSamy Dindane
 

En vedette (20)

Un introduction à Pig
Un introduction à PigUn introduction à Pig
Un introduction à Pig
 
Une introduction à Hive
Une introduction à HiveUne introduction à Hive
Une introduction à Hive
 
Valtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entreprise
 
The Truth Behind The Greatest Assassinations In American
The Truth Behind The Greatest Assassinations In AmericanThe Truth Behind The Greatest Assassinations In American
The Truth Behind The Greatest Assassinations In American
 
Filmindustry 131019052154-phpapp01 ir n
Filmindustry 131019052154-phpapp01 ir nFilmindustry 131019052154-phpapp01 ir n
Filmindustry 131019052154-phpapp01 ir n
 
Crm Analytique vision et convictions
Crm Analytique vision et convictionsCrm Analytique vision et convictions
Crm Analytique vision et convictions
 
I love BIG DATA
I love BIG DATAI love BIG DATA
I love BIG DATA
 
Conférence Big Data HEC Paris 2015
Conférence Big Data HEC Paris 2015Conférence Big Data HEC Paris 2015
Conférence Big Data HEC Paris 2015
 
Memoire recherche
Memoire rechercheMemoire recherche
Memoire recherche
 
Mémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociauxMémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociaux
 
Hive ppt (1)
Hive ppt (1)Hive ppt (1)
Hive ppt (1)
 
Introduction to Pig
Introduction to PigIntroduction to Pig
Introduction to Pig
 
Introduction to Apache Pig
Introduction to Apache PigIntroduction to Apache Pig
Introduction to Apache Pig
 
Big data et marketing :Vers une analyse prédictif de d'acte d'achat
Big data et marketing :Vers une analyse prédictif de d'acte d'achatBig data et marketing :Vers une analyse prédictif de d'acte d'achat
Big data et marketing :Vers une analyse prédictif de d'acte d'achat
 
Mieux exploiter ses données pour augmenter ses ventes avec microsoft data mining
Mieux exploiter ses données pour augmenter ses ventes avec microsoft data miningMieux exploiter ses données pour augmenter ses ventes avec microsoft data mining
Mieux exploiter ses données pour augmenter ses ventes avec microsoft data mining
 
Présentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopPrésentation Big Data et REX Hadoop
Présentation Big Data et REX Hadoop
 
Une introduction à MapReduce
Une introduction à MapReduceUne introduction à MapReduce
Une introduction à MapReduce
 
NoSql : conception des schémas, requêtage, et optimisation
NoSql : conception des schémas, requêtage, et optimisationNoSql : conception des schémas, requêtage, et optimisation
NoSql : conception des schémas, requêtage, et optimisation
 
Big Data Analytics for connected home
Big Data Analytics for connected homeBig Data Analytics for connected home
Big Data Analytics for connected home
 
Bases de données NoSQL
Bases de données NoSQLBases de données NoSQL
Bases de données NoSQL
 

Similaire à Big data - Cours d'introduction l Data-business

Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel businessMouhsine LAKHDISSI
 
Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013ADBS
 
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015IBM France Lab
 
Big data et marketing digital
Big data et marketing digital Big data et marketing digital
Big data et marketing digital Hamza Sossey
 
Livre Blanc ALTARES: La Data, nouveau disrupteur du business model des entrep...
Livre Blanc ALTARES: La Data, nouveau disrupteur du business model des entrep...Livre Blanc ALTARES: La Data, nouveau disrupteur du business model des entrep...
Livre Blanc ALTARES: La Data, nouveau disrupteur du business model des entrep...Altares D&B
 
BigData & Cloud @ Excelerate Systems France
BigData & Cloud @ Excelerate Systems FranceBigData & Cloud @ Excelerate Systems France
BigData & Cloud @ Excelerate Systems FranceExcelerate Systems
 
Big data-2-170220212621
Big data-2-170220212621Big data-2-170220212621
Big data-2-170220212621Haifa Akermi
 
Big Data: quelle valeur pour l'entreprise
Big Data: quelle valeur pour l'entrepriseBig Data: quelle valeur pour l'entreprise
Big Data: quelle valeur pour l'entrepriseGenève Lab
 
#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big Data#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big DataNetSecure Day
 
La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 OCTO Technology
 
Présentation-Analyse-données-aide-décision-Apicube-Metro'num2015
Présentation-Analyse-données-aide-décision-Apicube-Metro'num2015Présentation-Analyse-données-aide-décision-Apicube-Metro'num2015
Présentation-Analyse-données-aide-décision-Apicube-Metro'num2015Metro'num 2015
 
Analyse-données-aide-à-la-décision-apicube-metro'num2015
Analyse-données-aide-à-la-décision-apicube-metro'num2015Analyse-données-aide-à-la-décision-apicube-metro'num2015
Analyse-données-aide-à-la-décision-apicube-metro'num2015Metro'num 2015
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Denodo
 
Etude Apec - Les métiers de la data
Etude Apec - Les métiers de la dataEtude Apec - Les métiers de la data
Etude Apec - Les métiers de la dataApec
 
3 minutes pour comprendre ... le Big Data
3 minutes pour comprendre ... le Big Data3 minutes pour comprendre ... le Big Data
3 minutes pour comprendre ... le Big DataAlain KHEMILI
 

Similaire à Big data - Cours d'introduction l Data-business (20)

Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel business
 
Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013
 
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
 
Big data et marketing digital
Big data et marketing digital Big data et marketing digital
Big data et marketing digital
 
Livre Blanc ALTARES: La Data, nouveau disrupteur du business model des entrep...
Livre Blanc ALTARES: La Data, nouveau disrupteur du business model des entrep...Livre Blanc ALTARES: La Data, nouveau disrupteur du business model des entrep...
Livre Blanc ALTARES: La Data, nouveau disrupteur du business model des entrep...
 
Parcours Big Data @ Cetic (6 mai 2014)
Parcours Big Data @ Cetic (6 mai 2014)Parcours Big Data @ Cetic (6 mai 2014)
Parcours Big Data @ Cetic (6 mai 2014)
 
BigData & Cloud @ Excelerate Systems France
BigData & Cloud @ Excelerate Systems FranceBigData & Cloud @ Excelerate Systems France
BigData & Cloud @ Excelerate Systems France
 
BigData BigBuzz @ Le Node
BigData BigBuzz @ Le Node BigData BigBuzz @ Le Node
BigData BigBuzz @ Le Node
 
Introduction au Big data
Introduction au Big data Introduction au Big data
Introduction au Big data
 
Big data-2-170220212621
Big data-2-170220212621Big data-2-170220212621
Big data-2-170220212621
 
Big Data: quelle valeur pour l'entreprise
Big Data: quelle valeur pour l'entrepriseBig Data: quelle valeur pour l'entreprise
Big Data: quelle valeur pour l'entreprise
 
#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big Data#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big Data
 
La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4
 
Présentation-Analyse-données-aide-décision-Apicube-Metro'num2015
Présentation-Analyse-données-aide-décision-Apicube-Metro'num2015Présentation-Analyse-données-aide-décision-Apicube-Metro'num2015
Présentation-Analyse-données-aide-décision-Apicube-Metro'num2015
 
Analyse-données-aide-à-la-décision-apicube-metro'num2015
Analyse-données-aide-à-la-décision-apicube-metro'num2015Analyse-données-aide-à-la-décision-apicube-metro'num2015
Analyse-données-aide-à-la-décision-apicube-metro'num2015
 
L’entreprise en ligne
L’entreprise en ligneL’entreprise en ligne
L’entreprise en ligne
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
 
Etude Apec - Les métiers de la data
Etude Apec - Les métiers de la dataEtude Apec - Les métiers de la data
Etude Apec - Les métiers de la data
 
3 minutes pour comprendre ... le Big Data
3 minutes pour comprendre ... le Big Data3 minutes pour comprendre ... le Big Data
3 minutes pour comprendre ... le Big Data
 
Conférence big data
Conférence big dataConférence big data
Conférence big data
 

Big data - Cours d'introduction l Data-business

  • 1. DataViz BIG DATA Cours d’Introduction Big Data l Analytics l BIG DATA l ANALYTICS l DATAVIZ www.data-business.fr
  • 2. 2 “Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it...” Dan Ariely
  • 3. Sommaire Big Data : Définition 2 Explication des 3V : Volume, Variété, Vélocité Quelques exemples d’application 3 4 Les technologies derrière le Big Data 1 Copyright © Data-Business.fr. 3
  • 4. 4 Pourquoi BIG Data ? L’historique du Big Data • 1951 : LEO, le premier ordinateur d’entreprise • Quelques exemples connus de Data-Mining • Les origines du Big Data dans la médecine génomique • Google et Yahoo : pionniers technologiques • The Economist : the Data Deluge • L’étude McKinsey : Big Data for Business Alors, buzz ou révolution ? Grâce à des évolutions sociales et des innovations technologiques, le Big Data permet de généraliser l’approche Data-Driven à tous les métiers et tous les secteurs
  • 5. 5 Démarche Data-Driven : l’AB Testing QUEL PAGE CONVERTIT LE MIEUX ?
  • 6. 6 Démarche Data-Driven : l’AB Testing QUEL PAGE CONVERTIT LE MIEUX ? Principe de l’AB Testing : diffuser des pages différentes à des internautes de manière aléatoire et observer les taux de clics et de conversion 8,26% 11,6% Variation de +40%, soit 2,8 millions d’inscriptions en plus
  • 7. 7 Fondamentaux : les piliers du Big Data • Innovations technologiques – Objets connectés – Cloud computing – Data Science, DataViz • Evolutions sociales et culturelles – Partage d’informations personnelles – Quantified Self, VRM • Innovations d’usage et opportunités business – Acquisition, fidélisation de clients – Amélioration des processus – Développement du business model
  • 8. 8 Illustration : le Real-Time Bidding RTB : Enchères en temps réel pour la diffusion de publicités display (exemple : publicités youtube) L’utilisateur se connecte sur un site Son profil est qualifié et scoré (Démographie, Comportement, Intention) La publicité de l’annonceur avec la meilleure enchère des diffusée L’espace publicitaire est mis aux enchères auprès d’annonceurs
  • 9. 9 Définition des 3V Les 3V sont une grille de lecture établie en 2001 par le cabinet Gartner, qui fait référence pour analyser le passage à l’échelle Big Data. Volume : massification et automatisation des échanges de données Variété : multiplication des sources et des types de données Vélocité : nécessité de collecter et de traiter les données en temps-réel 1 2 3 Depuis, d’autres ont essayé d’approfondir le sujet, en incluant des éléments comme la Validité, la Véracité, la Valeur ou la Visibilité des data.
  • 10. • Données des entreprises : les emails, les documents, les bases de données, tous les historiques de processus métiers (logs)… • Données en dehors des entreprises : bases de données externes (publiques ou fournisseurs de données), contenus échangés sur les réseaux sociaux ou publiés en ligne, les historiques de navigation et de recherche, les données transmises par les objets connectés Exemple : Avec l’avènement du smartphone, l’entreprise AT&T a vu ses coûts de stockage d’enregistrements tripler entre 2010 et 2013 (géolocalisation, historique de recherche, données d’applications…) BIG DATA – ESILV – Septembre 2014 10 3V : Le Volume A Quelques chiffres • 30 milliards de contenus ajoutés sur Facebook par mois, par plus de 600 millions d’utilisateurs actifs • Plus de 2 milliards de vidéos regardées sur Youtube chaque jour • En 2008, le nombre d’appareils connectés à Internet a dépassé le nombre d’humains • On estime que fin 2011, 20 foyers moyens généraient plus de trafic que la totalité des utilisateurs Internet en 2008 • 80% des données ont été créées dans les 12 derniers mois B Types de données Infographie volume big data
  • 11. BIG DATA – ESILV – Septembre 2014 11 3V : la Variété A Variété des sources • Données internes de l’entreprise (CRM, tracking site web, logs…) • Données externes (OpenData, Météo, indicateurs économiques…) • Données comportementales clients (géolocalisation, réseaux sociaux, wearables…) • Données Machine-To-Machine B Variété des contenus • Données structurées : informations que l’on trouve dans les bases de données • Données semi-structurées : contenu composé d’éléments s’adressant à un humain à d’éléments s’adressant à une machine (emails, page web) • Données non-structurées : contenu ne comportant pas de “balises” structurées lisibles par une machine (pile de CVs, enregistrement audio, vidéo…) Exemple : la vision “à 360°” du consommateur
  • 12. A Fast Data, la capacité de traiter de la donnée en mouvement BIG DATA – ESILV – Septembre 2014 12 3V : la Vélocité • Grâce aux innovations dans les infrastructures d’échange et dans le domaine du traitement de données (Hadoop, MapReduce), la vitesse d’analyse des données à été multipliée • Combinés aux outils décisionnels nouvelle génération, ils permettent d’améliorer l’efficacité de l’entreprise grâce à l’optimisation en temps réel des activités marketing et des processus internes B Exemples d’utilisation • Gestion du risque financier (banques, fonds d’investissement) • Déclenchement d’actions marketing en temps réel (retargeting, Real-Time Bidding) • Optimisation de trajets et alertes sur les risques matériels • Smart Grid / Smart City / Smart Building
  • 13. 13 Illustration des 3V : le programme de surveillance PRISM "The NSA has built an infrastructure that allows it to intercept almost everything. With this capability, the vast majority of human communications are automatically ingested without targeting…” E. Snowden
  • 14. 14 Illustration des 3V : le programme de surveillance PRISM Volume • L’ensemble des communications (téléphone et web) transitant par les US sont archivées et stockées •PRISM intercepte et stocke 30 milliards de «Data Points » par mois dont environ 5Mds d’emails Des sources… …et des contenus… •Email •TélChat audio •Photos / Vidéos •Login/Mdp •Conversations tél •Géo-localisation •Réseaux sociaux •….. …pour analyser les comportements et détecter des risques potentiels Variété Vélocité • Couches d’analyse sémantiques et de meta-données en temps réel sur les périmètres considérés « à risque » • En cas d’alerte, possibilité de suivre en temps réel l’ensemble des communications et des déplacements d’une cible
  • 15. 15 Big Data : exemples d’application Customer Cen A tric: Acquisition et fidélisation de clients • Casinos Harra’s : intervenir avant que les pertes des joueurs ne soient trop élevées • Netflix : algorithmes de recommandation • Wal-Mart : prédiction de la demande et optimisation des promotions B Process Centric : Amélioration de l’efficacité opérationnelle • Qantas Airways : maintenance prédictive grâce aux capteurs embarqués • IRS : détection des fraudes fiscales • UPS : prédiction de la demande et optimisation des trajets C Diversification du Business Model • Orange : revente de données géolocalisées • Monster.com : développement d’une expertise en analyse automatisée des CVs • DHL : vente d’indicateurs économiques
  • 16. 16 4 innovations à l’origine de la vague Big Data • Les Objets Connectés et l’automatisation des échanges • Le Cloud Computing, Hadoop et NoSQL • Les Analytics Avancés • La DataViz
  • 17. 17 Les Objets Connectés • Explosion du nombre d’objets communicants : 15 mds en 2014 - 80 mds en 2020 • Catégories d’objets connectés : – Wearables / Quantified Self – Capteurs embarqués (machine-to-machine) – Domotique & Hi-Tech • Exemples d’usage : – Etihad Airways : maintenance prédictive (Taleris) – Optimisation des services et allocations des ressources publiques – Quantified Self : comprendre et maîtriser son comportement
  • 18. 18 Le Cloud, Hadoop et le NoSQL • Le Cloud Computing permet aux entreprises d’externaliser le stockage et le calcul de données massives de manière flexible à très faible coût  Capacité à héberger, traiter et interroger les données  Scalabilité et flexibilité  Très bas coût généralement réparti entre stockage et requêtes - < 0,20 € par giga-octets par mois pour le stockage - < 0,05 € par giga-octet traité par requête  Interfaces simples et standardisées  Facilité d’intégration et déploiement rapide Amazon Web Service EC2 Google Cloud Compute Engine IBM SmartCloud Enterprise Microsoft Windows Azure En croissance de 43,7% en 2013, le marché du Cloud devrait s’élever à 9 Mds € en 2014 * Une solution adaptée aux enjeux du BIG DATA
  • 19. 19 Le Cloud, Hadoop et le NoSQL • MapReduce, Hadoop et le NoSQL sont en train de remplacer les systèmes de gestion de bases de données classiques (relationnelles) sur certaines activités • Hadoop : framework Java libre permettant de créer des applications distribuées et scalables. Basé sur un système de fichiers distribués (HDFS), conçu pour stocker de très gros volumes de données sur un grand nombre de machines. Intègre le patron d’architecture MapReduce dans lequels sont effectués les calculs parralèles – Distributions : Cloudera, HortonWorks, MapR Technologies • Le NoSQL (not only SQL) : systèmes de gestion de bases de données à faible structuration relationnelle basé sur un modèle clé-valeur, facilement scalable en multipliant les serveurs. – Produits : Cassandra (Twitter), BigTable (Google), Hbase (Facebook), MongoDB, Neo4j
  • 20. 20 Les Analytics Avancés / Data Science Data Science : quelques techniques • Régression : analyse d’une variable en fonction de variables explicatives  Qualité du vin = 12.145 + 0.00117 x (précipitations Oct. à Mars) + 0.0614 x (temp. moy Avr. à Sept.) – 0.00386 x (précipitations Août et Sept) (source) 1 • Clustering : groupements d’individus aux caractéristiques communes  Permet d’optimiser le ciblage et la personnalisation de l’offre (algorithmes de recommandation…) 2 3 • Text Mining (ou Traitement Automatisé du Langage)  Exemple : analyse des commentaires web client chez Disneyland et au Puy du Fou • 4 Design Expérimental : test d’hypothèses sur des groupes aléatoires
  • 21. 21 La DataViz A Définition « L’ensemble des techniques de représentation graphique et d’exploration visuelle de données quantitatives permettant de traduire un ensemble de données brutes en information afin de faciliter la prise de décision » • Information interprétable : claire, quelque soit le volume, la nature ou la provenance des données • Pertinente : qui réponde à un objectif métier dans un contexte défini • Novatrice : qui fournisser une perspective différente qui permet de découvrir de nouvelles opportunités B Types de Visualisations • Les méthodes graphiques : diagrammes, cartes de chaleur, diagrammes de Mekko • Les Visualisations interactives : D3.js, HTML5 (Snake Oil, Metropolitain.io) • Les infographies
  • 22. 22 La DataViz : preuve du concept A Le quarter d’Ascombe
  • 23. 23 La DataViz : preuve du concept A Le quarter d’Ascombe
  • 24. 24 Prochains cours 1. Cours d’Introduction 2. Applications du Big Data en Entreprise 3. L’individu dans l’ère Big Data 4. L’ubiquité des données
  • 25. 25 Présentation de Data-Business.fr Vincent de Stoecklin  HEC Paris, Mines ParisTech  Fondateur Data-Business.fr  Capgemini Consulting COMPÉTENCES FONCTIONNELLES  Stratégie Big Data  Transformation digitale  Webmarketing & Growth Hacking  Data Science • 1er site Big Data / Analytics / Dataviz • Expertise Usages et Applications Big Data • Missions de conseil et formations • Communauté de Data Scientists www.data-business.fr
  • 26. CONTACT vincent@data-business.fr 06.72.48.39.84 BIG DATA l ANALYTICS l DATAVIZ www.data-business.fr

Notes de l'éditeur

  1. AT&T : 100M consommateurs Légalement tenue de garder un enregistrement quotidien EN 2010, elle avait 193 000 enregistrements Entre 2010 et 2013, avec la localisation, historique de navigation, données d’applis, ses coûts de stockage on triplé
  2. http://www.informationisbeautiful.net/play/snake-oil-supplements/