Big data - Cours d'introduction l Data-business

Vincent de Stoecklin
Vincent de StoecklinPartnerships @ Dataiku à Dataiku
DataViz BIG DATA 
Cours d’Introduction 
Big Data l Analytics l 
BIG DATA l ANALYTICS l DATAVIZ 
www.data-business.fr
2 
“Big data is like teenage sex: everyone talks about it, nobody 
really knows how to do it, everyone thinks everyone else is doing 
it, so everyone claims they are doing it...” 
Dan Ariely
Sommaire 
Big Data : Définition 
2 Explication des 3V : Volume, Variété, Vélocité 
Quelques exemples d’application 
3 
4 Les technologies derrière le Big Data 
1 
Copyright © Data-Business.fr. 3
4 
Pourquoi BIG Data ? 
L’historique du Big Data 
• 1951 : LEO, le premier ordinateur d’entreprise 
• Quelques exemples connus de Data-Mining 
• Les origines du Big Data dans la médecine génomique 
• Google et Yahoo : pionniers technologiques 
• The Economist : the Data Deluge 
• L’étude McKinsey : Big Data for Business 
Alors, buzz ou révolution ? 
Grâce à des évolutions sociales et des innovations technologiques, le Big Data permet de 
généraliser l’approche Data-Driven à tous les métiers et tous les secteurs
5 
Démarche Data-Driven : l’AB Testing 
QUEL PAGE CONVERTIT LE MIEUX ?
6 
Démarche Data-Driven : l’AB Testing 
QUEL PAGE CONVERTIT LE MIEUX ? 
Principe de l’AB Testing : diffuser des pages différentes à des internautes de manière aléatoire et 
observer les taux de clics et de conversion 
8,26% 11,6% 
Variation de +40%, soit 2,8 millions d’inscriptions en plus
7 
Fondamentaux : les piliers du Big Data 
• Innovations technologiques 
– Objets connectés 
– Cloud computing 
– Data Science, DataViz 
• Evolutions sociales et culturelles 
– Partage d’informations personnelles 
– Quantified Self, VRM 
• Innovations d’usage et opportunités business 
– Acquisition, fidélisation de clients 
– Amélioration des processus 
– Développement du business model
8 
Illustration : le Real-Time Bidding 
RTB : Enchères en temps réel pour la diffusion de publicités display (exemple : publicités youtube) 
L’utilisateur se 
connecte sur 
un site 
Son profil est qualifié 
et scoré (Démographie, 
Comportement, Intention) 
La publicité de l’annonceur 
avec la meilleure enchère 
des diffusée 
L’espace publicitaire est mis aux enchères auprès d’annonceurs
9 
Définition des 3V 
Les 3V sont une grille de lecture établie en 2001 par le cabinet Gartner, qui fait 
référence pour analyser le passage à l’échelle Big Data. 
Volume : massification et automatisation des échanges de 
données 
Variété : multiplication des sources et des types de 
données 
Vélocité : nécessité de collecter et de traiter les données 
en temps-réel 
1 
2 
3 
Depuis, d’autres ont essayé d’approfondir le sujet, en incluant des éléments comme la Validité, 
la Véracité, la Valeur ou la Visibilité des data.
• Données des entreprises : les emails, les documents, les bases de données, tous les historiques de processus métiers (logs)… 
• Données en dehors des entreprises : bases de données externes (publiques ou fournisseurs de données), contenus échangés sur 
les réseaux sociaux ou publiés en ligne, les historiques de navigation et de recherche, les données transmises par les objets 
connectés 
Exemple : Avec l’avènement du smartphone, l’entreprise AT&T a vu ses coûts de stockage d’enregistrements tripler entre 2010 et 2013 
(géolocalisation, historique de recherche, données d’applications…) 
BIG DATA – ESILV – Septembre 2014 10 
3V : Le Volume 
A Quelques chiffres 
• 30 milliards de contenus ajoutés sur Facebook par mois, par plus de 600 millions d’utilisateurs actifs 
• Plus de 2 milliards de vidéos regardées sur Youtube chaque jour 
• En 2008, le nombre d’appareils connectés à Internet a dépassé le nombre d’humains 
• On estime que fin 2011, 20 foyers moyens généraient plus de trafic que la totalité des utilisateurs Internet en 2008 
• 80% des données ont été créées dans les 12 derniers mois 
B Types de données 
Infographie volume big data
BIG DATA – ESILV – Septembre 2014 11 
3V : la Variété 
A Variété des sources 
• Données internes de l’entreprise (CRM, tracking site web, logs…) 
• Données externes (OpenData, Météo, indicateurs économiques…) 
• Données comportementales clients (géolocalisation, réseaux sociaux, wearables…) 
• Données Machine-To-Machine 
B Variété des contenus 
• Données structurées : informations que l’on trouve dans les bases de données 
• Données semi-structurées : contenu composé d’éléments s’adressant à un humain à d’éléments s’adressant à 
une machine (emails, page web) 
• Données non-structurées : contenu ne comportant pas de “balises” structurées lisibles par une machine (pile de 
CVs, enregistrement audio, vidéo…) 
Exemple : la vision “à 360°” du consommateur
A Fast Data, la capacité de traiter de la donnée en mouvement 
BIG DATA – ESILV – Septembre 2014 12 
3V : la Vélocité 
• Grâce aux innovations dans les infrastructures d’échange et dans le domaine du traitement de données 
(Hadoop, MapReduce), la vitesse d’analyse des données à été multipliée 
• Combinés aux outils décisionnels nouvelle génération, ils permettent d’améliorer l’efficacité de l’entreprise grâce 
à l’optimisation en temps réel des activités marketing et des processus internes 
B Exemples d’utilisation 
• Gestion du risque financier (banques, fonds d’investissement) 
• Déclenchement d’actions marketing en temps réel (retargeting, Real-Time Bidding) 
• Optimisation de trajets et alertes sur les risques matériels 
• Smart Grid / Smart City / Smart Building
13 
Illustration des 3V : le programme de surveillance PRISM 
"The NSA has built an infrastructure that allows it to intercept 
almost everything. With this capability, the vast majority of human 
communications are automatically ingested without targeting…” 
E. Snowden
14 
Illustration des 3V : le programme de surveillance PRISM 
Volume 
• L’ensemble des communications (téléphone et web) transitant par les US sont archivées et stockées 
•PRISM intercepte et stocke 30 milliards de «Data Points » par mois dont environ 5Mds d’emails 
Des sources… …et des contenus… 
•Email 
•TélChat audio 
•Photos / Vidéos 
•Login/Mdp 
•Conversations tél 
•Géo-localisation 
•Réseaux sociaux 
•….. 
…pour analyser les 
comportements et 
détecter des risques 
potentiels 
Variété 
Vélocité 
• Couches d’analyse sémantiques et de meta-données en temps réel sur les périmètres considérés « à risque » 
• En cas d’alerte, possibilité de suivre en temps réel l’ensemble des communications et des déplacements d’une cible
15 
Big Data : exemples d’application 
Customer Cen A tric: Acquisition et fidélisation de clients 
• Casinos Harra’s : intervenir avant que les pertes des joueurs ne soient trop élevées 
• Netflix : algorithmes de recommandation 
• Wal-Mart : prédiction de la demande et optimisation des promotions 
B Process Centric : Amélioration de l’efficacité opérationnelle 
• Qantas Airways : maintenance prédictive grâce aux capteurs embarqués 
• IRS : détection des fraudes fiscales 
• UPS : prédiction de la demande et optimisation des trajets 
C Diversification du Business Model 
• Orange : revente de données géolocalisées 
• Monster.com : développement d’une expertise en analyse automatisée des CVs 
• DHL : vente d’indicateurs économiques
16 
4 innovations à l’origine de la vague Big Data 
• Les Objets Connectés et l’automatisation des échanges 
• Le Cloud Computing, Hadoop et NoSQL 
• Les Analytics Avancés 
• La DataViz
17 
Les Objets Connectés 
• Explosion du nombre d’objets communicants : 15 mds en 2014 - 80 mds en 2020 
• Catégories d’objets connectés : 
– Wearables / Quantified Self 
– Capteurs embarqués (machine-to-machine) 
– Domotique & Hi-Tech 
• Exemples d’usage : 
– Etihad Airways : maintenance prédictive (Taleris) 
– Optimisation des services et allocations des ressources publiques 
– Quantified Self : comprendre et maîtriser son comportement
18 
Le Cloud, Hadoop et le NoSQL 
• Le Cloud Computing permet aux entreprises d’externaliser le stockage et le calcul de 
données massives de manière flexible à très faible coût 
 Capacité à héberger, traiter et interroger les données 
 Scalabilité et flexibilité 
 Très bas coût généralement réparti entre stockage et 
requêtes 
- < 0,20 € par giga-octets par mois pour le stockage 
- < 0,05 € par giga-octet traité par requête 
 Interfaces simples et standardisées 
 Facilité d’intégration et déploiement rapide 
Amazon Web Service EC2 
Google Cloud Compute Engine 
IBM SmartCloud Enterprise 
Microsoft Windows Azure 
En croissance de 43,7% en 2013, le marché du 
Cloud devrait s’élever à 9 Mds € en 2014 * 
Une solution adaptée aux enjeux du BIG DATA
19 
Le Cloud, Hadoop et le NoSQL 
• MapReduce, Hadoop et le NoSQL sont en train de remplacer les systèmes de gestion de 
bases de données classiques (relationnelles) sur certaines activités 
• Hadoop : framework Java libre permettant de créer des applications distribuées et scalables. Basé sur un 
système de fichiers distribués (HDFS), conçu pour stocker de très gros volumes de données sur un grand 
nombre de machines. Intègre le patron d’architecture MapReduce dans lequels sont effectués les calculs 
parralèles 
– Distributions : Cloudera, HortonWorks, MapR Technologies 
• Le NoSQL (not only SQL) : systèmes de gestion de bases de données à faible structuration relationnelle basé 
sur un modèle clé-valeur, facilement scalable en multipliant les serveurs. 
– Produits : Cassandra (Twitter), BigTable (Google), Hbase (Facebook), MongoDB, Neo4j
20 
Les Analytics Avancés / Data Science 
Data Science : quelques techniques 
• Régression : analyse d’une variable en fonction de variables explicatives 
 Qualité du vin = 12.145 + 0.00117 x (précipitations Oct. à Mars) + 0.0614 x (temp. moy Avr. à Sept.) – 
0.00386 x (précipitations Août et Sept) (source) 
1 
• Clustering : groupements d’individus aux caractéristiques communes 
 Permet d’optimiser le ciblage et la personnalisation de l’offre (algorithmes de recommandation…) 
2 
3 
• Text Mining (ou Traitement Automatisé du Langage) 
 Exemple : analyse des commentaires web client chez Disneyland et au Puy du Fou 
• 4 
Design Expérimental : test d’hypothèses sur des groupes aléatoires
21 
La DataViz 
A Définition 
« L’ensemble des techniques de représentation graphique et d’exploration visuelle de données 
quantitatives permettant de traduire un ensemble de données brutes en information afin de faciliter la 
prise de décision » 
• Information interprétable : claire, quelque soit le volume, la nature ou la provenance des données 
• Pertinente : qui réponde à un objectif métier dans un contexte défini 
• Novatrice : qui fournisser une perspective différente qui permet de découvrir de nouvelles opportunités 
B Types de Visualisations 
• Les méthodes graphiques : diagrammes, cartes de chaleur, diagrammes de Mekko 
• Les Visualisations interactives : D3.js, HTML5 (Snake Oil, Metropolitain.io) 
• Les infographies
22 
La DataViz : preuve du concept 
A Le quarter d’Ascombe
23 
La DataViz : preuve du concept 
A Le quarter d’Ascombe
24 
Prochains cours 
1. Cours d’Introduction 
2. Applications du Big Data en Entreprise 
3. L’individu dans l’ère Big Data 
4. L’ubiquité des données
25 
Présentation de Data-Business.fr 
Vincent de Stoecklin 
 HEC Paris, Mines ParisTech 
 Fondateur Data-Business.fr 
 Capgemini Consulting 
COMPÉTENCES FONCTIONNELLES 
 Stratégie Big Data 
 Transformation digitale 
 Webmarketing & Growth Hacking 
 Data Science 
• 1er site Big Data / Analytics / Dataviz 
• Expertise Usages et Applications Big Data 
• Missions de conseil et formations 
• Communauté de Data Scientists 
www.data-business.fr
CONTACT 
vincent@data-business.fr 
06.72.48.39.84 
BIG DATA l ANALYTICS l DATAVIZ 
www.data-business.fr
1 sur 26

Recommandé

Big data par
Big dataBig data
Big dataMarwoua Ben Salem
2.1K vues33 diapositives
Introduction au BIG DATA par
Introduction au BIG DATAIntroduction au BIG DATA
Introduction au BIG DATAZakariyaa AIT ELMOUDEN
5.3K vues26 diapositives
Technologies pour le Big Data par
Technologies pour le Big DataTechnologies pour le Big Data
Technologies pour le Big DataMinyar Sassi Hidri
10.1K vues228 diapositives
Big data par
Big dataBig data
Big dataYosra ADDALI
2.8K vues30 diapositives
Chapitre1 introduction par
Chapitre1 introductionChapitre1 introduction
Chapitre1 introductionMouna Torjmen
641 vues33 diapositives
Cours Big Data Chap1 par
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1Amal Abid
15.6K vues52 diapositives

Contenu connexe

Tendances

Big Data : concepts, cas d'usage et tendances par
Big Data : concepts, cas d'usage et tendancesBig Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendancesJean-Michel Franco
24.7K vues42 diapositives
Etat de l’art approche et outils BI par
Etat de l’art approche et outils BIEtat de l’art approche et outils BI
Etat de l’art approche et outils BISaid Sadik
9.2K vues98 diapositives
La Big Data et ses applications par
La Big Data et ses applicationsLa Big Data et ses applications
La Big Data et ses applicationsAffinity Engine
3.1K vues26 diapositives
Big data par
Big dataBig data
Big dataKarima GHALI
245 vues15 diapositives
Big Data, Hadoop & Spark par
Big Data, Hadoop & SparkBig Data, Hadoop & Spark
Big Data, Hadoop & SparkAlexia Audevart
3.1K vues63 diapositives
Chapitre 2 hadoop par
Chapitre 2 hadoopChapitre 2 hadoop
Chapitre 2 hadoopMouna Torjmen
1.4K vues39 diapositives

Tendances(20)

Big Data : concepts, cas d'usage et tendances par Jean-Michel Franco
Big Data : concepts, cas d'usage et tendancesBig Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendances
Jean-Michel Franco24.7K vues
Etat de l’art approche et outils BI par Said Sadik
Etat de l’art approche et outils BIEtat de l’art approche et outils BI
Etat de l’art approche et outils BI
Said Sadik9.2K vues
BigData_TP1: Initiation à Hadoop et Map-Reduce par Lilia Sfaxi
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-Reduce
Lilia Sfaxi44.9K vues
BigData_Chp1: Introduction à la Big Data par Lilia Sfaxi
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
Lilia Sfaxi42K vues
BigData_Chp5: Putting it all together par Lilia Sfaxi
BigData_Chp5: Putting it all togetherBigData_Chp5: Putting it all together
BigData_Chp5: Putting it all together
Lilia Sfaxi26K vues
TP1 Big Data - MapReduce par Amal Abid
TP1 Big Data - MapReduceTP1 Big Data - MapReduce
TP1 Big Data - MapReduce
Amal Abid4.4K vues
BigData_TP2: Design Patterns dans Hadoop par Lilia Sfaxi
BigData_TP2: Design Patterns dans HadoopBigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans Hadoop
Lilia Sfaxi29.6K vues
Chp2 - Les Entrepôts de Données par Lilia Sfaxi
Chp2 - Les Entrepôts de DonnéesChp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de Données
Lilia Sfaxi20K vues
Cours Big Data Chap3 par Amal Abid
Cours Big Data Chap3Cours Big Data Chap3
Cours Big Data Chap3
Amal Abid3.4K vues
Big Data... Big Analytics à travers les âges, les industries et les technologies par Hassan Lâasri
Big Data... Big Analytics à travers les âges, les industries et les technologiesBig Data... Big Analytics à travers les âges, les industries et les technologies
Big Data... Big Analytics à travers les âges, les industries et les technologies
Hassan Lâasri4.4K vues
Chp1 - Introduction à l'Informatique Décisionnelle par Lilia Sfaxi
Chp1 - Introduction à l'Informatique DécisionnelleChp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique Décisionnelle
Lilia Sfaxi43.9K vues
BigData_Chp3: Data Processing par Lilia Sfaxi
BigData_Chp3: Data ProcessingBigData_Chp3: Data Processing
BigData_Chp3: Data Processing
Lilia Sfaxi41.5K vues

En vedette

Un introduction à Pig par
Un introduction à PigUn introduction à Pig
Un introduction à PigModern Data Stack France
6.2K vues12 diapositives
Une introduction à Hive par
Une introduction à HiveUne introduction à Hive
Une introduction à HiveModern Data Stack France
12.9K vues15 diapositives
Valtech - Du BI au Big Data, une révolution dans l’entreprise par
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech
8.9K vues50 diapositives
BigData_Chp2: Hadoop & Map-Reduce par
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceLilia Sfaxi
34.6K vues58 diapositives
The Truth Behind The Greatest Assassinations In American par
The Truth Behind The Greatest Assassinations In AmericanThe Truth Behind The Greatest Assassinations In American
The Truth Behind The Greatest Assassinations In Americanguest25e0a66
1.3K vues15 diapositives
Filmindustry 131019052154-phpapp01 ir n par
Filmindustry 131019052154-phpapp01 ir nFilmindustry 131019052154-phpapp01 ir n
Filmindustry 131019052154-phpapp01 ir nhaverstockmedia
379 vues7 diapositives

En vedette(20)

Valtech - Du BI au Big Data, une révolution dans l’entreprise par Valtech
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech8.9K vues
BigData_Chp2: Hadoop & Map-Reduce par Lilia Sfaxi
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-Reduce
Lilia Sfaxi34.6K vues
The Truth Behind The Greatest Assassinations In American par guest25e0a66
The Truth Behind The Greatest Assassinations In AmericanThe Truth Behind The Greatest Assassinations In American
The Truth Behind The Greatest Assassinations In American
guest25e0a661.3K vues
Filmindustry 131019052154-phpapp01 ir n par haverstockmedia
Filmindustry 131019052154-phpapp01 ir nFilmindustry 131019052154-phpapp01 ir n
Filmindustry 131019052154-phpapp01 ir n
haverstockmedia379 vues
Crm Analytique vision et convictions par Soft Computing
Crm Analytique vision et convictionsCrm Analytique vision et convictions
Crm Analytique vision et convictions
Soft Computing21.3K vues
Conférence Big Data HEC Paris 2015 par Francois Cazals
Conférence Big Data HEC Paris 2015Conférence Big Data HEC Paris 2015
Conférence Big Data HEC Paris 2015
Francois Cazals6.5K vues
Memoire recherche par tmauriac
Memoire rechercheMemoire recherche
Memoire recherche
tmauriac1.3K vues
Mémoire de fin d'étude - La big data et les réseaux sociaux par Chloé Marty
Mémoire de fin d'étude - La big data et les réseaux sociauxMémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociaux
Chloé Marty8.9K vues
Introduction to Apache Pig par Jason Shao
Introduction to Apache PigIntroduction to Apache Pig
Introduction to Apache Pig
Jason Shao14.1K vues
Big data et marketing :Vers une analyse prédictif de d'acte d'achat par fifi75
Big data et marketing :Vers une analyse prédictif de d'acte d'achatBig data et marketing :Vers une analyse prédictif de d'acte d'achat
Big data et marketing :Vers une analyse prédictif de d'acte d'achat
fifi7525.5K vues
Mieux exploiter ses données pour augmenter ses ventes avec microsoft data mining par Gaël Duhamel
Mieux exploiter ses données pour augmenter ses ventes avec microsoft data miningMieux exploiter ses données pour augmenter ses ventes avec microsoft data mining
Mieux exploiter ses données pour augmenter ses ventes avec microsoft data mining
Gaël Duhamel68.1K vues
Présentation Big Data et REX Hadoop par Joseph Glorieux
Présentation Big Data et REX HadoopPrésentation Big Data et REX Hadoop
Présentation Big Data et REX Hadoop
Joseph Glorieux4.6K vues
Big Data Analytics for connected home par Héloïse Nonne
Big Data Analytics for connected homeBig Data Analytics for connected home
Big Data Analytics for connected home
Héloïse Nonne1.4K vues

Similaire à Big data - Cours d'introduction l Data-business

Big Data Des méandres des outils au potentiel business par
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel businessMouhsine LAKHDISSI
1.8K vues54 diapositives
Big Data, Charles Huot, Aproged,février 2013 par
Big Data, Charles Huot, Aproged,février 2013Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013ADBS
4.6K vues65 diapositives
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015 par
Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015IBM France Lab
1.9K vues41 diapositives
Big data et marketing digital par
Big data et marketing digital Big data et marketing digital
Big data et marketing digital Hamza Sossey
2.8K vues19 diapositives
Livre Blanc ALTARES: La Data, nouveau disrupteur du business model des entrep... par
Livre Blanc ALTARES: La Data, nouveau disrupteur du business model des entrep...Livre Blanc ALTARES: La Data, nouveau disrupteur du business model des entrep...
Livre Blanc ALTARES: La Data, nouveau disrupteur du business model des entrep...Altares D&B
1.2K vues32 diapositives
Parcours Big Data @ Cetic (6 mai 2014) par
Parcours Big Data @ Cetic (6 mai 2014)Parcours Big Data @ Cetic (6 mai 2014)
Parcours Big Data @ Cetic (6 mai 2014)Agence du Numérique (AdN)
1.1K vues16 diapositives

Similaire à Big data - Cours d'introduction l Data-business(20)

Big Data Des méandres des outils au potentiel business par Mouhsine LAKHDISSI
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel business
Mouhsine LAKHDISSI1.8K vues
Big Data, Charles Huot, Aproged,février 2013 par ADBS
Big Data, Charles Huot, Aproged,février 2013Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013
ADBS4.6K vues
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015 par IBM France Lab
Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
IBM France Lab1.9K vues
Big data et marketing digital par Hamza Sossey
Big data et marketing digital Big data et marketing digital
Big data et marketing digital
Hamza Sossey2.8K vues
Livre Blanc ALTARES: La Data, nouveau disrupteur du business model des entrep... par Altares D&B
Livre Blanc ALTARES: La Data, nouveau disrupteur du business model des entrep...Livre Blanc ALTARES: La Data, nouveau disrupteur du business model des entrep...
Livre Blanc ALTARES: La Data, nouveau disrupteur du business model des entrep...
Altares D&B1.2K vues
Big Data: quelle valeur pour l'entreprise par Genève Lab
Big Data: quelle valeur pour l'entrepriseBig Data: quelle valeur pour l'entreprise
Big Data: quelle valeur pour l'entreprise
Genève Lab2.1K vues
#NSD14 - La sécurité autour du Big Data par NetSecure Day
#NSD14 - La sécurité autour du Big Data#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big Data
NetSecure Day1.9K vues
La Banque de demain : Chapitre 4 par OCTO Technology
La Banque de demain : Chapitre 4 La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4
OCTO Technology10.2K vues
Analyse-données-aide-à-la-décision-apicube-metro'num2015 par Metro'num 2015
Analyse-données-aide-à-la-décision-apicube-metro'num2015Analyse-données-aide-à-la-décision-apicube-metro'num2015
Analyse-données-aide-à-la-décision-apicube-metro'num2015
Metro'num 2015327 vues
Présentation-Analyse-données-aide-décision-Apicube-Metro'num2015 par Metro'num 2015
Présentation-Analyse-données-aide-décision-Apicube-Metro'num2015Présentation-Analyse-données-aide-décision-Apicube-Metro'num2015
Présentation-Analyse-données-aide-décision-Apicube-Metro'num2015
Metro'num 2015457 vues
Quel est l'avenir des stratégies de données? par Denodo
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
Denodo 201 vues
Etude Apec - Les métiers de la data par Apec
Etude Apec - Les métiers de la dataEtude Apec - Les métiers de la data
Etude Apec - Les métiers de la data
Apec378 vues
3 minutes pour comprendre ... le Big Data par Alain KHEMILI
3 minutes pour comprendre ... le Big Data3 minutes pour comprendre ... le Big Data
3 minutes pour comprendre ... le Big Data
Alain KHEMILI62 vues

Big data - Cours d'introduction l Data-business

  • 1. DataViz BIG DATA Cours d’Introduction Big Data l Analytics l BIG DATA l ANALYTICS l DATAVIZ www.data-business.fr
  • 2. 2 “Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it...” Dan Ariely
  • 3. Sommaire Big Data : Définition 2 Explication des 3V : Volume, Variété, Vélocité Quelques exemples d’application 3 4 Les technologies derrière le Big Data 1 Copyright © Data-Business.fr. 3
  • 4. 4 Pourquoi BIG Data ? L’historique du Big Data • 1951 : LEO, le premier ordinateur d’entreprise • Quelques exemples connus de Data-Mining • Les origines du Big Data dans la médecine génomique • Google et Yahoo : pionniers technologiques • The Economist : the Data Deluge • L’étude McKinsey : Big Data for Business Alors, buzz ou révolution ? Grâce à des évolutions sociales et des innovations technologiques, le Big Data permet de généraliser l’approche Data-Driven à tous les métiers et tous les secteurs
  • 5. 5 Démarche Data-Driven : l’AB Testing QUEL PAGE CONVERTIT LE MIEUX ?
  • 6. 6 Démarche Data-Driven : l’AB Testing QUEL PAGE CONVERTIT LE MIEUX ? Principe de l’AB Testing : diffuser des pages différentes à des internautes de manière aléatoire et observer les taux de clics et de conversion 8,26% 11,6% Variation de +40%, soit 2,8 millions d’inscriptions en plus
  • 7. 7 Fondamentaux : les piliers du Big Data • Innovations technologiques – Objets connectés – Cloud computing – Data Science, DataViz • Evolutions sociales et culturelles – Partage d’informations personnelles – Quantified Self, VRM • Innovations d’usage et opportunités business – Acquisition, fidélisation de clients – Amélioration des processus – Développement du business model
  • 8. 8 Illustration : le Real-Time Bidding RTB : Enchères en temps réel pour la diffusion de publicités display (exemple : publicités youtube) L’utilisateur se connecte sur un site Son profil est qualifié et scoré (Démographie, Comportement, Intention) La publicité de l’annonceur avec la meilleure enchère des diffusée L’espace publicitaire est mis aux enchères auprès d’annonceurs
  • 9. 9 Définition des 3V Les 3V sont une grille de lecture établie en 2001 par le cabinet Gartner, qui fait référence pour analyser le passage à l’échelle Big Data. Volume : massification et automatisation des échanges de données Variété : multiplication des sources et des types de données Vélocité : nécessité de collecter et de traiter les données en temps-réel 1 2 3 Depuis, d’autres ont essayé d’approfondir le sujet, en incluant des éléments comme la Validité, la Véracité, la Valeur ou la Visibilité des data.
  • 10. • Données des entreprises : les emails, les documents, les bases de données, tous les historiques de processus métiers (logs)… • Données en dehors des entreprises : bases de données externes (publiques ou fournisseurs de données), contenus échangés sur les réseaux sociaux ou publiés en ligne, les historiques de navigation et de recherche, les données transmises par les objets connectés Exemple : Avec l’avènement du smartphone, l’entreprise AT&T a vu ses coûts de stockage d’enregistrements tripler entre 2010 et 2013 (géolocalisation, historique de recherche, données d’applications…) BIG DATA – ESILV – Septembre 2014 10 3V : Le Volume A Quelques chiffres • 30 milliards de contenus ajoutés sur Facebook par mois, par plus de 600 millions d’utilisateurs actifs • Plus de 2 milliards de vidéos regardées sur Youtube chaque jour • En 2008, le nombre d’appareils connectés à Internet a dépassé le nombre d’humains • On estime que fin 2011, 20 foyers moyens généraient plus de trafic que la totalité des utilisateurs Internet en 2008 • 80% des données ont été créées dans les 12 derniers mois B Types de données Infographie volume big data
  • 11. BIG DATA – ESILV – Septembre 2014 11 3V : la Variété A Variété des sources • Données internes de l’entreprise (CRM, tracking site web, logs…) • Données externes (OpenData, Météo, indicateurs économiques…) • Données comportementales clients (géolocalisation, réseaux sociaux, wearables…) • Données Machine-To-Machine B Variété des contenus • Données structurées : informations que l’on trouve dans les bases de données • Données semi-structurées : contenu composé d’éléments s’adressant à un humain à d’éléments s’adressant à une machine (emails, page web) • Données non-structurées : contenu ne comportant pas de “balises” structurées lisibles par une machine (pile de CVs, enregistrement audio, vidéo…) Exemple : la vision “à 360°” du consommateur
  • 12. A Fast Data, la capacité de traiter de la donnée en mouvement BIG DATA – ESILV – Septembre 2014 12 3V : la Vélocité • Grâce aux innovations dans les infrastructures d’échange et dans le domaine du traitement de données (Hadoop, MapReduce), la vitesse d’analyse des données à été multipliée • Combinés aux outils décisionnels nouvelle génération, ils permettent d’améliorer l’efficacité de l’entreprise grâce à l’optimisation en temps réel des activités marketing et des processus internes B Exemples d’utilisation • Gestion du risque financier (banques, fonds d’investissement) • Déclenchement d’actions marketing en temps réel (retargeting, Real-Time Bidding) • Optimisation de trajets et alertes sur les risques matériels • Smart Grid / Smart City / Smart Building
  • 13. 13 Illustration des 3V : le programme de surveillance PRISM "The NSA has built an infrastructure that allows it to intercept almost everything. With this capability, the vast majority of human communications are automatically ingested without targeting…” E. Snowden
  • 14. 14 Illustration des 3V : le programme de surveillance PRISM Volume • L’ensemble des communications (téléphone et web) transitant par les US sont archivées et stockées •PRISM intercepte et stocke 30 milliards de «Data Points » par mois dont environ 5Mds d’emails Des sources… …et des contenus… •Email •TélChat audio •Photos / Vidéos •Login/Mdp •Conversations tél •Géo-localisation •Réseaux sociaux •….. …pour analyser les comportements et détecter des risques potentiels Variété Vélocité • Couches d’analyse sémantiques et de meta-données en temps réel sur les périmètres considérés « à risque » • En cas d’alerte, possibilité de suivre en temps réel l’ensemble des communications et des déplacements d’une cible
  • 15. 15 Big Data : exemples d’application Customer Cen A tric: Acquisition et fidélisation de clients • Casinos Harra’s : intervenir avant que les pertes des joueurs ne soient trop élevées • Netflix : algorithmes de recommandation • Wal-Mart : prédiction de la demande et optimisation des promotions B Process Centric : Amélioration de l’efficacité opérationnelle • Qantas Airways : maintenance prédictive grâce aux capteurs embarqués • IRS : détection des fraudes fiscales • UPS : prédiction de la demande et optimisation des trajets C Diversification du Business Model • Orange : revente de données géolocalisées • Monster.com : développement d’une expertise en analyse automatisée des CVs • DHL : vente d’indicateurs économiques
  • 16. 16 4 innovations à l’origine de la vague Big Data • Les Objets Connectés et l’automatisation des échanges • Le Cloud Computing, Hadoop et NoSQL • Les Analytics Avancés • La DataViz
  • 17. 17 Les Objets Connectés • Explosion du nombre d’objets communicants : 15 mds en 2014 - 80 mds en 2020 • Catégories d’objets connectés : – Wearables / Quantified Self – Capteurs embarqués (machine-to-machine) – Domotique & Hi-Tech • Exemples d’usage : – Etihad Airways : maintenance prédictive (Taleris) – Optimisation des services et allocations des ressources publiques – Quantified Self : comprendre et maîtriser son comportement
  • 18. 18 Le Cloud, Hadoop et le NoSQL • Le Cloud Computing permet aux entreprises d’externaliser le stockage et le calcul de données massives de manière flexible à très faible coût  Capacité à héberger, traiter et interroger les données  Scalabilité et flexibilité  Très bas coût généralement réparti entre stockage et requêtes - < 0,20 € par giga-octets par mois pour le stockage - < 0,05 € par giga-octet traité par requête  Interfaces simples et standardisées  Facilité d’intégration et déploiement rapide Amazon Web Service EC2 Google Cloud Compute Engine IBM SmartCloud Enterprise Microsoft Windows Azure En croissance de 43,7% en 2013, le marché du Cloud devrait s’élever à 9 Mds € en 2014 * Une solution adaptée aux enjeux du BIG DATA
  • 19. 19 Le Cloud, Hadoop et le NoSQL • MapReduce, Hadoop et le NoSQL sont en train de remplacer les systèmes de gestion de bases de données classiques (relationnelles) sur certaines activités • Hadoop : framework Java libre permettant de créer des applications distribuées et scalables. Basé sur un système de fichiers distribués (HDFS), conçu pour stocker de très gros volumes de données sur un grand nombre de machines. Intègre le patron d’architecture MapReduce dans lequels sont effectués les calculs parralèles – Distributions : Cloudera, HortonWorks, MapR Technologies • Le NoSQL (not only SQL) : systèmes de gestion de bases de données à faible structuration relationnelle basé sur un modèle clé-valeur, facilement scalable en multipliant les serveurs. – Produits : Cassandra (Twitter), BigTable (Google), Hbase (Facebook), MongoDB, Neo4j
  • 20. 20 Les Analytics Avancés / Data Science Data Science : quelques techniques • Régression : analyse d’une variable en fonction de variables explicatives  Qualité du vin = 12.145 + 0.00117 x (précipitations Oct. à Mars) + 0.0614 x (temp. moy Avr. à Sept.) – 0.00386 x (précipitations Août et Sept) (source) 1 • Clustering : groupements d’individus aux caractéristiques communes  Permet d’optimiser le ciblage et la personnalisation de l’offre (algorithmes de recommandation…) 2 3 • Text Mining (ou Traitement Automatisé du Langage)  Exemple : analyse des commentaires web client chez Disneyland et au Puy du Fou • 4 Design Expérimental : test d’hypothèses sur des groupes aléatoires
  • 21. 21 La DataViz A Définition « L’ensemble des techniques de représentation graphique et d’exploration visuelle de données quantitatives permettant de traduire un ensemble de données brutes en information afin de faciliter la prise de décision » • Information interprétable : claire, quelque soit le volume, la nature ou la provenance des données • Pertinente : qui réponde à un objectif métier dans un contexte défini • Novatrice : qui fournisser une perspective différente qui permet de découvrir de nouvelles opportunités B Types de Visualisations • Les méthodes graphiques : diagrammes, cartes de chaleur, diagrammes de Mekko • Les Visualisations interactives : D3.js, HTML5 (Snake Oil, Metropolitain.io) • Les infographies
  • 22. 22 La DataViz : preuve du concept A Le quarter d’Ascombe
  • 23. 23 La DataViz : preuve du concept A Le quarter d’Ascombe
  • 24. 24 Prochains cours 1. Cours d’Introduction 2. Applications du Big Data en Entreprise 3. L’individu dans l’ère Big Data 4. L’ubiquité des données
  • 25. 25 Présentation de Data-Business.fr Vincent de Stoecklin  HEC Paris, Mines ParisTech  Fondateur Data-Business.fr  Capgemini Consulting COMPÉTENCES FONCTIONNELLES  Stratégie Big Data  Transformation digitale  Webmarketing & Growth Hacking  Data Science • 1er site Big Data / Analytics / Dataviz • Expertise Usages et Applications Big Data • Missions de conseil et formations • Communauté de Data Scientists www.data-business.fr
  • 26. CONTACT vincent@data-business.fr 06.72.48.39.84 BIG DATA l ANALYTICS l DATAVIZ www.data-business.fr

Notes de l'éditeur

  1. AT&T : 100M consommateurs Légalement tenue de garder un enregistrement quotidien EN 2010, elle avait 193 000 enregistrements Entre 2010 et 2013, avec la localisation, historique de navigation, données d’applis, ses coûts de stockage on triplé
  2. http://www.informationisbeautiful.net/play/snake-oil-supplements/