Big data - Cours d'introduction l Data-business

10 885 vues

Publié le

Cours d'introduction au Big Data : défintion, fondamentaux, explication des 3V, exemples d'application, aperçu des innovations technologiques.

Publié dans : Données & analyses
0 commentaire
22 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
10 885
Sur SlideShare
0
Issues des intégrations
0
Intégrations
129
Actions
Partages
0
Téléchargements
933
Commentaires
0
J’aime
22
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive
  • AT&T : 100M consommateurs
    Légalement tenue de garder un enregistrement quotidien
    EN 2010, elle avait 193 000 enregistrements
    Entre 2010 et 2013, avec la localisation, historique de navigation, données d’applis, ses coûts de stockage on triplé
  • http://www.informationisbeautiful.net/play/snake-oil-supplements/
  • Big data - Cours d'introduction l Data-business

    1. 1. DataViz BIG DATA Cours d’Introduction Big Data l Analytics l BIG DATA l ANALYTICS l DATAVIZ www.data-business.fr
    2. 2. 2 “Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it...” Dan Ariely
    3. 3. Sommaire Big Data : Définition 2 Explication des 3V : Volume, Variété, Vélocité Quelques exemples d’application 3 4 Les technologies derrière le Big Data 1 Copyright © Data-Business.fr. 3
    4. 4. 4 Pourquoi BIG Data ? L’historique du Big Data • 1951 : LEO, le premier ordinateur d’entreprise • Quelques exemples connus de Data-Mining • Les origines du Big Data dans la médecine génomique • Google et Yahoo : pionniers technologiques • The Economist : the Data Deluge • L’étude McKinsey : Big Data for Business Alors, buzz ou révolution ? Grâce à des évolutions sociales et des innovations technologiques, le Big Data permet de généraliser l’approche Data-Driven à tous les métiers et tous les secteurs
    5. 5. 5 Démarche Data-Driven : l’AB Testing QUEL PAGE CONVERTIT LE MIEUX ?
    6. 6. 6 Démarche Data-Driven : l’AB Testing QUEL PAGE CONVERTIT LE MIEUX ? Principe de l’AB Testing : diffuser des pages différentes à des internautes de manière aléatoire et observer les taux de clics et de conversion 8,26% 11,6% Variation de +40%, soit 2,8 millions d’inscriptions en plus
    7. 7. 7 Fondamentaux : les piliers du Big Data • Innovations technologiques – Objets connectés – Cloud computing – Data Science, DataViz • Evolutions sociales et culturelles – Partage d’informations personnelles – Quantified Self, VRM • Innovations d’usage et opportunités business – Acquisition, fidélisation de clients – Amélioration des processus – Développement du business model
    8. 8. 8 Illustration : le Real-Time Bidding RTB : Enchères en temps réel pour la diffusion de publicités display (exemple : publicités youtube) L’utilisateur se connecte sur un site Son profil est qualifié et scoré (Démographie, Comportement, Intention) La publicité de l’annonceur avec la meilleure enchère des diffusée L’espace publicitaire est mis aux enchères auprès d’annonceurs
    9. 9. 9 Définition des 3V Les 3V sont une grille de lecture établie en 2001 par le cabinet Gartner, qui fait référence pour analyser le passage à l’échelle Big Data. Volume : massification et automatisation des échanges de données Variété : multiplication des sources et des types de données Vélocité : nécessité de collecter et de traiter les données en temps-réel 1 2 3 Depuis, d’autres ont essayé d’approfondir le sujet, en incluant des éléments comme la Validité, la Véracité, la Valeur ou la Visibilité des data.
    10. 10. • Données des entreprises : les emails, les documents, les bases de données, tous les historiques de processus métiers (logs)… • Données en dehors des entreprises : bases de données externes (publiques ou fournisseurs de données), contenus échangés sur les réseaux sociaux ou publiés en ligne, les historiques de navigation et de recherche, les données transmises par les objets connectés Exemple : Avec l’avènement du smartphone, l’entreprise AT&T a vu ses coûts de stockage d’enregistrements tripler entre 2010 et 2013 (géolocalisation, historique de recherche, données d’applications…) BIG DATA – ESILV – Septembre 2014 10 3V : Le Volume A Quelques chiffres • 30 milliards de contenus ajoutés sur Facebook par mois, par plus de 600 millions d’utilisateurs actifs • Plus de 2 milliards de vidéos regardées sur Youtube chaque jour • En 2008, le nombre d’appareils connectés à Internet a dépassé le nombre d’humains • On estime que fin 2011, 20 foyers moyens généraient plus de trafic que la totalité des utilisateurs Internet en 2008 • 80% des données ont été créées dans les 12 derniers mois B Types de données Infographie volume big data
    11. 11. BIG DATA – ESILV – Septembre 2014 11 3V : la Variété A Variété des sources • Données internes de l’entreprise (CRM, tracking site web, logs…) • Données externes (OpenData, Météo, indicateurs économiques…) • Données comportementales clients (géolocalisation, réseaux sociaux, wearables…) • Données Machine-To-Machine B Variété des contenus • Données structurées : informations que l’on trouve dans les bases de données • Données semi-structurées : contenu composé d’éléments s’adressant à un humain à d’éléments s’adressant à une machine (emails, page web) • Données non-structurées : contenu ne comportant pas de “balises” structurées lisibles par une machine (pile de CVs, enregistrement audio, vidéo…) Exemple : la vision “à 360°” du consommateur
    12. 12. A Fast Data, la capacité de traiter de la donnée en mouvement BIG DATA – ESILV – Septembre 2014 12 3V : la Vélocité • Grâce aux innovations dans les infrastructures d’échange et dans le domaine du traitement de données (Hadoop, MapReduce), la vitesse d’analyse des données à été multipliée • Combinés aux outils décisionnels nouvelle génération, ils permettent d’améliorer l’efficacité de l’entreprise grâce à l’optimisation en temps réel des activités marketing et des processus internes B Exemples d’utilisation • Gestion du risque financier (banques, fonds d’investissement) • Déclenchement d’actions marketing en temps réel (retargeting, Real-Time Bidding) • Optimisation de trajets et alertes sur les risques matériels • Smart Grid / Smart City / Smart Building
    13. 13. 13 Illustration des 3V : le programme de surveillance PRISM "The NSA has built an infrastructure that allows it to intercept almost everything. With this capability, the vast majority of human communications are automatically ingested without targeting…” E. Snowden
    14. 14. 14 Illustration des 3V : le programme de surveillance PRISM Volume • L’ensemble des communications (téléphone et web) transitant par les US sont archivées et stockées •PRISM intercepte et stocke 30 milliards de «Data Points » par mois dont environ 5Mds d’emails Des sources… …et des contenus… •Email •TélChat audio •Photos / Vidéos •Login/Mdp •Conversations tél •Géo-localisation •Réseaux sociaux •….. …pour analyser les comportements et détecter des risques potentiels Variété Vélocité • Couches d’analyse sémantiques et de meta-données en temps réel sur les périmètres considérés « à risque » • En cas d’alerte, possibilité de suivre en temps réel l’ensemble des communications et des déplacements d’une cible
    15. 15. 15 Big Data : exemples d’application Customer Cen A tric: Acquisition et fidélisation de clients • Casinos Harra’s : intervenir avant que les pertes des joueurs ne soient trop élevées • Netflix : algorithmes de recommandation • Wal-Mart : prédiction de la demande et optimisation des promotions B Process Centric : Amélioration de l’efficacité opérationnelle • Qantas Airways : maintenance prédictive grâce aux capteurs embarqués • IRS : détection des fraudes fiscales • UPS : prédiction de la demande et optimisation des trajets C Diversification du Business Model • Orange : revente de données géolocalisées • Monster.com : développement d’une expertise en analyse automatisée des CVs • DHL : vente d’indicateurs économiques
    16. 16. 16 4 innovations à l’origine de la vague Big Data • Les Objets Connectés et l’automatisation des échanges • Le Cloud Computing, Hadoop et NoSQL • Les Analytics Avancés • La DataViz
    17. 17. 17 Les Objets Connectés • Explosion du nombre d’objets communicants : 15 mds en 2014 - 80 mds en 2020 • Catégories d’objets connectés : – Wearables / Quantified Self – Capteurs embarqués (machine-to-machine) – Domotique & Hi-Tech • Exemples d’usage : – Etihad Airways : maintenance prédictive (Taleris) – Optimisation des services et allocations des ressources publiques – Quantified Self : comprendre et maîtriser son comportement
    18. 18. 18 Le Cloud, Hadoop et le NoSQL • Le Cloud Computing permet aux entreprises d’externaliser le stockage et le calcul de données massives de manière flexible à très faible coût  Capacité à héberger, traiter et interroger les données  Scalabilité et flexibilité  Très bas coût généralement réparti entre stockage et requêtes - < 0,20 € par giga-octets par mois pour le stockage - < 0,05 € par giga-octet traité par requête  Interfaces simples et standardisées  Facilité d’intégration et déploiement rapide Amazon Web Service EC2 Google Cloud Compute Engine IBM SmartCloud Enterprise Microsoft Windows Azure En croissance de 43,7% en 2013, le marché du Cloud devrait s’élever à 9 Mds € en 2014 * Une solution adaptée aux enjeux du BIG DATA
    19. 19. 19 Le Cloud, Hadoop et le NoSQL • MapReduce, Hadoop et le NoSQL sont en train de remplacer les systèmes de gestion de bases de données classiques (relationnelles) sur certaines activités • Hadoop : framework Java libre permettant de créer des applications distribuées et scalables. Basé sur un système de fichiers distribués (HDFS), conçu pour stocker de très gros volumes de données sur un grand nombre de machines. Intègre le patron d’architecture MapReduce dans lequels sont effectués les calculs parralèles – Distributions : Cloudera, HortonWorks, MapR Technologies • Le NoSQL (not only SQL) : systèmes de gestion de bases de données à faible structuration relationnelle basé sur un modèle clé-valeur, facilement scalable en multipliant les serveurs. – Produits : Cassandra (Twitter), BigTable (Google), Hbase (Facebook), MongoDB, Neo4j
    20. 20. 20 Les Analytics Avancés / Data Science Data Science : quelques techniques • Régression : analyse d’une variable en fonction de variables explicatives  Qualité du vin = 12.145 + 0.00117 x (précipitations Oct. à Mars) + 0.0614 x (temp. moy Avr. à Sept.) – 0.00386 x (précipitations Août et Sept) (source) 1 • Clustering : groupements d’individus aux caractéristiques communes  Permet d’optimiser le ciblage et la personnalisation de l’offre (algorithmes de recommandation…) 2 3 • Text Mining (ou Traitement Automatisé du Langage)  Exemple : analyse des commentaires web client chez Disneyland et au Puy du Fou • 4 Design Expérimental : test d’hypothèses sur des groupes aléatoires
    21. 21. 21 La DataViz A Définition « L’ensemble des techniques de représentation graphique et d’exploration visuelle de données quantitatives permettant de traduire un ensemble de données brutes en information afin de faciliter la prise de décision » • Information interprétable : claire, quelque soit le volume, la nature ou la provenance des données • Pertinente : qui réponde à un objectif métier dans un contexte défini • Novatrice : qui fournisser une perspective différente qui permet de découvrir de nouvelles opportunités B Types de Visualisations • Les méthodes graphiques : diagrammes, cartes de chaleur, diagrammes de Mekko • Les Visualisations interactives : D3.js, HTML5 (Snake Oil, Metropolitain.io) • Les infographies
    22. 22. 22 La DataViz : preuve du concept A Le quarter d’Ascombe
    23. 23. 23 La DataViz : preuve du concept A Le quarter d’Ascombe
    24. 24. 24 Prochains cours 1. Cours d’Introduction 2. Applications du Big Data en Entreprise 3. L’individu dans l’ère Big Data 4. L’ubiquité des données
    25. 25. 25 Présentation de Data-Business.fr Vincent de Stoecklin  HEC Paris, Mines ParisTech  Fondateur Data-Business.fr  Capgemini Consulting COMPÉTENCES FONCTIONNELLES  Stratégie Big Data  Transformation digitale  Webmarketing & Growth Hacking  Data Science • 1er site Big Data / Analytics / Dataviz • Expertise Usages et Applications Big Data • Missions de conseil et formations • Communauté de Data Scientists www.data-business.fr
    26. 26. CONTACT vincent@data-business.fr 06.72.48.39.84 BIG DATA l ANALYTICS l DATAVIZ www.data-business.fr

    ×