Chp1 : Introduction
Approche et Vocabulaire
Big Data
GL4 (Option Management des Systèmes d'Information) - 2016
Dr. Lilia S...
Faits
• Chaque jour, nous générons 2,5 trillions d’octets de données
• 90% des données dans le monde ont été créées au cou...
Intérêts
• Chefs d’entreprise prennent fréquemment des
décisions basées surdes informations en lesquelles
ils n’ont pas co...
Sources
• Sources multiples: sites, bases de données, téléphones, serveurs:
§ Détecter les sentiments et réactions des cli...
Challenges
• Réunir un grand volume de données variées pour trouver de nouvelles
idées
• Capturer des données créées rapid...
Les 5 V
• Extraction d’informations et décisions à partir de données,
caractérisées par les 5 V:
§ Volume (Volume)
§ Varié...
Volume
• Le prix de stockage des données a beaucoup diminué ces
30 dernières années:
§ De $100,000 / Go (1980)
§ À $0.10 /...
Variété
• Pour un stockage dans des bases de données ou
dans des entrepôts de données, les données
doivent respecter un fo...
Vitesse
• Rapidité d’arrivée des données
• Vitesse de traitement
• Les données doivent être stockées à
l’arrivée, parfois ...
Véracité
• Cela fait référence au désordre ou la
fiabilité des données. Avec l’augmentation
de la quantité, la qualité et ...
Valeur
• Le V le plus important
• Il faut transformer toutes les données
en valeurs exploitables: les données
sans valeur ...
Approche Traditionnelle
Les besoins métier guident la conception de la solution
12
Introduction aux Big Data
Denouvelles e...
Approche Traditionnelle
• Appropriée pour:
§ Des données structurées
§ Opérations et processus répétitifs
§ Sources relati...
Approche Big Data
Les sources d’information guident la découverte créative
14
Introduction aux Big Data
Denouvelles idées ...
Approche Big Data vs Approche Traditionnelle
• La question n’est pas :
§ Dois-je choisir entre
l’approche classique et
l’a...
16
Approche Big Data
Analyse Itérative et Exploratoire
Responsables Métier
Déterminent quelles
questions poser
Responsable...
Sources
• Cours
§ Big Data Analytics – Lesson 1: What is Big Data, IBM, Big Data University
§ Intro to Hadoop and MapReduc...
Prochain SlideShare
Chargement dans…5
×

BigData_Chp1: Introduction à la Big Data

13 640 vues

Publié le

Visitez http://liliasfaxi.wix.com/liliasfaxi !

Publié dans : Technologie
3 commentaires
28 j’aime
Statistiques
Remarques
Aucun téléchargement
Vues
Nombre de vues
13 640
Sur SlideShare
0
Issues des intégrations
0
Intégrations
1 716
Actions
Partages
0
Téléchargements
1 318
Commentaires
3
J’aime
28
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

BigData_Chp1: Introduction à la Big Data

  1. 1. Chp1 : Introduction Approche et Vocabulaire Big Data GL4 (Option Management des Systèmes d'Information) - 2016 Dr. Lilia SFAXI www.liliasfaxi.wix.com/liliasfaxi Slide 1
  2. 2. Faits • Chaque jour, nous générons 2,5 trillions d’octets de données • 90% des données dans le monde ont été créées au cours des deux dernières années • 90% des données générées sont non structurées • Source: § Capteurs utilisés pour collecter les informations climatiques § Messages sur les médias sociaux § Images numériques et vidéos publiées en ligne § Enregistrements transactionnels d’achat en ligne § Signaux GPS de téléphones mobiles § … • Données appelées Big Data ou Données Massives 2 Introduction aux Big Data
  3. 3. Intérêts • Chefs d’entreprise prennent fréquemment des décisions basées surdes informations en lesquelles ils n’ont pas confiance,ou qu’ils n’ont pas1 /3 • Chefs d’entreprise disent qu’ils n’ont pas accès aux informations dont ils ont besoin pour faire leur travail1 / 2 • Des DSI (Directeurs des SI) citent :« L’informatique décisionnelleet analytique » commefaisant partie de leurs plans pour améliorer leur compétitivité83 % • Des PDG ont besoin d’améliorer la capture et la compréhension des informations pour prendre des décisions plus rapidement60 % 3 Introduction aux Big Data
  4. 4. Sources • Sources multiples: sites, bases de données, téléphones, serveurs: § Détecter les sentiments et réactions des clients § Détecter les conditions critiques ou potentiellement mortelles dans les hôpitaux , et à temps pour intervenir § Prédire des modèles météorologiques pour planifier l’usage optimal des éoliennes § Prendre des décisions risquées basées sur des données transactionnelles en temps réel § Identifier les criminels et les menaces à partir de vidéos, sons et flux de données § Étudier les réactions des étudiants pendant un cour, prédire ceux qui vont réussir, d’après les statistiques et modèles réunis au long des années (domaine Big Data in Education) 4 Introduction aux Big Data
  5. 5. Challenges • Réunir un grand volume de données variées pour trouver de nouvelles idées • Capturer des données créées rapidement • Sauvegarder toutes ces données • Traiter ces données et les utiliser 5 Introduction aux Big Data
  6. 6. Les 5 V • Extraction d’informations et décisions à partir de données, caractérisées par les 5 V: § Volume (Volume) § Variété (Variety) § Vitesse (Velocity) § Véracité (Veracity) § Valeur (Value) 6 Introduction aux Big Data 5 Vs du Big Data Volume Vitesse ValeurVariété Véracité - Téraoctets - Enreg. / Archives - Transactions - Tables, fichiers - Batch - Temps réél - Processus - Flot de données - Statistiques - Évènements - Corrélations - Hypothétiques - Confiance - Authenticité - Origine, réputation - Disponibilité - Responsabilité - Structurées - Non structurées - Multi-facteur - Probabilistes
  7. 7. Volume • Le prix de stockage des données a beaucoup diminué ces 30 dernières années: § De $100,000 / Go (1980) § À $0.10 / Go (2013) • Les lieux de stockage fiables (comme des SAN: Storage Area Network) ou réseaux de stockage peuvent être très coûteux § Choisir de ne stocker que certaines données, jugées sensibles § Perte de données, pouvant être très utiles, comme les logs • Comment déterminer les données qui méritent d’être stockées? § Transactions? Logs? Métier? Utilisateur? Capteurs? Médicales? Sociales? è Aucune donnée n’est inutile. Certaines n’ont juste pas encore servi. • Problèmes: § Comment stocker les données dans un endroit fiable, qui soit moins cher § Comment parcourir ces données et en extraire des informations facilement et rapidement? 7 Introduction aux Big Data 5 Vs du Big Data Volume Vitesse ValeurVariété Véracité - Téraoctets - Enreg. / Archives - Transactions - Tables, fichiers - Batch - Temps réél - Processus - Flot de données - Statistiques - Évènements - Corrélations - Hypothétiques - Confiance - Authenticité - Origine, réputation - Disponibilité - Responsabilité - Structurées - Non structurées - Multi-facteur - Probabilistes
  8. 8. Variété • Pour un stockage dans des bases de données ou dans des entrepôts de données, les données doivent respecter un format prédéfini. • La plupart des données existantes sont non- structurées ou semi-structurées • Données sous plusieurs formats et types • On veut tout stocker: § Exemple: pour une discussion dans un centre d’appel, on peut la stocker sous forme textuelle pour son contenu, comme on peut stocker l’enregistrement en entier, pour interpréter le ton de voix du client • Certaines données peuvent paraître obsolètes, mais sont utiles pour certaines décisions: § Exemple: Pour le transport de marchandise, on a tendance à choisir le camion le plus proche. Mais parfois, ce n’est pas la meilleure solution. D’autres problèmes peuvent intervenir. § Besoin de : Données GPS, Plan de livraison du camion, Circulation, Chargement du camion, Niveau d’essence… 8 Introduction aux Big Data 5 Vs du Big Data Volume Vitesse ValeurVariété Véracité - Téraoctets - Enreg. / Archives - Transactions - Tables, fichiers - Batch - Temps réél - Processus - Flot de données - Statistiques - Évènements - Corrélations - Hypothétiques - Confiance - Authenticité - Origine, réputation - Disponibilité - Responsabilité - Structurées - Non structurées - Multi-facteur - Probabilistes Vitesse Valeur Volume Véracité
  9. 9. Vitesse • Rapidité d’arrivée des données • Vitesse de traitement • Les données doivent être stockées à l’arrivée, parfois même des Teraoctets par jour § Sinon, risque de perte d’informations • Exemple § Il ne suffit pas de savoir quel article un client a acheté ou réservé § Si si on sait que vous avez passé plus de 5mn à consulter un article dans une boutique d’achat en ligne, il est possible de vous envoyer un email dès que cet article est soldé. 9 Introduction aux Big Data 5 Vs du Big Data Volume Vitesse ValeurVariété Véracité - Téraoctets - Enreg. / Archives - Transactions - Tables, fichiers - Batch - Temps réél - Processus - Flot de données - Statistiques - Évènements - Corrélations - Hypothétiques - Confiance - Authenticité - Origine, réputation - Disponibilité - Responsabilité - Structurées - Non structurées - Multi-facteur - Probabilistes ValeurVariété Véracité Volume
  10. 10. Véracité • Cela fait référence au désordre ou la fiabilité des données. Avec l’augmentation de la quantité, la qualité et précision se perdent (abréviations, typos, déformations, source peu fiable…) • Les solutions Big Data doivent remédier à cela en se référant au volume des données existantes • Nécessité d’une (très) grande rigueur dans l’organisation de la collecte et le recoupement, croisement, enrichissement des données pour lever l’incertitude et la nature imprévisible des données introduites dans les modèles mais aussi pour respecter le cadre légal pour créer la confiance et garantir la sécurité et l’intégrité des données. 10 Introduction aux Big Data 5 Vs du Big Data Volume Vitesse ValeurVariété Véracité - Téraoctets - Enreg. / Archives - Transactions - Tables, fichiers - Batch - Temps réél - Processus - Flot de données - Statistiques - Évènements - Corrélations - Hypothétiques - Confiance - Authenticité - Origine, réputation - Disponibilité - Responsabilité - Structurées - Non structurées - Multi-facteur - Probabilistes ValeurVariété Volume Vitesse
  11. 11. Valeur • Le V le plus important • Il faut transformer toutes les données en valeurs exploitables: les données sans valeur sont inutiles • Atteindre des objectifs stratégiques de création de valeur pour les clients et pour l’entreprise dans tous les domaines d’activité 11 Introduction aux Big Data 5 Vs du Big Data Volume Vitesse ValeurVariété Véracité - Téraoctets - Enreg. / Archives - Transactions - Tables, fichiers - Batch - Temps réél - Processus - Flot de données - Statistiques - Évènements - Corrélations - Hypothétiques - Confiance - Authenticité - Origine, réputation - Disponibilité - Responsabilité - Structurées - Non structurées - Multi-facteur - Probabilistes Vitesse Variété Volume Véracité Valeur
  12. 12. Approche Traditionnelle Les besoins métier guident la conception de la solution 12 Introduction aux Big Data Denouvelles exigences nécessitentune nouvelle conception etconstruction Leresponsablemétier définit les besoins : Quelles questions doit-on poser? IT conçoitunesolution avec un ensemble destructureset fonctionnalités Leresponsablemétier exécuteles requêtespour répondreauxquestions – encoreet encore
  13. 13. Approche Traditionnelle • Appropriée pour: § Des données structurées § Opérations et processus répétitifs § Sources relativement stables § Besoins bien compris et bien cadrés 13 Introduction aux Big Data
  14. 14. Approche Big Data Les sources d’information guident la découverte créative 14 Introduction aux Big Data Denouvelles idées conduisent à l’intégration de technologies traditionnelles Leresponsablemétier etIT identifient les sourcesde données disponibles IT fournit uneplateforme quipermet uneexploration créativedetoutes les donnéesdisponibles Leresponsablemétier détermineles questions à poser en explorant les données et relations entreelles
  15. 15. Approche Big Data vs Approche Traditionnelle • La question n’est pas : § Dois-je choisir entre l’approche classique et l’approche Big Data? • Mais plutôt: § Comment les faire fonctionner ensemble? 15 Introduction aux Big Data Entrepôt de Données Plateforme Big Data Intégration Sources Traditionnelles Nouvelles Sources
  16. 16. 16 Approche Big Data Analyse Itérative et Exploratoire Responsables Métier Déterminent quelles questions poser Responsables IT Structurentles données pour répondreàces questions Responsables IT Fournissentuneplateforme pour permettre la découvertecréative Responsables Métier Explorentla plateforme pour déterminer quelles questions poser Approche Traditionnelle Analyse Structurée et Répétée Approche Big Data vs Approche Traditionnelle Introduction aux Big Data
  17. 17. Sources • Cours § Big Data Analytics – Lesson 1: What is Big Data, IBM, Big Data University § Intro to Hadoop and MapReduce, Coursera, Udacity • Articles § Bernard Marr, “Big Data: The 5 Vs Everyone Must Know”, LinkedIn 17 Introduction aux Big Data

×