Baina bigdata introduction 2016

341 vues

Publié le

Big Data / Données massives

Big Data – Contexte
Big Data – L'univers digital devient de plus en plus large et interconnecté
Big Data – Perception du Volume de l'univers digital
Big Data 4 V
Big Data – conséquence de la maturité et la démocratisation de plusieurs disciplines
Big Data – Études de cas (Sécurité du citoyen, Analyse de Sentiment, Analyse temps réel de churn, Traitement des échanges boursiers, Recommandation de services/produits, ...)
Big Data – 3 Stratégies de traitement
Big Data versus Grid Computing
Big Data – Visualisation
Big Data – Quels Profils et Compétences ?
Big Data – Le Maroc a tout à y gagner

Publié dans : Technologie
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
341
Sur SlideShare
0
Issues des intégrations
0
Intégrations
21
Actions
Partages
0
Téléchargements
35
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Baina bigdata introduction 2016

  1. 1. Big Data Données massives Prof. Karim Baïna karim.baina@gmail.com Professeur d'Enseignement Supérieur ENSIAS, Université Mohammed V de Rabat, Maroc Co-responsable du Diplôme Universitaire « Big Data Scientist » Chef du Département Génie Logiciel Responsable du Service de Coopération Semaine Culturelle, 17-20 Mai 2016 Faculté des Sciences de Kénitra, Université Ibn Tofaïl
  2. 2. © Karim Baïna 2016 2 Big Data – Contexte
  3. 3. Big Data – L'univers digital devient de plus en plus large et interconnecté © IBM (10^12)
  4. 4. © Karim Baïna 2016 4 Big Data – Perception du Volume de l'univers digital Lune Terre 2/3 6,6x TeraB (10**12 B) → PetaB (10**15 B) → ExaB (10**18 B) → ZetaB (10**21 B)
  5. 5. © Karim Baïna 2016 5 Big Data 4 V ● VOLUME – 90% des données universelles ont été créées durant les 5 dernières années – de 2013 à 2020, la taille de l'univers digital sera multipliée par 10 de 4.4 trillion (10**12) GB à 44 trillion – La taille de l'univers digital plus que double chaque 2 ans ● VELOCITY (Fréquence de production de la donnée) – 6 Milliard de téléphones portables dans le monde (sur 8 Milliard de population) – Une voiture moderne embarque plus de 100 capteurs – 200 Million de compteurs intelligents, 30 Billion (10**12) Tag RFID, 420 Million de capteurs médicaux – 2,3 Trillion (10**12) GB de données sont générées chaque jours dans le monde ● VARIETY ● 80% des données universelles sont non-structurées (inexploitables par les systèmes traditionnels) ● VERACITY ● Il y a entre 30 % – 80 % followers fictifs sur twitter (selon la popularité du compte) – La circulation des hoax (canulars), spam, fake post est reprise (retwittée) plus que les démentis. Doug Laney, « 3D Data Management: Controlling Data Volume, Velocity, and Variety. », 2001 research report, META Group (now Gartner) Samsung 16TB (Technologie SSD) Le plus large HD
  6. 6. © Karim Baïna 2016 6 Réponses aux 4 V ● VELOCITE – Collecte des données réactive à la fréquence de leur arrivée – Réponse on time (ponctuelle) pas nécessairement « temps réel » ● VOLUME – stockage réparti sur un réseau de machines (cloud) – calculs parallèles sur les données réparties (grid) ● VARIETE – Prise en charge des données brutes [non|semi| ]-structurées et multi- format (texte|..|matrice|graphe|image|audio|vidéo) ● VERACITE – Traçabilité de la provenance, assurance de la vérifiabilité en dédoublant les sources de données, adoption d'un plan de qualité des données
  7. 7. © Karim Baïna 2016 7 Big Data - conséquence de la maturité et la démocratisation de plusieurs disciplines ● Grid Computing : Calcul parallèle & distribué, de haute performance (HPC) ● Cloud Computing : Capacité de stockage infini, réparti et sécurisé, fragmentation/réplication ● Internet of Things (IoT) : Informatique ambiante (UC), Informatique mobile, Multitudes de devices connectés, plages d’adressage latge (IPV6) – Exemples : tout objet pingable (caméra, capteur, etc.) présente des web services façades, voiture comme ordinateur ambulant, télé-maintenance proactive, traçabilité (RFID), tracking par GPS, etc. ● Web 3.0 (Social, Sémantique) ● SNA (Social Network Analysis) ● Data Management : SQL, Bases de données réparties, Bases de données XML, Objets, etc. NoSQL, DWH (data warehousing), BI (Business Intelligence) ● All In Memory : Mémoire à forte capacité, Disque flash SSD, les bases de données se chargent en mémoire et tous les calculs se font en mémoire sans besoin d'accès HD ● NLP (Natural Language Processing)
  8. 8. © Karim Baïna 2016 8 Big Data - Étude de cas ● Sécurité du citoyen : La ville de Chicago é pu réduire le crime et améliorer la sécurité des citoyens grâce une plateforme geospatiale analytique temps réel (WindyGrid utilisant MongoDB). Elle analyse des données depuis plus de 30 différent départements – localisations des bus, appels 911, et même des Tweets afin de mieux comprendre et réagir face aux urgences. Sécurité routière Circulation routière
  9. 9. © Karim Baïna 2016 9 Big Data - Étude de cas ● Analyse de Sentiment : Une organisation ne peut pas rester juste indifférente à l'égard d'une crise de réactions sur un réseau social (ex. Twitter) plus de 30 min par ex. L'analyse temps réelle fournit un moyen d'alerter si les sentiments sur Twitter autour d'un problème la concernant tournent au vinaigre. Analyse de satisfaction du client / perception du citoyen
  10. 10. © Karim Baïna 2016 10 Big Data - Étude de cas ● Analyse temps réel de churn (taux d'attrition) : L'analyse temps réel fournit une meilleure perception de l'engagement actuel du client, et améliore la détection du moement critique ou un client décide de partir ou de rester. Recommending system
  11. 11. © Karim Baïna 2016 11 Big Data - Étude de cas ● Traitement des échanges boursiers : des secondes de grandes valeurs peut être éliminées du temps de réactions des entreprises financières. Il est possible d'agir sur la base de nouvelles informations en temps réel, comme le rapport national de l'emploi (Current Employment Statistics – CES by Bureau of Labor Statistics – BLS) édité le premier vendredi de chaque mois. Le négoce à base de ce rapport génarelement commence après 10 seconds de sa publication sur le web. Recommending system
  12. 12. © Karim Baïna 2016 12 Big Data - Étude de cas ● Recommandation de services/produits : Plus que Facebook qui vous proposent des amis ou des thèmes, Amazon exploite les données sur les produits pour lesquels vous (ou vos ressemblants) êtes réellement passer au paiement pour vous les proposer. Les psychologues parlent du pouvoir de suggestion – mettre quelque chose que quelqu'un pourrait vouloir l'une devant l'autre pourrait créer une envie irrésistible d'achat indépendamment de la réelle nécessité du produit. systèmes de recommandation
  13. 13. © Karim Baïna 2016 13 Big Data - Étude de cas Recommending system Catastrophes naturelles ... Sécurité territoriale épidémiologie
  14. 14. © Karim Baïna 2016 14 Big Data – Sources de données
  15. 15. © Karim Baïna 2016 15 Variété Big Data - multitude des formats de données ● Données brutes non-structurées – Texte brute en langage naturel – Modèle multimédia (images-audio-vidéo) ● Données semi-structurées – Hybridation d'une structure macro flexible avec un contenu non structuré, ex. Logs, e-mails, EDI, données de capteurs ● Données structurées – Modèle relationnel (tables, csv/tsv) – Modèle orienté colonnes (Matrices creuses avec données manquantes ou optionnelles) – Modèle associatif (Clés-Valeurs) – Modèle arborescent (XML, JSON,... avec respect d'une structure DTD/schema) – Modèle de graphes (RDF,...) – .. Panama Papers 11,5 Million de documents multi-format
  16. 16. © Karim Baïna 2016 16 Big Data – Stockage de données
  17. 17. © Karim Baïna 2016 17 Variété Big Data - multitude des formats de données ● Modèle relationnel – Hive, Impala ● Matrices creuses (via clé-valeur) – HBase, Redis ● Modèle de Document (en JSON) – MongoDB, Couchbase ● Modèle de Graphe – Neo4J, Giraph ● ...
  18. 18. © Karim Baïna 2016 18 Big Data – Traitement des données
  19. 19. © Karim Baïna 2016 19 Big Data - 3 Stratégies de traitement – 1/3 ● Analyse synchrone en lots sur des données réparties (synchronous batch processing « data-intensive ») ● Les traitements (en lots) sont décomposés, transportés vers les machines stockant les données distribuées « data locality » et persistance sur disque des résultats intermédiaires ● Le volume des données (en PétaOctets 10^15 Octets) et la complexité des calculs sont plus importants que la fréquence des calculs (en milliers). Et les traitements parallèles ne partagent pas des données seulement des résultats intermédiaires. ● Toute Optimisation du calcul et donc raccourcissement du temps de réponse est importante vis à vis du client. La data locality est donc prioritaire. ● Les temps de réponse varient entre quelques minutes à quelques heures
  20. 20. © Karim Baïna 2016 20 Big Data - Le principe du synchronous batch processing
  21. 21. © Karim Baïna 2016 21 Big Data - 3 Stratégies de traitement – 2/3 ● Analyse en quasi-temps réel des données en mémoire (in memory, micro-batching) ● Les traitements (en lots) sont décomposés, transportés vers les machines stockant les données distribuées « data locality » et persistance en mémoire des résultats intermédiaires ● Les temps de réponse varient de quelques secondes à quelques minutes Micro-Batch in memory Batch in memory
  22. 22. © Karim Baïna 2016 22 Big Data - Le principe du synchronous batch in memory Batch in memory
  23. 23. © Karim Baïna 2016 23 Big Data - Le principe du micro-batching in memory Micro-Batch in memory
  24. 24. © Karim Baïna 2016 24 Big Data - 3 Stratégies de traitement – 3/3 ● Analyse temps Réel des données en mouvement (Real Time Analysis Processing – RTAP, Complex Event Processing – CEP) ● Les données (événements) arrivent vers les calculs et sont traitées à la volée avant même d'être stockées ● Les traitements peuvent accueillir plusieurs millions d'événements par seconde (Velocity) ● Les temps de réponse ne doivent pas dépasser quelques secondes
  25. 25. © Karim Baïna 2016 25 Big Data - Le principe du real time analysis processing ● Analyse temps Réel des données en mouvement (Real Time Analysis Processing – RTAP, Complex Event Processing – CEP) Pattern recognition/correlation/scoring rules
  26. 26. © Karim Baïna 2016 26 Big Data Map Reduce vs Grid Computing ● Analyse asynchrone en lots sur des données réparties (asynchronous batch processing « compute-intensive ») ● Les traitements (en lots) sont distribuées en parallèle sur des serveurs et les données sont envoyées à ces serveurs pour traitement, la data locality n'est pas prioritaire !! ● La fréquence des calculs (en millions) prévaut sur le volume des données. Et les traitements parallèles peuvent partager des données sur le réseau. ● Le client n'attend pas le résultat, il est notifié quand c'est prêt ● Les temps de réponse varient entre plusieurs heures à quelques jours
  27. 27. © Karim Baïna 2016 27 Vue globale de l'architecture Big Data Real Time Processing Big Data Zone ata ke
  28. 28. © Karim Baïna 2016 28 Big Data – Visualisation de données « Dataviz »
  29. 29. © Karim Baïna 2016 29 Big Data & visualisation http://www.mastersindatascience.org/blog/10-cool-big-data-visualizations/
  30. 30. © Karim Baïna 2016 30 Big Data & visualisation http://www.mastersindatascience.org/blog/10-cool-big-data-visualizations/
  31. 31. © Karim Baïna 2016 31 Big Data & visualisation http://www.mastersindatascience.org/blog/10-cool-big-data-visualizations/
  32. 32. © Karim Baïna 2016 32 Big Data & visualisation http://www.mastersindatascience.org/blog/10-cool-big-data-visualizations/
  33. 33. © Karim Baïna 2016 33 Big Data & visualisation http://www.theguardian.com/world/interactive/2011/mar/22/middle-east-protest-interactive-timeline
  34. 34. © Karim Baïna 2016 34 Big Data & visualisation Not all Arab tweeters agreed with Mona Eltahawy views of feminism in the Arab world Visualizing Big Data: Social Network Analysis by Michael Lieberman, 2014
  35. 35. © Karim Baïna 2016 35 Big Data – Quels Profils et Compétences ? Dev Ops Engineer Builds the cluster Data Analyst SQL & NoSQL guru Big Data Developer/ Insight Developer Insight Developer, Productise insight Data Scientist Data Manager, Machine learning expert Data Innovator Business Analyst, Data Value services Chandan Rajah @ChandanRajah
  36. 36. © Karim Baïna 2016 36 Big Data – Quels Profils et Compétences ? ● Pour devenir Spécialiste de Big Data – Un DBA devra apprendre à manipuler des données non-structurées – Un Statisticien devra apprendre à manipuler des données qui ne tiennent pas en mémoire RAM – Un ingénieur Génie Logiciel devra apprendre la modélisation statistique et la communication des résultats – Un analyste métier ingénieur BI (ou analyste d'affaires - Business Analyst) devra apprendre à exécuter des algorithmes décisonnels à l'échelle © Bill Howe
  37. 37. 37 Big Data – Le Maroc a tout à y gagner Énergies Desertec Développement durable & Économie verte Développement humain & Économie équitable Environnement Logistique Industrie & Services
  38. 38. Big Data Données massives Prof. Karim Baïna karim.baina@gmail.com Professeur d'Enseignement Supérieur ENSIAS, Université Mohammed V de Rabat, Maroc Co-responsable du Diplôme Universitaire « Big Data Scientist » Chef du Département Génie Logiciel Responsable du Service de Coopération Semaine Culturelle, 17-20 Mai 2016 Faculté des Sciences de Kénitra, Université Ibn Tofaïl
  39. 39. © Karim Baïna 2016 39 RTAP Real Time agregation Batch transformating OLAP Model Historisation & Analysis !HBase Real Time vs Batch vs Long Term Big Data processing IoTSensor/Machine ServerLogs,Text Clickstream Geospatiale,Sentiments
  40. 40. © Karim Baïna 2016 40 Big Data Reference Architecture http://thinkbig.teradata.com/leading_big_data_technologies/big-data-reference-architecture/
  41. 41. © Karim Baïna 2016 41 Big Data - Gartner Hype Curve

×