Ce diaporama a bien été signalé.
Le téléchargement de votre SlideShare est en cours. ×

Morning Tech#1 BigData - Oxalide Academy

Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Chargement dans…3
×

Consultez-les par la suite

1 sur 30 Publicité

Morning Tech#1 BigData - Oxalide Academy

Télécharger pour lire hors ligne

Au delà de ce buzz word :
Les grands concepts
Les étapes clés des projets Big Data et les technologies à utiliser (stockage, ingestion, …)
Les enjeux des architectures Big Data (architecture lambda, …)
L'intelligence artificielle (machine learning, deep learning, …)
Et un cas d'usage du big data sur AWS autour de l'utilisation des données gyroscopiques de vos internautes mobiles.

Au delà de ce buzz word :
Les grands concepts
Les étapes clés des projets Big Data et les technologies à utiliser (stockage, ingestion, …)
Les enjeux des architectures Big Data (architecture lambda, …)
L'intelligence artificielle (machine learning, deep learning, …)
Et un cas d'usage du big data sur AWS autour de l'utilisation des données gyroscopiques de vos internautes mobiles.

Publicité
Publicité

Plus De Contenu Connexe

Similaire à Morning Tech#1 BigData - Oxalide Academy (20)

Plus par Oxalide (20)

Publicité

Plus récents (20)

Morning Tech#1 BigData - Oxalide Academy

  1. 1. MorningTech #1 – BigData le 15 décembre 2016 –Ludovic Piot
  2. 2. Les événements Oxalide • Objectif : présentation d’une thématique métier ou technique • Tout public : 80 à 100 personnes • Déroulé : 1 soir par trimestre de 18h à 21h • Introduction de la thématique par un partenaire • Tour de table avec des clients et non clients • Echange convivial autour d’un apéritif dînatoire • Objectif : présentation d’une technologie • Réservé aux clients : public technique avec laptop – 30 personnes • Déroulé : 1 matinée par trimestre de 9h à 13h • Présentation de la technologie • Tuto pour la configuration en ligne de commande • Objectif : présentation d’une thématique métier ou technique • Réservé aux clients : 30 personnes • Déroulé : 1 matin par trimestre de 9h à 12h • Big picture • Démonstration et retour d’expérience Apérotech Workshop Morning Tech
  3. 3. Les speakers Ludovic Piot Conseil / Archi / DevOps @ Oxalide @lpiot
  4. 4. Oxalide Recrute ! Contactez-nous à job@oxalide.com
  5. 5. Enjeux & tendances
  6. 6. SoLoMo et IoT – l’explosion de la data SO cial LOcal MO bile
  7. 7. IoT – l’explosion de la data ! Organizations are redefining data strategies due to the requirements of the evolving Enterprise Data Warehouse (EDW). Enterprise Data VoIP Machine Data Social Media
  8. 8. Les 3V : les dimensions du Gartner • Volume : Le volume de données crées et gérées est en constante augmentation (+59% / an en 2011) • Variété : Les types de données collectées sont très variés (texte, son, image, logs…). Nécessité que les outils de traitement prennent en compte cette diversité • Vélocité : Besoin de rapidité pour pouvoir utiliser les données au fur et à mesure qu'elles sont collectées. Il faut les utiliser rapidement, ou elles n'ont aucune valeur. Les 2 nouveaux V émergeant : • Véracité : dimension apportant une notion de qualité de la donnée pour le métier • Visibilité : pour souligner la nécessité que la data soit accessible pour le métier afin de permettre la prise de décision rapide
  9. 9. Evolution des tendances de la BigData batch temps réel prédict rapport alertes prévision
  10. 10. Principes
  11. 11. BigData vs. gestion traditionnelle des données ! Traditional Systems vs. Hadoop Traditional Database SCALE (storage & processing) Hadoop Distribution NoSQL MPP Analytics EDW schema speed governance best fit use processing Required on write Required on read Reads are fast Writes are fast Standards and structured Loosely structured Limited, no data processing Processing coupled with data data typesStructured Multi and unstructured Interactive OLAP Analytics Complex ACID Transactions Operational Data Store Data Discovery Processing unstructured data Massive Storage/Processing
  12. 12. Le stockage distribué ! Data Pipeline DataNode 1 Data Integrity – Writing Data 6. Success! 3.Data+ checksum 4. Verify Checksum 4. Data and checksum 5. Success! 5.Success! DataNode 4 DataNode 12 Client 2. OK, please use DataNodes 1, 4, 12. 1. I want to write a block of data. NameNode
  13. 13. Le théorème de CAP
  14. 14. Le Map/Reduce ! MapReduce Map$Phase$ Shuffle/Sort$ Mapper $ Mapper $ Mapper $ Data$is$shuffled$ across$the$network$ and$sorted$ NM + DN NM + DN NM + DN Reduce$Phase$ Reducer $ Reducer $ NM + DN NM + DN
  15. 15. La table des latences
  16. 16. Le pipeline BigData data answers ingest / collect store process analyse Time to answer (latency) Throughput Cost
  17. 17. La Lambda Architecture Serving Layer Standardize, Cleanse, Integrate, Filter, Transform Batch Layer Extract & Load Conform, Summarize, Access Speed Layer •  Organize data based on source/derived relationships •  Allows for fault and rebuild process •  There are lots of different ways of organizing data in an enterprise data platform that includes Hadoop.
  18. 18. Ecosystème
  19. 19. Evolution des traitements Big Data
  20. 20. Evolution des traitements Big Data Dataflow Dataproc BigQueryBigTable CloudSQL Cloud Pub/Sub
  21. 21. Demo Time Amazon S3 http://bit.ly/2grJMMf Shard 0 Amazon Kinesis Amazon Cognito Amazon EC2 R Shiny-Server https://github.com/lpiot/amazon-kinesis-IoT-sensor-demo
  22. 22. Machine learning & deep learning
  23. 23. La démarche de datascience
  24. 24. Le Machine Learning • Jeu de données : labellisé (avec les réponses) • Objectif d’apprentissage : • Régression (prévision) • Classification Apprentissage supervisé
  25. 25. Hypothèse et fonction de coût But du jeu : Trouver une fonction h qui représente fidèlement les données. Régression linéaire : ℎ " = $% + $'"' + $("( + ⋯ + $*"*
  26. 26. Le Machine Learning • Jeu de données : non-labellisé (sans réponse) • Objectif d’apprentissage : • Identifier / détecter des structures dans les données Apprentissage non-supervisé
  27. 27. Algorithmes de classification But du jeu : Trouver l’algorithme qui distingue au mieux les structures dans les données.
  28. 28. Réseaux neuronaux • Basés sur le fonctionnement d’un cerveau • Hypothèse non linéaire ! • Classification multi-classe • Comme avant, on essaye de minimiser la fonction de coût en modifiant peu à peu les coefficients Θ(i)
  29. 29. Questions ? ?
  30. 30. Sources • [6, 10] : Hortonworks : Operations Management with HDP • [8, 11, 12] : http://www.slideshare.net/1Strategy/2016-utah-cloud-summit-big- data-architectural-patterns-and-best-practices-on-aws

×