Ce diaporama a bien été signalé.
Le téléchargement de votre SlideShare est en cours. ×

Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark Meetup

Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Chargement dans…3
×

Consultez-les par la suite

1 sur 25 Publicité

Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark Meetup

Télécharger pour lire hors ligne

Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy

Retour d'expérience sur la mise en place d'un Datalab avec Hadoop, Spark et ElasticSearch dans un environnement contraint. Nous allons exposer les méthodes qui nous ont permis d'améliorer la conception, le développement, les performances et la recette d'une application complexe en Spark.

Jonathan Winandy est MOE, développeur Java/Scala spécialisé dans les pipelines de données.

Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy

Retour d'expérience sur la mise en place d'un Datalab avec Hadoop, Spark et ElasticSearch dans un environnement contraint. Nous allons exposer les méthodes qui nous ont permis d'améliorer la conception, le développement, les performances et la recette d'une application complexe en Spark.

Jonathan Winandy est MOE, développeur Java/Scala spécialisé dans les pipelines de données.

Publicité
Publicité

Plus De Contenu Connexe

Diaporamas pour vous (20)

Similaire à Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark Meetup (20)

Publicité

Plus par HUG France (20)

Publicité

Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark Meetup

  1. 1. U n i v a l e n c e DATALAB 101 Jonathan WINANDY
  2. 2. About me Jonathan WINANDY Data Engineer / Entrepreneur @AHOY_JON U n i v a l e n c e
  3. 3. Présentation What are Datalabs ? Projects to transform an organisation based on its existing data.
  4. 4. Présentation Why ? Data is a leverage for economic growth.
  5. 5. Présentation But ? Data has no value by itself.
  6. 6. Is data the new oil ?
  7. 7. Présentation How do we start ? By building a Data platform ?
  8. 8. Présentation Data Platform Awesome pipelines + BIG Data technologies
  9. 9. Rex > Data Platform U n i v a l e n c e Rex > Data Platform > Schéma cible Staging DWH Business Views sql3 sql2 sql1 Logs Events other cube sql Serving Metadata
  10. 10. Rex > Data Platform U n i v a l e n c e Rex > Data Platform > Schéma cible Staging DWH Business Views sql3 sql2 sql1 Logs Events other cube sql Serving Metadata Staging : Storage space used to decouple from upstream sources.
  11. 11. Rex > Data Platform HADOOP ETL workflow : Rex > Data Platform > Data Warehouse > ETL API 1 (file) API 2 (file) Ref (file)DB API adapter result DB adapter DB adapter serving DBFilesFilesFiles processprocessprocess U n i v a l e n c e
  12. 12. Rex > Data Platform U n i v a l e n c e Rex > Data Platform > Business views & Reporting ● Création des axes métiers ● Visualisation des données DWH BV BV BV DB SQL Self service Data visualisation
  13. 13. Rex > Data Platform Objectives : Storage / Warehousing. Reduce access time. Elasticity. Collaboration. Reuse. U n i v a l e n c e
  14. 14. Présentation But ? Building a data platform is a BIG project with no clear return on investment.
  15. 15. Présentation “The Datalab as an infrastructure.”
  16. 16. Présentation How to grow a Datalab ? Start small with an end to end business case.
  17. 17. Rex > Datalab U n i v a l e n c e
  18. 18. U n i v a l e n c e CoGroup Map
  19. 19. Rex > Datalab > Recipe 1. Stage the data 2. Source mapping 3. CoGroup 4. Enrich 5. Make it accessible Sprint A. Cardinality Study B. Technical mapping C. Business-oriented model Marathon
  20. 20. Rex > Datalab > CoGroup { "group":123, "V":[{"c2":true, "c1":123}], "R":[{"c3":"DIRECT", "c2":"boeuf bourguignon", "c1":123}, {“c3":"DIRECT", "c2":"nouilles de riz", “c1":123}, {“c3":"INDIRECT", "c2":"soupe au melon d’hiver", "c1":123}, {"c3":"INDIRECT", "c2":"nouilles de riz", “c1":123}]} } group int v array<struct<c1:int, c2:boolean>> r array<struct<c1:int, c2:string, c3:string>>
  21. 21. Rex > Datalab > Ex f: G => Visiteur
  22. 22. Rex > Datalab > Query select count(*) from visitor, visitor.session session, session.page page where visitor.is_robot = false and page.type = product U n i v a l e n c e Query for nested Data (Impala) :
  23. 23. Rex > Datalab > Sum UP CoGroup all your inputs with PIG. Map the data with Spark. Store in ElasticSearch.
  24. 24. Présentation Conclusion
  25. 25. Présentation Questions ?

×