Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

SQL on Hadoop für praktikables BI auf Big Data

690 vues

Publié le

Nachdem in den letzten Jahren NoSQL ein beherrschendes Thema im Kontext von Big Data war, gewinnt SQL als Anfragesprache wieder große Bedeutung im Hadoop-Umfeld. Dabei steht mit Hive ein SQL-Dialekt zur Verfügung, mit dem zwar leicht Batch-orientierte ETL-Strecken für Hadoop gebaut werden können, der aber bisher für interaktive Analysen nicht geeignet war Mit Impala, Presto, Spark SQL und dem Stinger-Projekt ändert sich das nun rapide. Schnelle verteilte Query Engines erlauben interaktive analytische Anfragen auf großen Datenmengen. Dazu kommen neue Speicherformate wie Parquet und ORC, die effizientere Repräsentation und schnelleren Zugriff versprechen. In dieser Session geben wir einen Überblick über Stärken und Schwächen der verschiedenen Ansätze und berichten praktische Erfahrungen aus Projekten zur Integration mit Open Source und kommerziellen BI-Lösungen.

Speaker: Hans-Peter Zorn und Dominik Benz, inovex GmbH, Karlsruhe

Mehr Vorträge: https://www.inovex.de/de/content-pool/vortraege/

Publié dans : Technologie
  • DOWNLOAD FULL BOOKS, INTO AVAILABLE FORMAT ......................................................................................................................... ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/yxufevpm } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/yxufevpm } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/yxufevpm } ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/yxufevpm } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/yxufevpm } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/yxufevpm } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Répondre 
    Voulez-vous vraiment ?  Oui  Non
    Votre message apparaîtra ici
  • DOWNLOAD FULL BOOKS, INTO AVAILABLE FORMAT ......................................................................................................................... ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/yxufevpm } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/yxufevpm } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/yxufevpm } ......................................................................................................................... 1.DOWNLOAD FULL. PDF EBOOK here { https://tinyurl.com/yxufevpm } ......................................................................................................................... 1.DOWNLOAD FULL. EPUB Ebook here { https://tinyurl.com/yxufevpm } ......................................................................................................................... 1.DOWNLOAD FULL. doc Ebook here { https://tinyurl.com/yxufevpm } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Répondre 
    Voulez-vous vraiment ?  Oui  Non
    Votre message apparaîtra ici

SQL on Hadoop für praktikables BI auf Big Data

  1. 1. SQL on Hadoop für praktikables 
 BI auf Big Data ! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh
  2. 2. 2 War nicht BigData das gleiche NoSQL?
  3. 3. 3 Wie viele SQL Lösungen für Hadoop gibt es mittlerweile?
  4. 4. 4 ! No SQL!? Hive Presto Hive on Spark Shark Hive-on-Tez Tajo Lingual Apache DrillPhoenix Trafodion Hadapt BigSQL CitusDB Impala Spark SQL Splice Pivotal HAWQ IBM BigSQL Aster SQL/Mapreduce Oracle Hadoop Connector InfiniDB Kylin
  5. 5. 5 Agenda • Warum SQL,Anwendungfälle • Überblick Hive • Wie kann Hive verbessert werden • SQL-Engines:Welche für was? • Zusammenfassung
  6. 6. 6 Warum jetzt doch SQL? flickr.com/salynaz • Türöffner zur BigData-Welt • Kenntnisse weit verbreitet • Software:Treiber vorhanden flickr.com/salynaz
  7. 7. 7 No SQL? Hive Presto Hive on Spark Shark Hive-on-Tez Tajo Lingual Apache DrillPhoenix Trafodion Hadapt BigSQL CitusDB Impala Spark SQL Splice Pivotal HAWQ IBM BigSQL Aster SQL/Mapreduce Oracle Hadoop Connector InfiniDB Kylin
  8. 8. 8 Hive ursprünglich von Facebook • ursprünglich von Facebook • Compiliert HiveQL, ein SQL-Dialekt, zu MapReduce-Jobs • Schema wird separat zu den Daten abgelegt: Metastore
  9. 9. 9 Hive Architektur Meta store Hive Server2 Parser, Analyzer, Compiler Anwender HadoopHive Query
  10. 10. 10 Hive ETL: gut geeignet • ETL: gut geeignet • Ad-hoc: Zu hohe Latenz • Analytics: Latenz, Sprachumfang ungenügend
  11. 11. 11 Was kann man besser machen? Oder: Warum ist Hive wie es ist
  12. 12. 12 Hive auf Mapreduce Rot: Plattenzugriff Kunden Adressen Käufe Produkte Map Map Reduce Temporärtabelle Map Reduce Reduce-side Join HDFS Shuffle Shuffle HDFS HDFS HDFS Map-Side Join HDFS HDFS HDFS HDFS Zieltabelle
  13. 13. 13 Optimiertes Hive: DAGs Kunden Adressen Käufe Produkte Map Map Reduce Reduce Reduce-side Join Shuffle Shuffle Map-Side Join HDFS HDFS HDFS HDFS Adressen HDFS
  14. 14. 14 Hive Presto Hive on Spark Shark Hive-on-Tez Tajo Lingual Apache DrillPhoenix Trafodion Hadapt BigSQL CitusDB Impala Spark SQL Splice Pivotal HAWQ IBM BigQuery Aster SQL/Mapreduce Oracle Hadoop Connector InfiniDB Kylin
  15. 15. 15 MPP (massive parallel processing) Datenbanken HDFS Slave (blackbox) Master Slave (blackbox) Slave (blackbox) Slave (blackbox) HDFS HDFS HDFS
  16. 16. 16 MPP-basiert Hive Presto Hive on Spark Shark Hive-on-Tez Tajo Lingual Apache DrillPhoenix Trafodion Hadapt BigSQL CitusDB Impala Spark SQL Splice Pivotal HAWQ IBM BigSQL Aster SQL/Mapreduce Oracle Hadoop Connector InfiniDB Kylin
  17. 17. 17 No SQL!? Hive Presto Hive on Spark Shark Hive-on-Tez Tajo Lingual Apache DrillPhoenix Trafodion Hadapt BigSQL CitusDB Impala Spark SQL Splice Pivotal HAWQ IBM BigSQL Aster SQL/Mapreduce Oracle Hadoop Connector InfiniDB Kylin
  18. 18. 18 Stinger initiative • Hortonworks/Microsoft • Hive weiterentwickeln • Geschwindigkeit:Tez, ORC • SQL-Features,Analytische Queries (OVER) • Security (GRANT)
  19. 19. 19 Tez und Spark TEZ Hive Spark Spark MR YARN • YARN:Tez, Spark und Hive nebeneinander • Tez: Neuer, spezialisierter • Spark: generischer, viel Monumentum TEZ Hive Spark Spark MR YARN
  20. 20. 20 Impala • MPP-basiert • Queries zu nativem Code • Speicherhungrig, empfohlen 128GB • keine strukturierten Datentypen • Zwischenergebnisse müssen in RAM passen (bis Impala 2.0)
  21. 21. 21 Facebooks Presto • MPP-Engine • Discovery-Server + Worker-Nodes • Struktur-Datentypen -> JSON • Hive, Cassandra, MySQL • Anwendung bei Facebook: Fact-table in Hive, Dimensions in MySQL • einfaches Deployment
  22. 22. 22 Apache Drill • MapR’s • Schema-on-Read • Connectoren für Hive, HBase, JSON, CSV. • Joins über mehrere Quellen hinweg • Compliliert Queries zu Java-Byte-Code • Version 0.5.0
  23. 23. 23 Kylin Sehr neu, entwickelt von eBay (M)OLAP Engine Aggregate werden in HBase gespeichert
  24. 24. 24 Saiku - Beispiel 2
  25. 25. 25 Mondrian mit Hive / Impala + Saiku UI
  26. 26. 26 Mondrian mit Kylin
  27. 27. 27 Doch einige Zahlen 50,91& 34,31& 16,69& 30,96& 39,43& 5,25& 9,25& 0,00& 10,00& 20,00& 30,00& 40,00& 50,00& 60,00& 70,00& Hive& Shark& Shark/Cluster& Im pala& Presto& Drill& Tajo&
  28. 28. 28 Resume I Zahlen noch unzuverlässig Schnell Ausgereift Connectivity Sprach- UmfangHive PrestoImpala Drill Tez/Spark Tajo
  29. 29. Resumé • Extrem schnell wachsendes, sich änderndes Umfeld. • Unübersichtlich • Keine „One-Size-Fits-All“ Lösung bisher • Anhand des individuellen Anwendungsfalles zu evaluieren.
  30. 30. 30 Kontakt ! Hans-Peter Zorn Data Management & Analytics ! inovex GmbH Office Karlsruhe Ludwig-Erhard-Allee 6 76131 Karlsruhe ! 0173 31 81 093 hzorn@inovex.de ! Vielen Dank für Eure Aufmerksamkeit!

×