Apache Spark je od nedavno pojačanje na Azure-u, ako govorimo o obradi podataka koje nazivamo Big Data. Spark je platforma za distribuiranu obradu podataka. Dolazi sa komponentama Spark Core, Spark SQL, Spark Streaming i Spark MLlib. Nešto po čemu je Spark postao poznat jeste i brzina. Testovi pokazuju da je deset puta brži u obradi podataka od MapReduce-a. Spark omogućava da proširite i koristite postojeća rešenja za Big Data analitiku. Lako se integriše sa Power BI.
More than Just Lines on a Map: Best Practices for U.S Bike Routes
Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?
2. Big Data: Apache Spark – novo
pojačanje tradicionalnom BI ili
ne?
Darko Marjanović
Things Solver
darko@thingsolver.com
3. • Big Data
• Apache Spark
• Spark i Azure
• Spark i PowerBI
Agenda
4. Big Data predstavlja podatke koji pristižu velikom brzinom i one su količine koja prevazilazu
mogućnosti tradicionalnog softvera za skladištenje, obradu i upravljanje podacima.
Big Data je sve ono što ne može da stane u Excel.
Big Data
5. • Društvene mreže (Twitter, Facebook…)
• Email, HTML, Click Stream
• Slike, Video, Logovi, Senzorski podaci
• Relacione baze podataka
• Nestrukturirani (Tekst, Slike…)
• Polustrukturirani (JSON)
• Strutkturirani (Relacione baze)
Big Data
7. Apache Spark je platforma za big data obradu, sa ugrađenim modulima za mašinsko učenje, SQL,
streaming i graf obradu.
Apache Spark
8. • RDD (Resilient Distributed Datasets )
• Kolekcija objekta rasprostranjenih kroz klaster, u RAM-u ili na disku
• Automatski oporavak
• Praralelizam
• Operacije
• Lazy transformacije (Map, Filter, groupBy…)
• Akcije (count, collect, save…)
Apache Spark - Osnovni koncepti
9. • Obrada u memoriji
• Premeštanje na disk ako podaci ne mogu da stanu u memoriju
Apache Spark memorija?
10. • Java, Scala, Python
• Batch, Streaming, Interactive
• Standalone, YARN…
• Izvori podataka (HDFS, Hive, Cassandra, HBase..)
• SparkSQL, Streamin, MLib, GraphX
Razvoj Spark Aplikacija
11. • Problemi koji se rešavaju pomoću više iteracija
• Mašinsko učenje
• Analitika u realnom vremenu
• Brži razvoj jednostavnih aplikacija
Spark Prednosti
12. • Bazirani na Python Pandas
• Distribuirana kolekcija podataka organizovana u imenovane kolone
• Koncept iz relacionih baza podataka
• Bolja optimizacija
• Dizajnirani za velike količine podataka
• JSON, Parquet, Baze podataka…
Apache Spark – Data Frames
13. • SQL Like
• Python, Scala, Java
• ETL (JSON, Parquet ili bilo koja baza podataka)
• Ad-hoc upiti
• Pristup Spark podacima preko tradicionalnih BI alata kroz JDBC
Spark SQL