SlideShare une entreprise Scribd logo
1  sur  21
Big Data: Hadoop i njegov
ekosistem
Darko Marjanović
CEO & Co-Founder @ Things Solver
darko@thingsolver.com
Agenda
• Big Data
• Hadoop
• HDFS
• Map Reduce
• YARN
• SPARK
• Ekosistem
Big Data
• Big Data predstavlja podatke koji pristižu velikom brzinom i one su
količine koja prevazilazi mogućnosti tradicionalnog softvera za
skladištenje, obradu i upravljanje podacima.
• Big Data je sve ono što ne može da stane u Excel.
Big Data - Dimenzije
Kompleksnost podataka
Količina (Volume)
Raznovrsnost (Variety) Brzina (Velocity)
Kvalitet (Veracity)
Big Data – Izvori podataka
• Društvene mreže (Twitter, Facebook…)
• Email, HTML, Click Stream
• slike, video, logovi, senzorski podaci
• Relacione baze podataka
Big Data - Korisnici
Hadoop
• Hadoop je open-source softver Apache fondacije.
• Služi za skladištenje i procesiranje velikih količina podataka.
• Napisan je u Java programskom jeziku.
Hadoop
• Hadoop Common
• HDFS
• Map Reduce
• YARN
Hadoop HDFS
Hadoop HDFS
Hadoop Map Reduce
HDFS
Data
MAP
MAP
MAP
REDUCE
REDUCE
Results
Hadoop YARN
• ResourceManager
• Scheduler – Alokacija resursa
• ApplicationsManager – Prihvatanje poslova …
• Nove aplikacije na Hadoop-u (Real Time, Interactive…)
• Veća iskorišćenost resursa
Spark
• Apache Spark je platforma za Big Data obradu, sa ugrađenim
modulima za mašinsko učenje, SQL, streaming i graf obradu.
• Obrada u memoriji.
• 10x brži od Map Reduce-a.
Hadoop
• Hadoop nije zamena za RDBMS.
• Hadoop nije baza podataka.
• Offline analitika.
• Jedan data centar.
Hadoop Mane
• Brzina
• Kompleksnost
• Podrška
• Obrada u memoriji
• Streaming
Ekosistem
• Hadoop je moguće nadogaraditi brojnim alatima kojima se
poboljšavaju mogućnosti i efikasnost obrade podataka.
• Dele se na alate za prenošenje podataka, analizu podataka,
upravljanje klasterom…
Ekosistem – Neki od alata
• Unos podatak
• Flume
• Kafka
• Sqoop
• …
• Obrada
• Hive
• Pig
• Storm
• …
• Upravljanje klasterom
• Ambari
• ..
Korisni linkovi
• Hadoop Srbija
• Hadoop
• Hortonworks
• Cloudera
Big Data: Hadoop i njegov
ekosistem
Darko Marjanović
CEO & Co-Founder @ Things Solver
darko@thingsolver.com

Contenu connexe

En vedette

Final الأسمدة-الكيميائية-وخطرها-على-صحةالانسان-و-التلوث-البيئة
Final الأسمدة-الكيميائية-وخطرها-على-صحةالانسان-و-التلوث-البيئةFinal الأسمدة-الكيميائية-وخطرها-على-صحةالانسان-و-التلوث-البيئة
Final الأسمدة-الكيميائية-وخطرها-على-صحةالانسان-و-التلوث-البيئة
DURAID ALTAY
 

En vedette (7)

Hadoop and IoT Sinergija 2014
Hadoop and IoT Sinergija 2014Hadoop and IoT Sinergija 2014
Hadoop and IoT Sinergija 2014
 
Baza podataka
Baza podatakaBaza podataka
Baza podataka
 
Big Data - pojam i značaj
Big Data - pojam i značajBig Data - pojam i značaj
Big Data - pojam i značaj
 
Final الأسمدة-الكيميائية-وخطرها-على-صحةالانسان-و-التلوث-البيئة
Final الأسمدة-الكيميائية-وخطرها-على-صحةالانسان-و-التلوث-البيئةFinal الأسمدة-الكيميائية-وخطرها-على-صحةالانسان-و-التلوث-البيئة
Final الأسمدة-الكيميائية-وخطرها-على-صحةالانسان-و-التلوث-البيئة
 
Hadoop ekosistem u praksi - socijalne mreže, unapređenje prodaje i servisa
Hadoop ekosistem u praksi - socijalne mreže, unapređenje prodaje i servisaHadoop ekosistem u praksi - socijalne mreže, unapređenje prodaje i servisa
Hadoop ekosistem u praksi - socijalne mreže, unapređenje prodaje i servisa
 
Big Data tools in practice
Big Data tools in practiceBig Data tools in practice
Big Data tools in practice
 
Hadoop infrastructure for education
Hadoop infrastructure for educationHadoop infrastructure for education
Hadoop infrastructure for education
 

Data Science Conference Belgrade

  • 1. Big Data: Hadoop i njegov ekosistem Darko Marjanović CEO & Co-Founder @ Things Solver darko@thingsolver.com
  • 2. Agenda • Big Data • Hadoop • HDFS • Map Reduce • YARN • SPARK • Ekosistem
  • 3. Big Data • Big Data predstavlja podatke koji pristižu velikom brzinom i one su količine koja prevazilazi mogućnosti tradicionalnog softvera za skladištenje, obradu i upravljanje podacima. • Big Data je sve ono što ne može da stane u Excel.
  • 4. Big Data - Dimenzije Kompleksnost podataka Količina (Volume) Raznovrsnost (Variety) Brzina (Velocity) Kvalitet (Veracity)
  • 5. Big Data – Izvori podataka • Društvene mreže (Twitter, Facebook…) • Email, HTML, Click Stream • slike, video, logovi, senzorski podaci • Relacione baze podataka
  • 6.
  • 7. Big Data - Korisnici
  • 8. Hadoop • Hadoop je open-source softver Apache fondacije. • Služi za skladištenje i procesiranje velikih količina podataka. • Napisan je u Java programskom jeziku.
  • 9. Hadoop • Hadoop Common • HDFS • Map Reduce • YARN
  • 13. Hadoop YARN • ResourceManager • Scheduler – Alokacija resursa • ApplicationsManager – Prihvatanje poslova … • Nove aplikacije na Hadoop-u (Real Time, Interactive…) • Veća iskorišćenost resursa
  • 14. Spark • Apache Spark je platforma za Big Data obradu, sa ugrađenim modulima za mašinsko učenje, SQL, streaming i graf obradu. • Obrada u memoriji. • 10x brži od Map Reduce-a.
  • 15. Hadoop • Hadoop nije zamena za RDBMS. • Hadoop nije baza podataka. • Offline analitika. • Jedan data centar.
  • 16. Hadoop Mane • Brzina • Kompleksnost • Podrška • Obrada u memoriji • Streaming
  • 17. Ekosistem • Hadoop je moguće nadogaraditi brojnim alatima kojima se poboljšavaju mogućnosti i efikasnost obrade podataka. • Dele se na alate za prenošenje podataka, analizu podataka, upravljanje klasterom…
  • 18. Ekosistem – Neki od alata • Unos podatak • Flume • Kafka • Sqoop • … • Obrada • Hive • Pig • Storm • … • Upravljanje klasterom • Ambari • ..
  • 19.
  • 20. Korisni linkovi • Hadoop Srbija • Hadoop • Hortonworks • Cloudera
  • 21. Big Data: Hadoop i njegov ekosistem Darko Marjanović CEO & Co-Founder @ Things Solver darko@thingsolver.com