SlideShare une entreprise Scribd logo
1  sur  14
Télécharger pour lire hors ligne
Badanie skalowalności systemu
HBase

Zygmunt Mazur, Wojciech Langiewicz
Plan prezentacji
•
•
•
•
•

Czym jest HBase i NoSQL?
Podstawy architektury
Przykłady zastosowania
Przeprowadzone testy i wyniki
Podsumowanie
Skalowalność
• Zdolność do zwiększania wydajności
systemu wraz ze zwiększaniem jego
zasobów (np. sprzętowych)
• Liniowa skalowalność – zwiększając ilość
zasobów systemu X razy, zwiększamy
także X razy jego wydajność
• Większość RDBMS nie posiada tej cechy
• HBase jest skalowalny do nawet setek
serwerów
Czym jest HBase
• Nierelacyjna baza danych (NoSQL)
• Otwarto-źródłowa implementacja BigTable
• Dostęp w czasie rzeczywistym do
ogromnych ilości danych
• Przechowywanie miliardów wierszy i
milionów kolumn
NoSQL
• Brak schematu danych
• Brak JOIN'ów, brak SQL
• np.: bazy klucz/wartość, bazy
dokumentowe, bazy grafowe
• Bardziej wyspecjalizowane niż RDBMS
Google BigTable
• Od 2004 roku używana przez większość
usług Google, m.in.:
Google Reader, Gmail, YouTube,
Google Maps
• HBase jest implementacją architektury
BigTable tworzoną przez fundację Apache
Podstawy architektury
•
•
•
•

Rozproszenie
Redundancja
Wielowymiarowe klucze
Dane wersjonowane znacznikiem czasu
Wizualizacja danych
Przykłady zastosowania
– historia zmian danych użytkownika
• Przechowywanie historii zmian np. adresu
e-mail, hasła, danych osobowych
• Wykorzystywanie natywnych dla HBase
mechanizmów wersjonowania
• Umożliwia bezpieczny backup
i odtworzenie danych
Przeprowadzone testy
• Testy przeprowadzono standardowym
narzędziem dołączonym do HBase
• Zawierają testy użyte przez Google do
oceny BigTable
• Standardowe testy umożliwiają
porównywanie BigTable oraz HBase na
przestrzeni czasu
Wyniki testu – czas sumaryczny
randomRead
50000000

4

45000000

3,5

40000000
3
35000000

total time

25000000

2

20000000

1,5

15000000
1
10000000
0,5

5000000
0

0
2

4

6
number of servers
rowCount
milliseconds

8
scalability

10

12

scalability

2,5

30000000
Wyniki testu – czas/serwer
randomRead
14000000

0,5
0,45

12000000
0,4
0,35
0,3

8000000

0,25
6000000

0,2
0,15

4000000

0,1
2000000
0,05
0

0
2

4

6

8

number of servers
rowCount
milliseconds per server

10
scalability

12

scalability

miliseconds per server

10000000
Podsumowanie
1. Nowe, specjalistyczne rozwiązania
2. Dzięki skalowalności nadają się do
przetwarzania dużych ilości danych
3. HBase z powodzeniem używane przez:
Facebook, Twitter, Yahoo!, Filmweb
Dziękuję za uwagę

Contenu connexe

Similaire à Badanie skalowalności HBase

Liquibase - database structure versioning
Liquibase - database structure versioningLiquibase - database structure versioning
Liquibase - database structure versioningPiotr Pelczar
 
PLNOG16: Nowe założenia dla zbieranie logów, statystyk i alertów, Maciej Kałk...
PLNOG16: Nowe założenia dla zbieranie logów, statystyk i alertów, Maciej Kałk...PLNOG16: Nowe założenia dla zbieranie logów, statystyk i alertów, Maciej Kałk...
PLNOG16: Nowe założenia dla zbieranie logów, statystyk i alertów, Maciej Kałk...PROIDEA
 
Analizy danych w chmurze
Analizy danych w chmurzeAnalizy danych w chmurze
Analizy danych w chmurzenubitech
 
Michał Żyliński: Cortana dla niewtajemniczonych
Michał Żyliński: Cortana dla niewtajemniczonychMichał Żyliński: Cortana dla niewtajemniczonych
Michał Żyliński: Cortana dla niewtajemniczonychAnalyticsConf
 
Paleta możliwości web developera
Paleta możliwości web developeraPaleta możliwości web developera
Paleta możliwości web developeraTomasz Borowski
 
Skalowalność Magento - MMPL13
Skalowalność Magento - MMPL13Skalowalność Magento - MMPL13
Skalowalność Magento - MMPL13Divante
 
20160316 techstolica - cloudstorage -tidk
20160316  techstolica - cloudstorage -tidk20160316  techstolica - cloudstorage -tidk
20160316 techstolica - cloudstorage -tidkŁukasz Grala
 
[PL] WDI22-Adrian Chodkowski - Azure SQL Skalowalna baza w świecie chmury.pptx
[PL] WDI22-Adrian Chodkowski - Azure SQL Skalowalna baza w świecie chmury.pptx[PL] WDI22-Adrian Chodkowski - Azure SQL Skalowalna baza w świecie chmury.pptx
[PL] WDI22-Adrian Chodkowski - Azure SQL Skalowalna baza w świecie chmury.pptxSeeQuality.net
 
Kurs MySQL i SQL, bazy danych - prezentacja ppt, pdf, porady, trening, kurs i...
Kurs MySQL i SQL, bazy danych - prezentacja ppt, pdf, porady, trening, kurs i...Kurs MySQL i SQL, bazy danych - prezentacja ppt, pdf, porady, trening, kurs i...
Kurs MySQL i SQL, bazy danych - prezentacja ppt, pdf, porady, trening, kurs i...twitch.tv/katmpb
 
[#4] spark - IBM Integrated Analytics System
[#4] spark - IBM Integrated Analytics System[#4] spark - IBM Integrated Analytics System
[#4] spark - IBM Integrated Analytics SystemArtur Wronski
 
Bazy danych i MySQL. Od podstaw
Bazy danych i MySQL. Od podstawBazy danych i MySQL. Od podstaw
Bazy danych i MySQL. Od podstawWydawnictwo Helion
 
Dlaczego Drupal CMS? - www.siplex.pl
Dlaczego Drupal CMS? - www.siplex.plDlaczego Drupal CMS? - www.siplex.pl
Dlaczego Drupal CMS? - www.siplex.plKamil Niewczas
 
Microsoft Business Intelligence w 2017 roku
Microsoft Business Intelligence w 2017 rokuMicrosoft Business Intelligence w 2017 roku
Microsoft Business Intelligence w 2017 rokuHighWheelSoftware
 
IT od kuchni w Nokaut.pl
IT od kuchni w Nokaut.pl IT od kuchni w Nokaut.pl
IT od kuchni w Nokaut.pl 3camp
 
Elitmind @ Azure User Group #16 Warszawa - Michał Krajewski
Elitmind @  Azure User Group #16 Warszawa - Michał Krajewski Elitmind @  Azure User Group #16 Warszawa - Michał Krajewski
Elitmind @ Azure User Group #16 Warszawa - Michał Krajewski Elitmind
 
[infraXstructure] Wirtualizacja aplikacji czy desktopów (PL)
[infraXstructure] Wirtualizacja aplikacji czy desktopów (PL)[infraXstructure] Wirtualizacja aplikacji czy desktopów (PL)
[infraXstructure] Wirtualizacja aplikacji czy desktopów (PL)Jaroslaw Sobel
 

Similaire à Badanie skalowalności HBase (20)

Liquibase - database structure versioning
Liquibase - database structure versioningLiquibase - database structure versioning
Liquibase - database structure versioning
 
PLNOG16: Nowe założenia dla zbieranie logów, statystyk i alertów, Maciej Kałk...
PLNOG16: Nowe założenia dla zbieranie logów, statystyk i alertów, Maciej Kałk...PLNOG16: Nowe założenia dla zbieranie logów, statystyk i alertów, Maciej Kałk...
PLNOG16: Nowe założenia dla zbieranie logów, statystyk i alertów, Maciej Kałk...
 
Analizy danych w chmurze
Analizy danych w chmurzeAnalizy danych w chmurze
Analizy danych w chmurze
 
Podstawy ETL z SSIS
Podstawy ETL z SSISPodstawy ETL z SSIS
Podstawy ETL z SSIS
 
Michał Żyliński: Cortana dla niewtajemniczonych
Michał Żyliński: Cortana dla niewtajemniczonychMichał Żyliński: Cortana dla niewtajemniczonych
Michał Żyliński: Cortana dla niewtajemniczonych
 
Paleta możliwości web developera
Paleta możliwości web developeraPaleta możliwości web developera
Paleta możliwości web developera
 
Skalowalność Magento - MMPL13
Skalowalność Magento - MMPL13Skalowalność Magento - MMPL13
Skalowalność Magento - MMPL13
 
20160316 techstolica - cloudstorage -tidk
20160316  techstolica - cloudstorage -tidk20160316  techstolica - cloudstorage -tidk
20160316 techstolica - cloudstorage -tidk
 
[PL] WDI22-Adrian Chodkowski - Azure SQL Skalowalna baza w świecie chmury.pptx
[PL] WDI22-Adrian Chodkowski - Azure SQL Skalowalna baza w świecie chmury.pptx[PL] WDI22-Adrian Chodkowski - Azure SQL Skalowalna baza w świecie chmury.pptx
[PL] WDI22-Adrian Chodkowski - Azure SQL Skalowalna baza w świecie chmury.pptx
 
Kurs MySQL i SQL, bazy danych - prezentacja ppt, pdf, porady, trening, kurs i...
Kurs MySQL i SQL, bazy danych - prezentacja ppt, pdf, porady, trening, kurs i...Kurs MySQL i SQL, bazy danych - prezentacja ppt, pdf, porady, trening, kurs i...
Kurs MySQL i SQL, bazy danych - prezentacja ppt, pdf, porady, trening, kurs i...
 
[#4] spark - IBM Integrated Analytics System
[#4] spark - IBM Integrated Analytics System[#4] spark - IBM Integrated Analytics System
[#4] spark - IBM Integrated Analytics System
 
Transact-SQL. Czarna księga
Transact-SQL. Czarna księgaTransact-SQL. Czarna księga
Transact-SQL. Czarna księga
 
WHUG Azure HDInsight
WHUG Azure HDInsightWHUG Azure HDInsight
WHUG Azure HDInsight
 
Bazy danych i MySQL. Od podstaw
Bazy danych i MySQL. Od podstawBazy danych i MySQL. Od podstaw
Bazy danych i MySQL. Od podstaw
 
Dlaczego Drupal CMS? - www.siplex.pl
Dlaczego Drupal CMS? - www.siplex.plDlaczego Drupal CMS? - www.siplex.pl
Dlaczego Drupal CMS? - www.siplex.pl
 
Microsoft Business Intelligence w 2017 roku
Microsoft Business Intelligence w 2017 rokuMicrosoft Business Intelligence w 2017 roku
Microsoft Business Intelligence w 2017 roku
 
It od kuchni w nokaut.pl
It od kuchni w nokaut.plIt od kuchni w nokaut.pl
It od kuchni w nokaut.pl
 
IT od kuchni w Nokaut.pl
IT od kuchni w Nokaut.pl IT od kuchni w Nokaut.pl
IT od kuchni w Nokaut.pl
 
Elitmind @ Azure User Group #16 Warszawa - Michał Krajewski
Elitmind @  Azure User Group #16 Warszawa - Michał Krajewski Elitmind @  Azure User Group #16 Warszawa - Michał Krajewski
Elitmind @ Azure User Group #16 Warszawa - Michał Krajewski
 
[infraXstructure] Wirtualizacja aplikacji czy desktopów (PL)
[infraXstructure] Wirtualizacja aplikacji czy desktopów (PL)[infraXstructure] Wirtualizacja aplikacji czy desktopów (PL)
[infraXstructure] Wirtualizacja aplikacji czy desktopów (PL)
 

Plus de Wojciech Langiewicz

Plus de Wojciech Langiewicz (7)

JSON API Specificiation
JSON API SpecificiationJSON API Specificiation
JSON API Specificiation
 
Bitcoin: introduction for programmers - Pecha Kucha
Bitcoin:   introduction for programmers - Pecha KuchaBitcoin:   introduction for programmers - Pecha Kucha
Bitcoin: introduction for programmers - Pecha Kucha
 
Ionic 2 intro
Ionic 2   introIonic 2   intro
Ionic 2 intro
 
Mutation testing in Java
Mutation testing in JavaMutation testing in Java
Mutation testing in Java
 
Bitcoin for programmers - part 1 version 2
Bitcoin for programmers - part 1 version 2Bitcoin for programmers - part 1 version 2
Bitcoin for programmers - part 1 version 2
 
Introduction to Bitcoin for programmers
Introduction to Bitcoin for programmersIntroduction to Bitcoin for programmers
Introduction to Bitcoin for programmers
 
Hadoop w NK.pl
Hadoop w NK.plHadoop w NK.pl
Hadoop w NK.pl
 

Badanie skalowalności HBase

  • 1. Badanie skalowalności systemu HBase Zygmunt Mazur, Wojciech Langiewicz
  • 2. Plan prezentacji • • • • • Czym jest HBase i NoSQL? Podstawy architektury Przykłady zastosowania Przeprowadzone testy i wyniki Podsumowanie
  • 3. Skalowalność • Zdolność do zwiększania wydajności systemu wraz ze zwiększaniem jego zasobów (np. sprzętowych) • Liniowa skalowalność – zwiększając ilość zasobów systemu X razy, zwiększamy także X razy jego wydajność • Większość RDBMS nie posiada tej cechy • HBase jest skalowalny do nawet setek serwerów
  • 4. Czym jest HBase • Nierelacyjna baza danych (NoSQL) • Otwarto-źródłowa implementacja BigTable • Dostęp w czasie rzeczywistym do ogromnych ilości danych • Przechowywanie miliardów wierszy i milionów kolumn
  • 5. NoSQL • Brak schematu danych • Brak JOIN'ów, brak SQL • np.: bazy klucz/wartość, bazy dokumentowe, bazy grafowe • Bardziej wyspecjalizowane niż RDBMS
  • 6. Google BigTable • Od 2004 roku używana przez większość usług Google, m.in.: Google Reader, Gmail, YouTube, Google Maps • HBase jest implementacją architektury BigTable tworzoną przez fundację Apache
  • 9. Przykłady zastosowania – historia zmian danych użytkownika • Przechowywanie historii zmian np. adresu e-mail, hasła, danych osobowych • Wykorzystywanie natywnych dla HBase mechanizmów wersjonowania • Umożliwia bezpieczny backup i odtworzenie danych
  • 10. Przeprowadzone testy • Testy przeprowadzono standardowym narzędziem dołączonym do HBase • Zawierają testy użyte przez Google do oceny BigTable • Standardowe testy umożliwiają porównywanie BigTable oraz HBase na przestrzeni czasu
  • 11. Wyniki testu – czas sumaryczny randomRead 50000000 4 45000000 3,5 40000000 3 35000000 total time 25000000 2 20000000 1,5 15000000 1 10000000 0,5 5000000 0 0 2 4 6 number of servers rowCount milliseconds 8 scalability 10 12 scalability 2,5 30000000
  • 12. Wyniki testu – czas/serwer randomRead 14000000 0,5 0,45 12000000 0,4 0,35 0,3 8000000 0,25 6000000 0,2 0,15 4000000 0,1 2000000 0,05 0 0 2 4 6 8 number of servers rowCount milliseconds per server 10 scalability 12 scalability miliseconds per server 10000000
  • 13. Podsumowanie 1. Nowe, specjalistyczne rozwiązania 2. Dzięki skalowalności nadają się do przetwarzania dużych ilości danych 3. HBase z powodzeniem używane przez: Facebook, Twitter, Yahoo!, Filmweb