Evoluzioni architetturali a partire da Hadoop

Evoluzioni architetturali a partire da
Hadoop
Monica Franceschini
Solution Architecture Manager
Big Data Competency Center
Engineering Group

Esperienze
ENERGY
Raccolta coordinate geo-
spaziali da sensori di
localizzazione per analisi
predittive.
FINANCE
Realizzazione architettura
big data per applicazione
di CRM avanzato.
Gestione delle misure di
consumo elettrico di
15 milioni di utenti
P.A.

Energy
HDFS
Kafka
Hbase
Spark
Flume
Phoenix
Tecnologie Usate su
Hadoop
sistemiesterni
JMS
FS
flume
HDFS
kafkaHBase KAFKA
Spark Spark
streaming
Phoenix
Web apps
RDBMS
sqoop

Finance
NFS
Hbase
Spark
Phoenix
Tecnologie Usate su
Hadoop
sistemiesterni
NFS
HBase
Spark
Phoenix
Web apps
HDFS

P.A.
HDFS
Hbase
Spark
Spark MLlib
Flume
Phoenix
Tecnologie Usate su
Hadoop
sistemiesterni
JMS
flume
HDFS
HBase
Spark
Phoenix
Web apps
Spark
MLlib

I dati:
Molti dati (piccoli files
provenienti da sensori
o dati strutturati) di
piccole dimensioni

Ingestion:
Fast data
Event driven
Near real-time

Storage:
Modificare i singoli
record

Considerazioni
Scenari molto simili:
Flume, HBase & Spark
Online
performances
HBase invece
di HDFS
Dati con
caratteristiche
simili
High
throughput

Inoltre…
• Appoggiarsi a soluzione consolidata
• Possibilità di richiesta supporto
• Versione community o open source o …gratis!

Lo storage di Hadoop
HBaseHDFS
Large data sets
Unstructured data
Write-once-read-many access
Append-only file system
Hive HQL access
High-speed writes
and scans
Fault-tolerant
Replication
Many rows/columns
Compaction
Random read-writes
Updates
Rowkey access
Data modeling
NoSQL
Untyped data
Sparse schema
High throughput
Variable columns

La soluzione
HBase
Random read-writes
Updates
Compaction
Granular data
STORAGE

Alcune caratteristiche di HBase
• Esiste 1 solo indice o primary key
• Rowkey composta da vari campi
• Meno tabelle e più grandi (denormalizzate)
• Partizionamento orizzontale su rowkey
• Fondamentale il disegno e la progettazione della rowkey e lo
schema delle tabelle (data modeling)
• L’ access pattern deve essere noto a priori!

Warning!!!
Trattare HBase come un
database relazionale porta
a sicuro fallimento!!!

Cosa manca?
• SQL language
• Query analitiche
• Secondary index
Performances
per online
applications

• Phoenix is fast: una full table scan di 100M (milioni) di righe di solito impiega 20 sec
(cluster e tabelle di dimensioni medie) e questo scende a pochi millisecondi se la
query contieni filtri sulle colonne chiave.
• Porta il calcolo vicino al dato usando:
• coprocessors per effettuare operazioni minimizzando il trasferimento di dati
client/server
• custom filters e native HBase APIs
• Query chunks: Phoenix spezzetta la query ed esegue i pezzi in parallelo sul client,
usando un numero configurabile di thread. L’aggregazione viene fatta server-side
dai coprecessors

• OLTP
• Query analitiche
• Specifico per Hbase
• Lightweight
• Chi lo usa?

• Query engine + metadata store + JDBC driver
• Database su HDFS (ideale per bulk loads e queries che fanno
full-table scans)
• Usa le Api HBase (non accede direttamente a HFiles)
• …e le performances?…
Query: select count(1) from table over 1M and 5M
rows. Data is 3 narrow columns. Number of Region
Server: 1 (Virtual Machine, HBase heap: 2GB,
Processor: 2 cores @ 3.3GHz Xeon)

• Query engine + metadata store + JDBC driver
• DWH su HDFS
• Esegue jobs MapReduce anche per interrogare HBase
• Usa StorageHanlder per leggere HBase
• …e le performances?…
Query: select count(1) from table over 10M and
100M rows. Data is 5 narrow columns. Number
of Region Servers: 4 (HBase heap: 10GB,
Processor: 6 cores @ 3.3GHz Xeon)

• Cassandra + Spark come lightweight solution (sostitutiva di
Hbase+ Spark)
• Linguaggio SQL-like (CQL) +secondary indexes
• …e gli altri tools dell’ecosistema Hadoop?...

• Converged data platform: batch+NoSQL+streaming
• MapR-FS: ottimo throughput e gestisce bene files di ogni
dimensioni + updates puntuali
• Apache Drill come SQL-layer su Mapr-FS
• …è una soluzione proprietaria…

• Sviluppato da Cloudera ma Open Source (->Integrato con
Hadoop Ecosystem)
• Low-latency random access
• Super-fast Columnar Storage
• Designed for Next-Generation Hardware (storage basato su IO
di solid state drives + implementazione della cache
sperimentale)
• …è in beta version…
With Kudu, Cloudera promises to solve Hadoop's infamous
storage problem
InfoWorld | Sep 28, 2015

HBaseHDFS
Lo storage di Hadoop
highly scalable in-memory
database per MPP workloads
Fast writes, fast updates,
fast reads, fast everything
Structured data
SQL+scan use cases
Unstructured data
Deep storage
Fixed column schema
SQL+scan use cases
Any type column
schema
Gets/puts/micro
scans

Conclusioni
• Non esiste una sola soluzione
tecnologica, che soddisfi tutti i
requisiti
• L’opportunità di adottare soluzioni
Open Source dipende dal contesto
• Tecnologie sempre in evoluzione
• Che fare?
• REQUISITI
• NO LOCK-IN
• PEER-REVIEWS

Grazie!
Monica Franceschini
Twitter  @twittmonique
Linkedin  mfranceschini
Skype  monica_franceschini
Email  monica.franceschini@eng.it

Evoluzioni architetturali a partire da Hadoop

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (8)

En vedette

En vedette (20)

Similaire à Evoluzioni architetturali a partire da Hadoop

Similaire à Evoluzioni architetturali a partire da Hadoop (20)

Plus de Data Driven Innovation

Plus de Data Driven Innovation (20)

Evoluzioni architetturali a partire da Hadoop