SlideShare une entreprise Scribd logo
1  sur  27
Evoluzioni architetturali a partire da
Hadoop
Monica Franceschini
Solution Architecture Manager
Big Data Competency Center
Engineering Group
Esperienze
ENERGY
Raccolta coordinate geo-
spaziali da sensori di
localizzazione per analisi
predittive.
FINANCE
Realizzazione architettura
big data per applicazione
di CRM avanzato.
Gestione delle misure di
consumo elettrico di
15 milioni di utenti
P.A.
Energy
HDFS
Kafka
Hbase
Spark
Flume
Phoenix
Tecnologie Usate su
Hadoop
sistemiesterni
JMS
FS
flume
HDFS
kafkaHBase KAFKA
Spark Spark
streaming
Phoenix
Web apps
RDBMS
sqoop
Finance
NFS
Hbase
Spark
Phoenix
Tecnologie Usate su
Hadoop
sistemiesterni
NFS
HBase
Spark
Phoenix
Web apps
HDFS
P.A.
HDFS
Hbase
Spark
Spark MLlib
Flume
Phoenix
Tecnologie Usate su
Hadoop
sistemiesterni
JMS
flume
HDFS
HBase
Spark
Phoenix
Web apps
Spark
MLlib
I dati:
Molti dati (piccoli files
provenienti da sensori
o dati strutturati) di
piccole dimensioni
Ingestion:
Fast data
Event driven
Near real-time
Storage:
Modificare i singoli
record
Considerazioni
Scenari molto simili:
Flume, HBase & Spark
Online
performances
HBase invece
di HDFS
Dati con
caratteristiche
simili
High
throughput
Inoltre…
• Appoggiarsi a soluzione consolidata
• Possibilità di richiesta supporto
• Versione community o open source o …gratis!
Lo storage di Hadoop
HBaseHDFS
Large data sets
Unstructured data
Write-once-read-many access
Append-only file system
Hive HQL access
High-speed writes
and scans
Fault-tolerant
Replication
Many rows/columns
Compaction
Random read-writes
Updates
Rowkey access
Data modeling
NoSQL
Untyped data
Sparse schema
High throughput
Variable columns
La soluzione
HBase
Random read-writes
Updates
Compaction
Granular data
STORAGE
Problemi:
Alcune caratteristiche di HBase
• Esiste 1 solo indice o primary key
• Rowkey composta da vari campi
• Meno tabelle e più grandi (denormalizzate)
• Partizionamento orizzontale su rowkey
• Fondamentale il disegno e la progettazione della rowkey e lo
schema delle tabelle (data modeling)
• L’ access pattern deve essere noto a priori!
Warning!!!
Trattare HBase come un
database relazionale porta
a sicuro fallimento!!!
Cosa manca?
• SQL language
• Query analitiche
• Secondary index
Performances
per online
applications
Soluzioni:
• Phoenix is fast: una full table scan di 100M (milioni) di righe di solito impiega 20 sec
(cluster e tabelle di dimensioni medie) e questo scende a pochi millisecondi se la
query contieni filtri sulle colonne chiave.
• Porta il calcolo vicino al dato usando:
• coprocessors per effettuare operazioni minimizzando il trasferimento di dati
client/server
• custom filters e native HBase APIs
• Query chunks: Phoenix spezzetta la query ed esegue i pezzi in parallelo sul client,
usando un numero configurabile di thread. L’aggregazione viene fatta server-side
dai coprecessors
• OLTP
• Query analitiche
• Specifico per Hbase
• Lightweight
• Chi lo usa?
• Query engine + metadata store + JDBC driver
• Database su HDFS (ideale per bulk loads e queries che fanno
full-table scans)
• Usa le Api HBase (non accede direttamente a HFiles)
• …e le performances?…
Query: select count(1) from table over 1M and 5M
rows. Data is 3 narrow columns. Number of Region
Server: 1 (Virtual Machine, HBase heap: 2GB,
Processor: 2 cores @ 3.3GHz Xeon)
• Query engine + metadata store + JDBC driver
• DWH su HDFS
• Esegue jobs MapReduce anche per interrogare HBase
• Usa StorageHanlder per leggere HBase
• …e le performances?…
Query: select count(1) from table over 10M and
100M rows. Data is 5 narrow columns. Number
of Region Servers: 4 (HBase heap: 10GB,
Processor: 6 cores @ 3.3GHz Xeon)
• Cassandra + Spark come lightweight solution (sostitutiva di
Hbase+ Spark)
• Linguaggio SQL-like (CQL) +secondary indexes
• …e gli altri tools dell’ecosistema Hadoop?...
• Converged data platform: batch+NoSQL+streaming
• MapR-FS: ottimo throughput e gestisce bene files di ogni
dimensioni + updates puntuali
• Apache Drill come SQL-layer su Mapr-FS
• …è una soluzione proprietaria…
• Sviluppato da Cloudera ma Open Source (->Integrato con
Hadoop Ecosystem)
• Low-latency random access
• Super-fast Columnar Storage
• Designed for Next-Generation Hardware (storage basato su IO
di solid state drives + implementazione della cache
sperimentale)
• …è in beta version…
With Kudu, Cloudera promises to solve Hadoop's infamous
storage problem
InfoWorld | Sep 28, 2015
HBaseHDFS
Lo storage di Hadoop
highly scalable in-memory
database per MPP workloads
Fast writes, fast updates,
fast reads, fast everything
Structured data
SQL+scan use cases
Unstructured data
Deep storage
Fixed column schema
SQL+scan use cases
Any type column
schema
Gets/puts/micro
scans
Conclusioni
• Non esiste una sola soluzione
tecnologica, che soddisfi tutti i
requisiti
• L’opportunità di adottare soluzioni
Open Source dipende dal contesto
• Tecnologie sempre in evoluzione
• Che fare?
• REQUISITI
• NO LOCK-IN
• PEER-REVIEWS
Grazie!
Monica Franceschini
Twitter  @twittmonique
Linkedin  mfranceschini
Skype  monica_franceschini
Email  monica.franceschini@eng.it

Contenu connexe

Tendances

Webinar: Come semplificare l'utilizzo del database con MongoDB Atlas
Webinar: Come semplificare l'utilizzo del database con MongoDB AtlasWebinar: Come semplificare l'utilizzo del database con MongoDB Atlas
Webinar: Come semplificare l'utilizzo del database con MongoDB AtlasMongoDB
 
MongoDB Atlas: il modo migliore per eseguire MongoDB in ambiente cloud 2
MongoDB Atlas: il modo migliore per eseguire MongoDB in ambiente cloud 2MongoDB Atlas: il modo migliore per eseguire MongoDB in ambiente cloud 2
MongoDB Atlas: il modo migliore per eseguire MongoDB in ambiente cloud 2MongoDB
 
Cyber Security in Multi Cloud Architecture - Luca Di Bari - Codemotion Rome 2017
Cyber Security in Multi Cloud Architecture - Luca Di Bari - Codemotion Rome 2017Cyber Security in Multi Cloud Architecture - Luca Di Bari - Codemotion Rome 2017
Cyber Security in Multi Cloud Architecture - Luca Di Bari - Codemotion Rome 2017Codemotion
 
Big data analytics quanto vale e come sfruttarlo con stream analytics e power bi
Big data analytics quanto vale e come sfruttarlo con stream analytics e power biBig data analytics quanto vale e come sfruttarlo con stream analytics e power bi
Big data analytics quanto vale e come sfruttarlo con stream analytics e power biMarco Pozzan
 
Nat come esporre servizi https senza esporre l'applicazione
Nat come esporre servizi https senza esporre l'applicazioneNat come esporre servizi https senza esporre l'applicazione
Nat come esporre servizi https senza esporre l'applicazioneGiuliano Latini
 
Monitoring Applications in AKS
Monitoring Applications in AKSMonitoring Applications in AKS
Monitoring Applications in AKSGiuliano Latini
 
Smau Torino 2016 - Codemotion
Smau Torino 2016 - CodemotionSmau Torino 2016 - Codemotion
Smau Torino 2016 - CodemotionSMAU
 

Tendances (8)

Webinar: Come semplificare l'utilizzo del database con MongoDB Atlas
Webinar: Come semplificare l'utilizzo del database con MongoDB AtlasWebinar: Come semplificare l'utilizzo del database con MongoDB Atlas
Webinar: Come semplificare l'utilizzo del database con MongoDB Atlas
 
MongoDB Atlas: il modo migliore per eseguire MongoDB in ambiente cloud 2
MongoDB Atlas: il modo migliore per eseguire MongoDB in ambiente cloud 2MongoDB Atlas: il modo migliore per eseguire MongoDB in ambiente cloud 2
MongoDB Atlas: il modo migliore per eseguire MongoDB in ambiente cloud 2
 
Cyber Security in Multi Cloud Architecture - Luca Di Bari - Codemotion Rome 2017
Cyber Security in Multi Cloud Architecture - Luca Di Bari - Codemotion Rome 2017Cyber Security in Multi Cloud Architecture - Luca Di Bari - Codemotion Rome 2017
Cyber Security in Multi Cloud Architecture - Luca Di Bari - Codemotion Rome 2017
 
Big data analytics quanto vale e come sfruttarlo con stream analytics e power bi
Big data analytics quanto vale e come sfruttarlo con stream analytics e power biBig data analytics quanto vale e come sfruttarlo con stream analytics e power bi
Big data analytics quanto vale e come sfruttarlo con stream analytics e power bi
 
Nat come esporre servizi https senza esporre l'applicazione
Nat come esporre servizi https senza esporre l'applicazioneNat come esporre servizi https senza esporre l'applicazione
Nat come esporre servizi https senza esporre l'applicazione
 
Monitoring Applications in AKS
Monitoring Applications in AKSMonitoring Applications in AKS
Monitoring Applications in AKS
 
Data flow
Data flowData flow
Data flow
 
Smau Torino 2016 - Codemotion
Smau Torino 2016 - CodemotionSmau Torino 2016 - Codemotion
Smau Torino 2016 - Codemotion
 

En vedette

Open Data e libertà di iniziativa economica
Open Data e libertà di iniziativa economicaOpen Data e libertà di iniziativa economica
Open Data e libertà di iniziativa economicaData Driven Innovation
 
Visualising and Linking Open Data from Multiple Sources
Visualising and Linking Open Data from Multiple SourcesVisualising and Linking Open Data from Multiple Sources
Visualising and Linking Open Data from Multiple SourcesData Driven Innovation
 
Outthink code: l'impossibile diventa possibile
Outthink code: l'impossibile diventa possibileOutthink code: l'impossibile diventa possibile
Outthink code: l'impossibile diventa possibileData Driven Innovation
 
Gli Open Data ci parlano di comunità e di relazioni. Possono dirci qualcosa s...
Gli Open Data ci parlano di comunità e di relazioni. Possono dirci qualcosa s...Gli Open Data ci parlano di comunità e di relazioni. Possono dirci qualcosa s...
Gli Open Data ci parlano di comunità e di relazioni. Possono dirci qualcosa s...Data Driven Innovation
 
Il nuovo Censimento della popolazione in Italia: data driven dall’input all’o...
Il nuovo Censimento della popolazione in Italia: data driven dall’input all’o...Il nuovo Censimento della popolazione in Italia: data driven dall’input all’o...
Il nuovo Censimento della popolazione in Italia: data driven dall’input all’o...Data Driven Innovation
 
Critical Breakthroughs and Challenges in Big Data and Analytics
Critical Breakthroughs and Challenges in Big Data and AnalyticsCritical Breakthroughs and Challenges in Big Data and Analytics
Critical Breakthroughs and Challenges in Big Data and AnalyticsData Driven Innovation
 
Il pontenziale dei Big Data Europei: nuove risorse per le comunità, i territo...
Il pontenziale dei Big Data Europei: nuove risorse per le comunità, i territo...Il pontenziale dei Big Data Europei: nuove risorse per le comunità, i territo...
Il pontenziale dei Big Data Europei: nuove risorse per le comunità, i territo...Data Driven Innovation
 
Big data e prevenzione. Verso un minority report per gli incidenti
Big data e prevenzione. Verso un minority report per gli incidentiBig data e prevenzione. Verso un minority report per gli incidenti
Big data e prevenzione. Verso un minority report per gli incidentiData Driven Innovation
 
Big Data e Deep Learning: verso una nuova generazione di programmi intelligenti
Big Data e Deep Learning: verso una nuova generazione di programmi intelligentiBig Data e Deep Learning: verso una nuova generazione di programmi intelligenti
Big Data e Deep Learning: verso una nuova generazione di programmi intelligentiData Driven Innovation
 
Data-driven Marketing con iBeacon e Physical Web
Data-driven Marketing con iBeacon e Physical WebData-driven Marketing con iBeacon e Physical Web
Data-driven Marketing con iBeacon e Physical WebData Driven Innovation
 
Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...
Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...
Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...Data Driven Innovation
 
Internet of Things e Industria 4.0: quali policy per il Made in Italy
Internet of Things e Industria 4.0: quali policy per il Made in ItalyInternet of Things e Industria 4.0: quali policy per il Made in Italy
Internet of Things e Industria 4.0: quali policy per il Made in ItalyData Driven Innovation
 
Data Driven Innovation: sfide e opportunità
Data Driven Innovation: sfide e opportunitàData Driven Innovation: sfide e opportunità
Data Driven Innovation: sfide e opportunitàData Driven Innovation
 
Reinventing experience: dai dati alla progettazione
Reinventing experience: dai dati alla progettazioneReinventing experience: dai dati alla progettazione
Reinventing experience: dai dati alla progettazioneData Driven Innovation
 

En vedette (20)

Open Data e libertà di iniziativa economica
Open Data e libertà di iniziativa economicaOpen Data e libertà di iniziativa economica
Open Data e libertà di iniziativa economica
 
Visualising and Linking Open Data from Multiple Sources
Visualising and Linking Open Data from Multiple SourcesVisualising and Linking Open Data from Multiple Sources
Visualising and Linking Open Data from Multiple Sources
 
Outthink code: l'impossibile diventa possibile
Outthink code: l'impossibile diventa possibileOutthink code: l'impossibile diventa possibile
Outthink code: l'impossibile diventa possibile
 
Gli Open Data ci parlano di comunità e di relazioni. Possono dirci qualcosa s...
Gli Open Data ci parlano di comunità e di relazioni. Possono dirci qualcosa s...Gli Open Data ci parlano di comunità e di relazioni. Possono dirci qualcosa s...
Gli Open Data ci parlano di comunità e di relazioni. Possono dirci qualcosa s...
 
Il nuovo Censimento della popolazione in Italia: data driven dall’input all’o...
Il nuovo Censimento della popolazione in Italia: data driven dall’input all’o...Il nuovo Censimento della popolazione in Italia: data driven dall’input all’o...
Il nuovo Censimento della popolazione in Italia: data driven dall’input all’o...
 
Critical Breakthroughs and Challenges in Big Data and Analytics
Critical Breakthroughs and Challenges in Big Data and AnalyticsCritical Breakthroughs and Challenges in Big Data and Analytics
Critical Breakthroughs and Challenges in Big Data and Analytics
 
Il pontenziale dei Big Data Europei: nuove risorse per le comunità, i territo...
Il pontenziale dei Big Data Europei: nuove risorse per le comunità, i territo...Il pontenziale dei Big Data Europei: nuove risorse per le comunità, i territo...
Il pontenziale dei Big Data Europei: nuove risorse per le comunità, i territo...
 
Big data e prevenzione. Verso un minority report per gli incidenti
Big data e prevenzione. Verso un minority report per gli incidentiBig data e prevenzione. Verso un minority report per gli incidenti
Big data e prevenzione. Verso un minority report per gli incidenti
 
Big Data e Deep Learning: verso una nuova generazione di programmi intelligenti
Big Data e Deep Learning: verso una nuova generazione di programmi intelligentiBig Data e Deep Learning: verso una nuova generazione di programmi intelligenti
Big Data e Deep Learning: verso una nuova generazione di programmi intelligenti
 
Big-Data Computing on the Cloud
Big-Data Computing on the CloudBig-Data Computing on the Cloud
Big-Data Computing on the Cloud
 
Data-driven Marketing con iBeacon e Physical Web
Data-driven Marketing con iBeacon e Physical WebData-driven Marketing con iBeacon e Physical Web
Data-driven Marketing con iBeacon e Physical Web
 
Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...
Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...
Polyglot Persistence e Big Data: tra innovazione e difficoltà su casi reali -...
 
Make your data talk
Make your data talkMake your data talk
Make your data talk
 
Internet of Things e Industria 4.0: quali policy per il Made in Italy
Internet of Things e Industria 4.0: quali policy per il Made in ItalyInternet of Things e Industria 4.0: quali policy per il Made in Italy
Internet of Things e Industria 4.0: quali policy per il Made in Italy
 
Data Driven Innovation: sfide e opportunità
Data Driven Innovation: sfide e opportunitàData Driven Innovation: sfide e opportunità
Data Driven Innovation: sfide e opportunità
 
Microservices Live
Microservices LiveMicroservices Live
Microservices Live
 
Reinventing experience: dai dati alla progettazione
Reinventing experience: dai dati alla progettazioneReinventing experience: dai dati alla progettazione
Reinventing experience: dai dati alla progettazione
 
Trash Robotic Router Platform
Trash Robotic Router PlatformTrash Robotic Router Platform
Trash Robotic Router Platform
 
LGA Syllabus Spring2002
LGA Syllabus Spring2002LGA Syllabus Spring2002
LGA Syllabus Spring2002
 
Facebook
FacebookFacebook
Facebook
 

Similaire à Evoluzioni architetturali a partire da Hadoop

Archeo foss 2012 slides 1
Archeo foss 2012 slides 1Archeo foss 2012 slides 1
Archeo foss 2012 slides 1CSP Scarl
 
Big data stack tecnologico
Big data stack tecnologicoBig data stack tecnologico
Big data stack tecnologicoMassimo Romano
 
Big data - stack tecnologico
Big data -  stack tecnologicoBig data -  stack tecnologico
Big data - stack tecnologicoConsulthinkspa
 
JBoss Data Grid Tech Lab
JBoss Data Grid Tech LabJBoss Data Grid Tech Lab
JBoss Data Grid Tech LabUgo Landini
 
Infinispan codemotion - Codemotion Rome 2015
Infinispan codemotion - Codemotion Rome 2015Infinispan codemotion - Codemotion Rome 2015
Infinispan codemotion - Codemotion Rome 2015Codemotion
 
SQL Saturday 2019 - Event Processing with Spark
SQL Saturday 2019 - Event Processing with SparkSQL Saturday 2019 - Event Processing with Spark
SQL Saturday 2019 - Event Processing with SparkAlessio Biasiutti
 
Sistema di logging applicativo per ambienti distribuiti Hadoop-based - Monica...
Sistema di logging applicativo per ambienti distribuiti Hadoop-based - Monica...Sistema di logging applicativo per ambienti distribuiti Hadoop-based - Monica...
Sistema di logging applicativo per ambienti distribuiti Hadoop-based - Monica...Data Driven Innovation
 
Iaa s con openstack per l'analisi di bigdata
Iaa s con openstack per l'analisi di bigdataIaa s con openstack per l'analisi di bigdata
Iaa s con openstack per l'analisi di bigdataVincenzo Fogliaro
 
Azure PaaS databases
Azure PaaS databasesAzure PaaS databases
Azure PaaS databasesGianluca Hotz
 
Applicazioni HTML5 Superveloci - Salvatore Romeo
Applicazioni HTML5 Superveloci - Salvatore RomeoApplicazioni HTML5 Superveloci - Salvatore Romeo
Applicazioni HTML5 Superveloci - Salvatore Romeomarcocasario
 
Ottimizzazione della gestione dei dati sul cloud
Ottimizzazione della gestione dei dati sul cloudOttimizzazione della gestione dei dati sul cloud
Ottimizzazione della gestione dei dati sul cloudNicolò Carandini
 
Open Source Day 2015 - DBaaS con Docker: un caso di studio
Open Source Day 2015 - DBaaS con Docker: un caso di studioOpen Source Day 2015 - DBaaS con Docker: un caso di studio
Open Source Day 2015 - DBaaS con Docker: un caso di studioPar-Tec S.p.A.
 
Operational Data Store vs Data Lake
Operational Data Store vs Data LakeOperational Data Store vs Data Lake
Operational Data Store vs Data LakeMongoDB
 
Multitenancy con SQL Server e Azure SQL Database
Multitenancy con SQL Server e Azure SQL DatabaseMultitenancy con SQL Server e Azure SQL Database
Multitenancy con SQL Server e Azure SQL DatabaseGianluca Hotz
 
Trovare ciò che serve nella confusione: comprendere i Big Data con l'analisi AWS
Trovare ciò che serve nella confusione: comprendere i Big Data con l'analisi AWSTrovare ciò che serve nella confusione: comprendere i Big Data con l'analisi AWS
Trovare ciò che serve nella confusione: comprendere i Big Data con l'analisi AWSAmazon Web Services
 

Similaire à Evoluzioni architetturali a partire da Hadoop (20)

Archeo foss 2012 slides 1
Archeo foss 2012 slides 1Archeo foss 2012 slides 1
Archeo foss 2012 slides 1
 
Big data stack tecnologico
Big data stack tecnologicoBig data stack tecnologico
Big data stack tecnologico
 
Presentazione bd2
Presentazione bd2Presentazione bd2
Presentazione bd2
 
Data grid
Data gridData grid
Data grid
 
Big data - stack tecnologico
Big data -  stack tecnologicoBig data -  stack tecnologico
Big data - stack tecnologico
 
JBoss Data Grid Tech Lab
JBoss Data Grid Tech LabJBoss Data Grid Tech Lab
JBoss Data Grid Tech Lab
 
Infinispan codemotion - Codemotion Rome 2015
Infinispan codemotion - Codemotion Rome 2015Infinispan codemotion - Codemotion Rome 2015
Infinispan codemotion - Codemotion Rome 2015
 
Appunti di big data
Appunti di big dataAppunti di big data
Appunti di big data
 
SQL Saturday 2019 - Event Processing with Spark
SQL Saturday 2019 - Event Processing with SparkSQL Saturday 2019 - Event Processing with Spark
SQL Saturday 2019 - Event Processing with Spark
 
Sistema di logging applicativo per ambienti distribuiti Hadoop-based - Monica...
Sistema di logging applicativo per ambienti distribuiti Hadoop-based - Monica...Sistema di logging applicativo per ambienti distribuiti Hadoop-based - Monica...
Sistema di logging applicativo per ambienti distribuiti Hadoop-based - Monica...
 
Iaa s con openstack per l'analisi di bigdata
Iaa s con openstack per l'analisi di bigdataIaa s con openstack per l'analisi di bigdata
Iaa s con openstack per l'analisi di bigdata
 
Azure PaaS databases
Azure PaaS databasesAzure PaaS databases
Azure PaaS databases
 
Applicazioni HTML5 Superveloci - Salvatore Romeo
Applicazioni HTML5 Superveloci - Salvatore RomeoApplicazioni HTML5 Superveloci - Salvatore Romeo
Applicazioni HTML5 Superveloci - Salvatore Romeo
 
Ottimizzazione della gestione dei dati sul cloud
Ottimizzazione della gestione dei dati sul cloudOttimizzazione della gestione dei dati sul cloud
Ottimizzazione della gestione dei dati sul cloud
 
Dominopoint meet the experts 2015 - XPages
Dominopoint   meet the experts 2015 - XPagesDominopoint   meet the experts 2015 - XPages
Dominopoint meet the experts 2015 - XPages
 
Hadoop in action!
Hadoop in action!Hadoop in action!
Hadoop in action!
 
Open Source Day 2015 - DBaaS con Docker: un caso di studio
Open Source Day 2015 - DBaaS con Docker: un caso di studioOpen Source Day 2015 - DBaaS con Docker: un caso di studio
Open Source Day 2015 - DBaaS con Docker: un caso di studio
 
Operational Data Store vs Data Lake
Operational Data Store vs Data LakeOperational Data Store vs Data Lake
Operational Data Store vs Data Lake
 
Multitenancy con SQL Server e Azure SQL Database
Multitenancy con SQL Server e Azure SQL DatabaseMultitenancy con SQL Server e Azure SQL Database
Multitenancy con SQL Server e Azure SQL Database
 
Trovare ciò che serve nella confusione: comprendere i Big Data con l'analisi AWS
Trovare ciò che serve nella confusione: comprendere i Big Data con l'analisi AWSTrovare ciò che serve nella confusione: comprendere i Big Data con l'analisi AWS
Trovare ciò che serve nella confusione: comprendere i Big Data con l'analisi AWS
 

Plus de Data Driven Innovation

Integrazione della mobilità elettrica nei sistemi urbani (Stefano Carrese, Un...
Integrazione della mobilità elettrica nei sistemi urbani (Stefano Carrese, Un...Integrazione della mobilità elettrica nei sistemi urbani (Stefano Carrese, Un...
Integrazione della mobilità elettrica nei sistemi urbani (Stefano Carrese, Un...Data Driven Innovation
 
La statistica ufficiale e i trasporti marittimi nell'era dei big data (Vincen...
La statistica ufficiale e i trasporti marittimi nell'era dei big data (Vincen...La statistica ufficiale e i trasporti marittimi nell'era dei big data (Vincen...
La statistica ufficiale e i trasporti marittimi nell'era dei big data (Vincen...Data Driven Innovation
 
How can we realize the Mobility as a Service (Maas) (Andrea Paletti, London S...
How can we realize the Mobility as a Service (Maas) (Andrea Paletti, London S...How can we realize the Mobility as a Service (Maas) (Andrea Paletti, London S...
How can we realize the Mobility as a Service (Maas) (Andrea Paletti, London S...Data Driven Innovation
 
Il DTC-Lazio e i dati del patrimonio culturale (Maria Prezioso, Università To...
Il DTC-Lazio e i dati del patrimonio culturale (Maria Prezioso, Università To...Il DTC-Lazio e i dati del patrimonio culturale (Maria Prezioso, Università To...
Il DTC-Lazio e i dati del patrimonio culturale (Maria Prezioso, Università To...Data Driven Innovation
 
CHNet-DHLab: Servizi Cloud a supporto dei beni culturali (Fabio Proietti, INF...
CHNet-DHLab: Servizi Cloud a supporto dei beni culturali (Fabio Proietti, INF...CHNet-DHLab: Servizi Cloud a supporto dei beni culturali (Fabio Proietti, INF...
CHNet-DHLab: Servizi Cloud a supporto dei beni culturali (Fabio Proietti, INF...Data Driven Innovation
 
Progetto EOSC-Pillar (Fulvio Galeazzi, GARR)
Progetto EOSC-Pillar (Fulvio Galeazzi, GARR)Progetto EOSC-Pillar (Fulvio Galeazzi, GARR)
Progetto EOSC-Pillar (Fulvio Galeazzi, GARR)Data Driven Innovation
 
Una infrastruttura per l’accesso al patrimonio culturale: il Progetto del Por...
Una infrastruttura per l’accesso al patrimonio culturale: il Progetto del Por...Una infrastruttura per l’accesso al patrimonio culturale: il Progetto del Por...
Una infrastruttura per l’accesso al patrimonio culturale: il Progetto del Por...Data Driven Innovation
 
Utilizzo dei Big data per l’analisi dei flussi veicolari e della mobilità (Ma...
Utilizzo dei Big data per l’analisi dei flussi veicolari e della mobilità (Ma...Utilizzo dei Big data per l’analisi dei flussi veicolari e della mobilità (Ma...
Utilizzo dei Big data per l’analisi dei flussi veicolari e della mobilità (Ma...Data Driven Innovation
 
I dati personali nell'analisi comportamentale della mobilità di dipendenti e ...
I dati personali nell'analisi comportamentale della mobilità di dipendenti e ...I dati personali nell'analisi comportamentale della mobilità di dipendenti e ...
I dati personali nell'analisi comportamentale della mobilità di dipendenti e ...Data Driven Innovation
 
Estrarre valore dai dati: tecnologie per ottimizzare la mobilità del futuro (...
Estrarre valore dai dati: tecnologie per ottimizzare la mobilità del futuro (...Estrarre valore dai dati: tecnologie per ottimizzare la mobilità del futuro (...
Estrarre valore dai dati: tecnologie per ottimizzare la mobilità del futuro (...Data Driven Innovation
 
Le piattaforme dati per la mobilità nelle città italiane (Marco Mena, EY)
Le piattaforme dati per la mobilità nelle città italiane (Marco Mena, EY)Le piattaforme dati per la mobilità nelle città italiane (Marco Mena, EY)
Le piattaforme dati per la mobilità nelle città italiane (Marco Mena, EY)Data Driven Innovation
 
WiseTown, un ecosistema di applicazioni e strumenti per migliorare la qualità...
WiseTown, un ecosistema di applicazioni e strumenti per migliorare la qualità...WiseTown, un ecosistema di applicazioni e strumenti per migliorare la qualità...
WiseTown, un ecosistema di applicazioni e strumenti per migliorare la qualità...Data Driven Innovation
 
CityOpenSource as a civic tech tool (Ilaria Vitellio, CityOpenSource)
CityOpenSource as a civic tech tool (Ilaria Vitellio, CityOpenSource)CityOpenSource as a civic tech tool (Ilaria Vitellio, CityOpenSource)
CityOpenSource as a civic tech tool (Ilaria Vitellio, CityOpenSource)Data Driven Innovation
 
Big Data Confederation: toward the local urban data market place (Renzo Taffa...
Big Data Confederation: toward the local urban data market place (Renzo Taffa...Big Data Confederation: toward the local urban data market place (Renzo Taffa...
Big Data Confederation: toward the local urban data market place (Renzo Taffa...Data Driven Innovation
 
Making citizens the eyes of policy makers: a sweet spot for hybrid AI? (Danie...
Making citizens the eyes of policy makers: a sweet spot for hybrid AI? (Danie...Making citizens the eyes of policy makers: a sweet spot for hybrid AI? (Danie...
Making citizens the eyes of policy makers: a sweet spot for hybrid AI? (Danie...Data Driven Innovation
 
Dall'Agenda Digitale alla Smart City: il percorso di Roma Capitale verso il D...
Dall'Agenda Digitale alla Smart City: il percorso di Roma Capitale verso il D...Dall'Agenda Digitale alla Smart City: il percorso di Roma Capitale verso il D...
Dall'Agenda Digitale alla Smart City: il percorso di Roma Capitale verso il D...Data Driven Innovation
 
Reusing open data: how to make a difference (Vittorio Scarano, Università di ...
Reusing open data: how to make a difference (Vittorio Scarano, Università di ...Reusing open data: how to make a difference (Vittorio Scarano, Università di ...
Reusing open data: how to make a difference (Vittorio Scarano, Università di ...Data Driven Innovation
 
Gestire i beni culturali con i big data (Sandro Stancampiano, Istat)
Gestire i beni culturali con i big data (Sandro Stancampiano, Istat)Gestire i beni culturali con i big data (Sandro Stancampiano, Istat)
Gestire i beni culturali con i big data (Sandro Stancampiano, Istat)Data Driven Innovation
 
Data Governance: cos’è e perché è importante? (Elena Arista, Erwin)
Data Governance: cos’è e perché è importante? (Elena Arista, Erwin)Data Governance: cos’è e perché è importante? (Elena Arista, Erwin)
Data Governance: cos’è e perché è importante? (Elena Arista, Erwin)Data Driven Innovation
 
Data driven economy: bastano i dati per avviare una start up? (Gabriele Anton...
Data driven economy: bastano i dati per avviare una start up? (Gabriele Anton...Data driven economy: bastano i dati per avviare una start up? (Gabriele Anton...
Data driven economy: bastano i dati per avviare una start up? (Gabriele Anton...Data Driven Innovation
 

Plus de Data Driven Innovation (20)

Integrazione della mobilità elettrica nei sistemi urbani (Stefano Carrese, Un...
Integrazione della mobilità elettrica nei sistemi urbani (Stefano Carrese, Un...Integrazione della mobilità elettrica nei sistemi urbani (Stefano Carrese, Un...
Integrazione della mobilità elettrica nei sistemi urbani (Stefano Carrese, Un...
 
La statistica ufficiale e i trasporti marittimi nell'era dei big data (Vincen...
La statistica ufficiale e i trasporti marittimi nell'era dei big data (Vincen...La statistica ufficiale e i trasporti marittimi nell'era dei big data (Vincen...
La statistica ufficiale e i trasporti marittimi nell'era dei big data (Vincen...
 
How can we realize the Mobility as a Service (Maas) (Andrea Paletti, London S...
How can we realize the Mobility as a Service (Maas) (Andrea Paletti, London S...How can we realize the Mobility as a Service (Maas) (Andrea Paletti, London S...
How can we realize the Mobility as a Service (Maas) (Andrea Paletti, London S...
 
Il DTC-Lazio e i dati del patrimonio culturale (Maria Prezioso, Università To...
Il DTC-Lazio e i dati del patrimonio culturale (Maria Prezioso, Università To...Il DTC-Lazio e i dati del patrimonio culturale (Maria Prezioso, Università To...
Il DTC-Lazio e i dati del patrimonio culturale (Maria Prezioso, Università To...
 
CHNet-DHLab: Servizi Cloud a supporto dei beni culturali (Fabio Proietti, INF...
CHNet-DHLab: Servizi Cloud a supporto dei beni culturali (Fabio Proietti, INF...CHNet-DHLab: Servizi Cloud a supporto dei beni culturali (Fabio Proietti, INF...
CHNet-DHLab: Servizi Cloud a supporto dei beni culturali (Fabio Proietti, INF...
 
Progetto EOSC-Pillar (Fulvio Galeazzi, GARR)
Progetto EOSC-Pillar (Fulvio Galeazzi, GARR)Progetto EOSC-Pillar (Fulvio Galeazzi, GARR)
Progetto EOSC-Pillar (Fulvio Galeazzi, GARR)
 
Una infrastruttura per l’accesso al patrimonio culturale: il Progetto del Por...
Una infrastruttura per l’accesso al patrimonio culturale: il Progetto del Por...Una infrastruttura per l’accesso al patrimonio culturale: il Progetto del Por...
Una infrastruttura per l’accesso al patrimonio culturale: il Progetto del Por...
 
Utilizzo dei Big data per l’analisi dei flussi veicolari e della mobilità (Ma...
Utilizzo dei Big data per l’analisi dei flussi veicolari e della mobilità (Ma...Utilizzo dei Big data per l’analisi dei flussi veicolari e della mobilità (Ma...
Utilizzo dei Big data per l’analisi dei flussi veicolari e della mobilità (Ma...
 
I dati personali nell'analisi comportamentale della mobilità di dipendenti e ...
I dati personali nell'analisi comportamentale della mobilità di dipendenti e ...I dati personali nell'analisi comportamentale della mobilità di dipendenti e ...
I dati personali nell'analisi comportamentale della mobilità di dipendenti e ...
 
Estrarre valore dai dati: tecnologie per ottimizzare la mobilità del futuro (...
Estrarre valore dai dati: tecnologie per ottimizzare la mobilità del futuro (...Estrarre valore dai dati: tecnologie per ottimizzare la mobilità del futuro (...
Estrarre valore dai dati: tecnologie per ottimizzare la mobilità del futuro (...
 
Le piattaforme dati per la mobilità nelle città italiane (Marco Mena, EY)
Le piattaforme dati per la mobilità nelle città italiane (Marco Mena, EY)Le piattaforme dati per la mobilità nelle città italiane (Marco Mena, EY)
Le piattaforme dati per la mobilità nelle città italiane (Marco Mena, EY)
 
WiseTown, un ecosistema di applicazioni e strumenti per migliorare la qualità...
WiseTown, un ecosistema di applicazioni e strumenti per migliorare la qualità...WiseTown, un ecosistema di applicazioni e strumenti per migliorare la qualità...
WiseTown, un ecosistema di applicazioni e strumenti per migliorare la qualità...
 
CityOpenSource as a civic tech tool (Ilaria Vitellio, CityOpenSource)
CityOpenSource as a civic tech tool (Ilaria Vitellio, CityOpenSource)CityOpenSource as a civic tech tool (Ilaria Vitellio, CityOpenSource)
CityOpenSource as a civic tech tool (Ilaria Vitellio, CityOpenSource)
 
Big Data Confederation: toward the local urban data market place (Renzo Taffa...
Big Data Confederation: toward the local urban data market place (Renzo Taffa...Big Data Confederation: toward the local urban data market place (Renzo Taffa...
Big Data Confederation: toward the local urban data market place (Renzo Taffa...
 
Making citizens the eyes of policy makers: a sweet spot for hybrid AI? (Danie...
Making citizens the eyes of policy makers: a sweet spot for hybrid AI? (Danie...Making citizens the eyes of policy makers: a sweet spot for hybrid AI? (Danie...
Making citizens the eyes of policy makers: a sweet spot for hybrid AI? (Danie...
 
Dall'Agenda Digitale alla Smart City: il percorso di Roma Capitale verso il D...
Dall'Agenda Digitale alla Smart City: il percorso di Roma Capitale verso il D...Dall'Agenda Digitale alla Smart City: il percorso di Roma Capitale verso il D...
Dall'Agenda Digitale alla Smart City: il percorso di Roma Capitale verso il D...
 
Reusing open data: how to make a difference (Vittorio Scarano, Università di ...
Reusing open data: how to make a difference (Vittorio Scarano, Università di ...Reusing open data: how to make a difference (Vittorio Scarano, Università di ...
Reusing open data: how to make a difference (Vittorio Scarano, Università di ...
 
Gestire i beni culturali con i big data (Sandro Stancampiano, Istat)
Gestire i beni culturali con i big data (Sandro Stancampiano, Istat)Gestire i beni culturali con i big data (Sandro Stancampiano, Istat)
Gestire i beni culturali con i big data (Sandro Stancampiano, Istat)
 
Data Governance: cos’è e perché è importante? (Elena Arista, Erwin)
Data Governance: cos’è e perché è importante? (Elena Arista, Erwin)Data Governance: cos’è e perché è importante? (Elena Arista, Erwin)
Data Governance: cos’è e perché è importante? (Elena Arista, Erwin)
 
Data driven economy: bastano i dati per avviare una start up? (Gabriele Anton...
Data driven economy: bastano i dati per avviare una start up? (Gabriele Anton...Data driven economy: bastano i dati per avviare una start up? (Gabriele Anton...
Data driven economy: bastano i dati per avviare una start up? (Gabriele Anton...
 

Evoluzioni architetturali a partire da Hadoop

  • 1. Evoluzioni architetturali a partire da Hadoop Monica Franceschini Solution Architecture Manager Big Data Competency Center Engineering Group
  • 2. Esperienze ENERGY Raccolta coordinate geo- spaziali da sensori di localizzazione per analisi predittive. FINANCE Realizzazione architettura big data per applicazione di CRM avanzato. Gestione delle misure di consumo elettrico di 15 milioni di utenti P.A.
  • 5. P.A. HDFS Hbase Spark Spark MLlib Flume Phoenix Tecnologie Usate su Hadoop sistemiesterni JMS flume HDFS HBase Spark Phoenix Web apps Spark MLlib
  • 6. I dati: Molti dati (piccoli files provenienti da sensori o dati strutturati) di piccole dimensioni
  • 9. Considerazioni Scenari molto simili: Flume, HBase & Spark Online performances HBase invece di HDFS Dati con caratteristiche simili High throughput
  • 10. Inoltre… • Appoggiarsi a soluzione consolidata • Possibilità di richiesta supporto • Versione community o open source o …gratis!
  • 11. Lo storage di Hadoop HBaseHDFS Large data sets Unstructured data Write-once-read-many access Append-only file system Hive HQL access High-speed writes and scans Fault-tolerant Replication Many rows/columns Compaction Random read-writes Updates Rowkey access Data modeling NoSQL Untyped data Sparse schema High throughput Variable columns
  • 14. Alcune caratteristiche di HBase • Esiste 1 solo indice o primary key • Rowkey composta da vari campi • Meno tabelle e più grandi (denormalizzate) • Partizionamento orizzontale su rowkey • Fondamentale il disegno e la progettazione della rowkey e lo schema delle tabelle (data modeling) • L’ access pattern deve essere noto a priori!
  • 15. Warning!!! Trattare HBase come un database relazionale porta a sicuro fallimento!!!
  • 16. Cosa manca? • SQL language • Query analitiche • Secondary index Performances per online applications
  • 18. • Phoenix is fast: una full table scan di 100M (milioni) di righe di solito impiega 20 sec (cluster e tabelle di dimensioni medie) e questo scende a pochi millisecondi se la query contieni filtri sulle colonne chiave. • Porta il calcolo vicino al dato usando: • coprocessors per effettuare operazioni minimizzando il trasferimento di dati client/server • custom filters e native HBase APIs • Query chunks: Phoenix spezzetta la query ed esegue i pezzi in parallelo sul client, usando un numero configurabile di thread. L’aggregazione viene fatta server-side dai coprecessors
  • 19. • OLTP • Query analitiche • Specifico per Hbase • Lightweight • Chi lo usa?
  • 20. • Query engine + metadata store + JDBC driver • Database su HDFS (ideale per bulk loads e queries che fanno full-table scans) • Usa le Api HBase (non accede direttamente a HFiles) • …e le performances?… Query: select count(1) from table over 1M and 5M rows. Data is 3 narrow columns. Number of Region Server: 1 (Virtual Machine, HBase heap: 2GB, Processor: 2 cores @ 3.3GHz Xeon)
  • 21. • Query engine + metadata store + JDBC driver • DWH su HDFS • Esegue jobs MapReduce anche per interrogare HBase • Usa StorageHanlder per leggere HBase • …e le performances?… Query: select count(1) from table over 10M and 100M rows. Data is 5 narrow columns. Number of Region Servers: 4 (HBase heap: 10GB, Processor: 6 cores @ 3.3GHz Xeon)
  • 22. • Cassandra + Spark come lightweight solution (sostitutiva di Hbase+ Spark) • Linguaggio SQL-like (CQL) +secondary indexes • …e gli altri tools dell’ecosistema Hadoop?...
  • 23. • Converged data platform: batch+NoSQL+streaming • MapR-FS: ottimo throughput e gestisce bene files di ogni dimensioni + updates puntuali • Apache Drill come SQL-layer su Mapr-FS • …è una soluzione proprietaria…
  • 24. • Sviluppato da Cloudera ma Open Source (->Integrato con Hadoop Ecosystem) • Low-latency random access • Super-fast Columnar Storage • Designed for Next-Generation Hardware (storage basato su IO di solid state drives + implementazione della cache sperimentale) • …è in beta version… With Kudu, Cloudera promises to solve Hadoop's infamous storage problem InfoWorld | Sep 28, 2015
  • 25. HBaseHDFS Lo storage di Hadoop highly scalable in-memory database per MPP workloads Fast writes, fast updates, fast reads, fast everything Structured data SQL+scan use cases Unstructured data Deep storage Fixed column schema SQL+scan use cases Any type column schema Gets/puts/micro scans
  • 26. Conclusioni • Non esiste una sola soluzione tecnologica, che soddisfi tutti i requisiti • L’opportunità di adottare soluzioni Open Source dipende dal contesto • Tecnologie sempre in evoluzione • Che fare? • REQUISITI • NO LOCK-IN • PEER-REVIEWS
  • 27. Grazie! Monica Franceschini Twitter  @twittmonique Linkedin  mfranceschini Skype  monica_franceschini Email  monica.franceschini@eng.it