SlideShare a Scribd company logo
1 of 17
1 
Fi 
r 
enz 
e, 
25 
I Big Data e la Statistica: un progetto 
internazionale 
Carlo Vaccari
2 
Big Data nella Statistica Ufficiale 
Progetto presentato nel 2013 a HLG e a CES 
Gruppo di lavoro composto da tecnici di 13 organizzazioni 
(UN, EU, OECD, NSIs) 
Quattro sottogruppi: 
Partnership Task Team 
Privacy TT 
Quality TT 
Sandbox TT
3 
Big Data nella Statistica Ufficiale 
Prime spinte 
Tre obiettivi: 
Identificare le possibilità e le sfide strategiche e 
metodologiche che i BD pongono alla Statistica Ufficiale 
Verificare la fattibilità della produzione di dati statistici a 
partire da Big Data e la replicabilità nei vari contesti nazionali 
Facilitare la condivisione di conoscenza, strumenti e metodi 
tra le organizzazioni
4 
Sandbox 
Sandbox: ambiente accessibile dal web dove i ricercatori 
esplorano strumenti e metodi per la produzione di statistiche a 
partire da Big Data 
Strumenti software selezionati: Hadoop, Hortonworks 
(agreement), Pentaho (agreement), RHadoop (...opensource!) 
Lista aperta a nuovi inserimenti
5 
Sandbox technicalities 
Ospitata dall'ICHEC, un centro di High Performance 
Computing irlandese 
Linux cluster composto da 30 nodi, ognuno con due quad-core, 
48GB di RAM e 1TB di disco locale 
Ogni nodo connesso a due reti, una per accedere al fs Lustre 
e una Gigabit per la gestione 
20TB di shared filesystem disponibili
6 
Sandbox esperimenti – Prezzi al Consumo 
Sorgenti: 
 Scanner data dai supermercati UK 
 Scanner data da Istat 
Verifica delle prestazioni di tecnologie BD nel calcolare un indice dei 
prezzi semplificato – testato su prezzi generati automaticamente 
Caricati 11 miliardi di prezzi nella Sandbox → comparazione tra 
diverse tecnologie: Hadoop ↔ NoSQL ↔ RDBMS 
Visualizzazione dati con Pentaho
7 
Sandbox esperimenti – Mobile Data 
Dataset da Orange dalla Costa d'Avorio (non CDR, ma 
sottoinsiemi limitati nello spazio/tempo) 
Esperimenti: 
Classificare le SIM: lavoratori, studenti, non FL, aziende 
Classificare le zone (celle): industriali, residenziali, 
scuola/università, basso/alto traffico 
Distribuzione temporale delle chiamate: orarie / 
settimanali / stagionali 
Studio della mobilità degli utenti
8 
Sandbox esperimenti – Mobile Data
9 
Sandbox esperimenti – Contatori 
Dati dall'Irlanda (a livello di utenza, collegati con due indagini) 
Dati dal Canada(livello di utenza, molti anni, dati orari con cosumo e 
temperatura e prezzo, collegati con indagini trimestrali) 
Esperimenti: con RHadoop visualizzare dati sintetici per il Canada e 
provvedere analisi temporale per: 
Consumo orario (kWh) vs Temperatura (C) 
Consumo Orario (kWh) vs Prezzo Orario (c)
10 
Sandbox esperimenti – Dati sul Traffico 
In Olanda, 20,000 rilevatori di traffico su 3,000 km di strade, dati 
raccolti da un'agenzia centrale, NDW (National data warehouse for 
traffic) 
Esperimenti: 
Come gestire molteplici file in Hadoop 
Come cambia il traffico durante l'anno 
Deliverables: 
Codice per aggregare i dati in Hive e con RHadoop 
Rappresentazione grafica sullo sviluppo del traffico
11 
Sandbox esperimenti – Dati sul Traffico
12 
Sandbox esperimenti – Social Network 
Tweets generati in Mexico da Gennaio a Luglio 2014: 
 Sentimental analysis per ottenere indicatori di benessere 
soggettivo (e compararlo con statistiche su “clima” economico) 
 Tweets geo-referenziati per analizzare il movimento degli utenti 
Prossimi passi: 
 Tweet geo-referenziati per movimenti stagionali e migrazioni al 
confine con USA (pendolarismo interno / esterno) 
 Lavoro sugli emoticon: dizionario, conteggio e comparazione 
internazionale degli emoticon e del loro potenziale espressivo 
 Rivisitazione degli algoritmi con MapReduce, Spark e Scala
13 
Sandbox esperimenti – Social Network 
Mobilità degli utenti Twitter verso le “Città magiche” messicane
14 
Stato del progetto 
Gruppi di provenienza mista (skill/nazioni) sui vari esperimenti 
Tutti i gruppi stanno conducendo esperimenti e hanno definito i 
deliverable: risultati preliminari per novembre, finali per fine anno 
Si stanno sviluppando materiali per la formazione 
Ottima cooperazione e scambio di esperienze: i partecipanti 
chiedono maggiore tempo per sviluppare altri esperimenti 
→ richiesta di estensione del progetto
15 
Lessons learned 
La cooperazione (internazionale) è un moltiplicatore di idee 
L'acquisizione dei (big) dati è un processo lungo: approci diversi 
(Partnership TT) e sponsorship “politica”/legale 
Avviare un ambiente tecnologico completo e stabile richiede tempo 
Per cooperare servono incontri sia “in presenza” che virtuali 
La formazione serve su diverse competenze: IT, stat e math → 
serve personale aperto al nuovo: tecniche, software e metodi
Grazie
Q&A

More Related Content

Viewers also liked

Open Gov and Open Data intro
Open Gov and Open Data introOpen Gov and Open Data intro
Open Gov and Open Data intro
Carlo Vaccari
 

Viewers also liked (20)

Cora final meeting
Cora final meetingCora final meeting
Cora final meeting
 
Social network ,ricerca di lavoro e ricerca scientifica
Social network ,ricerca di lavoro e ricerca scientificaSocial network ,ricerca di lavoro e ricerca scientifica
Social network ,ricerca di lavoro e ricerca scientifica
 
Open Gov and Open Data intro
Open Gov and Open Data introOpen Gov and Open Data intro
Open Gov and Open Data intro
 
E commerce
E commerceE commerce
E commerce
 
Ricerca del lavoro e social network
Ricerca del lavoro e social networkRicerca del lavoro e social network
Ricerca del lavoro e social network
 
Web 2.0: a course
Web 2.0: a courseWeb 2.0: a course
Web 2.0: a course
 
Dall'open-source agli open-data
Dall'open-source agli open-dataDall'open-source agli open-data
Dall'open-source agli open-data
 
Opendata day Marche 2013
Opendata day Marche 2013Opendata day Marche 2013
Opendata day Marche 2013
 
Social network and job searching and SN for researchers
Social network and job searching and SN for researchersSocial network and job searching and SN for researchers
Social network and job searching and SN for researchers
 
International guidelines for data dissemination and fiscal transparency
International guidelines for data dissemination and fiscal transparencyInternational guidelines for data dissemination and fiscal transparency
International guidelines for data dissemination and fiscal transparency
 
Per un economia dell'open source
Per un economia dell'open sourcePer un economia dell'open source
Per un economia dell'open source
 
spaghettiopendata a greenopendata
spaghettiopendata a greenopendataspaghettiopendata a greenopendata
spaghettiopendata a greenopendata
 
IT tools for statistics, visualization, open data
IT tools for statistics, visualization, open dataIT tools for statistics, visualization, open data
IT tools for statistics, visualization, open data
 
Interoperability of data management for data dissemination
Interoperability of data management for data disseminationInteroperability of data management for data dissemination
Interoperability of data management for data dissemination
 
Social networks , Job Searching and Research - 1
Social networks , Job Searching and Research - 1Social networks , Job Searching and Research - 1
Social networks , Job Searching and Research - 1
 
per una Rete Professionale Italiana dell'Open Source
per una Rete Professionale Italiana dell'Open Sourceper una Rete Professionale Italiana dell'Open Source
per una Rete Professionale Italiana dell'Open Source
 
CORE ESSnet Report @MSIS 2011
CORE ESSnet Report @MSIS 2011CORE ESSnet Report @MSIS 2011
CORE ESSnet Report @MSIS 2011
 
CORE final workshop introduction
CORE final workshop introductionCORE final workshop introduction
CORE final workshop introduction
 
HLG Big Data project and Sandbox
HLG Big Data project and SandboxHLG Big Data project and Sandbox
HLG Big Data project and Sandbox
 
Start up innovative
Start up innovativeStart up innovative
Start up innovative
 

Similar to I Big Data e la Statistica: un progetto internazionale

Open data for open minds
Open data for open mindsOpen data for open minds
Open data for open minds
Pina Civitella
 
M. Scannapieco - Big Data e Open Data: Istruzioni (o quasi) per l’Uso
M. Scannapieco - Big Data e Open Data:  Istruzioni (o quasi) per l’Uso  M. Scannapieco - Big Data e Open Data:  Istruzioni (o quasi) per l’Uso
M. Scannapieco - Big Data e Open Data: Istruzioni (o quasi) per l’Uso
Istituto nazionale di statistica
 
Giacinto Donvito – Infrastrutture di Grid e Cloud per la ricerca Bioinformatica
Giacinto Donvito – Infrastrutture di Grid e Cloud per la ricerca BioinformaticaGiacinto Donvito – Infrastrutture di Grid e Cloud per la ricerca Bioinformatica
Giacinto Donvito – Infrastrutture di Grid e Cloud per la ricerca Bioinformatica
eventi-ITBbari
 

Similar to I Big Data e la Statistica: un progetto internazionale (20)

Il progetto INNO: dal dato alla applicazione - Pierluigi Cau (CRS4)
Il progetto INNO: dal dato alla applicazione - Pierluigi Cau (CRS4)Il progetto INNO: dal dato alla applicazione - Pierluigi Cau (CRS4)
Il progetto INNO: dal dato alla applicazione - Pierluigi Cau (CRS4)
 
I dati aperti delle regioni. Od2016 cagliari-22-09-16 - A
I dati aperti delle regioni. Od2016 cagliari-22-09-16 - AI dati aperti delle regioni. Od2016 cagliari-22-09-16 - A
I dati aperti delle regioni. Od2016 cagliari-22-09-16 - A
 
Presentazione sce
Presentazione scePresentazione sce
Presentazione sce
 
Template doc premio_pa-sostenibile-2018
Template doc premio_pa-sostenibile-2018Template doc premio_pa-sostenibile-2018
Template doc premio_pa-sostenibile-2018
 
Open data for open minds
Open data for open mindsOpen data for open minds
Open data for open minds
 
Smart Data Platform: dagli open data all'Internet Of Things
Smart Data Platform: dagli open data all'Internet Of ThingsSmart Data Platform: dagli open data all'Internet Of Things
Smart Data Platform: dagli open data all'Internet Of Things
 
Open gov Seminar dec2014
Open gov Seminar dec2014Open gov Seminar dec2014
Open gov Seminar dec2014
 
OpenAIRE: aggiornamento sull'infrastruttura e strumenti a supporto della gest...
OpenAIRE: aggiornamento sull'infrastruttura e strumenti a supporto della gest...OpenAIRE: aggiornamento sull'infrastruttura e strumenti a supporto della gest...
OpenAIRE: aggiornamento sull'infrastruttura e strumenti a supporto della gest...
 
OpenAIRE : aggiornamento sull'infrastruttura e strumenti a supporto della ges...
OpenAIRE : aggiornamento sull'infrastruttura e strumenti a supporto della ges...OpenAIRE : aggiornamento sull'infrastruttura e strumenti a supporto della ges...
OpenAIRE : aggiornamento sull'infrastruttura e strumenti a supporto della ges...
 
Che cos’è un Data Management Plan: presentazione e casi d’uso
Che cos’è un Data Management Plan: presentazione e casi d’usoChe cos’è un Data Management Plan: presentazione e casi d’uso
Che cos’è un Data Management Plan: presentazione e casi d’uso
 
Il Distretto Tecnologico ICT “Sardegna DistrICT” (19 aprile 2007)
Il Distretto Tecnologico ICT “Sardegna DistrICT” (19 aprile 2007)Il Distretto Tecnologico ICT “Sardegna DistrICT” (19 aprile 2007)
Il Distretto Tecnologico ICT “Sardegna DistrICT” (19 aprile 2007)
 
Open Data Support onsite training in Italy (Italian)
Open Data Support onsite training in Italy (Italian)Open Data Support onsite training in Italy (Italian)
Open Data Support onsite training in Italy (Italian)
 
M. Scannapieco - Big Data e Open Data: Istruzioni (o quasi) per l’Uso
M. Scannapieco - Big Data e Open Data:  Istruzioni (o quasi) per l’Uso  M. Scannapieco - Big Data e Open Data:  Istruzioni (o quasi) per l’Uso
M. Scannapieco - Big Data e Open Data: Istruzioni (o quasi) per l’Uso
 
FAIR DATA e Action Plan
FAIR DATA e Action PlanFAIR DATA e Action Plan
FAIR DATA e Action Plan
 
PROSSIMO - Progettazione, sviluppo e ottimizzazione di sistemi intelligenti m...
PROSSIMO - Progettazione, sviluppo e ottimizzazione di sistemi intelligenti m...PROSSIMO - Progettazione, sviluppo e ottimizzazione di sistemi intelligenti m...
PROSSIMO - Progettazione, sviluppo e ottimizzazione di sistemi intelligenti m...
 
Giacinto Donvito – Infrastrutture di Grid e Cloud per la ricerca Bioinformatica
Giacinto Donvito – Infrastrutture di Grid e Cloud per la ricerca BioinformaticaGiacinto Donvito – Infrastrutture di Grid e Cloud per la ricerca Bioinformatica
Giacinto Donvito – Infrastrutture di Grid e Cloud per la ricerca Bioinformatica
 
Il Piano Triennale - Simone Piunno, Chief Technology Officer del Team per la ...
Il Piano Triennale - Simone Piunno, Chief Technology Officer del Team per la ...Il Piano Triennale - Simone Piunno, Chief Technology Officer del Team per la ...
Il Piano Triennale - Simone Piunno, Chief Technology Officer del Team per la ...
 
Slide ACTIVE - Digital Asset Management - Collana Seminari CRS4 2015
Slide ACTIVE - Digital Asset Management - Collana Seminari CRS4 2015Slide ACTIVE - Digital Asset Management - Collana Seminari CRS4 2015
Slide ACTIVE - Digital Asset Management - Collana Seminari CRS4 2015
 
Informatica per la Cooperazione Internazionale
Informatica per la Cooperazione InternazionaleInformatica per la Cooperazione Internazionale
Informatica per la Cooperazione Internazionale
 
FormezPA - OpenData nelle PA di piccole e medie dimensioni - Esempi
FormezPA - OpenData nelle PA di piccole e medie dimensioni - EsempiFormezPA - OpenData nelle PA di piccole e medie dimensioni - Esempi
FormezPA - OpenData nelle PA di piccole e medie dimensioni - Esempi
 

More from Carlo Vaccari

Rando Veizi: Data warehouse and Pentaho suite
Rando Veizi: Data warehouse and Pentaho suiteRando Veizi: Data warehouse and Pentaho suite
Rando Veizi: Data warehouse and Pentaho suite
Carlo Vaccari
 

More from Carlo Vaccari (20)

Andrea Talamonti: CKAN a tool for Open Data
Andrea Talamonti: CKAN a tool for Open DataAndrea Talamonti: CKAN a tool for Open Data
Andrea Talamonti: CKAN a tool for Open Data
 
Fabrizio Allegretto: Open Data & University
Fabrizio Allegretto: Open Data & UniversityFabrizio Allegretto: Open Data & University
Fabrizio Allegretto: Open Data & University
 
Yapo Juares Tanguy: RSS environment
Yapo Juares Tanguy: RSS environmentYapo Juares Tanguy: RSS environment
Yapo Juares Tanguy: RSS environment
 
Matteo Marchionne: Foaf e feed reader
Matteo Marchionne: Foaf e feed readerMatteo Marchionne: Foaf e feed reader
Matteo Marchionne: Foaf e feed reader
 
Alex Haechler: China vs USA social networks
Alex Haechler: China vs USA social networksAlex Haechler: China vs USA social networks
Alex Haechler: China vs USA social networks
 
Carlo Colicchio: Big Data for business
Carlo Colicchio: Big Data for businessCarlo Colicchio: Big Data for business
Carlo Colicchio: Big Data for business
 
Yves Studer: Big Data in practice
Yves Studer: Big Data in practiceYves Studer: Big Data in practice
Yves Studer: Big Data in practice
 
Klevis Mino: MongoDB
Klevis Mino: MongoDBKlevis Mino: MongoDB
Klevis Mino: MongoDB
 
Rando Veizi: Data warehouse and Pentaho suite
Rando Veizi: Data warehouse and Pentaho suiteRando Veizi: Data warehouse and Pentaho suite
Rando Veizi: Data warehouse and Pentaho suite
 
Unkan Erol: Xing vs Linkedin
Unkan Erol: Xing vs LinkedinUnkan Erol: Xing vs Linkedin
Unkan Erol: Xing vs Linkedin
 
Big Data Conference Ottobre 2013
Big Data Conference Ottobre 2013Big Data Conference Ottobre 2013
Big Data Conference Ottobre 2013
 
Serena Carota: Open Data nella Regione Marche
Serena Carota: Open Data nella Regione MarcheSerena Carota: Open Data nella Regione Marche
Serena Carota: Open Data nella Regione Marche
 
Introduzione ai Social network
Introduzione ai Social network  Introduzione ai Social network
Introduzione ai Social network
 
Sharing Advisory Board newsletter #8
Sharing Advisory Board newsletter #8Sharing Advisory Board newsletter #8
Sharing Advisory Board newsletter #8
 
Seminario su Open data - UniCam 18.4.2013
Seminario su Open data - UniCam 18.4.2013Seminario su Open data - UniCam 18.4.2013
Seminario su Open data - UniCam 18.4.2013
 
Turismo e social network
Turismo e social networkTurismo e social network
Turismo e social network
 
Turismo: i siti web
Turismo: i siti webTurismo: i siti web
Turismo: i siti web
 
Concetta De Vivo: Open Data Day Marche 2013
Concetta De Vivo: Open Data Day Marche 2013Concetta De Vivo: Open Data Day Marche 2013
Concetta De Vivo: Open Data Day Marche 2013
 
Web2.0 e nuovi media
Web2.0 e nuovi mediaWeb2.0 e nuovi media
Web2.0 e nuovi media
 
Introduzione al computer e a Internet
Introduzione al computer e a InternetIntroduzione al computer e a Internet
Introduzione al computer e a Internet
 

I Big Data e la Statistica: un progetto internazionale

  • 1. 1 Fi r enz e, 25 I Big Data e la Statistica: un progetto internazionale Carlo Vaccari
  • 2. 2 Big Data nella Statistica Ufficiale Progetto presentato nel 2013 a HLG e a CES Gruppo di lavoro composto da tecnici di 13 organizzazioni (UN, EU, OECD, NSIs) Quattro sottogruppi: Partnership Task Team Privacy TT Quality TT Sandbox TT
  • 3. 3 Big Data nella Statistica Ufficiale Prime spinte Tre obiettivi: Identificare le possibilità e le sfide strategiche e metodologiche che i BD pongono alla Statistica Ufficiale Verificare la fattibilità della produzione di dati statistici a partire da Big Data e la replicabilità nei vari contesti nazionali Facilitare la condivisione di conoscenza, strumenti e metodi tra le organizzazioni
  • 4. 4 Sandbox Sandbox: ambiente accessibile dal web dove i ricercatori esplorano strumenti e metodi per la produzione di statistiche a partire da Big Data Strumenti software selezionati: Hadoop, Hortonworks (agreement), Pentaho (agreement), RHadoop (...opensource!) Lista aperta a nuovi inserimenti
  • 5. 5 Sandbox technicalities Ospitata dall'ICHEC, un centro di High Performance Computing irlandese Linux cluster composto da 30 nodi, ognuno con due quad-core, 48GB di RAM e 1TB di disco locale Ogni nodo connesso a due reti, una per accedere al fs Lustre e una Gigabit per la gestione 20TB di shared filesystem disponibili
  • 6. 6 Sandbox esperimenti – Prezzi al Consumo Sorgenti:  Scanner data dai supermercati UK  Scanner data da Istat Verifica delle prestazioni di tecnologie BD nel calcolare un indice dei prezzi semplificato – testato su prezzi generati automaticamente Caricati 11 miliardi di prezzi nella Sandbox → comparazione tra diverse tecnologie: Hadoop ↔ NoSQL ↔ RDBMS Visualizzazione dati con Pentaho
  • 7. 7 Sandbox esperimenti – Mobile Data Dataset da Orange dalla Costa d'Avorio (non CDR, ma sottoinsiemi limitati nello spazio/tempo) Esperimenti: Classificare le SIM: lavoratori, studenti, non FL, aziende Classificare le zone (celle): industriali, residenziali, scuola/università, basso/alto traffico Distribuzione temporale delle chiamate: orarie / settimanali / stagionali Studio della mobilità degli utenti
  • 8. 8 Sandbox esperimenti – Mobile Data
  • 9. 9 Sandbox esperimenti – Contatori Dati dall'Irlanda (a livello di utenza, collegati con due indagini) Dati dal Canada(livello di utenza, molti anni, dati orari con cosumo e temperatura e prezzo, collegati con indagini trimestrali) Esperimenti: con RHadoop visualizzare dati sintetici per il Canada e provvedere analisi temporale per: Consumo orario (kWh) vs Temperatura (C) Consumo Orario (kWh) vs Prezzo Orario (c)
  • 10. 10 Sandbox esperimenti – Dati sul Traffico In Olanda, 20,000 rilevatori di traffico su 3,000 km di strade, dati raccolti da un'agenzia centrale, NDW (National data warehouse for traffic) Esperimenti: Come gestire molteplici file in Hadoop Come cambia il traffico durante l'anno Deliverables: Codice per aggregare i dati in Hive e con RHadoop Rappresentazione grafica sullo sviluppo del traffico
  • 11. 11 Sandbox esperimenti – Dati sul Traffico
  • 12. 12 Sandbox esperimenti – Social Network Tweets generati in Mexico da Gennaio a Luglio 2014:  Sentimental analysis per ottenere indicatori di benessere soggettivo (e compararlo con statistiche su “clima” economico)  Tweets geo-referenziati per analizzare il movimento degli utenti Prossimi passi:  Tweet geo-referenziati per movimenti stagionali e migrazioni al confine con USA (pendolarismo interno / esterno)  Lavoro sugli emoticon: dizionario, conteggio e comparazione internazionale degli emoticon e del loro potenziale espressivo  Rivisitazione degli algoritmi con MapReduce, Spark e Scala
  • 13. 13 Sandbox esperimenti – Social Network Mobilità degli utenti Twitter verso le “Città magiche” messicane
  • 14. 14 Stato del progetto Gruppi di provenienza mista (skill/nazioni) sui vari esperimenti Tutti i gruppi stanno conducendo esperimenti e hanno definito i deliverable: risultati preliminari per novembre, finali per fine anno Si stanno sviluppando materiali per la formazione Ottima cooperazione e scambio di esperienze: i partecipanti chiedono maggiore tempo per sviluppare altri esperimenti → richiesta di estensione del progetto
  • 15. 15 Lessons learned La cooperazione (internazionale) è un moltiplicatore di idee L'acquisizione dei (big) dati è un processo lungo: approci diversi (Partnership TT) e sponsorship “politica”/legale Avviare un ambiente tecnologico completo e stabile richiede tempo Per cooperare servono incontri sia “in presenza” che virtuali La formazione serve su diverse competenze: IT, stat e math → serve personale aperto al nuovo: tecniche, software e metodi
  • 17. Q&A