I Big Data e la Statistica: un progetto internazionale
1. 1
Fi
r
enz
e,
25
I Big Data e la Statistica: un progetto
internazionale
Carlo Vaccari
2. 2
Big Data nella Statistica Ufficiale
Progetto presentato nel 2013 a HLG e a CES
Gruppo di lavoro composto da tecnici di 13 organizzazioni
(UN, EU, OECD, NSIs)
Quattro sottogruppi:
Partnership Task Team
Privacy TT
Quality TT
Sandbox TT
3. 3
Big Data nella Statistica Ufficiale
Prime spinte
Tre obiettivi:
Identificare le possibilità e le sfide strategiche e
metodologiche che i BD pongono alla Statistica Ufficiale
Verificare la fattibilità della produzione di dati statistici a
partire da Big Data e la replicabilità nei vari contesti nazionali
Facilitare la condivisione di conoscenza, strumenti e metodi
tra le organizzazioni
4. 4
Sandbox
Sandbox: ambiente accessibile dal web dove i ricercatori
esplorano strumenti e metodi per la produzione di statistiche a
partire da Big Data
Strumenti software selezionati: Hadoop, Hortonworks
(agreement), Pentaho (agreement), RHadoop (...opensource!)
Lista aperta a nuovi inserimenti
5. 5
Sandbox technicalities
Ospitata dall'ICHEC, un centro di High Performance
Computing irlandese
Linux cluster composto da 30 nodi, ognuno con due quad-core,
48GB di RAM e 1TB di disco locale
Ogni nodo connesso a due reti, una per accedere al fs Lustre
e una Gigabit per la gestione
20TB di shared filesystem disponibili
6. 6
Sandbox esperimenti – Prezzi al Consumo
Sorgenti:
Scanner data dai supermercati UK
Scanner data da Istat
Verifica delle prestazioni di tecnologie BD nel calcolare un indice dei
prezzi semplificato – testato su prezzi generati automaticamente
Caricati 11 miliardi di prezzi nella Sandbox → comparazione tra
diverse tecnologie: Hadoop ↔ NoSQL ↔ RDBMS
Visualizzazione dati con Pentaho
7. 7
Sandbox esperimenti – Mobile Data
Dataset da Orange dalla Costa d'Avorio (non CDR, ma
sottoinsiemi limitati nello spazio/tempo)
Esperimenti:
Classificare le SIM: lavoratori, studenti, non FL, aziende
Classificare le zone (celle): industriali, residenziali,
scuola/università, basso/alto traffico
Distribuzione temporale delle chiamate: orarie /
settimanali / stagionali
Studio della mobilità degli utenti
9. 9
Sandbox esperimenti – Contatori
Dati dall'Irlanda (a livello di utenza, collegati con due indagini)
Dati dal Canada(livello di utenza, molti anni, dati orari con cosumo e
temperatura e prezzo, collegati con indagini trimestrali)
Esperimenti: con RHadoop visualizzare dati sintetici per il Canada e
provvedere analisi temporale per:
Consumo orario (kWh) vs Temperatura (C)
Consumo Orario (kWh) vs Prezzo Orario (c)
10. 10
Sandbox esperimenti – Dati sul Traffico
In Olanda, 20,000 rilevatori di traffico su 3,000 km di strade, dati
raccolti da un'agenzia centrale, NDW (National data warehouse for
traffic)
Esperimenti:
Come gestire molteplici file in Hadoop
Come cambia il traffico durante l'anno
Deliverables:
Codice per aggregare i dati in Hive e con RHadoop
Rappresentazione grafica sullo sviluppo del traffico
12. 12
Sandbox esperimenti – Social Network
Tweets generati in Mexico da Gennaio a Luglio 2014:
Sentimental analysis per ottenere indicatori di benessere
soggettivo (e compararlo con statistiche su “clima” economico)
Tweets geo-referenziati per analizzare il movimento degli utenti
Prossimi passi:
Tweet geo-referenziati per movimenti stagionali e migrazioni al
confine con USA (pendolarismo interno / esterno)
Lavoro sugli emoticon: dizionario, conteggio e comparazione
internazionale degli emoticon e del loro potenziale espressivo
Rivisitazione degli algoritmi con MapReduce, Spark e Scala
13. 13
Sandbox esperimenti – Social Network
Mobilità degli utenti Twitter verso le “Città magiche” messicane
14. 14
Stato del progetto
Gruppi di provenienza mista (skill/nazioni) sui vari esperimenti
Tutti i gruppi stanno conducendo esperimenti e hanno definito i
deliverable: risultati preliminari per novembre, finali per fine anno
Si stanno sviluppando materiali per la formazione
Ottima cooperazione e scambio di esperienze: i partecipanti
chiedono maggiore tempo per sviluppare altri esperimenti
→ richiesta di estensione del progetto
15. 15
Lessons learned
La cooperazione (internazionale) è un moltiplicatore di idee
L'acquisizione dei (big) dati è un processo lungo: approci diversi
(Partnership TT) e sponsorship “politica”/legale
Avviare un ambiente tecnologico completo e stabile richiede tempo
Per cooperare servono incontri sia “in presenza” che virtuali
La formazione serve su diverse competenze: IT, stat e math →
serve personale aperto al nuovo: tecniche, software e metodi