Verso le trusted smart statistics - prospettive di sviluppo e risultati del essnet big data pilots II
1. VERSO LE TRUSTED SMART STATISTICS PROSPETTIVE DI SVILUPPO
E RISULTATI DEL ESSNET BIG DATA PILOTS II
MOBILE NETWORK DATA
Roberta Radini– Istat
Istat team: Raffaella Maria Aracri
Fabrizio De Fausti
Tiziana Tuoto
Luca Valentino
Roma, 5 Maggio 2021
2. Indice
La partecipazione ISTAT dell’ESSNET sui “Mobile Network Data”
Cosa sono i “Mobile Network Data”
Su quali Network Data si sono concertati i lavori dell’ESSNET
Modalità di accesso ai dati
Le potenzialità dei “Mobile Network Data”
Sperimentazioni: Stime di Popolazione e Matrice O/D
SMART STATISTICS PROSPETTIVE DI SVILUPPO E RISULTATI DEL ESSNET BIG DATA II 2
3. L’esperienza dell’ESSNET
L’ESSNET è stata l’occasione per gli Istituti di Statistica partecipanti per
condividere le esperienze e le problematiche riscontrate nell’uso dei Mobile
Network Data e ci ha consentito di:
• stabilire definizioni comuni, un glossario;
• applicare lo standard di processo per i Big Data, BREAL;
• identificare i punti di forza: granularità e tempestività;
• e i punti di debolezza dei MND: localizzazione e inferenza;
• discutere delle strategie di accesso ai Dati di telefonia;
• confrontarci sui possibili prodotti statistici da MND e sui risultati delle sperimentazioni;
SMART STATISTICS PROSPETTIVE DI SVILUPPO E RISULTATI DEL ESSNET BIG DATA II 3
4. L’esperienza dell’ESSNET
OUTPUT del ESSNET Big DATA Work Package I - Mobile Network Data
SMART STATISTICS PROSPETTIVE DI SVILUPPO E RISULTATI DEL ESSNET BIG DATA II 4
Deliverable I1: Access to mobile network data: updated overview;
Deliverable I2: Data Simulator - A simulator for network event data;
Deliverable I3: A proposed production framework with mobile network data;
Deliverable I4: Some IT tools for the production of official statistics with mobile network data
Deliverable I5: First proposed standards and metadata for the production of official statistics with mobile
network data;
Deliverable I6: A Proposal for a Statistical Production Process with Mobile Network Data;
Deliverable I7: Some experimental results with mobile network data;
Deliverable I8: Visualisation tools for the production of official statistics with mobile network data;
https://ec.europa.eu/eurostat/cros/content/wpi-milestones-and-deliverables_en
5. Cosa sono i “Mobile Network Data”
I dati di telefonia mobile sono generati:
dal device (cellulare) per:
Inviare e ricevere informazioni: chiamata telefonica, SMS, MMS,
accesso a internet;
Mantenere il contatto con la rete telefonica;
dalla rete telefonica per:
Gestire il funzionamento della rete;
Fornire il servizio di connettività ai cellulari;
SMART STATISTICS PROSPETTIVE DI SVILUPPO E RISULTATI DEL ESSNET BIG DATA II 5
6. I Dati di telefonia generati dal device e/o dalla rete si distinguono in:
Dati Passivi: dati legati alle attività dell’utente (Chiamate telefoniche,
SMS, MMS, traffico dati) che consentono sotto opportune condizioni
la localizzazione. Questi dati sono definiti passivi perché registrati
soltanto quando l’utente svolge una attività. A questo tipo di dati
appartengono:
CDR (Call Detail Record), ossia: Chiamate telefoniche, SMS,
MMS;
Traffico Dati, ossia dati scambiati dal device quando accede alla
rete internet.
Cosa sono i “Mobile Network Data”
SMART STATISTICS PROSPETTIVE DI SVILUPPO E RISULTATI DEL ESSNET BIG DATA II 6
7. SMART STATISTICS PROSPETTIVE DI SVILUPPO E RISULTATI DEL ESSNET BIG DATA II 7
Dati Attivi: dati legati all’operatività del dispositivo che consentono
sotto opportune condizioni la localizzazione. Questi dati sono definiti
attivi perché registrano la localizzazione anche quando il dispositivo è
acceso, ossia anche quando l’utente non sta svolgendo attività legate
alla comunicazione (telefonate, messaggi o accesso a internet). A
questo tipo di dati appartengono:
GPS (Global Positioning System), sistema di localizzazione
satellitare del device. Deve essere attivato dal utente. Questo tipo
di dati ha una elevata qualità di geolocalizzazione;
Signaling data, ossia dati scambiati dalla rete di telefonia per
consentire al dispositivo di essere sempre connesso alla rete
durante gli spostamenti e quindi essere pronto all’utilizzo e rilevati
da apposite sonde (Probe Data). Questo tipo di dati ha una
geolocalizzazione legata ad una Area (settore telefonico)
misurata da una probabilità;
Cosa sono i “Mobile Network Data”
8. I dati di telefonia (MPD: Mobile Phone Data o NT: Network Data) al momento a
disposizione per le analisi sono:
• CDR Data: rilevati soltanto quando l’utente svolge una attività telefonica
(esempio di dati Passivi);
• Probe Data: rilevati in modo continuo indipendentemente dalle attività
dell’utente (esempio di dati Attivi);
In entrambe i casi i dati forniscono informazione spazio-temporale di presenza
del dispositivo telefonico acceso e/o attivo nella comunicazione. Inoltre i dati di
telefonia forniscono informazioni relative a:
• Identificativo dell’utente di telefonia (identificativo SIM: Subscriber Identity
Module);
• nei CDR ilTempo di inizio e fine dell’attività svolta, e il settore dell’antenna che
ha agganciato il device all’inizio e alla fine della comunicazione;
• nei Probe Data ad ogni secondo il settore dell’antenna che ha agganciato il
device.
Network Data utilizzati nell’ESSNET
SMART STATISTICS PROSPETTIVE DI SVILUPPO E RISULTATI DEL ESSNET BIG DATA II 8
9. • Localizzazione del dispositivo nei Network Data è una informazione
riferita ad una area stimata che dipende da diversi fattori, ad esempio:
• Tecnologici, ad esempio tipo di connessione (3G, 4G, 5G), tipo di
antenna e parametri tecnici di questa;
• Ambientali e Metereologici, ad esempio territorio montuoso,
vicinanza a specchi di acqua, oppure giorni di pioggia o di neve;
• Densità di popolazione per area coperta dall’antenna, ad esempio le
celle telefoniche in città sono molte e mediamente piccole,
sovrapposte per servire un elevato numero di utenti, nelle zone
extra-urbane sono molto estese;
Network Data utilizzati nelle analisi
Tutte queste informazioni per essere studiate richiedono conoscenze
specialistiche nelle Telecomunicazioni e sono strettamente legate al
Business dei Provider e quindi non vengono cedute.
SMART STATISTICS PROSPETTIVE DI SVILUPPO E RISULTATI DEL ESSNET BIG DATA II 9
10. Network Data utilizzati nelle analisi
• Gestione della Privacy del cittadino da parte dei provider in processi di
anonimizzatine degli identificativi delle SIM (Subscriber Identity Module)
• Questa attività svolta dai provider deve essere mediata rispetto alle
esigenze di analisi, ad esempio:
• Le analisi di pendolarismo casa-lavoro (abituale) hanno bisogno di
osservare per un periodo di settimane i dati di segnale di presenza di
una SIM, quindi l’identificazione della SIM deve essere fissa per tutto
il periodo, aumentando il rischio di reidentificazione. In questo caso
si sceglie di generalizzare l’identificazione dello spazio (aree più
vaste) e/o del tempo (intervalli temporali).
• Vengono eliminate le singolarità nei dati o mascherati i valori
aggregati che possono consentire una reidentificazione.
• Il tempo di conservazione del dato grezzo per i provider è di 6 mesi;
SMART STATISTICS PROSPETTIVE DI SVILUPPO E RISULTATI DEL ESSNET BIG DATA II 10
11. Esperienza di accesso ai dati ISTAT
Accesso diretto ai dati (CDR) forniti
da WIND-TRE:
- La nostra modalità di lavoro
tradizionale: le nostre mani
direttamente nei dati
- Grande opportunità per
apprendere tecnicismi, potenzialità
e debolezza dei dati
- Facilitare la scoperta di nuovi
prodotti di dati
Questo lavoro è sospeso in attesa del
parere del Garante per la
protezione dei dati sulla valutazione
dell'impatto sulla protezione dei dati
Collaborazione con VODAFONE per
analisi senza accesso ai dati:
- Nuove modalità di lavoro, nuove
sfide per l'organizzazione del
lavoro, il rapporto con i nostri
partner e stakeholder
- Ancora in una fase sperimentale
SMART STATISTICS PROSPETTIVE DI SVILUPPO E RISULTATI DEL ESSNET BIG DATA II 11
12. Risultati condivisi
• Da queste esperienze sono emerse:
• i problemi di qualità;
• le potenzialità;
• la necessità di gestione dell’accesso ai dati e dei rapporti con i
provider;
Le principali problematiche connesse all’uso dei dati di telefonia sono:
• la localizzazione come discusso precedentemente;
• «l’auto selezione» dei dati osservati, ossia rappresenta soltanto la
quota di popolazione che possiede e usa un cellulare. Nel caso si
utilizzino i dati di un solo Provider, rappresenta soltanto gli utenti di
questo, che potrebbero essere «selezionati» per particolari condizioni
di servizio o offerte commerciali;
• passaggio da SIM telefonica ad individuo;
SMART STATISTICS PROSPETTIVE DI SVILUPPO E RISULTATI DEL ESSNET BIG DATA II 12
13. Le potenzialità
MND fornisce informazioni sulla presenza degli utenti in un determinato
tempo e scale spaziali molto ridotte, e possiamo parlare:
- di segnali di permanenza stabile in un luogo per un periodo ma non di
residenza;
- di segnali di presenza in un luogo in un certo momento o per un periodo
(turismo);
- di segnali di spostamento, anche abituale, ma non specificarcene il
motivo (studio o lavoro), in alcuni casi si può stimare il mezzo;
Nelle sperimentazioni svolte abbiamo indagato, ad esempio:
• la correlazione tra i risultati di densità di popolazione ottenuti dai dati di
telefonia e le stime di densità di popolazione residente ottenute da registro
statistico
• le variazioni dei flussi di mobilità stimati al variare delle ore del giorno e
dei giorni (festivi e feriali).
• le variazioni dei totali di popolazione presente stimata al variare delle ore
del giorno;
SMART STATISTICS PROSPETTIVE DI SVILUPPO E RISULTATI DEL ESSNET BIG DATA II 13
14. Sperimentazioni: Stime di Popolazione
R2 0.88
Popolazione notturna: ossia totale di popolazione che nelle ore notturne
(dalle 20:00 alle 7:59) sono presenti abitualmente in un comune.
Calcolato attraverso le SIM che sono abitualmente presenti in un comune
nella notte per il maggior numero di ore, e stimando la popolazione che
rappresentano attraverso il «Penetration Rate» e il «Market share» di
WIND nella provincia in esame.
SMART STATISTICS PROSPETTIVE DI SVILUPPO E RISULTATI DEL ESSNET BIG DATA II 14
15. Rischi di copertura della
Popolazione Residente
N° di comuni
Provincial di Pisa
High risk of under cov 8
Moderate risk of under cov 8
No risk 6
Moderate risk of over cov 11
High risk of over cov 4
Inoltre, l'MND fornisce informazioni
ausiliarie a livello di piccola area.
Aree a rischio di under/over coverage
Nel programma di trasformazione del censimento, il MND ci potrebbero
identificare le aree problematiche per i conteggi del censimento?
15
17. Analisi per caratteristiche della popolazione
La collaborazione con Vodafone si è concentrata ad analizzare il
pendolarismo e i flussi di turismo in Italia.
Le analisi sono ancora in corso, ma l’opportunità di analizzare i dati anche
per caratteristiche anagrafiche dei sottoscrittori delle SIM, ci ha evidenziato
come confrontando la popolazione Notturna con la residente, si
evidenziano, come:
- le classi di età 0-10 e 86+ dei possessori di SIM
siano estremamente sotto coperte;
- Mentre la classe 31-50 sovra coperte;
SMART STATISTICS PROSPETTIVE DI SVILUPPO E RISULTATI DEL ESSNET BIG DATA II 17