2. Agenda
1. Breve panorama Open Data in Italia
2. Il programma Open Data di Regione Lombardia
3. Oltre il dato: raccontare il dato
4. Collaborazioni e riusi
5. Processi e strumenti
6. Cosa abbiamo imparato
7. Conclusioni
2
15. Opendata in Italia (fonte Sciamlab OpenDataHub)
53.201 dataset pubblicati 662 Organizzazioni
(dati rilevati il 9-11-2019)
1. Regione Lombardia (4.382)*
2. Prov. Autonoma Trento (4.141)
3. Regione Val d’Aosta (2.168)
4. Regione Emilia Romagna (2.076)
5. Consorzio Lamma (2.018)
6. ISTAT (1.835)
7. INPS (1.583)
8. Ministero dell’Economia (1.393)
9. Comune di Firenze (1.363)
10.Regione Liguria (1.308)
11.Regione Piemonte (1.295)
12.Regione Sardegna (1.214)
13.Comune di Albano Laziale (1.189)
14.Roma Capitale (1.187)
15.Comune di Milano (1.132)
16.Comune di Palermo (825)
17.Regione Toscana (760)
18.Provincia Bolzano (700)
19.Comune di Pisa (675)
20.ENEL (657)
21. Regione Basilicata (499)
22. Comune di Torino (442)
23. Comune di Cesena (433)
24. Comune di Lecce (383)
25. Regione Veneto (375)
26. Città Metropolitana Firenze (373)
27. Regione Umbria (370)
28. Regione Lazio (362)
29. Regione FVG (329)
30. Comune di Arezzo (325)
31. Provincia di Lodi (308)
32. Città Metropolitana di Milano (279)
33. Ministero dell’Ambiente (278)
34. Comune di Siena (267)
16. Ma importa davvero quanti dati sono liberati ?
• NO !
• Sono anni che diciamo di smetterla di contare i
dataset pubblicati ed iniziare a misurare gli
«effetti», l’impatto (i riusi ? Gli impatti dei riusi ?)
• Visto che misurare gli effetti è estremamente
complesso, potremmo iniziare a misurare quanto
vengono «usati»
• Ricerche non ne esistono
• Anche l’ultima dell’Osservatorio del PoliMi si
focalizza sulla pubblicazione. Perché ?
26. PER SAPERNE DI PIÙ
Il portale Open Data di Regione Lombardia (attivo al link www.dati.lombardia.it) è online dal 2012 ed è regolato
dai "Criteri generali per l’Open Data" e altri documenti che stabiliscono le attività di Regione e degli Enti Locali.
La storia e i numeri
Basato sulla soluzione cloud Socrata
che permette la gestione completa e
integrata del portale, dei dati
multiformato, degli utenti, delle API e
delle visualizzazioni
3000+ dataset pubblicati ad oggi
(Regione Lombardia, Sistema Regionale
ed Enti Locali) distribuiti su 24 categorie
150+ utenti pubblicatori di cui 120
degli Enti Locali aderenti all’iniziativa
I dati sono pubblicati con licenza IODL 2.0 o CC-BY 4.0
che concedono all’utente la possibilità di riprodurre,
distribuire, trasmettere e adattare liberamente i dati,
anche a scopi commerciali, a condizione che venga
citata la fonte
26
Statistiche (da Marzo 2012 a Settembre 2019)
16 pagine viste
mln
3 visualizzazioni
datasetmln
2 download
datasetmln
Regione Lombardia è compliant al profilo nazionale di metadatazione DCAT-
AP_IT e leader nel paniere dei dataset regionali (monitorato da AgID).
27. Il portale Open Data è in continua evoluzione e fortemente in crescita.
Nel 2019 il portale ha avuto 600.000 visualizzazioni e oltre 1Mln di download
DATASET IN EVIDENZA per numero di record
- Sensori qualità dell’aria, delle acque e meteo dal 1968, oltre 660
milioni di record, aggiornati ogni 6 ore
- Centinaia di dataset della Sanità, inclusi dati di performance
- Sezione dedicata all’Osservatorio Epidemiologico
- Parco Autoveicoli (8,5 mln di record)
- Matrici Passeggeri e Merci (8 mln di record)
- Catasto Impianti Termici (caldaie) – oltre 3 mln di record
- Catasto Certificazioni Energetiche Edifici (oltre 1 mln di record)
Open Data Lombardia: 7 anni di crescita
- Orario ferroviario regionale
- Transcodifica codici esenzioni
- Elenco operatori biologici
- Sportelli Rilascio PIN-CRS
- Elenco RSA accreditate
- Tabella codici esenzioni
TOP 3 DOWNLOAD (2019)
TOP 3 VISUALIZZAZIONI
PER SAPERNE DI PIÙ
AUTOMAZIONE tramite ETL Pentaho/Talend
150+ dataset automatizzati
300+ dataset semi-automatizzati
DATA QUALITY
- Miglioramento continuo
- Presa in carico delle segnalazioni
- Tool di verifica qualità
1573 aggiornamenti / mese
Statistiche (da Marzo 2012 a Settembre 2019)
28. Oltre la Regione, il Territorio
Delibera Open
Data per EELL
Dic 2012
Primo elenco di
dataset consigliati
Lug 2014
18 EELL e 4
micrositi dedicati
2014-2017 «Paniere» di dataset e
Co-finanziamento per EELL
Ott 2017
136 EELL aderenti con
> 1.500 datasets
Dic 2017
Formazione
e supporto
2018
Monitoraggio EELL
2019
Il portale Open Data è diventato nel corso degli anni uno strumento molto utilizzato anche dagli Enti Locali.
Delibera aggiornamento criteri
Open Data N. 16408 del 13/11/2018
Nov 2018
Per maggiori informazioni: https://www.regione.lombardia.it/wps/portal/istituzionale/HP/DettaglioAvviso/servizi-e-informazioni/enti-e-operatori/nuovi-criteri
29. Azioni di stimolo e supporto per gli EELL
QUINDI
▪ Gli Enti Locali sono poco consapevoli al tema
▪ Gli Enti Locali non sanno «estrarre» i propri dati
▪ I dati sono «imprigionati» dentro applicativi di cui
i funzionari sono puramente «utenti»
▪ È indispensabile coinvolgere i fornitori di software
▪ È necessario stabilire degli standard
▪ È utile che l’investimento sia fatto «una tantum»
33. Gli std degli EELL referenziati sul portale nazionale UK
34. Standard semantici by AgID
https://github.com/italia/daf-ontologie-vocabolari-controllati
35. Co-finanziamenti per gli Enti Locali che pubblicano Open Data
2 CONDIZIONI
10 o 25 dataset
scelti nel paniere definito
da Regione Lombardia
Processi di pubblicazione
automatizzati
Azioni di stimolo e supporto per gli EELL
36. Risultati
Centinaia di dataset in aggiunta a quelli definiti dal paniere !
120 Enti Locali che pubblicano «automaticamente»
15 Software House coinvolte
1.374 dataset «standardizzati» pubblicati
https://www.dati.lombardia.it/admin/activity_feed
38. Mappe
Rappresentazione bidimensionale, geometricamente accurata, dello spazio sul quale sono sovrapposte le
informazioni contenute in un dataset tramite insieme di punti [funzione POINT(latitudine, longitudine)] o di aree
[funzione MULTIPOLYGON].
https://www.dati.lombardia.it/d/98xy-uigr
38
39. Grafici
Rappresentazione dell'informazione in formato grafico e visuale al fine di fornire al pubblico un’interpretazione più
chiara ed immediata dei dati. Sono disponibili grafici a torta, a barre, a linee, combinati e a dispersione.
https://www.dati.lombardia.it/d/qyrr-4y4c
39
40. Storie 1/3 https://www.dati.lombardia.it/stories/s/uh6h-66ub
Bandi di Regione Lombardia:
Customer satisfaction sui servizi on-line agli utenti
Sempre più spesso, per partecipare ai bandi di Regione Lombardia è necessario fruire di servizi informatizzati, raggiungibili in genere via web
su varie piattaforme gestite anche da soggetti diversi.
Per migliorare i servizi on line offerti a supporto di chi partecipa a propri bandi (es.: per la fruizione di finanziamenti o altro), Regione propone
a chi presenta domande di adesione di restituire un feedback sul servizio ricevuto in fase di presentazione della domanda (Adesione) e, ove
previsto, di presentazione finale della documentazione richiesta (Rendicontazione).
Le informazioni raccolte, oltre a servire per un'analisi interna, sono anche restituite come dati aperti, in ottica di trasparenza amministrativa.
40
Risorse con funzionalità di tipo redazionale per raccontare i dati attraverso testi, immagini e incorporando risorse
già presenti sul portale quali dataset, mappe, grafici e viste filtrate.
Le storie possono poi collegarsi ad altre storie creando dei veri e propri micrositi e ogni loro oggetto è aggiornato in
tempo reale sulla base del dataset dal quale è stato generato.
42. La piattaforma fornisce la possibilità di incorporare (embedding) anche immagini e oggetti esterni come ad esempio
grafici e report creati da tool di business intelligence (Tableau, Qlik sense, etc.), video di youtube e qualsiasi altro
oggetto basato su HTML/Javascript creato ad hoc.
Storie 3/3
42
Esempi di incorporazione di grafici Tableau su una
storia di Osservatorio Epidemiologico (primo caso) e
dei Negozi Storici in Lombardia (secondo caso)
Focus età pediatrica
https://www.dati.lombardia.it/stories/s/sxn6-4pjh https://public.tableau.com/profile/isaia.invernizzi#!/vi
zhome/HistoricshopsinLombardy/Dashboard1
43. Embedding: alcuni casi d’uso 1/2
Tutti gli oggetti visti fino ad ora possono essere incorporati all’interno di altri portali. Molti enti utilizzano risorse
presenti sul portale Open Data (di cui talvolta possono essere anche owner) all’interno dei loro siti istituzionali.
43
http://www.curit.it/opendata
http://www.cened.it/opendata-cened-2.0
44. Embedding: alcuni casi d’uso 2/2
44
http://www.provincia.mb.it/Temi/ambiente/aria/accordo-aria/index.html
https://www.ancebrescia.it/2017/mappa-del-catasto-degli-
impianti-trattamento-rifiuti-attualmente-autorizzati-eo-esercizio/
45. Datalens (cross-filtering) 1/2
Sono speciali composizioni di grafici e mappe collegati tra loro, in cui la selezione su un oggetto è usata come
filtro per tutti gli altri, utile per il monitoraggio di un fenomeno su diverse dimensioni di analisi.
https://www.dati.lombardia.it/d/fmi8-4d4k
45
46. Datalens (cross-filtering) 2/2
I datalens possono contenere anche campi di ricerca libera con autocompletamento e, come tutte le risorse del
portale open data, sono responsive per cui consultabili efficacemente anche da mobile.
https://www.dati.lombardia.it/d/wiy4-qc79
46
Versione DESKTOP
Versione MOBILE
47. API
Tutti i dataset pubblicati sono interrogabili tramite API, documentate e con molte librerie per i
linguaggi più diffusi (PHP, .NET, Android, iOS, Java, Javascript, Python, R, Ruby, Scala, Swift)
https://dev.socrata.com/
47
49. Università e Ricerca: didattica, laboratori, tesi, ricerca
Civic hackers: diffusione, confronto
Data Journalism: diffusione, confronto, riuso
Collaborazioni
Nel corso degli anni sono state stipulate collaborazioni con Università, giornalisti ed altri soggetti interessati.
50. Analisi su dati sanitari (UniMIB)
http://www.entechne.com/Datavisualization/1/
51. Analisi su dati sanitari (UniMIB)
http://www.entechne.com/Datavisualization/1/
52. Analisi su dati sanitari (UniMIB)
http://www.entechne.com/Datavisualization/2/
53. Analisi su dati sanitari (UniMIB)
http://www.entechne.com/Datavisualization/2/
55. Riuso dei dati
Portali, articoli ed app sviluppate da Regione Lombardia o società regionali.
https://www.in-lombardia.it/it/
https://www.nonseidasola.regione.lombardia.it/
68. La pubblicazione dei dataset sul portale può avvenire in maniera manuale o automatica.
Il secondo metodo è quello più utilizzato ed è da favorire perché garantisce un maggior rispetto delle frequenze di
aggiornamento e della qualità del dato. Nel primo metodo, senza dovuti accorgimenti, può permettere l’inserimento di
errori sul formato numerico con decimali e date.
Processo di pubblicazione 1/2
68
DATAINTEGRATION
Estrazione Trasformazione Pubblicazione
SORGENTIDATO
GENERATEAUTOMATICAMENTE
Accesso diretto ad un database o
ad una sua estrazione
DATOSORGENTE
GENERATOMANUALMENTE
File CSV o Excel preparati in
modo manuale dall’owner
Data cleaning da parte
di un operatore
Data
cleaning
Geo-
coding
Standardizzazion
e dei formati
OPERAZIONI
Come da Decreto, gli Enti Locali devono pubblicare dataset in modalità automatica
AUTOMATICA
metadati
eventuale descrizione campi (pdf)
69. 69
MANUALE
Processo di pubblicazione 2/2 https://www.dati.lombardia.it/d/647i-nhxk
SCGC
Crea
Crea una nuova risorsa dal menu
Crea > Collezione di dati
File CSV o Excel preparati in
modo manuale dall’owner
Data cleaning da parte
di un operatore
metadati
eventuale descrizione campi (pdf)
Esempio di Dataset aggiornato automaticamente ogni 6 ore
70. Due «ossessioni»
1. Automazione
156 dataset automatizzati
308 dataset semi-automatizzati
3 aggiornamenti 4 volte al giorno
37 aggiornamenti giornalieri
17 aggiornamenti settimanali
3 aggiornamenti quindicinali
29 aggiornamenti mensili
1.573 aggiornamenti/mese in automatico
71. Due «ossessioni»
2. Qualità dei dati
Miglioramento continuo
Correzione di ogni segnalazione
Tool di verifica qualità
Progetto con Università Milano Bicocca
72. La qualità del dato è una caratteristica distintiva del portale Open Data di RL e mantenerlo alto è una
delle mission principali del gruppo di lavoro. Gli utenti interni, ma soprattutto quelli pubblici possono
segnalare dati errati, dati mancanti, richiedere campi aggiuntivi o proporre nuovi dataset. Le richieste
vengono analizzate ed evase tempestivamente dal gruppo di lavoro.
Data Quality: segnalazioni degli utenti
72
Per segnalazioni e/o informazioni ai dataset pubblicati far riferimento all’email admin@dati.lombardia.it
È in corso la predisposizione di una mail di gruppo di lavoro in modo da monitorare e gestire le
segnalazioni pervenute. Una volta creata verrà condivisa e pubblicata sul nuovo portale Open Data.
PER SAPERNE DI PIÙ
20+ segnalazioni da utenti esterni
30+ richieste interne di
creazione/aggiornamento dataset
Statistiche (2019)
< 5gg tempo medio di risoluzione
problemi e/o creazione/aggiornamento job
automatico di pubblicazione dataset
< 2gg tempo medio di risposta alle
segnalazioni
73. Ciascun dataset al momento della sua creazione viene corredato da metadati che ne descrivono le sue
caratteristiche principali tra le quali la frequenza con la quale verrà aggiornato periodicamente (mensile, annuale…).
Il team OD attraverso un procedura automatica di monitoraggio controlla periodicamente che i dataset vengano
aggiornati secondo le frequenze dichiarate dai loro data owner e segnala a questi eventuali anomalie.
Data Quality: monitoraggio frequenze
73
Frequenza: Settimanale
Statistiche su dataset owner
Regione Lombardia/SiReg
Dataset compliant: 500+
Dataset non compliant per
frequenza non rispettata:
130
Dataset non compliant per
mancati metadati su
frequenza e/o data ultima
modifica: 150
74. Molti dataset del portale espongono campi con URL che rimandano a pagine web esterne o a file
scaricabili. Data la natura dinamica di siti e contenuti sul web, una procedura automatica di monitoraggio
che controlla periodicamente la validità di tutti i link presenti nei dataset segnalando quelli non più validi
da indirizzare agli owner per la loro correzione.
Data Quality: monitoraggio validità URL
74
Data Quality: analisi url dataset
From: admin@dati.lombardia.it
To: Team OpenData
Buongiorno,
sono stati analizzati tutti i dataset pubblicati contenenti campi url.
In sintesi:
- Il numero di dataset con url risultano essere 338.
- Il numero di campi url analizzati risultano essere 651.
- Il numero totale di url verificate risultano essere 20593.
- Sono state riscontrate 2085 url non valide. In allegato l'elenco
delle url con associato il codice HTTP di errore. Si prega di
correggere tali anomalie ove necessario.
Team OpenData
Frequenza: Settimanale
URL verificate: 20K+
URL non valide: 10%
dq_url.zip
75. Un numero sempre più consistente di dataset presenti sul portale non vengono prodotti e pubblicati direttamente da
RL o dagli enti SIREG ma dagli Enti Locali che hanno aderito all’iniziativa di co-finanziamento impegnandosi a
rispettare regole e formati definiti nel «paniere regionale».
Con il fine di tenere alta anche la qualità di questi dataset è in corso lo sviluppo di una procedura automatica di
monitoraggio della compliance di questi dati rispetto al paniere.
Data Quality: monitoraggio del paniere EELL
75
DATAINTEGRATION
Estrazione Trasformazione Pubblicazione
Dataset
EELL
Aggiornamento
dei metadati
File
monitoraggio
EELL
Verifica della
congruità dei
campi obbligatori
ed opzionali del
paniere regionale
Verifica
standardizzazione
dei formati
Verifica dei
metadati
Verifica della
completezza dei
campi obbligatori
(sopra una soglia
di accettabilità)
Fase 1 Fase 2 Fase 3 Fase 4
77. Cosa pubblicare ?
All’inizio fu «il censimento»
• Molte PA (e noi pure) sono partite da censire cosa
avevano digitalizzato e cosa potevano «facilmente»
pubblicare
COPIARE !
• Copiare non è sbagliato in sé, emulare PA simili che sono
più «avanti» può essere un buon metodo.
Ascoltare !
• Sfortunatamente la domanda di Open Data in Italia è
bassa e non si esprime. Si può stimolarla, ad es.
ingaggiando «civic hackers», Università, giornalisti, etc
79. Cosa pubblicare ?
La PA possiede un infinità di dati utili ai
cittadini ed alle imprese a fare delle scelte
▪ Il luogo dove vivo, lavoro, mando a scuola i figli è inquinato ?
▪ Dove compro casa ? (trasporti, servizi, salute, criminalità)
▪ In quale scuola mando mio figlio ? (offerta formativa,
performance)
▪ In quale ospedale vado a curarmi ? (offerta, performance)
▪ Dove trovo un trasporto pubblico ?
▪ Dove trovo un lavoro ?
▪ Dove apro il prossimo negozio della mia catena ?
▪ Se sono per strada e mi scappa ?
80. Processi e strumenti ?
Fare Open Data richiede costanza (è una maratona)
▪ È un progetto di medio termine
▪ Servono finanziamenti ed una squadra «stabile»
Per fare Open Data bene servono gli strumenti
▪ Una buona piattaforma di pubblicazione aiuta molto
▪ Strumenti di ETL sono indispensabili
Nessuno nasce «imparato»
▪ Studiare, studiare, studiare (guardare cosa fanno gli altri, estero)
▪ Confrontarsi il più possibile con tanti attori diversi
▪ Serve competenza di dominio
▪ Occorre fare molta formazione «interna»
81. Le resistenze interne
sono normali ?
Cesare Battisti
Il trentino - 1898
[..] Di più avrei potuto fare,
specialmente nel campo statistico,
se non ci fosse nel nostro paese, e
nei privati e negli enti morali, una
tal quale ritrosia a confidare
al dominio del pubblico dati,
fatti e notizie.
82. Le resistenze interne ?
La domanda «esterna» è molto utile:
• Per ragioni incomprensibili, se lo chiede un esterno è più
importante che se lo chiede un interno
• Stimolate esterni a fare FOIA !
• Se il data owner scopre che i «suoi» dati interessano ad
altri …. Si motiva ! … E se si motiva → cura il dato
Alcuni sono motivati dal fatto che l’OD, ovvero mettere i dati a
disposizione di tutti, gli risparmia del lavoro :-( .
Visto in positivo: se l’automazione riduce il tempo dedicato ad
attività più operative, libera del tempo per attività più
strategiche (nuovi dati, ingaggio riutilizzatori, etc)
84. Cosa faremo nei prossimi anni ?
▪ Pubblicheremo ancora tanti altri dati !
▪ Inizieremo a pubblicare Linked Open Data (OntoPiA)
▪ Nuove modalità di visualizzazione avanzata
Monitoraggio di KPI per
mezzo di Dashboard
Visualizzatore con
analisi di eventi
geoferenziaziati
▪ Indice di qualità dei dati, calcolato e monitorato in
automatico
▪ Versioning / Certificazione del dato
85. Cosa mi aspetto dal livello centrale
▪ Più coraggio nel rilasciare i «dati di base»
▪ Apertura dei dati «a competenza diffusa» raccolti
da Enti centrali
▪ Standard per i dati a competenza diffusa
▪ Un portale nazionale «funzionante» e che abbia
uno scopo che va oltre il mero «catalogo»
▪ Supporto per la «sensibilizzazione» e la diffusione
delle buone pratiche
86. Un progetto di Open Data serio ha bisogno, idealmente, di molti ingredienti.
Conclusioni
86
Una piattaforma con
funzionalità avanzate
Diversi modi di
rappresentare il dato e
di raccontarlo tramite le
storie
Team dedicato con
continuità
Processi automatici di
pubblicazione, data
quality, e monitoraggio.
Impegno di medio
periodo
Ascolto, apertura al
mondo esterno
Sensibilizzazione e
Formazione
Standard