1. Società italiana di statistica
Dipartimento di economia aziendale
Dipartimento di statistica applicata all’economia
Facoltà di Economia, Università di Pisa
Scuola SIS
Web e Statistica
Data Sharing, Data Gov e Open Data
Vincenzo Patruno
Pisa, Santa Croce in Fossabanda,
5 – 9 settembre 2011
2. Scuola SIS “Web e Statistica”
Il punto di partenza
“Lavoreremo insieme per accrescere la fiducia del pubblico e per
creare un sistema basato sulla trasparenza, la partecipazione e
la collaborazione. Questa apertura rafforzerà la nostra
democrazia e promuoverà l'efficienza e l'efficacia del nostro
governo”
Barak Obama
http://www.whitehouse.gov/the_press_office/TransparencyandOpenGovernment/
3. Scuola SIS “Web e Statistica”
Il punto di partenza
“Make a beautiful website, but first give us the unadulterated data,
we want the data. We want unadulterated data. OK, we have to
ask for raw data now”
Sir Tim Berners-Lee, inventor of the World Wide Web
4. Open Government
Si intende un modello di Governance a
Scuola SIS “Web e Statistica”
livello centrale e locale basato sull'apertura
(partecipazione e collaborazione) e sulla
trasparenza nei confronti dei cittadini
5. Scuola SIS “Web e Statistica”
Open Government
Apertura: “ridefinire le modalita' di approccio e di
relazione delle amministrazioni nei confronti del
cittadino” (attraverso la partecipazione e la
collaborazione).
Fonte: Come si fa Open Data? Istruzioni per l'uso per Enti e Amministrazioni Pubbliche –
Associazione italiana per l'Open Government - Maggioli Editore 2011
6. Scuola SIS “Web e Statistica”
Open Government
Trasparenza: “consentire, stimolare e facilitare i
cittadini nelle attività di controllo continuo dei
processi decisionali all‟interno delle istituzioni, a tutti
i livelli amministrativi e attraverso l‟utilizzo delle
nuove tecnologie.”
Fonte: Come si fa Open Data? Istruzioni per l'uso per Enti e Amministrazioni Pubbliche –
Associazione italiana per l'Open Government - Maggioli Editore 2011
7. Scuola SIS “Web e Statistica”
Open Government
http://www.recovery.gov
http://www.usaspending.gov
8. Scuola SIS “Web e Statistica”
Open Government
Where Does My Money Go
http://www.wheredoesmymoneygo.org
http://www.openspending.org
by
9. Scuola SIS “Web e Statistica”
Open Government
http://opengovernmentdata.org/data/map/
12. Gli Hashtag
#a4i #opengov
Scuola SIS “Web e Statistica”
#opendataitaly
#24opendata
#okf
#opendata
13. Scuola SIS “Web e Statistica”
Open Government
“[...] Rendere più trasparente il lavoro del governo
mettendo a disposizione in un unico sito web le
informazioni su economia, salute, ambiente e altri
argomenti, consentendo al pubblico di accedere ai
dati grezzi e di utilizzarli in nuovi modi innovativi”
14. Open Government
C’è la consapevolezza che l’Open
Scuola SIS “Web e Statistica”
Government sia un elemento chiave per lo
sviluppo economico e sociale di un
Paese
15. Open Data
Nel 2009 la Commissione UE ha stimato
Scuola SIS “Web e Statistica”
che il mercato europeo per il riutilizzo delle
informazioni del settore pubblico sia di 27
miliardi di euro l’anno. Un’enorme quantità di
denaro di cui, nel 2011, ancora nessuno ha
realmente beneficiato.
Studio “MEPSIR – Measuring European Public Sector
Information Resources" (2006), HELM Group
of Companies with Zenc, per la Commissione europea.
16. Dati pubblici e Dati Open
I dati Open sono dati Pubblici riutilizzabili
Scuola SIS “Web e Statistica”
http://opendatamanual.org/
17. Open Data
L’intelligenza collettiva
Scuola SIS “Web e Statistica”
18. Scuola SIS “Web e Statistica”
Apps
Open Data
Data Journalism
20. Apps
Scuola SIS “Web e Statistica”
Applicazioni Web
Applicazioni standalone su desktop
Applicazioni standalone su dispositivi mobile
21. I Contest sugli Open Data
Scuola SIS “Web e Statistica”
La prima edizione di Apps for Democracy ha fruttato 47
Apps (web, iPhone e Facebook) in 47 giorni per un
valore di $2,300,000 per la città a fronte di un costo di
$50,000
“Our mission with "Community Edition" is two fold: to engage the
populace of Washington, DC to ask for their input into the problems
and ideas they have that can be addressed with technology and then
to build the best community platform for submitting 311 service
requests to the city”
http://www.appsfordemocracy.org/
22. I Contest sugli Open Data
Scuola SIS “Web e Statistica”
http://appsfordevelopment.challengepost.com/
23. I Contest sugli Open Data
Scuola SIS “Web e Statistica”
http://opendatachallenge.org/
24. I Contest sugli Open Data
Scuola SIS “Web e Statistica”
http://www.appsforitaly.org/
25. Open Data
Scuola SIS “Web e Statistica”
L’illuminante talk di Sir Tim Berners-Lee:
The year open data went worldwide
http://www.ted.com/talks/tim_berners_lee_the_year_open_data_went_worldwide.html
26. Ma… come trovare i dati?
Scuola SIS “Web e Statistica”
Come i dati vengono messi sulla Rete
29. Imprigionare i dati
Scuola SIS “Web e Statistica”
I dati vengono di fatto imprigionati nei portali, nei
sistemi informativi e nei siti web dove vengono rilasciati
48. Il “problema” dei Metadati
Scuola SIS “Web e Statistica”
– Qual’è il SOGGETTO della misura?
– Qual’è l’UNITA’ di misura?
– Qual’è la REGIONE GEOGRAFICA a cui il dato si
riferisce?
– QUANDO la misura è stata fatta?
49. Il “problema” dei Metadati
Scuola SIS “Web e Statistica”
Dietro ognuna di queste domande, c’è una idea o
CONCETTO che viene usato per descrivere i dati
– Il Soggetto è “popolazione totale"
– L’unità di misura è “persone"
– Il riferimento territoriale è “Comune di Pisa"
– Il Tempo è “31 Dicembre 2010"
50. Il “problema” dei Metadati
Scuola SIS “Web e Statistica”
Possiamo quindi dire che:
La popolazione totale del comune di Pisa al
31 dicembre 2010 è di 88217 unità
51. Il problema dei Metadati
Scuola SIS “Web e Statistica”
I metadati strutturati devono essere associati
ai dati, altrimenti diventa impossibile
identificare, ritrovare e navigare attraverso i dati
52. La struttura dei dataset
Stock/Flow
Country
Unit Multiplier
Unit
Scuola SIS “Web e Statistica”
Time/Frequency
Computers need structure
of data
•Concepts and terms
Topic
•Code lists
•Data values
•How these fit together
53. La struttura dei dataset
Topic Country Stock/Flow
Scuola SIS “Web e Statistica”
A Brady Bonds AR Argentina
1 Stock
B Bank Loans MX Mexico
2 Flow
C Debt SA South Africa
Securities
Concepts
TOPIC
COUNTRY
FLOW
55. Data Structure Definition
Scuola SIS “Web e Statistica”
The simplest explanation of a data
structure definition is that it is a set
of descriptor concepts, associated
with a set of data, which allow us to
understand what that data means.
56. Data Structure Definition
• Dimension (e.g. frequency, reference area):
Scuola SIS “Web e Statistica”
• Attribute (e.g. title, observation status):
• Measure (e.g. turnover index, # of births, # of deaths):
• Groups:
– Grouping of dimensions in order to attach group
attributes (e.g. sibling group)
57. Data Structure Definition
Table 1. Deflated turnover index (on volume of sales) for retail trade for Greece
(no adjustment). Reference period: January 2002 to March 2003.
(monthly data - Base year: 2000)
Scuola SIS “Web e Statistica”
Turnover
Year Month index Status Confidentiality
2002 January 84.5 actual free
2002 February 85.6 actual free
2002 March 95.4 actual free
2002 April 106.2 actual free
2002 May 98.0 actual free
2002 June 95.3 actual free
2002 July 105.4 actual free
2002 August 107.1 actual free
2002 September 105.2 actual free
2002 October 109.4 actual free
2002 November 104.5 actual free
2002 December 111.9 actual free
2003 January 89.1 provisional free
2003 February 88.3 provisional free
2003 March 96.1 provisional free
Source: National Statistical Service of Greece
Data prepared to be transmitted to the European Commission (including EUROSTAT)
58. Data Structure Definition
Table 1. Deflated turnover index (on volume of sales) for retail trade for Greece
(no adjustment). Reference period: January 2002 to March 2003.
(monthly data - Base year: 2000)
Scuola SIS “Web e Statistica”
Turnover
Year Month index Status Confidentiality
2002 January 84.5 actual free
2002 February 85.6 actual free
2002 March 95.4 actual free
2002 April 106.2 actual free
2002 May 98.0 actual free Attributes
2002 June 95.3 actual free
Dimensions 2002 July 105.4 actual free
2002 August 107.1 actual free
2002 September 105.2 actual free
2002 October 109.4 actual free
2002 November 104.5 actual free
2002 December 111.9 actual free
2003 January 89.1 provisional free
2003 February 88.3 provisional free
2003 March 96.1 provisional free
Source: National Statistical Service of Greece
Data prepared to be transmitted to the European Commission (including EUROSTAT)
Measure
59. <? XML ?>
Scuola SIS “Web e Statistica”
http://demo.istat.it/api_demo/?q=getpopolazione&prov=0
12&com=012
62. Il Web “Classico”
Il Web è una ragnatela di documenti collegati tra loro,
per l'utilizzo umano
Scuola SIS “Web e Statistica”
The Emerging Web of Linked Data - Chris Bizer, Freie
Universität Berlin
63. API e Mash-Up
http://cheapguru.org/comuni/
Scuola SIS “Web e Statistica”
The Emerging Web of Linked Data - Chris Bizer, Freie
Universität Berlin
64. Semantic Web
Il Semantic Web è una
Scuola SIS “Web e Statistica”
ragnatela di informazioni
connesse dalla semantica.
L’idea è di generare
documenti che possano al
tempo stesso essere letti e
compresi da esseri umani,
ma anche acceduti ed
interpretati da agenti
automatici alla ricerca di
contenuti.
65. Linked Data
Usa le tecnologie del Semantic Web per
Scuola SIS “Web e Statistica”
1. Pubblicare dati strutturati sul Web,
2. definire link tra dati di fonti diverse
The Emerging Web of Linked Data - Chris Bizer, Freie
Universität Berlin
66. RDF
RDF (Resource Description Framework) è lo strumento proposto dal W3C per
descrivere i metadati relativi ad una risorsa, mettendo a disposizione un
Scuola SIS “Web e Statistica”
linguaggio per esprimere la semantica di una risorsa.
RDF è costituito da due componenti:
· RDF Model and Syntax: definisce il data model RDF e la sua codifica XML;
· RDF Schema: permette di definire specifici vocabolari per i metadati.
67. RDF
Una risorsa, identificata univocamente da un URI, viene descritta utilizzando il
Scuola SIS “Web e Statistica”
data model RDF.
Questo modello è basato su tre oggetti:
Resource (risorsa): indica ciò che viene descritto mediante RDF e può essere
una risorsa Web (ad esempio una pagina HTML, un documento XML o parti di
esso) o anche una risorsa esterna al Web (ad esempio un libro, un quadro, etc.);
Property (proprietà): indica una proprietà, un attributo o una relazione utilizzata
per descrivere una risorsa. Il significato e le caratteristiche di questa componente
vengono definite tramite RDF Schema;
Statement (espressione): è l'elemento che descrive la risorsa ed è costituito da
un soggetto (che rappresenta la Resource), un predicato (che esprime la
Property) e da un oggetto (chiamato Value) che indica il valore della proprietà.
68. RDF
Le triple: Soggetto, Predicato, Oggetto
Scuola SIS “Web e Statistica”
Nella forma più semplice, il concetto può essere
applicato a frasi come:
„John drinks tea‟
„David likes apple‟
„Italy hasCapital Rome‟
Essentialmente, una tripla RDF mette in relazione
risorse and dati insieme, indicando “come”
69. RDF
Scuola SIS “Web e Statistica”
http://example.org/countries/Italy
hasCapital
Italy Rome
70. RDF
http://example.org/countries/Italy
Scuola SIS “Web e Statistica”
http://example.org/cities/Rome
hasCapital
Italy Rome
population areaCode
2761477 058091
Dove hasCapital è l’occorrenza di un
vocabolario condiviso, che diventa così
un identificatore universale a cui viene
associato un significato specifico
71. Linked Data
E’ un approccio per pubblicare dati sul Web,
permettendo di linkare dataset insieme usando
Scuola SIS “Web e Statistica”
riferimenti a concetti comuni
http://baseculturale.it/
72. RDF Data Cube
Il vocabolario Data Cube permette la
pubblicazione di dati e di statistiche
Scuola SIS “Web e Statistica”
multidimensionali in modo da essere linkati ai
relativi dataset e concetti. Il modello alla base del
vocabolario Data Cube è compatibile con il
modello descritto da SDMX
(Statistical Data and Metadata eXchange)
http://schemapedia.com/schemas/qb
76. Open Data e interoperabilità
Scuola SIS “Web e Statistica”
L’interoperabilità è dunque un elemento chiave di uno
degli aspetti più innovativi offerti dagli open data: l’uso
dei dati in modi e per scopi “inattesi”, nuovi in quanto
non previsti dai singoli enti e soggetti che pubblicano i
“dati grezzi”.