Forme e gradi di apertura dei dati: i nuovi alfabeti dell’Open Biblio tra scienza e società
1. Forme e gradi di apertura dei dati:
i nuovi alfabeti dell’Open Biblio tra scienza e società
Antonella De Robbio
Coordinatore delle biblioteche del Polo Giuridico
Università degli Studi di Padova
Milano, Palazzo delle Stelline, 16 marzo 2012
Linguaggi e strumenti
2. Open Data?
• A differenza di quanto accade per i movimenti Open
Access o Open Source, per i quali sono state formulate
definizioni incluse in dichiarazioni condivise a livello
internazionale e che – per certi versi - sono entrate ormai
nel linguaggio comune, per l'Open Data non vi è ancora
un accordo generale nella definizione del termine.
• Open Data Commons è il più giovane tra i movimenti, e
gli stessi strumenti legali che vi ruotano attorno hanno
appena iniziato il confronto tra differenti legislazioni e
differenti assetti normativi
• Al pari di altre filosofie "open", si propone l'obiettivo di
rendere immediatamente "accessibili a chiunque i dati
primari della ricerca, senza limitazione di copyright,
brevetti o altri meccanismi di controllo".
• Una buona definizione di partenza di cosa siano l'Open
Data, l'Open Content, e l'Open Information è stata
formulata dall'Open Knowledge Foundation
3.
4. Il movimento Open Data
• I dati appartengono al genere umano. Esempi tipici sono
i genomi, i dati sugli organismi per la scienza medica,
dati ambientali e meteorologici, ecc.
• I dati prodotti dalla pubblica amministrazione, in quanto
finanziati da denaro pubblico, devono ritornare ai
contribuenti, e alla comunità in generale, sotto forma di
dati aperti e universalmente disponibili
• I dati sul’impatto ambientale
• Restrizioni sui dati e sul loro riutilizzo limitano lo sviluppo
della comunità
• I dati sono necessari per agevolare l'esecuzione di
comuni attività umane (ad esempio i dati cartografici, le
istituzioni pubbliche, ecc.)
• In campo scientifico il tasso di scoperta è accelerato da
un migliore accesso ai dati, in particolare in biomedicina
5.
6. I tre settori dell’Open Data
Raw data = dati grezzi
Riuso… dati aggregati
nano-pubblicazioni
Dati aperti nel settore
dell’informazione pubblica
OpenGovernment
OpenScience
Grafici, tabelle,
strutture molecolari,
foto di proteine,
Immagini scientifiche,
informazioni fattuali,
dati e info supplementari
che si annidano
dentro gli articoli scientifici
annotazioni
OpenBiblio
Geografici, ambientali,
Demografici, elettorali,
Finanziari, enti locali,
Leggi, norme, sociali,
Dati sicurezza…
Open Bibliographic Data
Open bibliography
Dati e Metadati
Cataloghi e MetaOPAC Open
Schemi di classificazione
Database Open
OpenRepository (IR e disciplinari)
Bibliografie aperte (BibJSON)
7.
8. Nel 2007 l’European Science Foundation e la Deutsche
Forschungsgemeinschaft nell’ambito del Berlin5 tenutosi a
Padova, organizzarono il workshop ''Shared Responsibilities
in Sharing Research Data'', con lo scopo di aumentare la
consapevolezza riguardo all'accesso aperto ai dati della
ricerca e ad aprire un forum di discussione per le potenziali
aree di cooperazione.
9. « Numerosi scienziati hanno sottolineato con ironia
che proprio nel momento storico in cui disponiamo
delle tecnologie per consentire la disponibilità dei
dati scientifici a livello globale e dei sistemi di
distribuzione che ci consentirebbero di ampliare
la collaborazione e accelerare il ritmo e la profondità
della scoperte... siamo occupati e bloccare i dati e a
prevenire l'uso di tecnologie avanzate che
avrebbero un forte impatto sulla diffusione della
conoscenza. »
[dichiarazione di John Wilbanks]
Protocollo
metodologia per
creare degli
E’ fortemente raccomandato l’impiego delle licenze PDDL
strumenti legali
e CCZero quando si impiegano dati che sono di pubblico
che consentano la
dominio e che sono alla base della scienza pubblica.
riutilizzazione dei
Assicurarsi inoltre la compatibilità con il
dati primari
Protocollo per l’implementazione dell’accesso aperto ai dati ricerca e per
della
di Science Commons e la Open Knowledge/Data
garantirne
Definition.
l'interoperabilità.
10. OpenData & LinkedOpenData
•
•
•
•
•
Un aspetto strettamente correlato al movimento Open Data è la
parte relativa al progetto Linked Open Data (LOD), del W3C il quale
ha lo scopo di mettere in web open dataset in modo interoperabile
I dati LOD sono un aspetto del web semantico.
Il termine dati collegati è usato per descrivere un metodo di esporre,
condividere e connettere dati attraverso URI differenziabili.
I dati usano il modello RDF impostando link RDF tra i dati
provenienti da differenti risorse, al di là dei “profile” o di standard
specifici.
In sostanza quando parliamo di dati aperti,
– da una parte c'è la questione legata alla filosofia, ai principi, alle
correlazioni con il resto delle sfere "open“
(open source, open content, open library, open knowledge, ...) e quindi
alle questioni squisitamente legate alla proprietà intellettuale;
– dall'altra la questione legata all'interoperabilità e quindi LODe (vedi
raccomandazioni FAO).
14. • Il Digital Curation Centre
(http://www.dcc.ac.uk/) ha pubblicato
Cite Datasets and Link to Publications,
guida che illustra come creare
collegamenti tra le pubblicazioni di
ricerca e i dati su cui si basano, così da
rendere possibile la localizzazione dei
dataset per chi legge un articolo, e
viceversa.
• La guida fornisce inoltre esempi pratici
sull’argomento, sulle problematiche
che si possono presentare e sulle
modalità per superare eventuali
ostacoli. la guida sarà di sicuro
interesse per i ricercatori, per chi si
occupa di linked data e per i gestori di
archivi di dati.
15.
16.
17. Esempi di dati aperti nel settore
dell’informazione pubblica
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Dati geografici (mappe geografiche, stradali, geologiche, dati sui movimenti
sismici, utilizzo del territorio, …)
Dati ambientali (atmosferici, climatici, inquinamento,…)
Dati sul trasporto locale
Dati demografici (dati sui censimenti, popolazione, dati migratori…)
Dati elettorali
Dati sulla produzione e sul consumo energetici
Dati finanziari (di bilancio) e tributari (redditi e tasse)
Dati economici e delle attività degli enti locali (primo Comune italiano:
Firenze - ottobre 2011 - ha rilasciato numerosi set di dati)
Dati sui beni immobili (catastali)
Dati utili per la salute pubblica (dati aggregati)
Dati sullo stato dell’educazione
Dati per la gestione e smaltimento
Dati sulla gestione delle acque
Dati sulla sicurezza pubblica
Dati di fonte e documentazione pubblica (legislazione, giurisprudenza)
…
18. Dati aperti per società aperte
•
Perché i dati sono importanti e perché è importante che siano aperti:
– i dati pubblici sono realmente utili laddove essi sono grezzi, davvero
aperti e connessi
– i dati grezzi (raw data) sono un terreno fertile che crea ricchezza
•
La natura dei dati:
– definizione di open/linked data raw
•
Education to Open Data, or Open Data for Education?
– il valore di avere dati aperti per la ricerca da una parte e nel sistema
pubblico crea un valore educativo a tutto campo
•
•
Open data per ristrutturare i sistemi di governo
Il valore economico (esterno e interno) risiede nell’apertura dei dati
– studio McKinsey sui paesi UE ha calcolato che gli Open Data potrebbero
abbattere i costi della pubblica amministrazione del 20% creando valore
fino a 300 miliardi di euro in dieci anni tra riduzione di inefficienze,
maggiori introiti fiscali e maggiore produttività.
19. Open data come misura per il rilancio dell’economia
Una ricerca realizzata dalla Scuola sant’Anna di Pisa propone sette linee di
azione per impostare correttamente un “governo” dei dati aperti
1.
2.
3.
4.
5.
6.
7.
definire chiaramente e
spiegare sia il concetto di
open data che di public data
mantenere separate le
questioni politiche da quelle
economiche
distinguere tra dati esistenti e
dati futuri
imporre licenze appropriate
educare la cittadinanza alla
comprensione ed all’uso dei
dati
focalizzarsi su questioni locali
e specifiche al fine di suscitare
l’interesse per l’Open Data
coinvolgendo ONG, enti di
beneficenza ed associazioni
imprenditoriali
Ma perché molti dati pubblici non sono ancora aperti???
27. Il Kenya è la prima nazione tra i paesi in via di sviluppo nel
sud del mondo ad aprire una piattaforma di open data dove
condivide informazioni su 6 temi: istruzione, energia, salute,
popolazione, povertà, risorse idriche e servizi igienici.
Le tabelle più scaricate riguardano la povertà per provincia e
la spesa pubblica. Nella home page ha una mappa che
mostra le 47 contee della nazione.
Nell’area community segnala già le prime
applicazioni sviluppate a partire dagli open
data. Per esempio, Huduma è uno spazio
dove i cittadini possono dare voce alle loro
richieste per avere accesso alle
infrastrutture di base, aiutati da una
visualizzazione delle risorse disponibili nelle
aree vicine. Msema Kweli sarà
un’applicazione per cellulari che permetterà
di vedere i piccoli progetti in fase di
realizzazione sul campo che
altrimenti è difficile raggiungere da una
singola finestra di accesso.
28.
29.
30. Il valore dei dati risiede
nella rinuncia ai diritti di proprietà
• Poiché determinare quale porzione dei nostri dati è
fattuale e quale porzione è reinterpretata, una risposta
alla domanda se sia opportuna la protezione tramite il
copyright è perciò ardua
• Una scuola di pensiero crede che sia probabilmente
meglio rinunciare a tutti i diritti di proprietà sui dati.
Significa offrire il proprio lavoro nel pubblico dominio.
• Questo modello presuppone l’uso di una licenza
• CC0 1.0 Universal (CC0 1.0) Public Domain
Dedication
• Public Domain Dedication and License (PDDL) —
“Public Domain for data/databases”
31. Quali licenze?
Creative Commons (CC)
Open Data Commons (ODC)
Open Government Licence (OGL)
Public Domain (PD)
Open data: a brief introduction by Maurizio Napolitano (OKFN.org)
32.
33. Le quattro licenze di Open Data Commons
OpenArt London
OCLC catalogo WorldCat
Progetto OpenStreetMap
catalogo CERN, Europeana
BritishLibrary – OpenLibrary
Immagine tratta dalle slide di Maurizio Napolitano
http://www.slideshare.net/napo/licenze-opendata
34.
35.
36.
37. OCLC ha preferito orientarsi su questa licenza ODC-BY, una via di mezzo tra la licenza
Open Database License (ODC-ODbL) - Attribution Share-Alike for data/databases,
più restrittiva anche in termini di interoperabilità, e le licenze di pubblico dominio
come la PDDL o la CC0 sulle quali OCLC nutre parecchie riserve.
38. Nel caso di OpenStreetMap gli
autori concedono
i dati con licenza Open Database
License (ODbL)
(pubblico dominio).
http://de.straba.us/wp-content/uploads/2012/02/odata_ecosystem2.jpg
39. Il W3C Incubator Group, attivo da maggio 2010 ad agosto 2011, ha rilasciato il Library Linked Data Incubator Group
Final Report.
Obiettivo del gruppo è stato aumentare l’interoperabilità dei dati delle biblioteche sul web, mettendo assieme persone
interessate alle attività sul web semantico nella comunità bibliotecaria e oltre, basandosi su iniziative esistenti e
identificando possibilità future di collaborazione.
Le raccomandazioni contenute nel report sono le seguenti:
•I responsabili dei dati bibliotecari devono identificare i set di dati idonei ad essere esposti come Linked Data e
promuovere la discussione su open data e diritti connessi;
•Chi si occupa di standard per le biblioteche deve promuovere la partecipazione delle biblioteche alle discussioni sul
web semantico e la sua standardizzazione, sviluppare standard compatibili con i linked data, e diffondere buone
pratiche per incentivare le biblioteche a muoversi in direzione dei LD.
•Bibliotecari e archivisti conservano i set di elementi LD e applicano l’esperienza delle biblioteche nella cura e nella
conservazione a lungo termine dei set di dati LD.
40. L'Open Metadata Handbook e un'iniziativa lanciata dal
Public Domain e dall'Open Bibiographica Working Group dell'OKF
45. "Data is the new oil?
No. Data is the new soil"
[David McCandless @ #TED]
http://richard.cyganiak.de/2007/10/lod/lod-datasets_2010-09-22_colored.html
Notes de l'éditeur
Open Source: riguarda le licenze di distribuzione di programmi e applicazioni.
Open Content: facilmente confondibile con l'Open Data, ma mentre l'Open Data concentra l'attenzione alla ricerca scientifica e ai dati che le competono, l'Open Content si rivolge alla creatività delle opere.
Open Knowledge: si ispira all'Open Content e mira alla "diffusione della conoscenza con le seguenti caratteristiche: libera (di proprietà di ogni essere umano), accessibile (raggiungibile da ogni essere umano), comprensibile (presentata nel modo più semplice possibile, e attraverso la definizione esaustiva di ogni significato coinvolto), universale (accessibile in ogni lingua)"
Open Access: riguarda la comunicazione scientifica e si concretizza nella disponibilità dei contenuti digitali online, articoli di riviste, ricerche svolte in campo accademico, consentendone la pubblicazione e l'accesso/utilizzo gratuito.
Open Learning: nuovo movimento per una didattica a distanza Open (a vari livelli): piattaforme (Moodle), contenuti … Khan Academy… modalità collaborative …Open Educational Resources (OED)
Open Library: consistente in progetti che mirano a creare pagine web per ogni libro pubblicato, permettendo l'accesso libero all'opera, la condivisione, la diffusione della stessa. Nello specifico l'Open Library Project nasce da Internet Archive, in collaborazione con la California State Library e la Kahle Austin Foundation.
OpenBibliographic Data: sotto-insieme di OpenData
Open Bibliography in science, technology and medicine (STM) è una combinazione di strumenti Open Source, specifiche tecniche Open e Open bibliographic data. Usa BibJSON, un formato di dati a struttura testuale semplice (BibTex, Dublin Core, PRISM e JSON)
Open Linked Data (LOD): affinchè i dati siano realmente <open> devono essere anche tecnicamente <connettibili>
Uno studio recente, pubblicato su ArXiv.org con il titolo “Linking toData - Effect on Citation Rates in Astronomy”, si propone diverificare il livello citazionale di articoli che contengono uncollegamento ai dati a cui fanno riferimento rispetto ad articoli cheinvece non citano direttamente anche i dati primari della ricerca.Come sottolineato dagli autori la questione, oltre ad essereinteressante da un punto di vista puramente accademico, è rilevanteper il miglioramento e per la diffusione della scienza: lacondivisione dei dati, infatti, consente di verificare gli esperimentie di fare nuove scoperte su dati d’archivio, e il fatto che gliarticoli correlati dai dati siano più citati rende il circolo ancorapiù virtuoso. Nonostante gli evidenti benefici della condivisione deidati della ricerca, la pratica non è così diffusa: spesso mancano nonsolo la volontà, ma anche gli strumenti per collegare i dati allepubblicazioni.Il case study si riferisce ad articoli pubblicati nel campodell’astronomia, ma non è da dubitare che, se condotto su altrediscipline, possa portare a risultati uguali o migliori.Il paper può essere letto a partire da arXiv:1111.3618v1
Il Comune di Firenze ha da tempo avviato un percorso di condivisione dei propri progetti con la cittadinanza, mediante la metafora dei 100 luoghi, ed ha inoltre portato avanti dal 2006 un processo di razionalizzazione e bonifica del proprio patrimonio informativo. Seguendo la metodologia tipica dell'Open government, si pubblica in questa sezione un primo elenco di dataset che sono resi disponibili in formati aperti ed utilizzabili dalle comunità legate al mondo degli Open Data.
Attenzione: I dataset pubblicati in questa sezione sono pensati per essere utilizzati da professionisti del mondo GIS (sistemi informativi geografici), da sviluppatori software e da esperti in elaborazione dati.I dati ad esclusivo scopo informativo sono consultabili negli altri canali della rete civica, come ad esempio ToGo per le informazioni sulla mobilità ,Trova Firenze per i punti di interesse su mappa o l'Ufficio Statistica
CERN Library Publishes Its Book Catalog as Open Data
Librarians are, in general, very favorable to the principles of Open Access. But surprisingly few libraries have so far set free the data they produce themselves. As one of the first scientific libraries in the world, the CERN Library now offers the bibliographic book records, held in its library catalog, to be freely downloaded by any third party. The records are provided under the Public Domain Data License, a license that permits colleagues around the world to reuse and upgrade the data for any purpose.
Jens Vigen, head of the CERN Library, says: "Books should only be catalogued once. Currently the public purse pays for having the same book catalogued over and over again. Librarians should act as they preach: data sets created through public funding should be made freely available to anyone interested. Open Access is natural for us, here at CERN we believe in openness and reuse. There is a tremendous potential. By getting academic libraries worldwide involved in this movement, it will lead to a natural atmosphere of sharing and reusing bibliographic data in a rich landscape of so-called mash-up services, where most of the actors who will be involved, both among the users and the providers, will not even be library users or librarians. Our action is made in the spirit of the Berlin Declaration on Open Access to Knowledge in the Sciences and Humanities; bibliographic data belongs to the cultural heritage. All other signatories should align their policy accordingly."
The data of CERN Library will be used by the Open Library Project (http://openlibrary.org) to provide a webpage for every book and to allow users to add content, such as tables of contents, classifications, and summaries.
For massive reuse of data, the data will be provided soon by an open Z39.50, SRU, and OAI interface via biblios.net (http://biblios.net), a repository of open bibliographic data.
The whole data set can be downloaded from http://cern.ch/bookdata.
The press announcement is accompanied by a YouTube video that can be found at:
www.youtube.com/watch?v=-CSmieTXbsk.
Il concetto di Open Bibliography nella scienza, tecnologia e medicina (STM) è introdotto come una combinazione di strumenti OpenSource, di specifiche aperte e di dati bibliografici aperti. Vedi lavoro di Richard Jones, Mark MacGillivray, Peter Murray-Rust, Jim Pitman, Peter Sefton, Ben O’Steen and William Waites, Open Bibliography for Science, Technology, and Medicine
Pubblicato su JOURNAL OF CHEMINFORMATICS. Volume 3, Number 1, 47, DOI: 10.1186/1758-2946-3-47
http://www.springerlink.com/content/g1630211473255n4/
L'ambiente sociale di un individuo è costituito dalle condizioni di vita e di lavoro, dal livello di reddito, dal grado d'istruzione e dalla comunità di cui fa parte. Tutti questi elementi esercitano un forte impatto sulla salute. La grande diversità di ambienti sociali esistente in Europa contribuisce ad aumentare le disparità sul piano della salute. Aspettativa di vita e diffusione delle malattie variano notevolmente tra ricchi e poveri, persone più o meno istruite, operai e professionisti.
Per migliorare l'ambiente sociale sono state avviate diverse iniziative comunitarie.