Open Data & Data Visualization. Dalle licenze ai grafici: riusare, pulire, esplorare e visualizzare i dati. Lezione in due giorni nell'ambito di un progetto di formazione interna del Comune di Bologna - 16 e 17 giugno 2014.
discorso generale sulla fisica e le discipline.pptx
Open Data & Data Visualization: dalle licenze ai grafici | Bologna, 16 giugno 2014
1. Dalle licenze ai grafici: riusare, pulire, esplorare e visualizzare i dati
Alessio Cimarelli
@jenkin27
Andrea Nelson Mauro
@nelsonmau
www.dataninja.it
Agenda Digitale - Comune di Bologna
, 16 e 17 giugno 2014
2. I dati e il contesto
Le licenze
Aggiornamenti sulle Linee guida AGID
I formati dei dati
dati strutturati e non strutturati
fare scraping per creare dati strutturati
Usare le tabelle con i fogli di calcolo
Pulire i dati: le regole principali
Tecniche avanzate: l'uso di OpenRefine
Analisi: ordinare, filtrare e raggruppare i dati
Aggregare dati da tabelle diverse: CercaVert e altre funzioni utili
3. Introduzione alla Data Visualization
risorse, strumenti, principali riferimenti
La visualizzazione come strumenti di analisi dei dati
Grafici di base con : come scegliere
Grafici avanzati con : visualizzare connessioni e gerarchie
Mappe con : punti, bolle, choropleth, timemap
Reti con : elementi di social network analysis
Visualizzazione con un'overview generale
4. Il sito di Dataninja con i nostri progetti principali
10. Per cercarli, trovarli, riusarli e dare loro contesto
Per analizzarli e verificare se possono essere utili
Per costruire informazioni maggiormente accurate e basate su
elementi statistici
11.
12. Cominciamo da una definizione
Singoli pezzi di informazione di ogni natura, descrizioni di fatti
riproducibili senza ambiguità, parti di informazioni strutturate
che possono essere archiviate in formato digitale
Maurizio Napolitano, Technologist presso Fondazione Bruno Kessler (Trento)
13. Cominciamo da una definizione
Un dato è aperto se chiunque è libero di usarlo, riutilizzarlo,
ridistribuirlo, ed è soggetto tutt’al più all’obbligo di citazione o
condivisione allo stesso modo
Open Definition: http://opendefinition.org/od
17. Se voglio pubblicare dei dati in "Open Data" devo:
dei dati (chi li ha prodotti? Il classico
esempio dei dati del turismo, generalmente raccolti e diffusi dalle
Camere di Commercio)
diritti altrui o il segreto statistico
le verifiche necessarie e preliminari
alla pubblicazione.
E inoltre devo tenere a mente che:
Non posso concedere una licenza che rilasci più diritti di quanti non ne
abbiano i dati di provenienza
Devo sempre tenere in considerazione la possibilità di rimuovere dei
dati (o modificarne la licenza) se emerge che la titolarità non è mia.
18. Le licenze utilizzabili per il rilascio dei dati secondo AGID
http://www.agid.gov.it/sites/default/files/linee_guida/patrimoniopubblicolg2014_v0.6.pdf
21. Formati dei dati digitali già utilizzabili, solo da pulire e controllare
Si possono analizzare con Ms Excel e Libre Office Calc, mysql (...)
È buona norma pubblicarli con i
22. Sono dati non strutturati se non è possibile analizzarli tramite
un'applicazione di foglio di calcolo
Pagine web in formato html
Documenti di testo
Documenti in formato pdf
23. L'arte dello scraping: semplice o complessa?
(dati da estrarre da pdf)
(dati da estrarre da pagine html)
sviluppate ad hoc con Python / Javascript / Java
24.
25. Il nostro punto di partenza è una tabella di dati strutturati
http://dati.comune.bologna.it/node/340
26. Di fronte all’enorme varietà del mondo,
il computer comprende pochi tipi di variabili:
numeri interi (con segno, incluso lo 0)
numeri decimali (con segno)
date e orari
stringhe di caratteri (case sensitive)
valore mancante (o NULL)
27. Verificare, individuare errori, correggere
Premesse sbagliate portano (quasi) sempre a conclusioni sbagliate, anche
se il ragionamento è corretto.
Pure se affidabile, anche la fonte può sbagliare. Così come può barare,
truccare, mentire, nascondere, omettere, ecc.
Da controllare sempre prima di tutto:
coerenza interna,
completezza,
verosimiglianza.
Non buttar via mai niente e tenere traccia di quello che si fa...
28. Verificare, individuare errori, correggere
Strumenti dei fogli di calcolo (come Microsoft Excel, Libre Office Calc):
filtri e funzioni di ordinamento;
formattazione condizionale;
definizione esplicita dei tipi (stringa, numero, data, ...);
semplici grafici.
Si può fare con Microsoft Office o Libre Office Calc
Oppure con uno strumento ad hoc: Open Refine ( openrefine.org).
29. Ogni colonna rappresenta e contiene uno e un solo tipo di dato.
Ogni riga rappresenta e contiene uno e un solo oggetto
Non possono esistere righe perfettamente vuote o identiche.
Controlla che la struttura dei dati sia corretta: ogni colonna deve
contenere valori dello stesso tipo (date, luoghi)
Controlla che i dati si trovino in formato omogeneo (ad esempio la
formattazione della data o i maiuscoli / minuscoli)
Controlla quale sistema di numerazione stai usando. Europeo o
anglosassone? Controlla i separatori di migliaia e decimali
30. Controlla che le intestazioni siano sempre nella prima riga
Le righe vuote non devono esistere. Le celle vuote possono invece
indicare valori mancanti (tutte indicano sempre valori mancanti).
Attenzione a celle fintamente vuote: il carattere spazio c’è, anche se non
si vede!
Controlla le somme se lavori su tabelle numeriche e le stai modificando
Suddividi le informazioni in più colonne possibile (per esempio se si
hanno nomi completi, meglio dividerli in “nome” e “cognome”)
31.
32. Posso scegliere l'ordinamento alfabetico (A-Z o Z-A) o numerico (min-max
o viceversa). In questo caso ordino dal più grande al più piccolo
33.
34. Raggruppo i dati per quartiere calcolando il totale degli iscritti
35. Quando si hanno diverse tabelle che descrivono gli stessi elementi,
spesso provenienti da fonti diverse, è possibile unirle e arricchire così il
mio dataset scoprendo nuove relazione tra i dati.
Nei fogli di calcolo: , , .
36. Dati sulla disoccupazione o sui costi dei servizi: quelli della
tua città/regione sono più alti o più bassi rispetto ad altri territori?
- Le fonti ufficiali tendono a concentrarsi su dati del quarto
trimestre. Il contesto e la prospettiva cambiano osservando dati che
mostrano lo sviluppo di un fenomeno negli ultimi 5 o 10 anni.
- Un'istituzione annuncia milioni di euro di investimenti per le
scuole. Fai qualche conto: quanti studenti potranno beneficiarne, su quale
periodo di tempo? Ricalcolare il valore pro capite di programmi di
investimento spesso può chiarire il reale significato.
- Prova ad eseguire semplici controlli di
somme e totali. Verifica le modalità con le quali i dati sono stati raccolti e
con quali ipotesi o modelli. Qual è il tasso di disoccupazione nel tuo
paese? Controllalo e confrontalo con altri paesi o modelli alternativi.
37.
38. Come non era mai successo nelle nostre vite, oggi abbiamo
accesso a un’infinità di informazioni libere e gratuite. Con gli
strumenti giusti possiamo cominciare a dare un senso a
questi dati per vedere schemi e trend che altrimenti per noi
sarebbero invisibili. Trasformando i numeri in forma grafica,
permetteremo ai lettori di conoscere le storie che quei numeri
nascondono.
Alberto Cairo, "The functional Art"
39. Principali strumenti visualizzazione:
grafici base (linee, barre, torte):
http://datawrapper.it
mappe geografiche:
http://cartodb.com
grafici gerarchici:
http://raw.densitydesign.org/
grafi (detti anche reti):
http://gephi.org
timeline:
http://timeline.knightlab.com/
Ma on line ci sono tantissimi altri strumenti: l'importante è avere chiaro il
proprio obiettivo e non avere paura di sperimentare!
40. Con Datawrapper è possibile realizzare grafici interattivi in pochi minuti
(grafici a barre, torte, istogrammi, grafici a linee, e qualche mappa)
41. CartoDB permette di creare mappe interattive in pochi istanti.
L'importante è che la tua tabella abbia dei dati geografici.
42. RAW permette di gestire bene le relazioni tra i dati e la loro gerarchia. E'
facile da usare provando gli esempi già presenti (esempio di quali
ingredienti sono fatti i cocktail?).
43. Costruire una cronistoria degli eventi può essere molto utile. Si può fare
con Timeline.JS, ad esempio inserendo in una tabella vari articoli in
successione temporale (guarda la timeline del terremoto in Emilia).
44. Quali sono le relazioni tra i dati? E' possibile visualizzarle con GEPHI, un
software di Networl Analysis (basato sui grafi). E' spesso usato per vedere
le connessioni tra gli utenti su Twitter o le amicizie su Facebook.
45. Spesso visualizzare i dati può aiutarci a "scoprire" delle notizie
Quanto è grande la differenza del tasso di disoccupazione tra due o più
territori? Com'è cambiato un fenomeno nel tempo?
Visualizzare questi dati può aiutarci a comprendere in maniera più
immediata un fenomeno e fare prendere al nostro lavoro giornalistico
un'altra direzione: torniamo indietro, cerchiamo altri dati, li mettiamo a
confronto.
46. Le best practices del Data Journalism prevedono che insieme alle
inchieste vengano pubblicati i dati relativi, per permettere di verificare le
visualizzazioni e i risultati. Noi abbiamo costruito
47. Andrea Nelson Mauro / "nelsonmau"
nelsonmau@dataninja.it
@nelsonmau
www.dataninja.it
http://school.dataninja.it
http://dataninja.it/newsletter
http://datamediahub.it
49. (SOD)
Dati.gov.it
Open Data Census
Licenze Creative Commons
Agenda Digitale Italiana
Spaghetti Open Data
Mailing list pubblica di Spaghetti Open Data
Open Bilanci
Open Coesione
CIRSFID - Università di Bologna
Codice dell'Amministrazione Digitale
Open Definition
Confiscati Bene
The Migrants' Files
Open Data Bologna
Five star open data