SlideShare une entreprise Scribd logo
1  sur  50
Télécharger pour lire hors ligne
Dalle licenze ai grafici: riusare, pulire, esplorare e visualizzare i dati 
Alessio Cimarelli 
@jenkin27 
Andrea Nelson Mauro 
@nelsonmau 
www.dataninja.it 
Agenda Digitale - Comune di Bologna 
, 16 e 17 giugno 2014
I dati e il contesto 
Le licenze 
Aggiornamenti sulle Linee guida AGID 
I formati dei dati 
dati strutturati e non strutturati 
fare scraping per creare dati strutturati 
Usare le tabelle con i fogli di calcolo 
Pulire i dati: le regole principali 
Tecniche avanzate: l'uso di OpenRefine 
Analisi: ordinare, filtrare e raggruppare i dati 
Aggregare dati da tabelle diverse: CercaVert e altre funzioni utili
Introduzione alla Data Visualization 
risorse, strumenti, principali riferimenti 
La visualizzazione come strumenti di analisi dei dati 
Grafici di base con : come scegliere 
Grafici avanzati con : visualizzare connessioni e gerarchie 
Mappe con : punti, bolle, choropleth, timemap 
Reti con : elementi di social network analysis 
Visualizzazione con un'overview generale
Il sito di Dataninja con i nostri progetti principali
Informazioni, slides, esperimenti, tutorial e tool per i data journalist
Eric Schmidt , Google’s executive chairman
Per cercarli, trovarli, riusarli e dare loro contesto 
Per analizzarli e verificare se possono essere utili 
Per costruire informazioni maggiormente accurate e basate su 
elementi statistici
Cominciamo da una definizione 
Singoli pezzi di informazione di ogni natura, descrizioni di fatti 
riproducibili senza ambiguità, parti di informazioni strutturate 
che possono essere archiviate in formato digitale 
Maurizio Napolitano, Technologist presso Fondazione Bruno Kessler (Trento)
Cominciamo da una definizione 
Un dato è aperto se chiunque è libero di usarlo, riutilizzarlo, 
ridistribuirlo, ed è soggetto tutt’al più all’obbligo di citazione o 
condivisione allo stesso modo 
Open Definition: http://opendefinition.org/od
http://opendefinition.org/
Se voglio pubblicare dei dati in "Open Data" devo: 
dei dati (chi li ha prodotti? Il classico 
esempio dei dati del turismo, generalmente raccolti e diffusi dalle 
Camere di Commercio) 
diritti altrui o il segreto statistico 
le verifiche necessarie e preliminari 
alla pubblicazione. 
E inoltre devo tenere a mente che: 
Non posso concedere una licenza che rilasci più diritti di quanti non ne 
abbiano i dati di provenienza 
Devo sempre tenere in considerazione la possibilità di rimuovere dei 
dati (o modificarne la licenza) se emerge che la titolarità non è mia.
Le licenze utilizzabili per il rilascio dei dati secondo AGID 
http://www.agid.gov.it/sites/default/files/linee_guida/patrimoniopubblicolg2014_v0.6.pdf
, giurista, esperto di diritto digitale | http://goo.gl/zmjbY7
Formati dei dati digitali già utilizzabili, solo da pulire e controllare 
Si possono analizzare con Ms Excel e Libre Office Calc, mysql (...) 
È buona norma pubblicarli con i
Sono dati non strutturati se non è possibile analizzarli tramite 
un'applicazione di foglio di calcolo 
Pagine web in formato html 
Documenti di testo 
Documenti in formato pdf
L'arte dello scraping: semplice o complessa? 
(dati da estrarre da pdf) 
(dati da estrarre da pagine html) 
sviluppate ad hoc con Python / Javascript / Java
Il nostro punto di partenza è una tabella di dati strutturati 
http://dati.comune.bologna.it/node/340
Di fronte all’enorme varietà del mondo, 
il computer comprende pochi tipi di variabili: 
numeri interi (con segno, incluso lo 0) 
numeri decimali (con segno) 
date e orari 
stringhe di caratteri (case sensitive) 
valore mancante (o NULL)
Verificare, individuare errori, correggere 
Premesse sbagliate portano (quasi) sempre a conclusioni sbagliate, anche 
se il ragionamento è corretto. 
Pure se affidabile, anche la fonte può sbagliare. Così come può barare, 
truccare, mentire, nascondere, omettere, ecc. 
Da controllare sempre prima di tutto: 
coerenza interna, 
completezza, 
verosimiglianza. 
Non buttar via mai niente e tenere traccia di quello che si fa...
Verificare, individuare errori, correggere 
Strumenti dei fogli di calcolo (come Microsoft Excel, Libre Office Calc): 
filtri e funzioni di ordinamento; 
formattazione condizionale; 
definizione esplicita dei tipi (stringa, numero, data, ...); 
semplici grafici. 
Si può fare con Microsoft Office o Libre Office Calc 
Oppure con uno strumento ad hoc: Open Refine ( openrefine.org).
Ogni colonna rappresenta e contiene uno e un solo tipo di dato. 
Ogni riga rappresenta e contiene uno e un solo oggetto 
Non possono esistere righe perfettamente vuote o identiche. 
Controlla che la struttura dei dati sia corretta: ogni colonna deve 
contenere valori dello stesso tipo (date, luoghi) 
Controlla che i dati si trovino in formato omogeneo (ad esempio la 
formattazione della data o i maiuscoli / minuscoli) 
Controlla quale sistema di numerazione stai usando. Europeo o 
anglosassone? Controlla i separatori di migliaia e decimali
Controlla che le intestazioni siano sempre nella prima riga 
Le righe vuote non devono esistere. Le celle vuote possono invece 
indicare valori mancanti (tutte indicano sempre valori mancanti). 
Attenzione a celle fintamente vuote: il carattere spazio c’è, anche se non 
si vede! 
Controlla le somme se lavori su tabelle numeriche e le stai modificando 
Suddividi le informazioni in più colonne possibile (per esempio se si 
hanno nomi completi, meglio dividerli in “nome” e “cognome”)
Posso scegliere l'ordinamento alfabetico (A-Z o Z-A) o numerico (min-max 
o viceversa). In questo caso ordino dal più grande al più piccolo
Raggruppo i dati per quartiere calcolando il totale degli iscritti
Quando si hanno diverse tabelle che descrivono gli stessi elementi, 
spesso provenienti da fonti diverse, è possibile unirle e arricchire così il 
mio dataset scoprendo nuove relazione tra i dati. 
Nei fogli di calcolo: , , .
Dati sulla disoccupazione o sui costi dei servizi: quelli della 
tua città/regione sono più alti o più bassi rispetto ad altri territori? 
- Le fonti ufficiali tendono a concentrarsi su dati del quarto 
trimestre. Il contesto e la prospettiva cambiano osservando dati che 
mostrano lo sviluppo di un fenomeno negli ultimi 5 o 10 anni. 
- Un'istituzione annuncia milioni di euro di investimenti per le 
scuole. Fai qualche conto: quanti studenti potranno beneficiarne, su quale 
periodo di tempo? Ricalcolare il valore pro capite di programmi di 
investimento spesso può chiarire il reale significato. 
- Prova ad eseguire semplici controlli di 
somme e totali. Verifica le modalità con le quali i dati sono stati raccolti e 
con quali ipotesi o modelli. Qual è il tasso di disoccupazione nel tuo 
paese? Controllalo e confrontalo con altri paesi o modelli alternativi.
Come non era mai successo nelle nostre vite, oggi abbiamo 
accesso a un’infinità di informazioni libere e gratuite. Con gli 
strumenti giusti possiamo cominciare a dare un senso a 
questi dati per vedere schemi e trend che altrimenti per noi 
sarebbero invisibili. Trasformando i numeri in forma grafica, 
permetteremo ai lettori di conoscere le storie che quei numeri 
nascondono. 
Alberto Cairo, "The functional Art"
Principali strumenti visualizzazione: 
grafici base (linee, barre, torte): 
http://datawrapper.it 
mappe geografiche: 
http://cartodb.com 
grafici gerarchici: 
http://raw.densitydesign.org/ 
grafi (detti anche reti): 
http://gephi.org 
timeline: 
http://timeline.knightlab.com/ 
Ma on line ci sono tantissimi altri strumenti: l'importante è avere chiaro il 
proprio obiettivo e non avere paura di sperimentare!
Con Datawrapper è possibile realizzare grafici interattivi in pochi minuti 
(grafici a barre, torte, istogrammi, grafici a linee, e qualche mappa)
CartoDB permette di creare mappe interattive in pochi istanti. 
L'importante è che la tua tabella abbia dei dati geografici.
RAW permette di gestire bene le relazioni tra i dati e la loro gerarchia. E' 
facile da usare provando gli esempi già presenti (esempio di quali 
ingredienti sono fatti i cocktail?).
Costruire una cronistoria degli eventi può essere molto utile. Si può fare 
con Timeline.JS, ad esempio inserendo in una tabella vari articoli in 
successione temporale (guarda la timeline del terremoto in Emilia).
Quali sono le relazioni tra i dati? E' possibile visualizzarle con GEPHI, un 
software di Networl Analysis (basato sui grafi). E' spesso usato per vedere 
le connessioni tra gli utenti su Twitter o le amicizie su Facebook.
Spesso visualizzare i dati può aiutarci a "scoprire" delle notizie 
Quanto è grande la differenza del tasso di disoccupazione tra due o più 
territori? Com'è cambiato un fenomeno nel tempo? 
Visualizzare questi dati può aiutarci a comprendere in maniera più 
immediata un fenomeno e fare prendere al nostro lavoro giornalistico 
un'altra direzione: torniamo indietro, cerchiamo altri dati, li mettiamo a 
confronto.
Le best practices del Data Journalism prevedono che insieme alle 
inchieste vengano pubblicati i dati relativi, per permettere di verificare le 
visualizzazioni e i risultati. Noi abbiamo costruito
Andrea Nelson Mauro / "nelsonmau" 
nelsonmau@dataninja.it 
@nelsonmau 
www.dataninja.it 
http://school.dataninja.it 
http://dataninja.it/newsletter 
http://datamediahub.it
Violazioni varchi telecontrollati, SIRIO e RITA
(SOD) 
Dati.gov.it 
Open Data Census 
Licenze Creative Commons 
Agenda Digitale Italiana 
Spaghetti Open Data 
Mailing list pubblica di Spaghetti Open Data 
Open Bilanci 
Open Coesione 
CIRSFID - Università di Bologna 
Codice dell'Amministrazione Digitale 
Open Definition 
Confiscati Bene 
The Migrants' Files 
Open Data Bologna 
Five star open data
(estrazione tabelle da pdf) 
(pulizia dati) 
Tabula 
Open Refine

Contenu connexe

Similaire à Open Data & Data Visualization: dalle licenze ai grafici | Bologna, 16 giugno 2014

Sistemi Informativi Statistici
Sistemi Informativi StatisticiSistemi Informativi Statistici
Sistemi Informativi Statistici
Vincenzo Patruno
 
Duccio Schiavon - Information Design: Visualizzazione di Informazioni Quantit...
Duccio Schiavon - Information Design: Visualizzazione di Informazioni Quantit...Duccio Schiavon - Information Design: Visualizzazione di Informazioni Quantit...
Duccio Schiavon - Information Design: Visualizzazione di Informazioni Quantit...
Social Media Lab
 
Il sistema informativo statistico sulla popolazione e le statistiche demograf...
Il sistema informativo statistico sulla popolazione e le statistiche demograf...Il sistema informativo statistico sulla popolazione e le statistiche demograf...
Il sistema informativo statistico sulla popolazione e le statistiche demograf...
Vincenzo Patruno
 

Similaire à Open Data & Data Visualization: dalle licenze ai grafici | Bologna, 16 giugno 2014 (20)

OpenCoesione DJD 2012 - Elaborazione, visualizzazione e diffusione dei dati s...
OpenCoesione DJD 2012 - Elaborazione, visualizzazione e diffusione dei dati s...OpenCoesione DJD 2012 - Elaborazione, visualizzazione e diffusione dei dati s...
OpenCoesione DJD 2012 - Elaborazione, visualizzazione e diffusione dei dati s...
 
Cos’è il datajournalism e come può nascere un team
Cos’è il datajournalism e come può nascere un teamCos’è il datajournalism e come può nascere un team
Cos’è il datajournalism e come può nascere un team
 
2.3 DATI: Comprendere e raffinare
2.3 DATI: Comprendere e raffinare2.3 DATI: Comprendere e raffinare
2.3 DATI: Comprendere e raffinare
 
Dispensa Datajournalism | Maggio 2014 | school.dataninja.it
Dispensa Datajournalism | Maggio 2014 | school.dataninja.itDispensa Datajournalism | Maggio 2014 | school.dataninja.it
Dispensa Datajournalism | Maggio 2014 | school.dataninja.it
 
Sistemi Informativi Statistici
Sistemi Informativi StatisticiSistemi Informativi Statistici
Sistemi Informativi Statistici
 
GIS - Gli strumenti online in ausilio all'attività professionale
GIS - Gli strumenti online in ausilio all'attività professionale GIS - Gli strumenti online in ausilio all'attività professionale
GIS - Gli strumenti online in ausilio all'attività professionale
 
Big Data Analysis: dalla teoria alla pratica
Big Data Analysis: dalla teoria alla praticaBig Data Analysis: dalla teoria alla pratica
Big Data Analysis: dalla teoria alla pratica
 
2.4 DATI: Comprendere e Raffinare
2.4 DATI: Comprendere e Raffinare2.4 DATI: Comprendere e Raffinare
2.4 DATI: Comprendere e Raffinare
 
Guida galattica per i data journalists
Guida galattica per i data journalistsGuida galattica per i data journalists
Guida galattica per i data journalists
 
DATI: Comprendere e raffinare
DATI: Comprendere e raffinareDATI: Comprendere e raffinare
DATI: Comprendere e raffinare
 
Duccio Schiavon - Information Design: Visualizzazione di Informazioni Quantit...
Duccio Schiavon - Information Design: Visualizzazione di Informazioni Quantit...Duccio Schiavon - Information Design: Visualizzazione di Informazioni Quantit...
Duccio Schiavon - Information Design: Visualizzazione di Informazioni Quantit...
 
Pug piccola panoramica su grandi scenari
Pug piccola panoramica su grandi scenariPug piccola panoramica su grandi scenari
Pug piccola panoramica su grandi scenari
 
presentazione_data
presentazione_datapresentazione_data
presentazione_data
 
Gli open data nel turismo- Maurizio Napolitano
Gli open data nel turismo- Maurizio NapolitanoGli open data nel turismo- Maurizio Napolitano
Gli open data nel turismo- Maurizio Napolitano
 
Il sistema informativo statistico sulla popolazione e le statistiche demograf...
Il sistema informativo statistico sulla popolazione e le statistiche demograf...Il sistema informativo statistico sulla popolazione e le statistiche demograf...
Il sistema informativo statistico sulla popolazione e le statistiche demograf...
 
La visualizzazione dei Big Data: opportunità e sfide - di Stefano De Francisci
La visualizzazione dei Big Data: opportunità e sfide - di Stefano De FrancisciLa visualizzazione dei Big Data: opportunità e sfide - di Stefano De Francisci
La visualizzazione dei Big Data: opportunità e sfide - di Stefano De Francisci
 
Big data-simonetta
Big data-simonettaBig data-simonetta
Big data-simonetta
 
Carlo Bono - Introduzione alla Data Analysis e al Machine Learning - Rinascit...
Carlo Bono - Introduzione alla Data Analysis e al Machine Learning - Rinascit...Carlo Bono - Introduzione alla Data Analysis e al Machine Learning - Rinascit...
Carlo Bono - Introduzione alla Data Analysis e al Machine Learning - Rinascit...
 
S. De Francisci, Open Data nella statistica ufficiale: ruolo, opportunità e i...
S. De Francisci, Open Data nella statistica ufficiale: ruolo, opportunità e i...S. De Francisci, Open Data nella statistica ufficiale: ruolo, opportunità e i...
S. De Francisci, Open Data nella statistica ufficiale: ruolo, opportunità e i...
 
Big Data per Madee 7 at Digital Accademia
Big Data per Madee 7 at Digital AccademiaBig Data per Madee 7 at Digital Accademia
Big Data per Madee 7 at Digital Accademia
 

Plus de Dataninja

Confiscatibene data & community driven journalism
Confiscatibene data & community driven journalismConfiscatibene data & community driven journalism
Confiscatibene data & community driven journalism
Dataninja
 
Open Data dal basso - Bari
Open Data dal basso - BariOpen Data dal basso - Bari
Open Data dal basso - Bari
Dataninja
 

Plus de Dataninja (20)

Confiscatibene data & community driven journalism
Confiscatibene data & community driven journalismConfiscatibene data & community driven journalism
Confiscatibene data & community driven journalism
 
The Migrants’ Files, one year later
The Migrants’ Files, one year laterThe Migrants’ Files, one year later
The Migrants’ Files, one year later
 
#migrantsfiles international
#migrantsfiles international#migrantsfiles international
#migrantsfiles international
 
Confiscati Bene a Ferrara
Confiscati Bene a FerraraConfiscati Bene a Ferrara
Confiscati Bene a Ferrara
 
Un giornalista tra dati e sensori
Un giornalista tra dati e sensoriUn giornalista tra dati e sensori
Un giornalista tra dati e sensori
 
Storie che nascono dai dati, come cambia il giornalismo nell'età della Rete
Storie che nascono dai dati, come cambia il giornalismo nell'età della ReteStorie che nascono dai dati, come cambia il giornalismo nell'età della Rete
Storie che nascono dai dati, come cambia il giornalismo nell'età della Rete
 
Data journalism: fare giornalismo con metodo (scientifico)
Data journalism: fare giornalismo con metodo (scientifico)Data journalism: fare giornalismo con metodo (scientifico)
Data journalism: fare giornalismo con metodo (scientifico)
 
#migrantsfiles | Cortina d'Ampezzo, 8 luglio 2014
#migrantsfiles | Cortina d'Ampezzo, 8 luglio 2014#migrantsfiles | Cortina d'Ampezzo, 8 luglio 2014
#migrantsfiles | Cortina d'Ampezzo, 8 luglio 2014
 
When data journalism meets science | Erice, June 10th, 2014
When data journalism meets science | Erice, June 10th, 2014When data journalism meets science | Erice, June 10th, 2014
When data journalism meets science | Erice, June 10th, 2014
 
Tra dati e notizie
Tra dati e notizieTra dati e notizie
Tra dati e notizie
 
Data visualization in data journalism workflow
Data visualization in data journalism workflowData visualization in data journalism workflow
Data visualization in data journalism workflow
 
Data Visualization Lab - #SOD14 - Bologna - 30 marzo 2014
Data Visualization Lab - #SOD14 - Bologna - 30 marzo 2014Data Visualization Lab - #SOD14 - Bologna - 30 marzo 2014
Data Visualization Lab - #SOD14 - Bologna - 30 marzo 2014
 
Come nasce un'inchiesta data-driven
Come nasce un'inchiesta data-drivenCome nasce un'inchiesta data-driven
Come nasce un'inchiesta data-driven
 
Pools of data
Pools of dataPools of data
Pools of data
 
Web scraping e Datawrapper per giornalisti locali
Web scraping e Datawrapper per giornalisti localiWeb scraping e Datawrapper per giornalisti locali
Web scraping e Datawrapper per giornalisti locali
 
20131130 - Open Ricostruzione: i fondi destinati a Bondeno (Ferrara) dopo il ...
20131130 - Open Ricostruzione: i fondi destinati a Bondeno (Ferrara) dopo il ...20131130 - Open Ricostruzione: i fondi destinati a Bondeno (Ferrara) dopo il ...
20131130 - Open Ricostruzione: i fondi destinati a Bondeno (Ferrara) dopo il ...
 
20131026 - Open Ricostruzione: i fondi destinati a Bondeno (Ferrara) dopo il ...
20131026 - Open Ricostruzione: i fondi destinati a Bondeno (Ferrara) dopo il ...20131026 - Open Ricostruzione: i fondi destinati a Bondeno (Ferrara) dopo il ...
20131026 - Open Ricostruzione: i fondi destinati a Bondeno (Ferrara) dopo il ...
 
Open Data dal basso - Bari
Open Data dal basso - BariOpen Data dal basso - Bari
Open Data dal basso - Bari
 
Dai dati al giornalismo
Dai dati al giornalismoDai dati al giornalismo
Dai dati al giornalismo
 
Visualizzare i dati con D3js
Visualizzare i dati con D3jsVisualizzare i dati con D3js
Visualizzare i dati con D3js
 

Dernier

Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptxScienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
lorenzodemidio01
 
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptxNicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
lorenzodemidio01
 
case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....
giorgiadeascaniis59
 

Dernier (19)

Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptxScienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
 
Oppressi_oppressori.pptx................
Oppressi_oppressori.pptx................Oppressi_oppressori.pptx................
Oppressi_oppressori.pptx................
 
Descrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptxDescrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptx
 
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptxNicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
 
descrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptxdescrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptx
 
Tosone Christian_Steve Jobsaaaaaaaa.pptx
Tosone Christian_Steve Jobsaaaaaaaa.pptxTosone Christian_Steve Jobsaaaaaaaa.pptx
Tosone Christian_Steve Jobsaaaaaaaa.pptx
 
Scrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibileScrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibile
 
case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....
 
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptxLorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
 
Vuoi girare il mondo? educazione civica.
Vuoi girare il mondo? educazione civica.Vuoi girare il mondo? educazione civica.
Vuoi girare il mondo? educazione civica.
 
Aristotele, vita e opere e fisica...pptx
Aristotele, vita e opere e fisica...pptxAristotele, vita e opere e fisica...pptx
Aristotele, vita e opere e fisica...pptx
 
Lorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptxLorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptx
 
Lorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptxLorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptx
 
ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptx
ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptxProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptx
ProgettoDiEducazioneCivicaDefinitivo_Christian Tosone.pptx
 
Quadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceoQuadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceo
 
Presentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione CivicaPresentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione Civica
 
LE ALGHE.pptx ..........................
LE ALGHE.pptx ..........................LE ALGHE.pptx ..........................
LE ALGHE.pptx ..........................
 
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptxLorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
 
discorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptxdiscorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptx
 

Open Data & Data Visualization: dalle licenze ai grafici | Bologna, 16 giugno 2014

  • 1. Dalle licenze ai grafici: riusare, pulire, esplorare e visualizzare i dati Alessio Cimarelli @jenkin27 Andrea Nelson Mauro @nelsonmau www.dataninja.it Agenda Digitale - Comune di Bologna , 16 e 17 giugno 2014
  • 2. I dati e il contesto Le licenze Aggiornamenti sulle Linee guida AGID I formati dei dati dati strutturati e non strutturati fare scraping per creare dati strutturati Usare le tabelle con i fogli di calcolo Pulire i dati: le regole principali Tecniche avanzate: l'uso di OpenRefine Analisi: ordinare, filtrare e raggruppare i dati Aggregare dati da tabelle diverse: CercaVert e altre funzioni utili
  • 3. Introduzione alla Data Visualization risorse, strumenti, principali riferimenti La visualizzazione come strumenti di analisi dei dati Grafici di base con : come scegliere Grafici avanzati con : visualizzare connessioni e gerarchie Mappe con : punti, bolle, choropleth, timemap Reti con : elementi di social network analysis Visualizzazione con un'overview generale
  • 4. Il sito di Dataninja con i nostri progetti principali
  • 5.
  • 6.
  • 7. Informazioni, slides, esperimenti, tutorial e tool per i data journalist
  • 8.
  • 9. Eric Schmidt , Google’s executive chairman
  • 10. Per cercarli, trovarli, riusarli e dare loro contesto Per analizzarli e verificare se possono essere utili Per costruire informazioni maggiormente accurate e basate su elementi statistici
  • 11.
  • 12. Cominciamo da una definizione Singoli pezzi di informazione di ogni natura, descrizioni di fatti riproducibili senza ambiguità, parti di informazioni strutturate che possono essere archiviate in formato digitale Maurizio Napolitano, Technologist presso Fondazione Bruno Kessler (Trento)
  • 13. Cominciamo da una definizione Un dato è aperto se chiunque è libero di usarlo, riutilizzarlo, ridistribuirlo, ed è soggetto tutt’al più all’obbligo di citazione o condivisione allo stesso modo Open Definition: http://opendefinition.org/od
  • 14.
  • 15.
  • 17. Se voglio pubblicare dei dati in "Open Data" devo: dei dati (chi li ha prodotti? Il classico esempio dei dati del turismo, generalmente raccolti e diffusi dalle Camere di Commercio) diritti altrui o il segreto statistico le verifiche necessarie e preliminari alla pubblicazione. E inoltre devo tenere a mente che: Non posso concedere una licenza che rilasci più diritti di quanti non ne abbiano i dati di provenienza Devo sempre tenere in considerazione la possibilità di rimuovere dei dati (o modificarne la licenza) se emerge che la titolarità non è mia.
  • 18. Le licenze utilizzabili per il rilascio dei dati secondo AGID http://www.agid.gov.it/sites/default/files/linee_guida/patrimoniopubblicolg2014_v0.6.pdf
  • 19. , giurista, esperto di diritto digitale | http://goo.gl/zmjbY7
  • 20.
  • 21. Formati dei dati digitali già utilizzabili, solo da pulire e controllare Si possono analizzare con Ms Excel e Libre Office Calc, mysql (...) È buona norma pubblicarli con i
  • 22. Sono dati non strutturati se non è possibile analizzarli tramite un'applicazione di foglio di calcolo Pagine web in formato html Documenti di testo Documenti in formato pdf
  • 23. L'arte dello scraping: semplice o complessa? (dati da estrarre da pdf) (dati da estrarre da pagine html) sviluppate ad hoc con Python / Javascript / Java
  • 24.
  • 25. Il nostro punto di partenza è una tabella di dati strutturati http://dati.comune.bologna.it/node/340
  • 26. Di fronte all’enorme varietà del mondo, il computer comprende pochi tipi di variabili: numeri interi (con segno, incluso lo 0) numeri decimali (con segno) date e orari stringhe di caratteri (case sensitive) valore mancante (o NULL)
  • 27. Verificare, individuare errori, correggere Premesse sbagliate portano (quasi) sempre a conclusioni sbagliate, anche se il ragionamento è corretto. Pure se affidabile, anche la fonte può sbagliare. Così come può barare, truccare, mentire, nascondere, omettere, ecc. Da controllare sempre prima di tutto: coerenza interna, completezza, verosimiglianza. Non buttar via mai niente e tenere traccia di quello che si fa...
  • 28. Verificare, individuare errori, correggere Strumenti dei fogli di calcolo (come Microsoft Excel, Libre Office Calc): filtri e funzioni di ordinamento; formattazione condizionale; definizione esplicita dei tipi (stringa, numero, data, ...); semplici grafici. Si può fare con Microsoft Office o Libre Office Calc Oppure con uno strumento ad hoc: Open Refine ( openrefine.org).
  • 29. Ogni colonna rappresenta e contiene uno e un solo tipo di dato. Ogni riga rappresenta e contiene uno e un solo oggetto Non possono esistere righe perfettamente vuote o identiche. Controlla che la struttura dei dati sia corretta: ogni colonna deve contenere valori dello stesso tipo (date, luoghi) Controlla che i dati si trovino in formato omogeneo (ad esempio la formattazione della data o i maiuscoli / minuscoli) Controlla quale sistema di numerazione stai usando. Europeo o anglosassone? Controlla i separatori di migliaia e decimali
  • 30. Controlla che le intestazioni siano sempre nella prima riga Le righe vuote non devono esistere. Le celle vuote possono invece indicare valori mancanti (tutte indicano sempre valori mancanti). Attenzione a celle fintamente vuote: il carattere spazio c’è, anche se non si vede! Controlla le somme se lavori su tabelle numeriche e le stai modificando Suddividi le informazioni in più colonne possibile (per esempio se si hanno nomi completi, meglio dividerli in “nome” e “cognome”)
  • 31.
  • 32. Posso scegliere l'ordinamento alfabetico (A-Z o Z-A) o numerico (min-max o viceversa). In questo caso ordino dal più grande al più piccolo
  • 33.
  • 34. Raggruppo i dati per quartiere calcolando il totale degli iscritti
  • 35. Quando si hanno diverse tabelle che descrivono gli stessi elementi, spesso provenienti da fonti diverse, è possibile unirle e arricchire così il mio dataset scoprendo nuove relazione tra i dati. Nei fogli di calcolo: , , .
  • 36. Dati sulla disoccupazione o sui costi dei servizi: quelli della tua città/regione sono più alti o più bassi rispetto ad altri territori? - Le fonti ufficiali tendono a concentrarsi su dati del quarto trimestre. Il contesto e la prospettiva cambiano osservando dati che mostrano lo sviluppo di un fenomeno negli ultimi 5 o 10 anni. - Un'istituzione annuncia milioni di euro di investimenti per le scuole. Fai qualche conto: quanti studenti potranno beneficiarne, su quale periodo di tempo? Ricalcolare il valore pro capite di programmi di investimento spesso può chiarire il reale significato. - Prova ad eseguire semplici controlli di somme e totali. Verifica le modalità con le quali i dati sono stati raccolti e con quali ipotesi o modelli. Qual è il tasso di disoccupazione nel tuo paese? Controllalo e confrontalo con altri paesi o modelli alternativi.
  • 37.
  • 38. Come non era mai successo nelle nostre vite, oggi abbiamo accesso a un’infinità di informazioni libere e gratuite. Con gli strumenti giusti possiamo cominciare a dare un senso a questi dati per vedere schemi e trend che altrimenti per noi sarebbero invisibili. Trasformando i numeri in forma grafica, permetteremo ai lettori di conoscere le storie che quei numeri nascondono. Alberto Cairo, "The functional Art"
  • 39. Principali strumenti visualizzazione: grafici base (linee, barre, torte): http://datawrapper.it mappe geografiche: http://cartodb.com grafici gerarchici: http://raw.densitydesign.org/ grafi (detti anche reti): http://gephi.org timeline: http://timeline.knightlab.com/ Ma on line ci sono tantissimi altri strumenti: l'importante è avere chiaro il proprio obiettivo e non avere paura di sperimentare!
  • 40. Con Datawrapper è possibile realizzare grafici interattivi in pochi minuti (grafici a barre, torte, istogrammi, grafici a linee, e qualche mappa)
  • 41. CartoDB permette di creare mappe interattive in pochi istanti. L'importante è che la tua tabella abbia dei dati geografici.
  • 42. RAW permette di gestire bene le relazioni tra i dati e la loro gerarchia. E' facile da usare provando gli esempi già presenti (esempio di quali ingredienti sono fatti i cocktail?).
  • 43. Costruire una cronistoria degli eventi può essere molto utile. Si può fare con Timeline.JS, ad esempio inserendo in una tabella vari articoli in successione temporale (guarda la timeline del terremoto in Emilia).
  • 44. Quali sono le relazioni tra i dati? E' possibile visualizzarle con GEPHI, un software di Networl Analysis (basato sui grafi). E' spesso usato per vedere le connessioni tra gli utenti su Twitter o le amicizie su Facebook.
  • 45. Spesso visualizzare i dati può aiutarci a "scoprire" delle notizie Quanto è grande la differenza del tasso di disoccupazione tra due o più territori? Com'è cambiato un fenomeno nel tempo? Visualizzare questi dati può aiutarci a comprendere in maniera più immediata un fenomeno e fare prendere al nostro lavoro giornalistico un'altra direzione: torniamo indietro, cerchiamo altri dati, li mettiamo a confronto.
  • 46. Le best practices del Data Journalism prevedono che insieme alle inchieste vengano pubblicati i dati relativi, per permettere di verificare le visualizzazioni e i risultati. Noi abbiamo costruito
  • 47. Andrea Nelson Mauro / "nelsonmau" nelsonmau@dataninja.it @nelsonmau www.dataninja.it http://school.dataninja.it http://dataninja.it/newsletter http://datamediahub.it
  • 49. (SOD) Dati.gov.it Open Data Census Licenze Creative Commons Agenda Digitale Italiana Spaghetti Open Data Mailing list pubblica di Spaghetti Open Data Open Bilanci Open Coesione CIRSFID - Università di Bologna Codice dell'Amministrazione Digitale Open Definition Confiscati Bene The Migrants' Files Open Data Bologna Five star open data
  • 50. (estrazione tabelle da pdf) (pulizia dati) Tabula Open Refine