SlideShare une entreprise Scribd logo
1  sur  71
Télécharger pour lire hors ligne
@Alessio Cimarelli / @Andrea Nelson Mauro
DAI DATI ALLA NOTIZIA
IN QUATTRO MOSSE
INTRODUZIONE AL DATA JOURNALISM
Che cos’è il Datajournalism
school.dataninja.it
BETA
> INDICE DELLA DISPENSA
● Pag 3 - Introduzione, cenni storici
● Pag 11 - Dove trovare i dati e come scaricarli
● Pag 28 - Pulire i dati
● Pag 41 - Esplorare i dati
● Pag 54 - Visualizzare i dati
● Pag 69 - Credits
● Pag 70 - Chandelog
school.dataninja.it 2
> UNA STORIA CHE VIENE DA LONTANO.
Il primo uso del computer a fini giornalistici risale al 1952
negli USA: nasce il C.A.R. (Computer Assisted Reporting)
http://www.wired.com/science/discoveries/news/2008/11/dayintech_1104
Nel 1967 Philip Meyer consacra questa pratica con un’
inchiesta di successo
http://www.nieman.harvard.edu/reports/article/102053/1968-A-Newspapers-Role-Between-the-Riots.aspx
Nel 1973 Meyer stesso fonda il “giornalismo di precisione”,
coniugando uso della tecnologia e metodo scientifico
“The New Precision Journalism”: http://www.unc.edu/~pmeyer/book/
“Giornalismo e metodo scientifico”: http://www.armando.it/schedalibro/20046/Giornalismo-e-metodo-scientifico
1952
1967
1973
school.dataninja.it 3
> UNA STORIA CHE VIENE DA LONTANO..
Il salto si ha con l’aumento esponenziale della quantità e della qualità
dei dati digitali a disposizione, oltre che degli strumenti tecnologici e
concettuali per gestirli e analizzarli.
school.dataninja.it 4
> UNA STORIA CHE VIENE DA LONTANO...
Nato in ambito anglosassone, oggi il data journalism (DDJ) è una pratica
adottata un po’ ovunque. La si trova in luoghi dedicati (datablog, giornali
ad-hoc), ma è sempre più pervasiva nel giornalismo in generale, anche
perché si può applicare a qualsiasi tema e contesto.
L’Italia è indietro, ma anni-luce avanti rispetto a pochi anni fa.
school.dataninja.it 5
> PECULIARITÀ E LIMITI DEL DDJ
Richiede competenze multi-disciplinari e quindi team di professionisti:
● giornalista
● data scientist / statistico
● sviluppatore
● designer / grafico
Porta facilmente a prodotti giornalistici di lunga vita.
Richiede molta accortezza nell’uso degli strumenti statistici.
Si rischiano prodotti giornalistici “belli”, ma fini a se stessi.
school.dataninja.it 6
> PECULIARITÀ E LIMITI TECNOLOGICI DEL DDJ
Gli strumenti e le piattaforme cambiano
molto velocemente e bisogna rimanere aggiornati.
● Spesso si usano servizi di terze parti di cui non si ha il controllo.
● Ci sono ampie libertà di riutilizzo e riciclo.
● Il rilascio dei dati permette di costruire comunità attorno ad essi.
Spesso è necessario imparare
a usare software con curve
di apprendimento abbastanza ripide.
school.dataninja.it 7
> PECULIARITÀ E LIMITI ITALIANI DEL DDJ
● Richiede competenze multi-disciplinari e tecnologicamente avanzate
in una professione in cui si inizia a parlare ora di formazione
continua. http://www.odg.it/content/formazione-continua
● Si intreccia con la crisi dei media,
dell’editoria e del giornalismo.
● Cerca di farsi spazio
in una cultura giornalistica
votata al giornalismo di opinione.
Daniel Hallin, Paolo Mancini, “Modelli di giornalismo. Mass Media e politica nelle democrazie occidentali”. Editore Laterza (2004)
school.dataninja.it 8
> LA GENESI DI UN’INCHIESTA DATA-DRIVEN
Mi imbatto in un insieme di dati e sento il
profumo di una possibile notizia: li raccolgo, li
analizzo, faccio delle ipotesi, le verifico, scopro
la notizia.
Ho un interesse, un’idea, una tesi, cerco i dati
che la riguardano, li analizzo, rivedo l’idea
iniziale, torno ai dati, scopro una notizia.
http://www.theguardian.com/news/datablog/2011/apr/07/data-journalism-workflow
school.dataninja.it 9
> SCHEMA DEL PROCESSO DI PRODUZIONE
1. Trovare
2. Pulire
3. Analizzare
4. Raccontare
school.dataninja.it 10
DAI DATI ALLA NOTIZIA
IN QUATTRO MOSSE
INTRODUZIONE AL DATA JOURNALISM
1. Dove trovare i dati e come scaricarli
school.dataninja.it 11
> COSA SONO I DATI: UNA DEFINIZIONE
Singoli pezzi di informazione di ogni natura,
descrizioni di fatti riproducibili senza ambiguità,
parti di informazioni strutturate che possono
essere archiviate in formato digitale
Maurizio Napolitano, Technologist presso la Fondazione Bruno Kessler
“
”school.dataninja.it 12
> COSA SONO I DATI: IL CONTESTO
Eric Schmidt
Google’s executive chairman
From the dawn of civilization until
2003, humankind generated five
exabytes of data. Now we produce
five exabytes every two days… and
the pace is accelerating!
”
“
1 exabyte = 1018
bytes = 1.000.000.000.000.000.000 (un trilione di) bytes
1 byte ~= 1 carattere di testo | Divina Commedia: ~ 500.000 caratteri
school.dataninja.it 13
> TIPI DI DATI: DATI NON STRUTTURATI
school.dataninja.it 14
> TIPI DI DATI: DATI STRUTTURATI E METADATI
Un metadato è un’informazione che
descrive un dato e ne descrive
anche la relazione con gli altri dati.
Strutturare un insieme di dati
significa esplicitarne il significato e
le relazioni reciproche.
Esempio:
● 110 (dato)
● Superficie calpestabile dell’abitazione in mq (metadato)
school.dataninja.it 15
> TIPI DI DATI: OPEN E CLOSED (LICENZE)
Open Definition: http://opendefinition.org/od
Un dato è aperto se chiunque è libero di
usarlo, riutilizzarlo, ridistribuirlo, ed è
soggetto tutt’al più all’obbligo di citazione o
condivisione allo stesso modo
“
”school.dataninja.it 16
> TIPI DI DATI: QUELLI CHE PRODUCIAMO NOI
Sondaggi, informazioni, interviste
giornalistiche, dati personali: è
importante capire con che tipo di dati
abbiamo a che fare e quali sono le
regole che vogliamo darci nel diffonderli.
Ormai siamo anche noi produttori
di dati e dataset, quindi
dobbiamo scegliere una
licenza di distribuzione!
school.dataninja.it 17
> A CACCIA DI DATI: UNA BUONA DOMANDA
UN EVENTO
LA NOSTRA
INCHIESTA PUÒ
NASCERE DA UN
EVENTO DI CRONACA
CHE VOGLIAMO
APPROFONDIRE
FOLLOW THE MONEY
SE VUOI FARE UN’
INCHIESTA E NON SAI
DA DOVE PARTIRE,
PROVA A SEGUIRE L’
ODORE DEI SOLDI!
UN TEMA
VOGLIAMO
CONTESTUALIZZARE,
ANALIZZARE E
INDAGARE UNA
TEMATICA SPECIFICA
O UN FENOMENO
school.dataninja.it 18
> A CACCIA DI DATI: FONTI
PUBBLICA
AMMINISTRAZIONE
LEAKS
ASSOCIAZIONI
ONG
TERZO SETTORE
COMUNITÀ DI INTERESSE
COMITATI DI CITTADINI ATTIVI
NOI STESSI...
GIORNALISTI
SOCIAL NETWORK
ORGANISMI
INTERNAZIONALI
school.dataninja.it 19
> FONTI DI DATI: PUBBLICA AMMINISTRAZIONE
Legislazioni sull’Open Data By Default - Nel 2013 è entrato in vigore il
Codice dell’Amministrazione Digitale (CAD) che prevede l’”Open Data
by Default”. Il formato di tipo aperto è “un formato di dati reso pubblico,
documentato esaustivamente e neutro rispetto agli strumenti tecnologici
necessari per la fruizione dei dati stessi”.
Fonte: http://goo.gl/zmjbY7
Diritto (e richieste) di accesso ai dati - Chiunque può chiedere
accesso ai dati della PA, se in possesso dei requisiti come stabilito dalla
Legge 214 del 1990. Fonte: http://goo.gl/T8LHXK
school.dataninja.it 20
> FONTI DI DATI: SOGGETTI PRIVATI
● Editori, giornali di carta / on-line
● Organizzazioni non governative
● Associazioni
● Fondazioni
● Istituti di ricerca
● Grandi aziende private / a
partecipazione pubblica
school.dataninja.it 21
> FONTI DI DATI: SONO QUALIFICATE?
● Chi è la nostra fonti di dati e
quali sono i suoi scopi?
● È un soggetto comunemente ritenuto
affidabile nel contesto in cui opera?
● È possibile verificare altrove se i dati
che fornisce sono credibili?
● Qualcun altro ha usato dati
da questa fonte?
school.dataninja.it 22
> SCARICARE I DATI: FORMATI DEI FILE
Se i dati sono strutturati e offerti in un formato machine readable, il
lavoro è semplice: è sufficiente scaricare il file e aprirlo con un software
apposito (spesso un foglio di calcolo).
● Alcuni formati comuni: xls(x), csv, tsv, ods
● Formati strutturati, ma meno gestibili con
pacchetti di ufficio: xml, sql, json, shp, kml
school.dataninja.it 23
> SCARICARE I DATI: E SE SONO TROPPI?
Se i dati sono suddivisi in una grande
quantità di file, pubblicati per esempio
come un elenco di indirizzi web, ci sono
diversi strumenti di download massivo che
automatizzano il lavoro e scaricano tutto
sostanzialmente da soli.
Esempio: https://www.gnu.org/software/wget/
school.dataninja.it 24
> SCRAPING: GRATTARE DAL WEB (HTML)
I dati possono trovarsi pubblicati
direttamente su pagine web sotto
forma di tabelle o liste: prima di
essere elaborati su fogli di calcolo è
necessario estrarli e riorganizzarli
in formati machine readable (xls, csv,
tsv, ods).
Spesso, più che una scienza, è un’arte. Ci sono molti strumenti con cui
partire (DataMiner, ScraperWiki, …)
school.dataninja.it 25
> SCRAPING: GRATTARE DAL WEB (PDF)
I dati possono trovarsi sotto forma di tabelle
inserite in un file PDF. Sono ben strutturati
solo visivamente e quindi non sono usabili
direttamente in fogli di calcolo, ma vanno
estratti. Anche qui serve un lavoro di scraping
per estrarli e renderli machine readable (xls,
csv, tsv, ods).
È uno dei compiti di scraping più difficili, spesso impossibile (per
esempio quando i documenti sono scansioni): alcuni strumenti utili sono
Okular, Tabula, la suite professionale di Adobe.
school.dataninja.it 26
> SCRAPING: SE SERVE UNO SVILUPPATORE
Anche se ci si trova nelle condizioni di fare
scraping, non sempre ci sono software già
pronti: può essere necessario uno strumento ad
hoc costruito da uno sviluppatore professionista.
Uno scraper è un software appositamente scritto
in un qualche linguaggio di programmazione
(python, javascript, java, …)
Non tutti i dati possono essere estratti in maniera automatica.
school.dataninja.it 27
DAI DATI ALLA NOTIZIA
IN QUATTRO MOSSE
INTRODUZIONE AL DATA JOURNALISM
2. Pulire i dati
school.dataninja.it 28
> PULIRE I DATI: UN PASSAGGIO IMPORTANTE
La pulizia dei dati è fondamentale per
assicurarsi che siano strutturati bene all’
interno delle righe e delle colonne, che i
valori inseriti siano coerenti, che siano stati
inseriti correttamente.
Analizzare i dati senza fare un attento data
cleaning potrebbe portare successivamente
a gravi errori o a difficoltà ingestibili.
school.dataninja.it 29
> PULIRE I DATI: I TIPI DI DATI
Di fronte all’enorme varietà del mondo, il
computer comprende pochi tipi di variabili:
● numeri interi (con segno, incluso lo 0)
● numeri decimali (con segno)
● date e orari
● stringhe di caratteri (case sensitive)
● valore mancante (o NULL)
school.dataninja.it 30
> PULIRE I DATI: LA TABELLA
Una tabella è composta da colonne e righe.
● Ogni colonna rappresenta e contiene uno e un
solo tipo di dato.
● Ogni riga rappresenta e contiene uno e un solo
oggetto, definito univocamente dalla collezione
di dati inseriti nelle varie colonne.
● Non possono esistere righe completamente
vuote o più righe perfettamente identiche.
school.dataninja.it 31
> PULIRE I DATI: CHECKLIST DI CONTROLLI / 1
Controlla che la struttura dei dati sia
corretta. Ogni colonna deve contenere
valori dello stesso tipo. Se la colonna indica
una data, in tutte le righe di quella colonna
devono esserci solo date (o NULL). Se
contiene nomi di persone, devono esserci
solo quelli (o NULL). Nella colonna “Nato il”
non può esserci un nome di persona, e
nella colonna “Nome” non possono esserci
date.
school.dataninja.it 32
> PULIRE I DATI: CHECKLIST DI CONTROLLI / 2
Controlla che i dati siano scritti
alla stessa maniera. Se una
colonna contiene date, le date
devono essere scritte con la stessa
struttura (esempio: nella notazione
italiana GG/MM/AAAA).
Attenzione a quando si mescolano notazione italiana e anglosassone
(MM/GG/AAAA): alcune date sono valide, ma sbagliate!
school.dataninja.it 33
> PULIRE I DATI: CHECKLIST DI CONTROLLI / 3
Controlla che all’interno delle righe le parole
siano scritte in maniera omogenea. Ad
esempio nella colonna dei nomi è un errore
scrivere in una riga “Italia” e nella riga
successiva “ITALIA”: l’applicazione potrebbe
capire che si tratta di cose differenti. È
necessario scrivere “Italia” (oppure “ITALIA”) in
entrambe le righe, e in tutte quelle dov’è
presente il valore “Italia” sia in maiuscolo che in
minuscolo.
school.dataninja.it 34
> PULIRE I DATI: CHECKLIST DI CONTROLLI / 4
Controlla quale sistema di numerazione stai usando. Europeo o
anglosassone? È importante perché esistono separatori diversi per
indicare i decimali e le migliaia.
● Le migliaia – In Europa si scrive 1.000 (mille), mentre negli Stati
Uniti e in Gran Bretagna si scrive 1,000. In questo caso in Europa
indichiamo le migliaia con un punto, non con la virgola.
● I decimali – In Europa si scrive 1,5 (uno e mezzo), mentre negli
Stati Uniti e in Gran Bretagna si scrive 1.5. In questo caso in Europa
indichiamo i decimali con una virgola, non con il punto.
school.dataninja.it 35
> PULIRE I DATI: CHECKLIST DI CONTROLLI / 5
Controlla le intestazioni e assicurati che
siano sempre nella prima riga della tua
tabella. Le intestazioni sono i “nomi” dei tuoi
dati, che si trovano suddivisi in colonne. Ogni
intestazione dà il nome alla colonna nella
quale si trova: perché però il tutto funzioni, le
intestazioni devono trovarsi nella prima riga
della tua tabella (e solo lì, non devono
ripetersi in mezzo alla tabella).
school.dataninja.it 36
> PULIRE I DATI: CHECKLIST DI CONTROLLI / 6
Controlla le righe e le celle bianche /
vuote. La tua tabella potrebbe averne,
perché spesso i fogli di calcolo vengono usati
in maniera impropria. Le righe vuote non
devono esistere. Le celle vuote possono
invece indicare valori mancanti, l’importante è
essere coerenti (tutte le celle vuote indicano
sempre valori mancanti).
Attenzione a celle fintamente vuote: il
carattere spazio c’è, anche se non si vede!
school.dataninja.it 37
> PULIRE I DATI: CHECKLIST DI CONTROLLI / 7
Controlla le somme se lavori su tabelle numeriche e le stai
modificando, esportando o salvando in altri file. Le somme dei dati
numerici dai vecchi ai nuovi file possono essere dei check molto utili per
evidenziare degli errori.
school.dataninja.it 38
> PULIRE I DATI: CHECKLIST DI CONTROLLI / 8
È sempre meglio avere a che fare
con dati il più granulari e dettagliati
possibile. Se si può, quindi, meglio
suddividere le informazioni in
più colonne possibile (per
esempio se si hanno nomi
completi, meglio dividerli in “nome”
e “cognome”, se si hanno “codice
fiscale” e “partita iva”, meglio
prevedere due campi separati, ...).
school.dataninja.it 39
> PULIRE I DATI: GLI STRUMENTI
I dati possono essere puliti anche da
foglio di calcolo o con un semplice
editor di testo, ma uno degli strumenti
migliori è OpenRefine, un’applicazione
open-source che permette di filtrare,
riorganizzare e trasformare anche
grandi quantità di dati in pochi click:
http://openrefine.org/.
school.dataninja.it 40
DAI DATI ALLA NOTIZIA
IN QUATTRO MOSSE
INTRODUZIONE AL DATA JOURNALISM
3. Esplorare i dati
school.dataninja.it 41
> ANALISI: ESPLORARE I DATI
Le possibili strade per esplorare i dati
dipendono dalla loro quantità e dalla loro
qualità. Tra gli elementi da tenere presenti
ci sono le dimensioni che li caratterizzano.
● I nostri dati hanno una dimensione geografica e permettono un
confronto tra territori?
● Hanno una dimensione temporale e possono permetterci di
valutare come un fenomeno cambia nel tempo?
school.dataninja.it 42
> ANALISI / 1. LA NORMALIZZAZIONE DEI DATI
La normalizzazione è un aspetto cruciale per confrontare i dati tra loro.
È indispensabile se un valore muta in relazione al contesto al quale
afferisce. Esempio: non ha senso confrontare direttamente i disoccupati
di un territorio più popoloso con quelli di un territorio meno popoloso.
La normalizzazione si ottiene costruendo un rapporto tra il dato e il
contesto. Per confrontare i disoccupati di Lombardia e Molise, li
dobbiamo relazionare alla popolazione (“Disoccupati Lombardia /
Residenti Lombardia” vs. “Disoccupati Molise / Residenti Molise”).
school.dataninja.it 43
> ANALISI / 2. ANDAMENTO NEL TEMPO
Confrontare i dati nel tempo è importante. La disoccupazione cresce? Il
reddito è in aumento? Per rispondere a queste domande dobbiamo
misurarne la variazione.
Concentriamoci sul reddito a base regionale: per sapere se nel 2013 è
aumentato rispetto al 2012 (e dove), dobbiamo avere entrambi i dati per
ogni regione. Ci serve un dataset costruito così: nella prima colonna
avremo il nome dalla regione, nella seconda il corrispondente reddito del
2012, nella terza quello del 2013.
school.dataninja.it 44
> ANALISI / 2. ANDAMENTO NEL TEMPO
Per sapere di quanto è aumentato o diminuito il reddito è sufficiente
calcolarne la variazione relativa per ogni regione:
(reddito 2013 - reddito 2012)
reddito 2012
Il risultato è un indice di variazione relativa del reddito espresso in
percentuale (es. +12%).
school.dataninja.it 45
> ANALISI / 3. LA DISTRIBUZIONE
Quando si ha un insieme di numeri abbastanza grande (centinaia o più),
come per esempio le superfici degli esercizi commerciali di una città, è
utile conoscerne la distribuzione, cioè il modo in cui popolano tutti i
possibili valori che possono assumere teoricamente.
Per esempio una superficie è misurata con un numero decimale
positivo di metri quadrati. Quindi nel nostro dataset di esercizi
commerciali possiamo trovare qualsiasi valore tra 0 e (teoricamente)
infinito.
school.dataninja.it 46
> ANALISI / 3. LA DISTRIBUZIONE
Operativamente si divide l’intero intervallo di valori possibili (es. 0 ->
+infinito) in tanti piccoli intervallini (es. 0-50 -> 50-100 -> …), quindi si
contano per ognuno di essi quanti valori del dataset ci cadono dentro.
Il grafico qui accanto mostra per
esempio la distribuzione della
superficie di 109.654 esercizi
commerciali italiani. La maggior
parte ha un superficie intorno ai 50
mq, quasi tutti sono sotto i 200 mq.
school.dataninja.it 47
> ANALISI / 4. GLI INDICATORI STATISTICI
Attraverso analisi quantitative i dati possono essere confrontati, per
esempio costruendo un indicatore.
Poniamo di avere un dataset con tre colonne: nella prima l'elenco delle
regioni italiane, nella seconda il numero totale di disoccupati per
regione, nella terza il numero di giovani disoccupati per regione.
I giovani disoccupati sono una parte del totale dei disoccupati: dividendo
"giovani disoccupati" per "totale dei disoccupati" in ciascuna regione,
possiamo costruire il nostro indicatore (il risultato sarà sempre compreso
tra 0 e 1). Ora possiamo confrontare i territori attraverso un indice di
disoccupazione giovanile.
school.dataninja.it 48
> ANALISI / 5. LE CORRELAZIONI
Nel mondo reale oggetti e fenomeni interagiscono tra loro. Un fenomeno
può essere causa di un altro, o può manifestarsi come un effetto di una
qualche causa, o due fenomeni possono dipendere da una causa
comune.
Un primo indizio di un legame tra
due fenomeni è dato dalla loro
eventuale correlazione: la
tendenza di uno a variare in
funzione dell’altro.
school.dataninja.it 49
> ANALISI / 5. LE CORRELAZIONI
Per verificare qualitativamente una possibile correlazione tra due variabili
è sufficiente costruire un grafico ponendo una variabile su ogni asse. Es.
l’altezza dei padri vs. l’altezza dei figli mostra una correlazione positiva
(cresce una, cresce l’altra per questioni genetiche).
Quantitativamente si possono
calcolare degli indici o coefficienti
di correlazione. Il più semplice e
utile è quello di Pearson (valori d’
esempio mostrati in figura).
school.dataninja.it 50
> ANALISI / 6. ORDINARE I DATI
Ordinare i dati è un’operazione tanto semplice quanto utile: la facciamo
ogni giorno, per esempio per sapere quali sono le nostre spese più o
meno importanti, oppure organizzando i nomi dei contatti della rubrica
secondo l’ordine alfabetico.
Durante l’analisi dei dati può essere utilissima perché ci permette di
conoscere immediatamente i valori massimi e minimi dei dati che stiamo
analizzando. Nell’esempio sulla disoccupazione, ordinando i dati finali
scopriamo facilmente dove la disoccupazione è maggiore e dov’è
minore.
school.dataninja.it 51
> ANALISI / 7. FILTRARE I DATI
Filtrare i dati è un’operazione semplice che può avere varie utilità.
● Filtriamo i dati per concentrarci su quelli che ci interessano di più in
base a un parametro comune. Avendo i valori della disoccupazione
per tutte le province italiane, potrebbero servirci solo quelli della
Lombardia: li filtriamo quindi per la chiave “Lombardia”.
● Filtriamo i dati anche per isolare i valori più significativi: ad esempio
se ci interessano solo le province dove la disoccupazione è in
aumento, filtreremo solo le righe con valori positivi.
school.dataninja.it 52
> ANALISI / 8. RAGGRUPPARE I DATI
Raggruppare i dati è un’operazione che permette di aggregarli secondo
criteri specifici, funzionali alla nostra ricerca giornalistica. Nei fogli di
calcolo questa operazione è assolta dalle Tabelle Pivot.
Poniamo che la nostra inchiesta non sia sull’occupazione in generale,
ma solo su quella giovanile e che abbiamo i dati dei disoccupati
suddivisi non solo per regione, ma anche per età. Per ogni riga abbiamo
quindi “Territorio” / “Fascia d’età” / “Disoccupati”. Possiamo ricavare i
dati complessivi per regione raggruppando i dati originali per Fascia d’
età (inferiore a 24 anni), sommando i relativi singoli valori.
school.dataninja.it 53
DAI DATI ALLA NOTIZIA
IN QUATTRO MOSSE
INTRODUZIONE AL DATA JOURNALISM
4. Visualizzare i dati
school.dataninja.it 54
> VISUALIZZARE I DATI: PERCHÉ
Come non era mai successo nelle nostre vite, oggi
abbiamo accesso a un’infinità di informazioni libere
e gratuite. Con gli strumenti giusti possiamo
cominciare a dare un senso a questi dati per
vedere schemi e trend che altrimenti per noi
sarebbero invisibili. Trasformando i numeri in forma
grafica, permetteremo ai lettori di conoscere le
storie che quei numeri nascondono.Alberto Cairo
The functional art
“
school.dataninja.it 55
> VISUALIZZARE I DATI: COME
La visualizzazione dei dati è un aspetto
cruciale: è fondamentale scegliere un tipo
di visualizzazione adeguata al tipo di dati
che si hanno a disposizione perché
● se corretta, permette di comprendere
a fondo il senso dei dati;
● se sbagliata, ne può falsare
completamente il significato.
school.dataninja.it 56
> VIZ / 1. GRAFICO DI DISPERSIONE
Grafico a punti o
di dispersione
È il più semplice
per evidenziare
una dipendenza tra
due variabili
(correlazione).
school.dataninja.it 57
> VIZ / 2. GRAFICO A LINEE
Grafico a linee
Il più usato per
mostrare i
cambiamenti o gli
andamenti nel
tempo.
school.dataninja.it 58
> VIZ / 3. ISTOGRAMMA
Istogramma
Quando i valori di ciascun elemento,
come le nazioni dell’esempio, non
hanno una relazione reciproca gli uni
con gli altri, o quando è importante
evidenziare alcuni valori specifici, è
preferibile un istogramma piuttosto
che un grafico a punti o a linee.
school.dataninja.it 59
> VIZ / 4. GRAFICO A BARRE
Grafico a barre
Questa variante è molto utile se si
hanno molte etichette lunghe da
mostrare. Qui le informazioni sono
nella parte sinistra della
visualizzazione, in modo da lasciare
più spazio e rendere più facile e
piacevole la lettura.
school.dataninja.it 60
> VIZ / 5. GRAFICO A TORTA
Grafico a torta
Da usare solo per mostrare dati che sommati
insieme rappresentano un totale (e presi
singolarmente rappresentano le parti del
totale).
Il grafico a ciambella è una variante del
grafico a torta: spesso è usato in ambito politico
per indicare la distribuzione del parlamentari di
maggioranza e opposizione.
school.dataninja.it 61
> VIZ / 6. LE MAPPE INTERATTIVE
Visualizzare i dati su una mappa richiede un requisito fondamentale: che
i dati contengano almeno una dimensione geografica. La
rappresentazione dei dati avviene in tre modalità differenti:
● Punti - Luoghi geografici con specifiche coordinate (latitudine e
longitudine) ai quali i dati si riferiscono (indirizzi, città, …)
● Linee - Serie di punti collegati e relativi dati (strade, percorsi, …)
● Perimetri - Poligoni che definiscono determinate aree afferenti ai
dati (quartieri, comuni, province, regioni, nazioni, …)
school.dataninja.it 62
> VIZ / 6. PRINCIPALI TIPI DI MAPPE
CHOROPLETH HEATMAP
Numero figli per donna
Perimetri deformati in
base al valore dei dati
Diffusione dei giornali
Perimetri colorati in
base al valore dei dati
Distribuzione slot
Colore in base al valore
medio di punti adiacenti
CARTOGRAMMI
school.dataninja.it 63
> VIZ / 7. LE RETI
Una visualizzazione a rete è adatta per
evidenziare rapporti reciproci tra elementi.
Sono necessari due ingredienti: i nodi,
individuati da un id unico e caratterizzati da
vari parametri, e i collegamenti, individuati
da una coppia ordinata di nodi e caratterizzati
a loro volta da vari parametri.
Esempio: un gruppo di persone (nodi) e i loro rapporti di amicizia
(collegamenti). Ed ecco visualizzato Facebook, per esempio…
school.dataninja.it 64
> VISUALIZZARE I DATI: I SOFTWARE
Esistono numerosi software che permettono in maniera più o meno
semplice di visualizzare i dati tradurre i numeri in immagini.
● Datawrapper (grafici di base) http://datawrapper.de/
● Quantum GIS (mappe) http://www.qgis.org/it/site/
● CartoDB (mappe di ogni genere) http://cartodb.com/
● Google Fusion Tables (grafici di base e mappe con GMaps)
● Infogr.am (grafici di vario genere organizzati in una infografica)
● Gephi (reti) https://gephi.org/
● D3js (libreria javascript per scrivere web app interattive) http://d3js.org/
school.dataninja.it 65
> RACCONTARE UNA STORIA
Mai dimenticare che il data journalism
non è altro che giornalismo.
● 5 W (+ H di How, come)
● Verifica delle fonti
● Deontologia professionale
● Trasparenza (citazione delle fonti,
rilascio dei dati)
E poi una buona scrittura (e belle foto, bei video, interviste utili,
applicazioni interattive chiare e fruibili, …).
school.dataninja.it 66
> RISORSE VARIE: SU WEB
● http://www.dataninja.it
● http://www.datajournalism.it
● http://www.ascuoladiopencoesione.it
● http://www.openricostruzione.it
● http://www.wired.it/data
● http://www.theguardian.com/data
● http://www.datajournalismblog.com/
● http://flowingdata.com/
● http://www.ahref.eu/it/
● http://datajournalismhandbook.org/
● http://datadrivenjournalism.net/
● http://datajcrew.sudmediatika.it/
● http://it.okfn.org/
● http://www.spaghettiopendata.org/
● http://www.datamediahub.it/
● http://simonrogers.net/
school.dataninja.it 67
> RISORSE VARIE: LIBRI
● Paul Bradshaw, “Scraping for Journalists”, Leanpub (2014)
● John Mair, Richard Lance Keeble, “Data Journalism”, abramis (2014)
● Paul Bradshaw, “Data Journalism Heist”, Leanpub (2013)
● Claire Miller, “Getting Started with Data Journalism”, Leanpub (2013)
● Nathan Yau, “Data Points: Visualization That Means Something”, Wiley (2013)
● Simon Rogers, “Facts are Sacred”, Faber & Faber (2013)
● Jonathan Gray et al., “The Data Journalism Handbook”, O'Reilly (2012)
● Nathan Yau, “Visualize This”, Wiley (2011)
school.dataninja.it 68
> CREDITS
Alessio Cimarelli / "jenkin27"
jenkin@dataninja.it
@jenkin27
school.dataninja.it 69
Andrea Nelson Mauro / "nelsonmau"
nelsonmau@dataninja.it
@nelsonmau
Dataninja
www.dataninja.it
|
http://school.dataninja.it
Newsletter
http://dataninja.it/newsletter
Q&A
http://school.dataninja.it/qa
> CREDITS
Le immagini utilizzate in questa presentazione sono prodotte da Dataninja.it, o messe a
disposizione dai relativi autori in formato CC-by. Alcune delle immagini sono tratte da:
● School of Data (Open Knowledge Foundation)
● Datadrivenjournalism.net
● Openclipart
● Pixabay
● De.straba.us (blog di Maurizio Napolitano)
Per maggiori info sui contenuti, puoi contattarci all’indirizzo email info@dataninja.it
school.dataninja.it 70
> CHANGELOG
La dispensa è stata realizzata da dataninja.it a maggio 2014. In questa pagina terremo traccia
delle modifiche che effettueremo.
● Ultimo aggiornamento: 16/05/2014 by @nelsonmau
school.dataninja.it 71

Contenu connexe

Tendances

Open Data 4 Startups
Open Data 4 StartupsOpen Data 4 Startups
Open Data 4 Startupsmzaglio
 
School of data Trento: basic spreadsheet
School of data Trento: basic spreadsheetSchool of data Trento: basic spreadsheet
School of data Trento: basic spreadsheetCristian Consonni
 
C01. Strumenti per il coordinamento e l’integrazione delle informazioni
C01. Strumenti per il coordinamento e l’integrazione delle informazioniC01. Strumenti per il coordinamento e l’integrazione delle informazioni
C01. Strumenti per il coordinamento e l’integrazione delle informazioniCity Planner
 
Introduzione al data journalism | Roma, 7 giugno 2014
Introduzione al data journalism | Roma, 7 giugno 2014Introduzione al data journalism | Roma, 7 giugno 2014
Introduzione al data journalism | Roma, 7 giugno 2014Dataninja
 
Cultura del dato e startup (lesson learned from finodex)
Cultura del dato e startup (lesson learned from finodex)Cultura del dato e startup (lesson learned from finodex)
Cultura del dato e startup (lesson learned from finodex)Maurizio Napolitano
 

Tendances (11)

Open gov Seminar dec2014
Open gov Seminar dec2014Open gov Seminar dec2014
Open gov Seminar dec2014
 
Big data-simonetta
Big data-simonettaBig data-simonetta
Big data-simonetta
 
Big Data
Big DataBig Data
Big Data
 
Open Data 4 Startups
Open Data 4 StartupsOpen Data 4 Startups
Open Data 4 Startups
 
School of data Trento: basic spreadsheet
School of data Trento: basic spreadsheetSchool of data Trento: basic spreadsheet
School of data Trento: basic spreadsheet
 
una cultura dei dati pubblici
una cultura dei dati pubbliciuna cultura dei dati pubblici
una cultura dei dati pubblici
 
C01. Strumenti per il coordinamento e l’integrazione delle informazioni
C01. Strumenti per il coordinamento e l’integrazione delle informazioniC01. Strumenti per il coordinamento e l’integrazione delle informazioni
C01. Strumenti per il coordinamento e l’integrazione delle informazioni
 
Opendata for Aquila
Opendata for AquilaOpendata for Aquila
Opendata for Aquila
 
Introduzione al data journalism | Roma, 7 giugno 2014
Introduzione al data journalism | Roma, 7 giugno 2014Introduzione al data journalism | Roma, 7 giugno 2014
Introduzione al data journalism | Roma, 7 giugno 2014
 
Cultura del dato e startup (lesson learned from finodex)
Cultura del dato e startup (lesson learned from finodex)Cultura del dato e startup (lesson learned from finodex)
Cultura del dato e startup (lesson learned from finodex)
 
Open datamatera
Open datamateraOpen datamatera
Open datamatera
 

En vedette

Ocplab Analisi Testuale di Andrea Nobile
Ocplab Analisi Testuale di Andrea NobileOcplab Analisi Testuale di Andrea Nobile
Ocplab Analisi Testuale di Andrea NobileMarco Binotto
 
Tweet Analysis with Text Mining Algorithms
Tweet Analysis with Text Mining AlgorithmsTweet Analysis with Text Mining Algorithms
Tweet Analysis with Text Mining AlgorithmsAndrea Capozio
 
Indexing, vector spaces, search engines
Indexing, vector spaces, search enginesIndexing, vector spaces, search engines
Indexing, vector spaces, search enginesXYLAB
 
OUTDATED Text Mining 4/5: Text Classification
OUTDATED Text Mining 4/5: Text ClassificationOUTDATED Text Mining 4/5: Text Classification
OUTDATED Text Mining 4/5: Text ClassificationFlorian Leitner
 
Text mining analysis: ipotesi operativa
Text mining analysis: ipotesi operativaText mining analysis: ipotesi operativa
Text mining analysis: ipotesi operativaCamillo Di Tullio
 
Document similarity with vector space model
Document similarity with vector space modelDocument similarity with vector space model
Document similarity with vector space modeldalal404
 
Machine Learning with Applications in Categorization, Popularity and Sequence...
Machine Learning with Applications in Categorization, Popularity and Sequence...Machine Learning with Applications in Categorization, Popularity and Sequence...
Machine Learning with Applications in Categorization, Popularity and Sequence...Nicolas Nicolov
 
Big Data & Text Mining
Big Data & Text MiningBig Data & Text Mining
Big Data & Text MiningMichel Bruley
 

En vedette (11)

Ocplab Analisi Testuale di Andrea Nobile
Ocplab Analisi Testuale di Andrea NobileOcplab Analisi Testuale di Andrea Nobile
Ocplab Analisi Testuale di Andrea Nobile
 
Tweet Analysis with Text Mining Algorithms
Tweet Analysis with Text Mining AlgorithmsTweet Analysis with Text Mining Algorithms
Tweet Analysis with Text Mining Algorithms
 
Survey On Text Mining
Survey On Text MiningSurvey On Text Mining
Survey On Text Mining
 
Indexing, vector spaces, search engines
Indexing, vector spaces, search enginesIndexing, vector spaces, search engines
Indexing, vector spaces, search engines
 
OUTDATED Text Mining 4/5: Text Classification
OUTDATED Text Mining 4/5: Text ClassificationOUTDATED Text Mining 4/5: Text Classification
OUTDATED Text Mining 4/5: Text Classification
 
Text mining analysis: ipotesi operativa
Text mining analysis: ipotesi operativaText mining analysis: ipotesi operativa
Text mining analysis: ipotesi operativa
 
Document similarity with vector space model
Document similarity with vector space modelDocument similarity with vector space model
Document similarity with vector space model
 
Machine Learning with Applications in Categorization, Popularity and Sequence...
Machine Learning with Applications in Categorization, Popularity and Sequence...Machine Learning with Applications in Categorization, Popularity and Sequence...
Machine Learning with Applications in Categorization, Popularity and Sequence...
 
TextMining with R
TextMining with RTextMining with R
TextMining with R
 
Big Data & Text Mining
Big Data & Text MiningBig Data & Text Mining
Big Data & Text Mining
 
Psicometria Parte II
Psicometria Parte II Psicometria Parte II
Psicometria Parte II
 

Similaire à Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

Corso kode statistica@ning
Corso kode statistica@ningCorso kode statistica@ning
Corso kode statistica@ningAndrea Zedda
 
Data Analytics per Manager
Data Analytics per ManagerData Analytics per Manager
Data Analytics per ManagerAndrea Gigli
 
OpenCoesione DJD 2012 - Elaborazione, visualizzazione e diffusione dei dati s...
OpenCoesione DJD 2012 - Elaborazione, visualizzazione e diffusione dei dati s...OpenCoesione DJD 2012 - Elaborazione, visualizzazione e diffusione dei dati s...
OpenCoesione DJD 2012 - Elaborazione, visualizzazione e diffusione dei dati s...OpenCoesione
 
Presentazione bigdata Madee
Presentazione bigdata MadeePresentazione bigdata Madee
Presentazione bigdata MadeeGianluigi Cogo
 
Big Data per Madee 7 at Digital Accademia
Big Data per Madee 7 at Digital AccademiaBig Data per Madee 7 at Digital Accademia
Big Data per Madee 7 at Digital AccademiaGianluigi Cogo
 
La produzione e la gestione degli Open Data
La produzione e la gestione degli Open DataLa produzione e la gestione degli Open Data
La produzione e la gestione degli Open DataGianluigi Cogo
 
Big Data @ Singularity University Milan
Big Data @ Singularity University MilanBig Data @ Singularity University Milan
Big Data @ Singularity University MilanStefano Gatti
 
S. De Francisci, Open Data nella statistica ufficiale: ruolo, opportunità e i...
S. De Francisci, Open Data nella statistica ufficiale: ruolo, opportunità e i...S. De Francisci, Open Data nella statistica ufficiale: ruolo, opportunità e i...
S. De Francisci, Open Data nella statistica ufficiale: ruolo, opportunità e i...Istituto nazionale di statistica
 
Data journalism e Coesione Sociale
Data journalism e Coesione SocialeData journalism e Coesione Sociale
Data journalism e Coesione SocialeDaniele Frongia
 
Approfondimento sui Big Data
Approfondimento sui Big DataApprofondimento sui Big Data
Approfondimento sui Big DataMartinaSalvini
 
Dandelion API e Atoka: due strumenti utili al Data Journalism
Dandelion API e Atoka: due strumenti utili al Data JournalismDandelion API e Atoka: due strumenti utili al Data Journalism
Dandelion API e Atoka: due strumenti utili al Data JournalismSpazioDati
 
Open Data & Data-Journalism
Open Data & Data-JournalismOpen Data & Data-Journalism
Open Data & Data-JournalismSalvatore Serra
 
2014 10 10 Treviso Scuola Partecipazione 2.0 Open Data - parte 2
2014 10 10 Treviso Scuola Partecipazione 2.0  Open Data - parte 22014 10 10 Treviso Scuola Partecipazione 2.0  Open Data - parte 2
2014 10 10 Treviso Scuola Partecipazione 2.0 Open Data - parte 2Daniele Crespi
 
Open Data Support onsite training in Italy (Italian)
Open Data Support onsite training in Italy (Italian)Open Data Support onsite training in Italy (Italian)
Open Data Support onsite training in Italy (Italian)Open Data Support
 
Conoscenza e promozione del territorio. La IULM per la Basilicata Turistica |...
Conoscenza e promozione del territorio. La IULM per la Basilicata Turistica |...Conoscenza e promozione del territorio. La IULM per la Basilicata Turistica |...
Conoscenza e promozione del territorio. La IULM per la Basilicata Turistica |...Basilicata Turistica
 
Presentazione CSI Piemonte - Fossano 11 dicembre 2014 - parte 2
Presentazione CSI Piemonte - Fossano 11 dicembre 2014 - parte 2Presentazione CSI Piemonte - Fossano 11 dicembre 2014 - parte 2
Presentazione CSI Piemonte - Fossano 11 dicembre 2014 - parte 2Giuly Bonello
 

Similaire à Dispensa Datajournalism | Maggio 2014 | school.dataninja.it (20)

Corso kode statistica@ning
Corso kode statistica@ningCorso kode statistica@ning
Corso kode statistica@ning
 
Data journalism
Data journalismData journalism
Data journalism
 
Data Analytics per Manager
Data Analytics per ManagerData Analytics per Manager
Data Analytics per Manager
 
OpenCoesione DJD 2012 - Elaborazione, visualizzazione e diffusione dei dati s...
OpenCoesione DJD 2012 - Elaborazione, visualizzazione e diffusione dei dati s...OpenCoesione DJD 2012 - Elaborazione, visualizzazione e diffusione dei dati s...
OpenCoesione DJD 2012 - Elaborazione, visualizzazione e diffusione dei dati s...
 
Open data: un'introduzione
Open data: un'introduzioneOpen data: un'introduzione
Open data: un'introduzione
 
Presentazione bigdata Madee
Presentazione bigdata MadeePresentazione bigdata Madee
Presentazione bigdata Madee
 
Big Data per Madee 7 at Digital Accademia
Big Data per Madee 7 at Digital AccademiaBig Data per Madee 7 at Digital Accademia
Big Data per Madee 7 at Digital Accademia
 
La produzione e la gestione degli Open Data
La produzione e la gestione degli Open DataLa produzione e la gestione degli Open Data
La produzione e la gestione degli Open Data
 
Big Data @ Singularity University Milan
Big Data @ Singularity University MilanBig Data @ Singularity University Milan
Big Data @ Singularity University Milan
 
S. De Francisci, Open Data nella statistica ufficiale: ruolo, opportunità e i...
S. De Francisci, Open Data nella statistica ufficiale: ruolo, opportunità e i...S. De Francisci, Open Data nella statistica ufficiale: ruolo, opportunità e i...
S. De Francisci, Open Data nella statistica ufficiale: ruolo, opportunità e i...
 
Data journalism e Coesione Sociale
Data journalism e Coesione SocialeData journalism e Coesione Sociale
Data journalism e Coesione Sociale
 
Approfondimento sui Big Data
Approfondimento sui Big DataApprofondimento sui Big Data
Approfondimento sui Big Data
 
Dandelion API e Atoka: due strumenti utili al Data Journalism
Dandelion API e Atoka: due strumenti utili al Data JournalismDandelion API e Atoka: due strumenti utili al Data Journalism
Dandelion API e Atoka: due strumenti utili al Data Journalism
 
FANTIN BIG DATA (1)
FANTIN BIG DATA (1)FANTIN BIG DATA (1)
FANTIN BIG DATA (1)
 
Open Data & Data-Journalism
Open Data & Data-JournalismOpen Data & Data-Journalism
Open Data & Data-Journalism
 
2014 10 10 Treviso Scuola Partecipazione 2.0 Open Data - parte 2
2014 10 10 Treviso Scuola Partecipazione 2.0  Open Data - parte 22014 10 10 Treviso Scuola Partecipazione 2.0  Open Data - parte 2
2014 10 10 Treviso Scuola Partecipazione 2.0 Open Data - parte 2
 
Open Data Support onsite training in Italy (Italian)
Open Data Support onsite training in Italy (Italian)Open Data Support onsite training in Italy (Italian)
Open Data Support onsite training in Italy (Italian)
 
Conoscenza e promozione del territorio. La IULM per la Basilicata Turistica |...
Conoscenza e promozione del territorio. La IULM per la Basilicata Turistica |...Conoscenza e promozione del territorio. La IULM per la Basilicata Turistica |...
Conoscenza e promozione del territorio. La IULM per la Basilicata Turistica |...
 
Presentazione CSI Piemonte - Fossano 11 dicembre 2014 - parte 2
Presentazione CSI Piemonte - Fossano 11 dicembre 2014 - parte 2Presentazione CSI Piemonte - Fossano 11 dicembre 2014 - parte 2
Presentazione CSI Piemonte - Fossano 11 dicembre 2014 - parte 2
 
Open Data - Data Journalism
Open Data - Data JournalismOpen Data - Data Journalism
Open Data - Data Journalism
 

Plus de Dataninja

Confiscatibene data & community driven journalism
Confiscatibene data & community driven journalismConfiscatibene data & community driven journalism
Confiscatibene data & community driven journalismDataninja
 
The Migrants’ Files, one year later
The Migrants’ Files, one year laterThe Migrants’ Files, one year later
The Migrants’ Files, one year laterDataninja
 
#migrantsfiles international
#migrantsfiles international#migrantsfiles international
#migrantsfiles internationalDataninja
 
Confiscati Bene a Ferrara
Confiscati Bene a FerraraConfiscati Bene a Ferrara
Confiscati Bene a FerraraDataninja
 
Guida galattica per i data journalists
Guida galattica per i data journalistsGuida galattica per i data journalists
Guida galattica per i data journalistsDataninja
 
Un giornalista tra dati e sensori
Un giornalista tra dati e sensoriUn giornalista tra dati e sensori
Un giornalista tra dati e sensoriDataninja
 
Storie che nascono dai dati, come cambia il giornalismo nell'età della Rete
Storie che nascono dai dati, come cambia il giornalismo nell'età della ReteStorie che nascono dai dati, come cambia il giornalismo nell'età della Rete
Storie che nascono dai dati, come cambia il giornalismo nell'età della ReteDataninja
 
Data journalism: fare giornalismo con metodo (scientifico)
Data journalism: fare giornalismo con metodo (scientifico)Data journalism: fare giornalismo con metodo (scientifico)
Data journalism: fare giornalismo con metodo (scientifico)Dataninja
 
#migrantsfiles | Cortina d'Ampezzo, 8 luglio 2014
#migrantsfiles | Cortina d'Ampezzo, 8 luglio 2014#migrantsfiles | Cortina d'Ampezzo, 8 luglio 2014
#migrantsfiles | Cortina d'Ampezzo, 8 luglio 2014Dataninja
 
Open Data & Data Visualization: dalle licenze ai grafici | Bologna, 16 giugno...
Open Data & Data Visualization: dalle licenze ai grafici | Bologna, 16 giugno...Open Data & Data Visualization: dalle licenze ai grafici | Bologna, 16 giugno...
Open Data & Data Visualization: dalle licenze ai grafici | Bologna, 16 giugno...Dataninja
 
When data journalism meets science | Erice, June 10th, 2014
When data journalism meets science | Erice, June 10th, 2014When data journalism meets science | Erice, June 10th, 2014
When data journalism meets science | Erice, June 10th, 2014Dataninja
 
Tra dati e notizie
Tra dati e notizieTra dati e notizie
Tra dati e notizieDataninja
 
Data visualization in data journalism workflow
Data visualization in data journalism workflowData visualization in data journalism workflow
Data visualization in data journalism workflowDataninja
 
Data Visualization Lab - #SOD14 - Bologna - 30 marzo 2014
Data Visualization Lab - #SOD14 - Bologna - 30 marzo 2014Data Visualization Lab - #SOD14 - Bologna - 30 marzo 2014
Data Visualization Lab - #SOD14 - Bologna - 30 marzo 2014Dataninja
 
Come nasce un'inchiesta data-driven
Come nasce un'inchiesta data-drivenCome nasce un'inchiesta data-driven
Come nasce un'inchiesta data-drivenDataninja
 
Pools of data
Pools of dataPools of data
Pools of dataDataninja
 
Web scraping e Datawrapper per giornalisti locali
Web scraping e Datawrapper per giornalisti localiWeb scraping e Datawrapper per giornalisti locali
Web scraping e Datawrapper per giornalisti localiDataninja
 
20131130 - Open Ricostruzione: i fondi destinati a Bondeno (Ferrara) dopo il ...
20131130 - Open Ricostruzione: i fondi destinati a Bondeno (Ferrara) dopo il ...20131130 - Open Ricostruzione: i fondi destinati a Bondeno (Ferrara) dopo il ...
20131130 - Open Ricostruzione: i fondi destinati a Bondeno (Ferrara) dopo il ...Dataninja
 
20131026 - Open Ricostruzione: i fondi destinati a Bondeno (Ferrara) dopo il ...
20131026 - Open Ricostruzione: i fondi destinati a Bondeno (Ferrara) dopo il ...20131026 - Open Ricostruzione: i fondi destinati a Bondeno (Ferrara) dopo il ...
20131026 - Open Ricostruzione: i fondi destinati a Bondeno (Ferrara) dopo il ...Dataninja
 
Open Data dal basso - Bari
Open Data dal basso - BariOpen Data dal basso - Bari
Open Data dal basso - BariDataninja
 

Plus de Dataninja (20)

Confiscatibene data & community driven journalism
Confiscatibene data & community driven journalismConfiscatibene data & community driven journalism
Confiscatibene data & community driven journalism
 
The Migrants’ Files, one year later
The Migrants’ Files, one year laterThe Migrants’ Files, one year later
The Migrants’ Files, one year later
 
#migrantsfiles international
#migrantsfiles international#migrantsfiles international
#migrantsfiles international
 
Confiscati Bene a Ferrara
Confiscati Bene a FerraraConfiscati Bene a Ferrara
Confiscati Bene a Ferrara
 
Guida galattica per i data journalists
Guida galattica per i data journalistsGuida galattica per i data journalists
Guida galattica per i data journalists
 
Un giornalista tra dati e sensori
Un giornalista tra dati e sensoriUn giornalista tra dati e sensori
Un giornalista tra dati e sensori
 
Storie che nascono dai dati, come cambia il giornalismo nell'età della Rete
Storie che nascono dai dati, come cambia il giornalismo nell'età della ReteStorie che nascono dai dati, come cambia il giornalismo nell'età della Rete
Storie che nascono dai dati, come cambia il giornalismo nell'età della Rete
 
Data journalism: fare giornalismo con metodo (scientifico)
Data journalism: fare giornalismo con metodo (scientifico)Data journalism: fare giornalismo con metodo (scientifico)
Data journalism: fare giornalismo con metodo (scientifico)
 
#migrantsfiles | Cortina d'Ampezzo, 8 luglio 2014
#migrantsfiles | Cortina d'Ampezzo, 8 luglio 2014#migrantsfiles | Cortina d'Ampezzo, 8 luglio 2014
#migrantsfiles | Cortina d'Ampezzo, 8 luglio 2014
 
Open Data & Data Visualization: dalle licenze ai grafici | Bologna, 16 giugno...
Open Data & Data Visualization: dalle licenze ai grafici | Bologna, 16 giugno...Open Data & Data Visualization: dalle licenze ai grafici | Bologna, 16 giugno...
Open Data & Data Visualization: dalle licenze ai grafici | Bologna, 16 giugno...
 
When data journalism meets science | Erice, June 10th, 2014
When data journalism meets science | Erice, June 10th, 2014When data journalism meets science | Erice, June 10th, 2014
When data journalism meets science | Erice, June 10th, 2014
 
Tra dati e notizie
Tra dati e notizieTra dati e notizie
Tra dati e notizie
 
Data visualization in data journalism workflow
Data visualization in data journalism workflowData visualization in data journalism workflow
Data visualization in data journalism workflow
 
Data Visualization Lab - #SOD14 - Bologna - 30 marzo 2014
Data Visualization Lab - #SOD14 - Bologna - 30 marzo 2014Data Visualization Lab - #SOD14 - Bologna - 30 marzo 2014
Data Visualization Lab - #SOD14 - Bologna - 30 marzo 2014
 
Come nasce un'inchiesta data-driven
Come nasce un'inchiesta data-drivenCome nasce un'inchiesta data-driven
Come nasce un'inchiesta data-driven
 
Pools of data
Pools of dataPools of data
Pools of data
 
Web scraping e Datawrapper per giornalisti locali
Web scraping e Datawrapper per giornalisti localiWeb scraping e Datawrapper per giornalisti locali
Web scraping e Datawrapper per giornalisti locali
 
20131130 - Open Ricostruzione: i fondi destinati a Bondeno (Ferrara) dopo il ...
20131130 - Open Ricostruzione: i fondi destinati a Bondeno (Ferrara) dopo il ...20131130 - Open Ricostruzione: i fondi destinati a Bondeno (Ferrara) dopo il ...
20131130 - Open Ricostruzione: i fondi destinati a Bondeno (Ferrara) dopo il ...
 
20131026 - Open Ricostruzione: i fondi destinati a Bondeno (Ferrara) dopo il ...
20131026 - Open Ricostruzione: i fondi destinati a Bondeno (Ferrara) dopo il ...20131026 - Open Ricostruzione: i fondi destinati a Bondeno (Ferrara) dopo il ...
20131026 - Open Ricostruzione: i fondi destinati a Bondeno (Ferrara) dopo il ...
 
Open Data dal basso - Bari
Open Data dal basso - BariOpen Data dal basso - Bari
Open Data dal basso - Bari
 

Dernier

Ticonzero news 148.pdf aprile 2024 Terza cultura
Ticonzero news 148.pdf aprile 2024 Terza culturaTiconzero news 148.pdf aprile 2024 Terza cultura
Ticonzero news 148.pdf aprile 2024 Terza culturaPierLuigi Albini
 
Corso di digitalizzazione e reti per segretario amministrativo
Corso di digitalizzazione e reti per segretario amministrativoCorso di digitalizzazione e reti per segretario amministrativo
Corso di digitalizzazione e reti per segretario amministrativovaleriodinoia35
 
IL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla Cresima
IL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla CresimaIL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla Cresima
IL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla CresimaRafael Figueredo
 
lezione di fisica_I moti nel piano_Amaldi
lezione di fisica_I moti nel piano_Amaldilezione di fisica_I moti nel piano_Amaldi
lezione di fisica_I moti nel piano_Amaldivaleriodinoia35
 
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia RomanaXI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia RomanaStefano Lariccia
 
XIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
XIII Lezione - Arabo G.Rammo @ Libera Accademia RomanaXIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
XIII Lezione - Arabo G.Rammo @ Libera Accademia RomanaStefano Lariccia
 
Esperimenti_laboratorio di fisica per la scuola superiore
Esperimenti_laboratorio di fisica per la scuola superioreEsperimenti_laboratorio di fisica per la scuola superiore
Esperimenti_laboratorio di fisica per la scuola superiorevaleriodinoia35
 
La seconda guerra mondiale per licei e scuole medie
La seconda guerra mondiale per licei e scuole medieLa seconda guerra mondiale per licei e scuole medie
La seconda guerra mondiale per licei e scuole medieVincenzoPantalena1
 

Dernier (8)

Ticonzero news 148.pdf aprile 2024 Terza cultura
Ticonzero news 148.pdf aprile 2024 Terza culturaTiconzero news 148.pdf aprile 2024 Terza cultura
Ticonzero news 148.pdf aprile 2024 Terza cultura
 
Corso di digitalizzazione e reti per segretario amministrativo
Corso di digitalizzazione e reti per segretario amministrativoCorso di digitalizzazione e reti per segretario amministrativo
Corso di digitalizzazione e reti per segretario amministrativo
 
IL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla Cresima
IL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla CresimaIL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla Cresima
IL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla Cresima
 
lezione di fisica_I moti nel piano_Amaldi
lezione di fisica_I moti nel piano_Amaldilezione di fisica_I moti nel piano_Amaldi
lezione di fisica_I moti nel piano_Amaldi
 
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia RomanaXI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
XI Lezione - Arabo LAR Giath Rammo @ Libera Accademia Romana
 
XIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
XIII Lezione - Arabo G.Rammo @ Libera Accademia RomanaXIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
XIII Lezione - Arabo G.Rammo @ Libera Accademia Romana
 
Esperimenti_laboratorio di fisica per la scuola superiore
Esperimenti_laboratorio di fisica per la scuola superioreEsperimenti_laboratorio di fisica per la scuola superiore
Esperimenti_laboratorio di fisica per la scuola superiore
 
La seconda guerra mondiale per licei e scuole medie
La seconda guerra mondiale per licei e scuole medieLa seconda guerra mondiale per licei e scuole medie
La seconda guerra mondiale per licei e scuole medie
 

Dispensa Datajournalism | Maggio 2014 | school.dataninja.it

  • 1. @Alessio Cimarelli / @Andrea Nelson Mauro DAI DATI ALLA NOTIZIA IN QUATTRO MOSSE INTRODUZIONE AL DATA JOURNALISM Che cos’è il Datajournalism school.dataninja.it BETA
  • 2. > INDICE DELLA DISPENSA ● Pag 3 - Introduzione, cenni storici ● Pag 11 - Dove trovare i dati e come scaricarli ● Pag 28 - Pulire i dati ● Pag 41 - Esplorare i dati ● Pag 54 - Visualizzare i dati ● Pag 69 - Credits ● Pag 70 - Chandelog school.dataninja.it 2
  • 3. > UNA STORIA CHE VIENE DA LONTANO. Il primo uso del computer a fini giornalistici risale al 1952 negli USA: nasce il C.A.R. (Computer Assisted Reporting) http://www.wired.com/science/discoveries/news/2008/11/dayintech_1104 Nel 1967 Philip Meyer consacra questa pratica con un’ inchiesta di successo http://www.nieman.harvard.edu/reports/article/102053/1968-A-Newspapers-Role-Between-the-Riots.aspx Nel 1973 Meyer stesso fonda il “giornalismo di precisione”, coniugando uso della tecnologia e metodo scientifico “The New Precision Journalism”: http://www.unc.edu/~pmeyer/book/ “Giornalismo e metodo scientifico”: http://www.armando.it/schedalibro/20046/Giornalismo-e-metodo-scientifico 1952 1967 1973 school.dataninja.it 3
  • 4. > UNA STORIA CHE VIENE DA LONTANO.. Il salto si ha con l’aumento esponenziale della quantità e della qualità dei dati digitali a disposizione, oltre che degli strumenti tecnologici e concettuali per gestirli e analizzarli. school.dataninja.it 4
  • 5. > UNA STORIA CHE VIENE DA LONTANO... Nato in ambito anglosassone, oggi il data journalism (DDJ) è una pratica adottata un po’ ovunque. La si trova in luoghi dedicati (datablog, giornali ad-hoc), ma è sempre più pervasiva nel giornalismo in generale, anche perché si può applicare a qualsiasi tema e contesto. L’Italia è indietro, ma anni-luce avanti rispetto a pochi anni fa. school.dataninja.it 5
  • 6. > PECULIARITÀ E LIMITI DEL DDJ Richiede competenze multi-disciplinari e quindi team di professionisti: ● giornalista ● data scientist / statistico ● sviluppatore ● designer / grafico Porta facilmente a prodotti giornalistici di lunga vita. Richiede molta accortezza nell’uso degli strumenti statistici. Si rischiano prodotti giornalistici “belli”, ma fini a se stessi. school.dataninja.it 6
  • 7. > PECULIARITÀ E LIMITI TECNOLOGICI DEL DDJ Gli strumenti e le piattaforme cambiano molto velocemente e bisogna rimanere aggiornati. ● Spesso si usano servizi di terze parti di cui non si ha il controllo. ● Ci sono ampie libertà di riutilizzo e riciclo. ● Il rilascio dei dati permette di costruire comunità attorno ad essi. Spesso è necessario imparare a usare software con curve di apprendimento abbastanza ripide. school.dataninja.it 7
  • 8. > PECULIARITÀ E LIMITI ITALIANI DEL DDJ ● Richiede competenze multi-disciplinari e tecnologicamente avanzate in una professione in cui si inizia a parlare ora di formazione continua. http://www.odg.it/content/formazione-continua ● Si intreccia con la crisi dei media, dell’editoria e del giornalismo. ● Cerca di farsi spazio in una cultura giornalistica votata al giornalismo di opinione. Daniel Hallin, Paolo Mancini, “Modelli di giornalismo. Mass Media e politica nelle democrazie occidentali”. Editore Laterza (2004) school.dataninja.it 8
  • 9. > LA GENESI DI UN’INCHIESTA DATA-DRIVEN Mi imbatto in un insieme di dati e sento il profumo di una possibile notizia: li raccolgo, li analizzo, faccio delle ipotesi, le verifico, scopro la notizia. Ho un interesse, un’idea, una tesi, cerco i dati che la riguardano, li analizzo, rivedo l’idea iniziale, torno ai dati, scopro una notizia. http://www.theguardian.com/news/datablog/2011/apr/07/data-journalism-workflow school.dataninja.it 9
  • 10. > SCHEMA DEL PROCESSO DI PRODUZIONE 1. Trovare 2. Pulire 3. Analizzare 4. Raccontare school.dataninja.it 10
  • 11. DAI DATI ALLA NOTIZIA IN QUATTRO MOSSE INTRODUZIONE AL DATA JOURNALISM 1. Dove trovare i dati e come scaricarli school.dataninja.it 11
  • 12. > COSA SONO I DATI: UNA DEFINIZIONE Singoli pezzi di informazione di ogni natura, descrizioni di fatti riproducibili senza ambiguità, parti di informazioni strutturate che possono essere archiviate in formato digitale Maurizio Napolitano, Technologist presso la Fondazione Bruno Kessler “ ”school.dataninja.it 12
  • 13. > COSA SONO I DATI: IL CONTESTO Eric Schmidt Google’s executive chairman From the dawn of civilization until 2003, humankind generated five exabytes of data. Now we produce five exabytes every two days… and the pace is accelerating! ” “ 1 exabyte = 1018 bytes = 1.000.000.000.000.000.000 (un trilione di) bytes 1 byte ~= 1 carattere di testo | Divina Commedia: ~ 500.000 caratteri school.dataninja.it 13
  • 14. > TIPI DI DATI: DATI NON STRUTTURATI school.dataninja.it 14
  • 15. > TIPI DI DATI: DATI STRUTTURATI E METADATI Un metadato è un’informazione che descrive un dato e ne descrive anche la relazione con gli altri dati. Strutturare un insieme di dati significa esplicitarne il significato e le relazioni reciproche. Esempio: ● 110 (dato) ● Superficie calpestabile dell’abitazione in mq (metadato) school.dataninja.it 15
  • 16. > TIPI DI DATI: OPEN E CLOSED (LICENZE) Open Definition: http://opendefinition.org/od Un dato è aperto se chiunque è libero di usarlo, riutilizzarlo, ridistribuirlo, ed è soggetto tutt’al più all’obbligo di citazione o condivisione allo stesso modo “ ”school.dataninja.it 16
  • 17. > TIPI DI DATI: QUELLI CHE PRODUCIAMO NOI Sondaggi, informazioni, interviste giornalistiche, dati personali: è importante capire con che tipo di dati abbiamo a che fare e quali sono le regole che vogliamo darci nel diffonderli. Ormai siamo anche noi produttori di dati e dataset, quindi dobbiamo scegliere una licenza di distribuzione! school.dataninja.it 17
  • 18. > A CACCIA DI DATI: UNA BUONA DOMANDA UN EVENTO LA NOSTRA INCHIESTA PUÒ NASCERE DA UN EVENTO DI CRONACA CHE VOGLIAMO APPROFONDIRE FOLLOW THE MONEY SE VUOI FARE UN’ INCHIESTA E NON SAI DA DOVE PARTIRE, PROVA A SEGUIRE L’ ODORE DEI SOLDI! UN TEMA VOGLIAMO CONTESTUALIZZARE, ANALIZZARE E INDAGARE UNA TEMATICA SPECIFICA O UN FENOMENO school.dataninja.it 18
  • 19. > A CACCIA DI DATI: FONTI PUBBLICA AMMINISTRAZIONE LEAKS ASSOCIAZIONI ONG TERZO SETTORE COMUNITÀ DI INTERESSE COMITATI DI CITTADINI ATTIVI NOI STESSI... GIORNALISTI SOCIAL NETWORK ORGANISMI INTERNAZIONALI school.dataninja.it 19
  • 20. > FONTI DI DATI: PUBBLICA AMMINISTRAZIONE Legislazioni sull’Open Data By Default - Nel 2013 è entrato in vigore il Codice dell’Amministrazione Digitale (CAD) che prevede l’”Open Data by Default”. Il formato di tipo aperto è “un formato di dati reso pubblico, documentato esaustivamente e neutro rispetto agli strumenti tecnologici necessari per la fruizione dei dati stessi”. Fonte: http://goo.gl/zmjbY7 Diritto (e richieste) di accesso ai dati - Chiunque può chiedere accesso ai dati della PA, se in possesso dei requisiti come stabilito dalla Legge 214 del 1990. Fonte: http://goo.gl/T8LHXK school.dataninja.it 20
  • 21. > FONTI DI DATI: SOGGETTI PRIVATI ● Editori, giornali di carta / on-line ● Organizzazioni non governative ● Associazioni ● Fondazioni ● Istituti di ricerca ● Grandi aziende private / a partecipazione pubblica school.dataninja.it 21
  • 22. > FONTI DI DATI: SONO QUALIFICATE? ● Chi è la nostra fonti di dati e quali sono i suoi scopi? ● È un soggetto comunemente ritenuto affidabile nel contesto in cui opera? ● È possibile verificare altrove se i dati che fornisce sono credibili? ● Qualcun altro ha usato dati da questa fonte? school.dataninja.it 22
  • 23. > SCARICARE I DATI: FORMATI DEI FILE Se i dati sono strutturati e offerti in un formato machine readable, il lavoro è semplice: è sufficiente scaricare il file e aprirlo con un software apposito (spesso un foglio di calcolo). ● Alcuni formati comuni: xls(x), csv, tsv, ods ● Formati strutturati, ma meno gestibili con pacchetti di ufficio: xml, sql, json, shp, kml school.dataninja.it 23
  • 24. > SCARICARE I DATI: E SE SONO TROPPI? Se i dati sono suddivisi in una grande quantità di file, pubblicati per esempio come un elenco di indirizzi web, ci sono diversi strumenti di download massivo che automatizzano il lavoro e scaricano tutto sostanzialmente da soli. Esempio: https://www.gnu.org/software/wget/ school.dataninja.it 24
  • 25. > SCRAPING: GRATTARE DAL WEB (HTML) I dati possono trovarsi pubblicati direttamente su pagine web sotto forma di tabelle o liste: prima di essere elaborati su fogli di calcolo è necessario estrarli e riorganizzarli in formati machine readable (xls, csv, tsv, ods). Spesso, più che una scienza, è un’arte. Ci sono molti strumenti con cui partire (DataMiner, ScraperWiki, …) school.dataninja.it 25
  • 26. > SCRAPING: GRATTARE DAL WEB (PDF) I dati possono trovarsi sotto forma di tabelle inserite in un file PDF. Sono ben strutturati solo visivamente e quindi non sono usabili direttamente in fogli di calcolo, ma vanno estratti. Anche qui serve un lavoro di scraping per estrarli e renderli machine readable (xls, csv, tsv, ods). È uno dei compiti di scraping più difficili, spesso impossibile (per esempio quando i documenti sono scansioni): alcuni strumenti utili sono Okular, Tabula, la suite professionale di Adobe. school.dataninja.it 26
  • 27. > SCRAPING: SE SERVE UNO SVILUPPATORE Anche se ci si trova nelle condizioni di fare scraping, non sempre ci sono software già pronti: può essere necessario uno strumento ad hoc costruito da uno sviluppatore professionista. Uno scraper è un software appositamente scritto in un qualche linguaggio di programmazione (python, javascript, java, …) Non tutti i dati possono essere estratti in maniera automatica. school.dataninja.it 27
  • 28. DAI DATI ALLA NOTIZIA IN QUATTRO MOSSE INTRODUZIONE AL DATA JOURNALISM 2. Pulire i dati school.dataninja.it 28
  • 29. > PULIRE I DATI: UN PASSAGGIO IMPORTANTE La pulizia dei dati è fondamentale per assicurarsi che siano strutturati bene all’ interno delle righe e delle colonne, che i valori inseriti siano coerenti, che siano stati inseriti correttamente. Analizzare i dati senza fare un attento data cleaning potrebbe portare successivamente a gravi errori o a difficoltà ingestibili. school.dataninja.it 29
  • 30. > PULIRE I DATI: I TIPI DI DATI Di fronte all’enorme varietà del mondo, il computer comprende pochi tipi di variabili: ● numeri interi (con segno, incluso lo 0) ● numeri decimali (con segno) ● date e orari ● stringhe di caratteri (case sensitive) ● valore mancante (o NULL) school.dataninja.it 30
  • 31. > PULIRE I DATI: LA TABELLA Una tabella è composta da colonne e righe. ● Ogni colonna rappresenta e contiene uno e un solo tipo di dato. ● Ogni riga rappresenta e contiene uno e un solo oggetto, definito univocamente dalla collezione di dati inseriti nelle varie colonne. ● Non possono esistere righe completamente vuote o più righe perfettamente identiche. school.dataninja.it 31
  • 32. > PULIRE I DATI: CHECKLIST DI CONTROLLI / 1 Controlla che la struttura dei dati sia corretta. Ogni colonna deve contenere valori dello stesso tipo. Se la colonna indica una data, in tutte le righe di quella colonna devono esserci solo date (o NULL). Se contiene nomi di persone, devono esserci solo quelli (o NULL). Nella colonna “Nato il” non può esserci un nome di persona, e nella colonna “Nome” non possono esserci date. school.dataninja.it 32
  • 33. > PULIRE I DATI: CHECKLIST DI CONTROLLI / 2 Controlla che i dati siano scritti alla stessa maniera. Se una colonna contiene date, le date devono essere scritte con la stessa struttura (esempio: nella notazione italiana GG/MM/AAAA). Attenzione a quando si mescolano notazione italiana e anglosassone (MM/GG/AAAA): alcune date sono valide, ma sbagliate! school.dataninja.it 33
  • 34. > PULIRE I DATI: CHECKLIST DI CONTROLLI / 3 Controlla che all’interno delle righe le parole siano scritte in maniera omogenea. Ad esempio nella colonna dei nomi è un errore scrivere in una riga “Italia” e nella riga successiva “ITALIA”: l’applicazione potrebbe capire che si tratta di cose differenti. È necessario scrivere “Italia” (oppure “ITALIA”) in entrambe le righe, e in tutte quelle dov’è presente il valore “Italia” sia in maiuscolo che in minuscolo. school.dataninja.it 34
  • 35. > PULIRE I DATI: CHECKLIST DI CONTROLLI / 4 Controlla quale sistema di numerazione stai usando. Europeo o anglosassone? È importante perché esistono separatori diversi per indicare i decimali e le migliaia. ● Le migliaia – In Europa si scrive 1.000 (mille), mentre negli Stati Uniti e in Gran Bretagna si scrive 1,000. In questo caso in Europa indichiamo le migliaia con un punto, non con la virgola. ● I decimali – In Europa si scrive 1,5 (uno e mezzo), mentre negli Stati Uniti e in Gran Bretagna si scrive 1.5. In questo caso in Europa indichiamo i decimali con una virgola, non con il punto. school.dataninja.it 35
  • 36. > PULIRE I DATI: CHECKLIST DI CONTROLLI / 5 Controlla le intestazioni e assicurati che siano sempre nella prima riga della tua tabella. Le intestazioni sono i “nomi” dei tuoi dati, che si trovano suddivisi in colonne. Ogni intestazione dà il nome alla colonna nella quale si trova: perché però il tutto funzioni, le intestazioni devono trovarsi nella prima riga della tua tabella (e solo lì, non devono ripetersi in mezzo alla tabella). school.dataninja.it 36
  • 37. > PULIRE I DATI: CHECKLIST DI CONTROLLI / 6 Controlla le righe e le celle bianche / vuote. La tua tabella potrebbe averne, perché spesso i fogli di calcolo vengono usati in maniera impropria. Le righe vuote non devono esistere. Le celle vuote possono invece indicare valori mancanti, l’importante è essere coerenti (tutte le celle vuote indicano sempre valori mancanti). Attenzione a celle fintamente vuote: il carattere spazio c’è, anche se non si vede! school.dataninja.it 37
  • 38. > PULIRE I DATI: CHECKLIST DI CONTROLLI / 7 Controlla le somme se lavori su tabelle numeriche e le stai modificando, esportando o salvando in altri file. Le somme dei dati numerici dai vecchi ai nuovi file possono essere dei check molto utili per evidenziare degli errori. school.dataninja.it 38
  • 39. > PULIRE I DATI: CHECKLIST DI CONTROLLI / 8 È sempre meglio avere a che fare con dati il più granulari e dettagliati possibile. Se si può, quindi, meglio suddividere le informazioni in più colonne possibile (per esempio se si hanno nomi completi, meglio dividerli in “nome” e “cognome”, se si hanno “codice fiscale” e “partita iva”, meglio prevedere due campi separati, ...). school.dataninja.it 39
  • 40. > PULIRE I DATI: GLI STRUMENTI I dati possono essere puliti anche da foglio di calcolo o con un semplice editor di testo, ma uno degli strumenti migliori è OpenRefine, un’applicazione open-source che permette di filtrare, riorganizzare e trasformare anche grandi quantità di dati in pochi click: http://openrefine.org/. school.dataninja.it 40
  • 41. DAI DATI ALLA NOTIZIA IN QUATTRO MOSSE INTRODUZIONE AL DATA JOURNALISM 3. Esplorare i dati school.dataninja.it 41
  • 42. > ANALISI: ESPLORARE I DATI Le possibili strade per esplorare i dati dipendono dalla loro quantità e dalla loro qualità. Tra gli elementi da tenere presenti ci sono le dimensioni che li caratterizzano. ● I nostri dati hanno una dimensione geografica e permettono un confronto tra territori? ● Hanno una dimensione temporale e possono permetterci di valutare come un fenomeno cambia nel tempo? school.dataninja.it 42
  • 43. > ANALISI / 1. LA NORMALIZZAZIONE DEI DATI La normalizzazione è un aspetto cruciale per confrontare i dati tra loro. È indispensabile se un valore muta in relazione al contesto al quale afferisce. Esempio: non ha senso confrontare direttamente i disoccupati di un territorio più popoloso con quelli di un territorio meno popoloso. La normalizzazione si ottiene costruendo un rapporto tra il dato e il contesto. Per confrontare i disoccupati di Lombardia e Molise, li dobbiamo relazionare alla popolazione (“Disoccupati Lombardia / Residenti Lombardia” vs. “Disoccupati Molise / Residenti Molise”). school.dataninja.it 43
  • 44. > ANALISI / 2. ANDAMENTO NEL TEMPO Confrontare i dati nel tempo è importante. La disoccupazione cresce? Il reddito è in aumento? Per rispondere a queste domande dobbiamo misurarne la variazione. Concentriamoci sul reddito a base regionale: per sapere se nel 2013 è aumentato rispetto al 2012 (e dove), dobbiamo avere entrambi i dati per ogni regione. Ci serve un dataset costruito così: nella prima colonna avremo il nome dalla regione, nella seconda il corrispondente reddito del 2012, nella terza quello del 2013. school.dataninja.it 44
  • 45. > ANALISI / 2. ANDAMENTO NEL TEMPO Per sapere di quanto è aumentato o diminuito il reddito è sufficiente calcolarne la variazione relativa per ogni regione: (reddito 2013 - reddito 2012) reddito 2012 Il risultato è un indice di variazione relativa del reddito espresso in percentuale (es. +12%). school.dataninja.it 45
  • 46. > ANALISI / 3. LA DISTRIBUZIONE Quando si ha un insieme di numeri abbastanza grande (centinaia o più), come per esempio le superfici degli esercizi commerciali di una città, è utile conoscerne la distribuzione, cioè il modo in cui popolano tutti i possibili valori che possono assumere teoricamente. Per esempio una superficie è misurata con un numero decimale positivo di metri quadrati. Quindi nel nostro dataset di esercizi commerciali possiamo trovare qualsiasi valore tra 0 e (teoricamente) infinito. school.dataninja.it 46
  • 47. > ANALISI / 3. LA DISTRIBUZIONE Operativamente si divide l’intero intervallo di valori possibili (es. 0 -> +infinito) in tanti piccoli intervallini (es. 0-50 -> 50-100 -> …), quindi si contano per ognuno di essi quanti valori del dataset ci cadono dentro. Il grafico qui accanto mostra per esempio la distribuzione della superficie di 109.654 esercizi commerciali italiani. La maggior parte ha un superficie intorno ai 50 mq, quasi tutti sono sotto i 200 mq. school.dataninja.it 47
  • 48. > ANALISI / 4. GLI INDICATORI STATISTICI Attraverso analisi quantitative i dati possono essere confrontati, per esempio costruendo un indicatore. Poniamo di avere un dataset con tre colonne: nella prima l'elenco delle regioni italiane, nella seconda il numero totale di disoccupati per regione, nella terza il numero di giovani disoccupati per regione. I giovani disoccupati sono una parte del totale dei disoccupati: dividendo "giovani disoccupati" per "totale dei disoccupati" in ciascuna regione, possiamo costruire il nostro indicatore (il risultato sarà sempre compreso tra 0 e 1). Ora possiamo confrontare i territori attraverso un indice di disoccupazione giovanile. school.dataninja.it 48
  • 49. > ANALISI / 5. LE CORRELAZIONI Nel mondo reale oggetti e fenomeni interagiscono tra loro. Un fenomeno può essere causa di un altro, o può manifestarsi come un effetto di una qualche causa, o due fenomeni possono dipendere da una causa comune. Un primo indizio di un legame tra due fenomeni è dato dalla loro eventuale correlazione: la tendenza di uno a variare in funzione dell’altro. school.dataninja.it 49
  • 50. > ANALISI / 5. LE CORRELAZIONI Per verificare qualitativamente una possibile correlazione tra due variabili è sufficiente costruire un grafico ponendo una variabile su ogni asse. Es. l’altezza dei padri vs. l’altezza dei figli mostra una correlazione positiva (cresce una, cresce l’altra per questioni genetiche). Quantitativamente si possono calcolare degli indici o coefficienti di correlazione. Il più semplice e utile è quello di Pearson (valori d’ esempio mostrati in figura). school.dataninja.it 50
  • 51. > ANALISI / 6. ORDINARE I DATI Ordinare i dati è un’operazione tanto semplice quanto utile: la facciamo ogni giorno, per esempio per sapere quali sono le nostre spese più o meno importanti, oppure organizzando i nomi dei contatti della rubrica secondo l’ordine alfabetico. Durante l’analisi dei dati può essere utilissima perché ci permette di conoscere immediatamente i valori massimi e minimi dei dati che stiamo analizzando. Nell’esempio sulla disoccupazione, ordinando i dati finali scopriamo facilmente dove la disoccupazione è maggiore e dov’è minore. school.dataninja.it 51
  • 52. > ANALISI / 7. FILTRARE I DATI Filtrare i dati è un’operazione semplice che può avere varie utilità. ● Filtriamo i dati per concentrarci su quelli che ci interessano di più in base a un parametro comune. Avendo i valori della disoccupazione per tutte le province italiane, potrebbero servirci solo quelli della Lombardia: li filtriamo quindi per la chiave “Lombardia”. ● Filtriamo i dati anche per isolare i valori più significativi: ad esempio se ci interessano solo le province dove la disoccupazione è in aumento, filtreremo solo le righe con valori positivi. school.dataninja.it 52
  • 53. > ANALISI / 8. RAGGRUPPARE I DATI Raggruppare i dati è un’operazione che permette di aggregarli secondo criteri specifici, funzionali alla nostra ricerca giornalistica. Nei fogli di calcolo questa operazione è assolta dalle Tabelle Pivot. Poniamo che la nostra inchiesta non sia sull’occupazione in generale, ma solo su quella giovanile e che abbiamo i dati dei disoccupati suddivisi non solo per regione, ma anche per età. Per ogni riga abbiamo quindi “Territorio” / “Fascia d’età” / “Disoccupati”. Possiamo ricavare i dati complessivi per regione raggruppando i dati originali per Fascia d’ età (inferiore a 24 anni), sommando i relativi singoli valori. school.dataninja.it 53
  • 54. DAI DATI ALLA NOTIZIA IN QUATTRO MOSSE INTRODUZIONE AL DATA JOURNALISM 4. Visualizzare i dati school.dataninja.it 54
  • 55. > VISUALIZZARE I DATI: PERCHÉ Come non era mai successo nelle nostre vite, oggi abbiamo accesso a un’infinità di informazioni libere e gratuite. Con gli strumenti giusti possiamo cominciare a dare un senso a questi dati per vedere schemi e trend che altrimenti per noi sarebbero invisibili. Trasformando i numeri in forma grafica, permetteremo ai lettori di conoscere le storie che quei numeri nascondono.Alberto Cairo The functional art “ school.dataninja.it 55
  • 56. > VISUALIZZARE I DATI: COME La visualizzazione dei dati è un aspetto cruciale: è fondamentale scegliere un tipo di visualizzazione adeguata al tipo di dati che si hanno a disposizione perché ● se corretta, permette di comprendere a fondo il senso dei dati; ● se sbagliata, ne può falsare completamente il significato. school.dataninja.it 56
  • 57. > VIZ / 1. GRAFICO DI DISPERSIONE Grafico a punti o di dispersione È il più semplice per evidenziare una dipendenza tra due variabili (correlazione). school.dataninja.it 57
  • 58. > VIZ / 2. GRAFICO A LINEE Grafico a linee Il più usato per mostrare i cambiamenti o gli andamenti nel tempo. school.dataninja.it 58
  • 59. > VIZ / 3. ISTOGRAMMA Istogramma Quando i valori di ciascun elemento, come le nazioni dell’esempio, non hanno una relazione reciproca gli uni con gli altri, o quando è importante evidenziare alcuni valori specifici, è preferibile un istogramma piuttosto che un grafico a punti o a linee. school.dataninja.it 59
  • 60. > VIZ / 4. GRAFICO A BARRE Grafico a barre Questa variante è molto utile se si hanno molte etichette lunghe da mostrare. Qui le informazioni sono nella parte sinistra della visualizzazione, in modo da lasciare più spazio e rendere più facile e piacevole la lettura. school.dataninja.it 60
  • 61. > VIZ / 5. GRAFICO A TORTA Grafico a torta Da usare solo per mostrare dati che sommati insieme rappresentano un totale (e presi singolarmente rappresentano le parti del totale). Il grafico a ciambella è una variante del grafico a torta: spesso è usato in ambito politico per indicare la distribuzione del parlamentari di maggioranza e opposizione. school.dataninja.it 61
  • 62. > VIZ / 6. LE MAPPE INTERATTIVE Visualizzare i dati su una mappa richiede un requisito fondamentale: che i dati contengano almeno una dimensione geografica. La rappresentazione dei dati avviene in tre modalità differenti: ● Punti - Luoghi geografici con specifiche coordinate (latitudine e longitudine) ai quali i dati si riferiscono (indirizzi, città, …) ● Linee - Serie di punti collegati e relativi dati (strade, percorsi, …) ● Perimetri - Poligoni che definiscono determinate aree afferenti ai dati (quartieri, comuni, province, regioni, nazioni, …) school.dataninja.it 62
  • 63. > VIZ / 6. PRINCIPALI TIPI DI MAPPE CHOROPLETH HEATMAP Numero figli per donna Perimetri deformati in base al valore dei dati Diffusione dei giornali Perimetri colorati in base al valore dei dati Distribuzione slot Colore in base al valore medio di punti adiacenti CARTOGRAMMI school.dataninja.it 63
  • 64. > VIZ / 7. LE RETI Una visualizzazione a rete è adatta per evidenziare rapporti reciproci tra elementi. Sono necessari due ingredienti: i nodi, individuati da un id unico e caratterizzati da vari parametri, e i collegamenti, individuati da una coppia ordinata di nodi e caratterizzati a loro volta da vari parametri. Esempio: un gruppo di persone (nodi) e i loro rapporti di amicizia (collegamenti). Ed ecco visualizzato Facebook, per esempio… school.dataninja.it 64
  • 65. > VISUALIZZARE I DATI: I SOFTWARE Esistono numerosi software che permettono in maniera più o meno semplice di visualizzare i dati tradurre i numeri in immagini. ● Datawrapper (grafici di base) http://datawrapper.de/ ● Quantum GIS (mappe) http://www.qgis.org/it/site/ ● CartoDB (mappe di ogni genere) http://cartodb.com/ ● Google Fusion Tables (grafici di base e mappe con GMaps) ● Infogr.am (grafici di vario genere organizzati in una infografica) ● Gephi (reti) https://gephi.org/ ● D3js (libreria javascript per scrivere web app interattive) http://d3js.org/ school.dataninja.it 65
  • 66. > RACCONTARE UNA STORIA Mai dimenticare che il data journalism non è altro che giornalismo. ● 5 W (+ H di How, come) ● Verifica delle fonti ● Deontologia professionale ● Trasparenza (citazione delle fonti, rilascio dei dati) E poi una buona scrittura (e belle foto, bei video, interviste utili, applicazioni interattive chiare e fruibili, …). school.dataninja.it 66
  • 67. > RISORSE VARIE: SU WEB ● http://www.dataninja.it ● http://www.datajournalism.it ● http://www.ascuoladiopencoesione.it ● http://www.openricostruzione.it ● http://www.wired.it/data ● http://www.theguardian.com/data ● http://www.datajournalismblog.com/ ● http://flowingdata.com/ ● http://www.ahref.eu/it/ ● http://datajournalismhandbook.org/ ● http://datadrivenjournalism.net/ ● http://datajcrew.sudmediatika.it/ ● http://it.okfn.org/ ● http://www.spaghettiopendata.org/ ● http://www.datamediahub.it/ ● http://simonrogers.net/ school.dataninja.it 67
  • 68. > RISORSE VARIE: LIBRI ● Paul Bradshaw, “Scraping for Journalists”, Leanpub (2014) ● John Mair, Richard Lance Keeble, “Data Journalism”, abramis (2014) ● Paul Bradshaw, “Data Journalism Heist”, Leanpub (2013) ● Claire Miller, “Getting Started with Data Journalism”, Leanpub (2013) ● Nathan Yau, “Data Points: Visualization That Means Something”, Wiley (2013) ● Simon Rogers, “Facts are Sacred”, Faber & Faber (2013) ● Jonathan Gray et al., “The Data Journalism Handbook”, O'Reilly (2012) ● Nathan Yau, “Visualize This”, Wiley (2011) school.dataninja.it 68
  • 69. > CREDITS Alessio Cimarelli / "jenkin27" jenkin@dataninja.it @jenkin27 school.dataninja.it 69 Andrea Nelson Mauro / "nelsonmau" nelsonmau@dataninja.it @nelsonmau Dataninja www.dataninja.it | http://school.dataninja.it Newsletter http://dataninja.it/newsletter Q&A http://school.dataninja.it/qa
  • 70. > CREDITS Le immagini utilizzate in questa presentazione sono prodotte da Dataninja.it, o messe a disposizione dai relativi autori in formato CC-by. Alcune delle immagini sono tratte da: ● School of Data (Open Knowledge Foundation) ● Datadrivenjournalism.net ● Openclipart ● Pixabay ● De.straba.us (blog di Maurizio Napolitano) Per maggiori info sui contenuti, puoi contattarci all’indirizzo email info@dataninja.it school.dataninja.it 70
  • 71. > CHANGELOG La dispensa è stata realizzata da dataninja.it a maggio 2014. In questa pagina terremo traccia delle modifiche che effettueremo. ● Ultimo aggiornamento: 16/05/2014 by @nelsonmau school.dataninja.it 71