1. Roma,
Scuola superiore di statistica
e di analisi sociali ed
economiche
06/06/2013
Quando il dato non c’è
Ovvero come
partire senza
dati ma con
un’idea
2. Guido Romeo
Marco Montanari
@ingmmo, marco.montanari@gmail.com, sirmmo.blogspot.com
• Sviluppatore, Appassionato di giochi, Nerd…
– passione per i dati
• “I am a journalist looking for coder friends.”
– Jens Finnäs (HacksHackers Helsinki)
• “I am a coder with journalist friends.”
– Marco Montanari
3. Scopo del gioco
• Volete scrivere un articolo su un trend che avete
percepito
• Vi servono dati per corroborare la vostra tesi
• Contattate l’ente che potrebbe avere quei dati....
5. ARGH!!!! :/
• Ci mancano i dati
• Chi dovrebbe fornirceli non sa come trovarli
• «Ma c’è una pagina on-line»
– con i dati in tabelle scomodissime
– o in PDF
– o in grafici strani
6. Programmazione, si…
• I dati possono trovarsi sul web in tanti
formati
– Tabellari
• xls xlsx csv tsv ods dbf
– Strutturati
• xml json (shp)
– Linked data
• RDF
– Altro…
• HTML
75%
20%
5
50%
7. Programmazione, si…
• I dati possono trovarsi sul web in tanti
formati
– Tabellari
• xls xlsx csv tsv ods dbf
– Strutturati
• xml json (shp)
– Linked data
• RDF
– Altro…
• HTML
75%
20%
5
50%
8. Roma,
Scuola superiore di statistica
e di analisi sociali ed
economiche
06/06/2013
DEMO
Dove si analizza una
pagina web
9. Scraping via browser
• https://chrome.google.com/webstore/detail/table-
capture/iebpjdmgckacbodjpijphcplhebcmeop
• https://chrome.google.com/webstore/detail/scraper/mbigbapnjcgaffohm
bkdlecaccepngjd
14. Programmazione, si…
• I dati possono trovarsi sul web in tanti
formati
– Tabellari
• xls xlsx csv tsv ods dbf
– Strutturati
• xml json (shp)
– Linked data
• RDF
– Altro…
• HTML
http://stackoverflow.com/questions/2861/options-
for-html-scraping
75%
20%
5
50%
15. … e in ogni caso…
… chiamate l’amico sviluppatore!!
16. Roma,
Scuola superiore di statistica
e di analisi sociali ed
economiche
06/06/2013
DEMO
HTTP://SIRMMO.GITHUB.IO/DATABOULDER/
Dove si costruisce un
semplice scraper di
una pagina
17. Struttura del dato
• 5W
– Who is it about?
– What happened?
– When did it take place?
– Where did it take place?
– Why did it happen?
18. Dimensioni dei dati
• Ogni «W» è una dimensione
• Ogni dimensione mette in correlazione un aspetto
• Più aspetti implicano più sfaccettature della storia
Fatto
Chi
Cosa
QuandoPerché
Dove
19. Roma,
Scuola superiore di statistica
e di analisi sociali ed
economiche
06/06/2013
DEMO
Dove si prende il
dataset e si
analizzano i dati
20. Uso del dato
• Dati tabellari
– Amati dai
manager
– Non ideali per
una «storia»
• Nemmeno ai
manager
piacciono i dati
«puri», ma degli
aggregati
– Magari in forma
grafica
(Dashboard)
22. Cubi di dati
• Datacube (Big Data?)
– Aggregazioni complesse
– Strumenti più specializzati (Excel le supporta)
23. Roma,
Scuola superiore di statistica
e di analisi sociali ed
economiche
06/06/2013
DEMO
Dove si prende la
tabella e la si analizza
attraverso
aggregazioni
24. That’s all Folks!
GRAZIE!
Per qualsiasi domanda:
@ingmmo
marco.montanari@gmail.com
sirmmo.blogspot.com, …
sirmmo
http://it.linkedin.com/in/montanarim/
https://www.facebook.com/marco.montanari
marco.montanari