SlideShare une entreprise Scribd logo
1  sur  30
Télécharger pour lire hors ligne
Estrarre contenuti dal web
corso di laurea in data science - datajournalism
@napo
Estrarre contenuti
dal web
Maurizio Napolitano
<napo@fbk.eu>
Estrarre contenuti dal web
corso di laurea in data science - datajournalism
@napo
Obiettivo del corso:
Cosa c'è in una pagina web
API, json, xml e … scraping di HTML
Requirements:
python pandas
Estrarre contenuti dal web
corso di laurea in data science - datajournalism
@napohttp://www.viaggiareintrentino.it/it
Estrarre contenuti dal web
corso di laurea in data science - datajournalism
@napo
CTRL-U
Estrarre contenuti dal web
corso di laurea in data science - datajournalism
@napo
HTML CRASH COURSE
Estrarre contenuti dal web
corso di laurea in data science - datajournalism
@napo
Estrarre contenuti dal web
corso di laurea in data science - datajournalism
@napo
Estrarre contenuti dal web
corso di laurea in data science - datajournalism
@napo
Estrarre contenuti dal web
corso di laurea in data science - datajournalism
@napo
Estrarre contenuti dal web
corso di laurea in data science - datajournalism
@napo
python -m SimpleHTTPServer
python -m http.server
Python 2
Python 3
http://localhost:8080
http://127.0.0.1:8080
Estrarre contenuti dal web
corso di laurea in data science - datajournalism
@napo
F12
Estrarre contenuti dal web
corso di laurea in data science - datajournalism
@napo
Vedere tutte le chiamate delle pagina
Estrarre contenuti dal web
corso di laurea in data science - datajournalism
@napo
Individuare la chiamata al JSON dell'elenco delle telecamere
Nota:
appare al clic su “Telecamere” nella pagina vi viaggiare in Trentino
Estrarre contenuti dal web
corso di laurea in data science - datajournalism
@napo
JSON + JavaScript Object Notation
Simile ai dictionary
https://docs.python.org/3/tutorial/datastructures.html#dictionaries
Estrarre contenuti dal web
corso di laurea in data science - datajournalism
@napohttp://bit.ly/jsontelecamereviaggiareintrentino
da JSON a Pandas Dataframe
Estrarre contenuti dal web
corso di laurea in data science - datajournalism
@napohttps://servizi.apss.tn.it/opendata/STATOPS001.xml
XML
https://dati.trentino.it/dataset/visualizzazione-presenze-nei-pronto-soccorso
Estrarre contenuti dal web
corso di laurea in data science - datajournalism
@napo
Estrarre contenuti dal web
corso di laurea in data science - datajournalism
@napo
=IMPORTXML("https://servizi.apss.tn.it/opendata/STATOPS001.xml";"//STATOPS/PRONTO_SOCCORSO/PS")
Estrarre contenuti dal web
corso di laurea in data science - datajournalism
@napocode here
http://bit.ly/xmlprontosoccorsopandas
more about BeautlfulSoup here
https://www.crummy.com/software/BeautifulSoup/
Estrarre contenuti dal web
corso di laurea in data science - datajournalism
@napo
Estrarre contenuti dal web
corso di laurea in data science - datajournalism
@napo
http://www.statistica.provincia.tn.it/dati_online/
http://www.statweb.provincia.tn.it/annuario/(S(nk3o1055atv5vj55t2j3rdb2))/Default.aspx?t=at
http://www.statweb.provincia.tn.it/annuario/(S(nk3o1055atv5vj55t2j3rdb2))/tavola.aspx?idt=2.15&t=at
Estrarre contenuti dal web
corso di laurea in data science - datajournalism
@napo
Come è generata questa stringa?
(S(nk3o1055atv5vj55t2j3rdb2))
http://www.statweb.provincia.tn.it/annuario/(S(nk3o1055atv5vj55t2j3rdb2))/Default.aspx?t=at
Nota:
appare diversa ogni volta che si visita il sito delle tavole ISPAT
Estrarre contenuti dal web
corso di laurea in data science - datajournalism
@napo
F12
La chiamata a dati_online di ISPAT genera dei cookies
Rivediamo tutti i passaggi che fa il browser
Estrarre contenuti dal web
corso di laurea in data science - datajournalism
@napo
Questa pagina fa due chiamate!
Estrarre contenuti dal web
corso di laurea in data science - datajournalism
@napo
Prima chiamata
La chiamata alla pagina principale di
www.statweb.provincia.it/annuario genera
contiene nell'header di risposta l'identificativo
generato "al volo" per la chiamata successiva
Estrarre contenuti dal web
corso di laurea in data science - datajournalism
@napo
Seconda chiamata
Default.aspx
genera dei cookies
Estrarre contenuti dal web
corso di laurea in data science - datajournalism
@napo
Le tavole dei dati
Le tavole dei dati sono pagina HTML che si
raggiungono alla pagina tavola.aspx dove
è passato come parametro l'identificativo della
tavola (es. 2.12)
si generano solo se esiste il valore di location
generato nella pagina precedente
Estrarre contenuti dal web
corso di laurea in data science - datajournalism
@napo
Individuare l'HTML che contiene i dati
Estrarre contenuti dal web
corso di laurea in data science - datajournalism
@napo
code here
http://bit.ly/scraper_ispat
costruire lo scraper python che genera il pandas Dataframe
Estrarre contenuti dal web
corso di laurea in data science - datajournalism
@napo
Maurizio Napolitano
http://slideshare.net/napo
napolitano@fbk.eu
@napo
GRAZIE!!!

Contenu connexe

Tendances

OpenStreetMap: disegnamo la mappa del mondo
OpenStreetMap: disegnamo la mappa del mondoOpenStreetMap: disegnamo la mappa del mondo
OpenStreetMap: disegnamo la mappa del mondoMaurizio Napolitano
 
la comunicazione attraverso i social media
la comunicazione attraverso i social mediala comunicazione attraverso i social media
la comunicazione attraverso i social mediaMaurizio Napolitano
 
I dati geografici per una strategia open data
I dati geografici per una strategia open dataI dati geografici per una strategia open data
I dati geografici per una strategia open dataMaurizio Napolitano
 
Follow the white Rabbit: opportunità e trabocchetti nella nostra vita digitale
Follow the white Rabbit: opportunità e trabocchetti nella nostra vita digitaleFollow the white Rabbit: opportunità e trabocchetti nella nostra vita digitale
Follow the white Rabbit: opportunità e trabocchetti nella nostra vita digitaleMaurizio Napolitano
 
Infographics & data visualization - corso base FBK
Infographics & data visualization - corso base FBKInfographics & data visualization - corso base FBK
Infographics & data visualization - corso base FBKMaurizio Napolitano
 
Casi d'uso dei dati aperti nella Pubblica Amministrazione
Casi d'uso dei dati aperti nella Pubblica AmministrazioneCasi d'uso dei dati aperti nella Pubblica Amministrazione
Casi d'uso dei dati aperti nella Pubblica AmministrazioneSergio Agostinelli
 
L'importanza degli Open Data per il monitoraggio della spesa pubblica
L'importanza degli Open Data per il monitoraggio della spesa pubblicaL'importanza degli Open Data per il monitoraggio della spesa pubblica
L'importanza degli Open Data per il monitoraggio della spesa pubblicaVincenzo Patruno
 
Il ruolo dei dati nella economia del XXI secolo
Il ruolo dei dati nella economia del XXI secoloIl ruolo dei dati nella economia del XXI secolo
Il ruolo dei dati nella economia del XXI secoloMaurizio Napolitano
 
Soluzioni open source per la mobilità
Soluzioni open source per la mobilitàSoluzioni open source per la mobilità
Soluzioni open source per la mobilitàMaurizio Napolitano
 

Tendances (12)

introduzione al data journalism
introduzione al data journalismintroduzione al data journalism
introduzione al data journalism
 
Strumenti per il Fact Checking
Strumenti per il Fact CheckingStrumenti per il Fact Checking
Strumenti per il Fact Checking
 
OpenStreetMap: disegnamo la mappa del mondo
OpenStreetMap: disegnamo la mappa del mondoOpenStreetMap: disegnamo la mappa del mondo
OpenStreetMap: disegnamo la mappa del mondo
 
la comunicazione attraverso i social media
la comunicazione attraverso i social mediala comunicazione attraverso i social media
la comunicazione attraverso i social media
 
I dati geografici per una strategia open data
I dati geografici per una strategia open dataI dati geografici per una strategia open data
I dati geografici per una strategia open data
 
Follow the white Rabbit: opportunità e trabocchetti nella nostra vita digitale
Follow the white Rabbit: opportunità e trabocchetti nella nostra vita digitaleFollow the white Rabbit: opportunità e trabocchetti nella nostra vita digitale
Follow the white Rabbit: opportunità e trabocchetti nella nostra vita digitale
 
Infographics & data visualization - corso base FBK
Infographics & data visualization - corso base FBKInfographics & data visualization - corso base FBK
Infographics & data visualization - corso base FBK
 
Lavorare coi dati
Lavorare coi datiLavorare coi dati
Lavorare coi dati
 
Casi d'uso dei dati aperti nella Pubblica Amministrazione
Casi d'uso dei dati aperti nella Pubblica AmministrazioneCasi d'uso dei dati aperti nella Pubblica Amministrazione
Casi d'uso dei dati aperti nella Pubblica Amministrazione
 
L'importanza degli Open Data per il monitoraggio della spesa pubblica
L'importanza degli Open Data per il monitoraggio della spesa pubblicaL'importanza degli Open Data per il monitoraggio della spesa pubblica
L'importanza degli Open Data per il monitoraggio della spesa pubblica
 
Il ruolo dei dati nella economia del XXI secolo
Il ruolo dei dati nella economia del XXI secoloIl ruolo dei dati nella economia del XXI secolo
Il ruolo dei dati nella economia del XXI secolo
 
Soluzioni open source per la mobilità
Soluzioni open source per la mobilitàSoluzioni open source per la mobilità
Soluzioni open source per la mobilità
 

Similaire à Estrarre contenuti da Web

The importance of now: rivedere il ciclo tradizionale del dato alla luce dell...
The importance of now: rivedere il ciclo tradizionale del dato alla luce dell...The importance of now: rivedere il ciclo tradizionale del dato alla luce dell...
The importance of now: rivedere il ciclo tradizionale del dato alla luce dell...SAS Italy
 
Típicas estructuras tecnológicas en los centros de e-learning
Típicas estructuras tecnológicas en los centros de e-learningTípicas estructuras tecnológicas en los centros de e-learning
Típicas estructuras tecnológicas en los centros de e-learningCRISEL BY AEFOL
 
Corso Ecommerce Magentiamo 2015, Montalti - "Funzionalità avanzate: integrazi...
Corso Ecommerce Magentiamo 2015, Montalti - "Funzionalità avanzate: integrazi...Corso Ecommerce Magentiamo 2015, Montalti - "Funzionalità avanzate: integrazi...
Corso Ecommerce Magentiamo 2015, Montalti - "Funzionalità avanzate: integrazi...Alessandro Montalti
 
Automatizzare tutto con Azure Resource Manager
Automatizzare tutto con Azure Resource ManagerAutomatizzare tutto con Azure Resource Manager
Automatizzare tutto con Azure Resource ManagerVito Flavio Lorusso
 
Knowledge graphs ovunque: un quadro di insieme, e le implicazioni per uno svi...
Knowledge graphs ovunque: un quadro di insieme, e le implicazioni per uno svi...Knowledge graphs ovunque: un quadro di insieme, e le implicazioni per uno svi...
Knowledge graphs ovunque: un quadro di insieme, e le implicazioni per uno svi...Matteo Brunati
 
WebRTC prove pratiche, esperimenti e curiosità
WebRTC prove pratiche, esperimenti e curiositàWebRTC prove pratiche, esperimenti e curiosità
WebRTC prove pratiche, esperimenti e curiositàComparto Web
 
Progettazione e sviluppo di un'applicazione web per la gestione di dati di at...
Progettazione e sviluppo di un'applicazione web per la gestione di dati di at...Progettazione e sviluppo di un'applicazione web per la gestione di dati di at...
Progettazione e sviluppo di un'applicazione web per la gestione di dati di at...daniel_zotti
 
Magento 2 Frontend le novità - Meet Magento 2015
Magento 2 Frontend le novità - Meet Magento 2015Magento 2 Frontend le novità - Meet Magento 2015
Magento 2 Frontend le novità - Meet Magento 2015Andrea Saccà
 
Technical SEO Audit Checklist - Giovanni Sacheli Search Marketing Connect 2018
Technical SEO Audit Checklist - Giovanni Sacheli Search Marketing Connect 2018Technical SEO Audit Checklist - Giovanni Sacheli Search Marketing Connect 2018
Technical SEO Audit Checklist - Giovanni Sacheli Search Marketing Connect 2018Giovanni Sacheli
 
Mèmora. La piattaforma per gli operatori - Patrizia Rossi
Mèmora. La piattaforma per gli operatori - Patrizia RossiMèmora. La piattaforma per gli operatori - Patrizia Rossi
Mèmora. La piattaforma per gli operatori - Patrizia RossiCSI Piemonte
 
Web Performance Optimization
Web Performance OptimizationWeb Performance Optimization
Web Performance OptimizationAlessandro Martin
 
Smau Milano 2015 - Federico Canuti
Smau Milano 2015 - Federico CanutiSmau Milano 2015 - Federico Canuti
Smau Milano 2015 - Federico CanutiSMAU
 

Similaire à Estrarre contenuti da Web (20)

The importance of now: rivedere il ciclo tradizionale del dato alla luce dell...
The importance of now: rivedere il ciclo tradizionale del dato alla luce dell...The importance of now: rivedere il ciclo tradizionale del dato alla luce dell...
The importance of now: rivedere il ciclo tradizionale del dato alla luce dell...
 
Típicas estructuras tecnológicas en los centros de e-learning
Típicas estructuras tecnológicas en los centros de e-learningTípicas estructuras tecnológicas en los centros de e-learning
Típicas estructuras tecnológicas en los centros de e-learning
 
Corso Ecommerce Magentiamo 2015, Montalti - "Funzionalità avanzate: integrazi...
Corso Ecommerce Magentiamo 2015, Montalti - "Funzionalità avanzate: integrazi...Corso Ecommerce Magentiamo 2015, Montalti - "Funzionalità avanzate: integrazi...
Corso Ecommerce Magentiamo 2015, Montalti - "Funzionalità avanzate: integrazi...
 
Magento2 Training
Magento2 TrainingMagento2 Training
Magento2 Training
 
Cv Petriccione-it
Cv Petriccione-itCv Petriccione-it
Cv Petriccione-it
 
Automatizzare tutto con Azure Resource Manager
Automatizzare tutto con Azure Resource ManagerAutomatizzare tutto con Azure Resource Manager
Automatizzare tutto con Azure Resource Manager
 
Knowledge graphs ovunque: un quadro di insieme, e le implicazioni per uno svi...
Knowledge graphs ovunque: un quadro di insieme, e le implicazioni per uno svi...Knowledge graphs ovunque: un quadro di insieme, e le implicazioni per uno svi...
Knowledge graphs ovunque: un quadro di insieme, e le implicazioni per uno svi...
 
WebRTC prove pratiche, esperimenti e curiosità
WebRTC prove pratiche, esperimenti e curiositàWebRTC prove pratiche, esperimenti e curiosità
WebRTC prove pratiche, esperimenti e curiosità
 
Progettazione e sviluppo di un'applicazione web per la gestione di dati di at...
Progettazione e sviluppo di un'applicazione web per la gestione di dati di at...Progettazione e sviluppo di un'applicazione web per la gestione di dati di at...
Progettazione e sviluppo di un'applicazione web per la gestione di dati di at...
 
Cv padula 2016
Cv padula 2016Cv padula 2016
Cv padula 2016
 
Magento 2 Frontend le novità - Meet Magento 2015
Magento 2 Frontend le novità - Meet Magento 2015Magento 2 Frontend le novità - Meet Magento 2015
Magento 2 Frontend le novità - Meet Magento 2015
 
WiStat@Unina
WiStat@UninaWiStat@Unina
WiStat@Unina
 
Technical SEO Audit Checklist - Giovanni Sacheli Search Marketing Connect 2018
Technical SEO Audit Checklist - Giovanni Sacheli Search Marketing Connect 2018Technical SEO Audit Checklist - Giovanni Sacheli Search Marketing Connect 2018
Technical SEO Audit Checklist - Giovanni Sacheli Search Marketing Connect 2018
 
Mèmora. La piattaforma per gli operatori - Patrizia Rossi
Mèmora. La piattaforma per gli operatori - Patrizia RossiMèmora. La piattaforma per gli operatori - Patrizia Rossi
Mèmora. La piattaforma per gli operatori - Patrizia Rossi
 
Le Basi di Dati
Le Basi di DatiLe Basi di Dati
Le Basi di Dati
 
Riccardo Govoni - Search
Riccardo Govoni - SearchRiccardo Govoni - Search
Riccardo Govoni - Search
 
Web Performance Optimization
Web Performance OptimizationWeb Performance Optimization
Web Performance Optimization
 
Smau Milano 2015 - Federico Canuti
Smau Milano 2015 - Federico CanutiSmau Milano 2015 - Federico Canuti
Smau Milano 2015 - Federico Canuti
 
Slide Soru - Collana Seminari CRS4 2015
Slide Soru - Collana Seminari CRS4 2015Slide Soru - Collana Seminari CRS4 2015
Slide Soru - Collana Seminari CRS4 2015
 
RomaJS June 2022
RomaJS June 2022RomaJS June 2022
RomaJS June 2022
 

Plus de Maurizio Napolitano

I dati AGCOM del pluralismo politico sociale in televisione
I dati AGCOM del pluralismo politico sociale in televisioneI dati AGCOM del pluralismo politico sociale in televisione
I dati AGCOM del pluralismo politico sociale in televisioneMaurizio Napolitano
 
FIPAV - allievo allenatore Il protocollo di allenamento - Modulo 2 - napolita...
FIPAV - allievo allenatore Il protocollo di allenamento - Modulo 2 - napolita...FIPAV - allievo allenatore Il protocollo di allenamento - Modulo 2 - napolita...
FIPAV - allievo allenatore Il protocollo di allenamento - Modulo 2 - napolita...Maurizio Napolitano
 
Il diritto all'oblio nell'era digitale
Il diritto all'oblio nell'era digitaleIl diritto all'oblio nell'era digitale
Il diritto all'oblio nell'era digitaleMaurizio Napolitano
 
Ten years of opendata: what has happened and what is there to do
Ten years of opendata: what has happened and what is there to doTen years of opendata: what has happened and what is there to do
Ten years of opendata: what has happened and what is there to doMaurizio Napolitano
 
Percorso di specializzazione per i ruoli di ricevitore–attaccante, opposto e ...
Percorso di specializzazione per i ruoli di ricevitore–attaccante, opposto e ...Percorso di specializzazione per i ruoli di ricevitore–attaccante, opposto e ...
Percorso di specializzazione per i ruoli di ricevitore–attaccante, opposto e ...Maurizio Napolitano
 
Dati: catalizzatori di innovazione per la smarticity
Dati: catalizzatori di innovazione per la smarticityDati: catalizzatori di innovazione per la smarticity
Dati: catalizzatori di innovazione per la smarticityMaurizio Napolitano
 
OpenStreetMap - Karten und Wandern
OpenStreetMap - Karten und WandernOpenStreetMap - Karten und Wandern
OpenStreetMap - Karten und WandernMaurizio Napolitano
 
laboratorio su mappe antiche digitalizzate
laboratorio su mappe antiche digitalizzatelaboratorio su mappe antiche digitalizzate
laboratorio su mappe antiche digitalizzateMaurizio Napolitano
 
Citizen science: il contributo dei cittadini alla ricerca
Citizen science:  il contributo dei cittadini alla ricercaCitizen science:  il contributo dei cittadini alla ricerca
Citizen science: il contributo dei cittadini alla ricercaMaurizio Napolitano
 
Il contributo del civic hacking alle policy sul riuso del patrimonio informat...
Il contributo del civic hacking alle policy sul riuso del patrimonio informat...Il contributo del civic hacking alle policy sul riuso del patrimonio informat...
Il contributo del civic hacking alle policy sul riuso del patrimonio informat...Maurizio Napolitano
 
OpenStreetmap an Opportunity for the Citizen Science
OpenStreetmap an Opportunity for the Citizen ScienceOpenStreetmap an Opportunity for the Citizen Science
OpenStreetmap an Opportunity for the Citizen ScienceMaurizio Napolitano
 

Plus de Maurizio Napolitano (15)

I dati AGCOM del pluralismo politico sociale in televisione
I dati AGCOM del pluralismo politico sociale in televisioneI dati AGCOM del pluralismo politico sociale in televisione
I dati AGCOM del pluralismo politico sociale in televisione
 
FIPAV - allievo allenatore Il protocollo di allenamento - Modulo 2 - napolita...
FIPAV - allievo allenatore Il protocollo di allenamento - Modulo 2 - napolita...FIPAV - allievo allenatore Il protocollo di allenamento - Modulo 2 - napolita...
FIPAV - allievo allenatore Il protocollo di allenamento - Modulo 2 - napolita...
 
La gestione del gruppo
La gestione del gruppoLa gestione del gruppo
La gestione del gruppo
 
percorsi ciclabili e stress
percorsi ciclabili e stresspercorsi ciclabili e stress
percorsi ciclabili e stress
 
Il diritto all'oblio nell'era digitale
Il diritto all'oblio nell'era digitaleIl diritto all'oblio nell'era digitale
Il diritto all'oblio nell'era digitale
 
Ten years of opendata: what has happened and what is there to do
Ten years of opendata: what has happened and what is there to doTen years of opendata: what has happened and what is there to do
Ten years of opendata: what has happened and what is there to do
 
Percorso di specializzazione per i ruoli di ricevitore–attaccante, opposto e ...
Percorso di specializzazione per i ruoli di ricevitore–attaccante, opposto e ...Percorso di specializzazione per i ruoli di ricevitore–attaccante, opposto e ...
Percorso di specializzazione per i ruoli di ricevitore–attaccante, opposto e ...
 
Dati: catalizzatori di innovazione per la smarticity
Dati: catalizzatori di innovazione per la smarticityDati: catalizzatori di innovazione per la smarticity
Dati: catalizzatori di innovazione per la smarticity
 
OpenStreetMap - Karten und Wandern
OpenStreetMap - Karten und WandernOpenStreetMap - Karten und Wandern
OpenStreetMap - Karten und Wandern
 
laboratorio su mappe antiche digitalizzate
laboratorio su mappe antiche digitalizzatelaboratorio su mappe antiche digitalizzate
laboratorio su mappe antiche digitalizzate
 
M'appare Trento
M'appare TrentoM'appare Trento
M'appare Trento
 
oltre la mappa
oltre la mappa oltre la mappa
oltre la mappa
 
Citizen science: il contributo dei cittadini alla ricerca
Citizen science:  il contributo dei cittadini alla ricercaCitizen science:  il contributo dei cittadini alla ricerca
Citizen science: il contributo dei cittadini alla ricerca
 
Il contributo del civic hacking alle policy sul riuso del patrimonio informat...
Il contributo del civic hacking alle policy sul riuso del patrimonio informat...Il contributo del civic hacking alle policy sul riuso del patrimonio informat...
Il contributo del civic hacking alle policy sul riuso del patrimonio informat...
 
OpenStreetmap an Opportunity for the Citizen Science
OpenStreetmap an Opportunity for the Citizen ScienceOpenStreetmap an Opportunity for the Citizen Science
OpenStreetmap an Opportunity for the Citizen Science
 

Dernier

La seconda guerra mondiale per licei e scuole medie
La seconda guerra mondiale per licei e scuole medieLa seconda guerra mondiale per licei e scuole medie
La seconda guerra mondiale per licei e scuole medieVincenzoPantalena1
 
Ticonzero news 148.pdf aprile 2024 Terza cultura
Ticonzero news 148.pdf aprile 2024 Terza culturaTiconzero news 148.pdf aprile 2024 Terza cultura
Ticonzero news 148.pdf aprile 2024 Terza culturaPierLuigi Albini
 
Esperimenti_laboratorio di fisica per la scuola superiore
Esperimenti_laboratorio di fisica per la scuola superioreEsperimenti_laboratorio di fisica per la scuola superiore
Esperimenti_laboratorio di fisica per la scuola superiorevaleriodinoia35
 
Esame finale - riunione genitori 2024.pptx
Esame finale - riunione genitori 2024.pptxEsame finale - riunione genitori 2024.pptx
Esame finale - riunione genitori 2024.pptxfedericodellacosta2
 
lezione di fisica_I moti nel piano_Amaldi
lezione di fisica_I moti nel piano_Amaldilezione di fisica_I moti nel piano_Amaldi
lezione di fisica_I moti nel piano_Amaldivaleriodinoia35
 
La produzione e la gestione degli Open Data
La produzione e la gestione degli Open DataLa produzione e la gestione degli Open Data
La produzione e la gestione degli Open DataGianluigi Cogo
 
Storia dell’Inghilterra nell’Età Moderna.pptx
Storia dell’Inghilterra nell’Età Moderna.pptxStoria dell’Inghilterra nell’Età Moderna.pptx
Storia dell’Inghilterra nell’Età Moderna.pptxOrianaOcchino
 
IL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla Cresima
IL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla CresimaIL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla Cresima
IL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla CresimaRafael Figueredo
 

Dernier (8)

La seconda guerra mondiale per licei e scuole medie
La seconda guerra mondiale per licei e scuole medieLa seconda guerra mondiale per licei e scuole medie
La seconda guerra mondiale per licei e scuole medie
 
Ticonzero news 148.pdf aprile 2024 Terza cultura
Ticonzero news 148.pdf aprile 2024 Terza culturaTiconzero news 148.pdf aprile 2024 Terza cultura
Ticonzero news 148.pdf aprile 2024 Terza cultura
 
Esperimenti_laboratorio di fisica per la scuola superiore
Esperimenti_laboratorio di fisica per la scuola superioreEsperimenti_laboratorio di fisica per la scuola superiore
Esperimenti_laboratorio di fisica per la scuola superiore
 
Esame finale - riunione genitori 2024.pptx
Esame finale - riunione genitori 2024.pptxEsame finale - riunione genitori 2024.pptx
Esame finale - riunione genitori 2024.pptx
 
lezione di fisica_I moti nel piano_Amaldi
lezione di fisica_I moti nel piano_Amaldilezione di fisica_I moti nel piano_Amaldi
lezione di fisica_I moti nel piano_Amaldi
 
La produzione e la gestione degli Open Data
La produzione e la gestione degli Open DataLa produzione e la gestione degli Open Data
La produzione e la gestione degli Open Data
 
Storia dell’Inghilterra nell’Età Moderna.pptx
Storia dell’Inghilterra nell’Età Moderna.pptxStoria dell’Inghilterra nell’Età Moderna.pptx
Storia dell’Inghilterra nell’Età Moderna.pptx
 
IL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla Cresima
IL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla CresimaIL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla Cresima
IL CHIAMATO ALLA CONVERSIONE - catechesi per candidati alla Cresima
 

Estrarre contenuti da Web

  • 1. Estrarre contenuti dal web corso di laurea in data science - datajournalism @napo Estrarre contenuti dal web Maurizio Napolitano <napo@fbk.eu>
  • 2. Estrarre contenuti dal web corso di laurea in data science - datajournalism @napo Obiettivo del corso: Cosa c'è in una pagina web API, json, xml e … scraping di HTML Requirements: python pandas
  • 3. Estrarre contenuti dal web corso di laurea in data science - datajournalism @napohttp://www.viaggiareintrentino.it/it
  • 4. Estrarre contenuti dal web corso di laurea in data science - datajournalism @napo CTRL-U
  • 5. Estrarre contenuti dal web corso di laurea in data science - datajournalism @napo HTML CRASH COURSE
  • 6. Estrarre contenuti dal web corso di laurea in data science - datajournalism @napo
  • 7. Estrarre contenuti dal web corso di laurea in data science - datajournalism @napo
  • 8. Estrarre contenuti dal web corso di laurea in data science - datajournalism @napo
  • 9. Estrarre contenuti dal web corso di laurea in data science - datajournalism @napo
  • 10. Estrarre contenuti dal web corso di laurea in data science - datajournalism @napo python -m SimpleHTTPServer python -m http.server Python 2 Python 3 http://localhost:8080 http://127.0.0.1:8080
  • 11. Estrarre contenuti dal web corso di laurea in data science - datajournalism @napo F12
  • 12. Estrarre contenuti dal web corso di laurea in data science - datajournalism @napo Vedere tutte le chiamate delle pagina
  • 13. Estrarre contenuti dal web corso di laurea in data science - datajournalism @napo Individuare la chiamata al JSON dell'elenco delle telecamere Nota: appare al clic su “Telecamere” nella pagina vi viaggiare in Trentino
  • 14. Estrarre contenuti dal web corso di laurea in data science - datajournalism @napo JSON + JavaScript Object Notation Simile ai dictionary https://docs.python.org/3/tutorial/datastructures.html#dictionaries
  • 15. Estrarre contenuti dal web corso di laurea in data science - datajournalism @napohttp://bit.ly/jsontelecamereviaggiareintrentino da JSON a Pandas Dataframe
  • 16. Estrarre contenuti dal web corso di laurea in data science - datajournalism @napohttps://servizi.apss.tn.it/opendata/STATOPS001.xml XML https://dati.trentino.it/dataset/visualizzazione-presenze-nei-pronto-soccorso
  • 17. Estrarre contenuti dal web corso di laurea in data science - datajournalism @napo
  • 18. Estrarre contenuti dal web corso di laurea in data science - datajournalism @napo =IMPORTXML("https://servizi.apss.tn.it/opendata/STATOPS001.xml";"//STATOPS/PRONTO_SOCCORSO/PS")
  • 19. Estrarre contenuti dal web corso di laurea in data science - datajournalism @napocode here http://bit.ly/xmlprontosoccorsopandas more about BeautlfulSoup here https://www.crummy.com/software/BeautifulSoup/
  • 20. Estrarre contenuti dal web corso di laurea in data science - datajournalism @napo
  • 21. Estrarre contenuti dal web corso di laurea in data science - datajournalism @napo http://www.statistica.provincia.tn.it/dati_online/ http://www.statweb.provincia.tn.it/annuario/(S(nk3o1055atv5vj55t2j3rdb2))/Default.aspx?t=at http://www.statweb.provincia.tn.it/annuario/(S(nk3o1055atv5vj55t2j3rdb2))/tavola.aspx?idt=2.15&t=at
  • 22. Estrarre contenuti dal web corso di laurea in data science - datajournalism @napo Come è generata questa stringa? (S(nk3o1055atv5vj55t2j3rdb2)) http://www.statweb.provincia.tn.it/annuario/(S(nk3o1055atv5vj55t2j3rdb2))/Default.aspx?t=at Nota: appare diversa ogni volta che si visita il sito delle tavole ISPAT
  • 23. Estrarre contenuti dal web corso di laurea in data science - datajournalism @napo F12 La chiamata a dati_online di ISPAT genera dei cookies Rivediamo tutti i passaggi che fa il browser
  • 24. Estrarre contenuti dal web corso di laurea in data science - datajournalism @napo Questa pagina fa due chiamate!
  • 25. Estrarre contenuti dal web corso di laurea in data science - datajournalism @napo Prima chiamata La chiamata alla pagina principale di www.statweb.provincia.it/annuario genera contiene nell'header di risposta l'identificativo generato "al volo" per la chiamata successiva
  • 26. Estrarre contenuti dal web corso di laurea in data science - datajournalism @napo Seconda chiamata Default.aspx genera dei cookies
  • 27. Estrarre contenuti dal web corso di laurea in data science - datajournalism @napo Le tavole dei dati Le tavole dei dati sono pagina HTML che si raggiungono alla pagina tavola.aspx dove è passato come parametro l'identificativo della tavola (es. 2.12) si generano solo se esiste il valore di location generato nella pagina precedente
  • 28. Estrarre contenuti dal web corso di laurea in data science - datajournalism @napo Individuare l'HTML che contiene i dati
  • 29. Estrarre contenuti dal web corso di laurea in data science - datajournalism @napo code here http://bit.ly/scraper_ispat costruire lo scraper python che genera il pandas Dataframe
  • 30. Estrarre contenuti dal web corso di laurea in data science - datajournalism @napo Maurizio Napolitano http://slideshare.net/napo napolitano@fbk.eu @napo GRAZIE!!!