1. Sissa X convegno comunicazione Trieste 24-27 novembre
Ondata di calore 7-9 aprile
2011:
analisi esplorativa del
fenomeno tramite
geo-retrieval information
effettuato con
Twitter API
Alfonso Crisci , CNR Ibimet
Marco Morabito, Università di Firenze
Valerio Capecchi, Consorzio LaMMA
Valentina Grasso, Consorzio LaMMA
Interim, quondam Galli appropinquabant,
arx Romae Capitolium in ingenti pericolo fuit.
(Plutarco)
2. Obbiettivi
Questo lavoro ha l'obbiettivo di valutare la
potenzialità dei flussi quantitativi dei social
media/network legati al rischio sanitario
associato ad una criticità climatica e valutare
l’impatto sociologico di eventi di natura
meteo/clima.
3. Lo strumento Twitter http://twitter.com
•Twitter è una piattaforma di micro-blogging
commerciale che permette l' instant messaging cioè il
cosidetto “speak & tweet”.
•Esistono nella piattaforma vari meccanismi di
condivisione e diffusione del singolo messaggio.
•In 140 caratteri un utente può scrivere pubblicamente
quello che pensa, vede e dice in forma compatta da
device fisso o mobile.
•L’utente può dichiarare, se vuole, da dove scrive,
tramite i servizi twitter di geo-location.
•Le conversazione sono archiviabili nel suo account.
Sono accessibili e interrogabili tramite specifici servizi
web ( Twitter API).
4. Le capacità Twitter Osama’s End 1-Maggio 2011
•Twitter ha delle capacità di diffusione
rapida nel tempo, di tipo virale-epidemico,
e di conseguenza nello spazio.
•I flussi delle conversazione fra utenti nei
social-network hanno ormai un valore
accertato per evidenziare l’attenzione verso
un evento identificabile tramite una/più
parole chiavi presenti nei messaggi. Twitter
fornisce anche dei meccanismi per
facilitarne la ricerca e l’acquisizione
( TWITTER API).
•L’attenzione è un parametro misurabile
tramite il volume di scambi nell’unità di
tempo.
5. Trending Topics Visualizzazione Geografica
•Gli argomenti o gli eventi
importanti possono essere
identificati con parole di massima
ricorrenza nei flussi Twitter e
vengono denominati, come in altri
media, come Trending Topics.
• Il loro baricentro/localizzazione
geografico, grazie agli utenti e per
la natura pubblica, può essere
visualizzato in tempo reale assieme
alle sue statistiche di traffico grazie
all’interrogabilità condizionale
della piattaforma.
http://trendsmap.com/
6. Il fenomeno Twitter in Italia
•La piattaforma Twitter sta
crescendo in Italia anche
se meno rispetto ad altri
paesi.
•I volumi di traffico sono in
crescita e già suffucienti per
poter effettuare indagini
sociologiche utilizzate in vari
campi.
http://www.slideshare.net/Text100Ita
ly/t100-twitparade100701
7. Ondata di calore 7-9 aprile 2011 Italia
•Un ondata di calore è un periodo
con T° sopra la norma e persistente.
La sua definizione precisa varia in
funzione dei contesti geografici.
• Rappresenta un serio rischio
sanitario specialmente per categorie
fragili (anziani, malati cronici,
bambini, lavoratori esposti) .
•Nell’aprile 2011, nei giorni 7-8-9,
l’Italia è stata interessata da
un’ondata di calore precoce con
valori da record assoluti.
•La percezione comune non ha
seguito le statistiche meteorologiche
ma solo in alcune aree di italia.
www.meteogiornale.it
8. Raccolta dati
•Temperature massime italiane delle stazioni ITAV per i giorni dal 5-10 aprile
2011.
•Temperature su griglia da modello (Reanaliys 2 NCEP-DOE) per l’area
europea del periodo 5-13 aprile 2011.
•I matches twitter tramite Search API che permette di inserire le parole di
ricerca “AFA,CALDO,SETE”, fino ad una massimo di 1500 occorrenze filtrate
per lingua italiana:
http://search.twitter.com/search.atom?lang=it&q="afa OR caldo OR
sete"&until=2011-04-13&rpp=50&page=100.
I dati presi con il servizio Twitter API sono stati relativi al periodo 6-13 aprile
e sono comprensivi sia del messaggio testuale che dell’ora di invio. I dati sono
stati verificati per escludere quelli di orgine commerciale, e successivamente
si è provveduto a fare le statistiche giornaliere di conteggio.
9. Coerenza temporale numero Tweets giornalieri e
temperature
•La dinamica dei matches
“CALDO o AFA o SETE”
Twitter è stata coerente
con quella delle
temperature massime
italiane e ancor più con
quelle dell’Italia
settentrionale e del
versante adriatico.
Il picco di caldo
del 9 aprile è stato
intercettato, così come il
crollo del giorno
successivo, sia nel numero
di tweet cercati che delle
temperature.
10. Coerenza spaziale del numero tweet giornalieri e
temperature medie giornaliere
•Le mappe di associazione fra la
serie Twitter e i dati del modello
di Reanalisi climatiche fatte
tramite l’analisi del valore di
correlazione lineare r per ogni
punto griglia nel periodo 6-13
aprile, con due livelli di
significatività (s.)
Aree rosse -> s. blanda ( p=0.1)
Aree bianche -> s. forte 0.05
fa emergere un preciso pattern
spaziale in Italia. Il nord est
sopratTutto e il settentrione in
generale, riteniano siano le aree
geografiche di percezione
dell’ondata di calore.
11. Conferma della coerenza spaziale tramite osservazioni
Dove la T° massima > 28 C° in Italia il 7-8-9 aprile
7
8 9
12. ANALISI TEXT MINING dei CORPUS messaggi per i
gg NO HEAT (6-11-12-13 apr)/ gg HEAT ( 7-8-9-10 apr)
•Utilizzando il package R tm sono state analizzate le associazioni fra le parole
più frequenti nei messaggi lasciando le parole di ricerca CALDO, AFA, SETE con pari grado di sparsità
della Matrice Termini Documento dei due Corpus Twitter relativi ai giorni indicati.
HEAT NO-HEAT
Aumento e modifica della complessità nell’associazione fra
termini sia in termini assoluti che di aggregazione.
13. ANALISI TEXT MINING dei CORPUS messaggi per i
gg NO HEAT (6-11-12-13 apr)/ gg HEAT ( 7-8-9-10 apr)
•Visualizzazione della Wordcloud dei testi tweet package R wordcloud
HEAT NO-HEAT
E’ interessante notare l’apparizione di termini geografici e
stagionali.
14. Variazione densità singole parole
NO HEAT N=1798 HEAT N=2039
oggi 6.0% oggi 8.3% 1°
sole 5.5% troppo 7.7% 2°
troppo 4.1% sole 5.9% 3°
Esempio di analisi della variazione di frequenza relativa a singole
parole ad elevato ranking.
15. Conclusioni
• Questo lavoro ha evidenziato come l’Audit dei flussi Twitter, e
dei social media/network in lingua locale possono essere
utilizzati, durante una criticità, come un parametro quantitativo
di interesse per la comunità scientifica meteo/climatica. Un
orecchio “sociale” importante sul territorio per gli impatti
perfettamente integrabile con gli strumenti attualmente utilizzati.
Il crossing informativo fra le sorgenti dati può dare risultati
anche inattesi.
• Anche l’analisi testuale può fornire delle chiavi di lettura
integrative di un fenomeno meteo/clima suggerendo quale sia la
forma e la reazione, mutuabile dall’espressione scritta dei
messaggi che hanno una loro rilevanza, rispetto ad una pressione
ambientale da parte di una comunità, che attualmente è solo
misurata, in riguardo al disagio termico e al rischio sanitario, con
parametri fisici osservati o previsti e statistiche sanitarie.
16. Preludi di Social-Meteorologia ??
…….You want to study human behavior; you are interested in
communication, social structure, information dissemination, and
crowd behavior. ……..
…………You’re on Twitter, and you’ve watched with your own
eyes the types of information cascades and communication
dynamics that form the foundation of your research. Eureka!
Twitter presents an unprecedented opportunity to study human
beings, and its openness and technical hooks allows for the
systematic capture of this with complete transparency.
Drew Conway July 28th, 2011
http://www.drewconway.com/zia/?p=2784