La redazione dei Piani Urbanistici Comunali in Puglia: banche dati territoria...
Una procedura statistica multivariata per l’ottimizzazione di reti di monitoraggio, di Maria Ragosta, Senatro Di Leo, Andrea Tundo
1. UNA PROCEDURA STATISTICA MULTIVARIATA
PER L’OTTIMIZZAZIONE DI RETI DI
MONITORAGGIO
Marinella Ragosta, Andrea Tundo
Dipartimento di Ingegneria e Fisica dell’Ambiente – Università della Basilicata
Senatro Di Leo
Istituto di Metodologie per l’Analisi Ambientale – CNR – Tito Scalo (PZ)
2. 1. IL CONTESTO
Migliorare la gestione, l’interpretazione e l’utilizzo dei dati
nell’analisi di fenomeni di stess ambientale.
2. LA METODICA DI ANALISI
Il metodo è basato sulla valutazione combinata del contenuto
informativo delle diverse variabili di rete e della struttura di
correlazione della rete.
3. IL CASO STUDIO
Analisi della rete di monitoraggio della qualità dell’aria della
regione Basilicata, relativamente ad un semestre di dati orari.
3. IL CONTESTO (1.1)
I biosistemi sono sistemi complessi, tipicamente non lineari,
caratterizzati da un gran numero di variabili, biotiche e abiotiche,
con ampie fluttuazioni, intrinseche ed indotte da forzanti
esterne, e con una complessa struttura di correlazione che
include meccanismi di feedback e di sinergismo fra le diverse
variabili. Inoltre va considerato che i fenomeni ambientali che
inducono stati di stress dei biosistemi (degrado della componente
biotica, inquinamento dell’aria e del suolo, dissesto idrogeologico,
rischio antropico ed ambientale) avvengono su scale spaziali e
temporali che possono essere molto diverse fra loro.
Il monitoraggio deve diventare rappresentativo dell’intero
processo conoscitivo e non deve servire soltanto a misurare lo
stato dell'ambiente, ma anche a determinare dinamiche di
causa-effetto, a sviluppare modelli previsionali e ad
individuare le aree prioritarie di intervento.
4. IL CONTESTO (1.2)
La diffusione sul territorio di centraline per il monitoraggio di
parametri ambientali (reti per il controllo della qualità
dell’aria, delle acque e dei suoli) ha comportato un notevole
aumento dei dati disponibili, ma, contestualmente, non c’è
stato un adeguato sviluppo delle procedure di gestione,
controllo e analisi dei dati raccolti.
L’uso integrato di diverse metodologie di analisi dei dati può
comportare un notevole miglioramento nella caratterizzazione
ed interpretazione della struttura di correlazione fra i dati
raccolti, per una gestione ottimale della rete.
Inoltre l’introduzione di procedure innovative di modellazione
dei dati (modelli auto regressivi non lineari, reti neurali, logica
fuzzy), può supportare costruttivamente l’evoluzione delle
attuali reti di monitoraggio verso un approccio più in senso
prognostico che diagnostico.
5. LA METODICA DI ANALISI (2.1)
Organizzazione dei dati e analisi statistica esplorativa
I dati possono essere organizzati in matrici 3D
[R siti di misura ×
S parametri misurati (e/o stimati) ×
W campionamenti temporali]
Nella fase preliminare vengono esclusi tutti i campionamenti che
presentano data missing in modo da ottenere le migliori matrici di
dati, in termini di massima dimensionalità, senza i vincoli della
consecutività temporale e/o della contiguità spaziale fra le
osservazioni.
Alle matrici selezionate vengono applicate le tecniche di analisi
statistica esplorativa al fine di caratterizzare la distribuzione ed i
relativi parametri di ciascuna delle variabili in esame.
6. LA METODICA DI ANALISI (2.2)
Analisi della ridondanza
L’analisi del contenuto informazionale dei dati è rivolto alla
valutazione dell’informazione contenuta nelle diverse configurazioni
possibili di rete ridotta.
Siano n le variabili di rete considerate (siti di misura o parametri
misurati), M ed U siano i due sottoinsiemi delle variabili in esame, il
primo contenente le variabili candidate ad essere confermate, il
secondo contenente le variabili candidate ad essere escluse;
Se H è la dimensione del vettore U, per ogni H, il numero delle
diverse configurazioni possibili della rete è
In particolare se H=1, una sola variabile candidata all’ esclusione,
Nconf = n.
)!(!
!
HnH
nNconf −
=
7. LA METODICA DI ANALISI (2.3)
L’esclusione dal sistema di monitoraggio di una qualsiasi variabile
determina una perdita di informazione.
Una stima quantitativa della perdita di informazione dovuta
all’eliminazione di H variabili è data dall’ Infomation Loss Index
(indice di perdita di informazione) e dal suo complemento ad uno
espresso in percentuale, detto Effectiveness Index (indice di
efficacia), definiti rispettivamente come
H
H
k
H
H
k
I
II
P
max
max −
= ( ) 100*1 H
k
H
k PQ −=
k = 1,…,Nconf
Essi sono basati sull’indice di Shannon calcolato a partire dai
determinanti delle matrici di covarianza ricavate dalle matrici dei
dati.
8. LA METODICA DI ANALISI (2.4)
L’ indice di Shannon è definito come
in cui x e y rappresentano due generiche variabili, i vettori M e U rappresentano i due
sottoinsiemi in cui è stato suddiviso l’insieme delle variabili, fM,U rappresenta la funzione
di densità congiunta di M e U mentre fM, fU sono le corrispondenti densità marginali.
In pratica esso può essere calcolato come
dove det(Cn,n), det(CH,H) e det(Cn-H,n-H) indicano rispettivamente il determinante della
matrice di covarianza dei dati e i determinanti delle due sottomatrici di covarianza. In
particolare serve individuare
dxdyyxf
yfxf
yxf
UMI UM
UM
UM
),(
)()(
),(
ln),( ,
,
∫
=
HnHnHH
nnH
k
CC
C
I
−−
−=
,,
,
ln
2
1
{ }H
N
HH
conf
III ,...,max 1max =
9. LA METODICA DI ANALISI (2.5)
In particolare è il minimo valore assunto da Q ad essere indicativo
della configurazione ottimale
),...,min( 1min
H
N
HH
conf
QQQ =
Il calcolo di questi indici va ripetuto non solo per ciascuna configurazione,
ma anche per ciascuna delle variabili di rete che non sono oggetto della
procedura di ottimizzazione. Se ad esempio si sta valutando il contenuto
informazionale delle diverse stazioni di monitoraggio, la procedura va
ripetuta per ciascuno dei parametri misurati nelle diverse stazioni.
Il Total Effectiveness Index (indice di efficacia totale) è l’indice
aggregato finale che è utilizzato per individuare la configurazione
ottimale ottenuta riducendo di H variabili la rete di monitoraggio.
{ }( )h
H
tot QQ minmax=
10. LA METODICA DI ANALISI (2.1)
Esempio: Matrice [8 x 3 x 76]
Quale fra le 8 stazioni di misura posso eliminare (H = 1, Nconf = 8)?
[8 x 3 x 76]
Pr.1 [8 x 76]
Pr.3 [8 x 76]
………………………………………………
Conf.1 [8x8],[7x7]gld=76
Conf.8 [8x8],[7x7]gld=76
Conf.1 [8x8],[7x7]gld=76
Conf.8 [8x8],[7x7]gld=76
12. LA METODICA DI ANALISI (2.1)
Analisi della struttura di correlazione
L’analisi della struttura di correlazione si basa sull’ analisi
statistica multivariata ed in questo caso viene determinata
dall’applicazione congiunta di tecniche di clusterizzazione (Cluster
Analysis CA) e di ordinamento in spazio di dimensionalità ridotta
(Principal Component Analysis PCA). Cluster e componenti
principali permettono di definire ed interpretare la struttura di
correlazione esistente fra i dati forniti dalla rete.
Le due tecniche multivariate saranno applicate iterativamente,
seguendo lo schema individuato nell’analisi della ridondanza, per
ottenere un peso, in termini di struttura di correlazione, da
assegnare alle diverse configurazioni ridotte della rete in modo
da indiiduare quale ha maggiore rilevanza quantitativa e
significatività statistica
17. IL CASO STUDIO (3.1)
Analisi della rete di monitoraggio della qualità dell’aria della regione
Basilicata, a partire da un semestre di rilevamenti orari (Giu-Dic 2006).
18. Melfi
SO2 NO2 O3 CO
PM10
S.N. di Melfi
SO2 NO2 O3 CO
PM10
Lavello
SO2 NO2 O3 CO
PM10 C6H6
Potenza_3
CO PM10 C6H6
Potenza_2
SO2 NO2 O3 CO
PM10
Potenza_4
CO PM10
Potenza_1
SO2 NO2 O3 CO
PM10 CH4 C6H6
Matera
SO2 NO2 O3 CO
PM10 CH4 C6H6
Viggiano
SO2 NO2 O3 CO
PM10 CH4 C6H6
Pisticci
(data no
available)
Ferrandina
SO2 NO2 O3 CO
PM10 CH4 C6H6
IL CASO STUDIO (3.2)
Siti in aree urbane
Siti in aree industrali
19. Inquinanti misurati
Siti di misura
C6H6 CH4 CO NO2 O3 PM10 SO2
Ferrandina 29,8 68,8 6,8 67,9 8,8 n.a. 10,1
Matera 30,6 54,1 62,3 38,1 40,2 n.a. 66,3
Viggiano 9,9 59,8 66,2 22,4 22,6 n.a. 33,7
Pisticci n.a. n.a. n.a. n.a. n.a. n.a. n.a.
PZ_1 14,5 37,1 9,0 9,8 14,1 n.a. 7,6
PZ_2 n.a. n.a. 76,0 18,3 15,0 50,0 34,9
PZ_3 2,9 n.a. 3,1 n.a. n.a. 55,9 n.a.
PZ_4 n.a. n.a. 15,3 n.a. n.a. 56,5 n.a.
S. Nicola di Melfi n.a. n.a. 99,5 50,8 20,6 59,4 23,8
Melfi n.a. n.a. 20,5 28,5 35,0 57,6 19,3
Lavello 22,7 n.a. 20,2 21,1 20,2 59,0 27,2
Quattro sotto-matrici significative (W>75) ottenute
massimizzando o il numero di stazioni in cui si misuravano gli
stessi inquinati (matrici M1 [8×3×76] e M3 [5×2×106]) o il
numero di inquinanti misurati nelle stesse stazioni (matrici M2
[7×4×163] e M4 [4×6×92]).
IL CASO STUDIO (3.3)
La qualità del dato
20. IL CASO STUDIO (3.4)
Potenza_2
SO2 NO2 O3
CO PM10
Potenza_3
CO PM10
C6H6
Potenza_4
CO PM10
Potenza_1
SO2 NO2 O3 CO
PM10 CH4 C6H6
Matera
SO2 NO2 O3 CO
PM10 CH4 C6H6
Ferrandina
SO2 NO2 O3
PM10 CH4 C
Lavello
SO2 NO2 O3
CO PM10 C6H6
Melfi
SO2 NO2 O3 CO
PM10
S.N. di Melfi
SO2 NO2 O3
CO PM10
Viggiano
SO2 NO2 O3 CO
PM10 CH4 C6H6
Pisticci
(data no available)
SO2 NO2 O3 CO
PM10 CH4 C6H6
21. Conclusioni
La metodologia di analisi ha carattere generale, è flessibile ed è
facilmente utilizzabile
I risultati forniti hanno significatività statistica
I risultati sono facilmente traducibili in azioni concrete da chi è
preposto alla tutela, al controllo ed alla prevenzione
I risultati possono essere notevoli anche in presenza di dati con un
grado di qualità non elevato
E’ auspicabile una maggiore automatizzazione della procedura e la
possibilità di analizzare dati provenienti da reti di monitoraggio più
complesse.