_Geostatistique.pdf gly.hyurteryù^llcvfd

STA 112 : Geostatistique
A. Latouche
aurelien.latouche@cnam.fr
1 / 62

STA 112 Statistique Spatiale et Longitudinale
I Géostatistique : Variogramme , Krigeage
I Modèles hiérarchique bayésiens : application en Epidémiologie
Toujours vérifier les salles et séances
http://maths.cnam.fr/spip.php?article390
2 / 62

Evaluation
I La note finale de l’UE STA 112 se compose d’une note
d’examen (2/3) et d’une note de projet (1/3)
I Il y 2 sessions pour l’examen et le projet.
I Vous devez donc rendre votre projet lors de la semaine
d’examen (juin et septembre).
Le projet comporte 1 analyse de données spatiales et 1 analyse de
données longitudinales
les données à analyser seront disponibles sur le site de l’UE
3 / 62

Données spatiales et visualisation avec R
La page de référence
http://cran.r-project.org/web/views/Spatial.html
Data management sp, rgdal, maptools
Integration with other GIS gdal, RArcInfo, SQLiteMap,
RgoogleMaps, spgrass6, RPyGeo,
R2WinBUGS, geonames
Point pattern analysis spatstat, splancs, spatialkerne
Geostatistics gstat, geoR, geoRglm, spBayes
Disease mapping DCluster, spgwr, glmmBUGS,
diseasemapping
Spatial regression spdep, spatcounts
4 / 62

Géostatistique
I Historiquement : Gisement minier
I Hydrologie, Agriculture, Science de l’environnement
(Pollution)
I Objectif : Prédiction de gisement à partir de forages
Définition
La Géostatistique a pour objet de Modéliser des covariations
spatiales et de Prédire la mesure en un point non observé
On effectue de l’interpolation spatiale (krigeage)
5 / 62

Singularité des données spatiales
I En statistique classique, l’inférence des paramètres est rendue
possible par la répétition indépendante des données.
I En statistiques spatiales, on observe très souvent une
réalisation unique des données
I Par exemple
I un épisode de pollution à l’ozone
I une région agricole particulière
I une épidémie . . .
6 / 62

Exemple Données de pluviométrie (package geoR, data(parana))
I Les mesures sont discrètes : 143 stations, pluviométrie
moyenne de plusieurs années de mai à juin
I Le phénomène spatial est définit partout sur le domaine
d’étude
200 300 400 500 600 700 800
0
100
200
300
400
500
600
E−W (km)
N−S
(km)
7 / 62

Pour pouvoir réaliser l’inférence statistique pour un évènement
unique, il faut donc en quelques sortes remplacer
I l’hypothèse sur les répétitions indépendantes par une
hypothèse sur le champ aléatoire
I Cette hypothèse considère d’une part que certaines de ses
caractéristiques sont identiques d’un point à l’autre de
l’espace,
I et d’autre part que l’espérance de certaines grandeurs sont
accessibles par des intégrales sur l’espace.
⇒ On pose donc des hypothèses de stationnarité
8 / 62

Données spatiales : exemple et format
ozone.txt, jura.txt
9 / 62

Covariance non spatialisé
cov(X, Y ) = E(XY ) − E(X) E(Y )
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
100 120 140 160 180 200
80
100
120
140
height
weight
10 / 62

Non corrélés
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
4 6 8 10 12 14 16
60
80
100
120
shoeSize
intelligence
11 / 62

Loi normale Multivariée
U ∼ MVN(µ, Σ)
I U est un vecteur de N observations
I µ un vecteur de moyenne, E(Ui ) = µi
I Σ matrice de variance-covariance N × N
Sa densité
pr(Y ∈ A) =
Z
A
f (y)dy
f (y) =
1
(2π)N/2|Σ|1/2
exp

−
1
2
(y − µ)0
Σ−1
(y − µ)

12 / 62

Loi normale Bivariée
Dependance
90 95 100 105 110
36
38
40
42
44
x
y
0.00
0.02
0.04
0.06
0.08
0.10
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
Independance
90 95 100 105 110
36
38
40
42
44 x
y
0.00
0.02
0.04
0.06
0.08
0.10
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
13 / 62

Phénomènes/Processus aléatoire
En temps
1900 1940 1980
0
2
4
6
years
cancer
rate
I U(t) série chronologique
I indexée par l’instant t
I notée aussi Ut
En espace
I U(x, y) est un champs
aléatoire
I Notations U(x), x = (x1, x2)
I Ui = U(si ), si = (si1, si2)
14 / 62

Covariance et champs aléatoire
I Soit Z(x) pour x ∈ D
I on supposera que Var(Z(x)) existe
I On parle de champs d’ordre 2
I ceci assure l’existence de la fonction de covariance
C(x, y) = Cov(Z(x), Z(y))
pour y ∈ D
15 / 62

Processus Stationnaire et covariance
La loi d’un processus stationnaire est invariante par translation, ce
qui implique
I E[Z(x)] = m ∀x
I La covariance C(.) entre 2 points x et x + h ne dépend que de
h i.e.
E[Z(x)Z(x + h)] − m2
= C(h)
On ne spécifie pas d’hypothèse sur Var(Z(h)) car
Var(Z(x)) = C(0)
16 / 62

Processus stationnaire intrinsèque
Le cas stationnaire suppose que l’espérance est constante mais ceci
n’assure pas l’existence d’une covariance
On suppose donc
E[Z(x + h) − Z(x)] = 0
Var[Z(x + h) − Z(x)] ne dépend que de h
Définition
On appelle variogramme
γ(h) =
1
2
Var(Z(x + h) − Z(x))
Stationnaire ⇒ Intrinsèque
17 / 62

Processus Stationnaire : Propriété de la covariance
C(h) = E(Z(x)Z(x + h)) − m2
1. C(0) = σ2
2. C(h) = C(−h)
3. |C(h)| ≤ C(0)
4. γ(h) = C(0) − C(h)
2γ(h) = E[{Z(x + h) − Z(x)}2
]
= E[{Z(x + h) − m + m − Z(x)}2
]
= E[(Z(x + h) − m)2
+ (Z(x) − m)2
−
2(Z(x + h) − m)(Z(x) − m))]
= 2C(0) − 2C(h)
18 / 62

Stationnarité : A quoi ça ressemble ?
19 / 62

Stationnaire, Isotrope
0 5 10 15 20
0
5
10
15
20
x
y
0 5 10 15 20
0
5
10
15
20
x
y
20 / 62

Non-Stationnaire
0 5 10 15 20
0
5
10
15
20
x
y
0 5 10 15 20
0
5
10
15
20
x
y
21 / 62

Stationnaire, Anisotrope
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
X Coord
Y
Coord
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
X Coord
Y
Coord
22 / 62

Variogramme Empirique : estimation
γ∗
(h) =
1
2 N(h)
N(h)
X
i=1
[Z(xi + h) − Z(x)]2
où
I xi : lieu de prélévement
I Z(xi ) : les valeurs des prévélements
I N(h) : le nombre de pairs (xi , xi + h) séparée d’une distance h
23 / 62

Variogramme 1D
Echantillons espacés de 5m la teneur est indiqué
Calculer la valeur du variogramme empirique à 5, 10 et 15 m
24 / 62

Paires distantes de 5m :
γ(5) =
1
2 ∗ 12
[22
+ 22
+ 12
+ 32
+ 12
+ 22
+
52
+ 62
+ 12
+ 42
+ 12
+ 32
]
= 4.625
I γ∗(10) = 4.82
I γ∗(15) = 6
25 / 62

Variogramme empirique : Vertical
On vous donne 2 portions de forage sur lesquelles sont indiquées
les teneurs en Aluminium (ppm) pour des carottes de 3m. Les 2
forages sont espacés de 9m de centre à centre.
Forage 1 Forage 2
5.2 5.2
2.3 4.6
3.7 6.3
9.1 2.7
Calculer le variogramme expérimental à la distance h=9m
26 / 62

Paires distantes de 9m
1. (5.2, 9.1)
2. (5.2,2.7)
3. (5.2,5.2)
4. (2.3,4.6)
5. (3.7,6.3)
6. (9.1,2.7)
N(9) = 6
27 / 62

Variogramme experimental 2D
On doit estimer le variogramme dans les 4 directions
1. (N-S)
2. (E-O)
3. (NE-SO)
4. (NO-SE)
28 / 62

Variogramme experimental 2D
Dans la direction N-S et E-O : grille régulière (1 unité entre chaque
mesure)
26 22 19 14 16 19 16 14
23 20 17 20 14 23 21 17
22 17 18 19 18 25 20 19
21 15 20 18 20 20 18 13
19 18 15 15 18 23 22 20
18 16 10 16 14 18 20 18
17 14 10 13 13 15 14 17
15 13 11 10 17 16 15 11
⇒ Calculer le variogramme empirique à h= 1 et 2 dans la direction
Nord-Sud
29 / 62

Variogramme experimental 2D: Direction Nord-Sud
26 22 19 14 16 19 16 14
23 20 17 20 14 23 21 17
22 17 18 19 18 25 20 19
21 15 20 18 20 20 18 13
19 18 15 15 18 23 22 20
18 16 10 16 14 18 20 18
17 14 10 13 13 15 14 17
15 13 11 10 17 16 15 11
Direction Nord-Sud :
I N(1)=56 et γ∗(1) = 5.88;
I N(2)=48 et γ∗(2) = 9.11
30 / 62

Variogramme experimental 2D: direction N-E S-O
I Calculer N(4) γ∗(4)
Les prélèvements étants distants d”une unité dans les directions
N-S et E-O, la distance entre des blocs sur les 2 directions
diagonales est multiple de
√
2
26 22 19 14 16 19 16 14
23 20 17 20 14 23 21 17
22 17 18 19 18 25 20 19
21 15 20 18 20 20 18 13
19 18 15 15 18 23 22 20
18 16 10 16 14 18 20 18
17 14 10 13 13 15 14 17
15 13 11 10 17 16 15 11
h = 4 ≈ 3
√
2, on dénombre les paires distantes de 3 diagonales ainsi que la valeur des prélèvements
31 / 62

√
2
26 22 19 14 16 19 16 14
23 20 17 20 14 23 21 17
22 17 18 19 18 25 20 19
21 15 20 18 20 20 18 13
19 18 15 15 18 23 22 20
18 16 10 16 14 18 20 18
17 14 10 13 13 15 14 17
15 13 11 10 17 16 15 11
h = 4 ≈ 3
√
I (19,16) 3
I (18,14) 4 , (18,19) 1,
I (17,18) 1, (16,23) 7,(15,16) 1
I (15,20) 5, (14,25) 11 ,(10,21) 11, (15,14) 1
I (13,20) 7,(10,20) 10,(16,17) 1
I (11,18) 7 ,(13,19) 6
I (10,13) 3
31 / 62

√
2
26 22 19 14 16 19 16 14
23 20 17 20 14 23 21 17
22 17 18 19 18 25 20 19
21 15 20 18 20 20 18 13
19 18 15 15 18 23 22 20
18 16 10 16 14 18 20 18
17 14 10 13 13 15 14 17
15 13 11 10 17 16 15 11
h = 4 ≈ 3
√
I (19,16) 3
I (18,14) 4 , (18,19) 1,
I (17,18) 1, (16,23) 7,(15,16) 1
I (15,20) 5, (14,25) 11 ,(10,21) 11, (15,14) 1
I (13,20) 7,(10,20) 10,(16,17) 1
I (11,18) 7 ,(13,19) 6
I (10,13) 3
Soit N(4)=16
31 / 62

√
2
26 22 19 14 16 19 16 14
23 20 17 20 14 23 21 17
22 17 18 19 18 25 20 19
21 15 20 18 20 20 18 13
19 18 15 15 18 23 22 20
18 16 10 16 14 18 20 18
17 14 10 13 13 15 14 17
15 13 11 10 17 16 15 11
h = 4 ≈ 3
√
I (19,16) 3
I (18,14) 4 , (18,19) 1,
I (17,18) 1, (16,23) 7,(15,16) 1
I (15,20) 5, (14,25) 11 ,(10,21) 11, (15,14) 1
I (13,20) 7,(10,20) 10,(16,17) 1
I (11,18) 7 ,(13,19) 6
I (10,13) 3
Soit N(4)=16
γ∗
(4) =
1
2 ∗ 16

32
+ 42
+ 12
+ 12
+ 72
+ 12
+ 52
+ 112
+ 112
+ 12
+ 72
+ 102
+ 12
+ 72
+ 62
+ 32

=
589/32 = 18.4
31 / 62

A titre d’exemple voici les paires distances de 2
√
2 ≈ 3 :
26 22 19 14 16 19 16 14
23 20 17 20 14 23 21 17
22 17 18 19 18 25 20 19
21 15 20 18 20 20 18 13
19 18 15 15 18 23 22 20
18 16 10 16 14 18 20 18
17 14 10 13 13 15 14 17
15 13 11 10 17 16 15 11
I (21,14),
I (19,20), (15,16),
I (18,19), (18,14), (20,19)
I (17,18), (16,18), (15, 23), (18,16)
I (15,15), (14,20), (10,25),(15,21), (20,14)
par symétrie on obtient 25 paires distantes de 2
√
2 i.e. N(3)=25
32 / 62

Correlation spatial
Dans une situation de stationnarité d’ordre 2
I Exponentiel C(h) = σ2 exp(−h/d)
I Gaussienne C(h) = σ2 exp(−(h/d)2)
Où d est à spécifier
33 / 62

Exemple de semi-variogramme γ
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
distance
γ
(
h
)
exponential
spherical
gaussian
geoR package cov.spatial() 34 / 62

Estimation par krigeage
1. Le problème
2. Estimation par krigeage
I Estimation de la variable
I Estimation de l’erreur locale
3. Etude de la corrélation spatiale
I Modélisation du variogramme
4. Application au krigeage
35 / 62

Position du problème
I Considérons une variable spatiale telle que la concentration
d’un polluant dans le sol : continuité
I A un moment donné, elle est supposée avoir une valeur
déterminée en tout point d’un domaine donné (Ω ou D)
I Mais elle n’est connue que par sondage en des points
particuliers
36 / 62

Le problème
1. Comment reconstituer sa valeur en un point non sondé
2. Quelle erreur commet-on ?
3. Comment la cartographier ?
37 / 62

Variable spatialisée
Z(X)
où
I X s’entend comme une localisation dans le plan ou l’espace
I Couple de coordonnées cartésiennes (x,y ) Triplet (x,y,z )
On suppose aussi que Z(X) est intégrable (moyennable) sur tout
ouvert de Ω
38 / 62

Estimation (ponctuel) par Krigeage
Idée : Un barycentre local
⇒ Interpolation linéaire sans biais de variance minimale
I On cherche un estimateur de la forme
z∗
v =
X
i
λi z(xi )
39 / 62

Propriétés de la variable Z∗
v =
P
i λiZ(xi)
I Sans biais E(Z∗
v − Zv ) = 0
I De variance minimale Var[Z∗
v − Zv ]
Aux points observés l’erreur doit être nulle
40 / 62

E[Z(x)] est inconnu : Krigeage ordinaire
On suppose que Z(x) est stationnaire de moyenne m sur
l’ensemble du domaine V
V peut être un volume, une surface ou un point .
E[Z(x)] = m = E[Zv ]
L’erreur d’estimation,[Z∗
v − Zv ], vaut en moyenne :
E[
X
i
λi Z(xi ) − Zv ] =
X
λi m − m = m
hX
λi − 1
i
Pour obtenir un estimateur sans biais il faut que soit
I m = 0
I ou
P
λi − 1 = 0 (Krigeage Ordinaire)
Le cas m = 0 correspond au Krigeage Simple (m est connu, et on
centre Z)
41 / 62

Krigeage Ordinaire: Variance minimale
Sous la contrainte
P
λi − 1 = 0 on veut minimiser Var[Z∗
v − Zv ]
42 / 62

Krigeage Ordinaire: Variance minimale
Sous la contrainte
P
λi − 1 = 0 on veut minimiser Var[Z∗
v − Zv ]
Var[Z∗
v − Zv ] =
X X
λi λj C(xi , xj ) + C̄(V , V ) − 2
X
λi C̄(xi , V )
σ2
= 2
X
λi γ̂(xi , V ) −
X X
λi λj γ(xi , xj ) − γ̄(V , V )
où γ̂(xi , V ) =
1
V
R
v γ(xi − x)dx
42 / 62

Minimisation sous contrainte : rappel
Multiplicateur de Lagrange
Supposons qu’on veuille minimiser f (x, y) = x2 + y2 sous la
contrainte g(x, y) = x2y − 16 = 0
On pose
L(x, y, µ = f (x, y) − µg(x, y)
et on veut minimiser
L(x, y, µ) = x2
+ y2
+ µ(x2
y − 16)
43 / 62

Multiplicateur de Lagrange
∂L
∂x
= 2x + µ2xy = 0 (1)
∂L
∂y
= 2y + µx2
= 0 (2)
∂L
∂µ
= x2
y − 16 = 0 (3)
Donc de (1) : x = 0 ou y = −1/µ d’où de (2) x2 = −2y/µ et
µ = 2
Le minimum de la fonction f sous la contrainte g = 0 est
(x = 1/
√
2,y=1/2)
44 / 62

Minimisation sous contrainte de la variance de krigeage
φ = Var[Z∗
v − Zv ] − 2µ
X
λi − 1

dans le cas ponctuel (V est alors un point)
45 / 62

Formulation
E[b
Z(X) − Z(X))2
] = E(b
Z(X)2
) − 2E(Z(X)b
Z(X)) + E(Z(X)2
)
=
X
i
X
j
λi λj E(Zi Zj ) − 2
X
i
λi E(Zi Z(X)) + C(0)
Que l’on note
X
i
X
j
λi λj Cij − 2
X
i
λi CiX + C(0)
46 / 62

Que sont les coefficients C ?
Ce sont les covariances spatiales
I Cij est la covariance entre les points observés i et j (C(xi , xj ))
I CiX est la covariance entre le point observé i et le point
d’estimation X (C̄(xi , V ))
I C0 est la covariance entre un point et lui même, c’est à dire la
variance locale (C̄(V , V ))
I Cii = CXX = C(0) = σ2 : hypothèse stationnaire
47 / 62

Krigeage ordinaire
On doit résoudre un problème de minimisation sous contrainte :
L(λ1, . . . , λn, ν) =
X
i
X
j
λi λj Cij −2
X
i
λi CiX +C(0)+2µ(
X
λi −1)
∂L
∂λi
= 2
n
X
i
λi Cij − 2CiX + 2µ = 0
∂L
∂µ
=
X
λi − 1 = 0
48 / 62

Krigeage Ordinaire
Sous forme matricielle on obtient
K Λ = KX
où
K =






C11 C12 . . . C1n 1
C21 C22 . . . C2n 1
Cn1 Cn2 . . . Cnn 1
1 1 . . . 1 0






Λ = (λ1, . . . , λn, µ)T
et KX = (C1X , . . . , CnX , 1)T
d’où
b
Λ = K−1
KX
49 / 62

Krigeage ordinaire : Erreur
Comme b
Λ = K−1 KX
Var(b
Z) = b
ΛT b
Λ Var(Z) = KX
T
K−2
KX C(0)
50 / 62

Krigeage simple (m est connu)
Nous allons
1. dériver l’espérance de l’erreur quadratique par rapport aux
différents λ
2. annuler toutes ces dérivées partielles pour trouver le minimum
⇒ système des équations normales
51 / 62

E2
=
X
i
X
j
λi λj Cij − 2
X
i
λi CiX + C(0)
dE2
/dλi = 0 ↔ 2
X
j
λj Cij − 2CiX = 0
D’où X
j
λj Cij = CiX
n équations
52 / 62

Equations normales
Qu’on reformule C Λ = CX
D’où
b
Λ = C−1
CX
53 / 62

I Le krigeage simple est donc aisé à mettre en oeuvre
I On inverse une fois pour toute la matrice C
I On définit le vecteur CX
I On définit le vecteur CX pour chaque nouvel emplacement à
estimer (long)
54 / 62

L’erreur
Elle se déduit de la formule précédente
I b
Z(X) =
P
i λi (X)Z(Xi ) = ΛT Z
I Var(b
Z) = ΛT Λ Var(Z) = CX
T
C−2 CXC(0)
L’erreur est régionalisée : on peut la représenter
55 / 62

Illustration : données topo
● ● ●
● ●
● ●
●
●
●
●
●
● ●
●
● ● ●
●
● ●
●
● ●
●
● ●
●
●
●
● ●
● ● ●
● ●
● ●
● ●
● ●
●
●
●
●
●
●
●
●
●
0 1 2 3 4 5 6
0
1
2
3
4
5
6
topo$x
topo$y
56 / 62

Estimations par krigeage simple
725
750
775
800
825
850
850
875
900
900
9
0
0
925
1
2
3
4
5
6
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
● ● ●
●
●
●
●
● ●
●
● ●
●
●
●
●
●
●
● ●
● ●
●
●
● ●
●
●
●
●
57 / 62

Erreurs de prédictions
0
2
0
20
2
0
20
20
20
20
20
20
20
2
0
2
0
2
0
20
20
20
20
20
20
2
0
2
5
25
25
2
5
25
25
25
1
2
3
4
5
6
● ● ●
● ●
● ●
●
●
●
●
●
● ●
●
● ● ●
●
● ●
●
● ●
●
● ●
●
●
●
● ●
● ● ●
● ●
● ●
● ●
●
●
●
58 / 62

Geostatistique : Pollution de la rivière Meuse
I Un example classique
I 155 échantillons de sol (en surface) : métaux lourds
I Localisation Stein (NL)
60 / 62

_Geostatistique.pdf gly.hyurteryù^llcvfd

Recommandé

Recommandé

Contenu connexe

Similaire à _Geostatistique.pdf gly.hyurteryù^llcvfd

Similaire à _Geostatistique.pdf gly.hyurteryù^llcvfd (20)

Dernier

Dernier (15)

_Geostatistique.pdf gly.hyurteryù^llcvfd