1. STA 112 : Geostatistique
A. Latouche
aurelien.latouche@cnam.fr
1 / 62
2. STA 112 Statistique Spatiale et Longitudinale
I Géostatistique : Variogramme , Krigeage
I Modèles hiérarchique bayésiens : application en Epidémiologie
Toujours vérifier les salles et séances
http://maths.cnam.fr/spip.php?article390
2 / 62
3. Evaluation
I La note finale de l’UE STA 112 se compose d’une note
d’examen (2/3) et d’une note de projet (1/3)
I Il y 2 sessions pour l’examen et le projet.
I Vous devez donc rendre votre projet lors de la semaine
d’examen (juin et septembre).
Le projet comporte 1 analyse de données spatiales et 1 analyse de
données longitudinales
les données à analyser seront disponibles sur le site de l’UE
3 / 62
4. Données spatiales et visualisation avec R
La page de référence
http://cran.r-project.org/web/views/Spatial.html
Data management sp, rgdal, maptools
Integration with other GIS gdal, RArcInfo, SQLiteMap,
RgoogleMaps, spgrass6, RPyGeo,
R2WinBUGS, geonames
Point pattern analysis spatstat, splancs, spatialkerne
Geostatistics gstat, geoR, geoRglm, spBayes
Disease mapping DCluster, spgwr, glmmBUGS,
diseasemapping
Spatial regression spdep, spatcounts
4 / 62
5. Géostatistique
I Historiquement : Gisement minier
I Hydrologie, Agriculture, Science de l’environnement
(Pollution)
I Objectif : Prédiction de gisement à partir de forages
Définition
La Géostatistique a pour objet de Modéliser des covariations
spatiales et de Prédire la mesure en un point non observé
On effectue de l’interpolation spatiale (krigeage)
5 / 62
6. Singularité des données spatiales
I En statistique classique, l’inférence des paramètres est rendue
possible par la répétition indépendante des données.
I En statistiques spatiales, on observe très souvent une
réalisation unique des données
I Par exemple
I un épisode de pollution à l’ozone
I une région agricole particulière
I une épidémie . . .
6 / 62
7. Singularité des données spatiales
Exemple Données de pluviométrie (package geoR, data(parana))
I Les mesures sont discrètes : 143 stations, pluviométrie
moyenne de plusieurs années de mai à juin
I Le phénomène spatial est définit partout sur le domaine
d’étude
200 300 400 500 600 700 800
0
100
200
300
400
500
600
E−W (km)
N−S
(km)
7 / 62
8. Singularité des données spatiales
Pour pouvoir réaliser l’inférence statistique pour un évènement
unique, il faut donc en quelques sortes remplacer
I l’hypothèse sur les répétitions indépendantes par une
hypothèse sur le champ aléatoire
I Cette hypothèse considère d’une part que certaines de ses
caractéristiques sont identiques d’un point à l’autre de
l’espace,
I et d’autre part que l’espérance de certaines grandeurs sont
accessibles par des intégrales sur l’espace.
⇒ On pose donc des hypothèses de stationnarité
8 / 62
12. Loi normale Multivariée
U ∼ MVN(µ, Σ)
I U est un vecteur de N observations
I µ un vecteur de moyenne, E(Ui ) = µi
I Σ matrice de variance-covariance N × N
Sa densité
pr(Y ∈ A) =
Z
A
f (y)dy
f (y) =
1
(2π)N/2|Σ|1/2
exp
−
1
2
(y − µ)0
Σ−1
(y − µ)
12 / 62
14. Phénomènes/Processus aléatoire
En temps
1900 1940 1980
0
2
4
6
years
cancer
rate
I U(t) série chronologique
I indexée par l’instant t
I notée aussi Ut
En espace
I U(x, y) est un champs
aléatoire
I Notations U(x), x = (x1, x2)
I Ui = U(si ), si = (si1, si2)
14 / 62
15. Covariance et champs aléatoire
I Soit Z(x) pour x ∈ D
I on supposera que Var(Z(x)) existe
I On parle de champs d’ordre 2
I ceci assure l’existence de la fonction de covariance
C(x, y) = Cov(Z(x), Z(y))
pour y ∈ D
15 / 62
16. Processus Stationnaire et covariance
La loi d’un processus stationnaire est invariante par translation, ce
qui implique
I E[Z(x)] = m ∀x
I La covariance C(.) entre 2 points x et x + h ne dépend que de
h i.e.
E[Z(x)Z(x + h)] − m2
= C(h)
On ne spécifie pas d’hypothèse sur Var(Z(h)) car
Var(Z(x)) = C(0)
16 / 62
17. Processus stationnaire intrinsèque
Le cas stationnaire suppose que l’espérance est constante mais ceci
n’assure pas l’existence d’une covariance
On suppose donc
E[Z(x + h) − Z(x)] = 0
Var[Z(x + h) − Z(x)] ne dépend que de h
Définition
On appelle variogramme
γ(h) =
1
2
Var(Z(x + h) − Z(x))
Stationnaire ⇒ Intrinsèque
17 / 62
22. Stationnaire, Anisotrope
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
X Coord
Y
Coord
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
X Coord
Y
Coord
22 / 62
23. Variogramme Empirique : estimation
γ∗
(h) =
1
2 N(h)
N(h)
X
i=1
[Z(xi + h) − Z(x)]2
où
I xi : lieu de prélévement
I Z(xi ) : les valeurs des prévélements
I N(h) : le nombre de pairs (xi , xi + h) séparée d’une distance h
23 / 62
26. Variogramme empirique : Vertical
On vous donne 2 portions de forage sur lesquelles sont indiquées
les teneurs en Aluminium (ppm) pour des carottes de 3m. Les 2
forages sont espacés de 9m de centre à centre.
Forage 1 Forage 2
5.2 5.2
2.3 4.6
3.7 6.3
9.1 2.7
Calculer le variogramme expérimental à la distance h=9m
26 / 62
31. Variogramme experimental 2D: direction N-E S-O
I Calculer N(4) γ∗(4)
Les prélèvements étants distants d”une unité dans les directions
N-S et E-O, la distance entre des blocs sur les 2 directions
diagonales est multiple de
√
2
26 22 19 14 16 19 16 14
23 20 17 20 14 23 21 17
22 17 18 19 18 25 20 19
21 15 20 18 20 20 18 13
19 18 15 15 18 23 22 20
18 16 10 16 14 18 20 18
17 14 10 13 13 15 14 17
15 13 11 10 17 16 15 11
h = 4 ≈ 3
√
2, on dénombre les paires distantes de 3 diagonales ainsi que la valeur des prélèvements
31 / 62
32. Variogramme experimental 2D: direction N-E S-O
I Calculer N(4) γ∗(4)
Les prélèvements étants distants d”une unité dans les directions
N-S et E-O, la distance entre des blocs sur les 2 directions
diagonales est multiple de
√
2
26 22 19 14 16 19 16 14
23 20 17 20 14 23 21 17
22 17 18 19 18 25 20 19
21 15 20 18 20 20 18 13
19 18 15 15 18 23 22 20
18 16 10 16 14 18 20 18
17 14 10 13 13 15 14 17
15 13 11 10 17 16 15 11
h = 4 ≈ 3
√
2, on dénombre les paires distantes de 3 diagonales ainsi que la valeur des prélèvements
I (19,16) 3
I (18,14) 4 , (18,19) 1,
I (17,18) 1, (16,23) 7,(15,16) 1
I (15,20) 5, (14,25) 11 ,(10,21) 11, (15,14) 1
I (13,20) 7,(10,20) 10,(16,17) 1
I (11,18) 7 ,(13,19) 6
I (10,13) 3
31 / 62
33. Variogramme experimental 2D: direction N-E S-O
I Calculer N(4) γ∗(4)
Les prélèvements étants distants d”une unité dans les directions
N-S et E-O, la distance entre des blocs sur les 2 directions
diagonales est multiple de
√
2
26 22 19 14 16 19 16 14
23 20 17 20 14 23 21 17
22 17 18 19 18 25 20 19
21 15 20 18 20 20 18 13
19 18 15 15 18 23 22 20
18 16 10 16 14 18 20 18
17 14 10 13 13 15 14 17
15 13 11 10 17 16 15 11
h = 4 ≈ 3
√
2, on dénombre les paires distantes de 3 diagonales ainsi que la valeur des prélèvements
I (19,16) 3
I (18,14) 4 , (18,19) 1,
I (17,18) 1, (16,23) 7,(15,16) 1
I (15,20) 5, (14,25) 11 ,(10,21) 11, (15,14) 1
I (13,20) 7,(10,20) 10,(16,17) 1
I (11,18) 7 ,(13,19) 6
I (10,13) 3
Soit N(4)=16
31 / 62
34. Variogramme experimental 2D: direction N-E S-O
I Calculer N(4) γ∗(4)
Les prélèvements étants distants d”une unité dans les directions
N-S et E-O, la distance entre des blocs sur les 2 directions
diagonales est multiple de
√
2
26 22 19 14 16 19 16 14
23 20 17 20 14 23 21 17
22 17 18 19 18 25 20 19
21 15 20 18 20 20 18 13
19 18 15 15 18 23 22 20
18 16 10 16 14 18 20 18
17 14 10 13 13 15 14 17
15 13 11 10 17 16 15 11
h = 4 ≈ 3
√
2, on dénombre les paires distantes de 3 diagonales ainsi que la valeur des prélèvements
I (19,16) 3
I (18,14) 4 , (18,19) 1,
I (17,18) 1, (16,23) 7,(15,16) 1
I (15,20) 5, (14,25) 11 ,(10,21) 11, (15,14) 1
I (13,20) 7,(10,20) 10,(16,17) 1
I (11,18) 7 ,(13,19) 6
I (10,13) 3
Soit N(4)=16
γ∗
(4) =
1
2 ∗ 16
32
+ 42
+ 12
+ 12
+ 72
+ 12
+ 52
+ 112
+ 112
+ 12
+ 72
+ 102
+ 12
+ 72
+ 62
+ 32
=
589/32 = 18.4
31 / 62
35. A titre d’exemple voici les paires distances de 2
√
2 ≈ 3 :
26 22 19 14 16 19 16 14
23 20 17 20 14 23 21 17
22 17 18 19 18 25 20 19
21 15 20 18 20 20 18 13
19 18 15 15 18 23 22 20
18 16 10 16 14 18 20 18
17 14 10 13 13 15 14 17
15 13 11 10 17 16 15 11
I (21,14),
I (19,20), (15,16),
I (18,19), (18,14), (20,19)
I (17,18), (16,18), (15, 23), (18,16)
I (15,15), (14,20), (10,25),(15,21), (20,14)
par symétrie on obtient 25 paires distantes de 2
√
2 i.e. N(3)=25
32 / 62
36. Correlation spatial
Dans une situation de stationnarité d’ordre 2
I Exponentiel C(h) = σ2 exp(−h/d)
I Gaussienne C(h) = σ2 exp(−(h/d)2)
Où d est à spécifier
33 / 62
38. Estimation par krigeage
1. Le problème
2. Estimation par krigeage
I Estimation de la variable
I Estimation de l’erreur locale
3. Etude de la corrélation spatiale
I Modélisation du variogramme
4. Application au krigeage
35 / 62
39. Position du problème
I Considérons une variable spatiale telle que la concentration
d’un polluant dans le sol : continuité
I A un moment donné, elle est supposée avoir une valeur
déterminée en tout point d’un domaine donné (Ω ou D)
I Mais elle n’est connue que par sondage en des points
particuliers
36 / 62
40. Le problème
1. Comment reconstituer sa valeur en un point non sondé
2. Quelle erreur commet-on ?
3. Comment la cartographier ?
37 / 62
41. Variable spatialisée
Z(X)
où
I X s’entend comme une localisation dans le plan ou l’espace
I Couple de coordonnées cartésiennes (x,y ) Triplet (x,y,z )
On suppose aussi que Z(X) est intégrable (moyennable) sur tout
ouvert de Ω
38 / 62
42. Estimation (ponctuel) par Krigeage
Idée : Un barycentre local
⇒ Interpolation linéaire sans biais de variance minimale
I On cherche un estimateur de la forme
z∗
v =
X
i
λi z(xi )
39 / 62
43. Propriétés de la variable Z∗
v =
P
i λiZ(xi)
I Sans biais E(Z∗
v − Zv ) = 0
I De variance minimale Var[Z∗
v − Zv ]
Aux points observés l’erreur doit être nulle
40 / 62
44. E[Z(x)] est inconnu : Krigeage ordinaire
On suppose que Z(x) est stationnaire de moyenne m sur
l’ensemble du domaine V
V peut être un volume, une surface ou un point .
E[Z(x)] = m = E[Zv ]
L’erreur d’estimation,[Z∗
v − Zv ], vaut en moyenne :
E[
X
i
λi Z(xi ) − Zv ] =
X
λi m − m = m
hX
λi − 1
i
Pour obtenir un estimateur sans biais il faut que soit
I m = 0
I ou
P
λi − 1 = 0 (Krigeage Ordinaire)
Le cas m = 0 correspond au Krigeage Simple (m est connu, et on
centre Z)
41 / 62
46. Krigeage Ordinaire: Variance minimale
Sous la contrainte
P
λi − 1 = 0 on veut minimiser Var[Z∗
v − Zv ]
Var[Z∗
v − Zv ] =
X X
λi λj C(xi , xj ) + C̄(V , V ) − 2
X
λi C̄(xi , V )
σ2
= 2
X
λi γ̂(xi , V ) −
X X
λi λj γ(xi , xj ) − γ̄(V , V )
où γ̂(xi , V ) =
1
V
R
v γ(xi − x)dx
42 / 62
47. Minimisation sous contrainte : rappel
Multiplicateur de Lagrange
Supposons qu’on veuille minimiser f (x, y) = x2 + y2 sous la
contrainte g(x, y) = x2y − 16 = 0
On pose
L(x, y, µ = f (x, y) − µg(x, y)
et on veut minimiser
L(x, y, µ) = x2
+ y2
+ µ(x2
y − 16)
43 / 62
48. Multiplicateur de Lagrange
∂L
∂x
= 2x + µ2xy = 0 (1)
∂L
∂y
= 2y + µx2
= 0 (2)
∂L
∂µ
= x2
y − 16 = 0 (3)
Donc de (1) : x = 0 ou y = −1/µ d’où de (2) x2 = −2y/µ et
µ = 2
Le minimum de la fonction f sous la contrainte g = 0 est
(x = 1/
√
2,y=1/2)
44 / 62
49. Minimisation sous contrainte de la variance de krigeage
φ = Var[Z∗
v − Zv ] − 2µ
X
λi − 1
dans le cas ponctuel (V est alors un point)
45 / 62
50. Formulation
E[b
Z(X) − Z(X))2
] = E(b
Z(X)2
) − 2E(Z(X)b
Z(X)) + E(Z(X)2
)
=
X
i
X
j
λi λj E(Zi Zj ) − 2
X
i
λi E(Zi Z(X)) + C(0)
Que l’on note
X
i
X
j
λi λj Cij − 2
X
i
λi CiX + C(0)
46 / 62
51. Que sont les coefficients C ?
Ce sont les covariances spatiales
I Cij est la covariance entre les points observés i et j (C(xi , xj ))
I CiX est la covariance entre le point observé i et le point
d’estimation X (C̄(xi , V ))
I C0 est la covariance entre un point et lui même, c’est à dire la
variance locale (C̄(V , V ))
I Cii = CXX = C(0) = σ2 : hypothèse stationnaire
47 / 62
52. Krigeage ordinaire
On doit résoudre un problème de minimisation sous contrainte :
L(λ1, . . . , λn, ν) =
X
i
X
j
λi λj Cij −2
X
i
λi CiX +C(0)+2µ(
X
λi −1)
∂L
∂λi
= 2
n
X
i
λi Cij − 2CiX + 2µ = 0
∂L
∂µ
=
X
λi − 1 = 0
48 / 62
54. Krigeage ordinaire : Erreur
Comme b
Λ = K−1 KX
Var(b
Z) = b
ΛT b
Λ Var(Z) = KX
T
K−2
KX C(0)
50 / 62
55. Krigeage simple (m est connu)
Nous allons
1. dériver l’espérance de l’erreur quadratique par rapport aux
différents λ
2. annuler toutes ces dérivées partielles pour trouver le minimum
⇒ système des équations normales
51 / 62
56. E2
=
X
i
X
j
λi λj Cij − 2
X
i
λi CiX + C(0)
dE2
/dλi = 0 ↔ 2
X
j
λj Cij − 2CiX = 0
D’où X
j
λj Cij = CiX
n équations
52 / 62
58. I Le krigeage simple est donc aisé à mettre en oeuvre
I On inverse une fois pour toute la matrice C
I On définit le vecteur CX
I On définit le vecteur CX pour chaque nouvel emplacement à
estimer (long)
54 / 62
59. L’erreur
Elle se déduit de la formule précédente
I b
Z(X) =
P
i λi (X)Z(Xi ) = ΛT Z
I Var(b
Z) = ΛT Λ Var(Z) = CX
T
C−2 CXC(0)
L’erreur est régionalisée : on peut la représenter
55 / 62
64. Geostatistique : Pollution de la rivière Meuse
I Un example classique
I 155 échantillons de sol (en surface) : métaux lourds
I Localisation Stein (NL)
60 / 62