Modèles numériques coûteux : de la quantification des incertitudes la planification séquentielle d'expériences

Modèles numériques coûteux :
de la quantiﬁcation des incertitudes
à la planiﬁcation séquentielle d’expériences
(approche bayésienne)
Julien Bect
SUPELEC — IRT SystemX — GdR MASCOT-NUM
Séminaire LRC MANON
3 mars 2014
Julien Bect (SUPELEC) Computer experiments 3/3/2014 1 / 38

1 Introduction : exploration de modèles numériques coûteux
2 Exemple : planification séquentielle pour l’optimisation globale
3 Quantification et réduction séquentielle de l’incertitude
4 Bayesian Subset Simulation : un autre exemple de planification séquentielle
5 Conclusion

« Expériences numériques » (computer experiments) 1/2
x ∈ X ⊂ Rd
ξ(x) ∈ Rp
Soit ξ : X → Rp
un modèle numérique
d’un système à concevoir ou à étudier (ﬁabilité),
d’un phénomène physique ou biologique,
. . .

x ∈ X ⊂ Rd
ξ(x) ∈ Rp
Soit ξ : X → Rp
. . .
x : facteurs
paramètres de conception (à choisir),
paramètres physiques (éventuellement mal connus),
. . .

x ∈ X ⊂ Rd
ξ(x) ∈ Rp
Soit ξ : X → Rp
. . .
x : facteurs
paramètres de conception (à choisir),
paramètres physiques (éventuellement mal connus),
. . .
Qu’entendons-nous par « expérience numérique » ?
une expérience ≡ évaluer une réponse ξ(x) du code
chaque expérience coûte (souvent, du temps !)
budget d’expériences limité

x ∈ X ⊂ Rd
ξ(x) ∈ Rp
Point de vue du statisticien
le code est une « boîte noire »
on veut obtenir des informations sur ξ
à partir d’un échantillon : y1 = ξ(x1), y2 = ξ(x2), . . .

x ∈ X ⊂ Rd
ξ(x) ∈ Rp
Deux aspects, comme en statistique « classique »
planiﬁer les calculs (choisir x1, x2, . . . )
analyser les résultats et quantiﬁer les incertitudes

x ∈ X ⊂ Rd
ξ(x) ∈ Rp
Deux aspects, comme en statistique « classique »
planifier les calculs (choisir x1, x2, . . . )
analyser les résultats et quantifier les incertitudes
Planification séquentielle
planifier chaque calcul en fonction des précédents
couplage planification / analyse

Exemple 1 : optimisation de forme (Renault)
Contexte : CAO
calculs de CFD 3D
thèse de J. Villemonteix (2008)
encadrement : E. Vazquez,
M. Sidorkiewicz et E. Walter
Objectif(s)
optimiser la forme du conduit d’admission
maximiser les performances du moteur
minimiser les émissions de polluant
Caractéristiques
≈ 1 h / calcul
6 paramètres de forme à ajuster

Exemple 2 : projet BEMUSE (CEA, IRSN, . . . )
Contexte : sûreté nucléaire
calculs thermo-hydrauliques
réalisés avec le logiciel CATHARE
benchmark international
(de Crécy et al., NED, 2008)
Scenario
perte de réfrigérant due à une brèche
grandeur d’intérêt : température max.
Caractéristiques
≈ 10 minutes / calcul
53 paramètres incertains
Principaux objectifs
estimation d’un quantile de Tmax
analyse de sensibilité
(B. Iooss, J. Nat. Fiabilité, 2010)

Exemple 3 : étude d’un risque de crue (EDF R&D)
Contexte : sûreté des installations
calculs d’hydraulique
équ. de Saint Venant 1D ou 2D
logiciels
MASCARET (1D)
OpenTELEMAC (2D)
http://www.opentelemac.org
projet ANR OPUS
Scenario
étude du risque de crue
facteurs : débit, coeﬀ. de Strickler
réponse : hauteur d’eau H
Principaux objectifs
propagation d’incertitudes
estimation d’un quantile sur H
analyse de sensibilité
(M. Couplet et al, JdS 2010 ; Arnaud et al, JdS 2010)

Objectif(s) : ce que l’on veut savoir sur ξ
Construire un « méta-modèle » : approximation peu coûteuse
approximation globale, sur l’ensemble du domaine X,
ou locale, par ex. précise au voisinage d’un seuil

Chercher un optimum de performance ou un pire cas
chercher x∗
= argmax ξ et/ou ξ∗
= ξ(x∗
)
optimisation multi-objectif / sous contraintes / robuste / . . .
estimer un ensemble admissible : {x ∈ X, ξ(x) > ξcrit}

chercher x∗
= ξ(x∗
)
Propagation d’incertitude : X ∼ PX
estimer une proba de défaillance : PX (ξ(X) > ξcrit)
estimer un quantile
caractériser la loi de Y = ξ(X)
réaliser une analyse de sensibilité
. . .

chercher x∗
= ξ(x∗
)
Propagation d’incertitude : X ∼ PX
estimer une proba de défaillance : PX (ξ(X) > ξcrit)
estimer un quantile
caractériser la loi de Y = ξ(X)
réaliser une analyse de sensibilité
. . .
En pratique : bien souvent, un mélange de tous ces objectifs !

Diversité des codes de calculs
Cadre computer experiments traditionnel
code de calcul déterministe, (plus ou moins) coûteux
diﬀérence importante avec les expériences physique :
faire des répétitions n’a pas de sens !

Simulateurs stochastiques
sortie aléatoire : x → ξ(x) + bruit
Multi-ﬁdélité
plusieurs simulateurs, plus ou moins précis
exemple : 1D / 2D / 3D
simulateur à précision « ajustable »
exemple : pas de discrétisation, tolérance, . . .

Simulateurs stochastiques
sortie aléatoire : x → ξ(x) + bruit
Multi-ﬁdélité
plusieurs simulateurs, plus ou moins précis
exemple : 1D / 2D / 3D
simulateur à précision « ajustable »
exemple : pas de discrétisation, tolérance, . . .
Disponibilité du gradient ?
souvent, pas de gradient disponible
exception : code adjoint

5 Conclusion

Optimisation globale
On considère un problème d’optimisation globale
fonction ξ a priori multimodale
évaluations coûteuses, gradient supposé non disponible
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−2
−1.5
−1
−0.5
0
0.5
1
1.5
2
x
ξ(x)

Optimisation globale
On considère un problème d’optimisation globale
fonction ξ a priori multimodale
évaluations coûteuses, gradient supposé non disponible
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−2
−1.5
−1
−0.5
0
0.5
1
1.5
2
x
ξ(x)
Problème
Quelle planiﬁcation (séquentielle) d’expériences utiliser ?

Utilisation d’un méta-modèle
Méta-modèle ?
modèle simpliﬁé de ξ, plus rapide à évaluer
exemples : krigeage, RBF, réseau de neurones. . .
cas d’observations sans bruit −→ interpolation en général
Un algorithme simple utilisant un méta-modèle
1 init : remplir X avec n0 < N points
2 pour n = n0 + 1 : N,
ajuster un méta-modèle aux données x1, ξ(x1), . . . , xn−1, ξ(xn−1)
utiliser ce méta-modèle pour choisir xn
3 renvoyer ˆx∗
= argmax1≤i≤n ξ(xi) et ˆξ∗
= ξ (ˆx∗
)

Illustration : usage optimiste du méta-modèle
Exemple avec X = [0; 1], méta-modèle : krigeage (point de vue interpolation)
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−2
−1.5
−1
−0.5
0
0.5
1
1.5
2
x
ξ(x) n = n0 = 4

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−2
−1.5
−1
−0.5
0
0.5
1
1.5
2
x
ξ(x) n = 5

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−2
−1.5
−1
−0.5
0
0.5
1
1.5
2
x
ξ(x) n = 6

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−2
−1.5
−1
−0.5
0
0.5
1
1.5
2
x
ξ(x) n = 7

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−2
−1.5
−1
−0.5
0
0.5
1
1.5
2
x
ξ(x) n = 8

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−2
−1.5
−1
−0.5
0
0.5
1
1.5
2
x
ξ(x) n = 9

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−2
−1.5
−1
−0.5
0
0.5
1
1.5
2
x
ξ(x) n = 10

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−2
−1.5
−1
−0.5
0
0.5
1
1.5
2
x
ξ(x) n = 11

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−2
−1.5
−1
−0.5
0
0.5
1
1.5
2
x
ξ(x) n = 12

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−2
−1.5
−1
−0.5
0
0.5
1
1.5
2
x
ξ(x) n = 13
Convergence vers un maximum local !

Principes de l’optimisation bayésienne
Constat essentiel
Nécessité de réaliser un compromis entre
exploitation des régions prometteuses,
exploration des régions mal connues.

Principes de l’optimisation bayésienne
Constat essentiel
Nécessité de réaliser un compromis entre
exploitation des régions prometteuses,
exploration des régions mal connues.
Solution bayésienne
Nécessité de quantiﬁer l’incertitude pour faire des
choix rationnels.
La théorie bayésienne de la décision fournit un
cadre cohérent → représentation probabiliste de
l’incertitude.
Repères biblio de base :
H. Kushner (1964) : critère PI
J. Mockus et A. Žilinskas (70’s) : critère EI
D. Jones et al. (1998) : algorithme « EGO »
Harold Kushner
Antanas ˘Zilinskas
Jonas Mockus

Loi a priori / a posteriori
Informations a priori sur ξ −→ processus aléatoire, i.e. P0 = P (ξ ∈ · | I0)
régularité (dérivabilité, vitesse de variation, . . . )
« tendance » (linéaire, quadratique, . . . )
symétries, monotonie, . . .

Mise à jour des connaissances
après n évaluations, on a appris : ξn = (ξ(x1), . . . , ξ(xn))
loi a posteriori Pn = P0 (ξ ∈ · | ξn)

Mise à jour des connaissances
après n évaluations, on a appris : ξn = (ξ(x1), . . . , ξ(xn))
loi a posteriori Pn = P0 (ξ ∈ · | ξn)
Remarque importante
ˆξn(x) = E0 (ξ(x) | ξn) est un méta-modèle naturel dans ce cadre. . .
. . . mais Pn contient beaucoup plus d’information !

Illustration
Modèle : processus gaussien (covariance de Matérn, σ2
= 9, ν = 2, ρ = 0.5)
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−12
−10
−8
−6
−4
−2
0
2
4
6
8
x
ξ(x)
Simulations sous la loi a priori P0

Illustration
= 9, ν = 2, ρ = 0.5)
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−2
−1.5
−1
−0.5
0
0.5
1
1.5
2
x
ξ(x)
Moyenne a posteriori (i.e., moyenne sous Pn0
)
et intervalles ponctuels de crédibilité à 95%

Illustration
= 9, ν = 2, ρ = 0.5)
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−4
−3
−2
−1
0
1
2
3
x
ξ(x)
Simulations sous la loi a posteriori Pn0

Comment choisir xn+1 connaissant I0, ξn ?
1 En utilisant la loi a posteriori, on construit un critère d’échantillonnage
x ∈ X → Jn (x; I0, ξn)
qui mesure l’intérêt d’une évaluation en x.
2 On choisit le prochain point à l’aide de ce critère
xn+1 = argmax
x∈X
Jn (x; I0, ξn)

Comment choisir xn+1 connaissant I0, ξn ?
1 En utilisant la loi a posteriori, on construit un critère d’échantillonnage
x ∈ X → Jn (x; I0, ξn)
qui mesure l’intérêt d’une évaluation en x.
2 On choisit le prochain point à l’aide de ce critère
xn+1 = argmax
x∈X
Jn (x; I0, ξn)
Un critère très utilisé : expected improvement (EI)
Jn (x; I0, ξn) = E ((ξ(x) − Mn)+ | I0, ξn)
avec Mn = max (ξ(x1), . . . , ξ(xn)).

Illustration du critère EI (algorithme EGO)
= 9, ν = 2, ρ = 0.5)
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−2
−1.5
−1
−0.5
0
0.5
1
1.5
2
x
ξ(x)
n = n0 = 4

= 9, ν = 2, ρ = 0.5)
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−2
−1
0
1
2
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
0.1
0.2
0.3
0.4
EI
x
ξ(x)

= 9, ν = 2, ρ = 0.5)
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−2
−1
0
1
2
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
0.05
0.1
0.15
0.2
EI
x
ξ(x)

= 9, ν = 2, ρ = 0.5)
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−2
−1
0
1
2
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
EI
x
ξ(x)

= 9, ν = 2, ρ = 0.5)
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−2
−1
0
1
2
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
0.005
0.01
0.015
0.02
0.025
0.03
EI
x
ξ(x)

= 9, ν = 2, ρ = 0.5)
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−2
−1
0
1
2
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
0.005
0.01
0.015
0.02
0.025
EI
x
ξ(x)

= 9, ν = 2, ρ = 0.5)
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−2
−1
0
1
2
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
0.002
0.004
0.006
0.008
0.01
EI
x
ξ(x)

= 9, ν = 2, ρ = 0.5)
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−2
−1
0
1
2
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
1
2
3
4
5
6
x 10
−3
EI
x
ξ(x)

= 9, ν = 2, ρ = 0.5)
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−2
−1
0
1
2
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
0.5
1
1.5
2
2.5
3
x 10
−3
EI
x
ξ(x)

= 9, ν = 2, ρ = 0.5)
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−2
−1
0
1
2
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
0.5
1
1.5
2
2.5
x 10
−3
EI
x
ξ(x)

= 9, ν = 2, ρ = 0.5)
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−2
−1
0
1
2
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
0.005
0.01
0.015
0.02
EI
x
ξ(x)

= 9, ν = 2, ρ = 0.5)
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−2
−1
0
1
2
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
EI
x
ξ(x)

= 9, ν = 2, ρ = 0.5)
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−2
−1
0
1
2
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
0.2
0.4
0.6
0.8
1
x 10
−3
EI
x
ξ(x)

= 9, ν = 2, ρ = 0.5)
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−2
−1
0
1
2
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
2
4
6
8
x 10
−8
EI
x
ξ(x)

= 9, ν = 2, ρ = 0.5)
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−2
−1
0
1
2
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
0.5
1
1.5
2
x 10
−8
EI
x
ξ(x)
On ﬁnit (presque) toujours par explorer les zones « vides » !
cf. théorème(s) de convergence, Vazquez et Bect, 2010

5 Conclusion

Planiﬁer pour estimer une quantité d’intérêt
Soit une quantité d’intérêt θ = θ (ξ), par exemple
M∗
= maxx∈X ξ(x)
X∗
= argmaxx∈X ξ(x)
Γ = {x ∈ X : ξ(x) > T}
α = X
1Γ dµ
Problème
Comment planiﬁer (séquentiellement) les expériences numériques pour estimer
au mieux la quantité d’intérêt θ ?

Planifier pour estimer une quantité d’intérêt
Soit une quantité d’intérêt θ = θ (ξ), par exemple
M∗
= maxx∈X ξ(x)
X∗
= argmaxx∈X ξ(x)
Γ = {x ∈ X : ξ(x) > T}
α = X
1Γ dµ
Problème
Comment planifier (séquentiellement) les expériences numériques pour estimer
au mieux la quantité d’intérêt θ ?
Un schéma de réponse générique
1 Quantification de l’incertitude (approche bayésienne)
2 Réduction séquentielle de l’incertitude

Quantiﬁcation de l’incertitude
Approche bayésienne : notations
P0 : loi a priori sur ξ (ex : loi d’un processus gaussien)
X1, . . . , Xn : points d’évaluations
ATTENTION : les points d’évaluations dépendent de ξ, en séquentiel
In = (X1, ξ(X1), . . . , Xn, ξ(Xn)) : information acquise au temps n
Pn = P0 (· | In) : loi a posteriori

Quantiﬁcation de l’incertitude
Approche bayésienne : notations
P0 : loi a priori sur ξ (ex : loi d’un processus gaussien)
X1, . . . , Xn : points d’évaluations
ATTENTION : les points d’évaluations dépendent de ξ, en séquentiel
In = (X1, ξ(X1), . . . , Xn, ξ(Xn)) : information acquise au temps n
Pn = P0 (· | In) : loi a posteriori
Choix d’une mesure d’incertitude
On se donne une mesure d’incertitude Hn (risque) dépendant de In
techniquement : Hn est une fonction mesurable de In
Typiquement : Hn = En C θ(ξ), ˆθn , avec
ˆθn un estimateur de θ
C une fonction de coût (par ex : une distance)

Exemple : optimisation
Quantité d’intérêt : M∗
= maxx∈X ξ(x) (et/ou X∗
= argmaxx∈X ξ(x))
Mesure d’incertitude classique (cf. Mockus & Žilinskas ; années 70) :
Hn = En (M∗
− Mn) ,
où Mn = max1≤i≤n ξ(Xi).
Justiﬁcation : M∗
≥ Mn ps, donc par l’inégalité de Markov :
Pn (M∗
> Mn + c) ≤
En (M∗
− Mn)
c

Exemple : optimisation
= maxx∈X ξ(x) (et/ou X∗
= argmaxx∈X ξ(x))
Mesure d’incertitude classique (cf. Mockus & Žilinskas ; années 70) :
Hn = En (M∗
− Mn) ,
où Mn = max1≤i≤n ξ(Xi).
Justiﬁcation : M∗
≥ Mn ps, donc par l’inégalité de Markov :
Pn (M∗
> Mn + c) ≤
En (M∗
− Mn)
c
Autre possibilité : Hn = H (X∗
| In)
entropie conditionnelle du maximiseur
cf. algorithm IAGO, Villemonteix et al (2009)

Exemple : ensemble d’excursion (1/2)
Quantité d’intérêt : Γ = {x ∈ X : ξ(x) > T} ou α = X
1Γ dµ
Un choix possible (Bect et al. (2012) ; Chevalier (2013)) :
Hn = En 1Γ − pn
2
L2(µ) =
X
varn (1Γ(x)) dµ(x),
où pn(x) = Pn (ξ(x) > T) est la « fonction de classiﬁcation douce » induite
par ξ | In au seuil T.
Remarque : il s’agit d’un critère de type IMSE (MSE intégrée)

Quantité d’intérêt : Γ = {x ∈ X : ξ(x) > T} ou α = X
1Γ dµ
Un choix possible (Bect et al. (2012) ; Chevalier (2013)) :
Hn = En 1Γ − pn
2
L2(µ) =
X
varn (1Γ(x)) dµ(x),
où pn(x) = Pn (ξ(x) > T) est la « fonction de classiﬁcation douce » induite
par ξ | In au seuil T.
Remarque : il s’agit d’un critère de type IMSE (MSE intégrée)
Quelques autres critères dans la litérature :
variance de α (Vazquez & Piera Martinez, 2007 ; Chevalier et al, 2014)
tIMSE : IMSE « ciblée » (Picheny et al, 2010)
déviation de Vorob’ev (Chevalier et al, 2013)

Même modèle que précédemment ; seuil T = 0.
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−4
−2
0
2
4
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
0.5
1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
0.1
0.2
0.3
0.4
x
ξpnpn(1−pn)

Planiﬁcation : stratégie bayésienne optimale (1/3)
Supposons que l’on dispose d’un budget de N évaluations.
On veut choisir une stratégie de planiﬁcation séquentielle (non randomisée) :
X1 = x1,
X2 = ϕ1 (X1, ξ(X1)) ,
X3 = ϕ2 (X1, ξ(X1), X2, ξ(X2)) ,
. . . = . . .
Xn = ϕn−1 (X1, ξ(X1), . . . , Xn−1, ξ(Xn−1))
Stratégie bayésienne optimale
Ayant choisi un apriori P0 et une mesure d’incertitude HN , on voudrait
minimiser E0 (HN )
par rapport à x1, ϕ1, ϕ2, . . . , ϕn−1.

Posons En,x = En (· | Xn+1 = x).
Commençons petit : supposons N = 1. Alors
X∗
1 = argmin
x1
E0,x1
(H1)
Souvent, si ξ est un processus gaussien sous P0,
on sait calculer (ou approcher) l’espérance
pour l’argmin : optimisation numérique.

Posons En,x = En (· | Xn+1 = x).
Commençons petit : supposons N = 1. Alors
X∗
1 = argmin
x1
E0,x1
(H1)
Souvent, si ξ est un processus gaussien sous P0,
on sait calculer (ou approcher) l’espérance
pour l’argmin : optimisation numérique.
Un peu plus ambitieux : N = 2. Alors
X∗
1 = argmin
x1
E0,x1
min
x2
E1,x2
(H2) .
Le calcul, même approché, de X∗
1 devient très diﬃcile. . .
(même si on prend ξ gaussien sous Po !)

Stratégie bayésienne optimale
Pour un horizon N quelconque, la stratégie optimale s’exprime comme
solution d’un problème de programmation dynamique.
Dernier pas :
X∗
N = argmin
xN
EN−1,xN
(HN ) ,
R∗
N−1 = EN−1,X∗
N
(HN ) .
Puis, récursivement (n = N − 1, N − 2 . . .) :
X∗
n = argmin
xn
En−1,xn
(R∗
n) ,
R∗
n−1 = En−1,X∗
n
(R∗
n) .
R∗
n est le risque bayésien au temps n.

Planiﬁcation : stratégies bayésienne myopes
Principe général pour la construction de stratégies approchées :
Xn = argmin
xn
En−1,xn
Rn ,
où Rn est un substitut au risque bayésien (ﬁdèle, si possible).

Planiﬁcation : stratégies bayésienne myopes
Principe général pour la construction de stratégies approchées :
Xn = argmin
xn
En−1,xn
Rn ,
où Rn est un substitut au risque bayésien (ﬁdèle, si possible).
Dans la plupart des travaux en planif. séquentielle d’expériences numériques :
Xn = argmin
xn
En−1,xn
(Hn) .
On parle de stratégie bayésienne myope à un pas (ou « gloutonne »).

Exemple : optimisation (suite)
Comme précédemment, on prend
= maxx∈X ξ(x),
Mesure d’incertitude classique : Hn = En (M∗
− Mn).

= maxx∈X ξ(x),
− Mn).
Calcul de la stratégie myope à un pas :
Xn = argmin
xn
En−1,xn
(Hn)
= argmin
xn
En−1,xn
(M∗
− Mn)
= argmin
xn
[En−1,xn
(M∗
− Mn−1) − En−1,xn
(Mn − Mn−1)]

= maxx∈X ξ(x),
− Mn).
Xn = argmin
xn
En−1,xn
(Hn)
= argmin
xn
En−1,xn
(M∗
− Mn)
= argmin
xn
[En−1,xn
(M∗
− Mn−1) − En−1,xn
(Mn − Mn−1)]
= argmax
xn
En−1,xn
(Mn − Mn−1)
= argmax
xn
En−1,xn
(ξ(xn) − Mn−1)+
Expected Improvement (EI)

Exemple : ensemble d’excursion (suite)
Quantité d’intérêt : Γ = {x ∈ X : ξ(x) > T},
Mesure d’incertitude classique : Hn = En 1Γ − pn
2
L2(µ) .

2
L2(µ) .
Xn = argmin
xn
En−1,xn
(Hn)
= argmin
xn
En−1,xn
X
pn (1 − pn) dµ

2
L2(µ) .
Xn = argmin
xn
En−1,xn
(Hn)
= argmin
xn
En−1,xn
X
pn (1 − pn) dµ
≈ argmin
xn
1
m
m
j=1
En−1,xn
pn(Yj) (1 − pn(Yj))
avec Y1, . . . , Ym
iid
∼ µ
Remarque : voir Chevalier et al (in press) pour l’évaluation numérique rapide de l’expression
En−1,xn pn(y) (1 − pn(y)) lorsque ξ ∼ GP.

5 Conclusion

Bayesian Subset Simulation
Voir présentation PSAM11-ESREL 2012
http://fr.slideshare.net/JulienBect/bect-bsspsamesrel2012

5 Conclusion

Ce n’est que le début. . .
Abondante littérature sur la planification séquentielle bayésienne !
En particulier : travaux sur les critères d’échantillonnage
critères adaptés à chaque objectif particulier
approximation globale, optimisation, intégration, . . .
en cours : étude de la monotonie d’un code (collab. EDF R&D, MRI)
critères & modèles adaptés à différents contextes
calcul parallèle (évaluation par batchs)
simulateurs stochastiques, multi-fidélité, . . .

Ce n’est que le début. . .
Abondante littérature sur la planification séquentielle bayésienne !
En particulier : travaux sur les critères d’échantillonnage
critères adaptés à chaque objectif particulier
approximation globale, optimisation, intégration, . . .
en cours : étude de la monotonie d’un code (collab. EDF R&D, MRI)
critères & modèles adaptés à différents contextes
calcul parallèle (évaluation par batchs)
simulateurs stochastiques, multi-fidélité, . . .
Une communauté de recherche active
en France : le GdR MASCOT-NUM
Méthodes d’Analyse Stochastique pour les COdes et Traitements Numériques
http://www.gdr-mascotnum.fr
conférence annuelle : à Zurich en 2014
international : MUCM
Managing Uncertainty in Computer Models
http://www.mucm.ac.uk
travaux connexes dans la communauté machine learning
bandits, active learning, etc.

Références : optimisation bayésienne
H. J. Kushner (1964). A new method of locating the maximum point of an arbitrary
multipeak curve in the presence of noise, J. Basic Engineering, 86(1).
J. Mockus, V. Tiesis et Antanas Žilinskas (1978), The application of Bayesian methods
for seeking the extremum, in : Towards Global Optimization, volume 2.
D. R. Jones, M. Schonlau et W. J. Welch (1998). Efficient Global Optimization of
Expensive Black-Box Functions, J. Global Optimization, 13(4).
J. Villemonteix (2008). Optimisation de fonctions coûteuses. Thèse de l’Université
Paris-Sud XI, Faculté des Sciences d’Orsay.
J. Villemonteix, E. Vazquez et Éric Walter (2009). An informational approach to the
global optimization of expensive-to-evaluate functions, J. Global Optimization, 44(4).
D. Ginsbourger (2009). Métamodèles multiples pour l’approximation et l’optimisation
de fonctions numériques multivariables. Thèse de l’École des Mines de Saint-Etienne.
E. Vazquez et J. Bect (2010). Convergence properties of the expected improvement
algorithm with fixed mean and covariance functions, J. Statistical Planning and
Inference, 140(11).
A. D. Bull, (2011). Convergence rates of efficient global optimization algorithms, J.
Machine Learning Research, 12.
R. Benassi (2013). Nouvel algorithme d’optimisation bayésien utilisant une approche
Monte-Carlo séquentielle. Thèse de l’École Supérieure d’Électricité (Supélec).

Références : ensembles d’excursion & proba. (1/2)
E. Vazquez et M. Piera-Martinez (2007), Estimation du volume des ensembles
d’excursion d’un processus Gaussien par krigeage intrinsèque. 39ème Journées de
Statistiques (JdS 2007).
V. Picheny, D. Ginsbourger, O. Roustant, R. Haftka et N. H. Kim (2010), Adaptive
Designs of Experiments for Accurate Approximation of Target Regions, J. Mechanical
Design, 132(7).
V. Dubourg (2011), Méta-modèles adaptatifs pour l’analyse de ﬁabilité et
l’optimisation sous contrainte ﬁabiliste. Thèse de l’Université Blaise Pascal –
Clermont II.
J. Bect, D. Ginsbourger, L. Li, V. Picheny, E. Vazquez (2012). Sequential design of
computer experiments for the estimation of a probability of failure, Statistics and
Computing, 22(3).
L. Li (2012), Sequential Design of Experiments to Estimate a Probability of Failure.
Thèse de l’École Supérieure d’Électricité (Supélec).

Références : ensembles d’excursion & proba. (2/2)
L. Li, J. Bect et E. Vazquez (2012). Bayesian Subset Simulation : a kriging-based
subset simulation algorithm for the estimation of small probabilities of failure. Proc.
conf. PSAM 11 & ESREL 2012, 25-29 juin, Helsinki.
C. Chevalier (2013). Fast uncertainty reduction strategies relying on Gaussian process
models. PhD thesis. University of Bern.
C. Chevalier, D. Ginsbourger, J. Bect et I. Molchanov (2013). Estimating and
Quantifying Uncertainties on Level Sets Using the Vorob’ev Expectation and Deviation
with Gaussian Process Models, 10th International Workshop in Model-Oriented Design
and Analysis (mODa 10).
C. Chevalier, J. Bect, D. Ginsbourger, Y. Richet, V. Picheny et E. Vazquez (in press).
Fast parallel kriging-based stepwise uncertainty reduction with application to the
identiﬁcation of an excursion set, Technometrics.

Références pour les exemples de l’introduction
Exemple 1 : optimisation de la forme d’un conduit d’admission
J. Villemonteix (2008). Optimisation de fonctions coûteuses. Thèse de l’Université
Paris-Sud XI, Faculté des Sciences d’Orsay.
M. Xiao, R. Filomeno Coelho, P. Breitkopf, C. Knopf-Lenoir, P. Villon, M.
Sidorkiewicz (2009). Réduction de modèles par CPOD et krigeage. 9ème Colloque
National en Calcul des Structures, 25-29 mai, Giens, France.
Exemple 2 : projet BEMUSE
A. de Crécy et al (2008). Uncertainty and sensitivity analysis of the LOFT L2-5 test :
Results of the BEMUSE programme, Nuclear Engineering and Design, 238(12).
B. Iooss (2010). Exploration de modèles numériques à l’aide du krigeage. Journée
Nationales de Fiabilité, 24–26 mars, Toulouse.
Exemple 3 : étude d’un risque de crue
M. Couplet, L. Lebrusquet, A. Pasanisi (2010). Caractérisation des coefficients de
Strickler d’un fleuve par inversion probabiliste. 42èmes journées de Statistique (JdS
2010), 24–28 mai, Marseille.
A. Arnaud, J. Bect, M. Couplet, A. Pasanisi et E. Vazquez (2010). Evaluation d’un
risque d’inondation fluviale par planification séquentielle d’expériences. 42èmes
journées de Statistique (JdS 2010), 24–28 mai, Marseille.

Modèles numériques coûteux : de la quantification des incertitudes la planification séquentielle d'expériences

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (20)

Similaire à Modèles numériques coûteux : de la quantification des incertitudes la planification séquentielle d'expériences

Similaire à Modèles numériques coûteux : de la quantification des incertitudes la planification séquentielle d'expériences (20)

Dernier

Dernier (15)

Modèles numériques coûteux : de la quantification des incertitudes la planification séquentielle d'expériences