Planification et analyse d'expériences numériques: approche bayésienne

Planiﬁcation et analyse d’expériences numériques :
approche bayésienne
(introduction, orientée vers la planiﬁcation séquentielle)

Julien Bect
SUPELEC — GdR MASCOT-NUM — IRT SystemX

Séminaire ONERA/DSNA
28 novembre 2013

Julien Bect (SUPELEC)

Computer experiments

Séminaire ONERA/DSNA 28 novembre 2
/ 24

1

Introduction : exploration de modèles numériques coûteux

2

Optimisation globale : des méta-modèles à l’approche bayésienne

3

Bayesian Subset Simulation : un autre exemple de planiﬁcation séquentielle

4

Conclusion



/ 24

« Expériences numériques » (computer experiments) 1/2

x ∈ X ⊂ Rd

Soit ξ : X → Rp un modèle numérique
d’un système à concevoir ou à étudier (ﬁabilité),
d’un phénomène physique ou biologique,
...

ξ(x) ∈ Rp



/ 24


x ∈ X ⊂ Rd

...

x : facteurs
paramètres de conception (à choisir),
paramètres physiques (éventuellement mal connus),
...

ξ(x) ∈ Rp



/ 24


x ∈ X ⊂ Rd

...

x : facteurs
paramètres de conception (à choisir),
paramètres physiques (éventuellement mal connus),
...

Qu’entendons-nous par « expérience numérique » ?
ξ(x) ∈ Rp


une expérience ≡ évaluer une réponse ξ(x) du code
chaque expérience coûte (souvent, du temps !)
budget d’expériences limité


/ 24


x ∈ X ⊂ Rd

Point de vue du statisticien
le code est une « boîte noire »
on veut obtenir des informations sur ξ
à partir d’un échantillon : y1 = ξ(x1 ), y2 = ξ(x2 ), . . .

ξ(x) ∈ Rp



/ 24


x ∈ X ⊂ Rd


Deux aspects, comme en statistique « classique »
planiﬁer les calculs (choisir x1 , x2 , . . . )
analyser les résultats et quantiﬁer les incertitudes

ξ(x) ∈ Rp



/ 24


x ∈ X ⊂ Rd


Deux aspects, comme en statistique « classique »
planifier les calculs (choisir x1 , x2 , . . . )
analyser les résultats et quantifier les incertitudes

Planification séquentielle
ξ(x) ∈ Rp


planifier chaque calcul en fonction des précédents
couplage planification / analyse


/ 24

Exemple 1 : optimisation de forme (Renault)

Contexte : CAO
calculs de CFD 3D
thèse de J. Villemonteix (2008)
encadrement : E. Vazquez,
M. Sidorkiewicz et E. Walter
Objectif(s)
optimiser la forme du conduit d’admission
maximiser les performances du moteur
minimiser les émissions de polluant
Caractéristiques
≈ 1 h / calcul
6 paramètres de forme à ajuster



/ 24

Exemple 2 : projet BEMUSE (CEA, IRSN, . . . )
Contexte : sûreté nucléaire
calculs thermo-hydrauliques
réalisés avec le logiciel CATHARE
benchmark international
(de Crécy et al., NED, 2008)

Scenario
perte de réfrigérant due à une brèche
grandeur d’intérêt : température max.
Caractéristiques
≈ 10 minutes / calcul
53 paramètres incertains
Principaux objectifs
estimation d’un quantile de Tmax
analyse de sensibilité



(B. Iooss, J. Nat. Fiabilité, 2010)

/ 24

Exemple 3 : étude d’un risque de crue (EDF R&D)
Scenario

Contexte : sûreté des installations

étude du risque de crue

calculs d’hydraulique
équ. de Saint Venant 1D ou 2D

facteurs : débit, coeﬀ. de Strickler
réponse : hauteur d’eau H

logiciels
MASCARET (1D)
OpenTELEMAC (2D)
http://www.opentelemac.org
projet ANR OPUS

Principaux objectifs
propagation d’incertitudes
estimation d’un quantile sur H
analyse de sensibilité

(M. Couplet et al, JdS 2010 ; Arnaud et al, JdS 2010)


/ 24

Objectif(s) : ce que l’on veut savoir sur ξ
Construire un « méta-modèle » : approximation peu coûteuse
approximation globale, sur l’ensemble du domaine X,
ou locale, par ex. précise au voisinage d’un seuil



/ 24


Chercher un optimum de performance ou un pire cas
chercher x ∗ = argmax ξ et/ou ξ ∗ = ξ(x ∗ )
optimisation multi-objectif / sous contraintes / robuste / . . .
estimer un ensemble admissible : {x ∈ X, ξ(x) > ξcrit }



/ 24



Propagation d’incertitude : X ∼ PX
estimer une proba de défaillance : PX (ξ(X ) > ξcrit )
estimer un quantile
caractériser la loi de Y = ξ(X )
réaliser une analyse de sensibilité
...



/ 24



Propagation d’incertitude : X ∼ PX
estimer une proba de défaillance : PX (ξ(X ) > ξcrit )
estimer un quantile
caractériser la loi de Y = ξ(X )
réaliser une analyse de sensibilité
...

En pratique : bien souvent, un mélange de tous ces objectifs !


/ 24

Diversité des codes de calculs
Cadre computer experiments traditionnel
code de calcul déterministe, (plus ou moins) coûteux
diﬀérence importante avec les expériences physique :
faire des répétitions n’a pas de sens !



/ 24


Simulateurs stochastiques
sortie aléatoire : x → ξ(x) + bruit

Multi-ﬁdélité
plusieurs simulateurs, plus ou moins précis
exemple : 1D / 2D / 3D

simulateur à précision « ajustable »
exemple : pas de discrétisation, tolérance, . . .



/ 24


Simulateurs stochastiques
sortie aléatoire : x → ξ(x) + bruit

Multi-ﬁdélité
plusieurs simulateurs, plus ou moins précis
exemple : 1D / 2D / 3D

simulateur à précision « ajustable »
exemple : pas de discrétisation, tolérance, . . .

Disponibilité du gradient ?
souvent, pas de gradient disponible
exception : code adjoint



/ 24

Optimisation globale
On considère un problème d’optimisation globale
fonction ξ a priori multimodale
quelle planiﬁcation (séquentielle) d’expériences utiliser ?
2

1.5

1

ξ(x)

0.5

0

−0.5

−1

−1.5

−2


0

0.1

0.2

0.3

0.4

0.5

x

0.6

0.7


0.8

0.9

1

/ 24

Compromis exploration/exploitation
Deux stratégies « extrêmes »

1

0.9

remplir au mieux le domaine X

0.8

0.7

essayer d’aller droit au but

0.5

0.4

0.3

0.2

0.1

choisir un bon x1 ∈ X (connaissance a priori)
optimiser localement, par ex. Nelder-Mead


0.6
yy

ex : X = [0; 1], xi = 2i−1 , 1 ≤ i ≤ N
2N
échantillonages LHS, maximin, . . . (si d ≥ 2)


0

0

0.1

0.2

0.3

0.4

0.5
xx

0.6

0.7

0.8

0.9

1

/ 24

Compromis exploration/exploitation
Deux stratégies « extrêmes »

1

0.9

remplir au mieux le domaine X

0.8

0.7

essayer d’aller droit au but

0.6
yy

ex : X = [0; 1], xi = 2i−1 , 1 ≤ i ≤ N
2N
échantillonages LHS, maximin, . . . (si d ≥ 2)

0.5

0.4

0.3

0.2

0.1

choisir un bon x1 ∈ X (connaissance a priori)
optimiser localement, par ex. Nelder-Mead

0

0

0.1

0.2

0.3

0.4

0.5
xx

0.6

0.7

0.8

0.9

1

Principe fondamental
bien optimiser globalement ⇒

chercher un compromis entre
exploration et exploitation

Explorer tout le domaine, oui, mais pas uniformément !



/ 24

Utilisation d’un méta-modèle
Méta-modèle ?
modèle simpliﬁé de ξ, plus rapide à évaluer
exemples : krigeage, RBF, réseau de neurones. . .
cas d’observations sans bruit − interpolation
→

Approche générale (planiﬁcation séquentielle)
1
2

init : remplir X avec n0 < N points
pour n = n0 + 1 : N ,
ajuster un méta-modèle aux données x1 , ξ(x1 ), . . . , xn−1 , ξ(xn−1 )
utiliser ce méta-modèle pour choisir xn

3

ˆ
renvoyer x ∗ = argmax ξ(xn ), ξ ∗ = ξ (ˆ∗ )
ˆ
x



/ 24

Illustration : usage optimiste du méta-modèle
Exemple avec X = [0; 1], méta-modèle : krigeage.
n = n0 = 4

2

1.5

1

ξ(x)

0.5

0

−0.5

−1

−1.5

−2

0


0.1

0.2

0.3

0.4

0.5

x

0.6


0.7

0.8

0.9

1

/ 24

n=5

2

1.5

1

ξ(x)

0.5

0

−0.5

−1

−1.5

−2

0


0.1

0.2

0.3

0.4

0.5

x

0.6


0.7

0.8

0.9

1

/ 24

n=6

2

1.5

1

ξ(x)

0.5

0

−0.5

−1

−1.5

−2

0


0.1

0.2

0.3

0.4

0.5

x

0.6


0.7

0.8

0.9

1

/ 24

n=7

2

1.5

1

ξ(x)

0.5

0

−0.5

−1

−1.5

−2

0


0.1

0.2

0.3

0.4

0.5

x

0.6


0.7

0.8

0.9

1

/ 24

n=8

2

1.5

1

ξ(x)

0.5

0

−0.5

−1

−1.5

−2

0


0.1

0.2

0.3

0.4

0.5

x

0.6


0.7

0.8

0.9

1

/ 24

n=9

2

1.5

1

ξ(x)

0.5

0

−0.5

−1

−1.5

−2

0


0.1

0.2

0.3

0.4

0.5

x

0.6


0.7

0.8

0.9

1

/ 24

n = 10

2

1.5

1

ξ(x)

0.5

0

−0.5

−1

−1.5

−2

0


0.1

0.2

0.3

0.4

0.5

x

0.6


0.7

0.8

0.9

1

/ 24

n = 11

2

1.5

1

ξ(x)

0.5

0

−0.5

−1

−1.5

−2

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

x
Convergence vers un maximum local !



1

/ 24

Principes de l’optimisation bayésienne
Constat essentiel
Il n’existe pas de « bon » algorithme d’optimisation
globale dans l’absolu : on doit préciser à quel type de
fonctions on s’intéresse !



/ 24

Principes de l’optimisation bayésienne
Constat essentiel
Il n’existe pas de « bon » algorithme d’optimisation
globale dans l’absolu : on doit préciser à quel type de
fonctions on s’intéresse !
Thomas Bayes
(1702–1761)

Solution bayésienne
Nécessité de quantiﬁer l’incertitude pour faire des
choix rationnels.
La théorie bayésienne de la décision fournit un
cadre cohérent → représentation probabiliste de
l’incertitude.

Harold Kushner

Repères biblio de base :
H. Kushner (1964) : P-algorithme
J. Mockus et al. (1978) : critère EI
D. Jones et al. (1998) : algorithme EGO


Jonas Mockus

/ 24

Loi a priori / a posteriori
Informations a priori sur ξ − processus aléatoire, i.e. P0 = P (ξ ∈ · | I0 )
→
régularité (dérivabilité), vitesse de variation, . . . )
« tendance » (linéaire, quadratique, . . . )
symétries, monotonie, . . .



/ 24

→
Mise à jour des connaissances
après n évaluations, on a appris : ξn = (ξ(x1 ), . . . , ξ(xn ))
loi a posteriori Pn = P (ξ ∈ · | I0 , ξn )



/ 24

→
Mise à jour des connaissances
après n évaluations, on a appris : ξn = (ξ(x1 ), . . . , ξ(xn ))
loi a posteriori Pn = P (ξ ∈ · | I0 , ξn )

Remarque importante
ˆ
ξn (x) = E (ξ(x) | I0 , ξn ) est un méta-modèle naturel dans ce cadre. . .
. . . mais Pn contient beaucoup plus d’information !



/ 24

Illustration
Modèle : processus gaussien (covariance de Matérn, σ 2 = 1, ν = 2, ρ = 0.25)
4

3

2

ξ(x)

1

0

−1

−2

−3

−4

0


0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

x
Simulations sous la loi a priori P0

0.9

1

/ 24

Illustration
2

1.5

1

ξ(x)

0.5

0

−0.5

−1

−1.5

−2

0


0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

x
Moyenne et variance a posteriori Pn0


1

/ 24

Comment choisir xn+1 connaissant I0 , ξn ?
1

En utilisant la loi a posteriori, on construit un critère d’échantillonnage
x ∈ X → Jn (x; I0 , ξn )
qui mesure l’intérêt d’une évaluation en x.

2

On choisit le prochain point à l’aide de ce critère
xn+1 = argmax Jn (x; I0 , ξn )
x∈X



/ 24

Comment choisir xn+1 connaissant I0 , ξn ?
1

En utilisant la loi a posteriori, on construit un critère d’échantillonnage
x ∈ X → Jn (x; I0 , ξn )
qui mesure l’intérêt d’une évaluation en x.

2

On choisit le prochain point à l’aide de ce critère
xn+1 = argmax Jn (x; I0 , ξn )
x∈X

Un critère très utilisé : expected improvement (EI)
Jn (x; I0 , ξn ) = E ((ξ(x) − Mn )+ | I0 , ξn )
avec Mn = max (ξ(x1 ), . . . , ξ(xn )).



/ 24

Illustration du critère EI (algorithme EGO)
n = n0 = 4

2

1.5

1

ξ(x)

0.5

0

−0.5

−1

−1.5

−2

0


0.1

0.2

0.3

0.4

0.5

x

0.6


0.7

0.8

0.9

1

/ 24

2

ξ(x)

1

0

−1

−2

0

0.1

0.2

0.3

0.4

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0.5

0.6

0.7

0.8

0.9

1

0.25
0.2

EI

0.15
0.1
0.05
0


x


/ 24

2

ξ(x)

1

0

−1

−2

0

0.1

0.2

0.3

0.4

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0.5

0.6

0.7

0.8

0.9

1

0.12
0.1

EI

0.08
0.06
0.04
0.02
0


x


/ 24

2

ξ(x)

1

0

−1

−2

0

0.1

0.2

0.3

0.4

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0.5

0.6

0.7

0.8

0.9

1

0.05
0.04

EI

0.03
0.02
0.01
0


x


/ 24

2

ξ(x)

1

0

−1

−2

0

0.1

0.2

0.3

0.4

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0.5

0.6

0.7

0.8

0.9

1

0.04

EI

0.03

0.02

0.01

0


x


/ 24

2

ξ(x)

1

0

−1

−2

0

0.1

0.2

0.3

0.4

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0.5

0.6

0.7

0.8

0.9

1

0.035
0.03
0.025
EI

0.02
0.015
0.01
0.005
0


x


/ 24

2

ξ(x)

1

0

−1

−2

0

0.1

0.2

0.3

0.4

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0.5

0.6

0.7

0.8

0.9

1

0.025
0.02

EI

0.015
0.01
0.005
0


x


/ 24

2

ξ(x)

1

0

−1

−2

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

−3

6

x 10

5

EI

4
3
2
1
0

0


x


/ 24

2

ξ(x)

1

0

−1

−2

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

−3

2

x 10

EI

1.5

1

0.5

0

0


x


/ 24

2

ξ(x)

1

0

−1

−2

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

−3

1.5

x 10

EI

1

0.5

0

0


x


/ 24

2

ξ(x)

1

0

−1

−2

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

−3

1

x 10

0.8

EI

0.6
0.4
0.2
0

0


x


/ 24

2

ξ(x)

1

0

−1

−2

0

0.1

0.2

0.3

0.4

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0.5

0.6

0.7

0.8

0.9

1

0.2

EI

0.15

0.1

0.05

0


x


/ 24

2

ξ(x)

1

0

−1

−2

0

0.1

0.2

0.3

0.4

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0.5

0.6

0.7

0.8

0.9

1

0.03
0.025

EI

0.02
0.015
0.01
0.005
0


x


/ 24

2

ξ(x)

1

0

−1

−2

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

−3

7

x 10

6
5
EI

4
3
2
1
0

0

x
On ﬁnit (presque) toujours par explorer les zones « vides » !
cf. théorème(s) de convergence, Vazquez et Bect, 2010


/ 24

Bayesian Subset Simulation

Voir présentation PSAM11-ESREL 2012
http://fr.slideshare.net/JulienBect/bect-bsspsamesrel2012



/ 24

Ce n’est que le début. . .
Abondante littérature sur la planification séquentielle bayésienne !
En particulier : travaux sur les critères d’échantillonnage
critères adaptés à chaque objectif particulier
approximation globale, optimisation, intégration, . . .

critères adaptés à différents contextes
calcul parallèle (évaluation par batchs)
simulateurs stochastiques, multi-fidélité, . . .



/ 24

Ce n’est que le début. . .
Abondante littérature sur la planification séquentielle bayésienne !
En particulier : travaux sur les critères d’échantillonnage
critères adaptés à chaque objectif particulier
approximation globale, optimisation, intégration, . . .

critères adaptés à différents contextes
calcul parallèle (évaluation par batchs)
simulateurs stochastiques, multi-fidélité, . . .

Une communauté de recherche active
en France : le GdR MASCOT-NUM
Méthodes d’Analyse Stochastique pour les COdeset Traitements Numériques
http://www.gdr-mascotnum.fr
conférence annuelle : à Zurich en 2014

international : MUCM
Managing Uncertainty in Computer Models
http://www.mucm.ac.uk


/ 24

Références : quelques thèses soutenues à Supélec
thèse de Romain BENASSI (2013)
optimisation bayésienne
encadrement : J. Bect et E. Vazquez (Dir.)
financement : bourse MESR
thèse de Ling LI (2012)
estimation de probabilités d’événements rares
encadrement : J. Bect et E. Vazquez
financement : projet CSDL (pôle Systematic)
thèse de Julien VILLEMONTEIX (2008)
optimisation bayésienne
encadrement : E. Vazquez, M. Sidorkiewicz et É. Walter (Dir)
financement : CIFRE Renault
thèse de Miguel PIERA-MARTINEZ (2008)
estimation de probabilités d’événements rares
encadrement : E. Vazquez et É. Walter (Dir)
financement : fondation EADS


/ 24

Planification et analyse d'expériences numériques: approche bayésienne

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (15)

En vedette

En vedette (20)

Similaire à Planification et analyse d'expériences numériques: approche bayésienne

Similaire à Planification et analyse d'expériences numériques: approche bayésienne (20)

Planification et analyse d'expériences numériques: approche bayésienne