Prediction of Quantiles by Statistical Learning and Application to GDP Forecasting

Introduction : problème de la prévision
Dépendance faible et inégalités PAC-Bayésiennes

Prévision de séries temporelles faiblement
dépendantes
Avec M. Cornec (INSEE), O. Wintenberger (Dauphine), X. Li (Cergy)

Pierre Alquier

Groupe de travail “Prévision”, ENGREF, 13 avril 2012
Pierre Alquier Prévision de séries temporelles faiblement dépendantes


1 Résumé des épisodes précédents : prévision de la croissance
du PIB
Introduction et notations
Application à la prévision de la croissance du PIB

2 Dépendance faible et inégalités PAC-Bayésiennes
Estimateur de Gibbs / minimisation du risque empirique
Bornes PAC-Bayésiennes
Exemples


Introduction : problème de la prévision Introduction et notations
Dépendance faible et inégalités PAC-Bayésiennes Application à la prévision de la croissance du PIB

Contexte

Soit (Xt )t∈Z un processus stationnaire à valeurs dans Rm . On
observe (X1 , ..., Xn ). But : apprendre à prédire le processus.



Contexte

Soit (Xt )t∈Z un processus stationnaire à valeurs dans Rm . On
observe (X1 , ..., Xn ). But : apprendre à prédire le processus.

On se donne une famille de prédicteurs (experts) :

F ⊂ f : (Rm )k → Rm mesurables .

Déﬁnition
ˆ
Pour tout f ∈ F, Xtf := f (Xt−1 , . . . , Xt−k ).



Familles classiques de prédicteurs
Déﬁnition
ˆ
Pour tout f ∈ F, Xtf = f (Xt−1 , . . . , Xt−k ).



Familles classiques de prédicteurs
Déﬁnition
ˆ
Pour tout f ∈ F, Xtf = f (Xt−1 , . . . , Xt−k ).

Prédicteurs AR(k) :
k
ˆ
Xtf = θ0 + θi Xt−i .
i=1

Modèle additif non paramétrique, pour une base (ϕj )∞ ,
j=1

k ∞
ˆ
Xtf = θi,j ϕj (Xt−i ).
i=1 j=1



Fonction de perte & risque

ˆ
Soit une fonction de perte : (Xtf , Xt ) ≥ 0 mesure l’erreur
commise par le prédicteur f à la date t.

Déﬁnition - le risque R
Pour tout f ∈ F, R(f ) := E ˆ
Xtf , Xt .



Fonction de perte & risque

ˆ
Soit une fonction de perte : (Xtf , Xt ) ≥ 0 mesure l’erreur
commise par le prédicteur f à la date t.

Déﬁnition - le risque R
Xtf , Xt .

On peut l’estimer par
Déﬁnition - le risque empirique rn
1 n ˆ
Pour tout f ∈ F, rn (f ) := n−k t=k+1 Xtf , Xt .



Le problème de la prévision de la croissance

But : lors du 3ème mois du trimestre t, annoncer quelle sera la
croissance ∆GDPt lors de ce trimestre.

Information disponible :





1 le passé : ∆GDPt−1 , ..., ∆GDP1 , date 1 : 1988-T1.





2 les enquêtes de conjoncture, mensuelles, de l’INSEE.





2 les enquêtes de conjoncture, mensuelles, de l’INSEE.
3 toute autre information quantitative ou qualitative.



Les enquêtes de conjoncture

Il s’agit de questionnaires mensuels envoyés aux plus grandes
entreprises françaises, et à un échantillon d’entreprises plus
petites. Ces données :




1 proviennent directement des agents qui font vivre
l’économie.




l’économie.
2 sont disponibles quasiment en temps réel (lors du
troisième mois du trimestre, on connaît les résultats pour
les deux premiers mois).




l’économie.
2 sont disponibles quasiment en temps réel (lors du
troisième mois du trimestre, on connaît les résultats pour
les deux premiers mois).
→ les résultats sont synthétisés par l’INSEE dans l’indicateur
de climat, disons It−1 .



Résultats connus

La famille de prédicteurs
f
∆GDPt = α + β∆GDPt−1 + γIt−1 + δ(It−1 − It−2 )|It−1 − It−2 |

a été utilisée par Cornec (CIRET conference, 2010). On
obtient :



Résultats connus

f

obtient :
1 des prévisions globalement aussi précises que celles de
l’INSEE.



Résultats connus

f

obtient :
1 des prévisions globalement aussi précises que celles de
l’INSEE.
2 des prévisions d’autant moins précises que la conjoncture
est mauvaise.
→ nécessité de donner un intervalle de conﬁance ou une
indication de précision.



Résultats : prévision

Prévisions en utilisant la fa-
mille de prédicteurs de Cor-
nec et la fonction de perte
(x, x ) = |x − x |.
Prédicteur :
ˆ
f ∈ arg min rn (f ).
f ∈F

Les performances moyennes
sont voisines de celles obte-
nues par l’INSEE.



Résultats : intervalles de conﬁance

Intervalles de conﬁance en
utilisant la fonction de perte
quantile de Koenker :

(x, x )
= (x−x )(τ −1(x−x < 0)).


Exemples

1 Résumé des épisodes précédents : prévision de la croissance
du PIB
Introduction et notations
Application à la prévision de la croissance du PIB

2 Dépendance faible et inégalités PAC-Bayésiennes
Exemples


Exemples

Et en théorie ?
On a utilisé
ˆ
f = arg min rn (f )
f ∈F

mais il n’y a pas, a priori, de théorie pour justiﬁer une telle
méthode !


Exemples

Et en théorie ?
On a utilisé
ˆ
f = arg min rn (f )
f ∈F

méthode !
Justiﬁé par la théorie des processus ARMA si on suppose que
la croissance du PIB est un processus ARMA ( ).
Il reste deux possibilités :


Exemples

Et en théorie ?
On a utilisé
ˆ
f = arg min rn (f )
f ∈F

méthode !
1 “Je n’ai pas besoin de théorie, ça marche en pratique !
La théorie produit des choses optimales en théorie mais
qui ne marchent pas en pratique.”


Exemples

Et en théorie ?
On a utilisé
ˆ
f = arg min rn (f )
f ∈F

méthode !
1 “Je n’ai pas besoin de théorie, ça marche en pratique !
La théorie produit des choses optimales en théorie mais
qui ne marchent pas en pratique.”
2 Y si ça marche en pratique, la théorie doit pouvoir dire
quelque chose dessus !

Exemples

Fonction de perte risque (suite)
ˆ
Rappel : (Xtf , Xt ) ≥ 0 mesure l’erreur commise par le
prédicteur f à la date t.

Rappel - le risque de prévision R
Xtf , Xt .


Exemples

Fonction de perte risque (suite)
ˆ
Rappel : (Xtf , Xt ) ≥ 0 mesure l’erreur commise par le
prédicteur f à la date t.

Rappel - le risque de prévision R
Xtf , Xt .

ˆ
Pour tout estimateur f ,
ˆ ˆ
R(f ) = inf R +[R(f ) − inf R ].
F F

“biais” “variance”


Exemples

Estimateur de Gibbs - minimisation de rn

Déﬁnition - min. du risque empirique
On pose
ˆ
f = arg min rn (f ).
f ∈F


Exemples

Estimateur de Gibbs - minimisation de rn

Déﬁnition - min. du risque empirique
On pose
ˆ
f = arg min rn (f ).
f ∈F

Soit π une loi a priori sur l’ensemble F.

ˆ
Déﬁnition - l’estimateur de Gibbs fλ
On pose

ˆ fe −λrn (f ) π(df )
fλ = =: f π−λrn (df ).
e −λrn (f ) π(df )


Exemples

Hypothèses
1 Le processus (Xt ) est borné p.s.,

P( Xt ≤ B) = 1.


Exemples

Hypothèses

P( Xt ≤ B) = 1.
2 (x, x ) = g (x − x ) avec g convexe et L-Lipshitz.


Exemples

Hypothèses

P( Xt ≤ B) = 1.
3 Pour tout f ∈ F,
k
f (x1 , . . . , xk ) − f (x1 , . . . , xk ) ≤ aj (f ) xj − xj ,
j=1

k
aj (f ) ≤ K .
j=1


Exemples

Hypothèses

P( Xt ≤ B) = 1.
3 Pour tout f ∈ F,
k
f (x1 , . . . , xk ) − f (x1 , . . . , xk ) ≤ aj (f ) xj − xj ,
j=1

k
aj (f ) ≤ K .
j=1

4 k ≤ n/2.

Exemples

Inégalité PAC-Bayésienne pour la prédiction

Théorème
Sous les hypothèses précédentes, pour tout ε ∈]0, 1[, pour
tout λ 0,

2
ˆ λκ2 K(ρ, π) + log
P R(fλ ) ≤ inf Rdρ + n + ε
ρ n λ
≥ 1 − ε.

√
κn = 2K (1 + L)(B + θ∞,n (1)).


Exemples

Coeﬃcient de θ-dépendance faible

Introduits par Doukhan et Louhichi (SPA, 1999). Soit
Fi = σ(Xt , t ≤ i). Pour i j1 · · · j on pose

θp (Fi , (Xj1 , . . . , Xjp ))
:= sup E [g (Xj1 , . . . , Xj )|Fi ] − E [g (Xj1 , . . . , Xj )] p .
g 1-Lipshitz

Enﬁn,

θp,r (k) := max sup θp (Fi , (Xj1 , . . . , Xjp ))).
≤r i+k≤j1 j2 ···j


Exemples

Exemples de calculs de coeﬃcients θ
Tout processus
Xt = F (ξt , ξt−1 , ξt−2 , . . . )
avec les ξi iid et bornés par b, et
∞
F (x1 , x2 , . . . ) − F (x1 , x2 , . . . ) ≤ aj xj − xj
j=1

vériﬁe : ∞
θ∞,n (1) ≤ 2b jaj .
j=1

Inclut par exemple :
Xt = G (ξt , Xt−1 ) = G (ξt , G (ξt−1 , Xt−2 )) = · · · = H(ξt , ξt−1 , . . . ).

Exemples

Rappel

Théorème
Sous les hypothèses précédentes, pour tout ε ∈]0, 1[, pour
tout λ 0,

2
ˆ 2λκ2
n K(ρ, π) + log ε
P R(fλ ) ≤ inf Rdρ + +2
ρ n λ
≥ 1 − ε.

√
κn = 2K (1 + L)(B + θ∞,n (1)).


Exemples

Cas où card(F) = M ∞ (1/2)
Si π uniforme,

2
ˆ 2λκ2
R(fλ ) ≤ inf Rdρ + +2
ρ n λ
2
2λκ2
n log(M) + log ε
≤ inf R(f ) + +2
f ∈F n λ


Exemples

Si π uniforme,

2
ˆ 2λκ2
R(fλ ) ≤ inf Rdρ + +2
ρ n λ
2
2λκ2
n log(M) + log ε
≤ inf R(f ) + +2
f ∈F n λ

et λ = n log(M)/κn ( ) conduit à
Théorème

ˆ 2 log(M) 2κn log 2
ε
R(fλ ) ≤ inf R + 2κn + .
F n n log(M)

Exemples


ˆ
Et pour le minimiseur du risque empirique f ?

Un calcul similaire conduit à


Exemples


ˆ


Théorème
Pour un c 0 connu,

ˆ log(M) c.κn log 2ε
R(f ) ≤ inf R + c.κn + .
F n n log(M)

Gros avantage : ne nécessite pas la connaissance de κn .


Exemples

Cas des prédicteurs AR (1/2)
On se restreint à Xt ∈ R et, pour f ∈ F,
k
f (Xt−1 , ..., Xt−k ) = θj Xt−j
j=1

avec θ 1 ≤ L. Cette fois, on prend π uniforme.


Exemples

On se restreint à Xt ∈ R et, pour f ∈ F,
k
f (Xt−1 , ..., Xt−k ) = θj Xt−j
j=1

avec θ 1 ≤ L. Cette fois, on prend π uniforme.

Un calcul similaire quoique plus moche et le choix
√
λ = kn/κn ( ) conduisent à :
Théorème

2
ˆ k e 2 LB n 2κn log ε
R(fλ ) ≤ inf R + 2κn log + √ .
F n κn k nk

Exemples


ˆ



Exemples


ˆ


Théorème
Pour un c 0 connu,
2
ˆ k c.κn log ε
R(f ) ≤ inf R + c.κn log(n) + √ .
F n nk

Gros avantage : ne nécessite pas la connaissance de κn .


Exemples

Cas général
On peut introduire une mesure de la complexité de l’ensemble
de prédicteurs F, en fait :
1
log 1
π{θ:R(θ)−inf F R≤ λ }
C(F, π) := sup .
λc log(λ)
Le résultat est alors :
Théorème
Pour une constante c 0 connue et λ C(F, π)n/κn ,

ˆ

R(fλ )  log( 1 )
C(F, π)
inf R + c. log(n) + c. √ ε .
ˆ F n n
R(f )



Exemples

Sélection de modèles (1/3)
Soient M familles de prédicteurs F1 , ..., FM . Par exemple,

F1 : f (Xt−1 , ..., Xt−k ) = θ1 Xt−1
F2 : f (Xt−1 , ..., Xt−k ) = θ1 Xt−1 + θ1 Xt−2
.
. .
.
. .
k
Fk : f (Xt−1 , ..., Xt−k ) = θj Xt−j
j=1


Exemples

Soient M familles de prédicteurs F1 , ..., FM . Par exemple,

F1 : f (Xt−1 , ..., Xt−k ) = θ1 Xt−1 C(F1 , π1 ) 1
F2 : f (Xt−1 , ..., Xt−k ) = θ1 Xt−1 + θ1 Xt−2 C(F2 , π2 ) 2
.
. .
. .
.
. . .
k
Fk : f (Xt−1 , ..., Xt−k ) = θj Xt−j C(Fk , πk ) k
j=1

On ﬁxe des lois a priori dans chaque famille de prédicteurs :

π1 , . . . , π M .


Exemples


On choisit
M
p1 , . . . , pM ≥ 0 avec pi = 1.
i=1

On pose
M
π= pi πi .
i=1

Rappel
e −λrn (f ) π(df )
π−λrn (df ) =
e −λrn (g ) π(dg )


Exemples

Déﬁnition

ˆ λκ2 K(π−λrn , π) + log(|Λ|/ε)
n
λ = arg min rn dπ−λrn + +
λ∈Λ n λ

sur une grille ﬁnie Λ bien choisie.


Exemples

Déﬁnition

ˆ λκ2 K(π−λrn , π) + log(|Λ|/ε)
n
λ = arg min rn dπ−λrn + +
λ∈Λ n λ

sur une grille ﬁnie Λ bien choisie.

Théorème

ˆˆ
R(fλ )
 2 log(n)

C(Fj , πj ) log εpj
≤ inf inf R + c. log(n) + c. .
1≤j≤M Fj n C(Fj , πj )n

Exemples

The end

Merci !


Prediction of Quantiles by Statistical Learning and Application to GDP Forecasting

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (20)

Plus de Cdiscount

Plus de Cdiscount (14)

Prediction of Quantiles by Statistical Learning and Application to GDP Forecasting