SlideShare une entreprise Scribd logo
1  sur  45
Réalisé par :
ALADSSI ABDERAHMANE
TALEB MOHAMEDAHMED
Sous la direction du :
Pr. OUMANSOUR NOR-DDINE
INTRODUCTION
 La modélisation paramétrique non linéaire nécessite un choix a priori de
classes des fonctions paramétriques pour la fonction d'intérêt. Bien qu'il
s'agisse d'un cadre de modélisation approprié pour de nombreux problèmes
empiriques, il ne capture pas toujours les caractéristiques pertinentes pour
l'enquêteur.
 La modélisation paramétrique non linéaire implique le choix difficile d'une
classe de modèles.
INTRODUCTION
 En revanche, en utilisant l'approche de modélisation non paramétrique, on peut
éviter ce choix. Par exemple, en utilisant l'estimation linéaire locale, il suffit de
supposer que la fonction d'intérêt est continuellement différentiable jusqu'au
second ordre.
Plan
 Estimation linéaire locale
 Sélection de la largeur de bande et du nombre de retard
 Modélisation de la volatilité conditionnelle
 Application
 Conclusion
 Nous supposons qu'un processus stochastique univarié yt ,t≥1 est produit par
le modèle non linéaire autorégressif conditionnellement hétéroscédastique
(NAR).
yt = µ(xt ) + σ (xt )ξt
Les fonctions µ(.) et σ(.), le nombre de retards m et les indices de
retard 𝑖1 , 𝑖2 , . . . , 𝑖𝑚 sont inconnus et doivent être estimés ou sélectionnés.
ESTIMATION LINÉAIRE LOCALE
LES ESTIMATEURS
 L'estimation locale de µ(x ) consiste à estimer µ(.) séparément pour chaque (m
×1) vecteur x=(𝑥1 , 𝑥2 , . . . , 𝑥𝑚 )1
d'intérêt.
 Expansion de Taylor du premier ordre de µ(𝑥𝑡) prise en x
• le côté droit contient deux termes connus, la constante multipliée par l'inconnue
µ(x) et le terme connu (𝒙𝒕 - x ) multiplié par le vecteur des dérivés partielles
premières inconnues
 s'il n’y avait pas de terme résiduel R(𝑥1 , x) on aurait un simple problème de régression MCO.
 Fonction de noyau k(u):
On suppose dans ce qui suit que cette fonction est densité de probabilité univariée, symétrique,
compacte et non négative, de sorte que:
𝐾(𝑢) du =1
N.B: Il est souvent important de choisir une fonction de noyau adaptée aux caractéristiques spécifiques
des données et aux objectifs de l'analyse. Pour ne peut pas influencer la souplesse et la précision de
l'estimation locale.
EXEMPLE TYPIQUE
I ( ) désigne la fonction indicatrice.
On a deux types différent de la fonction de noyau :
1- La densité Uniform:
k(u)=0 sinon
2- Le noyau quartique:
k(u)=0 sinon
 La largeur de bande h
 la fonction noyau devient:
Plus h est grand, plus le voisinage autour de x est grand, où les observations de
l'échantillon reçoivent un poids important et plus le biais d'estimation peut être grand.
Parce qu'un h plus grand implique que les estimations de la fonction seront plus
lisses.
Puisque les observations dans le voisinage local de x sont les plus importantes, cette
approche d'estimation est appelée l’estimation locale.
 Si m > 1 et que x = ( x 1 ,..., xm )1 est un vecteur, on utilise un noyau produit
x ti désigne la i -ème composante de x t
Au lieu d'utiliser une largeur de bande scalaire qui impose le même degré de lissage dans
toutes les directions, il est également possible d'utiliser une largeur de bande vectorielle qui
détermine le degré de lissage dans chaque direction séparément.
En raison de l'introduction d'une fonction noyau, il faut maintenant résoudre un
problème de moindres carrés pondérés.
Qui fournit l'estimation de la fonction linéaire locale µ(x, h) = cˆ au point x .
La bande passante h est également incluse en tant qu'argument pour indiquer la
dépendance du résultat d'estimation sur la bande passante.
Cet estimateur est décrit comme étant linéaire local
 Comme aucun paramètre au sens des modèles paramétriques n'est estimé,
cette approche d'estimation est dite non paramétrique.
 Estimation de µ(.) sur une grille ou seulement à des valeurs spécifiques.
 Avec les matrices
L'estimateur de la fonction linéaire locale peut également être écrit comme un
estimateur des moindres carrés généralisé.
Estimateur de Nadaraya-Watson:
La distribution normale asymptotique de l'estimateur linéaire local.
Soit f (x ) la densité du vecteur lag au point x et tr( A) la trace d'une matrice A. Alors la
distribution normale asymptotique de l'estimateur linéaire local est donnée par:
Où:
b(x) :le biais asymptotique
v(x):la variance asymptotique
• le biais d'estimation dépend également
des dérivées partielles secondes de la
fonction moyenne conditionnelle ainsi
que de la variance du noyau σ2 .
• La variance asymptotique augmente avec
la variance conditionnelle σ2(x) et diminue
avec la densité f (x ).
Plus la densité est grande, plus il y a d'observations en moyenne proches du
point x et donc disponibles pour l'estimation locale, ce qui réduit à son tour la
variance d'estimation.
La distribution asymptotique a été dérivée sous l'hypothèse que (yt , xt )est un échantillon
d'observations iid.
Dans ce cas, xt ne contient pas de retards de yt et il n'y a pas de dépendance stochastique entre
les observations à différents moments.
où xt est un vecteur de yt s retardés, une dépendance stochastique existe clairement.
 L'autocorrélation mesure la dépendance stochastique linéaire au sein des yt
 Il faut garantir que la dépendance stochastique en général s'éteint assez rapidement.
 Dans le contexte actuel, il n'est pas suffisant de considérer uniquement la dépendance
mesurée par les premiers moments puisque le processus NAR est un processus stochastique
non linéaire, et donc les moments supérieurs du processus yt importent également.
 Pour la sélection des décalages, il est nécessaire de spécifier a priori un
ensemble de vecteurs de décalage possibles en choisissant le décalage
maximal M. On désigne le vecteur de décalage complet contenant tous
les décalages jusqu'à M par 𝒙𝒕,𝑴= (𝒚𝒕−𝟏, 𝒚𝒕−𝟐, . . . , 𝒚𝒕−𝑴)’.
 Pour l'estimation de la largeur de bande et la sélection du décalage, il est
d'abord nécessaire de choisir un critère d'optimalité.
 Un critère largement utilisé est l'erreur quadratique moyenne intégrée de
la prédiction, qui est communément appelée erreur de prédiction finale
‘EPF’ . Nous l'énonçons ici en utilisant une fonction de poids w(.)
nécessaire pour obtenir la cohérence de la procédure de sélection des
retards.
 Il faut choisir une fonction de poids w(.) qui est continue et non négative
et pour laquelle f (𝑥𝑀) > 0 pour 𝑥𝑀 dans le support de w(.).
 Pour indiquer l’EPF pour un ensemble arbitraire de retards, les indices de retard et les autres
quantités qui peuvent différer des valeurs correctes sont indexés par un « + ». Pour une largeur
de bande h et un vecteur de retard 𝑖1
+
, … . , 𝑖𝑚+
+
, l’EPF est donnée par
 Si l’EPF(h,𝑖1
+
, … , 𝑖𝑚+
+
) était observable pour tous les vecteurs de retard , alors on choisirait
clairement le vecteur de retard et la largeur de bande minimisant l’EPF pour toutes les
combinaisons de décalage considérées.
 Comme l’EPF (h,𝑖1
+
, … , 𝑖𝑚+
+
) n'est pas observable, elle doit être estimée. Dans la littérature,
principalement deux approches ont été proposées pour estimer l’EPF inconnue ou ses
variantes, à savoir la validation croisée [Vieu (1994), Yao & Tong (1994)] ou l'estimation
d'une expression asymptotique de l’EPF [Auestad & Tjøstheim (1990), Tjøstheim &
Auestad (1994), Tschernig & Yong (2000)].
 On doit supposer que les erreurs ξ𝑡 , t ≥ 𝑖𝑚 ont un quatrième moment fini 𝑚4. Cette hypothèse
est nécessaire pour garantir que la variance des estimateurs de l’EPF est bornée. Cette
hypothèse doit également être faite pour la sélection standard des retards dans les modèles
linéaires.
 Sous les hypothèses énoncées, Tschernig & Yang (2000b, Theorem 2.1) : H1[Pour un certain
nombre M ≥𝑖𝑚 , le processus vectoriel 𝑋𝑀,𝑡 = (𝑌𝑡−1, . . .,𝑌𝑡−𝑀)𝑇
est strictement stationnaire]
H6[K : ℝ1
→ ℝ1
est une densité de probabilité symétrique (noyau) et h=ℎ𝑛 est un nombre positif
(largeur de bande) avec h0, 𝑛ℎ𝑚
∞ as n∞] ont montré que, pour l'estimateur linéaire local et le
vecteur de retard correct 𝑖1, . . . , 𝑖𝑚, on obtient
FPE(h, 𝐢𝟏, . . . , 𝐢𝐦) = AFPE(h, 𝐢𝟏, . . . , 𝐢𝐦) + o (𝐡𝟒
+ (𝐓 − 𝐢𝐦)−𝟏
𝐡−𝐦
,
(1)
dans laquelle les EPF asymptotiques sont : AFPE(h, , 𝐢𝟏, . . . , 𝐢𝐦) = A + b(h)B + c(h)C
(2)
 Où
A = ∫σ2(𝑥)w(𝑥𝑀) f (𝑥𝑀) 𝑑𝑥𝑀,
B = ∫σ2
(𝑥)w(𝑥𝑀) f (𝑥𝑀)/f (𝑥) 𝑑𝑥𝑀
C = ∫(tr{
∂
2
μ(x)
∂x∂ 𝑥′ })2w(𝑥𝑀) f (𝑥𝑀)d𝑥𝑀
Et
 b(h) = ǁ K ǁ2
2𝑚
(𝑛 − 𝑖𝑚 + 1)−1
ℎ−𝑚
, c(h) = σ𝑘
4
ℎ4
/4,
 Une analyse plus approfondie de l’EPF est possible en utilisant l’AEPF. Le terme A représente
l’erreur de prédiction finale pour la fonction réelle f. Les termes b(h)B et c(h)C sont la variance
prévue et le biais au carré de l’estimateur.
(3)
(4)
(5)
(6)
 On peut interpréter A comme l’EPF de la vraie fonction μ.
 En examinant B de plus près, on comprend pourquoi la définition de l'EPF
inclut une fonction de poids. Sans une fonction de poids à support compact, on
aurait dans le cas d'un processus homoscédastique.
 Le développement asymptotique du premier ordre de l'EPF donné par (1) à (6) doit être légèrement
modifié si un vecteur de retard différent du vecteur correct est choisi.
 Considérons d'abord le cas où tous les retards corrects sont inclus plus quelques retards
supplémentaires et indexons toutes les variables correspondantes avec un + comme précédemment.
L'expansion EPF modifiée est alors obtenue en remplaçant m par 𝑚+
, 𝑖𝑚par 𝑖𝑚+
+
, x par 𝑥+
, et h par
ℎ+
dans les équations (1) à (6).
 Considérons maintenant le cas où tous les retards corrects ne sont pas inclus dans le vecteur de
retard choisi et où toutes les variables correctes sont pertinentes dans la plage de la fonction de
poids qui spécifie la plage d'intérêt. Cette dernière condition exclut une situation où, par exemple, le
retard 1 entre dans la fonction μ uniquement en dehors de la plage d'intérêt.
 Si un retard pertinent dans le vecteur de retard choisi est laissé de côté et qu'un sous-ajustement se
produit, alors les AEPF du modèle sous-ajusté et du modèle correct diffèrent par une constante
indépendante de la largeur de bande et de la taille de l'échantillon [Tschernig & Yang (2000b,
Theorem 3.4)].
CHOIX DE LA LARGEUR DE
BANDE
 La largeur de bande de Yang et Tschernig (1999) est utiliser pour l’EPF linéaire local.
Auparavant, la largeur de bande était toujours obtenue en minimisant les critères sur une grille
prédéterminée où seul Vieu (1994) montrait l’optimalité de la procédure de recherche de grille.
Dans tous les cas, la largeur de bande nécessite beaucoup moins de calcul que la recherche de
grille
 L'estimateur linéaire local et l'estimateur de Nadaraya-Watson ont la même largeur de
bande asymptotiquement optimale uniquement si le plan est uniforme.
 En cas d'erreurs homoscédastiques, toutes les dérivées partielles d'ordre 1 et 2 de 𝝈𝟐 .
sont nulles ; ainsi, le biais asymptotique d'ordre 1 de l'estimateur de Nadaraya-Watson et des
estimateurs linéaires locaux est nul et aucune largeur de bande asymptotiquement optimale
n'existe car le compromis biais-variance échoue.
CHOIX DE LA LARGEUR DE
BANDE
 Cela implique qu'une largeur de bande enfichable a été choisie trop petite, et
que les estimations de la volatilité conditionnelle qui en résultent présente
par conséquent une variance trop importante.
 Pour l'estimateur linéaire local, cet effet se produit également si σ (.) est
linéaire sur le support de la fonction de poids.
 Ainsi, en cas d'erreurs homoscédastiques, les intervalles de confiance basés
sur 𝝈𝟐(𝒙𝒕 ) peuvent être trompeurs.
SÉLECTION DU NOMBRE DE
RETARD
 Les propriétés asymptotiques de cette procédure de sélection des retards ne peuvent être
dérivées que pour le cas particulier dans lequel la fonction de moyenne conditionnelle μ(.) est
connue pour être une constante.
 Si, les hypothèses requises pour sélectionner les retards de la fonction moyenne
conditionnelle sont modifiées de manière adéquate, alors, selon Tschernig & Yang (2000),
la sélection des retards pour la fonction de volatilité conditionnelle σ(x) à l'aide des
estimateurs (C)AFPE modifiés est faiblement cohérente. Une condition importante pour un
tel résultat est que la variance de 𝒖𝒕 existe.
 Si les retards entrant dans μ(.) sont connus mais pas la fonction elle-même, il faut montrer que
la sélection des retards est faiblement cohérente si l'ensemble des retards à choisir est
complètement contenu dans l'ensemble des retards de μ(.).
 Deux remarques s'imposent :
 Premièrement, pour le choix de la largeur de bande et la sélection des retards, le problème
de l'obtention éventuelle d'estimations de variance négatives à partir de l’estimateur linéaire
local de la variance conditionnelle est ignoré car, il s'agit d'un problème de limite et il
n'affecte donc pas trop d'observations tant que le nombre de retards « m » n'est pas trop
grand.
 Deuxièmement, si le processus NAR est homoscédastique, la sélection des retards à l'aide
de la (C)AFPE modifiée ne peut pas être cohérente car l'estimateur linéaire local n'a pas de
biais de premier ordre et nous sommes confrontés à la même situation que dans le cas d'une
fonction de moyenne conditionnelle linéaire μ(.). Dans une telle situation, on peut
fréquemment observer un sur ajustement : certains décalages sont sélectionnés alors que la
sélection d'aucun décalage est correcte
 En pratique, on peut traiter cette possibilité de deux manières :
 La première solution consiste à étudier l'hétéroscédasticité potentielle, avec tous les
problèmes potentiels, et à utiliser les résultats comme base pour une modélisation et des tests
paramétriques supplémentaires.
 La deuxième solution consiste à modéliser la volatilité conditionnelle uniquement si le test
ARCH-LM rejette les erreurs homoscédastiques. Cependant, le test ARCH-LM peut n'avoir
qu'une faible puissance contre certains types d'hétéroscédasticité conditionnelle qui sont
autorisés dans un processus NAR.
MODÉLISATION DE LA VOLATILITÉ
CONDITIONNELLE :
 En permettant au processus autorégressif non linéaire d'être conditionnellement
hétéroscédastique, le calcul des intervalles de confiance nécessite d'estimer la
fonction de volatilité conditionnelle σ(x). Cette dernière entre dans la variance
asymptotique de l'estimateur linéaire local de μ(x).
• ESTIMATION :
 En cas d'erreurs conditionnellement homoscédastiques, 𝝈𝟐(𝒙𝒕) = 𝝈𝟐.
 𝜎2
peut-être utilisé pour calculer les intervalles de confiance sous
l'hypothèse d'erreurs homoscédastiques.
 Pour dériver des estimateurs locaux de la volatilité conditionnelle, nous
supposons pour le moment que la fonction moyenne conditionnelle μ(.) est
connue.
En définissant 𝜺𝒕 = 𝒚𝒕 − μ(𝒙𝒕), on peut réécrire le processus NAR
sous la forme 𝜺𝒕 = 𝝈(𝒙𝒕)𝝃𝒕.
L'addition et la soustraction de 𝝈𝟐(𝒙𝒕) donnent :
 𝜺𝒕
𝟐
= 𝝈𝟐 𝒙𝒕 + 𝝈𝟐 𝒙𝒕 𝝃𝒕
𝟐
− 𝟏
 = 𝝈𝟐 𝒙𝒕 + 𝒖𝒕, t = 𝒊𝒎+𝟏, . . . ,
Où nous définissions 𝒖𝒕 =𝝈𝟐 𝒙𝒕 𝝃𝒕
𝟐
− 𝟏 .
Ainsi, le processus {𝒖𝒕} est un processus de bruit blanc.
 Comme 𝒖𝒕 est un bruit blanc, la seule différence entre les processus
stochastiques et le modèle non linéaire autorégressif conditionnellement
hétéroscédastique (NAR) est que les variables d'entrée de la présente
"fonction de moyenne conditionnelle" 𝝈𝟐 𝒙𝒕 ne comportent pas de retards
de la variable dépendante 𝝃𝒕
𝟐
.
 On peut néanmoins utiliser les estimateurs locaux si la variable dépendante 𝑦𝑡 est
remplacée par les résidus au carré 𝜉𝒕
𝟐
.
 En général, la fonction moyenne conditionnelle μ(.) est inconnue;
 Les erreurs 𝜺𝒕, t = 𝒊𝒎+𝟏, . . . ,T doivent être estimées par :
𝜺𝒕 = 𝒚𝒕 − 𝝁(𝒙𝒕, 𝐡).
 Si 𝝁(𝒙𝒕, 𝐡) est l'estimateur linéaire local, alors un estimateur linéaire
local de la variance conditionnelle 𝝈𝟐
𝒙𝒕 est obtenu en remplaçant dans 𝒚𝒕
par 𝜺𝒕
𝟐
. On obtient ainsi :
 𝝈𝟐(𝐱, 𝐡) = 𝒆′{𝒁′(𝐱)𝐖(𝐱, 𝐡)𝐙(𝐱)}−𝟏
𝒁′(𝐱)𝐖(𝐱, 𝐡)𝜺𝟐.
 Avec 𝜺𝟐 = ( 𝜺𝐢𝐦+𝟏
𝟐
,…, 𝜺𝑻
𝟐
)’.
 L’estimateur Nadaraya-Waston doit-être modifier à
 𝝈𝑵𝑾
𝟐
(𝐱, 𝐡) =
𝐭 = 𝒊𝒎+𝟏
𝑻
𝑲𝒉(𝒙𝒕 − 𝒙 )𝜺𝒕
𝟐
𝐭 = 𝒊𝒎+𝟏
𝑻 𝑲𝒉(𝒙𝒕 − 𝒙 )
.
 Tschernig & Yang (2000) ont dérivé le biais et la variance asymptotiques et la
normalité asymptotique de l'estimateur linéaire local de la volatilité.
 Dans les échantillons finis, l'estimateur linéaire local peut conduire à des
estimations négatives de 𝝈𝟐 𝒙 même pour une très grande largeur de bande h.
Cela est particulièrement probable si x est proche de la limite des données de
l'échantillon. Un tel résultat est extrêmement improbable si x se situe autour de la
moyenne de l'échantillon.
 Par conséquent, il faut vérifier le signe de 𝝈𝟐(𝒙). S'il est négatif, nous utilisons
l'estimateur de Nadaraya-Watson, qui n'est pas soumis à ce problème.
• ERREURS ARCH :
 Le processus stochastique des résidus au carré peut être vu comme une
généralisation d'un processus ARCH(q) si μ(.) = 0. Pour ce dernier, la variance
conditionnelle est donnée par :
 𝝈𝒕
𝟐
= 𝜸𝟎 + 𝜸𝟏𝜺𝒕−𝟏
𝟐
+. . . +𝜸𝒒𝜺𝒕−𝒒
𝟐
,
 Où l'on doit supposer 𝜸𝒊> 0, i = 0, ..., q. Dans le cas particulier de μ(.) = 0, on a
𝜺𝒕 = 𝒚𝒕 , et donc la variance conditionnelle peut-être écrit sous la forme suivante :
 𝝈𝟐(𝒙𝒕 ) = 𝜸𝟎 + 𝜸𝟏𝒚𝒕−𝟏
𝟐
+. . . +𝜸𝒒𝒚𝒕−𝒒
𝟐
,

 Où 𝒙𝒕 =(𝒚𝒕−𝟏, 𝒀𝒕−𝟐, . . . , 𝒀𝒕−𝒒)′.
Dans ce cas, la variance conditionnelle 𝝈𝟐(𝒙𝒕 ) est une somme
d'observations pondérées, élevées au carré et décalées. Cela
implique, par exemple, pour un processus ARCH (2) que 𝜎2
(𝑥𝑡 )
est en termes de 𝑦𝑡−1 et 𝑦𝑡−2 une parabole à deux dimensions.
 Si μ (𝒚𝒕−𝟏, 𝒀𝒕−𝟐, . . . , 𝒀𝒕−𝒎) ≠ 0 et que la variance conditionnelle est vérifiée, la
variance conditionnelle 𝜎2(. ) n'a plus une forme simple puisque :
 𝝈𝟐 𝒚𝒕−𝟏, 𝒀𝒕−𝟐, … , 𝒀𝒕−𝒒−𝒎 = 𝜸𝟎 + 𝜸𝟏 𝒚𝒕−𝟏 − 𝝁 𝒚𝒕−𝟐, … , 𝒚𝒕−𝟏−𝒎
𝟐
+. . . +𝜸𝒒(𝒚𝒕−𝒒 − 𝝁(𝒚𝒕−𝒒−𝟏 , . . . , 𝒚𝒕−𝒒−𝒎 ))𝟐
Qui n'est plus une fonction simple en termes de 𝒚𝒕−𝒊′.
Notons que 𝝈^𝟐 (.) comprend plus de retards que μ(.) car il est constitué de tous les
retards de 1 à m plus ceux de m + 1 à m + q. Cela viole l'hypothèse selon laquelle σ
(.) peut contenir tous les retards de μ(.) mais pas plus. Ainsi, le modèle NAR ne
comprend pas en général d'erreurs ARCH (sauf si μ(.) = 0).
APPLICATION :
Sur le logiciel « JMuLTi », nous illustrons la procédure complète de modélisation non
paramétrique pour le nombre moyen d'heures travaillées par semaine aux États-Unis. Les 478
observations mensuelles couvrent la période de 1960M1 à 1999M11 et ont été corrigées des
variations saisonnières. Ces données sont des données mensuelles des changements
hebdomadaires des heures de travail aux États-Unis.
PREMIÈRE ÉTAPE : GRAPHIQUE :
 Le graphique affiche
les séries
chronologiques des
données. Les deux plus
fortes baisses de la
moyenne des heures
hebdomadaires se
produisent en janvier
1982 et janvier 1996.
DEUXIÈME ÉTAPE : STATIONNARITÉ :
 L'inspection visuelle et les
tests ADF standard de racine
unitaire suggèrent de prendre
les différences premières afin
d'obtenir une série
stationnaire. La série
chronologique des différences
premières est également
présentée comme suit.
TROISIÈME ÉTAPE : NOMBRE DE RETARD :
 Sur la base des autocorrélations
(partielles) des différences
premières, on peut considérer les
retards 1 et 2. Notez
l'importance du retard 12 qui
peut résulter de la procédure
d'ajustement saisonnier.
 Étant donné que la dépendance d'ordre
supérieur ne peut être mise en évidence à
partir des autocorrélations estimées, la
sélection des retards doit être effectuée au
moyen des méthodes non paramétriques. En
effectuant une recherche complète avec le
critère CAFPE pour un nombre maximal de
huit retards jusqu'au retard 8, M = 8, on
identifie les retards 1 et 2 comme étant les
plus pertinents.
 Le tableau montre la sélection optimale des
retards pour chaque nombre de retards ainsi
que la largeur de bande sous-jacent aux
estimations de la fonction et le CAFPE
résultant.
 Par exemple, le deuxième retard a été estimé
avec une largeur de bande de 0,158 et la
valeur CAFPE résultante est de 0,0524 (la
plus petite valeur).
QUATRIÈME ÉTAPE : ESTIMATION :
CONCLUSION :
 Dans cette présentation nous nous sommes concentrés sur l'estimation non
paramétrique de modèles de séries temporelles non linéaires à une variable.
 Ces modèles peuvent contenir des erreurs conditionnellement
hétéroscédastiques et des caractéristiques saisonnières.

Contenu connexe

Similaire à Modélisation non paramétrique_Modèle_SCH (1).pptx

Ajustement des données à la Distribution Logistique Multivariée
Ajustement des données à la Distribution Logistique MultivariéeAjustement des données à la Distribution Logistique Multivariée
Ajustement des données à la Distribution Logistique MultivariéeMohamed El Merouani
 
chapitre 1 régression simple.pdf
chapitre 1 régression simple.pdfchapitre 1 régression simple.pdf
chapitre 1 régression simple.pdfAnassFarkadi
 
Localisation d’une source émettrice par un réseau d’antennes
Localisation d’une source émettrice par un réseau d’antennesLocalisation d’une source émettrice par un réseau d’antennes
Localisation d’une source émettrice par un réseau d’antennesAhmed Ammar Rebai PhD
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiplemohamedchaouche
 
Matlab Static and Time-Based Analysis of a Homogenous Beam Fixed at Both Ends
Matlab Static and Time-Based Analysis of a Homogenous Beam Fixed at Both EndsMatlab Static and Time-Based Analysis of a Homogenous Beam Fixed at Both Ends
Matlab Static and Time-Based Analysis of a Homogenous Beam Fixed at Both EndsAlexanderABANOBI
 
Chaines_Discretes-1.pdf
Chaines_Discretes-1.pdfChaines_Discretes-1.pdf
Chaines_Discretes-1.pdfYaojeanluc
 
Cours algorithmique et complexite complet
Cours algorithmique et complexite completCours algorithmique et complexite complet
Cours algorithmique et complexite completChahrawoods Dmz
 
Cours algorithmique et complexite
Cours algorithmique et complexite Cours algorithmique et complexite
Cours algorithmique et complexite Saddem Chikh
 
Cours algorithmique et complexite complet
Cours algorithmique et complexite completCours algorithmique et complexite complet
Cours algorithmique et complexite completChahrawoods Dmz
 
Traitement des données massives (INF442, A4)
Traitement des données massives (INF442, A4)Traitement des données massives (INF442, A4)
Traitement des données massives (INF442, A4)Frank Nielsen
 
Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxTarekDHAHRI1
 
Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxTarekDHAHRI1
 
FLTauR - Construction de modèles de prévision sous r avec le package caret
FLTauR - Construction de modèles de prévision sous r avec le package caretFLTauR - Construction de modèles de prévision sous r avec le package caret
FLTauR - Construction de modèles de prévision sous r avec le package caretjfeudeline
 
melange de gaussienne
melange de gaussiennemelange de gaussienne
melange de gaussienneomri med
 

Similaire à Modélisation non paramétrique_Modèle_SCH (1).pptx (20)

Ajustement des données à la Distribution Logistique Multivariée
Ajustement des données à la Distribution Logistique MultivariéeAjustement des données à la Distribution Logistique Multivariée
Ajustement des données à la Distribution Logistique Multivariée
 
IA
IAIA
IA
 
chapitre 1 régression simple.pdf
chapitre 1 régression simple.pdfchapitre 1 régression simple.pdf
chapitre 1 régression simple.pdf
 
Localisation d’une source émettrice par un réseau d’antennes
Localisation d’une source émettrice par un réseau d’antennesLocalisation d’une source émettrice par un réseau d’antennes
Localisation d’une source émettrice par un réseau d’antennes
 
Mercator Ocean newsletter 14
Mercator Ocean newsletter 14Mercator Ocean newsletter 14
Mercator Ocean newsletter 14
 
Laffly regression multiple
Laffly regression multipleLaffly regression multiple
Laffly regression multiple
 
Matlab Static and Time-Based Analysis of a Homogenous Beam Fixed at Both Ends
Matlab Static and Time-Based Analysis of a Homogenous Beam Fixed at Both EndsMatlab Static and Time-Based Analysis of a Homogenous Beam Fixed at Both Ends
Matlab Static and Time-Based Analysis of a Homogenous Beam Fixed at Both Ends
 
Présentation pfe
Présentation pfePrésentation pfe
Présentation pfe
 
Chaines_Discretes-1.pdf
Chaines_Discretes-1.pdfChaines_Discretes-1.pdf
Chaines_Discretes-1.pdf
 
Vib 1 agm
Vib 1 agmVib 1 agm
Vib 1 agm
 
Cours algorithmique et complexite complet
Cours algorithmique et complexite completCours algorithmique et complexite complet
Cours algorithmique et complexite complet
 
Cours algorithmique et complexite
Cours algorithmique et complexite Cours algorithmique et complexite
Cours algorithmique et complexite
 
Cours algorithmique et complexite complet
Cours algorithmique et complexite completCours algorithmique et complexite complet
Cours algorithmique et complexite complet
 
Rapport MOGPL
Rapport MOGPLRapport MOGPL
Rapport MOGPL
 
Traitement des données massives (INF442, A4)
Traitement des données massives (INF442, A4)Traitement des données massives (INF442, A4)
Traitement des données massives (INF442, A4)
 
Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptx
 
Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptx
 
FLTauR - Construction de modèles de prévision sous r avec le package caret
FLTauR - Construction de modèles de prévision sous r avec le package caretFLTauR - Construction de modèles de prévision sous r avec le package caret
FLTauR - Construction de modèles de prévision sous r avec le package caret
 
melange de gaussienne
melange de gaussiennemelange de gaussienne
melange de gaussienne
 
Comment faire disparaître les rides
Comment faire disparaître les ridesComment faire disparaître les rides
Comment faire disparaître les rides
 

Modélisation non paramétrique_Modèle_SCH (1).pptx

  • 1. Réalisé par : ALADSSI ABDERAHMANE TALEB MOHAMEDAHMED Sous la direction du : Pr. OUMANSOUR NOR-DDINE
  • 2. INTRODUCTION  La modélisation paramétrique non linéaire nécessite un choix a priori de classes des fonctions paramétriques pour la fonction d'intérêt. Bien qu'il s'agisse d'un cadre de modélisation approprié pour de nombreux problèmes empiriques, il ne capture pas toujours les caractéristiques pertinentes pour l'enquêteur.  La modélisation paramétrique non linéaire implique le choix difficile d'une classe de modèles.
  • 3. INTRODUCTION  En revanche, en utilisant l'approche de modélisation non paramétrique, on peut éviter ce choix. Par exemple, en utilisant l'estimation linéaire locale, il suffit de supposer que la fonction d'intérêt est continuellement différentiable jusqu'au second ordre.
  • 4. Plan  Estimation linéaire locale  Sélection de la largeur de bande et du nombre de retard  Modélisation de la volatilité conditionnelle  Application  Conclusion
  • 5.  Nous supposons qu'un processus stochastique univarié yt ,t≥1 est produit par le modèle non linéaire autorégressif conditionnellement hétéroscédastique (NAR). yt = µ(xt ) + σ (xt )ξt Les fonctions µ(.) et σ(.), le nombre de retards m et les indices de retard 𝑖1 , 𝑖2 , . . . , 𝑖𝑚 sont inconnus et doivent être estimés ou sélectionnés.
  • 6. ESTIMATION LINÉAIRE LOCALE LES ESTIMATEURS  L'estimation locale de µ(x ) consiste à estimer µ(.) séparément pour chaque (m ×1) vecteur x=(𝑥1 , 𝑥2 , . . . , 𝑥𝑚 )1 d'intérêt.  Expansion de Taylor du premier ordre de µ(𝑥𝑡) prise en x
  • 7. • le côté droit contient deux termes connus, la constante multipliée par l'inconnue µ(x) et le terme connu (𝒙𝒕 - x ) multiplié par le vecteur des dérivés partielles premières inconnues
  • 8.  s'il n’y avait pas de terme résiduel R(𝑥1 , x) on aurait un simple problème de régression MCO.  Fonction de noyau k(u): On suppose dans ce qui suit que cette fonction est densité de probabilité univariée, symétrique, compacte et non négative, de sorte que: 𝐾(𝑢) du =1 N.B: Il est souvent important de choisir une fonction de noyau adaptée aux caractéristiques spécifiques des données et aux objectifs de l'analyse. Pour ne peut pas influencer la souplesse et la précision de l'estimation locale.
  • 9. EXEMPLE TYPIQUE I ( ) désigne la fonction indicatrice. On a deux types différent de la fonction de noyau : 1- La densité Uniform: k(u)=0 sinon 2- Le noyau quartique: k(u)=0 sinon
  • 10.  La largeur de bande h  la fonction noyau devient: Plus h est grand, plus le voisinage autour de x est grand, où les observations de l'échantillon reçoivent un poids important et plus le biais d'estimation peut être grand. Parce qu'un h plus grand implique que les estimations de la fonction seront plus lisses.
  • 11. Puisque les observations dans le voisinage local de x sont les plus importantes, cette approche d'estimation est appelée l’estimation locale.  Si m > 1 et que x = ( x 1 ,..., xm )1 est un vecteur, on utilise un noyau produit x ti désigne la i -ème composante de x t Au lieu d'utiliser une largeur de bande scalaire qui impose le même degré de lissage dans toutes les directions, il est également possible d'utiliser une largeur de bande vectorielle qui détermine le degré de lissage dans chaque direction séparément.
  • 12. En raison de l'introduction d'une fonction noyau, il faut maintenant résoudre un problème de moindres carrés pondérés. Qui fournit l'estimation de la fonction linéaire locale µ(x, h) = cˆ au point x . La bande passante h est également incluse en tant qu'argument pour indiquer la dépendance du résultat d'estimation sur la bande passante. Cet estimateur est décrit comme étant linéaire local
  • 13.  Comme aucun paramètre au sens des modèles paramétriques n'est estimé, cette approche d'estimation est dite non paramétrique.  Estimation de µ(.) sur une grille ou seulement à des valeurs spécifiques.  Avec les matrices
  • 14. L'estimateur de la fonction linéaire locale peut également être écrit comme un estimateur des moindres carrés généralisé. Estimateur de Nadaraya-Watson:
  • 15. La distribution normale asymptotique de l'estimateur linéaire local. Soit f (x ) la densité du vecteur lag au point x et tr( A) la trace d'une matrice A. Alors la distribution normale asymptotique de l'estimateur linéaire local est donnée par: Où: b(x) :le biais asymptotique v(x):la variance asymptotique
  • 16. • le biais d'estimation dépend également des dérivées partielles secondes de la fonction moyenne conditionnelle ainsi que de la variance du noyau σ2 . • La variance asymptotique augmente avec la variance conditionnelle σ2(x) et diminue avec la densité f (x ). Plus la densité est grande, plus il y a d'observations en moyenne proches du point x et donc disponibles pour l'estimation locale, ce qui réduit à son tour la variance d'estimation.
  • 17. La distribution asymptotique a été dérivée sous l'hypothèse que (yt , xt )est un échantillon d'observations iid. Dans ce cas, xt ne contient pas de retards de yt et il n'y a pas de dépendance stochastique entre les observations à différents moments. où xt est un vecteur de yt s retardés, une dépendance stochastique existe clairement.  L'autocorrélation mesure la dépendance stochastique linéaire au sein des yt  Il faut garantir que la dépendance stochastique en général s'éteint assez rapidement.  Dans le contexte actuel, il n'est pas suffisant de considérer uniquement la dépendance mesurée par les premiers moments puisque le processus NAR est un processus stochastique non linéaire, et donc les moments supérieurs du processus yt importent également.
  • 18.  Pour la sélection des décalages, il est nécessaire de spécifier a priori un ensemble de vecteurs de décalage possibles en choisissant le décalage maximal M. On désigne le vecteur de décalage complet contenant tous les décalages jusqu'à M par 𝒙𝒕,𝑴= (𝒚𝒕−𝟏, 𝒚𝒕−𝟐, . . . , 𝒚𝒕−𝑴)’.  Pour l'estimation de la largeur de bande et la sélection du décalage, il est d'abord nécessaire de choisir un critère d'optimalité.  Un critère largement utilisé est l'erreur quadratique moyenne intégrée de la prédiction, qui est communément appelée erreur de prédiction finale ‘EPF’ . Nous l'énonçons ici en utilisant une fonction de poids w(.) nécessaire pour obtenir la cohérence de la procédure de sélection des retards.  Il faut choisir une fonction de poids w(.) qui est continue et non négative et pour laquelle f (𝑥𝑀) > 0 pour 𝑥𝑀 dans le support de w(.).
  • 19.  Pour indiquer l’EPF pour un ensemble arbitraire de retards, les indices de retard et les autres quantités qui peuvent différer des valeurs correctes sont indexés par un « + ». Pour une largeur de bande h et un vecteur de retard 𝑖1 + , … . , 𝑖𝑚+ + , l’EPF est donnée par
  • 20.  Si l’EPF(h,𝑖1 + , … , 𝑖𝑚+ + ) était observable pour tous les vecteurs de retard , alors on choisirait clairement le vecteur de retard et la largeur de bande minimisant l’EPF pour toutes les combinaisons de décalage considérées.  Comme l’EPF (h,𝑖1 + , … , 𝑖𝑚+ + ) n'est pas observable, elle doit être estimée. Dans la littérature, principalement deux approches ont été proposées pour estimer l’EPF inconnue ou ses variantes, à savoir la validation croisée [Vieu (1994), Yao & Tong (1994)] ou l'estimation d'une expression asymptotique de l’EPF [Auestad & Tjøstheim (1990), Tjøstheim & Auestad (1994), Tschernig & Yong (2000)].  On doit supposer que les erreurs ξ𝑡 , t ≥ 𝑖𝑚 ont un quatrième moment fini 𝑚4. Cette hypothèse est nécessaire pour garantir que la variance des estimateurs de l’EPF est bornée. Cette hypothèse doit également être faite pour la sélection standard des retards dans les modèles linéaires.
  • 21.  Sous les hypothèses énoncées, Tschernig & Yang (2000b, Theorem 2.1) : H1[Pour un certain nombre M ≥𝑖𝑚 , le processus vectoriel 𝑋𝑀,𝑡 = (𝑌𝑡−1, . . .,𝑌𝑡−𝑀)𝑇 est strictement stationnaire] H6[K : ℝ1 → ℝ1 est une densité de probabilité symétrique (noyau) et h=ℎ𝑛 est un nombre positif (largeur de bande) avec h0, 𝑛ℎ𝑚 ∞ as n∞] ont montré que, pour l'estimateur linéaire local et le vecteur de retard correct 𝑖1, . . . , 𝑖𝑚, on obtient FPE(h, 𝐢𝟏, . . . , 𝐢𝐦) = AFPE(h, 𝐢𝟏, . . . , 𝐢𝐦) + o (𝐡𝟒 + (𝐓 − 𝐢𝐦)−𝟏 𝐡−𝐦 , (1) dans laquelle les EPF asymptotiques sont : AFPE(h, , 𝐢𝟏, . . . , 𝐢𝐦) = A + b(h)B + c(h)C (2)
  • 22.  Où A = ∫σ2(𝑥)w(𝑥𝑀) f (𝑥𝑀) 𝑑𝑥𝑀, B = ∫σ2 (𝑥)w(𝑥𝑀) f (𝑥𝑀)/f (𝑥) 𝑑𝑥𝑀 C = ∫(tr{ ∂ 2 μ(x) ∂x∂ 𝑥′ })2w(𝑥𝑀) f (𝑥𝑀)d𝑥𝑀 Et  b(h) = ǁ K ǁ2 2𝑚 (𝑛 − 𝑖𝑚 + 1)−1 ℎ−𝑚 , c(h) = σ𝑘 4 ℎ4 /4,  Une analyse plus approfondie de l’EPF est possible en utilisant l’AEPF. Le terme A représente l’erreur de prédiction finale pour la fonction réelle f. Les termes b(h)B et c(h)C sont la variance prévue et le biais au carré de l’estimateur. (3) (4) (5) (6)
  • 23.  On peut interpréter A comme l’EPF de la vraie fonction μ.  En examinant B de plus près, on comprend pourquoi la définition de l'EPF inclut une fonction de poids. Sans une fonction de poids à support compact, on aurait dans le cas d'un processus homoscédastique.
  • 24.  Le développement asymptotique du premier ordre de l'EPF donné par (1) à (6) doit être légèrement modifié si un vecteur de retard différent du vecteur correct est choisi.  Considérons d'abord le cas où tous les retards corrects sont inclus plus quelques retards supplémentaires et indexons toutes les variables correspondantes avec un + comme précédemment. L'expansion EPF modifiée est alors obtenue en remplaçant m par 𝑚+ , 𝑖𝑚par 𝑖𝑚+ + , x par 𝑥+ , et h par ℎ+ dans les équations (1) à (6).  Considérons maintenant le cas où tous les retards corrects ne sont pas inclus dans le vecteur de retard choisi et où toutes les variables correctes sont pertinentes dans la plage de la fonction de poids qui spécifie la plage d'intérêt. Cette dernière condition exclut une situation où, par exemple, le retard 1 entre dans la fonction μ uniquement en dehors de la plage d'intérêt.  Si un retard pertinent dans le vecteur de retard choisi est laissé de côté et qu'un sous-ajustement se produit, alors les AEPF du modèle sous-ajusté et du modèle correct diffèrent par une constante indépendante de la largeur de bande et de la taille de l'échantillon [Tschernig & Yang (2000b, Theorem 3.4)].
  • 25. CHOIX DE LA LARGEUR DE BANDE  La largeur de bande de Yang et Tschernig (1999) est utiliser pour l’EPF linéaire local. Auparavant, la largeur de bande était toujours obtenue en minimisant les critères sur une grille prédéterminée où seul Vieu (1994) montrait l’optimalité de la procédure de recherche de grille. Dans tous les cas, la largeur de bande nécessite beaucoup moins de calcul que la recherche de grille  L'estimateur linéaire local et l'estimateur de Nadaraya-Watson ont la même largeur de bande asymptotiquement optimale uniquement si le plan est uniforme.  En cas d'erreurs homoscédastiques, toutes les dérivées partielles d'ordre 1 et 2 de 𝝈𝟐 . sont nulles ; ainsi, le biais asymptotique d'ordre 1 de l'estimateur de Nadaraya-Watson et des estimateurs linéaires locaux est nul et aucune largeur de bande asymptotiquement optimale n'existe car le compromis biais-variance échoue.
  • 26. CHOIX DE LA LARGEUR DE BANDE  Cela implique qu'une largeur de bande enfichable a été choisie trop petite, et que les estimations de la volatilité conditionnelle qui en résultent présente par conséquent une variance trop importante.  Pour l'estimateur linéaire local, cet effet se produit également si σ (.) est linéaire sur le support de la fonction de poids.  Ainsi, en cas d'erreurs homoscédastiques, les intervalles de confiance basés sur 𝝈𝟐(𝒙𝒕 ) peuvent être trompeurs.
  • 27. SÉLECTION DU NOMBRE DE RETARD  Les propriétés asymptotiques de cette procédure de sélection des retards ne peuvent être dérivées que pour le cas particulier dans lequel la fonction de moyenne conditionnelle μ(.) est connue pour être une constante.  Si, les hypothèses requises pour sélectionner les retards de la fonction moyenne conditionnelle sont modifiées de manière adéquate, alors, selon Tschernig & Yang (2000), la sélection des retards pour la fonction de volatilité conditionnelle σ(x) à l'aide des estimateurs (C)AFPE modifiés est faiblement cohérente. Une condition importante pour un tel résultat est que la variance de 𝒖𝒕 existe.  Si les retards entrant dans μ(.) sont connus mais pas la fonction elle-même, il faut montrer que la sélection des retards est faiblement cohérente si l'ensemble des retards à choisir est complètement contenu dans l'ensemble des retards de μ(.).
  • 28.  Deux remarques s'imposent :  Premièrement, pour le choix de la largeur de bande et la sélection des retards, le problème de l'obtention éventuelle d'estimations de variance négatives à partir de l’estimateur linéaire local de la variance conditionnelle est ignoré car, il s'agit d'un problème de limite et il n'affecte donc pas trop d'observations tant que le nombre de retards « m » n'est pas trop grand.  Deuxièmement, si le processus NAR est homoscédastique, la sélection des retards à l'aide de la (C)AFPE modifiée ne peut pas être cohérente car l'estimateur linéaire local n'a pas de biais de premier ordre et nous sommes confrontés à la même situation que dans le cas d'une fonction de moyenne conditionnelle linéaire μ(.). Dans une telle situation, on peut fréquemment observer un sur ajustement : certains décalages sont sélectionnés alors que la sélection d'aucun décalage est correcte
  • 29.  En pratique, on peut traiter cette possibilité de deux manières :  La première solution consiste à étudier l'hétéroscédasticité potentielle, avec tous les problèmes potentiels, et à utiliser les résultats comme base pour une modélisation et des tests paramétriques supplémentaires.  La deuxième solution consiste à modéliser la volatilité conditionnelle uniquement si le test ARCH-LM rejette les erreurs homoscédastiques. Cependant, le test ARCH-LM peut n'avoir qu'une faible puissance contre certains types d'hétéroscédasticité conditionnelle qui sont autorisés dans un processus NAR.
  • 30. MODÉLISATION DE LA VOLATILITÉ CONDITIONNELLE :  En permettant au processus autorégressif non linéaire d'être conditionnellement hétéroscédastique, le calcul des intervalles de confiance nécessite d'estimer la fonction de volatilité conditionnelle σ(x). Cette dernière entre dans la variance asymptotique de l'estimateur linéaire local de μ(x).
  • 31. • ESTIMATION :  En cas d'erreurs conditionnellement homoscédastiques, 𝝈𝟐(𝒙𝒕) = 𝝈𝟐.  𝜎2 peut-être utilisé pour calculer les intervalles de confiance sous l'hypothèse d'erreurs homoscédastiques.  Pour dériver des estimateurs locaux de la volatilité conditionnelle, nous supposons pour le moment que la fonction moyenne conditionnelle μ(.) est connue.
  • 32. En définissant 𝜺𝒕 = 𝒚𝒕 − μ(𝒙𝒕), on peut réécrire le processus NAR sous la forme 𝜺𝒕 = 𝝈(𝒙𝒕)𝝃𝒕. L'addition et la soustraction de 𝝈𝟐(𝒙𝒕) donnent :  𝜺𝒕 𝟐 = 𝝈𝟐 𝒙𝒕 + 𝝈𝟐 𝒙𝒕 𝝃𝒕 𝟐 − 𝟏  = 𝝈𝟐 𝒙𝒕 + 𝒖𝒕, t = 𝒊𝒎+𝟏, . . . , Où nous définissions 𝒖𝒕 =𝝈𝟐 𝒙𝒕 𝝃𝒕 𝟐 − 𝟏 . Ainsi, le processus {𝒖𝒕} est un processus de bruit blanc.
  • 33.  Comme 𝒖𝒕 est un bruit blanc, la seule différence entre les processus stochastiques et le modèle non linéaire autorégressif conditionnellement hétéroscédastique (NAR) est que les variables d'entrée de la présente "fonction de moyenne conditionnelle" 𝝈𝟐 𝒙𝒕 ne comportent pas de retards de la variable dépendante 𝝃𝒕 𝟐 .  On peut néanmoins utiliser les estimateurs locaux si la variable dépendante 𝑦𝑡 est remplacée par les résidus au carré 𝜉𝒕 𝟐 .
  • 34.  En général, la fonction moyenne conditionnelle μ(.) est inconnue;  Les erreurs 𝜺𝒕, t = 𝒊𝒎+𝟏, . . . ,T doivent être estimées par : 𝜺𝒕 = 𝒚𝒕 − 𝝁(𝒙𝒕, 𝐡).  Si 𝝁(𝒙𝒕, 𝐡) est l'estimateur linéaire local, alors un estimateur linéaire local de la variance conditionnelle 𝝈𝟐 𝒙𝒕 est obtenu en remplaçant dans 𝒚𝒕 par 𝜺𝒕 𝟐 . On obtient ainsi :  𝝈𝟐(𝐱, 𝐡) = 𝒆′{𝒁′(𝐱)𝐖(𝐱, 𝐡)𝐙(𝐱)}−𝟏 𝒁′(𝐱)𝐖(𝐱, 𝐡)𝜺𝟐.  Avec 𝜺𝟐 = ( 𝜺𝐢𝐦+𝟏 𝟐 ,…, 𝜺𝑻 𝟐 )’.  L’estimateur Nadaraya-Waston doit-être modifier à  𝝈𝑵𝑾 𝟐 (𝐱, 𝐡) = 𝐭 = 𝒊𝒎+𝟏 𝑻 𝑲𝒉(𝒙𝒕 − 𝒙 )𝜺𝒕 𝟐 𝐭 = 𝒊𝒎+𝟏 𝑻 𝑲𝒉(𝒙𝒕 − 𝒙 ) .
  • 35.  Tschernig & Yang (2000) ont dérivé le biais et la variance asymptotiques et la normalité asymptotique de l'estimateur linéaire local de la volatilité.  Dans les échantillons finis, l'estimateur linéaire local peut conduire à des estimations négatives de 𝝈𝟐 𝒙 même pour une très grande largeur de bande h. Cela est particulièrement probable si x est proche de la limite des données de l'échantillon. Un tel résultat est extrêmement improbable si x se situe autour de la moyenne de l'échantillon.  Par conséquent, il faut vérifier le signe de 𝝈𝟐(𝒙). S'il est négatif, nous utilisons l'estimateur de Nadaraya-Watson, qui n'est pas soumis à ce problème.
  • 36. • ERREURS ARCH :  Le processus stochastique des résidus au carré peut être vu comme une généralisation d'un processus ARCH(q) si μ(.) = 0. Pour ce dernier, la variance conditionnelle est donnée par :  𝝈𝒕 𝟐 = 𝜸𝟎 + 𝜸𝟏𝜺𝒕−𝟏 𝟐 +. . . +𝜸𝒒𝜺𝒕−𝒒 𝟐 ,  Où l'on doit supposer 𝜸𝒊> 0, i = 0, ..., q. Dans le cas particulier de μ(.) = 0, on a 𝜺𝒕 = 𝒚𝒕 , et donc la variance conditionnelle peut-être écrit sous la forme suivante :  𝝈𝟐(𝒙𝒕 ) = 𝜸𝟎 + 𝜸𝟏𝒚𝒕−𝟏 𝟐 +. . . +𝜸𝒒𝒚𝒕−𝒒 𝟐 ,   Où 𝒙𝒕 =(𝒚𝒕−𝟏, 𝒀𝒕−𝟐, . . . , 𝒀𝒕−𝒒)′.
  • 37. Dans ce cas, la variance conditionnelle 𝝈𝟐(𝒙𝒕 ) est une somme d'observations pondérées, élevées au carré et décalées. Cela implique, par exemple, pour un processus ARCH (2) que 𝜎2 (𝑥𝑡 ) est en termes de 𝑦𝑡−1 et 𝑦𝑡−2 une parabole à deux dimensions.
  • 38.  Si μ (𝒚𝒕−𝟏, 𝒀𝒕−𝟐, . . . , 𝒀𝒕−𝒎) ≠ 0 et que la variance conditionnelle est vérifiée, la variance conditionnelle 𝜎2(. ) n'a plus une forme simple puisque :  𝝈𝟐 𝒚𝒕−𝟏, 𝒀𝒕−𝟐, … , 𝒀𝒕−𝒒−𝒎 = 𝜸𝟎 + 𝜸𝟏 𝒚𝒕−𝟏 − 𝝁 𝒚𝒕−𝟐, … , 𝒚𝒕−𝟏−𝒎 𝟐 +. . . +𝜸𝒒(𝒚𝒕−𝒒 − 𝝁(𝒚𝒕−𝒒−𝟏 , . . . , 𝒚𝒕−𝒒−𝒎 ))𝟐 Qui n'est plus une fonction simple en termes de 𝒚𝒕−𝒊′. Notons que 𝝈^𝟐 (.) comprend plus de retards que μ(.) car il est constitué de tous les retards de 1 à m plus ceux de m + 1 à m + q. Cela viole l'hypothèse selon laquelle σ (.) peut contenir tous les retards de μ(.) mais pas plus. Ainsi, le modèle NAR ne comprend pas en général d'erreurs ARCH (sauf si μ(.) = 0).
  • 39. APPLICATION : Sur le logiciel « JMuLTi », nous illustrons la procédure complète de modélisation non paramétrique pour le nombre moyen d'heures travaillées par semaine aux États-Unis. Les 478 observations mensuelles couvrent la période de 1960M1 à 1999M11 et ont été corrigées des variations saisonnières. Ces données sont des données mensuelles des changements hebdomadaires des heures de travail aux États-Unis.
  • 40. PREMIÈRE ÉTAPE : GRAPHIQUE :  Le graphique affiche les séries chronologiques des données. Les deux plus fortes baisses de la moyenne des heures hebdomadaires se produisent en janvier 1982 et janvier 1996.
  • 41. DEUXIÈME ÉTAPE : STATIONNARITÉ :  L'inspection visuelle et les tests ADF standard de racine unitaire suggèrent de prendre les différences premières afin d'obtenir une série stationnaire. La série chronologique des différences premières est également présentée comme suit.
  • 42. TROISIÈME ÉTAPE : NOMBRE DE RETARD :  Sur la base des autocorrélations (partielles) des différences premières, on peut considérer les retards 1 et 2. Notez l'importance du retard 12 qui peut résulter de la procédure d'ajustement saisonnier.
  • 43.  Étant donné que la dépendance d'ordre supérieur ne peut être mise en évidence à partir des autocorrélations estimées, la sélection des retards doit être effectuée au moyen des méthodes non paramétriques. En effectuant une recherche complète avec le critère CAFPE pour un nombre maximal de huit retards jusqu'au retard 8, M = 8, on identifie les retards 1 et 2 comme étant les plus pertinents.  Le tableau montre la sélection optimale des retards pour chaque nombre de retards ainsi que la largeur de bande sous-jacent aux estimations de la fonction et le CAFPE résultant.  Par exemple, le deuxième retard a été estimé avec une largeur de bande de 0,158 et la valeur CAFPE résultante est de 0,0524 (la plus petite valeur).
  • 44. QUATRIÈME ÉTAPE : ESTIMATION :
  • 45. CONCLUSION :  Dans cette présentation nous nous sommes concentrés sur l'estimation non paramétrique de modèles de séries temporelles non linéaires à une variable.  Ces modèles peuvent contenir des erreurs conditionnellement hétéroscédastiques et des caractéristiques saisonnières.

Notes de l'éditeur

  1. Où x t : xt = (yt−i 1 , yt−i 2 , . . . , yt−i m )1 µ( .) : moyenne conditionnelle σ (.): la fonction de volatilité m: le nombre de retards i1 , i 2 , . . . , im :les indices de retard
  2. Nous expliquons d'abord les principes de l'estimation polynomiale locale (Elle vise à estimer la relation entre une variable dépendante et une ou plusieurs variables indépendantes sans faire d'hypothèses spécifiques sur la forme fonctionnelle de cette relation.) appliquée à l'estimation de la fonction moyenne conditionnelle et nous dérivons la constante locale et l'estimateur linéaire local. Nous présentons ensuite leurs propriétés asymptotiques, y compris une discussion heuristique des hypothèses requises. où R(xt , x ) désigne le terme résiduel,
  3. En insérant cette expansion dans l'équation du modèle εt pour le terme d'erreur stochastique
  4. Le terme résiduel R(x 1 ​ ,x) dans le cadre de la régression locale, il va permet d'adapter le modèle à des relations potentiellement non linéaires ou plus complexes. Ce terme résiduel capture la différence entre la valeur observée de la variable dépendante et la valeur prédite par le modèle local. En ce sens, l'erreur d'approximation du modèle peut diminuer avec la taille de l'échantillon. C'est l'idée principale qui sous-tend l'estimation non paramétrique.
  5. Des exemples typiques sont: En pratique, on peut également utiliser la densité gaussienne 1- La densité uniforme: attribue un poids égal à toutes les observations à l'intérieur d'une fenêtre fixe de largeur 2 centrée autour du point d'estimation. Elle assigne une valeur de ½ aux observations situées à une distance de 1 unité du point central et un poids de 0 à celles à une distance supérieure à 1. 2- Le noyau quartique: est une fonction de noyau qui assigne des poids aux observations en fonction de la distance par rapport au point central. Contrairement à la densité uniforme, le noyau quartique diminue progressivement les poids des observations à mesure qu'elles s'éloignent du point central. La décroissance des poids suit une fonction polynomiale de degré quatre, d'où le terme "quartique".
  6. Pour ajuster la taille du voisinage X c’est-à-dire (pour contrôler la largeur de la fenêtre autour de chaque point d'estimation et déterminer quels points seront pris en compte pour effectuer l'estimation), on introduit la largeur de bande h.
  7. Cet estimateur est décrit comme étant linéaire local car il est basé sur l'approximation de Taylor du premier ordre 2- Notez que l'estimation de la fonction µ( ) sur le support complet de x nécessiterait une infinité d'estimations.
  8. ZNW (1,=..., 1)1 1 (T × - ).
  9. Nous énonçons d'abord la distribution asymptotique de l'estimateur linéaire local (7.3), puis nous discutons des hypothèses requises. Si on examine de prés le terme de biais asymptotique, on constate que les dérivées partielles du second ordre de µ(x ) doivent exister, Pour que la première fonction soit valable, cela doit être le cas dans un voisinage x. Il faut supposer que µ() est deux fois continuellement différentiable sur le support de f(x), puisque la densité f(x) et la variance conditionnelle σ2 (x ) entrent toutes deux dans la variance asymptotique, il faut également supposer que les deux sont continues et que la dernière est positive sur le support de f (x ).
  10. 2-L'intuition pour ce dernier point est que plus la densité est grande, plus il y a d'observations en moyenne proches du point x et donc disponibles pour l'estimation locale, ce qui réduit à son tour la variance d'estimation.
  11. Initialement Dans la situation actuelle Il faur notez que l'autocorrélation mesure la dépendance stochastique linéaire au sein des yt Pour que (7.5) soit valable,
  12. représente la volatilité d'un phénomène, ajustée en fonction des événements passés
  13. Le model ARCH est couramment utilisee pour modeliser la volatilite conditionnelle