1. ADN – Alexander’s Drifts Net
Préparé et présenté
par Alexandre SERVIGNE – Responsable des Prévisions de trafic
et Raphaël BOUDRA – Support Statistiques et Méthodes
Présentation 8 juin 2012
2. Plan
1 PRESENTATION D’ ADN »
1.1 Eléments de contexte
Principales variables prévues
Différentes segmentations
2 PRESENTATION DU MOTEUR « ADN »
2.1 Architecture
2.2 Modèles intégrés
• NP
• SARIMA
• SARIMAX
• DECOMPOSITION TENDANCE CYCLE
• MODELES ECONOMETRIQUES
• 2.3 Agrégation des prédicteurs
3 Piste: optimisation quadratique sous contrainte linéaire
Orly, Décembre 2010
4. Eléments de contexte
Production des prévisions de trafic à court, moyen et long termes,
indispensables à l'entreprise :
1/ pour sa gestion courante;
2/ pour élaborer son programme d'investissement;
3/ pour alimenter sa réflexion stratégique;
4/ pour permettre d'élaborer certains document contractuels ou
légaux ;
5/ pour alimenter ses études d'opportunité sur les opérations
d'acquisition d'aéroports tiers.
Orly, Décembre 2010
6. 1.2 Principales variables prévues…
Nombre de passagers : 88 Millions en 2011
Passagers en Origine/Destination
Passagers en Correspondance
Orly, Décembre 2010
7. 1.2 Principales variables prévues…
Nombre de Mouvements : 735 400 en 2011
Mouvements mixtes
Mouvements cargos
Orly, Décembre 2010
8. 1.2 Principales variables prévues…
Emport ( nombre moyen de passagers par avion ) : 130
Orly, Décembre 2010
9. 1.2 Principales variables prévues…
Masse Maximale au Décollage par catégorie avion : 36 Millions tonnes/an
Orly, Décembre 2010
10. Une segmentation du trafic à géométrie variable selon la demande :
Orly, Décembre 2010
11. 1.3 segmentation du trafic à géométrie variable selon la
demande
• géographique : 12 régions, 200 pays, 2000 destinations
Orly, Décembre 2010
12. 1.3 segmentation du trafic à géométrie variable selon la
demande
• physique : 2 plateformes, 13 aérogares
Orly, Décembre 2010
13. 1.3 segmentation du trafic à géométrie variable selon la
demande
• stratégique : 200 compagnies aériennes, alliances et code-share.
Orly, Décembre 2010
14. 1.3 segmentation du trafic à géométrie variable selon la
demande
• comptable : 5 faisceaux de facturation
Orly, Décembre 2010
15. Motivation de »ADN »
Compte tenu :
• la multiplicité des facteurs à prendre en compte
• de leurs intéractions
• la multiplicité des flux et de leurs configurations
• l’homogénéité à préserver
Orly, Décembre 2010
16. Motivation de »ADN »
l’outil nécessite :
• de la flexibilité
• de la traçabilité
• de la modularité
• une exécution rapide
Orly, Décembre 2010
17. Motivation de »ADN »
En résumé il doit permettre de se faciliter la vie à modéliser et dégager
du temps pour aborder le transport aérien sous d’autres aspects:
Économique et géopolitiques : revenu des ménages, prix du pétrole, tensions géopolitiques, echanges
commerciaux,…
Sociologique et démographique : population,…
Techniques : évolutions des types avions, consommation, ..
stratégiques : concurrence des autres modes de transport, degré de concentration ( alliance, fusion,..),
structure des réseaux, low-cost,..
Financiéres : taxes , redevances , prix du billet,..
Réglementaires : sureté, sécurité, développement durable,..
Capacitive : sureté, sécurité, développement durable,..
Orly, Décembre 2010
18. 1.2 caractéristiques
« ADN » est un moteur de calcul intégré dans une architecture dont les
données sont organisées en arborescence.
Il intègre des prédicteurs paramétriques et non paramétriques
et fournit une prévision en agrégeant ces prédicteurs.
Orly, Décembre 2010
19. 1.2 caractéristiques
Un outil de simulation et d’aide à la décision qui doit prendre en
compte :
4. les prévisions du modèle Kenza
5. l’expertise métier
6. les points cibles décidés par le comité exécutif
Orly, Décembre 2010
21. 1.4 Quelle architecture ?
Une architecture dont les données sont organisées en arborescence :
ADP
Terrains
Régions
Pays
Villes
Opérateurs
Orly, Décembre 2010
22. 1.4 Quelle architecture ?
…. Et les arborescences peuvent être corrélées entre elles
PAX EMPORT MVT MMD
Orly, Décembre 2010
23. Une architecture approchée à différents niveaux par différentes méthodologies : KENZA
ADN
Point Cible
Expertise métier
PAX
ADP
Terrains Orly CDG
Régions
Pays
Villes
Opérateurs
Orly, Décembre 2010
24. Une architecture approchée à différents niveaux par différentes méthodologies : KENZA
PAX
ADP
Terrains Orly CDG
Régions
Pays
Villes
Opérateurs
Orly, Décembre 2010
25. Une architecture approchée à différents niveaux par différentes méthodologies :
Expertise métier
PAX
ADP
Terrains Orly CDG
Régions
Pays
Villes
Opérateurs
Orly, Décembre 2010
26. Une architecture approchée à différents niveaux par différentes méthodologies :
Point Cible
PAX
ADP
Terrains Orly CDG
Régions
Pays
Villes
Opérateurs
Orly, Décembre 2010
27. Une architecture approchée à différents niveaux par différentes méthodologies :
ADN
PAX
ADP
Terrains Orly CDG
Régions
Pays
Villes
Opérateurs
Orly, Décembre 2010
29. 1.5 Une architecture à créer en fonction de la demande :
Segmentation souhaité : faisceaux de facturation
ADP
NATIONAL
SCHENGEN
AUTRE UE
DOM-TOM
Les faisceaux ne sont pas homogènes en terme de comportement des consommateurs. RESTE DU MONDE
Il n’est donc pas pertinent de modéliser ce niveau de détail.
Orly, Décembre 2010
30. 1. Une architecture à créer en fonction de la modélisation
Segmentation pertinente pour la modélisation : la région
Les régions regroupent les pays qui évoluent dans un contexte économique et démographique comparables.
ADP
AUTRE ASIE
DOM-TOM
NATIONAL
AMERIQUE DU NORD
EUROPE DU SUD
EUROPE DU NORD
POURTOUR MEDITERRANEE
AFRIQUE
RESTE DU MONDE
ASIE DEVELOPPE
AMERIQUE LATINE
EUROPE DE L’EST
Orly, Décembre 2010
31. 1.4 Cohérence des segmentations
Les segmentations sont-elles cohérentes entre-elles?
Orly, Décembre 2010
32. 1. Cohérence entre segmentation souhaitée et modélisée
NATIONAL SCHENGEN AUTRE UE RESTE DU MONDE DOM-TOM
Faisceaux
Régions FRANCE EUROPE DE L’EST DOM-TOM
EUROPE DU SUD AMERIQUE LATINE
EUROPE DU NORD AMERIQUE DU NORD
ASIE DEVELOPPE
AFRIQUE
AUTRE ASIE
MEDITERANNEE
Orly, Décembre 2010
33. 1. Cohérence entre segmentation souhaitée et modélisée
A quel faisceau faut-il rattacher la région Europe de l’est ? 3 faisceaux lui sont associés.
NATIONAL SCHENGEN AUTRE UE RESTE DU MONDE DOM-TOM
Faisceaux
Régions FRANCE EUROPE DE L’EST DOM-TOM
EUROPE DU SUD AMERIQUE LATINE
EUROPE DU NORD AMERIQUE DU NORD
ASIE DEVELOPPE
AFRIQUE
AUTRE ASIE
MEDITERANNEE
Orly, Décembre 2010
34. 1. Cohérence entre le découpage souhaité et celui
modélisé
A quel niveau de détail faut-il descendre pour ne
pas avoir ce chevauchement ?
Orly, Décembre 2010
35. 1. Cohérence entre le découpage souhaité et celui
modélisé
L’arborescence intégrera les pays afin d’associer les régions aux faisceaux
ADP
AUTRE ASIE
NATIONAL
EUROPE DU SUD
EUROPE DU NORD
POURTOUR MEDITERRANEE
DOM-TOM
AFRIQUE
RESTE DU MONDE
AMERIQUE DU NORD
ASIE DEVELOPPE
AMERIQUE LATINE
EUROPE DE L’EST
Regroupement de pays :
Rep. Tchèque
Roumanie
Albanie, Arménie
Orly, Décembre 2010
36. 1. Cohérence entre le découpage souhaité et celui
modélisé
L’arborescence intégrera les pays afin d’associer les régions aux faisceaux
ADP
ADP
Orly, Décembre 2010
37. 1. Cohérence entre le découpage souhaité et celui
modélisé
L’arborescence intégrera les pays afin d’associer les régions aux faisceaux
ADP
ADP
Orly, Décembre 2010
38. 1.4 Contraintes de cohérence
1. « ADN » intègre plusieurs méthodes statistiques...
...L’agrégation de modèles permet de combiner les résultats issus
des différentes méthodes statistiques.
2. Une modélisation indépendante à chaque noeud de
l'arborescence.
...Il n’y a donc aucune raison pour que la prévision de la somme
soit égale à la somme des prévisions des parties .
=> On fait appel à l’optimisation quadratique pour solutionner le
problème.
Orly, Décembre 2010
39. Présentation d’ »ADN »
• Dans la littérature on entend parler de :
« Blue Chip Average Forecast », « Consensus Forecast ».
=> Il s'agit de moyennes de prévisions issues de divers organismes.
« ADN »: SYSTÈME AUTOMATIQUE DE PREVISIONS
PROPOSANT UNE ALTERNATIVE A LA SELECTION DE
MODELE ...
• « ADN » permet d'obtenir des prévisions par combinaisons
de prédicteurs paramétriques et non paramétriques.
Orly, Décembre 2010
40. Formalisation du problème
1.Notation/Définition
On observe au cours du temps ( yt ) ∈ R
d
2.Objectif
On cherche à prévoir ˆ
yt
Orly, Décembre 2010
41. Formalisation du problème
•L’ »ADN » est un système permettant de modéliser le « détail »
tout en respectant les prévisions issues du modèle KENZA.
•On suppose que (Yt ) ∈ R d est une série temporelle.
• La prévision est définie par son espérance conditionnelle:
yt := E (Yt I t )
ˆ
Orly, Décembre 2010
43. Modélisation statistique: non paramétrique
Méthode de Prévision basée sur la notion de similarités.
SIMILARITES = « indices » de proximité entre le bloc (Yn,...,Yn-r) et
les blocs (Yi,...,Yi+r), i=1,...,n-r-1.
Orly, Décembre 2010
44. Modélisation statistique non paramétrique
1.1.2 EXEMPLE:
SERIE MENSUELLE DE TRAFIC FAISCEAU « INTERNATIONAL » DU 1er JANVIER 2003 AU 01APR2012
r
r
r
r
BLOC 20
BLOC 10
BLOC 1 DERNIER BLOC
=
BLOC TEMOIN
Orly, Décembre 2010
45. Modélisation statistique non paramétrique
EXPRESSION DES POIDS:
Wi ,T =
K i ,T (Yn ,..., Yn−r +1 ) − (Yi ,..., Yi −r +1 )
n ,avec: K i ,T = K
∑K
i =1
i ,T h( n)
- La mise en œuvre de cette prévision requiert de choisir:
1- Le noyau K ( pas très influent ): on choisit le noyau
gaussien
2- la taille des blocs r = taille d’une saison.
3- La fenêtre h(n) déterminée par validation croisée.
Orly, Décembre 2010
46. Modélisation statistique non paramétrique
COEFFICIENTS DE SIMILARITES : Wi,T ( r=12 ; h(n)=1,385) SERIE TRAFIC INTERNATIONAL
Orly, Décembre 2010
47. Modélisation statistique non paramétrique
FORMULE POUR LA PREVISION:
Yj centré réduit (provenant du passé)
^ n−h Y j +h − m j
Y n+h = ∑ ( ).sn + mn ).W j
j =r
sj
•Réajustement de Yj aux valeurs présentes
Où:
• mj : moyenne du bloc j.
• sj : écart-type du bloc j.
w
• j : poids quantifiant la proximité entre le dernier bloc centré
réduit et le bloc j centré réduit.
Orly, Décembre 2010
48. Modélisation statistique non paramétrique
•CALCUL D’UN INTERVALLE DE CONFIANCE DE LA PREVISION:
⇒Loi conditionnelle de Yn+h sachant Yn ,..., Yn−r +1
• On estime cette loi conditionnelle par la loi discrète sur Yn , Yn−1 ,..., Yr + h
associée aux poids Wi,T:
^ n−h
F ( x) = ∑1{ Yi+h ≤ x} .Wi ,T
i =1
⇒ On utilise les quantiles de cette loi pour déterminer un intervalle de
^
confiance de prévision conditionnelle à Y n+h
Orly, Décembre 2010
49. Modélisation statistique SARIMA
FORMULE: SARIMA( p, d , q )( P, D, Q) S
Pp ( B )(1 − B ) d PP ( B s )(1 − B s ) D .Yn = QQ ( B S )Qq ( B )ε n
où: (ε n ) est un bb de variance σ 2 .
S : période,
(P,D,Q): ordres de la partie saisonnière.
(p,d,q): ordres de la partie ARIMA classique.
⇒ Nombre de jeux de paramètres et donc de prédicteurs potentiels
élevé!!!
Introduction de procédures de tests afin de réduire les temps de calcul.
Orly, Décembre 2010
50. Modélisation statistique SARIMAX
FORMULE :
N1 ( B ) Q
Yn = a + . X 1,n + ( B).ε n
D1 ( B) P
Dynamique de X1 Dynamique propre à Yn
En pratique:
- On identifie la structure ARMA de Yn.
- On étudie le lien entre Yn et X1 via les corrélations croisées.
- On en déduit des ordres possibles pour N1 et D1.
=> Nombre de jeux de paramètres et donc de prédicteurs potentiels élevé!!!
Introduction de procédures de tests afin de réduire les temps de calcul.
Orly, Décembre 2010
51. Modélisation statistique DECOMPOSITION TENDANCE+ CYCLE (4/4)
MODELE:
Yt = Tt + St + ε t
En pratique:
On choisit une (ou plusieurs) forme pour la tendance
(linéaire, quadratique,…).
On régresse la composante saisonnière sur des harmoniques ie:
^
Yt − Tt = a. cos(ω.t ) + b.sin(ω.t )
Orly, Décembre 2010
52. Modélisation statistique MODELISATION ECONOMETRIQUE (4/4)
Catalogue de modèles:
« ADN » intègre un catalogue de modèles économétriques…:
Modèle linéaire Yt=a.Xt+b;
Modèle Log-linéaire Yt=a.log(Xt)+b;
Modèle exponentiel Yt=a.e(aXt+b);
…
permettant de modéliser simplement la dépendance entre
plusieurs variables
Orly, Décembre 2010
53. Modélisation statistique : agrégation prédicteurs
• A ce stade, on dispose de plusieurs prédicteurs j
^ j
fournissant chacun des prévisions: y t +h pour h=1,…,N.
=> AGREGATION
Orly, Décembre 2010
54. Modélisation statistique : agrégation prédicteurs
Prévision par pondération uniforme => Poids exponentiels
Orly, Décembre 2010
55. Application
On dispose de la série de trafic aérien du faisceau « International ».
Afin de juger de l’apport de la stratégie de pondération exponentielle
dans le système « ADN », nous modélisons cette série sur la période
s’étalant du 1er janvier 2003 au 1er mars 2011.
Nous disposons donc de 99 valeurs.
Nous comparons les performances en prévision sur les 12 données
suivantes de chacune des stratégies (« meilleur modèle »,
pondération uniforme, pondération exponentielle).
Orly, Décembre 2010
56. Application
SERIE MENSUELLE DE TRAFIC FAISCEAU « INTERNATIONAL » DU 1er JANVIER 2003 AU 01APR2012
TEST VALIDATION
Orly, Décembre 2010
57. Modélisation statistique DECOMPOSITION TENDANCE+ CYCLE (4/4)
1.1.2 EXEMPLE:
PERFORMANCES DE DIFFERENTES STRATEGIES (RMSE) sur les 12
derniers mois en prévision
1
RMSET ,i := ∑ ( yt ,i − yt ,i ) 2
T t ≤T
ˆ
Uniform weights Exponential
weights
11523 31230
5
Orly, Décembre 2010
58. Modélisation statistique : agrégation prédicteurs
MOTIVATION
T
• Rappel: si l’on désigne par LT ( y ) := ∑ l ( yk layperte
ˆj
, ˆ kj )
k =1
cumulée du jème prédicteur sur les T premières échéances, alors la
stratégie d’agrégation par des poids exponentiels nous assure
en théorie de meilleures performances que celle du meilleur
prédicteur.
^ T
sup LT ( En ) − min LT (δ j ) ≤ M . ln( N )
j =1,..., N 2
Fonction de perte l : perte quadratique
Orly, Décembre 2010
59. Modélisation statistique : agrégation prédicteurs
ponctuels
STRATEGIE ALTERNATIVE A LA SELECTION DE MODELE:
AGREGATION DES PREVISIONS INDIVIDUELLES PAR POIDS EXPONENTIELS
p
• Problème séquentiel => yt := ∑ ptj−1 ytj
ˆ ˆ
j =1
Avec :
• ytj
ˆ le j-ème prédicteur à la date t.
exp(−ηLt ( y j ))
ˆ 1
•et ptj := où η = 2 ln( N ) / T
∑
j
exp(−ηLt ( y j ))
ˆ M
l ( yt ,i , ytj,i )
et M un majorant de
Orly, Décembre 2010
60. Modélisation statistique : agrégation prédicteurs
probabilistes
p
f t ∑ pt −1 f t
ˆ := j ˆ j
j =1
Avec :
j
• ˆ
y
t le j-ème prédicteur à la date t
ˆ
exp(− Lt ( f j ))
pt :=
j ˆ ˆ
L( yk , f j ) := − log( f j ( yk ))
• et
∑ j
, ˆ
exp(− L ( f j ))
t
Orly, Décembre 2010
61. Résumé partiel
•Nous avons obtenus des prévisions pour différentes variables d’intérêt à
différents niveaux de détail
A ce stade,
• SOMME DES PREVISIONS != SOMME DES PREVISIONS DES
PARTIES
Orly, Décembre 2010
62. Résumé partiel
DEVELOPPEMENTS FUTURS...
Orly, Décembre 2010
63. 2.5 Piste de résolution
Résoudre la problématique (respect des contraintes de cohérence +
prévisions agrégées) comme un problème d’optimisation quadratique
sous contraintes linéaires :
Prévisions
statistiques
2
z := arg min z∈R d y − z
ˆ ˆ
Cz = d
Contraintes
Prévisions respectant Cohérence
Contraintes cohérence
Orly, Décembre 2010
64. Fonction de perte adaptée à la prévision
Les prévisions sont d’autant plus changées qu’elles ont été mauvaises dans le
passé/ On cherche à changer le moins possibles les prévisions qui ont été
précises dans le passé
2
y −z
ˆ :=( y
ˆ −z ) ' ∆ y −z )
(ˆ
Avec
/ Lt 1 ( y1 )
1 ˆ 0
∆ =
:
1 / Lt ( y N )
N
0 ˆ
Orly, Décembre 2010
65. Les contraintes
Contraintes
KENZA
K zK = K
C d
Cz = d ⇒ C z =
c c dc
Contraintes
de cohérence
Orly, Décembre 2010