Prévisions trafic aérien

ADN – Alexander’s Drifts Net
Préparé et présenté
par Alexandre SERVIGNE – Responsable des Prévisions de trafic
et Raphaël BOUDRA – Support Statistiques et Méthodes

Présentation 8 juin 2012

Plan

1 PRESENTATION D’ ADN »
1.1 Eléments de contexte
Principales variables prévues
Différentes segmentations

2 PRESENTATION DU MOTEUR « ADN »
2.1 Architecture
2.2 Modèles intégrés
• NP
• SARIMA
• SARIMAX
• DECOMPOSITION TENDANCE CYCLE
• MODELES ECONOMETRIQUES
• 2.3 Agrégation des prédicteurs

3 Piste: optimisation quadratique sous contrainte linéaire

Orly, Décembre 2010

PRESENTATION D’ »ADN »


Eléments de contexte

Production des prévisions de trafic à court, moyen et long termes,
indispensables à l'entreprise :

1/ pour sa gestion courante;

2/ pour élaborer son programme d'investissement;

3/ pour alimenter sa réflexion stratégique;

4/ pour permettre d'élaborer certains document contractuels ou
légaux ;

5/ pour alimenter ses études d'opportunité sur les opérations
d'acquisition d'aéroports tiers.


Principales variables prévues

1.2 Principales variables prévues…



Nombre de passagers : 88 Millions en 2011
Passagers en Origine/Destination
Passagers en Correspondance



Nombre de Mouvements : 735 400 en 2011
Mouvements mixtes
Mouvements cargos



Emport ( nombre moyen de passagers par avion ) : 130



Masse Maximale au Décollage par catégorie avion : 36 Millions tonnes/an


Une segmentation du trafic à géométrie variable selon la demande :


1.3 segmentation du trafic à géométrie variable selon la
demande

• géographique : 12 régions, 200 pays, 2000 destinations


demande

• physique : 2 plateformes, 13 aérogares


demande

• stratégique : 200 compagnies aériennes, alliances et code-share.


demande

• comptable : 5 faisceaux de facturation


Motivation de »ADN »

Compte tenu :

• la multiplicité des facteurs à prendre en compte

• de leurs intéractions

• la multiplicité des flux et de leurs configurations

• l’homogénéité à préserver



l’outil nécessite :

• de la flexibilité

• de la traçabilité

• de la modularité

• une exécution rapide


En résumé il doit permettre de se faciliter la vie à modéliser et dégager
du temps pour aborder le transport aérien sous d’autres aspects:

Économique et géopolitiques : revenu des ménages, prix du pétrole, tensions géopolitiques, echanges
commerciaux,…

Sociologique et démographique : population,…

Techniques : évolutions des types avions, consommation, ..

stratégiques : concurrence des autres modes de transport, degré de concentration ( alliance, fusion,..),

structure des réseaux, low-cost,..

Financiéres : taxes , redevances , prix du billet,..

Réglementaires : sureté, sécurité, développement durable,..

Capacitive : sureté, sécurité, développement durable,..


1.2 caractéristiques

« ADN » est un moteur de calcul intégré dans une architecture dont les
données sont organisées en arborescence.

Il intègre des prédicteurs paramétriques et non paramétriques

et fournit une prévision en agrégeant ces prédicteurs.


1.2 caractéristiques

Un outil de simulation et d’aide à la décision qui doit prendre en
compte :

4. les prévisions du modèle Kenza
5. l’expertise métier
6. les points cibles décidés par le comité exécutif


1.4 Quelle architecture ?

Quelle architecture ?


Une architecture dont les données sont organisées en arborescence :

ADP

Terrains

Régions

Pays

Villes

Opérateurs



…. Et les arborescences peuvent être corrélées entre elles

PAX EMPORT MVT MMD


Une architecture approchée à différents niveaux par différentes méthodologies : KENZA
ADN
Point Cible
Expertise métier

PAX
ADP

Terrains Orly CDG

Régions

Pays

Villes

Opérateurs


Une architecture approchée à différents niveaux par différentes méthodologies : KENZA

PAX
ADP

Terrains Orly CDG

Régions

Pays

Villes

Opérateurs


Une architecture approchée à différents niveaux par différentes méthodologies :
Expertise métier

PAX
ADP

Terrains Orly CDG

Régions

Pays

Villes

Opérateurs



Point Cible

PAX
ADP

Terrains Orly CDG

Régions

Pays

Villes

Opérateurs



ADN
PAX
ADP

Terrains Orly CDG

Régions

Pays

Villes

Opérateurs


Exemple de segmentation


1.5 Une architecture à créer en fonction de la demande :

Segmentation souhaité : faisceaux de facturation

ADP

NATIONAL

SCHENGEN

AUTRE UE

DOM-TOM

Les faisceaux ne sont pas homogènes en terme de comportement des consommateurs. RESTE DU MONDE

Il n’est donc pas pertinent de modéliser ce niveau de détail.


1. Une architecture à créer en fonction de la modélisation

Segmentation pertinente pour la modélisation : la région
Les régions regroupent les pays qui évoluent dans un contexte économique et démographique comparables.

ADP

AUTRE ASIE

DOM-TOM
NATIONAL

AMERIQUE DU NORD

EUROPE DU SUD

EUROPE DU NORD

POURTOUR MEDITERRANEE

AFRIQUE

RESTE DU MONDE
ASIE DEVELOPPE

AMERIQUE LATINE
EUROPE DE L’EST


1.4 Cohérence des segmentations

Les segmentations sont-elles cohérentes entre-elles?


1. Cohérence entre segmentation souhaitée et modélisée

NATIONAL SCHENGEN AUTRE UE RESTE DU MONDE DOM-TOM
Faisceaux

Régions FRANCE EUROPE DE L’EST DOM-TOM

EUROPE DU SUD AMERIQUE LATINE

EUROPE DU NORD AMERIQUE DU NORD

ASIE DEVELOPPE

AFRIQUE

AUTRE ASIE

MEDITERANNEE


1. Cohérence entre segmentation souhaitée et modélisée

A quel faisceau faut-il rattacher la région Europe de l’est ? 3 faisceaux lui sont associés.

NATIONAL SCHENGEN AUTRE UE RESTE DU MONDE DOM-TOM
Faisceaux

Régions FRANCE EUROPE DE L’EST DOM-TOM

EUROPE DU SUD AMERIQUE LATINE

EUROPE DU NORD AMERIQUE DU NORD

ASIE DEVELOPPE

AFRIQUE

AUTRE ASIE

MEDITERANNEE


1. Cohérence entre le découpage souhaité et celui
modélisé

A quel niveau de détail faut-il descendre pour ne
pas avoir ce chevauchement ?


modélisé
L’arborescence intégrera les pays afin d’associer les régions aux faisceaux

ADP

AUTRE ASIE
NATIONAL

EUROPE DU SUD

EUROPE DU NORD

POURTOUR MEDITERRANEE

DOM-TOM

AFRIQUE

RESTE DU MONDE
AMERIQUE DU NORD

ASIE DEVELOPPE

AMERIQUE LATINE
EUROPE DE L’EST

Regroupement de pays :
Rep. Tchèque

Roumanie

Albanie, Arménie


modélisé
L’arborescence intégrera les pays afin d’associer les régions aux faisceaux
ADP

ADP


1.4 Contraintes de cohérence

1. « ADN » intègre plusieurs méthodes statistiques...

...L’agrégation de modèles permet de combiner les résultats issus
des différentes méthodes statistiques.

2. Une modélisation indépendante à chaque noeud de
l'arborescence.

...Il n’y a donc aucune raison pour que la prévision de la somme
soit égale à la somme des prévisions des parties .

=> On fait appel à l’optimisation quadratique pour solutionner le
problème.


Présentation d’ »ADN »
• Dans la littérature on entend parler de :
« Blue Chip Average Forecast », « Consensus Forecast ».
=> Il s'agit de moyennes de prévisions issues de divers organismes.

« ADN »: SYSTÈME AUTOMATIQUE DE PREVISIONS
PROPOSANT UNE ALTERNATIVE A LA SELECTION DE
MODELE ...

• « ADN » permet d'obtenir des prévisions par combinaisons
de prédicteurs paramétriques et non paramétriques.


Formalisation du problème

1.Notation/Définition

On observe au cours du temps ( yt ) ∈ R
d

2.Objectif

On cherche à prévoir ˆ
yt


Formalisation du problème

•L’ »ADN » est un système permettant de modéliser le « détail »
tout en respectant les prévisions issues du modèle KENZA.

•On suppose que (Yt ) ∈ R d est une série temporelle.

• La prévision est définie par son espérance conditionnelle:

yt := E (Yt I t )
ˆ


Méthodes intégrées dans « ADN »


Modélisation statistique: non paramétrique

Méthode de Prévision basée sur la notion de similarités.

SIMILARITES = « indices » de proximité entre le bloc (Yn,...,Yn-r) et

les blocs (Yi,...,Yi+r), i=1,...,n-r-1.


Modélisation statistique non paramétrique
1.1.2 EXEMPLE:

SERIE MENSUELLE DE TRAFIC FAISCEAU « INTERNATIONAL » DU 1er JANVIER 2003 AU 01APR2012

r

r
r
r

BLOC 20
BLOC 10
BLOC 1 DERNIER BLOC
=
BLOC TEMOIN



EXPRESSION DES POIDS:

Wi ,T =
K i ,T  (Yn ,..., Yn−r +1 ) − (Yi ,..., Yi −r +1 ) 
n ,avec: K i ,T = K
 

∑K
i =1
i ,T  h( n) 

- La mise en œuvre de cette prévision requiert de choisir:
1- Le noyau K ( pas très influent ): on choisit le noyau
gaussien
2- la taille des blocs r = taille d’une saison.
3- La fenêtre h(n) déterminée par validation croisée.



COEFFICIENTS DE SIMILARITES : Wi,T ( r=12 ; h(n)=1,385) SERIE TRAFIC INTERNATIONAL



FORMULE POUR LA PREVISION:

Yj centré réduit (provenant du passé)

^ n−h  Y j +h − m j 
Y n+h = ∑ ( ).sn + mn ).W j 
j =r 
 sj 

•Réajustement de Yj aux valeurs présentes
Où:
• mj : moyenne du bloc j.
• sj : écart-type du bloc j.
w
• j : poids quantifiant la proximité entre le dernier bloc centré
réduit et le bloc j centré réduit.


•CALCUL D’UN INTERVALLE DE CONFIANCE DE LA PREVISION:

⇒Loi conditionnelle de Yn+h sachant Yn ,..., Yn−r +1

• On estime cette loi conditionnelle par la loi discrète sur Yn , Yn−1 ,..., Yr + h
associée aux poids Wi,T:
^ n−h
F ( x) = ∑1{ Yi+h ≤ x} .Wi ,T
i =1

⇒ On utilise les quantiles de cette loi pour déterminer un intervalle de
^
confiance de prévision conditionnelle à Y n+h


Modélisation statistique SARIMA

FORMULE: SARIMA( p, d , q )( P, D, Q) S

Pp ( B )(1 − B ) d PP ( B s )(1 − B s ) D .Yn = QQ ( B S )Qq ( B )ε n

où: (ε n ) est un bb de variance σ 2 .
S : période,
(P,D,Q): ordres de la partie saisonnière.
(p,d,q): ordres de la partie ARIMA classique.

⇒ Nombre de jeux de paramètres et donc de prédicteurs potentiels
élevé!!!

Introduction de procédures de tests afin de réduire les temps de calcul.


Modélisation statistique SARIMAX

FORMULE :

N1 ( B ) Q
Yn = a + . X 1,n + ( B).ε n
D1 ( B) P
Dynamique de X1 Dynamique propre à Yn

En pratique:
- On identifie la structure ARMA de Yn.
- On étudie le lien entre Yn et X1 via les corrélations croisées.
- On en déduit des ordres possibles pour N1 et D1.

=> Nombre de jeux de paramètres et donc de prédicteurs potentiels élevé!!!

Introduction de procédures de tests afin de réduire les temps de calcul.


Modélisation statistique DECOMPOSITION TENDANCE+ CYCLE (4/4)

MODELE:
Yt = Tt + St + ε t
En pratique:

On choisit une (ou plusieurs) forme pour la tendance

(linéaire, quadratique,…).

On régresse la composante saisonnière sur des harmoniques ie:
^
Yt − Tt = a. cos(ω.t ) + b.sin(ω.t )

Modélisation statistique MODELISATION ECONOMETRIQUE (4/4)

Catalogue de modèles:

« ADN » intègre un catalogue de modèles économétriques…:

Modèle linéaire Yt=a.Xt+b;
Modèle Log-linéaire Yt=a.log(Xt)+b;
Modèle exponentiel Yt=a.e(aXt+b);
…

permettant de modéliser simplement la dépendance entre
plusieurs variables


Modélisation statistique : agrégation prédicteurs

• A ce stade, on dispose de plusieurs prédicteurs j
^ j
fournissant chacun des prévisions: y t +h pour h=1,…,N.

=> AGREGATION



Prévision par pondération uniforme => Poids exponentiels


Application
On dispose de la série de trafic aérien du faisceau « International ».
Afin de juger de l’apport de la stratégie de pondération exponentielle
dans le système « ADN », nous modélisons cette série sur la période
s’étalant du 1er janvier 2003 au 1er mars 2011.

Nous disposons donc de 99 valeurs.

Nous comparons les performances en prévision sur les 12 données
suivantes de chacune des stratégies (« meilleur modèle »,
pondération uniforme, pondération exponentielle).


Application

SERIE MENSUELLE DE TRAFIC FAISCEAU « INTERNATIONAL » DU 1er JANVIER 2003 AU 01APR2012

TEST VALIDATION


Modélisation statistique DECOMPOSITION TENDANCE+ CYCLE (4/4)

1.1.2 EXEMPLE:

PERFORMANCES DE DIFFERENTES STRATEGIES (RMSE) sur les 12
derniers mois en prévision

1
RMSET ,i := ∑ ( yt ,i − yt ,i ) 2
T t ≤T
ˆ

Uniform weights Exponential
weights

11523 31230
5



MOTIVATION
T
• Rappel: si l’on désigne par LT ( y ) := ∑ l ( yk layperte
ˆj
, ˆ kj )
k =1
cumulée du jème prédicteur sur les T premières échéances, alors la
stratégie d’agrégation par des poids exponentiels nous assure
en théorie de meilleures performances que celle du meilleur
prédicteur.

^  T
sup  LT ( En ) − min LT (δ j ) ≤ M . ln( N )
 j =1,..., N  2
Fonction de perte l : perte quadratique


ponctuels

STRATEGIE ALTERNATIVE A LA SELECTION DE MODELE:
AGREGATION DES PREVISIONS INDIVIDUELLES PAR POIDS EXPONENTIELS

p
• Problème séquentiel => yt := ∑ ptj−1 ytj
ˆ ˆ
j =1
Avec :

• ytj
ˆ le j-ème prédicteur à la date t.

exp(−ηLt ( y j ))
ˆ 1
•et ptj := où η = 2 ln( N ) / T
∑
j
exp(−ηLt ( y j ))
ˆ M

l ( yt ,i , ytj,i )
et M un majorant de

probabilistes

p
f t ∑ pt −1 f t
ˆ := j ˆ j

j =1

Avec :
j
• ˆ
y
t le j-ème prédicteur à la date t

ˆ
exp(− Lt ( f j ))
pt :=
j ˆ ˆ
L( yk , f j ) := − log( f j ( yk ))
• et
∑ j
, ˆ
exp(− L ( f j ))
t


Résumé partiel

•Nous avons obtenus des prévisions pour différentes variables d’intérêt à
différents niveaux de détail

A ce stade,

• SOMME DES PREVISIONS != SOMME DES PREVISIONS DES
PARTIES


Résumé partiel

DEVELOPPEMENTS FUTURS...


2.5 Piste de résolution
Résoudre la problématique (respect des contraintes de cohérence +
prévisions agrégées) comme un problème d’optimisation quadratique
sous contraintes linéaires :
Prévisions
statistiques

2
z := arg min z∈R d y − z
ˆ ˆ
Cz = d

Contraintes
Prévisions respectant Cohérence
Contraintes cohérence


Fonction de perte adaptée à la prévision
Les prévisions sont d’autant plus changées qu’elles ont été mauvaises dans le
passé/ On cherche à changer le moins possibles les prévisions qui ont été
précises dans le passé

2
y −z
ˆ :=( y
ˆ −z ) ' ∆ y −z )
(ˆ
Avec

 / Lt 1 ( y1 )
1 ˆ  0 
 
∆ =
:    

 
1 / Lt ( y N ) 
N
0  ˆ
 


Les contraintes

Contraintes
KENZA

 K zK = K
C d

Cz = d ⇒ C z =
 c c dc

Contraintes
de cohérence


Bibliographie

Journal de la société française de statistiques, Gilles Stoltz


Prévisions trafic aérien

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (20)

Plus de Cdiscount

Plus de Cdiscount (13)

Prévisions trafic aérien