SlideShare une entreprise Scribd logo
1  sur  38
Télécharger pour lire hors ligne
Framework    A simple strategy    Non stationarity    Empirical studies   References




                       Robust sequential learning
            with applications to the forecasting of air quality
                     and of electricity consumption


                                 Gilles Stoltz

            CNRS — École normale supérieure — INRIA, équipe CLASSIC
                                  & HEC Paris
Framework       A simple strategy     Non stationarity     Empirical studies    References



     A statistician has to predict a sequence y1 , y2 , . . . of observations
     lying in some set Y.
     His predictions y1 , y2 , . . . are picked in a set X .

     Observations and predictions (1) are made in a sequential fashion
     and (2) rely on no stochastic modeling.


     (1) means that for each instance, the prediction yt of yt is
     determined
                                                 t−1
        – solely based on the past observations y1 = y1 , . . . , yt−1 ,
        – before getting to know the actual value yt .

     (2) indicates that the methods at hand will not resort to the
     estimation of some parameters of some stochastic process to build
     a good model and get some accurate forecasts from it.
Framework       A simple strategy        Non stationarity   Empirical studies   References



     To make the problem meaningful, finitely many expert forecasts are
     called for.




     At each instance t, expert j ∈ {1, . . . , N} outputs a forecast
                                                 t−1
                                    fj,t = fj,t y1   ∈X


     The statistician now determines yt based
                                    t−1
        – on the past observations y1 = (y1 , . . . , yt−1 ),
        – and the current and past expert forecasts fj,s , where
          s ∈ {1, . . . , t} and j ∈ {1, . . . , N}.
Framework      A simple strategy     Non stationarity       Empirical studies   References




     We assume that the set X of predictions is convex and we restrict
     the statistician to form convex combinations of the expert forecasts.

     At each instance t, the statistician thus picks a convex weight
     vector p t = p1,t , . . . , pN,t and forms

                                          N
                                   yt =         pj,t fj,t
                                          j=1


     The aim of the statistician is to predict –on average– as well as the
     best constant convex combination of the expert forecasts.
     ... But we need first to indicate how to assess the accuracy of a
     given prediction!
Framework          A simple strategy             Non stationarity         Empirical studies           References


     To that end, we consider a convex loss function                            : X × Y → R+ .

     When X ⊆ R and Y ⊆ R, possible choices are
        – the square loss (x, y ) = (x − y )2 ;
        – the absolute loss (x, y ) = |x − y |;
        – the absolute percentage of error (x, y ) = |x − y | |y |.

     The cumulative losses of the statistician and of the constant convex
     combinations q = (q1 , . . . , qN ) of the expert forecasts equal
                                                                                                  
             T          N                                                 T          N
      LT =                   pj,t fj,t , yt      and         LT (q) =                  qj fj,t , yt 
             t=1        j=1                                               t=1       j=1



     The regret is defined as the difference
                                       RT = LT − min LT (q)
                                                           q
Framework       A simple strategy             Non stationarity         Empirical studies            References


     Recall that the regret RT is defined as the difference
                                                                                                 
                             T          N                               T            N
      LT − min LT (q) =                      pj,t fj,t , yt  − min                    qj fj,t , yt 
            q                                                    q
                            t=1         j=1                            t=1        j=1


     We are interested in aggregation rules with (uniformly) vanishing
     per-round regret,

                                    1
                    lim sup           sup LT − min LT (q)                        0
                     T →∞           T           q

     where the supremum is over all possible sequences of observations
     and of expert forecasts.
     This is why this framework is referred to as prediction of individual
     sequences or as robust aggregation of expert forecasts.
     Note that the best convex combination q can only be determined
     in hindsight whereas the statistician has to predict in a sequential
     fashion.
Framework      A simple strategy        Non stationarity   Empirical studies   References




     This framework leads to a meta-statistical interpretation:
        – each series of expert forecasts may be given by a statistical
          forecasting method, possibly tuned with some given set of
          parameters;
        – these base forecasts relying on some stochastic model are then
          combined in a robust and deterministic manner.

     The cumulative loss of the statistician can be decomposed as

                                   LT = min LT (q) + RT
                                         q

     This leads to the following interpretations:
        – the term indicating the performance of the best convex
          combination of the expert forecasts is an approximation error;
        – the regret term measures a sequential estimation error.
Agrégation séquentielle de prédicteurs
                                                         Exponentielle des gradients
                   Applications à des données réelles
                                                         Une pondération exponentielle sans gradients
Deux familles d’algorithmes d’agrégation séquentielle
                                                         La régression ridge
                      Travaux récents et perspectives


   1    Agrégation séquentielle de prédicteurs
          Cadre mathématique
          La philosophie sous-jacente à ce cadre
          Résumé du cadre
   2    Applications à des données réelles
          Prédiction de la qualité de l’air
          Autres domaines
   3    Deux familles d’algorithmes d’agrégation séquentielle
          Exponentielle des gradients
          Une pondération exponentielle sans gradients
          La régression ridge
   4    Travaux récents et perspectives
          Calibration des algorithmes
          Agrégation lacunaire
          Autres objectifs ou autres résultats

                                         Gilles Stoltz   Prédiction avec experts
Agrégation séquentielle de prédicteurs
                                                              Exponentielle des gradients
                   Applications à des données réelles
                                                              Une pondération exponentielle sans gradients
Deux familles d’algorithmes d’agrégation séquentielle
                                                              La régression ridge
                      Travaux récents et perspectives


   Theorem
   Le regret de EG face à toute combinaison convexe constante q est
   uniformément borné (en q et en les suites y1 , y2 , . . .) selon
                                                                            
         n             N                         n            N
                                                                                        ln N   ηn 2
                          pj,t fj,t , yt  −                      qj fj,t , yt            +    B
        t=1                                     t=1
                                                                                          η     2
                     j=1                                      j=1


   où B est une borne sur les gradients,                            t   ∞
                                                                              B pour tout t.


   Deux éléments de démonstration : par convexité,
                                                                     
                 N                               N
                      pj,t fj,t , yt  −               qj fj,t , yt          t (p t )   · pt − q
                 j=1                             j=1

   et l’analyse de ce majorant (linéaire en q) repose sur le lemme de
   Hoeffding.
                                         Gilles Stoltz        Prédiction avec experts
Agrégation séquentielle de prédicteurs
                                                               Exponentielle des gradients
                   Applications à des données réelles
                                                               Une pondération exponentielle sans gradients
Deux familles d’algorithmes d’agrégation séquentielle
                                                               La régression ridge
                      Travaux récents et perspectives

   La version fenêtrée repose sur une largeur de fenêtre T et produit
   les combinaisons convexes données par
                                                  t−1
                                exp −η            s = max{1, t−T }             s (p s )
                                                                                           j
                  pj,t =
                                N                        t−1
                                i=1   exp −η             s = max{1, t−T }          s (p s )
                                                                                                   i

    La version escomptée utilise une suite décroissante (βs ) pour
   former
                                                  t−1
                               exp −ηt            s=1      1 + βt−s             s (p s )
                                                                                               j
                 pj,t =
                              N                          t−1
                              i=1   exp −ηt              s=1    1 + βt−s             s (p s )
                                                                                                       i

   On peut exhiber une borne théorique sur le regret de la version
   escomptée, dépendant de (βs ).
   Pour la prédiction de la qualité de l’air, nous avons utilisé des
   escomptes assez forts, βs = 100/s 2 .
                                         Gilles Stoltz         Prédiction avec experts
Agrégation séquentielle de prédicteurs
                                                         Exponentielle des gradients
                   Applications à des données réelles
                                                         Une pondération exponentielle sans gradients
Deux familles d’algorithmes d’agrégation séquentielle
                                                         La régression ridge
                      Travaux récents et perspectives


   1    Agrégation séquentielle de prédicteurs
          Cadre mathématique
          La philosophie sous-jacente à ce cadre
          Résumé du cadre
   2    Applications à des données réelles
          Prédiction de la qualité de l’air
          Autres domaines
   3    Deux familles d’algorithmes d’agrégation séquentielle
          Exponentielle des gradients
          Une pondération exponentielle sans gradients
          La régression ridge
   4    Travaux récents et perspectives
          Calibration des algorithmes
          Agrégation lacunaire
          Autres objectifs ou autres résultats

                                         Gilles Stoltz   Prédiction avec experts
Agrégation séquentielle de prédicteurs
                                                           Exponentielle des gradients
                   Applications à des données réelles
                                                           Une pondération exponentielle sans gradients
Deux familles d’algorithmes d’agrégation séquentielle
                                                           La régression ridge
                      Travaux récents et perspectives


   La régression ridge a été introduite dans les années 70 par Hoerl et
   Kennard et intensivement étudiée depuis dans un cadre
   stochastique.
   Vovk ’01 et Azoury et Warmuth ’01 en proposent une analyse pour
   des suites individuelles.

   Formellement, en perte quadratique, la régression ridge choisit des
   combinaisons linéaires u t des prédictions des experts données, à
   l’échéance t 2, par un critère de moindres carrés pénalisés,
                                                                                    2 
                                                          t−1             N
                                                  2
                u t ∈ argmin  λ u                2   +         ys −          uj fj,s  
                          u∈RN                            s=1            j=1

   Elle peut être mise en œuvre efficacement de manière séquentielle
   et assure que son regret est O(ln n).
                                         Gilles Stoltz     Prédiction avec experts
Agrégation séquentielle de prédicteurs
                                                          Exponentielle des gradients
                   Applications à des données réelles
                                                          Une pondération exponentielle sans gradients
Deux familles d’algorithmes d’agrégation séquentielle
                                                          La régression ridge
                      Travaux récents et perspectives



   Une propriété tout à fait sympathique de la régression ridge est
   qu’elle semble débiaiser automatiquement les experts.
   On peut en effet la faire tourner sur un seul expert (proposant les
                 s
   prédictions fj,t ) et faire ainsi presqu’aussi bien que le meilleur des
   experts, indexés chacun par γ, proposant les prédictions γ fj,t .s


   S’il y a un facteur de biais multiplicatif à-peu-près contant 1/γ, il
   est donc corrigé.

   Sur les données d’ozone, cela donne les erreurs quadratiques
   moyennes suivantes, par exemple sur le meilleur et le moins bon
   modèle :

     Sans Ridge           Avec Ridge                     Sans Ridge         Avec Ridge
       35.79                24.78                          22.43              21.66

                                         Gilles Stoltz    Prédiction avec experts
Framework      A simple strategy    Non stationarity   Empirical studies   References




     Two empirical studies
      – Prediction of air quality
      – Forecasting of the electricity consumption
Framework        A simple strategy   Non stationarity   Empirical studies   References




     Two empirical studies

     The methodology of our studies is in four steps:
        1   Build the experts (possibly on a training data set) and pick
            another data set for the evaluation of our methods;
        2   Compute some benchmarks and some reference oracles;
        3   Evaluate our strategies when run with fixed parameters (i.e.,
            with the best parameters in hindsight);
        4   The performance of interest is actually the one of the
            data-driven meta-strategies.
Framework      A simple strategy   Non stationarity   Empirical studies   References


     First study:
     Prediction of air quality
     Joint work with Vivien Mallet (INRIA) and M.Sc. students;
     published in the Journal of Geophysical Research

     Some characteristics of one among the studied data sets:

        – 126 days during summer ’01; one-day ahead prediction
        – 241 stations in France and Germany
        – Typical ozone concentrations between 40 µg m−3 and
          150 µg m−3 ; sometimes above the values 180 µg m−3 or 240
          µg m−3
        – 48 experts, built in Mallet et Sportisse ’06 by choosing a
          physical and chemical formulation, a numerical approximation
          scheme to solve the involved PDEs, and a set of input data
          (among many)
Agrégation séquentielle de prédicteurs
                   Applications à des données réelles    Prédiction de la qualité de l’air
Deux familles d’algorithmes d’agrégation séquentielle    Autres domaines
                      Travaux récents et perspectives


   On dispose d’un réseau S de stations à travers l’Europe et chaque
                                                     s
   modèle j = 1, . . . , 48 procure une prédiction fj,t pour le pic à la
   station s et au jour t, qui est ensuite comparée au pic réalisé yts .
   Le statisticien détermine chaque jour une unique combinaison
   convexe p t = (p1,t , . . . , pN,t ) à utiliser en toutes les stations pour
   agréger les prédictions (et obtenir ainsi un champ de prévisions).

   Les écarts sont mesurés en perte quadratique moyenne, ce qui
   revient à considérer la fonction de perte
                                                     2
                                                             48
                        p t , (yts )s∈St      =                   pj,t fj,t − yts 
                                                                          s

                                                  s∈St       j=1

   où St est le sous-ensemble des stations actives au jour t.
   La définition s’étend au cas des combinaisons linéaires u t (qui
   permettent par exemple de réduire le biais des modèles).
                                         Gilles Stoltz   Prédiction avec experts
Agrégation séquentielle de prédicteurs
                   Applications à des données réelles                  Prédiction de la qualité de l’air
Deux familles d’algorithmes d’agrégation séquentielle                  Autres domaines
                      Travaux récents et perspectives




   Les figures ci-dessous montrent que tous les experts sont utiles et
   apportent de l’information.
                                                                                        110
        56                                                                              100
        54
        52                                                                              90




                                                                        Concentration
        50                                                                              80
        48
        46                                                                               70
        44                                                                              60
        42
                                                                                         50
         -10       -5        0         5        10     15        20
                                                                                        40

                                                                                        30
          0    5        10   15   20       25   30   35     40    45                         0   5   10      15   20
                                                                                                      Hour



   Figure: A gauche : Coloration de l’Europe en fonction de l’indice du
   meilleur expert local. A droite : Profils moyens de prédiction sur une
   journée (moyennes spatiales et temporelles, en µg /m3 ).

                                                     Gilles Stoltz     Prédiction avec experts
Agrégation séquentielle de prédicteurs
                   Applications à des données réelles          Prédiction de la qualité de l’air
Deux familles d’algorithmes d’agrégation séquentielle          Autres domaines
                      Travaux récents et perspectives

   Les erreurs cumulées de la méthode d’agrégation et de la
   combinaison linéaire constante induite par u valent respectivement
                                                         2
                n                48
       Ln =                           uj,t fj,t − yts 
                                              s

               t=1 s∈St          j=1
                                                                                                       2
                                                                     n                48
                                         et        Ln (u) =                                uj fj,t − yts 
                                                                                                 s

                                                                   t=1 s∈St           j=1


    où St est le sous-ensemble des stations actives au jour t.

   Les erreurs quadratiques moyennes associées sont données par

                                   Ln                                                    Ln (u)
                rn =             n                   et           rn (u) =               n
                                 t=1 |St |                                               t=1 |St |


                                          Gilles Stoltz        Prédiction avec experts
Agrégation séquentielle de prédicteurs
                   Applications à des données réelles    Prédiction de la qualité de l’air
Deux familles d’algorithmes d’agrégation séquentielle    Autres domaines
                      Travaux récents et perspectives




   L’espoir est qu’un bon ensemble d’experts et la considération d’une
   procédure avec un faible regret entraînent à leur tour une faible
   erreur quadratique moyenne.

   En effet,
                                      Ln        inf Ln (u) + o(n)
                                               u∈U

   se ré-écrit comme
                                        2                      2
                                   rn           inf rn (u)         + o(1)
                                               u∈U

   (U est par exemple le simplexe des probabilités ou une boule                              1 ).




                                         Gilles Stoltz   Prédiction avec experts
Agrégation séquentielle de prédicteurs
                   Applications à des données réelles    Prédiction de la qualité de l’air
Deux familles d’algorithmes d’agrégation séquentielle    Autres domaines
                      Travaux récents et perspectives

     Moyenne           M. fondamental               M. convexe          M. linéaire          Prescient
      24.41                 22.43                     21.45               19.24               11.99

   Ci-dessus, les erreurs quadratiques moyennes (en µg /m3 )
       – de la moyenne des prédictions des 48 modèles, i.e.,
         rn (1/48, . . . , 1/48) ,
       – du meilleur modèle fondamental parmi j = 1, . . . , 48,
       – de la meilleure combinaison convexe q des 48 modèles, i.e.,
         minq rn (q),
       – de la meilleure combinaison linéaire u (parmi tous les vecteurs
         de R48 ) des 48 modèles, i.e., minu rn (u),
       – du prédicteur prescient qui aurait connaissance des yts avant de
         former sa prédiction et ne serait contraint que par l’obligation
         de choisir une combinaison linéaire des prédictions des
         modèles.
                                         Gilles Stoltz   Prédiction avec experts
Agrégation séquentielle de prédicteurs
                   Applications à des données réelles    Prédiction de la qualité de l’air
Deux familles d’algorithmes d’agrégation séquentielle    Autres domaines
                      Travaux récents et perspectives


   Nous avons mis en œuvre environ 20 méthodes d’agrégation
   différentes et nous concentrons ici sur deux familles qui ont obtenu
   de bons résultats, EG et la régression ridge (et leurs variantes).

   EG est l’abréviation d’exponentielle des gradients. Cette méthode
   forme des combinaisons convexes dont les composantes sont
   données par une pondération exponentielle des sommes des
   composantes des gradients des pertes passées.
   Son regret moyen par rapport à l’ensemble des combinaisons
                                            √
   convexes constantes est plus petit que 1/ n.

   La régression ridge est une méthode d’estimation classique en perte
   quadratique et qui utilise la meilleure combinaison linéaire pénalisée
   sur les données passées (pénalisation en terme de norme 2 ).
   Son regret moyen par rapport à toute combinaison linéaire
   constante est plus petite qu’une quantité de l’ordre de (ln n)/n.
                                         Gilles Stoltz   Prédiction avec experts
Agrégation séquentielle de prédicteurs
                   Applications à des données réelles      Prédiction de la qualité de l’air
Deux familles d’algorithmes d’agrégation séquentielle      Autres domaines
                      Travaux récents et perspectives


   Les versions fenêtrées n’utilisent qu’un nombre fixe des plus
   récentes pertes passées, pour ensuite pondérer exponentiellement
   leurs gradients (EG) ou calculer sur elles seulement une meilleure
   combinaison linéaire pénalisée (régression ridge).
   L’escompte multiplie chaque perte passée par un facteur d’autant
   plus petit que ce passé est lointain.

      EG          EG fenêtré          EG esc.            Ridge     Ridge fenêtrée              Ridge esc.
     21.47          21.37              21.31             20.77         20.03                     19.45

   La meilleure combinaison convexe constante est battue et la version
   escomptée de la régression ridge a des performances très proches de
   celles de la meilleure combinaison linéaire constante.

     Moyenne           M. fondamental               M. convexe            M. linéaire          Prescient
      24.41                 22.43                     21.45                 19.24               11.99
                                         Gilles Stoltz     Prédiction avec experts
Agrégation séquentielle de prédicteurs
                   Applications à des données réelles          Prédiction de la qualité de l’air
Deux familles d’algorithmes d’agrégation séquentielle          Autres domaines
                      Travaux récents et perspectives


   Les méthodes d’agrégation séquentielle ne se concentrent pas sur
   un seul expert.
   Les poids attribués aux modèles peuvent changer rapidement et de
   manière significative au cours du temps.

               0.9                                                         10
               0.8
               0.7                                                           5

               0.6




                                                                  Weight
                                                                            0
      Weight




               0.5
               0.4
                                                                            -5
               0.3
               0.2                                                         -10
               0.1
               0.0                                                         -15
                     0   20   40   60     80     100     120                  0   20   40   60   80   100   120
                                   Step                                                     Step



   Figure: Poids produits au cours du temps par (à gauche) EG et la version
   escomptée de la régression ridge (à droite).
                                               Gilles Stoltz   Prédiction avec experts
Agrégation séquentielle de prédicteurs
                                                         Calibration des algorithmes
                   Applications à des données réelles
                                                         Agrégation lacunaire
Deux familles d’algorithmes d’agrégation séquentielle
                                                         Autres objectifs ou autres résultats
                      Travaux récents et perspectives


   1    Agrégation séquentielle de prédicteurs
          Cadre mathématique
          La philosophie sous-jacente à ce cadre
          Résumé du cadre
   2    Applications à des données réelles
          Prédiction de la qualité de l’air
          Autres domaines
   3    Deux familles d’algorithmes d’agrégation séquentielle
          Exponentielle des gradients
          Une pondération exponentielle sans gradients
          La régression ridge
   4    Travaux récents et perspectives
          Calibration des algorithmes
          Agrégation lacunaire
          Autres objectifs ou autres résultats

                                         Gilles Stoltz   Prédiction avec experts
Agrégation séquentielle de prédicteurs
                                                           Calibration des algorithmes
                   Applications à des données réelles
                                                           Agrégation lacunaire
Deux familles d’algorithmes d’agrégation séquentielle
                                                           Autres objectifs ou autres résultats
                      Travaux récents et perspectives




   On rappelle que l’exponentielle des gradients prédit, pour t                                   2,
   avec p t défini, composante j par composante j selon

                                                           t−1
                                         exp −η            s=1           s (p s )
                                                                                    j
                       pj,t (η) =
                                         N                         t−1
                                         i=1   exp −η              s=1       s (p s )
                                                                                        i


   L’idée ici est de faire varier η en fonction de t et considérer pour ηt
   le meilleur paramètre η sur les échéances 1, . . . , t − 1,
                                                         t−1
                                  ηt ∈ argmin                  s    p s (η) .
                                             η>0         s=1

   On utilise alors p t (ηt ) pour la prédiction au jour t.


                                         Gilles Stoltz     Prédiction avec experts
Agrégation séquentielle de prédicteurs
                                                         Calibration des algorithmes
                   Applications à des données réelles
                                                         Agrégation lacunaire
Deux familles d’algorithmes d’agrégation séquentielle
                                                         Autres objectifs ou autres résultats
                      Travaux récents et perspectives


   On peut définir de manière similaire une calibration automatique de
   Ridge. Sur les données d’ozone :

                              Meilleure convexe                        21.45
                              EG avec meilleur η                       21.47
                              EG avec (ηt )                            21.80
                              Meilleure linéaire                       19.24
                              Ridge avec meilleur λ                    20.77
                              Ridge avec (λt )                         20.81


   Le “meilleur” paramètre désigne le paramètre constant η ou λ,
   choisi de manière rétrospective, qui aurait donné les meilleurs
   résultats en termes d’erreur quadratique.

   Il n’y a pas encore de borne théorique pour cette méthode de
   calibration, mais nous y travaillons !
                                         Gilles Stoltz   Prédiction avec experts
Agrégation séquentielle de prédicteurs
                                                         Calibration des algorithmes
                   Applications à des données réelles
                                                         Agrégation lacunaire
Deux familles d’algorithmes d’agrégation séquentielle
                                                         Autres objectifs ou autres résultats
                      Travaux récents et perspectives


   1    Agrégation séquentielle de prédicteurs
          Cadre mathématique
          La philosophie sous-jacente à ce cadre
          Résumé du cadre
   2    Applications à des données réelles
          Prédiction de la qualité de l’air
          Autres domaines
   3    Deux familles d’algorithmes d’agrégation séquentielle
          Exponentielle des gradients
          Une pondération exponentielle sans gradients
          La régression ridge
   4    Travaux récents et perspectives
          Calibration des algorithmes
          Agrégation lacunaire
          Autres objectifs ou autres résultats

                                         Gilles Stoltz   Prédiction avec experts
Agrégation séquentielle de prédicteurs
                                                           Calibration des algorithmes
                   Applications à des données réelles
                                                           Agrégation lacunaire
Deux familles d’algorithmes d’agrégation séquentielle
                                                           Autres objectifs ou autres résultats
                      Travaux récents et perspectives



   Pour obtenir des combinaisons linéaires ou convexes n’utilisant
   qu’un nombre restreint de modèles, on peut seuiller les
   combinaisons proposées (pour EG) ou changer le type de pénalité
   (pour Ridge).

   La méthode LASSO (Tibshirani, ’96) choisit des combinaisons
   linéaires u t des prédictions des experts données, à l’échéance t                              2,
   par un critère de moindres carrés pénalisés en norme 1 ,
                                                                                     2 
                                                          t−1             N
                u t = argmin  λ u                1   +         ys −          uj fj,s  
                          u∈RN                            s=1            j=1

   Les combinaisons qui en résultent ont en général de nombreux
   coefficients nuls (et sont dites lacunaires).

                                         Gilles Stoltz     Prédiction avec experts
Agrégation séquentielle de prédicteurs
                                                           Calibration des algorithmes
                   Applications à des données réelles
                                                           Agrégation lacunaire
Deux familles d’algorithmes d’agrégation séquentielle
                                                           Autres objectifs ou autres résultats
                      Travaux récents et perspectives


   Une version escomptée de LASSO conduit ainsi à une très forte
   sélection parmi les modèles (une vingtaine est éliminée sur les
   données d’ozone).

                                  Ridge esc.     LASSO esc.                                     M. linéaire
                                    19.45          19.31                                          19.24




                
               10




                
                
                5
                0


                                                             Indices of zero weights
                                                                                       40
      Weight




                5                                                                      30




                
               10
               15
               20
               25
                    0   20   40    60 80
                                   Step
                                           100 120




                                           Gilles Stoltz   Prédiction avec experts
                                                                                       20



                                                                                       10



                                                                                        0
                                                                                            0     20   40   60

                                                                                                            Step
                                                                                                                   80   100   120
Framework         A simple strategy       Non stationarity      Empirical studies   References


     Second study:
     Forecasting of the electricity consumption
     Joint work with Yannig Goude (EDF R&D) and M.Sc. students (Marie
     Devaine, Pierre Gaillard); submitted

     Specialized experts are available: each of them only outputs a forecast
     when specific conditions are met (working day vs. week end,
     temperature, etc.).
     The definitions and strategies need to be generalized to this setting.
     Exhaustive list of references: Blum ’97; Freund et al. ’97; Cesa-Bianchi and
     Lugosi ’03; Blum and Mansour ’07... This is it!


     On our data set,
        – 3 families of experts, 24 experts in total;
        – [operational constraint:] one-day ahead prediction at a half-hour
          step, i.e., the next 48 half-hour instances are to be predicted every
          day at noon
Framework                          A simple strategy                  Non stationarity                       Empirical studies                  References




                          90




                                                                                                  55
                          80
      Consumption (GW)




                                                                               Consumption (GW)

                                                                                                  50
                          70
                          60




                                                                                                  45
                          50




                                                                                                  40
                          40




                                                                                                  35
                          30




                               9    11   12   1    3      4   5   7      8                             Mon Tue   Wed    Thu   Fri   Sat   Sun

                                                  Month                                                          Day in the week


     Electricity consumption in France
                         – Year 2007–08 (left)
                         – Typical summer week (right)
Framework     A simple strategy   Non stationarity         Empirical studies   References




     Some orders of magnitude for the prediction problem at hand are
     indicated below.


             Time intervals                          Every 30 minutes

             Number of days D                          320
             Time instances T                  15 360 (= 320 × 48)
             Number of experts N                24 (= 15 + 8 + 1)

             Median of the yt                          56 330 MW
             Bound B on the yt                         92 760 MW
Framework            A simple strategy    Non stationarity    Empirical studies     References




     We indicate RMSE (average errors and 95 % standard errors).


                        Best expert      Uniform mean         Best p
                         782 ± 10          724 ± 11           658 ± 9

                       Exp. weights      Best parameter       Adaptive
                                            629 ± 8           637 ± 9


            Shifts      m = T − 1 = 15 359               m = 200         m = 50
                             223 ± ?                     414 ± ?         534 ± ?

                         Fixed-Share                Best parameter       Adaptive
                                                       599 ± 9           629 ± 8
Framework                  A simple strategy               Non stationarity   Empirical studies        References




                 1.0
                 0.9
                 0.8
     RMSE (GW)




                                                                              ——        Best expert
                 0.7




                                                                              ----      Best p
                                                                                        Exp. weights
                 0.6




                                                                                •       Fixed-share
                 0.5
                 0.4




                       0       5          10          15            20
                                               Hour


     Average RMSEs (in GW / not in MW) according to the half hours


     A picture is worth thousand tables, right?
     The average RMSE were similar but the behaviors seem different by
     the half-hours.
Framework      A simple strategy   Non stationarity   Empirical studies   References




     References
     In case you’re not bored to death (yet) by this topic!
Framework      A simple strategy   Non stationarity   Empirical studies   References




     The so-called “red bible!”




     Prediction, Learning, and Games
     Nicolò Cesa-Bianchi et Gábor Lugosi
Framework      A simple strategy                                  Non stationarity                                                                             Empirical studies   References




     I published a survey paper (containing this talk!) one year ago in
     the Journal de la Société Française de Statistique

                                                   Journal de la Société Française de Statistique
                                                                                         Vol. 151 No. 2 (2010)




                                              Agrégation séquentielle de prédicteurs :
                                             méthodologie générale et applications à la
                                            prévision de la qualité de l’air et à celle de la
                                                     consommation électrique
                                   Title: Sequential aggregation of predictors: General methodology and application to air-quality forecasting
                                                                and to the prediction of electricity consumption


                                                                                     Gilles Stoltz *
                                   Résumé : Cet article fait suite à la conférence que j’ai eu l’honneur de donner lors de la réception du prix Marie-Jeanne
                                   Laurent-Duhamel, dans le cadre des XLe Journées de Statistique à Ottawa, en 2008. Il passe en revue les résultats
                                   fondamentaux, ainsi que quelques résultats récents, en prévision séquentielle de suites arbitraires par agrégation
                                   d’experts. Il décline ensuite la méthodologie ainsi décrite sur deux jeux de données, l’un pour un problème de prévision
                                   de qualité de l’air, l’autre pour une question de prévision de consommation électrique. La plupart des résultats
                                   mentionnés dans cet article reposent sur des travaux en collaboration avec Yannig Goude (EDF R&D) et Vivien Mallet
                                   (INRIA), ainsi qu’avec les stagiaires de master que nous avons co-encadrés : Marie Devaine, Sébastien Gerchinovitz et
                                   Boris Mauricette.

                                   Abstract: This paper is an extended written version of the talk I delivered at the “XLe Journées de Statistique”
                                   in Ottawa, 2004, when being awarded the Marie-Jeanne Laurent-Duhamel prize. It is devoted to surveying some
                                   fundamental as well as some more recent results in the field of sequential prediction of individual sequences with expert
                                   advice. It then performs two empirical studies following the stated general methodology: the first one to air-quality
                                   forecasting and the second one to the prediction of electricity consumption. Most results mentioned in the paper are
                                   based on joint works with Yannig Goude (EDF R&D) and Vivien Mallet (INRIA), together with some students whom
                                   we co-supervised for their M.Sc. theses: Marie Devaine, Sébastien Gerchinovitz and Boris Mauricette.

                                   Classification AMS 2000 : primaire 62-02, 62L99, 62P12, 62P30
                                   Mots-clés : Agrégation séquentielle, prévision avec experts, suites individuelles, prévision de la qualité de l’air,
                                   prévision de la consommation électrique
                                   Keywords: Sequential aggregation of predictors, prediction with expert advice, individual sequences, air-quality
                                   forecasting, prediction of electricity consumption



                                       Ecole normale supérieure, CNRS, 45 rue d’Ulm, 75005 Paris
                                       & HEC Paris, CNRS, 1 rue de la Libération, 78350 Jouy-en-Josas
                                       E-mail : gilles.stoltz@ens.fr
                                       URL : http://www.math.ens.fr/∼stoltz
                                   *   L’auteur remercie l’Agence nationale de la recherche pour son soutien à travers le projet JCJC06-137444 ATLAS
                                       (“From applications to theory in learning and adaptive statistics”).
                                   †   Ces recherches ont été menées dans le cadre du projet CLASSIC de l’INRIA, hébergé par l’Ecole normale supérieure
                                       et le CNRS.


                                                          Journal de la Société Française de Statistique, Vol. 151 No. 2 66-106
                                                                         http://www.sfds.asso.fr/journal
                                              © Société Française de Statistique et Société Mathématique de France (2010) ISSN: 2102-6238




     Even better (or worse)—it is in French!

Contenu connexe

Tendances

Discrimination et régression pour des dérivées : un résultat de consistance p...
Discrimination et régression pour des dérivées : un résultat de consistance p...Discrimination et régression pour des dérivées : un résultat de consistance p...
Discrimination et régression pour des dérivées : un résultat de consistance p...tuxette
 
Localisation d’une source émettrice par un réseau d’antennes
Localisation d’une source émettrice par un réseau d’antennesLocalisation d’une source émettrice par un réseau d’antennes
Localisation d’une source émettrice par un réseau d’antennesAhmed Ammar Rebai PhD
 
Planification séquentielle pour l'estimation de probabilités de défaillance
Planification séquentielle pour l'estimation de probabilités de défaillancePlanification séquentielle pour l'estimation de probabilités de défaillance
Planification séquentielle pour l'estimation de probabilités de défaillanceJulien Bect
 
40872913 formulaire-de-rdm
40872913 formulaire-de-rdm40872913 formulaire-de-rdm
40872913 formulaire-de-rdmAthanas Konin
 
traitement de signal cours
traitement de signal cours traitement de signal cours
traitement de signal cours sarah Benmerzouk
 
Cours econometrie-uqam-st-3-v4
Cours econometrie-uqam-st-3-v4Cours econometrie-uqam-st-3-v4
Cours econometrie-uqam-st-3-v4Arthur Charpentier
 
Equations différentielles, DUT MP, CM 5
Equations différentielles, DUT MP, CM 5Equations différentielles, DUT MP, CM 5
Equations différentielles, DUT MP, CM 5Christophe Palermo
 
Cours gestion-actifs-r1-part-2b
Cours gestion-actifs-r1-part-2bCours gestion-actifs-r1-part-2b
Cours gestion-actifs-r1-part-2bArthur Charpentier
 
Ts exam-h2014-correction
Ts exam-h2014-correctionTs exam-h2014-correction
Ts exam-h2014-correctionDaha Ahmed
 
GEII - Ma3 - Représentations de Fourier et convolution
GEII - Ma3 - Représentations de Fourier et convolutionGEII - Ma3 - Représentations de Fourier et convolution
GEII - Ma3 - Représentations de Fourier et convolutionFrédéric Morain-Nicolier
 

Tendances (20)

B slides 11
B slides 11B slides 11
B slides 11
 
Courbes
CourbesCourbes
Courbes
 
Discrimination et régression pour des dérivées : un résultat de consistance p...
Discrimination et régression pour des dérivées : un résultat de consistance p...Discrimination et régression pour des dérivées : un résultat de consistance p...
Discrimination et régression pour des dérivées : un résultat de consistance p...
 
Slides 2040-4
Slides 2040-4Slides 2040-4
Slides 2040-4
 
Localisation d’une source émettrice par un réseau d’antennes
Localisation d’une source émettrice par un réseau d’antennesLocalisation d’une source émettrice par un réseau d’antennes
Localisation d’une source émettrice par un réseau d’antennes
 
Planification séquentielle pour l'estimation de probabilités de défaillance
Planification séquentielle pour l'estimation de probabilités de défaillancePlanification séquentielle pour l'estimation de probabilités de défaillance
Planification séquentielle pour l'estimation de probabilités de défaillance
 
Slides 2040-6-a2013
Slides 2040-6-a2013Slides 2040-6-a2013
Slides 2040-6-a2013
 
Slides 2040-6
Slides 2040-6Slides 2040-6
Slides 2040-6
 
Slides act6420-e2014-partie-2
Slides act6420-e2014-partie-2Slides act6420-e2014-partie-2
Slides act6420-e2014-partie-2
 
40872913 formulaire-de-rdm
40872913 formulaire-de-rdm40872913 formulaire-de-rdm
40872913 formulaire-de-rdm
 
traitement de signal cours
traitement de signal cours traitement de signal cours
traitement de signal cours
 
1 circuit rlc-serie
1 circuit rlc-serie1 circuit rlc-serie
1 circuit rlc-serie
 
Cours econometrie-uqam-st-3-v4
Cours econometrie-uqam-st-3-v4Cours econometrie-uqam-st-3-v4
Cours econometrie-uqam-st-3-v4
 
Equations différentielles, DUT MP, CM 5
Equations différentielles, DUT MP, CM 5Equations différentielles, DUT MP, CM 5
Equations différentielles, DUT MP, CM 5
 
Cours gestion-actifs-r1-part-2b
Cours gestion-actifs-r1-part-2bCours gestion-actifs-r1-part-2b
Cours gestion-actifs-r1-part-2b
 
Ts exam-h2014-correction
Ts exam-h2014-correctionTs exam-h2014-correction
Ts exam-h2014-correction
 
Slides act2040-a2013-2
Slides act2040-a2013-2Slides act2040-a2013-2
Slides act2040-a2013-2
 
Td psy38 x2-stats-4
Td psy38 x2-stats-4Td psy38 x2-stats-4
Td psy38 x2-stats-4
 
GEII - Ma3 - Représentations de Fourier et convolution
GEII - Ma3 - Représentations de Fourier et convolutionGEII - Ma3 - Représentations de Fourier et convolution
GEII - Ma3 - Représentations de Fourier et convolution
 
Slides 2040-2-0
Slides 2040-2-0Slides 2040-2-0
Slides 2040-2-0
 

En vedette

State Space Model
State Space ModelState Space Model
State Space ModelCdiscount
 
Paris2012 session4
Paris2012 session4Paris2012 session4
Paris2012 session4Cdiscount
 
Paris2012 session1
Paris2012 session1Paris2012 session1
Paris2012 session1Cdiscount
 
Scm prix blé_2012_11_06
Scm prix blé_2012_11_06Scm prix blé_2012_11_06
Scm prix blé_2012_11_06Cdiscount
 
Paris2012 session3b
Paris2012 session3bParis2012 session3b
Paris2012 session3bCdiscount
 
Prediction of Quantiles by Statistical Learning and Application to GDP Foreca...
Prediction of Quantiles by Statistical Learning and Application to GDP Foreca...Prediction of Quantiles by Statistical Learning and Application to GDP Foreca...
Prediction of Quantiles by Statistical Learning and Application to GDP Foreca...Cdiscount
 
Scm indicateurs prospectifs_2012_11_06
Scm indicateurs prospectifs_2012_11_06Scm indicateurs prospectifs_2012_11_06
Scm indicateurs prospectifs_2012_11_06Cdiscount
 
Paris2012 session2
Paris2012 session2Paris2012 session2
Paris2012 session2Cdiscount
 
Prévisions trafic aérien
Prévisions trafic aérienPrévisions trafic aérien
Prévisions trafic aérienCdiscount
 
Ranking binaire, agrégation multiclasses
Ranking binaire, agrégation multiclasses Ranking binaire, agrégation multiclasses
Ranking binaire, agrégation multiclasses Cdiscount
 
Présentation Olivier Biau Random forests et conjoncture
Présentation Olivier Biau Random forests et conjoncturePrésentation Olivier Biau Random forests et conjoncture
Présentation Olivier Biau Random forests et conjonctureCdiscount
 
Prévision consommation électrique par processus à valeurs fonctionnelles
Prévision consommation électrique par processus à valeurs fonctionnellesPrévision consommation électrique par processus à valeurs fonctionnelles
Prévision consommation électrique par processus à valeurs fonctionnellesCdiscount
 
Prévision de consommation électrique avec adaptive GAM
Prévision de consommation électrique avec adaptive GAMPrévision de consommation électrique avec adaptive GAM
Prévision de consommation électrique avec adaptive GAMCdiscount
 
Forecasting GDP profile with an application to French Business Surveys
Forecasting GDP profile with an application to French Business SurveysForecasting GDP profile with an application to French Business Surveys
Forecasting GDP profile with an application to French Business SurveysCdiscount
 
Prediction in dynamic Graphs
Prediction in dynamic GraphsPrediction in dynamic Graphs
Prediction in dynamic GraphsCdiscount
 
R2DOCX : R + WORD
R2DOCX : R + WORDR2DOCX : R + WORD
R2DOCX : R + WORDCdiscount
 

En vedette (20)

State Space Model
State Space ModelState Space Model
State Space Model
 
Scm risques
Scm risquesScm risques
Scm risques
 
Paris2012 session4
Paris2012 session4Paris2012 session4
Paris2012 session4
 
Paris2012 session1
Paris2012 session1Paris2012 session1
Paris2012 session1
 
Scm prix blé_2012_11_06
Scm prix blé_2012_11_06Scm prix blé_2012_11_06
Scm prix blé_2012_11_06
 
Paris2012 session3b
Paris2012 session3bParis2012 session3b
Paris2012 session3b
 
Prediction of Quantiles by Statistical Learning and Application to GDP Foreca...
Prediction of Quantiles by Statistical Learning and Application to GDP Foreca...Prediction of Quantiles by Statistical Learning and Application to GDP Foreca...
Prediction of Quantiles by Statistical Learning and Application to GDP Foreca...
 
Scm indicateurs prospectifs_2012_11_06
Scm indicateurs prospectifs_2012_11_06Scm indicateurs prospectifs_2012_11_06
Scm indicateurs prospectifs_2012_11_06
 
Paris2012 session2
Paris2012 session2Paris2012 session2
Paris2012 session2
 
Prévisions trafic aérien
Prévisions trafic aérienPrévisions trafic aérien
Prévisions trafic aérien
 
Ranking binaire, agrégation multiclasses
Ranking binaire, agrégation multiclasses Ranking binaire, agrégation multiclasses
Ranking binaire, agrégation multiclasses
 
Présentation Olivier Biau Random forests et conjoncture
Présentation Olivier Biau Random forests et conjoncturePrésentation Olivier Biau Random forests et conjoncture
Présentation Olivier Biau Random forests et conjoncture
 
Prévision consommation électrique par processus à valeurs fonctionnelles
Prévision consommation électrique par processus à valeurs fonctionnellesPrévision consommation électrique par processus à valeurs fonctionnelles
Prévision consommation électrique par processus à valeurs fonctionnelles
 
Prévision de consommation électrique avec adaptive GAM
Prévision de consommation électrique avec adaptive GAMPrévision de consommation électrique avec adaptive GAM
Prévision de consommation électrique avec adaptive GAM
 
Forecasting GDP profile with an application to French Business Surveys
Forecasting GDP profile with an application to French Business SurveysForecasting GDP profile with an application to French Business Surveys
Forecasting GDP profile with an application to French Business Surveys
 
Prediction in dynamic Graphs
Prediction in dynamic GraphsPrediction in dynamic Graphs
Prediction in dynamic Graphs
 
R2DOCX : R + WORD
R2DOCX : R + WORDR2DOCX : R + WORD
R2DOCX : R + WORD
 
Gur1009
Gur1009Gur1009
Gur1009
 
Big data with r
Big data with rBig data with r
Big data with r
 
R Devtools
R DevtoolsR Devtools
R Devtools
 

Similaire à Robust sequentiel learning

Bandits Algo KL-UCB par Garivier
Bandits Algo KL-UCB par GarivierBandits Algo KL-UCB par Garivier
Bandits Algo KL-UCB par GarivierCdiscount
 
en analyse des composantes de donnees.pdf
en analyse des composantes de donnees.pdfen analyse des composantes de donnees.pdf
en analyse des composantes de donnees.pdfELHASSANEAJARCIF1
 
FINAL.pptx
FINAL.pptxFINAL.pptx
FINAL.pptxsara6496
 
Al7 ma19tepa0009 sequence-04
Al7 ma19tepa0009 sequence-04Al7 ma19tepa0009 sequence-04
Al7 ma19tepa0009 sequence-04tarek1961moussa
 
Modelisation non supervisee
Modelisation non superviseeModelisation non supervisee
Modelisation non superviseeminiloka
 
Cours acp mehdi_aman
Cours acp mehdi_amanCours acp mehdi_aman
Cours acp mehdi_amanMehdi Aman
 
Chaînes de Markov et files d'attente
Chaînes de Markov et files d'attenteChaînes de Markov et files d'attente
Chaînes de Markov et files d'attenteGuillaume Matheron
 
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdfSidiAbdallah1
 
(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)mohamedchaouche
 
Econométrie appliquée--stationarité.pptx
Econométrie appliquée--stationarité.pptxEconométrie appliquée--stationarité.pptx
Econométrie appliquée--stationarité.pptxwidedbenmoussa2021
 
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012Sujet et Correction épreuve de mathématiques ESSEC ECE 2012
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012Ahmed Ammar Rebai PhD
 
Cours_3_0910_2.pdf
Cours_3_0910_2.pdfCours_3_0910_2.pdf
Cours_3_0910_2.pdfSongSonfack
 

Similaire à Robust sequentiel learning (20)

Bandits Algo KL-UCB par Garivier
Bandits Algo KL-UCB par GarivierBandits Algo KL-UCB par Garivier
Bandits Algo KL-UCB par Garivier
 
Rappels stats-2014-part2
Rappels stats-2014-part2Rappels stats-2014-part2
Rappels stats-2014-part2
 
en analyse des composantes de donnees.pdf
en analyse des composantes de donnees.pdfen analyse des composantes de donnees.pdf
en analyse des composantes de donnees.pdf
 
FINAL.pptx
FINAL.pptxFINAL.pptx
FINAL.pptx
 
Al7 ma19tepa0009 sequence-04
Al7 ma19tepa0009 sequence-04Al7 ma19tepa0009 sequence-04
Al7 ma19tepa0009 sequence-04
 
Modelisation non supervisee
Modelisation non superviseeModelisation non supervisee
Modelisation non supervisee
 
Cours acp mehdi_aman
Cours acp mehdi_amanCours acp mehdi_aman
Cours acp mehdi_aman
 
Slides 2040-5
Slides 2040-5Slides 2040-5
Slides 2040-5
 
Chaînes de Markov et files d'attente
Chaînes de Markov et files d'attenteChaînes de Markov et files d'attente
Chaînes de Markov et files d'attente
 
Slides ensae 6
Slides ensae 6Slides ensae 6
Slides ensae 6
 
Chap9
Chap9Chap9
Chap9
 
transparents-Algo-correction.pdf
transparents-Algo-correction.pdftransparents-Algo-correction.pdf
transparents-Algo-correction.pdf
 
Slides ensae-2016-6
Slides ensae-2016-6Slides ensae-2016-6
Slides ensae-2016-6
 
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdffr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
fr_Tanagra_Naive_Bayes_Classifier_Explained.pdf
 
(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)(Statdes regression biv_ensta_21oct2010)
(Statdes regression biv_ensta_21oct2010)
 
Econométrie appliquée--stationarité.pptx
Econométrie appliquée--stationarité.pptxEconométrie appliquée--stationarité.pptx
Econométrie appliquée--stationarité.pptx
 
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012Sujet et Correction épreuve de mathématiques ESSEC ECE 2012
Sujet et Correction épreuve de mathématiques ESSEC ECE 2012
 
Cours_3_0910.pdf
Cours_3_0910.pdfCours_3_0910.pdf
Cours_3_0910.pdf
 
Cours_3_0910_2.pdf
Cours_3_0910_2.pdfCours_3_0910_2.pdf
Cours_3_0910_2.pdf
 
LISSAGE EXPONENTIEL.pdf
LISSAGE EXPONENTIEL.pdfLISSAGE EXPONENTIEL.pdf
LISSAGE EXPONENTIEL.pdf
 

Plus de Cdiscount

Presentation r markdown
Presentation r markdown Presentation r markdown
Presentation r markdown Cdiscount
 
Fltau r interface
Fltau r interfaceFltau r interface
Fltau r interfaceCdiscount
 
Dataiku r users group v2
Dataiku   r users group v2Dataiku   r users group v2
Dataiku r users group v2Cdiscount
 
Introduction à la cartographie avec R
Introduction à la cartographie avec RIntroduction à la cartographie avec R
Introduction à la cartographie avec RCdiscount
 
Parallel R in snow (english after 2nd slide)
Parallel R in snow (english after 2nd slide)Parallel R in snow (english after 2nd slide)
Parallel R in snow (english after 2nd slide)Cdiscount
 
Premier pas de web scrapping avec R
Premier pas de  web scrapping avec RPremier pas de  web scrapping avec R
Premier pas de web scrapping avec RCdiscount
 
Incorporer du C dans R, créer son package
Incorporer du C dans R, créer son packageIncorporer du C dans R, créer son package
Incorporer du C dans R, créer son packageCdiscount
 
Comptabilité Nationale avec R
Comptabilité Nationale avec RComptabilité Nationale avec R
Comptabilité Nationale avec RCdiscount
 
Cartographie avec igraph sous R (Partie 2)
Cartographie avec igraph sous R (Partie 2)Cartographie avec igraph sous R (Partie 2)
Cartographie avec igraph sous R (Partie 2)Cdiscount
 
Cartographie avec igraph sous R (Partie 1)
Cartographie avec igraph sous R (Partie 1) Cartographie avec igraph sous R (Partie 1)
Cartographie avec igraph sous R (Partie 1) Cdiscount
 
RStudio is good for you
RStudio is good for youRStudio is good for you
RStudio is good for youCdiscount
 
R fait du la tex
R fait du la texR fait du la tex
R fait du la texCdiscount
 
Première approche de cartographie sous R
Première approche de cartographie sous RPremière approche de cartographie sous R
Première approche de cartographie sous RCdiscount
 

Plus de Cdiscount (14)

Presentation r markdown
Presentation r markdown Presentation r markdown
Presentation r markdown
 
Fltau r interface
Fltau r interfaceFltau r interface
Fltau r interface
 
Dataiku r users group v2
Dataiku   r users group v2Dataiku   r users group v2
Dataiku r users group v2
 
Introduction à la cartographie avec R
Introduction à la cartographie avec RIntroduction à la cartographie avec R
Introduction à la cartographie avec R
 
HADOOP + R
HADOOP + RHADOOP + R
HADOOP + R
 
Parallel R in snow (english after 2nd slide)
Parallel R in snow (english after 2nd slide)Parallel R in snow (english after 2nd slide)
Parallel R in snow (english after 2nd slide)
 
Premier pas de web scrapping avec R
Premier pas de  web scrapping avec RPremier pas de  web scrapping avec R
Premier pas de web scrapping avec R
 
Incorporer du C dans R, créer son package
Incorporer du C dans R, créer son packageIncorporer du C dans R, créer son package
Incorporer du C dans R, créer son package
 
Comptabilité Nationale avec R
Comptabilité Nationale avec RComptabilité Nationale avec R
Comptabilité Nationale avec R
 
Cartographie avec igraph sous R (Partie 2)
Cartographie avec igraph sous R (Partie 2)Cartographie avec igraph sous R (Partie 2)
Cartographie avec igraph sous R (Partie 2)
 
Cartographie avec igraph sous R (Partie 1)
Cartographie avec igraph sous R (Partie 1) Cartographie avec igraph sous R (Partie 1)
Cartographie avec igraph sous R (Partie 1)
 
RStudio is good for you
RStudio is good for youRStudio is good for you
RStudio is good for you
 
R fait du la tex
R fait du la texR fait du la tex
R fait du la tex
 
Première approche de cartographie sous R
Première approche de cartographie sous RPremière approche de cartographie sous R
Première approche de cartographie sous R
 

Robust sequentiel learning

  • 1. Framework A simple strategy Non stationarity Empirical studies References Robust sequential learning with applications to the forecasting of air quality and of electricity consumption Gilles Stoltz CNRS — École normale supérieure — INRIA, équipe CLASSIC & HEC Paris
  • 2. Framework A simple strategy Non stationarity Empirical studies References A statistician has to predict a sequence y1 , y2 , . . . of observations lying in some set Y. His predictions y1 , y2 , . . . are picked in a set X . Observations and predictions (1) are made in a sequential fashion and (2) rely on no stochastic modeling. (1) means that for each instance, the prediction yt of yt is determined t−1 – solely based on the past observations y1 = y1 , . . . , yt−1 , – before getting to know the actual value yt . (2) indicates that the methods at hand will not resort to the estimation of some parameters of some stochastic process to build a good model and get some accurate forecasts from it.
  • 3. Framework A simple strategy Non stationarity Empirical studies References To make the problem meaningful, finitely many expert forecasts are called for. At each instance t, expert j ∈ {1, . . . , N} outputs a forecast t−1 fj,t = fj,t y1 ∈X The statistician now determines yt based t−1 – on the past observations y1 = (y1 , . . . , yt−1 ), – and the current and past expert forecasts fj,s , where s ∈ {1, . . . , t} and j ∈ {1, . . . , N}.
  • 4. Framework A simple strategy Non stationarity Empirical studies References We assume that the set X of predictions is convex and we restrict the statistician to form convex combinations of the expert forecasts. At each instance t, the statistician thus picks a convex weight vector p t = p1,t , . . . , pN,t and forms N yt = pj,t fj,t j=1 The aim of the statistician is to predict –on average– as well as the best constant convex combination of the expert forecasts. ... But we need first to indicate how to assess the accuracy of a given prediction!
  • 5. Framework A simple strategy Non stationarity Empirical studies References To that end, we consider a convex loss function : X × Y → R+ . When X ⊆ R and Y ⊆ R, possible choices are – the square loss (x, y ) = (x − y )2 ; – the absolute loss (x, y ) = |x − y |; – the absolute percentage of error (x, y ) = |x − y | |y |. The cumulative losses of the statistician and of the constant convex combinations q = (q1 , . . . , qN ) of the expert forecasts equal     T N T N LT =  pj,t fj,t , yt  and LT (q) =  qj fj,t , yt  t=1 j=1 t=1 j=1 The regret is defined as the difference RT = LT − min LT (q) q
  • 6. Framework A simple strategy Non stationarity Empirical studies References Recall that the regret RT is defined as the difference     T N T N LT − min LT (q) =  pj,t fj,t , yt  − min  qj fj,t , yt  q q t=1 j=1 t=1 j=1 We are interested in aggregation rules with (uniformly) vanishing per-round regret, 1 lim sup sup LT − min LT (q) 0 T →∞ T q where the supremum is over all possible sequences of observations and of expert forecasts. This is why this framework is referred to as prediction of individual sequences or as robust aggregation of expert forecasts. Note that the best convex combination q can only be determined in hindsight whereas the statistician has to predict in a sequential fashion.
  • 7. Framework A simple strategy Non stationarity Empirical studies References This framework leads to a meta-statistical interpretation: – each series of expert forecasts may be given by a statistical forecasting method, possibly tuned with some given set of parameters; – these base forecasts relying on some stochastic model are then combined in a robust and deterministic manner. The cumulative loss of the statistician can be decomposed as LT = min LT (q) + RT q This leads to the following interpretations: – the term indicating the performance of the best convex combination of the expert forecasts is an approximation error; – the regret term measures a sequential estimation error.
  • 8. Agrégation séquentielle de prédicteurs Exponentielle des gradients Applications à des données réelles Une pondération exponentielle sans gradients Deux familles d’algorithmes d’agrégation séquentielle La régression ridge Travaux récents et perspectives 1 Agrégation séquentielle de prédicteurs Cadre mathématique La philosophie sous-jacente à ce cadre Résumé du cadre 2 Applications à des données réelles Prédiction de la qualité de l’air Autres domaines 3 Deux familles d’algorithmes d’agrégation séquentielle Exponentielle des gradients Une pondération exponentielle sans gradients La régression ridge 4 Travaux récents et perspectives Calibration des algorithmes Agrégation lacunaire Autres objectifs ou autres résultats Gilles Stoltz Prédiction avec experts
  • 9. Agrégation séquentielle de prédicteurs Exponentielle des gradients Applications à des données réelles Une pondération exponentielle sans gradients Deux familles d’algorithmes d’agrégation séquentielle La régression ridge Travaux récents et perspectives Theorem Le regret de EG face à toute combinaison convexe constante q est uniformément borné (en q et en les suites y1 , y2 , . . .) selon     n N n N ln N ηn 2  pj,t fj,t , yt  −  qj fj,t , yt  + B t=1 t=1 η 2 j=1 j=1 où B est une borne sur les gradients, t ∞ B pour tout t. Deux éléments de démonstration : par convexité,     N N  pj,t fj,t , yt  −  qj fj,t , yt  t (p t ) · pt − q j=1 j=1 et l’analyse de ce majorant (linéaire en q) repose sur le lemme de Hoeffding. Gilles Stoltz Prédiction avec experts
  • 10. Agrégation séquentielle de prédicteurs Exponentielle des gradients Applications à des données réelles Une pondération exponentielle sans gradients Deux familles d’algorithmes d’agrégation séquentielle La régression ridge Travaux récents et perspectives La version fenêtrée repose sur une largeur de fenêtre T et produit les combinaisons convexes données par t−1 exp −η s = max{1, t−T } s (p s ) j pj,t = N t−1 i=1 exp −η s = max{1, t−T } s (p s ) i La version escomptée utilise une suite décroissante (βs ) pour former t−1 exp −ηt s=1 1 + βt−s s (p s ) j pj,t = N t−1 i=1 exp −ηt s=1 1 + βt−s s (p s ) i On peut exhiber une borne théorique sur le regret de la version escomptée, dépendant de (βs ). Pour la prédiction de la qualité de l’air, nous avons utilisé des escomptes assez forts, βs = 100/s 2 . Gilles Stoltz Prédiction avec experts
  • 11. Agrégation séquentielle de prédicteurs Exponentielle des gradients Applications à des données réelles Une pondération exponentielle sans gradients Deux familles d’algorithmes d’agrégation séquentielle La régression ridge Travaux récents et perspectives 1 Agrégation séquentielle de prédicteurs Cadre mathématique La philosophie sous-jacente à ce cadre Résumé du cadre 2 Applications à des données réelles Prédiction de la qualité de l’air Autres domaines 3 Deux familles d’algorithmes d’agrégation séquentielle Exponentielle des gradients Une pondération exponentielle sans gradients La régression ridge 4 Travaux récents et perspectives Calibration des algorithmes Agrégation lacunaire Autres objectifs ou autres résultats Gilles Stoltz Prédiction avec experts
  • 12. Agrégation séquentielle de prédicteurs Exponentielle des gradients Applications à des données réelles Une pondération exponentielle sans gradients Deux familles d’algorithmes d’agrégation séquentielle La régression ridge Travaux récents et perspectives La régression ridge a été introduite dans les années 70 par Hoerl et Kennard et intensivement étudiée depuis dans un cadre stochastique. Vovk ’01 et Azoury et Warmuth ’01 en proposent une analyse pour des suites individuelles. Formellement, en perte quadratique, la régression ridge choisit des combinaisons linéaires u t des prédictions des experts données, à l’échéance t 2, par un critère de moindres carrés pénalisés,   2  t−1 N 2 u t ∈ argmin  λ u 2 + ys − uj fj,s   u∈RN s=1 j=1 Elle peut être mise en œuvre efficacement de manière séquentielle et assure que son regret est O(ln n). Gilles Stoltz Prédiction avec experts
  • 13. Agrégation séquentielle de prédicteurs Exponentielle des gradients Applications à des données réelles Une pondération exponentielle sans gradients Deux familles d’algorithmes d’agrégation séquentielle La régression ridge Travaux récents et perspectives Une propriété tout à fait sympathique de la régression ridge est qu’elle semble débiaiser automatiquement les experts. On peut en effet la faire tourner sur un seul expert (proposant les s prédictions fj,t ) et faire ainsi presqu’aussi bien que le meilleur des experts, indexés chacun par γ, proposant les prédictions γ fj,t .s S’il y a un facteur de biais multiplicatif à-peu-près contant 1/γ, il est donc corrigé. Sur les données d’ozone, cela donne les erreurs quadratiques moyennes suivantes, par exemple sur le meilleur et le moins bon modèle : Sans Ridge Avec Ridge Sans Ridge Avec Ridge 35.79 24.78 22.43 21.66 Gilles Stoltz Prédiction avec experts
  • 14. Framework A simple strategy Non stationarity Empirical studies References Two empirical studies – Prediction of air quality – Forecasting of the electricity consumption
  • 15. Framework A simple strategy Non stationarity Empirical studies References Two empirical studies The methodology of our studies is in four steps: 1 Build the experts (possibly on a training data set) and pick another data set for the evaluation of our methods; 2 Compute some benchmarks and some reference oracles; 3 Evaluate our strategies when run with fixed parameters (i.e., with the best parameters in hindsight); 4 The performance of interest is actually the one of the data-driven meta-strategies.
  • 16. Framework A simple strategy Non stationarity Empirical studies References First study: Prediction of air quality Joint work with Vivien Mallet (INRIA) and M.Sc. students; published in the Journal of Geophysical Research Some characteristics of one among the studied data sets: – 126 days during summer ’01; one-day ahead prediction – 241 stations in France and Germany – Typical ozone concentrations between 40 µg m−3 and 150 µg m−3 ; sometimes above the values 180 µg m−3 or 240 µg m−3 – 48 experts, built in Mallet et Sportisse ’06 by choosing a physical and chemical formulation, a numerical approximation scheme to solve the involved PDEs, and a set of input data (among many)
  • 17. Agrégation séquentielle de prédicteurs Applications à des données réelles Prédiction de la qualité de l’air Deux familles d’algorithmes d’agrégation séquentielle Autres domaines Travaux récents et perspectives On dispose d’un réseau S de stations à travers l’Europe et chaque s modèle j = 1, . . . , 48 procure une prédiction fj,t pour le pic à la station s et au jour t, qui est ensuite comparée au pic réalisé yts . Le statisticien détermine chaque jour une unique combinaison convexe p t = (p1,t , . . . , pN,t ) à utiliser en toutes les stations pour agréger les prédictions (et obtenir ainsi un champ de prévisions). Les écarts sont mesurés en perte quadratique moyenne, ce qui revient à considérer la fonction de perte  2 48 p t , (yts )s∈St =  pj,t fj,t − yts  s s∈St j=1 où St est le sous-ensemble des stations actives au jour t. La définition s’étend au cas des combinaisons linéaires u t (qui permettent par exemple de réduire le biais des modèles). Gilles Stoltz Prédiction avec experts
  • 18. Agrégation séquentielle de prédicteurs Applications à des données réelles Prédiction de la qualité de l’air Deux familles d’algorithmes d’agrégation séquentielle Autres domaines Travaux récents et perspectives Les figures ci-dessous montrent que tous les experts sont utiles et apportent de l’information. 110 56 100 54 52 90 Concentration 50 80 48 46 70 44 60 42 50 -10 -5 0 5 10 15 20 40 30 0 5 10 15 20 25 30 35 40 45 0 5 10 15 20 Hour Figure: A gauche : Coloration de l’Europe en fonction de l’indice du meilleur expert local. A droite : Profils moyens de prédiction sur une journée (moyennes spatiales et temporelles, en µg /m3 ). Gilles Stoltz Prédiction avec experts
  • 19. Agrégation séquentielle de prédicteurs Applications à des données réelles Prédiction de la qualité de l’air Deux familles d’algorithmes d’agrégation séquentielle Autres domaines Travaux récents et perspectives Les erreurs cumulées de la méthode d’agrégation et de la combinaison linéaire constante induite par u valent respectivement  2 n 48 Ln =  uj,t fj,t − yts  s t=1 s∈St j=1  2 n 48 et Ln (u) =  uj fj,t − yts  s t=1 s∈St j=1 où St est le sous-ensemble des stations actives au jour t. Les erreurs quadratiques moyennes associées sont données par Ln Ln (u) rn = n et rn (u) = n t=1 |St | t=1 |St | Gilles Stoltz Prédiction avec experts
  • 20. Agrégation séquentielle de prédicteurs Applications à des données réelles Prédiction de la qualité de l’air Deux familles d’algorithmes d’agrégation séquentielle Autres domaines Travaux récents et perspectives L’espoir est qu’un bon ensemble d’experts et la considération d’une procédure avec un faible regret entraînent à leur tour une faible erreur quadratique moyenne. En effet, Ln inf Ln (u) + o(n) u∈U se ré-écrit comme 2 2 rn inf rn (u) + o(1) u∈U (U est par exemple le simplexe des probabilités ou une boule 1 ). Gilles Stoltz Prédiction avec experts
  • 21. Agrégation séquentielle de prédicteurs Applications à des données réelles Prédiction de la qualité de l’air Deux familles d’algorithmes d’agrégation séquentielle Autres domaines Travaux récents et perspectives Moyenne M. fondamental M. convexe M. linéaire Prescient 24.41 22.43 21.45 19.24 11.99 Ci-dessus, les erreurs quadratiques moyennes (en µg /m3 ) – de la moyenne des prédictions des 48 modèles, i.e., rn (1/48, . . . , 1/48) , – du meilleur modèle fondamental parmi j = 1, . . . , 48, – de la meilleure combinaison convexe q des 48 modèles, i.e., minq rn (q), – de la meilleure combinaison linéaire u (parmi tous les vecteurs de R48 ) des 48 modèles, i.e., minu rn (u), – du prédicteur prescient qui aurait connaissance des yts avant de former sa prédiction et ne serait contraint que par l’obligation de choisir une combinaison linéaire des prédictions des modèles. Gilles Stoltz Prédiction avec experts
  • 22. Agrégation séquentielle de prédicteurs Applications à des données réelles Prédiction de la qualité de l’air Deux familles d’algorithmes d’agrégation séquentielle Autres domaines Travaux récents et perspectives Nous avons mis en œuvre environ 20 méthodes d’agrégation différentes et nous concentrons ici sur deux familles qui ont obtenu de bons résultats, EG et la régression ridge (et leurs variantes). EG est l’abréviation d’exponentielle des gradients. Cette méthode forme des combinaisons convexes dont les composantes sont données par une pondération exponentielle des sommes des composantes des gradients des pertes passées. Son regret moyen par rapport à l’ensemble des combinaisons √ convexes constantes est plus petit que 1/ n. La régression ridge est une méthode d’estimation classique en perte quadratique et qui utilise la meilleure combinaison linéaire pénalisée sur les données passées (pénalisation en terme de norme 2 ). Son regret moyen par rapport à toute combinaison linéaire constante est plus petite qu’une quantité de l’ordre de (ln n)/n. Gilles Stoltz Prédiction avec experts
  • 23. Agrégation séquentielle de prédicteurs Applications à des données réelles Prédiction de la qualité de l’air Deux familles d’algorithmes d’agrégation séquentielle Autres domaines Travaux récents et perspectives Les versions fenêtrées n’utilisent qu’un nombre fixe des plus récentes pertes passées, pour ensuite pondérer exponentiellement leurs gradients (EG) ou calculer sur elles seulement une meilleure combinaison linéaire pénalisée (régression ridge). L’escompte multiplie chaque perte passée par un facteur d’autant plus petit que ce passé est lointain. EG EG fenêtré EG esc. Ridge Ridge fenêtrée Ridge esc. 21.47 21.37 21.31 20.77 20.03 19.45 La meilleure combinaison convexe constante est battue et la version escomptée de la régression ridge a des performances très proches de celles de la meilleure combinaison linéaire constante. Moyenne M. fondamental M. convexe M. linéaire Prescient 24.41 22.43 21.45 19.24 11.99 Gilles Stoltz Prédiction avec experts
  • 24. Agrégation séquentielle de prédicteurs Applications à des données réelles Prédiction de la qualité de l’air Deux familles d’algorithmes d’agrégation séquentielle Autres domaines Travaux récents et perspectives Les méthodes d’agrégation séquentielle ne se concentrent pas sur un seul expert. Les poids attribués aux modèles peuvent changer rapidement et de manière significative au cours du temps. 0.9 10 0.8 0.7 5 0.6 Weight 0 Weight 0.5 0.4 -5 0.3 0.2 -10 0.1 0.0 -15 0 20 40 60 80 100 120 0 20 40 60 80 100 120 Step Step Figure: Poids produits au cours du temps par (à gauche) EG et la version escomptée de la régression ridge (à droite). Gilles Stoltz Prédiction avec experts
  • 25. Agrégation séquentielle de prédicteurs Calibration des algorithmes Applications à des données réelles Agrégation lacunaire Deux familles d’algorithmes d’agrégation séquentielle Autres objectifs ou autres résultats Travaux récents et perspectives 1 Agrégation séquentielle de prédicteurs Cadre mathématique La philosophie sous-jacente à ce cadre Résumé du cadre 2 Applications à des données réelles Prédiction de la qualité de l’air Autres domaines 3 Deux familles d’algorithmes d’agrégation séquentielle Exponentielle des gradients Une pondération exponentielle sans gradients La régression ridge 4 Travaux récents et perspectives Calibration des algorithmes Agrégation lacunaire Autres objectifs ou autres résultats Gilles Stoltz Prédiction avec experts
  • 26. Agrégation séquentielle de prédicteurs Calibration des algorithmes Applications à des données réelles Agrégation lacunaire Deux familles d’algorithmes d’agrégation séquentielle Autres objectifs ou autres résultats Travaux récents et perspectives On rappelle que l’exponentielle des gradients prédit, pour t 2, avec p t défini, composante j par composante j selon t−1 exp −η s=1 s (p s ) j pj,t (η) = N t−1 i=1 exp −η s=1 s (p s ) i L’idée ici est de faire varier η en fonction de t et considérer pour ηt le meilleur paramètre η sur les échéances 1, . . . , t − 1, t−1 ηt ∈ argmin s p s (η) . η>0 s=1 On utilise alors p t (ηt ) pour la prédiction au jour t. Gilles Stoltz Prédiction avec experts
  • 27. Agrégation séquentielle de prédicteurs Calibration des algorithmes Applications à des données réelles Agrégation lacunaire Deux familles d’algorithmes d’agrégation séquentielle Autres objectifs ou autres résultats Travaux récents et perspectives On peut définir de manière similaire une calibration automatique de Ridge. Sur les données d’ozone : Meilleure convexe 21.45 EG avec meilleur η 21.47 EG avec (ηt ) 21.80 Meilleure linéaire 19.24 Ridge avec meilleur λ 20.77 Ridge avec (λt ) 20.81 Le “meilleur” paramètre désigne le paramètre constant η ou λ, choisi de manière rétrospective, qui aurait donné les meilleurs résultats en termes d’erreur quadratique. Il n’y a pas encore de borne théorique pour cette méthode de calibration, mais nous y travaillons ! Gilles Stoltz Prédiction avec experts
  • 28. Agrégation séquentielle de prédicteurs Calibration des algorithmes Applications à des données réelles Agrégation lacunaire Deux familles d’algorithmes d’agrégation séquentielle Autres objectifs ou autres résultats Travaux récents et perspectives 1 Agrégation séquentielle de prédicteurs Cadre mathématique La philosophie sous-jacente à ce cadre Résumé du cadre 2 Applications à des données réelles Prédiction de la qualité de l’air Autres domaines 3 Deux familles d’algorithmes d’agrégation séquentielle Exponentielle des gradients Une pondération exponentielle sans gradients La régression ridge 4 Travaux récents et perspectives Calibration des algorithmes Agrégation lacunaire Autres objectifs ou autres résultats Gilles Stoltz Prédiction avec experts
  • 29. Agrégation séquentielle de prédicteurs Calibration des algorithmes Applications à des données réelles Agrégation lacunaire Deux familles d’algorithmes d’agrégation séquentielle Autres objectifs ou autres résultats Travaux récents et perspectives Pour obtenir des combinaisons linéaires ou convexes n’utilisant qu’un nombre restreint de modèles, on peut seuiller les combinaisons proposées (pour EG) ou changer le type de pénalité (pour Ridge). La méthode LASSO (Tibshirani, ’96) choisit des combinaisons linéaires u t des prédictions des experts données, à l’échéance t 2, par un critère de moindres carrés pénalisés en norme 1 ,   2  t−1 N u t = argmin  λ u 1 + ys − uj fj,s   u∈RN s=1 j=1 Les combinaisons qui en résultent ont en général de nombreux coefficients nuls (et sont dites lacunaires). Gilles Stoltz Prédiction avec experts
  • 30. Agrégation séquentielle de prédicteurs Calibration des algorithmes Applications à des données réelles Agrégation lacunaire Deux familles d’algorithmes d’agrégation séquentielle Autres objectifs ou autres résultats Travaux récents et perspectives Une version escomptée de LASSO conduit ainsi à une très forte sélection parmi les modèles (une vingtaine est éliminée sur les données d’ozone). Ridge esc. LASSO esc. M. linéaire 19.45 19.31 19.24   10      5 0 Indices of zero weights 40 Weight 5 30   10 15 20 25 0 20 40 60 80 Step 100 120 Gilles Stoltz Prédiction avec experts 20 10 0 0 20 40 60 Step 80 100 120
  • 31. Framework A simple strategy Non stationarity Empirical studies References Second study: Forecasting of the electricity consumption Joint work with Yannig Goude (EDF R&D) and M.Sc. students (Marie Devaine, Pierre Gaillard); submitted Specialized experts are available: each of them only outputs a forecast when specific conditions are met (working day vs. week end, temperature, etc.). The definitions and strategies need to be generalized to this setting. Exhaustive list of references: Blum ’97; Freund et al. ’97; Cesa-Bianchi and Lugosi ’03; Blum and Mansour ’07... This is it! On our data set, – 3 families of experts, 24 experts in total; – [operational constraint:] one-day ahead prediction at a half-hour step, i.e., the next 48 half-hour instances are to be predicted every day at noon
  • 32. Framework A simple strategy Non stationarity Empirical studies References 90 55 80 Consumption (GW) Consumption (GW) 50 70 60 45 50 40 40 35 30 9 11 12 1 3 4 5 7 8 Mon Tue Wed Thu Fri Sat Sun Month Day in the week Electricity consumption in France – Year 2007–08 (left) – Typical summer week (right)
  • 33. Framework A simple strategy Non stationarity Empirical studies References Some orders of magnitude for the prediction problem at hand are indicated below. Time intervals Every 30 minutes Number of days D 320 Time instances T 15 360 (= 320 × 48) Number of experts N 24 (= 15 + 8 + 1) Median of the yt 56 330 MW Bound B on the yt 92 760 MW
  • 34. Framework A simple strategy Non stationarity Empirical studies References We indicate RMSE (average errors and 95 % standard errors). Best expert Uniform mean Best p 782 ± 10 724 ± 11 658 ± 9 Exp. weights Best parameter Adaptive 629 ± 8 637 ± 9 Shifts m = T − 1 = 15 359 m = 200 m = 50 223 ± ? 414 ± ? 534 ± ? Fixed-Share Best parameter Adaptive 599 ± 9 629 ± 8
  • 35. Framework A simple strategy Non stationarity Empirical studies References 1.0 0.9 0.8 RMSE (GW) —— Best expert 0.7 ---- Best p Exp. weights 0.6 • Fixed-share 0.5 0.4 0 5 10 15 20 Hour Average RMSEs (in GW / not in MW) according to the half hours A picture is worth thousand tables, right? The average RMSE were similar but the behaviors seem different by the half-hours.
  • 36. Framework A simple strategy Non stationarity Empirical studies References References In case you’re not bored to death (yet) by this topic!
  • 37. Framework A simple strategy Non stationarity Empirical studies References The so-called “red bible!” Prediction, Learning, and Games Nicolò Cesa-Bianchi et Gábor Lugosi
  • 38. Framework A simple strategy Non stationarity Empirical studies References I published a survey paper (containing this talk!) one year ago in the Journal de la Société Française de Statistique Journal de la Société Française de Statistique Vol. 151 No. 2 (2010) Agrégation séquentielle de prédicteurs : méthodologie générale et applications à la prévision de la qualité de l’air et à celle de la consommation électrique Title: Sequential aggregation of predictors: General methodology and application to air-quality forecasting and to the prediction of electricity consumption Gilles Stoltz * Résumé : Cet article fait suite à la conférence que j’ai eu l’honneur de donner lors de la réception du prix Marie-Jeanne Laurent-Duhamel, dans le cadre des XLe Journées de Statistique à Ottawa, en 2008. Il passe en revue les résultats fondamentaux, ainsi que quelques résultats récents, en prévision séquentielle de suites arbitraires par agrégation d’experts. Il décline ensuite la méthodologie ainsi décrite sur deux jeux de données, l’un pour un problème de prévision de qualité de l’air, l’autre pour une question de prévision de consommation électrique. La plupart des résultats mentionnés dans cet article reposent sur des travaux en collaboration avec Yannig Goude (EDF R&D) et Vivien Mallet (INRIA), ainsi qu’avec les stagiaires de master que nous avons co-encadrés : Marie Devaine, Sébastien Gerchinovitz et Boris Mauricette. Abstract: This paper is an extended written version of the talk I delivered at the “XLe Journées de Statistique” in Ottawa, 2004, when being awarded the Marie-Jeanne Laurent-Duhamel prize. It is devoted to surveying some fundamental as well as some more recent results in the field of sequential prediction of individual sequences with expert advice. It then performs two empirical studies following the stated general methodology: the first one to air-quality forecasting and the second one to the prediction of electricity consumption. Most results mentioned in the paper are based on joint works with Yannig Goude (EDF R&D) and Vivien Mallet (INRIA), together with some students whom we co-supervised for their M.Sc. theses: Marie Devaine, Sébastien Gerchinovitz and Boris Mauricette. Classification AMS 2000 : primaire 62-02, 62L99, 62P12, 62P30 Mots-clés : Agrégation séquentielle, prévision avec experts, suites individuelles, prévision de la qualité de l’air, prévision de la consommation électrique Keywords: Sequential aggregation of predictors, prediction with expert advice, individual sequences, air-quality forecasting, prediction of electricity consumption Ecole normale supérieure, CNRS, 45 rue d’Ulm, 75005 Paris & HEC Paris, CNRS, 1 rue de la Libération, 78350 Jouy-en-Josas E-mail : gilles.stoltz@ens.fr URL : http://www.math.ens.fr/∼stoltz * L’auteur remercie l’Agence nationale de la recherche pour son soutien à travers le projet JCJC06-137444 ATLAS (“From applications to theory in learning and adaptive statistics”). † Ces recherches ont été menées dans le cadre du projet CLASSIC de l’INRIA, hébergé par l’Ecole normale supérieure et le CNRS. Journal de la Société Française de Statistique, Vol. 151 No. 2 66-106 http://www.sfds.asso.fr/journal © Société Française de Statistique et Société Mathématique de France (2010) ISSN: 2102-6238 Even better (or worse)—it is in French!