Calcul de la vulnérabilité aux changements climatiques pour les vagues de cha...ACSG - Section Montréal
Calcul de la vulnérabilité aux changements climatiques pour les vagues de chaleur à l’aide de l’intelligence artificielle et des SIG
Jean-Nicolas Côté, B.pharm., M.env.
Doctorant au département de géomatique appliquée de l’Université de Sherbrooke
International Journal of Engineering Research and DevelopmentIJERD Editor
• Electrical, Electronics and Computer Engineering,
• Information Engineering and Technology,
• Mechanical, Industrial and Manufacturing Engineering,
• Automation and Mechatronics Engineering,
• Material and Chemical Engineering,
• Civil and Architecture Engineering,
• Biotechnology and Bio Engineering,
• Environmental Engineering,
• Petroleum and Mining Engineering,
• Marine and Agriculture engineering,
• Aerospace Engineering.
Gestion des réseaux de distribution en présence de Génération d’Énergie Dispe...sabrina306173
Idée
Quantifier et évaluer la criticité d’un impact en fonction des valeurs usuelles des paramètres du réseau
Démarche
La plus générale possible
Bonus
Trouver des solutions pour la gestion du réseau de distribution en présence de GED
Approche
Type paramétrique
Gestion des réseaux de distribution en présence de Génération d’Énergie Dispersée
Calcul de la vulnérabilité aux changements climatiques pour les vagues de cha...ACSG - Section Montréal
Calcul de la vulnérabilité aux changements climatiques pour les vagues de chaleur à l’aide de l’intelligence artificielle et des SIG
Jean-Nicolas Côté, B.pharm., M.env.
Doctorant au département de géomatique appliquée de l’Université de Sherbrooke
International Journal of Engineering Research and DevelopmentIJERD Editor
• Electrical, Electronics and Computer Engineering,
• Information Engineering and Technology,
• Mechanical, Industrial and Manufacturing Engineering,
• Automation and Mechatronics Engineering,
• Material and Chemical Engineering,
• Civil and Architecture Engineering,
• Biotechnology and Bio Engineering,
• Environmental Engineering,
• Petroleum and Mining Engineering,
• Marine and Agriculture engineering,
• Aerospace Engineering.
Gestion des réseaux de distribution en présence de Génération d’Énergie Dispe...sabrina306173
Idée
Quantifier et évaluer la criticité d’un impact en fonction des valeurs usuelles des paramètres du réseau
Démarche
La plus générale possible
Bonus
Trouver des solutions pour la gestion du réseau de distribution en présence de GED
Approche
Type paramétrique
Gestion des réseaux de distribution en présence de Génération d’Énergie Dispersée
Innhotep - Energie Grise Photovoltaïque (2010)Innhotep
Au delà des débats idéologiques, quelle est la mesure objective de la performance énergétique du solaire photovoltaïque ? Revue des principales méthodes, hypothèses et résultats actuels et tendances futures.
Dans cette section, il est question de fleurer et d’identifier les capacités et
compétences moyennes de la promotion d’étudiants (Par défaut, chaque année
n’est typique qu’à elle-même, on peut avoir des surprises).
Dans la réalité des choses, nous sommes tout le temps confrontés à des situations
nouvelles où il est judicieusement nécessaire de prendre une décision. Les
mauvaises prises en considération engendrent toujours et inévitablement des
conséquences désastreuses dans le système provoquant ainsi des pertes en énergie,
en temps et en ressources et vice-versa. Mais ... où réside le problème ?
Les méthodes éducatives jugées valables au moment de la prise du système universitaire sont nettement
soupçonnées pour une éventuelle qualification des fondements de manoeuvres et travaux à entreprendre
et des buts à atteindre.
La pédagogie c'est l'art d'enseigner ou les méthodes d'enseignement propres à une discipline, à une
matière, à un ordre d'enseignement, à un établissement d'enseignement ou à une philosophie de
l'éducation.
Chap XI : Outils de Simulation des modes opératoires (Plans d’expériences)Mohammed TAMALI
Les méthodologies utilisées par les humains, en rapport, avec les tentatives de compréhension des phénomènes physiques qui nous entourent, donnent un contrecoup général de la complexité de ces même systèmes que nous manipulons et prenons comme sujets dans nos études.
Le niveau de complexité des systèmes est élevé, à un niveau où toutes les tentatives ou essais de lancement de procédés expérimentaux laissent et obligent à considérer des erreurs. Encore plus, les effets tangents. Selon la théorie de l’évaluation des performances, l’exigence ‘comprendre’ le système n’a de réponse que si :
- Nous avons tellement d’informations que les recommandations des études ultérieures seront satisfaites,
- Nous avons des références, avec quoi on peut comparer,
- Nous avons un historique susceptible d’être retracé,
- Il y a une possibilité pour faire de l’expérimentation.
Les trois premiers cas satisfont à eux-mêmes. Si telle est la situation, ils nous clarifient l’image. Le quatrième critère exige que l’expérience se fasse effectivement pour que toutes les questions, relatives à un problème donné, soient élucidées. Le domaine de définition du modèle régissant le système étudié est plus ou moins profond que ses variables se meuvent d’une manière continue ou discrète dans les espaces position/temps.
Ces variables sont les facteurs du systèmes et peuvent évoluer selon des modalités changeantes.
Proposition d’architecture et de processus pour la résilience des systèmes ; application aux systèmes critiques à longue durée de vie
20150707 soutenance thèse Ruault
Séminaire de Recherche à l'Université Galatasaray, Département de Génie Industriel, Faculté d’Ingénierie et de Technologie : Contribution informatique en sciences pour l'environnement.
Présentation sur l'expérimentation (bilan intermédiaire au 1er juin 2010) men...Morgan Magnin
L’École Centrale de Nantes est actuellement engagée dans un projet (fédérant, entre autres, les Ecoles des Mines de Nantes, d’Alès et de Douai, l’INSA de Rouen, l’Université de Bordeaux 2 et, bien sûr, l’ECN) qui vise à assurer une meilleure évaluation du savoir-faire en informatique. Pour ce faire, la méthode envisagée est celle des tests de concordance de scripts, notés TCS.
L’objectif des TCS est d’évaluer le raisonnement des étudiants placés dans une situation professionnelle, et non pas leurs connaissances (ce qui peut déjà être fait par des méthodes "classiques", allant du QCM au devoir sur table). Les TCS constituent donc un outil d’évaluation complémentaire des procédures déjà existantes. Des études ont montré la fidélité et la validité des TCS pour différencier les étudiants en fonction de leur niveau d’expertise. Ils permettent de tester un grand nombre d’étudiants de façon standardisée, discriminante et objective.
Ils sont déjà largement utilisés dans de nombreuses universités relevant du secteur médical. Ils permettent d’évaluer le raisonnement en situation incertaine correspondant à la vie professionnelle. Ils mettent en jeu des problèmes mal définis, avec des données incertaines et pour lesquels plusieurs solutions sont possibles. Les raisonnements des étudiants sont alors confrontés à ceux d’experts.
Cette présentation a été effectué dans le cadre de la réunion des correspondants TICE de la Conférence Régionale des Grandes Écoles de la Région Pays de la Loire, le mardi 1er juin 2010 à Angers.
Présentation des travaux IFPEB "ACV et Prescription"IFPEB
Il existe des outils d’ACV bâtiment de plus en plus opérationnels: quelle est leur place en conception à côté des nombreux outils de l’architecture, du bioclimatisme et du dimensionnement énergétique?
A qui confier ce calcul?
Est-il possible de l’utiliser pour objectiver la demande d’une performance environnementale en phase amont?
Le suivi sur l’avifaune de plaine, notamment de l’outarde canepetière, vise à évaluer les impacts de la LGV SEA et l’efficience des mesures compensatoires en zones de grandes cultures agricoles.
Innhotep - Energie Grise Photovoltaïque (2010)Innhotep
Au delà des débats idéologiques, quelle est la mesure objective de la performance énergétique du solaire photovoltaïque ? Revue des principales méthodes, hypothèses et résultats actuels et tendances futures.
Dans cette section, il est question de fleurer et d’identifier les capacités et
compétences moyennes de la promotion d’étudiants (Par défaut, chaque année
n’est typique qu’à elle-même, on peut avoir des surprises).
Dans la réalité des choses, nous sommes tout le temps confrontés à des situations
nouvelles où il est judicieusement nécessaire de prendre une décision. Les
mauvaises prises en considération engendrent toujours et inévitablement des
conséquences désastreuses dans le système provoquant ainsi des pertes en énergie,
en temps et en ressources et vice-versa. Mais ... où réside le problème ?
Les méthodes éducatives jugées valables au moment de la prise du système universitaire sont nettement
soupçonnées pour une éventuelle qualification des fondements de manoeuvres et travaux à entreprendre
et des buts à atteindre.
La pédagogie c'est l'art d'enseigner ou les méthodes d'enseignement propres à une discipline, à une
matière, à un ordre d'enseignement, à un établissement d'enseignement ou à une philosophie de
l'éducation.
Chap XI : Outils de Simulation des modes opératoires (Plans d’expériences)Mohammed TAMALI
Les méthodologies utilisées par les humains, en rapport, avec les tentatives de compréhension des phénomènes physiques qui nous entourent, donnent un contrecoup général de la complexité de ces même systèmes que nous manipulons et prenons comme sujets dans nos études.
Le niveau de complexité des systèmes est élevé, à un niveau où toutes les tentatives ou essais de lancement de procédés expérimentaux laissent et obligent à considérer des erreurs. Encore plus, les effets tangents. Selon la théorie de l’évaluation des performances, l’exigence ‘comprendre’ le système n’a de réponse que si :
- Nous avons tellement d’informations que les recommandations des études ultérieures seront satisfaites,
- Nous avons des références, avec quoi on peut comparer,
- Nous avons un historique susceptible d’être retracé,
- Il y a une possibilité pour faire de l’expérimentation.
Les trois premiers cas satisfont à eux-mêmes. Si telle est la situation, ils nous clarifient l’image. Le quatrième critère exige que l’expérience se fasse effectivement pour que toutes les questions, relatives à un problème donné, soient élucidées. Le domaine de définition du modèle régissant le système étudié est plus ou moins profond que ses variables se meuvent d’une manière continue ou discrète dans les espaces position/temps.
Ces variables sont les facteurs du systèmes et peuvent évoluer selon des modalités changeantes.
Proposition d’architecture et de processus pour la résilience des systèmes ; application aux systèmes critiques à longue durée de vie
20150707 soutenance thèse Ruault
Séminaire de Recherche à l'Université Galatasaray, Département de Génie Industriel, Faculté d’Ingénierie et de Technologie : Contribution informatique en sciences pour l'environnement.
Présentation sur l'expérimentation (bilan intermédiaire au 1er juin 2010) men...Morgan Magnin
L’École Centrale de Nantes est actuellement engagée dans un projet (fédérant, entre autres, les Ecoles des Mines de Nantes, d’Alès et de Douai, l’INSA de Rouen, l’Université de Bordeaux 2 et, bien sûr, l’ECN) qui vise à assurer une meilleure évaluation du savoir-faire en informatique. Pour ce faire, la méthode envisagée est celle des tests de concordance de scripts, notés TCS.
L’objectif des TCS est d’évaluer le raisonnement des étudiants placés dans une situation professionnelle, et non pas leurs connaissances (ce qui peut déjà être fait par des méthodes "classiques", allant du QCM au devoir sur table). Les TCS constituent donc un outil d’évaluation complémentaire des procédures déjà existantes. Des études ont montré la fidélité et la validité des TCS pour différencier les étudiants en fonction de leur niveau d’expertise. Ils permettent de tester un grand nombre d’étudiants de façon standardisée, discriminante et objective.
Ils sont déjà largement utilisés dans de nombreuses universités relevant du secteur médical. Ils permettent d’évaluer le raisonnement en situation incertaine correspondant à la vie professionnelle. Ils mettent en jeu des problèmes mal définis, avec des données incertaines et pour lesquels plusieurs solutions sont possibles. Les raisonnements des étudiants sont alors confrontés à ceux d’experts.
Cette présentation a été effectué dans le cadre de la réunion des correspondants TICE de la Conférence Régionale des Grandes Écoles de la Région Pays de la Loire, le mardi 1er juin 2010 à Angers.
Présentation des travaux IFPEB "ACV et Prescription"IFPEB
Il existe des outils d’ACV bâtiment de plus en plus opérationnels: quelle est leur place en conception à côté des nombreux outils de l’architecture, du bioclimatisme et du dimensionnement énergétique?
A qui confier ce calcul?
Est-il possible de l’utiliser pour objectiver la demande d’une performance environnementale en phase amont?
Le suivi sur l’avifaune de plaine, notamment de l’outarde canepetière, vise à évaluer les impacts de la LGV SEA et l’efficience des mesures compensatoires en zones de grandes cultures agricoles.
- The document discusses strategies for analyzing large datasets that are too big to fit into memory, including using cloud computing, the ff and rsqlite packages in R, and sampling with the data.sample package.
- The ff and rsqlite packages allow working with data beyond RAM limits but require rewriting code, while data.sample provides sampling without rewriting code but introduces sampling error.
- Cloud computing avoids rewriting code and has no memory limits but requires setup, and sampling is good for analysis but not reporting exact values.
The document introduces building a data science platform in the cloud using Amazon Web Services and open source technologies. It discusses motivations for using a cloud-based approach for flexibility and cost effectiveness. The key building blocks are described as Amazon EC2 for infrastructure, Vertica for fast data storage and querying, and RStudio Server for analytical capabilities. Step-by-step instructions are provided to set up these components, including launching an EC2 instance, attaching an EBS volume for storage, installing Vertica and RStudio Server, and configuring connectivity between components. The platform allows for experimenting and iterating quickly on data analysis projects in the cloud.
This document describes a collapsed dynamic factor analysis model for macroeconomic forecasting. It summarizes that multivariate time series models can more accurately capture relationships between economic variables compared to univariate models. The document then presents a collapsed dynamic factor model that relates a target time series (yt) to unobserved dynamic factors (Ft) estimated from related macroeconomic data (gt). Out-of-sample forecasting experiments on US personal income and industrial production data demonstrate the model achieves more accurate point forecasts than univariate benchmarks like random walk or AR(2) models.
This document discusses time series forecasting and summarizes four illustrations of time series analysis and forecasting:
1. A multivariate model is used to analyze the European business cycle based on trends, common cycles, and leads/lags between economic indicators like GDP, industrial production, and confidence.
2. A bivariate unobserved components model is applied to daily Nordpool electricity spot prices and consumption data. The model decomposes the data into trends, seasons, cycles and residuals. Forecasting results show the bivariate model outperforms the univariate.
3. A periodic dynamic factor model is jointly modeled to 24 hours of French electricity load data. The model accounts for long-term trends, various seasonal patterns,
This document describes a collapsed dynamic factor analysis model for macroeconomic forecasting. It summarizes that multivariate time series models can more accurately capture relationships between economic variables compared to univariate models. The document then presents a collapsed dynamic factor model that relates a target time series (yt) to unobserved dynamic factors (Ft) estimated from related macroeconomic data (gt). Out-of-sample forecasting experiments on US personal income and industrial production data demonstrate the model achieves more accurate point forecasts than univariate benchmarks like random walk or AR(2) models.
This document discusses state space methods for time series analysis and forecasting. It begins by introducing the basic state space model framework, which represents a time series using unobserved states that evolve over time according to a state equation and generate observations according to an observation equation. The document then provides examples of how various time series models, such as regression models with time-varying coefficients, ARMA models, and univariate component models can be expressed as state space models. Finally, it introduces the Kalman filter algorithm, which provides a recursive means of estimating the unobserved states from the observations.
This document provides an overview of a course on forecasting time series using state space methods and unobserved components models. The course covers introduction to univariate component models, state space methods, forecasting different time series components, and exercises for practical forecasting applications with examples. Key topics include white noise processes, random walk processes, the local level model, and simulated data from a local level model.
Parallel R in snow (english after 2nd slide)Cdiscount
This presentation discusses parallelizing computations in R using the snow package. It demonstrates how to:
1. Create a cluster with multiple R sessions using makeCluster()
2. Split data across the sessions using clusterSplit() and export data to each node
3. Write functions to execute in parallel on each node using clusterEvalQ()
4. Collect the results, such as by summing outputs, to obtain the final parallelized computation. As an example, it shows how to parallelize the likelihood calculation for a probit regression model, reducing the computation time.
Prévision par experts, application à la qualité de l'air
1. Agrégation séquentielle de prédicteurs
Applications à des données réelles
Deux familles d’algorithmes d’agrégation séquentielle
Travaux récents et perspectives
Prédiction avec experts :
Statistiques déterministes appliquées à la prédiction
de la qualité de l’air
Gilles Stoltz
CNRS — École normale supérieure — INRIA, équipe CLASSIC
& HEC Paris
Gilles Stoltz Prédiction avec experts
2. Agrégation séquentielle de prédicteurs
Applications à des données réelles
Deux familles d’algorithmes d’agrégation séquentielle
Travaux récents et perspectives
Au début de cet exposé, je voudrais saluer
Prediction, Learning, and Games
Nicolò Cesa-Bianchi et Gábor Lugosi
Gilles Stoltz Prédiction avec experts
4. Agrégation séquentielle de prédicteurs
Cadre mathématique
Applications à des données réelles
La philosophie sous-jacente à ce cadre
Deux familles d’algorithmes d’agrégation séquentielle
Résumé du cadre
Travaux récents et perspectives
1 Agrégation séquentielle de prédicteurs
Cadre mathématique
La philosophie sous-jacente à ce cadre
Résumé du cadre
2 Applications à des données réelles
Prédiction de la qualité de l’air
Autres domaines
3 Deux familles d’algorithmes d’agrégation séquentielle
Exponentielle des gradients
Une pondération exponentielle sans gradients
La régression ridge
4 Travaux récents et perspectives
Calibration des algorithmes
Agrégation lacunaire
Autres objectifs ou autres résultats
Gilles Stoltz Prédiction avec experts
5. Agrégation séquentielle de prédicteurs
Cadre mathématique
Applications à des données réelles
La philosophie sous-jacente à ce cadre
Deux familles d’algorithmes d’agrégation séquentielle
Résumé du cadre
Travaux récents et perspectives
Un statisticien accepte la mission de prédire une suite y1 , y2 , . . .
d’observations vivant dans un ensemble Y.
Ses prédictions p1 , p2 , . . . sont formées dans un ensemble X .
Les observations et prédictions (1) sont effectuées de manière
séquentielle et (2) ne reposent sur aucun modèle stochastique.
(1) signifie qu’à chaque échéance, la prévision pt pour yt est
déterminée
t−1
– sur le seul fondement du passé, y1 = y1 , . . . , yt−1 ,
– et avant que la vraie valeur yt ne soit révélée au grand jour.
(2) indique qu’il ne s’agira pas d’estimer des paramètres pour en
déduire un bon modèle et donc de bonnes prévisions.
Gilles Stoltz Prédiction avec experts
6. Agrégation séquentielle de prédicteurs
Cadre mathématique
Applications à des données réelles
La philosophie sous-jacente à ce cadre
Deux familles d’algorithmes d’agrégation séquentielle
Résumé du cadre
Travaux récents et perspectives
Pour que le problème ait un sens dans un cadre aussi général, on
introduit des experts.
Gilles Stoltz Prédiction avec experts
7. Agrégation séquentielle de prédicteurs
Cadre mathématique
Applications à des données réelles
La philosophie sous-jacente à ce cadre
Deux familles d’algorithmes d’agrégation séquentielle
Résumé du cadre
Travaux récents et perspectives
Pour que le problème ait un sens dans un cadre aussi général, on
introduit des experts ; il leur sera fait référence par j = 1, . . . , N.
A chaque échéance, l’expert j procure une prédiction
t−1
fj,t = fj,t y1 ∈ X.
Le statisticien fonde maintenant ses prédictions pt sur les
t−1
observations passées y1 = (y1 , . . . , yt−1 ) et sur les conseils passés
et présents des experts, fj,s pour s = 1, . . . , t.
L’objectif du statisticien est de prédire presqu’aussi bien que le
meilleur expert.
Remarquez cependant que le meilleur expert ne saurait être
déterminé que rétrospectivement tandis que le statisticien est
assujetti à une contrainte de prédiction séquentielle.
Gilles Stoltz Prédiction avec experts
8. Agrégation séquentielle de prédicteurs
Cadre mathématique
Applications à des données réelles
La philosophie sous-jacente à ce cadre
Deux familles d’algorithmes d’agrégation séquentielle
Résumé du cadre
Travaux récents et perspectives
On se limite à former des combinaisons linéaires ou convexes des
conseils des experts (convexes, pour commencer).
On suppose donc que X est convexe.
A chaque échéance, le statisticien forme une combinaison convexe
des conseils des experts,
N
pt = pj,t fj,t
j=1
où p t = (p1,t , . . . , pN,t ) est un élément du simplexe (de
probabilité) d’ordre N.
On renforce l’objectif : le statisticien veut en fait prédire
presqu’aussi bien que la meilleure combinaison convexe constante
des experts.
Gilles Stoltz Prédiction avec experts
9. Agrégation séquentielle de prédicteurs
Cadre mathématique
Applications à des données réelles
La philosophie sous-jacente à ce cadre
Deux familles d’algorithmes d’agrégation séquentielle
Résumé du cadre
Travaux récents et perspectives
Pour quantifier mathématiquement la notion de meilleur expert, on
introduit une fonction de perte : X × Y → R.
On définit les pertes cumulées du statisticien et des combinaisons
convexes constantes q = (q1 , . . . , qN ) des experts par
n N n N
Ln = pj,t fj,t , yt et Ln (q) = qj fj,t , yt
t=1 j=1 t=1 j=1
Le regret face à q est la différence entre ces deux quantités,
Rn (q) = Ln − Ln (q)
On veut construire des stratégies de prédiction telles que le regret
moyen converge vers 0 pour toute suite d’observations y1 , y2 , . . .,
uniformément en les q, soit
1
lim sup max Rn (q) 0
n q
Gilles Stoltz Prédiction avec experts
10. Agrégation séquentielle de prédicteurs
Cadre mathématique
Applications à des données réelles
La philosophie sous-jacente à ce cadre
Deux familles d’algorithmes d’agrégation séquentielle
Résumé du cadre
Travaux récents et perspectives
1 Agrégation séquentielle de prédicteurs
Cadre mathématique
La philosophie sous-jacente à ce cadre
Résumé du cadre
2 Applications à des données réelles
Prédiction de la qualité de l’air
Autres domaines
3 Deux familles d’algorithmes d’agrégation séquentielle
Exponentielle des gradients
Une pondération exponentielle sans gradients
La régression ridge
4 Travaux récents et perspectives
Calibration des algorithmes
Agrégation lacunaire
Autres objectifs ou autres résultats
Gilles Stoltz Prédiction avec experts
11. Agrégation séquentielle de prédicteurs
Cadre mathématique
Applications à des données réelles
La philosophie sous-jacente à ce cadre
Deux familles d’algorithmes d’agrégation séquentielle
Résumé du cadre
Travaux récents et perspectives
Ce cadre admet une interprétation méta-statistique :
– chaque expert peut correspondre à une méthode statistique,
éventuellement réglée avec un certain jeu de paramètres ;
– on combine de manière robuste et déterministe ces prévisions
fondamentales issues d’une modélisation stochastique.
Or, la perte cumulée du statisticien est égale à
Ln = min Ln (q) + max Rn (q)
q q
On peut donc interpréter
– le terme de performance de la meilleure combinaison convexe
des experts comme une erreur d’approximation,
– le terme de regret comme mesurant une difficulté d’estimation
séquentielle.
Gilles Stoltz Prédiction avec experts
12. Agrégation séquentielle de prédicteurs
Cadre mathématique
Applications à des données réelles
La philosophie sous-jacente à ce cadre
Deux familles d’algorithmes d’agrégation séquentielle
Résumé du cadre
Travaux récents et perspectives
1 Agrégation séquentielle de prédicteurs
Cadre mathématique
La philosophie sous-jacente à ce cadre
Résumé du cadre
2 Applications à des données réelles
Prédiction de la qualité de l’air
Autres domaines
3 Deux familles d’algorithmes d’agrégation séquentielle
Exponentielle des gradients
Une pondération exponentielle sans gradients
La régression ridge
4 Travaux récents et perspectives
Calibration des algorithmes
Agrégation lacunaire
Autres objectifs ou autres résultats
Gilles Stoltz Prédiction avec experts
13. Agrégation séquentielle de prédicteurs
Cadre mathématique
Applications à des données réelles
La philosophie sous-jacente à ce cadre
Deux familles d’algorithmes d’agrégation séquentielle
Résumé du cadre
Travaux récents et perspectives
On résume le cadre mathématique introduit par un jeu répété.
Paramètres : un ensemble convexe X de prédictions, un ensemble
Y d’observations, une fonction de perte : X × Y → R
A chaque échéance t = 1, 2, . . .,
– les experts procurent leurs conseils fj,t
– le statisticien choisit une combinaison convexe
p t = (p1,t , . . . , pN,t ) et prédit pt = N pj,t fj,t
j=1
– l’environnement choisit simultanément l’observation yt
– yt et pt (et donc les pertes respectives) sont révélées.
On veut minimiser le regret face à tous les q,
n N n N
Rn (q) = Ln − Ln (q) = pj,t fj,t , yt − qj fj,t , yt
t=1 j=1 t=1 j=1
Gilles Stoltz Prédiction avec experts
14. Agrégation séquentielle de prédicteurs
Applications à des données réelles Prédiction de la qualité de l’air
Deux familles d’algorithmes d’agrégation séquentielle Autres domaines
Travaux récents et perspectives
1 Agrégation séquentielle de prédicteurs
Cadre mathématique
La philosophie sous-jacente à ce cadre
Résumé du cadre
2 Applications à des données réelles
Prédiction de la qualité de l’air
Autres domaines
3 Deux familles d’algorithmes d’agrégation séquentielle
Exponentielle des gradients
Une pondération exponentielle sans gradients
La régression ridge
4 Travaux récents et perspectives
Calibration des algorithmes
Agrégation lacunaire
Autres objectifs ou autres résultats
Gilles Stoltz Prédiction avec experts
15. Agrégation séquentielle de prédicteurs
Applications à des données réelles Prédiction de la qualité de l’air
Deux familles d’algorithmes d’agrégation séquentielle Autres domaines
Travaux récents et perspectives
Voici le fruit d’une collaboration avec Vivien Mallet (INRIA),
publiée par Journal of Geophysical Research.
On veut prédire, jour après jour, les hauteurs des pics d’ozone du
lendemain (ou les concentrations horaires, heure après heure).
On dispose d’un réseau de stations météorologiques à travers
l’Europe pour les relever (tout se passe pendant l’été 2001).
On construit tout d’abord 48 prédicteurs fondamentaux en
choisissant pour chacun d’entre eux un modèle, défini par une
formulation physico-chimique (parmi plusieurs possibles), un
schéma numérique (parmi plusieurs possibles) de résolution
approchée des EDPs en jeu, et un jeu de données d’entrée.
Gilles Stoltz Prédiction avec experts
16. Agrégation séquentielle de prédicteurs
Applications à des données réelles Prédiction de la qualité de l’air
Deux familles d’algorithmes d’agrégation séquentielle Autres domaines
Travaux récents et perspectives
Voici le fruit d’une collaboration avec Vivien Mallet (INRIA),
publiée par Journal of Geophysical Research.
On veut prédire, jour après jour, les hauteurs des pics d’ozone du
lendemain (ou les concentrations horaires, heure après heure).
On dispose d’un réseau de stations météorologiques à travers
l’Europe pour les relever (tout se passe pendant l’été 2001).
On construit tout d’abord 48 prédicteurs fondamentaux en
choisissant pour chacun d’entre eux un modèle.
Au lieu de devoir se fier à un prédicteur plutôt qu’un autre en le
sélectionnant, on recourt à une procédure plus gloutonne qui les
considère tous et les agrège séquentiellement.
Gilles Stoltz Prédiction avec experts
17. Agrégation séquentielle de prédicteurs
Applications à des données réelles Prédiction de la qualité de l’air
Deux familles d’algorithmes d’agrégation séquentielle Autres domaines
Travaux récents et perspectives
On dispose d’un réseau S de stations à travers l’Europe et chaque
s
modèle j = 1, . . . , 48 procure une prédiction fj,t pour le pic à la
station s et au jour t, qui est ensuite comparée au pic réalisé yts .
Le statisticien détermine chaque jour une unique combinaison
convexe p t = (p1,t , . . . , pN,t ) à utiliser en toutes les stations pour
agréger les prédictions (et obtenir ainsi un champ de prévisions).
Les écarts sont mesurés en perte quadratique moyenne, ce qui
revient à considérer la fonction de perte
2
48
p t , (yts )s∈St = pj,t fj,t − yts
s
s∈St j=1
où St est le sous-ensemble des stations actives au jour t.
La définition s’étend au cas des combinaisons linéaires u t (qui
permettent par exemple de réduire le biais des modèles).
Gilles Stoltz Prédiction avec experts
18. Agrégation séquentielle de prédicteurs
Applications à des données réelles Prédiction de la qualité de l’air
Deux familles d’algorithmes d’agrégation séquentielle Autres domaines
Travaux récents et perspectives
Les figures ci-dessous montrent que tous les experts sont utiles et
apportent de l’information.
110
56 100
54
52 90
Concentration
50 80
48
46 70
44 60
42
50
-10 -5 0 5 10 15 20
40
30
0 5 10 15 20 25 30 35 40 45 0 5 10 15 20
Hour
Figure: A gauche : Coloration de l’Europe en fonction de l’indice du
meilleur expert local. A droite : Profils moyens de prédiction sur une
journée (moyennes spatiales et temporelles, en µg /m3 ).
Gilles Stoltz Prédiction avec experts
19. Agrégation séquentielle de prédicteurs
Applications à des données réelles Prédiction de la qualité de l’air
Deux familles d’algorithmes d’agrégation séquentielle Autres domaines
Travaux récents et perspectives
Les erreurs cumulées de la méthode d’agrégation et de la
combinaison linéaire constante induite par u valent respectivement
2
n 48
Ln = uj,t fj,t − yts
s
t=1 s∈St j=1
2
n 48
et Ln (u) = uj fj,t − yts
s
t=1 s∈St j=1
où St est le sous-ensemble des stations actives au jour t.
Les erreurs quadratiques moyennes associées sont données par
Ln Ln (u)
rn = n et rn (u) = n
t=1 |St | t=1 |St |
Gilles Stoltz Prédiction avec experts
20. Agrégation séquentielle de prédicteurs
Applications à des données réelles Prédiction de la qualité de l’air
Deux familles d’algorithmes d’agrégation séquentielle Autres domaines
Travaux récents et perspectives
L’espoir est qu’un bon ensemble d’experts et la considération d’une
procédure avec un faible regret entraînent à leur tour une faible
erreur quadratique moyenne.
En effet,
Ln inf Ln (u) + o(n)
u∈U
se ré-écrit comme
2 2
rn inf rn (u) + o(1)
u∈U
(U est par exemple le simplexe des probabilités ou une boule 1 ).
Gilles Stoltz Prédiction avec experts
21. Agrégation séquentielle de prédicteurs
Applications à des données réelles Prédiction de la qualité de l’air
Deux familles d’algorithmes d’agrégation séquentielle Autres domaines
Travaux récents et perspectives
Moyenne M. fondamental M. convexe M. linéaire Prescient
24.41 22.43 21.45 19.24 11.99
Ci-dessus, les erreurs quadratiques moyennes (en µg /m3 )
– de la moyenne des prédictions des 48 modèles, i.e.,
rn (1/48, . . . , 1/48) ,
– du meilleur modèle fondamental parmi j = 1, . . . , 48,
– de la meilleure combinaison convexe q des 48 modèles, i.e.,
minq rn (q),
– de la meilleure combinaison linéaire u (parmi tous les vecteurs
de R48 ) des 48 modèles, i.e., minu rn (u),
– du prédicteur prescient qui aurait connaissance des yts avant de
former sa prédiction et ne serait contraint que par l’obligation
de choisir une combinaison linéaire des prédictions des
modèles.
Gilles Stoltz Prédiction avec experts
22. Agrégation séquentielle de prédicteurs
Applications à des données réelles Prédiction de la qualité de l’air
Deux familles d’algorithmes d’agrégation séquentielle Autres domaines
Travaux récents et perspectives
Nous avons mis en œuvre environ 20 méthodes d’agrégation
différentes et nous concentrons ici sur deux familles qui ont obtenu
de bons résultats, EG et la régression ridge (et leurs variantes).
EG est l’abréviation d’exponentielle des gradients. Cette méthode
forme des combinaisons convexes dont les composantes sont
données par une pondération exponentielle des sommes des
composantes des gradients des pertes passées.
Son regret moyen par rapport à l’ensemble des combinaisons
√
convexes constantes est plus petit que 1/ n.
La régression ridge est une méthode d’estimation classique en perte
quadratique et qui utilise la meilleure combinaison linéaire pénalisée
sur les données passées (pénalisation en terme de norme 2 ).
Son regret moyen par rapport à toute combinaison linéaire
constante est plus petite qu’une quantité de l’ordre de (ln n)/n.
Gilles Stoltz Prédiction avec experts
23. Agrégation séquentielle de prédicteurs
Applications à des données réelles Prédiction de la qualité de l’air
Deux familles d’algorithmes d’agrégation séquentielle Autres domaines
Travaux récents et perspectives
Les versions fenêtrées n’utilisent qu’un nombre fixe des plus
récentes pertes passées, pour ensuite pondérer exponentiellement
leurs gradients (EG) ou calculer sur elles seulement une meilleure
combinaison linéaire pénalisée (régression ridge).
L’escompte multiplie chaque perte passée par un facteur d’autant
plus petit que ce passé est lointain.
EG EG fenêtré EG esc. Ridge Ridge fenêtrée Ridge esc.
21.47 21.37 21.31 20.77 20.03 19.45
La meilleure combinaison convexe constante est battue et la version
escomptée de la régression ridge a des performances très proches de
celles de la meilleure combinaison linéaire constante.
Moyenne M. fondamental M. convexe M. linéaire Prescient
24.41 22.43 21.45 19.24 11.99
Gilles Stoltz Prédiction avec experts
24. Agrégation séquentielle de prédicteurs
Applications à des données réelles Prédiction de la qualité de l’air
Deux familles d’algorithmes d’agrégation séquentielle Autres domaines
Travaux récents et perspectives
Les méthodes d’agrégation séquentielle ne se concentrent pas sur
un seul expert.
Les poids attribués aux modèles peuvent changer rapidement et de
manière significative au cours du temps.
0.9 10
0.8
0.7 5
0.6
Weight
0
Weight
0.5
0.4
-5
0.3
0.2 -10
0.1
0.0 -15
0 20 40 60 80 100 120 0 20 40 60 80 100 120
Step Step
Figure: Poids produits au cours du temps par (à gauche) EG et la version
escomptée de la régression ridge (à droite).
Gilles Stoltz Prédiction avec experts
25. Agrégation séquentielle de prédicteurs
Applications à des données réelles Prédiction de la qualité de l’air
Deux familles d’algorithmes d’agrégation séquentielle Autres domaines
Travaux récents et perspectives
1 Agrégation séquentielle de prédicteurs
Cadre mathématique
La philosophie sous-jacente à ce cadre
Résumé du cadre
2 Applications à des données réelles
Prédiction de la qualité de l’air
Autres domaines
3 Deux familles d’algorithmes d’agrégation séquentielle
Exponentielle des gradients
Une pondération exponentielle sans gradients
La régression ridge
4 Travaux récents et perspectives
Calibration des algorithmes
Agrégation lacunaire
Autres objectifs ou autres résultats
Gilles Stoltz Prédiction avec experts
26. Agrégation séquentielle de prédicteurs
Applications à des données réelles Prédiction de la qualité de l’air
Deux familles d’algorithmes d’agrégation séquentielle Autres domaines
Travaux récents et perspectives
D’une part, on peut s’intéresser à la sélection séquentielle de
portefeuilles d’investissement (par exemple, Cover’91).
Le tout est de déterminer de bons experts. Les valeurs boursières
individuelles prises comme experts ne donnent pas de bons résultats.
De plus, ici l’on est amené à considérer des log-rendements dans la
définition du regret.
Au final, les performances pratiques sont mauvaises.
Gilles Stoltz Prédiction avec experts
27. Agrégation séquentielle de prédicteurs
Applications à des données réelles Prédiction de la qualité de l’air
Deux familles d’algorithmes d’agrégation séquentielle Autres domaines
Travaux récents et perspectives
D’autre part, la thèse de Yannig Goude (EDF & Université
Paris-Sud), soutenue en janvier 2008, a porté sur la prévision de
consommation électrique.
Les experts sont le système de prédiction Eventail, calibré avec
différents jeux de paramètres.
Ici, à cause des variations fortes du profil de charge au cours de la
semaine et de l’année, l’approche prise est de se comparer non pas
seulement à la meilleure combinaison convexe constante, mais à la
meilleure suite de combinaisons convexes avec k changements au
plus dans les n pas de prédiction.
Nous avons continué ces travaux en 2009 avec Marie Devaine (voir
l’article de survol dans le Journal de la SFdS).
Gilles Stoltz Prédiction avec experts
28. Agrégation séquentielle de prédicteurs
Exponentielle des gradients
Applications à des données réelles
Une pondération exponentielle sans gradients
Deux familles d’algorithmes d’agrégation séquentielle
La régression ridge
Travaux récents et perspectives
1 Agrégation séquentielle de prédicteurs
Cadre mathématique
La philosophie sous-jacente à ce cadre
Résumé du cadre
2 Applications à des données réelles
Prédiction de la qualité de l’air
Autres domaines
3 Deux familles d’algorithmes d’agrégation séquentielle
Exponentielle des gradients
Une pondération exponentielle sans gradients
La régression ridge
4 Travaux récents et perspectives
Calibration des algorithmes
Agrégation lacunaire
Autres objectifs ou autres résultats
Gilles Stoltz Prédiction avec experts
29. Agrégation séquentielle de prédicteurs
Exponentielle des gradients
Applications à des données réelles
Une pondération exponentielle sans gradients
Deux familles d’algorithmes d’agrégation séquentielle
La régression ridge
Travaux récents et perspectives
Soit un ensemble convexe de prédictions X , l’espace des
observations Y et une fonction de perte convexe : X × Y → R.
L’algorithme EG choisit successivement des combinaisons convexes
p 1 , p 2 , . . . des prédictions des experts et ses pertes sont données par
N
t (p t ) = pj,t fj,t , yt
j=1
Chaque p t ne dépend que des (gradients des) pertes passées,
p 1 = 1/N, . . . , 1/N
et la j-ième composante de p t est définie, pour t 2, par une
pondération exponentielle,
t−1
exp −η s=1 s (p s )
j
pj,t =
N t−1
i=1 exp −η s=1 s (p s )
i
Gilles Stoltz Prédiction avec experts
30. Agrégation séquentielle de prédicteurs
Exponentielle des gradients
Applications à des données réelles
Une pondération exponentielle sans gradients
Deux familles d’algorithmes d’agrégation séquentielle
La régression ridge
Travaux récents et perspectives
Theorem
Le regret de EG face à toute combinaison convexe constante q est
uniformément borné (en q et en les suites y1 , y2 , . . .) selon
n N n N
ln N ηn 2
pj,t fj,t , yt − qj fj,t , yt + B
t=1 t=1
η 2
j=1 j=1
où B est une borne sur les gradients, t ∞
B pour tout t.
Deux éléments de démonstration : par convexité,
N N
pj,t fj,t , yt − qj fj,t , yt t (p t ) · pt − q
j=1 j=1
et l’analyse de ce majorant (linéaire en q) repose sur le lemme de
Hoeffding.
Gilles Stoltz Prédiction avec experts
31. Agrégation séquentielle de prédicteurs
Exponentielle des gradients
Applications à des données réelles
Une pondération exponentielle sans gradients
Deux familles d’algorithmes d’agrégation séquentielle
La régression ridge
Travaux récents et perspectives
Il faut calibrer η : le regret est plus petit que
ln N ηn 2 √
+ B = B n ln N
η 2
avec le choix (optimal pour la théorie) η = (1/B) (ln N)/n.
Mais n et/ou B peuvent être inconnus ; une version adaptative de
EG est donnée par les mêmes formules où l’on remplace simplement
le paramètre fixe η par une suite adaptative (ηt ),
1 ln N
ηt+1 =
maxs t s t
∞
La borne sur son regret est similaire.
Bibliographie : EG a été introduit par Vovk ’90, Littlestone et
Warmuth ’94, Cesa-Bianchi ’99 et des versions adaptatives ont été
étudiées par Auer, Cesa-Bianchi et Gentile ’02, Cesa-Bianchi,
Mansour et Stoltz ’07.
Gilles Stoltz Prédiction avec experts
32. Agrégation séquentielle de prédicteurs
Exponentielle des gradients
Applications à des données réelles
Une pondération exponentielle sans gradients
Deux familles d’algorithmes d’agrégation séquentielle
La régression ridge
Travaux récents et perspectives
La version fenêtrée repose sur une largeur de fenêtre T et produit
les combinaisons convexes données par
t−1
exp −η s = max{1, t−T } s (p s )
j
pj,t =
N t−1
i=1 exp −η s = max{1, t−T } s (p s )
i
La version escomptée utilise une suite décroissante (βs ) pour
former
t−1
exp −ηt s=1 1 + βt−s s (p s )
j
pj,t =
N t−1
i=1 exp −ηt s=1 1 + βt−s s (p s )
i
On peut exhiber une borne théorique sur le regret de la version
escomptée, dépendant de (βs ).
Pour la prédiction de la qualité de l’air, nous avons utilisé des
escomptes assez forts, βs = 100/s 2 .
Gilles Stoltz Prédiction avec experts
33. Agrégation séquentielle de prédicteurs
Exponentielle des gradients
Applications à des données réelles
Une pondération exponentielle sans gradients
Deux familles d’algorithmes d’agrégation séquentielle
La régression ridge
Travaux récents et perspectives
1 Agrégation séquentielle de prédicteurs
Cadre mathématique
La philosophie sous-jacente à ce cadre
Résumé du cadre
2 Applications à des données réelles
Prédiction de la qualité de l’air
Autres domaines
3 Deux familles d’algorithmes d’agrégation séquentielle
Exponentielle des gradients
Une pondération exponentielle sans gradients
La régression ridge
4 Travaux récents et perspectives
Calibration des algorithmes
Agrégation lacunaire
Autres objectifs ou autres résultats
Gilles Stoltz Prédiction avec experts
34. Agrégation séquentielle de prédicteurs
Exponentielle des gradients
Applications à des données réelles
Une pondération exponentielle sans gradients
Deux familles d’algorithmes d’agrégation séquentielle
La régression ridge
Travaux récents et perspectives
En s’inspirant de Cover ’91 et Blum et Kalai ’97, on peut définir,
pour les pertes exp-concaves, un mélange uniforme adaptatif sur le
simplexe.
S’il existe η > 0 tel que pour tous yt et fj,t ,
p → exp −η t (p)
est concave, alors agréger selon
t−1
p exp −η s=1 s (p) dµ(p)
pt =
t−1
exp −η s=1 s (p) dµ(p)
(où µ est la mesure uniforme sur le simplexe) assure que le regret
est plus petit que (N ln n)/η, ce qui est d’un ordre de grandeur
√
bien plus petit que n.
Cette hypothèse est vérifiée dans le cas de l’investissement boursier
et lorsque est la perte quadratique.
Gilles Stoltz Prédiction avec experts
35. Agrégation séquentielle de prédicteurs
Exponentielle des gradients
Applications à des données réelles
Une pondération exponentielle sans gradients
Deux familles d’algorithmes d’agrégation séquentielle
La régression ridge
Travaux récents et perspectives
1 Agrégation séquentielle de prédicteurs
Cadre mathématique
La philosophie sous-jacente à ce cadre
Résumé du cadre
2 Applications à des données réelles
Prédiction de la qualité de l’air
Autres domaines
3 Deux familles d’algorithmes d’agrégation séquentielle
Exponentielle des gradients
Une pondération exponentielle sans gradients
La régression ridge
4 Travaux récents et perspectives
Calibration des algorithmes
Agrégation lacunaire
Autres objectifs ou autres résultats
Gilles Stoltz Prédiction avec experts
36. Agrégation séquentielle de prédicteurs
Exponentielle des gradients
Applications à des données réelles
Une pondération exponentielle sans gradients
Deux familles d’algorithmes d’agrégation séquentielle
La régression ridge
Travaux récents et perspectives
La régression ridge a été introduite dans les années 70 par Hoerl et
Kennard et intensivement étudiée depuis dans un cadre
stochastique.
Vovk ’01 et Azoury et Warmuth ’01 en proposent une analyse pour
des suites individuelles.
Formellement, en perte quadratique, la régression ridge choisit des
combinaisons linéaires u t des prédictions des experts données, à
l’échéance t 2, par un critère de moindres carrés pénalisés,
2
t−1 N
2
u t ∈ argmin λ u 2 + ys − uj fj,s
u∈RN s=1 j=1
Elle peut être mise en œuvre efficacement de manière séquentielle
et assure que son regret est O(ln n).
Gilles Stoltz Prédiction avec experts
37. Agrégation séquentielle de prédicteurs
Exponentielle des gradients
Applications à des données réelles
Une pondération exponentielle sans gradients
Deux familles d’algorithmes d’agrégation séquentielle
La régression ridge
Travaux récents et perspectives
Une propriété tout à fait sympathique de la régression ridge est
qu’elle semble débiaiser automatiquement les experts.
On peut en effet la faire tourner sur un seul expert (proposant les
s
prédictions fj,t ) et faire ainsi presqu’aussi bien que le meilleur des
experts, indexés chacun par γ, proposant les prédictions γ fj,t .s
S’il y a un facteur de biais multiplicatif à-peu-près contant 1/γ, il
est donc corrigé.
Sur les données d’ozone, cela donne les erreurs quadratiques
moyennes suivantes, par exemple sur le meilleur et le moins bon
modèle :
Sans Ridge Avec Ridge Sans Ridge Avec Ridge
35.79 24.78 22.43 21.66
Gilles Stoltz Prédiction avec experts
38. Agrégation séquentielle de prédicteurs
Calibration des algorithmes
Applications à des données réelles
Agrégation lacunaire
Deux familles d’algorithmes d’agrégation séquentielle
Autres objectifs ou autres résultats
Travaux récents et perspectives
Dans ce qui suit, je vais passer rapidement en revue quelques
extensions.
Elles portent sur
– une meilleure calibration des paramètres d’apprentissage,
– la prédiction lacunaire : la sélection séquentielle d’un
sous-ensemble de modèles pour la prédiction,
– d’autres objectifs, que je n’aurai pas le temps de détailler, mais
juste de mentionner.
Gilles Stoltz Prédiction avec experts
39. Agrégation séquentielle de prédicteurs
Calibration des algorithmes
Applications à des données réelles
Agrégation lacunaire
Deux familles d’algorithmes d’agrégation séquentielle
Autres objectifs ou autres résultats
Travaux récents et perspectives
1 Agrégation séquentielle de prédicteurs
Cadre mathématique
La philosophie sous-jacente à ce cadre
Résumé du cadre
2 Applications à des données réelles
Prédiction de la qualité de l’air
Autres domaines
3 Deux familles d’algorithmes d’agrégation séquentielle
Exponentielle des gradients
Une pondération exponentielle sans gradients
La régression ridge
4 Travaux récents et perspectives
Calibration des algorithmes
Agrégation lacunaire
Autres objectifs ou autres résultats
Gilles Stoltz Prédiction avec experts
40. Agrégation séquentielle de prédicteurs
Calibration des algorithmes
Applications à des données réelles
Agrégation lacunaire
Deux familles d’algorithmes d’agrégation séquentielle
Autres objectifs ou autres résultats
Travaux récents et perspectives
J’ai fait allusion à la calibration automatique de l’exponentielle des
gradients.
Mais cette dernière est trop précautionneuse en pratique, même si
les bornes théoriques correspondantes ne sont modifiées que d’un
facteur multiplicatif et pas dans leurs ordres de grandeur.
On veut ici une méthode plus efficace.
Gilles Stoltz Prédiction avec experts
41. Agrégation séquentielle de prédicteurs
Calibration des algorithmes
Applications à des données réelles
Agrégation lacunaire
Deux familles d’algorithmes d’agrégation séquentielle
Autres objectifs ou autres résultats
Travaux récents et perspectives
On rappelle que l’exponentielle des gradients prédit, pour t 2,
avec p t défini, composante j par composante j selon
t−1
exp −η s=1 s (p s )
j
pj,t (η) =
N t−1
i=1 exp −η s=1 s (p s )
i
L’idée ici est de faire varier η en fonction de t et considérer pour ηt
le meilleur paramètre η sur les échéances 1, . . . , t − 1,
t−1
ηt ∈ argmin s p s (η) .
η>0 s=1
On utilise alors p t (ηt ) pour la prédiction au jour t.
Gilles Stoltz Prédiction avec experts
42. Agrégation séquentielle de prédicteurs
Calibration des algorithmes
Applications à des données réelles
Agrégation lacunaire
Deux familles d’algorithmes d’agrégation séquentielle
Autres objectifs ou autres résultats
Travaux récents et perspectives
On peut définir de manière similaire une calibration automatique de
Ridge. Sur les données d’ozone :
Meilleure convexe 21.45
EG avec meilleur η 21.47
EG avec (ηt ) 21.80
Meilleure linéaire 19.24
Ridge avec meilleur λ 20.77
Ridge avec (λt ) 20.81
Le “meilleur” paramètre désigne le paramètre constant η ou λ,
choisi de manière rétrospective, qui aurait donné les meilleurs
résultats en termes d’erreur quadratique.
Il n’y a pas encore de borne théorique pour cette méthode de
calibration, mais nous y travaillons !
Gilles Stoltz Prédiction avec experts
43. Agrégation séquentielle de prédicteurs
Calibration des algorithmes
Applications à des données réelles
Agrégation lacunaire
Deux familles d’algorithmes d’agrégation séquentielle
Autres objectifs ou autres résultats
Travaux récents et perspectives
1 Agrégation séquentielle de prédicteurs
Cadre mathématique
La philosophie sous-jacente à ce cadre
Résumé du cadre
2 Applications à des données réelles
Prédiction de la qualité de l’air
Autres domaines
3 Deux familles d’algorithmes d’agrégation séquentielle
Exponentielle des gradients
Une pondération exponentielle sans gradients
La régression ridge
4 Travaux récents et perspectives
Calibration des algorithmes
Agrégation lacunaire
Autres objectifs ou autres résultats
Gilles Stoltz Prédiction avec experts
44. Agrégation séquentielle de prédicteurs
Calibration des algorithmes
Applications à des données réelles
Agrégation lacunaire
Deux familles d’algorithmes d’agrégation séquentielle
Autres objectifs ou autres résultats
Travaux récents et perspectives
Pour obtenir des combinaisons linéaires ou convexes n’utilisant
qu’un nombre restreint de modèles, on peut seuiller les
combinaisons proposées (pour EG) ou changer le type de pénalité
(pour Ridge).
La méthode LASSO (Tibshirani, ’96) choisit des combinaisons
linéaires u t des prédictions des experts données, à l’échéance t 2,
par un critère de moindres carrés pénalisés en norme 1 ,
2
t−1 N
u t = argmin λ u 1 + ys − uj fj,s
u∈RN s=1 j=1
Les combinaisons qui en résultent ont en général de nombreux
coefficients nuls (et sont dites lacunaires).
Gilles Stoltz Prédiction avec experts
45. Agrégation séquentielle de prédicteurs
Calibration des algorithmes
Applications à des données réelles
Agrégation lacunaire
Deux familles d’algorithmes d’agrégation séquentielle
Autres objectifs ou autres résultats
Travaux récents et perspectives
Une version escomptée de LASSO conduit ainsi à une très forte
sélection parmi les modèles (une vingtaine est éliminée sur les
données d’ozone).
Ridge esc. LASSO esc. M. linéaire
19.45 19.31 19.24
10
5
0
Indices of zero weights
40
Weight
5 30
10
15
20
25
0 20 40 60 80
Step
100 120
Gilles Stoltz Prédiction avec experts
20
10
0
0 20 40 60
Step
80 100 120
46. Agrégation séquentielle de prédicteurs
Calibration des algorithmes
Applications à des données réelles
Agrégation lacunaire
Deux familles d’algorithmes d’agrégation séquentielle
Autres objectifs ou autres résultats
Travaux récents et perspectives
1 Agrégation séquentielle de prédicteurs
Cadre mathématique
La philosophie sous-jacente à ce cadre
Résumé du cadre
2 Applications à des données réelles
Prédiction de la qualité de l’air
Autres domaines
3 Deux familles d’algorithmes d’agrégation séquentielle
Exponentielle des gradients
Une pondération exponentielle sans gradients
La régression ridge
4 Travaux récents et perspectives
Calibration des algorithmes
Agrégation lacunaire
Autres objectifs ou autres résultats
Gilles Stoltz Prédiction avec experts
47. Agrégation séquentielle de prédicteurs
Calibration des algorithmes
Applications à des données réelles
Agrégation lacunaire
Deux familles d’algorithmes d’agrégation séquentielle
Autres objectifs ou autres résultats
Travaux récents et perspectives
D’autres résultats ont été obtenus :
– Sur un ensemble de 100 modèles et pendant un an, le gain de
performance relative des méthodes présentées par rapport à la
meilleure combinaison convexe ou linéaire est encore meilleur !
– La prédiction horaire, en faisant tourner 24 méthodes
d’agrégation en parallèle est possible (et améliore également la
performance relative).
– Pour la prédiction des événements extrêmes, comme le
dépassement de seuils d’alerte par exemple, on peut voir que
Ridge est plus performante que le meilleur modèle.
Malheureusement, il faut savoir s’arrêter...
Gilles Stoltz Prédiction avec experts
48. Agrégation séquentielle de prédicteurs
Calibration des algorithmes
Applications à des données réelles
Agrégation lacunaire
Deux familles d’algorithmes d’agrégation séquentielle
Autres objectifs ou autres résultats
Travaux récents et perspectives
Conclusion :
La prédiction de suites individuelles est un cadre méta-statistique
où il s’agit d’agréger séquentiellement les prédictions de méthodes
fondamentales, par exemple, celles de différentes méthodes
statistiques.
J’espère avoir réussi aujourd’hui ma mission d’évangélisateur en
vous montrant le potentiel et la flexibilité de ces techniques
d’agrégation séquentielle...
Et si jamais vous avez d’autres idées de cadre applicatif...
Gilles Stoltz Prédiction avec experts