1. Séminaire « Intelligence Artificielle et Mobilité pour la Transition Ecologique »
Apprentissage supervisé pour la prévision en temps
réel de la charge à bord des rames
Jérémy ROOS – RATP
18 mars 2021
2. 2
Pôle data de la RATP
Développement depuis 2016 d’un pôle data rattaché à la DSI :
Valorisation des données produites par la RATP
Création de services basés sur ces données pour un usage industriel
Plus de 30 collaborateurs internes et externes en 2021 :
Data scientists
Data ingénieurs/architectes
Développeurs
Chefs de projet
3. Rôle au sein du pôle data
Lead data scientist spécialisé dans les problématiques
d’affluence voyageurs :
Pilotage des activités de data science liées au développement de
la plateforme « Back Affluence »
Encadrement d’un doctorant CIFRE avec l’Université Gustave
Eiffel (GRETTIA) sur la prévision des flux en situations atypiques
Réalisation de missions d’expertises diverses : études, POCs,
cadrages de projets, conseils méthodologiques, formations…
3
4. 4
Plateforme « Back Affluence »
Développement d’une plateforme data fournissant des
informations d’affluence voyageurs :
Agrégation de sources diverses : validations des titres de transport,
comptages de charge, crowdsourcing…
Restitution à différents clients fronts : information voyageurs,
exploitants…
Équipe technique :
3 data scientists + 1 lead data scientist
1 développeur + 1 technical lead
5. Projet « Confort Voyageur »
Enrichissement de l’information voyageurs en associant aux temps
d’attente la charge prédite au départ des trains
Projet initié suite à une étude réalisée en 2018
par le CSA :
Pour 80 % des voyageurs, la fourniture d’informations
d’affluence facilite les déplacements, montre que la
RATP se soucie de leur confort et donne une image
plus moderne de celle-ci.
Démarrage en février 2020 dans le cadre du Back
Affluence
5
6. 6
Sources de données
Source de données Périmètre Disponibilité
Délai de mise à
jour
Validations télébillettiques Réseau RATP
Temps réel avec
latence de 10 à 20
minutes
10 minutes
Temps d’attente des trains Réseau RATP Temps réel 10 secondes
Comptages de charge par
pesée
Lignes 2, 5 et
9
J + 1 1 jour
7. 7
Données de validations
statusType station equipment validationDate receiptCode type controlLine status
OK 0030050261301 209 2020-05-27T11:15:07 B 51 2 0
OK 0030050261301 207 2020-05-27T11:15:44 B 51 2 0
OK 0030030070700 102 2020-05-27T11:15:51 B 31 1 0
OK 0030030240900 102 2020-05-27T11:15:55 A 31 1 0
OK 0030030040600 102 2020-05-27T11:15:55 A 31 1 0
OK 0030030050900 103 2020-05-27T11:15:55 A 31 1 0
OK 0030030040600 101 2020-05-27T11:16:15 A 31 1 0
OK 0030050261301 205 2020-05-27T11:16:22 B 51 2 0
OK 0030030060900 104 2020-05-27T11:16:22 D 31 1 0
OK 0030050261301 431 2020-05-27T11:16:55 A 51 4 0
9. 9
Données de comptages de charge
Date Heure Station Voie N° Train Partant
OK 08:45:51 Chau 1 3154 129.98
OK 08:45:52 Muet 1 3127 120.66
OK 08:45:54 Robe 1 3158 62.51
OK 08:45:58 Volt 1 3129 101.69
OK 08:46:00 Froo 1 3134 105.85
OK 08:46:01 Pomp 1 3099 136.37
OK 08:46:05 Rane 1 3098 160.14
OK 08:46:13 Alma 1 3147 151.03
OK 08:46:20 Bnou 1 3160 36.45
OK 08:46:24 Iena 1 3143 157.27
13. Démarche expérimentale
13
Dans le cadre de la prédiction des validations et de la
charge :
Quel modèle ?
Quelles variables explicatives ?
Quelle profondeur d’historique pour l’apprentissage ?
Période d’étude de 11 semaines : 18 mai au 2 août 2020
15. Validations : démarche de prédiction
15
Prédiction du nombre de validations de chaque espace
contrôlé par tranche de 10 minutes, jusqu’à un horizon de
90 minutes
17. 17
Validations : variables explicatives
Variable explicative Importance
576200525
344541808
279548317
160916100
85661249
81176484
54670671
Numéro de la tranche prédite 38536635
18107202
7454237
Importance des variables explicatives pour l’espace contrôlé Nation
(métro)
18. 18
Validations : profondeur d’apprentissage
Test du modèle final pour des
profondeurs d’apprentissage de
1 à 10 semaines
Profondeur optimale : 4
semaines
WMAPE moyenne sur l’échantillon de test en fonction de la profondeur d’apprentissage
pour l’espace contrôlé Nation (métro)
19. Charge : démarche de prédiction
19
Association de prédictions de charge aux temps d’attente
les plus récents émis pour chaque point d’arrêt
20. Charge : modèle et variables explicatives (lignes 2,
5 et 9)
20
Nombre
d’ECs
amont
RL MMG RF GB
0 39 % 24 % 19 % 32 %
1 36 % 20 % 16 % 26 %
2 33 % 16 % 16 % 24 %
5 34 % 14 % 11 % 23 %
10 33 % 10 % 7 % 23 %
Tous 32 % 10 % 6 % 23 %
WMAPEs sur l’échantillon de test pour le point d’arrêt Saint-
Augustin (ligne 9 vers Pont de Sèvres)
21. 21
Charge : profondeur d’apprentissage (lignes 2, 5 et
9)
Test du modèle final pour des
profondeurs d’apprentissage de
1 à 10 semaines
Profondeur optimale : 4
semaines
WMAPE moyenne sur l’échantillon de test en fonction de la profondeur d’apprentissage pour les
points d’arrêt Nation, République, Saint-Augustin et Franklin D. Roosvelt (ligne 9 vers Pont de
Sèvres)
22. 22
Prochaines étapes
Développement des modèles de prédiction de charge des
lignes sans pesée
Automatisation de l’apprentissage des modèles et du suivi
des indicateurs de performance
Construction de modèles long terme associant des
prédictions de charge à l’offre théorique (exploités par la
recherche d’itinéraire)
23. 23
Limites et perspectives
Absence de données de charge en temps réel :
Prospection de nouvelles sources de données
Manque d’autonomie des data scientists lors des phases de
déploiement :
Vers la mise en place d’un pipeline MLOps
Comment articuler la temporalité des projets industriels
avec celle de la recherche ?