20210318 seminaire ia_mobilite_ratp_finale

Séminaire « Intelligence Artificielle et Mobilité pour la Transition Ecologique »
Apprentissage supervisé pour la prévision en temps
réel de la charge à bord des rames
Jérémy ROOS – RATP
18 mars 2021

2
Pôle data de la RATP
 Développement depuis 2016 d’un pôle data rattaché à la DSI :
 Valorisation des données produites par la RATP
 Création de services basés sur ces données pour un usage industriel
 Plus de 30 collaborateurs internes et externes en 2021 :
 Data scientists
 Data ingénieurs/architectes
 Développeurs
 Chefs de projet

Rôle au sein du pôle data
 Lead data scientist spécialisé dans les problématiques
d’affluence voyageurs :
 Pilotage des activités de data science liées au développement de
la plateforme « Back Affluence »
 Encadrement d’un doctorant CIFRE avec l’Université Gustave
Eiffel (GRETTIA) sur la prévision des flux en situations atypiques
 Réalisation de missions d’expertises diverses : études, POCs,
cadrages de projets, conseils méthodologiques, formations…
3

4
Plateforme « Back Affluence »
 Développement d’une plateforme data fournissant des
informations d’affluence voyageurs :
 Agrégation de sources diverses : validations des titres de transport,
comptages de charge, crowdsourcing…
 Restitution à différents clients fronts : information voyageurs,
exploitants…
 Équipe technique :
 3 data scientists + 1 lead data scientist
 1 développeur + 1 technical lead

Projet « Confort Voyageur »
 Enrichissement de l’information voyageurs en associant aux temps
d’attente la charge prédite au départ des trains
 Projet initié suite à une étude réalisée en 2018
par le CSA :
 Pour 80 % des voyageurs, la fourniture d’informations
d’affluence facilite les déplacements, montre que la
RATP se soucie de leur confort et donne une image
plus moderne de celle-ci.
 Démarrage en février 2020 dans le cadre du Back
Affluence
5

6
Sources de données
Source de données Périmètre Disponibilité
Délai de mise à
jour
Validations télébillettiques Réseau RATP
Temps réel avec
latence de 10 à 20
minutes
10 minutes
Temps d’attente des trains Réseau RATP Temps réel 10 secondes
Comptages de charge par
pesée
Lignes 2, 5 et
9
J + 1 1 jour

7
Données de validations
statusType station equipment validationDate receiptCode type controlLine status
OK 0030050261301 209 2020-05-27T11:15:07 B 51 2 0
OK 0030050261301 207 2020-05-27T11:15:44 B 51 2 0
OK 0030030070700 102 2020-05-27T11:15:51 B 31 1 0
OK 0030030240900 102 2020-05-27T11:15:55 A 31 1 0
OK 0030030040600 102 2020-05-27T11:15:55 A 31 1 0
OK 0030030050900 103 2020-05-27T11:15:55 A 31 1 0
OK 0030030040600 101 2020-05-27T11:16:15 A 31 1 0
OK 0030050261301 205 2020-05-27T11:16:22 B 51 2 0
OK 0030030060900 104 2020-05-27T11:16:22 D 31 1 0
OK 0030050261301 431 2020-05-27T11:16:55 A 51 4 0

8
Données de temps d’attente (simplifiées)
"stopMonitoringDelivery": {
"recordedAtTime": "2020-07-17T09:28:15.974+02:00",
"monitoringStopPoints": [
{
"stopPointRef": "PA:RATP:50026568",
"directionRef": "DIR:IDFM:C01379:R",
"monitoredStopVisits": [
{
"destinationRef": "PA:RATP:50026033",
"order": 1,
"vehicleJourneyRef": "20200717.78",
"expectedDepartureTime": "2020-07-
17T09:30:15.974+02:00"
},
{
"order": 2,
17T09:32:15.974+02:00"
},
{
"order": 3,
17T09:34:15.974+02:00"
},
{
"order": 4,
17T09:37:15.974+02:00"
}
]
}, ...
]
}

9
Données de comptages de charge
Date Heure Station Voie N° Train Partant
OK 08:45:51 Chau 1 3154 129.98
OK 08:45:52 Muet 1 3127 120.66
OK 08:45:54 Robe 1 3158 62.51
OK 08:45:58 Volt 1 3129 101.69
OK 08:46:00 Froo 1 3134 105.85
OK 08:46:01 Pomp 1 3099 136.37
OK 08:46:05 Rane 1 3098 160.14
OK 08:46:13 Alma 1 3147 151.03
OK 08:46:20 Bnou 1 3160 36.45
OK 08:46:24 Iena 1 3143 157.27

Représentation spatiale des données
10

Focus sur les APIs de prédiction
12

Démarche expérimentale
13
 Dans le cadre de la prédiction des validations et de la
charge :
 Quel modèle ?
 Quelles variables explicatives ?
 Quelle profondeur d’historique pour l’apprentissage ?
 Période d’étude de 11 semaines : 18 mai au 2 août 2020

14
Démarche expérimentale


Validations : démarche de prédiction
15
 Prédiction du nombre de validations de chaque espace
contrôlé par tranche de 10 minutes, jusqu’à un horizon de
90 minutes

Validations : modèle
16

Date RL MMG RF GB
27/07/202
0
15 % 8 % 7 % 11 %
28/07/202
0
15 % 7 % 6 % 10 %
29/07/202
0
14 % 6 % 5 % 9 %
30/07/202
0
12 % 6 % 5 % 8 %
31/07/202
0
15 % 9 % 7 % 10 %
WMAPEs sur l’échantillon de test pour l’espace
contrôlé Nation (métro)

17
Validations : variables explicatives
 Variable explicative Importance
576200525
344541808
279548317
160916100
85661249
81176484
54670671
Numéro de la tranche prédite 38536635
18107202
7454237
Importance des variables explicatives pour l’espace contrôlé Nation
(métro)

18
Validations : profondeur d’apprentissage
 Test du modèle final pour des
profondeurs d’apprentissage de
1 à 10 semaines
 Profondeur optimale : 4
semaines
WMAPE moyenne sur l’échantillon de test en fonction de la profondeur d’apprentissage
pour l’espace contrôlé Nation (métro)

Charge : démarche de prédiction
19
 Association de prédictions de charge aux temps d’attente
les plus récents émis pour chaque point d’arrêt

Charge : modèle et variables explicatives (lignes 2,
5 et 9)
20

Nombre
d’ECs
amont
RL MMG RF GB
0 39 % 24 % 19 % 32 %
1 36 % 20 % 16 % 26 %
2 33 % 16 % 16 % 24 %
5 34 % 14 % 11 % 23 %
10 33 % 10 % 7 % 23 %
Tous 32 % 10 % 6 % 23 %
WMAPEs sur l’échantillon de test pour le point d’arrêt Saint-
Augustin (ligne 9 vers Pont de Sèvres)

21
Charge : profondeur d’apprentissage (lignes 2, 5 et
9)
 Test du modèle final pour des
profondeurs d’apprentissage de
1 à 10 semaines
 Profondeur optimale : 4
semaines
WMAPE moyenne sur l’échantillon de test en fonction de la profondeur d’apprentissage pour les
points d’arrêt Nation, République, Saint-Augustin et Franklin D. Roosvelt (ligne 9 vers Pont de
Sèvres)

22
Prochaines étapes
 Développement des modèles de prédiction de charge des
lignes sans pesée
 Automatisation de l’apprentissage des modèles et du suivi
des indicateurs de performance
 Construction de modèles long terme associant des
prédictions de charge à l’offre théorique (exploités par la
recherche d’itinéraire)

23
Limites et perspectives
 Absence de données de charge en temps réel :
 Prospection de nouvelles sources de données
 Manque d’autonomie des data scientists lors des phases de
déploiement :
 Vers la mise en place d’un pipeline MLOps
 Comment articuler la temporalité des projets industriels
avec celle de la recherche ?

20210318 seminaire ia_mobilite_ratp_finale

Recommandé

Recommandé

Contenu connexe

Similaire à 20210318 seminaire ia_mobilite_ratp_finale

Similaire à 20210318 seminaire ia_mobilite_ratp_finale (20)

Plus de Mahdi Zarg Ayouna

Plus de Mahdi Zarg Ayouna (8)

20210318 seminaire ia_mobilite_ratp_finale