Présentation du projet "Réaliser un projet libre à caractère social" du parcours Data Analyst. Analyse de l'accidentologie Française et prédiction de l'évolution et de la gravité des accidents.
2. OC 2020-2021
SOMMAIRE
• Contexte du projet
o Thématiques
o Problématiques
o Réflexions préliminaires.
• Présentation du rapport
o Choix de plan
o Rédaction
o Représentations visuelles.
Focus
2
Cette présentation portera principalement sur la forme du rapport, les
choix de conception et d’illustration.
4. OC 2020-2021
Le constat
Les accidents routiers en baisse depuis 1970
mais qui tendent à se stabiliser depuis 2014.
4
Un nombre d’accidents relativement stable depuis 2014
5. OC 2020-2021
Technologies et infrastructures en constante amélioration
Sécurité active
ABS, ESP, AFU,
avertisseur de
changement de file
(AFIL), feux adaptatifs,
radars anticollisions …
Sécurité passive
Ceintures de sécurité,
habitacle déformable,
airbags, airbag piéton, E-
call (appel d’urgence)
Réseau routier
Multiplication des aires
de repos, amélioration
des enrobés, glissières
de sécurité, panneaux
pédagogiques …
Formation
Amélioration de la
formation des
conducteurs, stages de
perfectionnement, BSR,
permis moto petites
cylindrées …
Législation
Radars fixes et mobiles,
interdiction du téléphone,
limitation à 80 km/h …
5
6. OC 2020-2021
La limite humaine est-elle aujourd’hui atteinte ?
Un bon nombre de grandes entreprises des secteurs
automobile et de travaux publics y investissent.
Véhicules autonomes, routes intelligentes, toutes ces
avancées sont basées sur des algorithmes d’Intelligence
Artificielle exploitants des quantités astronomiques de
données.
La législation quant à elle, n’est pas prête à accueillir ces
évolutions et il faudra peut-être une décennie pour y
parvenir.
Alors en attendant, pouvons-nous exploiter différemment la
Data pour faire baisser le nombre d’accidents ?
6
Ouverture vers l’exploitation de la Data
7. OC 2020-2021
○ Améliorer l’exploitation des données ouvertes
(Open Data), en compilant et en décrivant un
grand nombre de variables de ces accidents
passés.
○ Travailler sur une période relativement
récente (2005 à 2018) pour coller aux réalités
actuelles.
○ Analyser les corrélations mathématiques
entre variables.
○ Mettre en place une classification des
accidents grâce à des algorithmes de
Machine Learning.
○ Prédire l’évolution des accidents dans le futur
grâce à l’exploitation des séries temporelles.
○ Réaliser des prévisions de gravité des
accidents en fonction des variables connues
par le conducteur à l’instant 𝑡.
Objectif du rapport
Un projet social pour améliorer la prédiction des
accidents de la route et faire baisser leur gravité.
7
9. OC 2020-2021
Contraintes fixées
Ce rapport a été souhaité à la fois instructif, par
sa partie technique, et expliqué simplement.
Accessible
Doit être comprit par
tout le monde.
Instructif
Doit aborder des
points nouveaux.
Expliqué
La partie technique
doit être expliquée
simplement.
Graphique
Doit être visuellement
attractif et agréable à
la lecture.
9
10. OC 2020-2021
Charte graphique des rapports
La charte graphique de ces rapport et
dashboard prend inspiration sur le logo de la
sécurité routière ainsi que sur leurs
campagnes de prévention.
Les couleurs jaune, rouge et bleu ainsi que
les grandes images sombres.
10
11. OC 2020-2021
Plan d’analyses
Le rapport est divisé en 5 grandes parties
DONNÉES
• Les principales
sources
• Description
• Nettoyage et
corrections
• Création de la
base de
données
KPI
• Tendances
principales
• Caractéristiques
principales
• Indicateurs liés
aux lieux
• KPI sur les
véhicules
• Typologie des
usagers
CORRÉLATIONS
• Principe
• Feature
engineering
• Analyse de la
matrice des
corrélations
11
CLASSIFICATION
• Théorie sur les
algorithmes de
classification
• Analyse des
clusters
PRÉDICTIONS
• Prédiction de
l’évolution des
accidents à date
d’horizon
• Prédiction de la
gravité des
accidents
14. OC 2020-2021
Réflexions préliminaires - 1
Compiler des données éparpillées pour mieux les analyser
Rassembler
Regrouper plusieurs
sources de données
Open Data dans une
seule et unique base
MySQL
Créer les relations
Qui dit MySQL dit base
de données relationnelle.
Il faut donc créer ses
relations entre les tables
Nettoyer
Supprimer les valeurs
nulles et traiter les
valeurs manquantes
pour améliorer notre
base de données
14
15. OC 2020-2021
FOCUS sur les données utilisées
Fichier des accidents corporels
15
En France, en 2004, le comité interministériel de la sécurité routière a mis en place le fichier des accidents corporels dans le
but d’harmoniser les définitions européennes et de faciliter les comparaisons internationales.
L’ensemble de cette base est exploité dans cette analyse afin de construire des indicateurs généraux portants sur les
accidents, les lieux, les véhicules et les usagers.
Les données portent sur les années 2005 à 2018 et nous permettent d’étudier :
16. OC 2020-2021
FOCUS sur les données utilisées
Dataset acc_caracteristiques
16
Les fichiers CSV des caractéristiques des accidents de chaque année ont été regroupés
dans un unique dataset.
Ce dernier a été enrichi avec les données de l’INSEE concernant les zones
administratives, départements, régions, communes et coordonnées géographiques.
Au final sur ce jeu de données des caractéristiques, 23 variables sont exploitables.
17. OC 2020-2021
FOCUS sur les données utilisées
Point d’attention sur la géolocalisation
17
Les données de géolocalisation occupent une place
importante dans notre analyse et les algorithmes de
Machine Learning utilisés.
Cependant, plus de 500 000 coordonnées étaient
manquantes.
Il a donc été nécessaire de créer une base d’adresses
complètes pour du reverse geocoding en utilisant Geopy et
Geopandas puis de coupler ce processus avec un second
géocodage via le portail adresse.data.gouv.fr
18. OC 2020-2021
Graphiques pour les analyses géo localisées
18
Carte de chaleur (HeatMap) pour la concentration d’accidents
Cette représentation graphique de
données statistiques permet de faire
correspondre l’intensité du nombre
d’accidents à un nuancier :
• De bleu pour les zones comptant le
moins d’accidents,
• à rouge pour les zones les plus
accidentogènes.
Cela permet d’avoir rapidement et
facilement un aperçu des lieux
concentrant le plus d’accidents.
19. OC 2020-2021
FOCUS sur les données utilisées
Dataset acc_lieux
19
Les fichiers CSV des lieux des accidents de chaque année ont été regroupés dans un
unique dataset.
Les données catégorielles ont été mappées pour afficher des valeurs textuelles pour une
meilleure visibilité dans les tableaux de bord.
Ce jeu de données des lieux compte 18 variables exploitables.
20. OC 2020-2021
FOCUS sur les données utilisées
Dataset acc_vehicules
20
Les fichiers CSV des véhicules des accidents de chaque année ont été regroupés dans un
unique dataset.
Les données catégorielles ont été mappées pour afficher des valeurs textuelles pour une
meilleure visibilité dans les tableaux de bord.
Ce jeu de données des véhicules compte 9 variables.
21. OC 2020-2021
FOCUS sur les données utilisées
Dataset acc_usagers
21
Les fichiers CSV des véhicules des usagers de chaque année ont été regroupés dans un
unique dataset.
Ces données sont liées aux caractéristiques mais également aux véhicules.
Ce jeu de données des véhicules compte 11 variables.
22. OC 2020-2021
FOCUS sur les données utilisées
Synthèse
22
L’ensemble de ces 61 variables sont
utilisées dans les analyses et dans les
modèles de Machine Learning.
Tous les datasets ont été centralisés
dans une base de données MySQL et
les relations ont été crées pour
alimenter les rapports PowerBI et les
algorithmes Python.
23. OC 2020-2021
Graphique pour les analyses descriptives univariées
23
Diagrammes à secteurs (Pie Chart)
Permet de comparer la part du nombre d’accidents de différentes modalités.
Ce type de graphique s’applique à des variables qualitatives et concerne dans le rapport les
variables :
agglomération, plan, situation, catégorie véhicules, sexe, répartition des accidents par
clusters.
Diagrammes à barres (Bar Chart)
Permet de comparer le nombre d’accidents de différentes catégories.
Là également utilisé pour des variables qualitatives du rapport afin de
présenter de grands écarts en nombre d’accidents :
Villes les plus accidentogènes, conditions atmosphériques, type de
collision.
24. OC 2020-2021 24
Diagrammes à barres empilés
Sur le même principe que les Bar Charts
simples, ce graphique permet de représenter
cette fois 2 variables qualitatives empilées.
Utilisé dans le rapport pour les variables :
• Type de route / Sens de circulation,
• Catégorie d’âge / Gravité,
• Type usager / Gravité
• Caractérisation des clusters
TreeMaps (hiérarchique ou non)
La taille des réctangles représente le nombre
d’accidents de chaque catégories. 2 variables
peuvent également être imbriquées.
Utilisé dans le rapport pour les variables :
• Luminosité / Condition climatiques,
• Types de trajets,
26. OC 2020-2021
Réflexions préliminaires - 2
Réaliser des prédictions pour agir en amont des accidents
Modéliser et entrainer des algorithmes de
Machine Learning pour anticiper :
• L’évolution des accidents dans les
prochaines années,
• La gravité potentielle d’un accident à un
point précis et un instant t en fonction
des caractéristiques connues (âge du
conducteur, type de véhicule, type de
route, conditions climatiques …)
Intégrer cette part d’IA à des outils
tels que le GPS pourrait permettre par
exemple de prévenir en temps réel du
potentiel de gravité d’un accident sur
la portion de route empruntée.
26
27. OC 2020-2021
Préparation : Les corrélations entre variables
Dataset étendu regroupant les caractéristiques, les lieux, les usagers et véhicules
27
Dans un premier temps, afin de construire les modélisations, une étude
des corrélations linéaires a été réalisée sur l’ensemble des variables.
Variables qui ont par ailleurs été encodées (One Hot) pour faciliter les
calculs mathématiques.
Un zoom a ensuite été réalisé sur les corrélations de Pearson
supérieur à 0,5 pour trouver les paires les plus corrélées.
En effet, des corrélations linéaires trop fortes pourraient par exemple
avoir un impact négatif sur les modèles.
Ces résultats ont également été projetés dans l’application Power BI.
28. OC 2020-2021
Graphique pour les analyses descriptives multivariées
28
Heatmap des corrélations linéaires entre variables
Basé sur des scripts développés avec le
langage R, ce graphique permet de
représenter les coefficients de
corrélations linéaires (Pearson) des
variables 2 à 2.
L’échelle colorimétrique s’étend de -1
pour les variables très anti-corrélées à 1
pour les variables très corrélées.
Ce graphique est couplé à un tableau
ordonné triable pour plus de clarté.
29. OC 2020-2021
Préparation : Classification non supervisée
Dataset étendu regroupant les caractéristiques, les lieux, les usagers et véhicules
29
Une classification
automatique non
supervisée via l’algorithme
des K-means a ensuite
été réalisé pour vérifier le
clustering sur les données.
On voit notamment ici que
le cluster 3 regroupe les
accidents ayant un nombre
important d’usagers et de
véhicules impliqués.
Chaque cluster a donc
ses propres
caractéristiques.
30. OC 2020-2021
Prédiction de séries temporelles
30
Toutes ces manipulations
préliminaires ont permis de
comprendre et de
structurer nos données.
Des prédictions du nombre
d’accidents ont ensuite été
réalisées grâce à des
modèles Prophet,
XGBoost ou encore
SARIMA et comparées
aux données réelles des
accidents 2019.
Les modèles ont été entrainés, testé et améliorés grâce au tuning des hyper-paramètres afin de définir les 2
meilleurs modélisation à projeter dans Power BI.
Ces modèles sélectionnés ont des erreurs MAPE de l’ordre de 11,4 %
31. OC 2020-2021
Graphique pour les analyses de séries temporelles
31
Graphique en courbes (Line Plot)
Ce type de graphique permet de suivre le nombre d’accidents au fil du temps.
Utilisé sur des données quantitatives continues, ils sont employés dans le rapport pour illustrer :
• L’évolution des accidents de 2005 à 2018,
• L’évolution des accidents par catégorie de véhicules,
• Les prédictions d’accidents à date d’horizon.
32. OC 2020-2021
Prédiction de la gravité des accidents
A l’instant 𝒕 et à un point géographique défini, en fonction des variables connues du conducteur
32
Grâce à toutes les
variables connues AVANT
l’accident par le
conducteur, et en incluant
des variables temporelles
et géographiques précises,
plusieurs modélisation ont
été effectuées.
• RandomForest,
• SGDClassifier,
• LogisticRegression.
Le but étant de définir
si à l’instant 𝒕, sur ce
point géographique, le
conducteur risque
d’être gravement
blessé ou tué.
Les meilleurs modèles ont une précision de 78% pour les classifiers et une métrique MAPE de 1,83% pour
le RandomForest Regressor.
Pour améliorer encore la précision, un modèle Deep Learning serait à envisager.
33. OC 2020-2021
En conclusion
Ouverture … et fermeture.
33
Ce rapport sur l’accidentologie Française et
l’ouverture possible à l’exploitation plus
poussée de la data a été pensé pour être
compréhensible par tous.
Son but est d’ouvrir une réflexion sur la place
de l’IA et du traitement des Big Data dans le
domaine de la prévention des accidents.
Il vient conclure une formation
OpenClassrooms riche sur le métier de Data
Analyst.
Tous ces projets m’ont donné envie de
poursuivre l’aventure vers une formation
d’Ingénieur Machine Learning et je remercie
sincèrement les mentors qui m’ont
accompagné et guidé.