SlideShare une entreprise Scribd logo
1  sur  34
PROJET8
Présentationdu
rapportdeStage
Projet libre à caractère social
portant sur l’accidentologie routière
en France.
OC 2020-2021
SOMMAIRE
• Contexte du projet
o Thématiques
o Problématiques
o Réflexions préliminaires.
• Présentation du rapport
o Choix de plan
o Rédaction
o Représentations visuelles.
Focus
2
Cette présentation portera principalement sur la forme du rapport, les
choix de conception et d’illustration.
OC 2020-2021
Contextedel’analyse
Une approche orientée datas
pour sauver des vies
sur nos routes Françaises.
3
OC 2020-2021
Le constat
Les accidents routiers en baisse depuis 1970
mais qui tendent à se stabiliser depuis 2014.
4
Un nombre d’accidents relativement stable depuis 2014
OC 2020-2021
Technologies et infrastructures en constante amélioration
Sécurité active
ABS, ESP, AFU,
avertisseur de
changement de file
(AFIL), feux adaptatifs,
radars anticollisions …
Sécurité passive
Ceintures de sécurité,
habitacle déformable,
airbags, airbag piéton, E-
call (appel d’urgence)
Réseau routier
Multiplication des aires
de repos, amélioration
des enrobés, glissières
de sécurité, panneaux
pédagogiques …
Formation
Amélioration de la
formation des
conducteurs, stages de
perfectionnement, BSR,
permis moto petites
cylindrées …
Législation
Radars fixes et mobiles,
interdiction du téléphone,
limitation à 80 km/h …
5
OC 2020-2021
La limite humaine est-elle aujourd’hui atteinte ?
Un bon nombre de grandes entreprises des secteurs
automobile et de travaux publics y investissent.
Véhicules autonomes, routes intelligentes, toutes ces
avancées sont basées sur des algorithmes d’Intelligence
Artificielle exploitants des quantités astronomiques de
données.
La législation quant à elle, n’est pas prête à accueillir ces
évolutions et il faudra peut-être une décennie pour y
parvenir.
Alors en attendant, pouvons-nous exploiter différemment la
Data pour faire baisser le nombre d’accidents ?
6
Ouverture vers l’exploitation de la Data
OC 2020-2021
○ Améliorer l’exploitation des données ouvertes
(Open Data), en compilant et en décrivant un
grand nombre de variables de ces accidents
passés.
○ Travailler sur une période relativement
récente (2005 à 2018) pour coller aux réalités
actuelles.
○ Analyser les corrélations mathématiques
entre variables.
○ Mettre en place une classification des
accidents grâce à des algorithmes de
Machine Learning.
○ Prédire l’évolution des accidents dans le futur
grâce à l’exploitation des séries temporelles.
○ Réaliser des prévisions de gravité des
accidents en fonction des variables connues
par le conducteur à l’instant 𝑡.
Objectif du rapport
Un projet social pour améliorer la prédiction des
accidents de la route et faire baisser leur gravité.
7
OC 2020-2021
Présentationdu rapport
Accessible, simple et graphique
8
OC 2020-2021
Contraintes fixées
Ce rapport a été souhaité à la fois instructif, par
sa partie technique, et expliqué simplement.
Accessible
Doit être comprit par
tout le monde.
Instructif
Doit aborder des
points nouveaux.
Expliqué
La partie technique
doit être expliquée
simplement.
Graphique
Doit être visuellement
attractif et agréable à
la lecture.
9
OC 2020-2021
Charte graphique des rapports
La charte graphique de ces rapport et
dashboard prend inspiration sur le logo de la
sécurité routière ainsi que sur leurs
campagnes de prévention.
Les couleurs jaune, rouge et bleu ainsi que
les grandes images sombres.
10
OC 2020-2021
Plan d’analyses
Le rapport est divisé en 5 grandes parties
DONNÉES
• Les principales
sources
• Description
• Nettoyage et
corrections
• Création de la
base de
données
KPI
• Tendances
principales
• Caractéristiques
principales
• Indicateurs liés
aux lieux
• KPI sur les
véhicules
• Typologie des
usagers
CORRÉLATIONS
• Principe
• Feature
engineering
• Analyse de la
matrice des
corrélations
11
CLASSIFICATION
• Théorie sur les
algorithmes de
classification
• Analyse des
clusters
PRÉDICTIONS
• Prédiction de
l’évolution des
accidents à date
d’horizon
• Prédiction de la
gravité des
accidents
OC 2020-2021
Plan d’analyses
Application Microsoft
PowerBI©
Suit le même plan que le rapport.
○ Projection graphique simple des indicateurs
clés.
○ Interactivité augmentée avec mise à jour des
rapports en fonction des filtres de page.
○ Possibilité de collaboration et de partage.
12
OC 2020-2021
Réflexionpréliminairesurles
donnéesdesaccidents
Compiler, traiter, améliorer
13
OC 2020-2021
Réflexions préliminaires - 1
Compiler des données éparpillées pour mieux les analyser
Rassembler
Regrouper plusieurs
sources de données
Open Data dans une
seule et unique base
MySQL
Créer les relations
Qui dit MySQL dit base
de données relationnelle.
Il faut donc créer ses
relations entre les tables
Nettoyer
Supprimer les valeurs
nulles et traiter les
valeurs manquantes
pour améliorer notre
base de données
14
OC 2020-2021
FOCUS sur les données utilisées
Fichier des accidents corporels
15
En France, en 2004, le comité interministériel de la sécurité routière a mis en place le fichier des accidents corporels dans le
but d’harmoniser les définitions européennes et de faciliter les comparaisons internationales.
L’ensemble de cette base est exploité dans cette analyse afin de construire des indicateurs généraux portants sur les
accidents, les lieux, les véhicules et les usagers.
Les données portent sur les années 2005 à 2018 et nous permettent d’étudier :
OC 2020-2021
FOCUS sur les données utilisées
Dataset acc_caracteristiques
16
Les fichiers CSV des caractéristiques des accidents de chaque année ont été regroupés
dans un unique dataset.
Ce dernier a été enrichi avec les données de l’INSEE concernant les zones
administratives, départements, régions, communes et coordonnées géographiques.
Au final sur ce jeu de données des caractéristiques, 23 variables sont exploitables.
OC 2020-2021
FOCUS sur les données utilisées
Point d’attention sur la géolocalisation
17
Les données de géolocalisation occupent une place
importante dans notre analyse et les algorithmes de
Machine Learning utilisés.
Cependant, plus de 500 000 coordonnées étaient
manquantes.
Il a donc été nécessaire de créer une base d’adresses
complètes pour du reverse geocoding en utilisant Geopy et
Geopandas puis de coupler ce processus avec un second
géocodage via le portail adresse.data.gouv.fr
OC 2020-2021
Graphiques pour les analyses géo localisées
18
Carte de chaleur (HeatMap) pour la concentration d’accidents
Cette représentation graphique de
données statistiques permet de faire
correspondre l’intensité du nombre
d’accidents à un nuancier :
• De bleu pour les zones comptant le
moins d’accidents,
• à rouge pour les zones les plus
accidentogènes.
Cela permet d’avoir rapidement et
facilement un aperçu des lieux
concentrant le plus d’accidents.
OC 2020-2021
FOCUS sur les données utilisées
Dataset acc_lieux
19
Les fichiers CSV des lieux des accidents de chaque année ont été regroupés dans un
unique dataset.
Les données catégorielles ont été mappées pour afficher des valeurs textuelles pour une
meilleure visibilité dans les tableaux de bord.
Ce jeu de données des lieux compte 18 variables exploitables.
OC 2020-2021
FOCUS sur les données utilisées
Dataset acc_vehicules
20
Les fichiers CSV des véhicules des accidents de chaque année ont été regroupés dans un
unique dataset.
Les données catégorielles ont été mappées pour afficher des valeurs textuelles pour une
meilleure visibilité dans les tableaux de bord.
Ce jeu de données des véhicules compte 9 variables.
OC 2020-2021
FOCUS sur les données utilisées
Dataset acc_usagers
21
Les fichiers CSV des véhicules des usagers de chaque année ont été regroupés dans un
unique dataset.
Ces données sont liées aux caractéristiques mais également aux véhicules.
Ce jeu de données des véhicules compte 11 variables.
OC 2020-2021
FOCUS sur les données utilisées
Synthèse
22
L’ensemble de ces 61 variables sont
utilisées dans les analyses et dans les
modèles de Machine Learning.
Tous les datasets ont été centralisés
dans une base de données MySQL et
les relations ont été crées pour
alimenter les rapports PowerBI et les
algorithmes Python.
OC 2020-2021
Graphique pour les analyses descriptives univariées
23
Diagrammes à secteurs (Pie Chart)
Permet de comparer la part du nombre d’accidents de différentes modalités.
Ce type de graphique s’applique à des variables qualitatives et concerne dans le rapport les
variables :
agglomération, plan, situation, catégorie véhicules, sexe, répartition des accidents par
clusters.
Diagrammes à barres (Bar Chart)
Permet de comparer le nombre d’accidents de différentes catégories.
Là également utilisé pour des variables qualitatives du rapport afin de
présenter de grands écarts en nombre d’accidents :
Villes les plus accidentogènes, conditions atmosphériques, type de
collision.
OC 2020-2021 24
Diagrammes à barres empilés
Sur le même principe que les Bar Charts
simples, ce graphique permet de représenter
cette fois 2 variables qualitatives empilées.
Utilisé dans le rapport pour les variables :
• Type de route / Sens de circulation,
• Catégorie d’âge / Gravité,
• Type usager / Gravité
• Caractérisation des clusters
TreeMaps (hiérarchique ou non)
La taille des réctangles représente le nombre
d’accidents de chaque catégories. 2 variables
peuvent également être imbriquées.
Utilisé dans le rapport pour les variables :
• Luminosité / Condition climatiques,
• Types de trajets,
OC 2020-2021
Réflexionsurlesprédictions
possiblesgrâceauxdatas
Analyser, modéliser, prédire
25
OC 2020-2021
Réflexions préliminaires - 2
Réaliser des prédictions pour agir en amont des accidents
Modéliser et entrainer des algorithmes de
Machine Learning pour anticiper :
• L’évolution des accidents dans les
prochaines années,
• La gravité potentielle d’un accident à un
point précis et un instant t en fonction
des caractéristiques connues (âge du
conducteur, type de véhicule, type de
route, conditions climatiques …)
Intégrer cette part d’IA à des outils
tels que le GPS pourrait permettre par
exemple de prévenir en temps réel du
potentiel de gravité d’un accident sur
la portion de route empruntée.
26
OC 2020-2021
Préparation : Les corrélations entre variables
Dataset étendu regroupant les caractéristiques, les lieux, les usagers et véhicules
27
Dans un premier temps, afin de construire les modélisations, une étude
des corrélations linéaires a été réalisée sur l’ensemble des variables.
Variables qui ont par ailleurs été encodées (One Hot) pour faciliter les
calculs mathématiques.
Un zoom a ensuite été réalisé sur les corrélations de Pearson
supérieur à 0,5 pour trouver les paires les plus corrélées.
En effet, des corrélations linéaires trop fortes pourraient par exemple
avoir un impact négatif sur les modèles.
Ces résultats ont également été projetés dans l’application Power BI.
OC 2020-2021
Graphique pour les analyses descriptives multivariées
28
Heatmap des corrélations linéaires entre variables
Basé sur des scripts développés avec le
langage R, ce graphique permet de
représenter les coefficients de
corrélations linéaires (Pearson) des
variables 2 à 2.
L’échelle colorimétrique s’étend de -1
pour les variables très anti-corrélées à 1
pour les variables très corrélées.
Ce graphique est couplé à un tableau
ordonné triable pour plus de clarté.
OC 2020-2021
Préparation : Classification non supervisée
Dataset étendu regroupant les caractéristiques, les lieux, les usagers et véhicules
29
Une classification
automatique non
supervisée via l’algorithme
des K-means a ensuite
été réalisé pour vérifier le
clustering sur les données.
On voit notamment ici que
le cluster 3 regroupe les
accidents ayant un nombre
important d’usagers et de
véhicules impliqués.
Chaque cluster a donc
ses propres
caractéristiques.
OC 2020-2021
Prédiction de séries temporelles
30
Toutes ces manipulations
préliminaires ont permis de
comprendre et de
structurer nos données.
Des prédictions du nombre
d’accidents ont ensuite été
réalisées grâce à des
modèles Prophet,
XGBoost ou encore
SARIMA et comparées
aux données réelles des
accidents 2019.
Les modèles ont été entrainés, testé et améliorés grâce au tuning des hyper-paramètres afin de définir les 2
meilleurs modélisation à projeter dans Power BI.
Ces modèles sélectionnés ont des erreurs MAPE de l’ordre de 11,4 %
OC 2020-2021
Graphique pour les analyses de séries temporelles
31
Graphique en courbes (Line Plot)
Ce type de graphique permet de suivre le nombre d’accidents au fil du temps.
Utilisé sur des données quantitatives continues, ils sont employés dans le rapport pour illustrer :
• L’évolution des accidents de 2005 à 2018,
• L’évolution des accidents par catégorie de véhicules,
• Les prédictions d’accidents à date d’horizon.
OC 2020-2021
Prédiction de la gravité des accidents
A l’instant 𝒕 et à un point géographique défini, en fonction des variables connues du conducteur
32
Grâce à toutes les
variables connues AVANT
l’accident par le
conducteur, et en incluant
des variables temporelles
et géographiques précises,
plusieurs modélisation ont
été effectuées.
• RandomForest,
• SGDClassifier,
• LogisticRegression.
Le but étant de définir
si à l’instant 𝒕, sur ce
point géographique, le
conducteur risque
d’être gravement
blessé ou tué.
Les meilleurs modèles ont une précision de 78% pour les classifiers et une métrique MAPE de 1,83% pour
le RandomForest Regressor.
Pour améliorer encore la précision, un modèle Deep Learning serait à envisager.
OC 2020-2021
En conclusion
Ouverture … et fermeture.
33
Ce rapport sur l’accidentologie Française et
l’ouverture possible à l’exploitation plus
poussée de la data a été pensé pour être
compréhensible par tous.
Son but est d’ouvrir une réflexion sur la place
de l’IA et du traitement des Big Data dans le
domaine de la prévention des accidents.
Il vient conclure une formation
OpenClassrooms riche sur le métier de Data
Analyst.
Tous ces projets m’ont donné envie de
poursuivre l’aventure vers une formation
d’Ingénieur Machine Learning et je remercie
sincèrement les mentors qui m’ont
accompagné et guidé.
Merci de
votre
attention
Michael FUMERY
06 59 20 65 39
mika.fumery@email.com

Contenu connexe

Tendances

Segmentation d'un fichier client | Machine Learning
Segmentation d'un fichier client | Machine LearningSegmentation d'un fichier client | Machine Learning
Segmentation d'un fichier client | Machine LearningFUMERY Michael
 
le NLP à l'ére de l'IA
le NLP à l'ére de l'IAle NLP à l'ére de l'IA
le NLP à l'ére de l'IAhabib200
 
Fraud Detection with Graphs at the Danish Business Authority
Fraud Detection with Graphs at the Danish Business AuthorityFraud Detection with Graphs at the Danish Business Authority
Fraud Detection with Graphs at the Danish Business AuthorityNeo4j
 
Apprentissage automatique, Régression Ridge et LASSO
Apprentissage automatique, Régression Ridge et LASSOApprentissage automatique, Régression Ridge et LASSO
Apprentissage automatique, Régression Ridge et LASSOPierre-Hugues Carmichael
 
Ch&cie présentation du big data dans l'assurance
Ch&cie présentation du big data dans l'assuranceCh&cie présentation du big data dans l'assurance
Ch&cie présentation du big data dans l'assuranceBetito Yan
 
[Partition] GAFA & Assurtech en assurances
[Partition] GAFA & Assurtech en assurances[Partition] GAFA & Assurtech en assurances
[Partition] GAFA & Assurtech en assurancesA CAPELLA Consulting
 
Livre Blanc SAS - EBG 30 cas concrets de Datavisualisation / Dataviz
Livre Blanc SAS - EBG 30 cas concrets de Datavisualisation / DatavizLivre Blanc SAS - EBG 30 cas concrets de Datavisualisation / Dataviz
Livre Blanc SAS - EBG 30 cas concrets de Datavisualisation / Datavizechangeurba
 
Système de recommandations de films
Système de recommandations de filmsSystème de recommandations de films
Système de recommandations de filmsIbn Tofail University
 
Modélisation prédictive en assurance de personnes
Modélisation prédictive en assurance de personnesModélisation prédictive en assurance de personnes
Modélisation prédictive en assurance de personnesDavid Dubois
 
Banking Circle: Money Laundering Beware: A Modern Approach to AML with Machin...
Banking Circle: Money Laundering Beware: A Modern Approach to AML with Machin...Banking Circle: Money Laundering Beware: A Modern Approach to AML with Machin...
Banking Circle: Money Laundering Beware: A Modern Approach to AML with Machin...Neo4j
 
Copy strategie efficacité publicitaire
Copy strategie efficacité publicitaireCopy strategie efficacité publicitaire
Copy strategie efficacité publicitaireYassine Hafid
 
Anticiper les besoins en consommation d'énergie de Seattle
Anticiper les besoins en consommation d'énergie de SeattleAnticiper les besoins en consommation d'énergie de Seattle
Anticiper les besoins en consommation d'énergie de SeattleFUMERY Michael
 
La veille Du concept à la réalité : Culture, Méthode et Outils
La veille Du concept à la réalité : Culture, Méthode et OutilsLa veille Du concept à la réalité : Culture, Méthode et Outils
La veille Du concept à la réalité : Culture, Méthode et OutilsLina Ben Brahim
 
2020 Women in the Workplace Participant Briefing
2020 Women in the Workplace Participant Briefing2020 Women in the Workplace Participant Briefing
2020 Women in the Workplace Participant BriefingMcKinsey & Company
 
ANOVA à 1 facteur, Analyse de variance, (One-way ANOVA)
ANOVA  à 1 facteur, Analyse de variance, (One-way ANOVA)ANOVA  à 1 facteur, Analyse de variance, (One-way ANOVA)
ANOVA à 1 facteur, Analyse de variance, (One-way ANOVA)Adad Med Chérif
 
5.3 Régression logistique
5.3 Régression logistique5.3 Régression logistique
5.3 Régression logistiqueBoris Guarisma
 
New horizons in transportation: mobility, innovation, economic development an...
New horizons in transportation: mobility, innovation, economic development an...New horizons in transportation: mobility, innovation, economic development an...
New horizons in transportation: mobility, innovation, economic development an...McKinsey & Company
 
Méthodes d’analyse en intelligence économique
Méthodes d’analyse en intelligence économiqueMéthodes d’analyse en intelligence économique
Méthodes d’analyse en intelligence économiqueINNOVATION COPILOTS
 

Tendances (20)

Segmentation d'un fichier client | Machine Learning
Segmentation d'un fichier client | Machine LearningSegmentation d'un fichier client | Machine Learning
Segmentation d'un fichier client | Machine Learning
 
le NLP à l'ére de l'IA
le NLP à l'ére de l'IAle NLP à l'ére de l'IA
le NLP à l'ére de l'IA
 
Fraud Detection with Graphs at the Danish Business Authority
Fraud Detection with Graphs at the Danish Business AuthorityFraud Detection with Graphs at the Danish Business Authority
Fraud Detection with Graphs at the Danish Business Authority
 
Apprentissage automatique, Régression Ridge et LASSO
Apprentissage automatique, Régression Ridge et LASSOApprentissage automatique, Régression Ridge et LASSO
Apprentissage automatique, Régression Ridge et LASSO
 
Technologies pour le Big Data
Technologies pour le Big DataTechnologies pour le Big Data
Technologies pour le Big Data
 
Ch&cie présentation du big data dans l'assurance
Ch&cie présentation du big data dans l'assuranceCh&cie présentation du big data dans l'assurance
Ch&cie présentation du big data dans l'assurance
 
[Partition] GAFA & Assurtech en assurances
[Partition] GAFA & Assurtech en assurances[Partition] GAFA & Assurtech en assurances
[Partition] GAFA & Assurtech en assurances
 
Livre Blanc SAS - EBG 30 cas concrets de Datavisualisation / Dataviz
Livre Blanc SAS - EBG 30 cas concrets de Datavisualisation / DatavizLivre Blanc SAS - EBG 30 cas concrets de Datavisualisation / Dataviz
Livre Blanc SAS - EBG 30 cas concrets de Datavisualisation / Dataviz
 
Système de recommandations de films
Système de recommandations de filmsSystème de recommandations de films
Système de recommandations de films
 
Modélisation prédictive en assurance de personnes
Modélisation prédictive en assurance de personnesModélisation prédictive en assurance de personnes
Modélisation prédictive en assurance de personnes
 
Banking Circle: Money Laundering Beware: A Modern Approach to AML with Machin...
Banking Circle: Money Laundering Beware: A Modern Approach to AML with Machin...Banking Circle: Money Laundering Beware: A Modern Approach to AML with Machin...
Banking Circle: Money Laundering Beware: A Modern Approach to AML with Machin...
 
Copy strategie efficacité publicitaire
Copy strategie efficacité publicitaireCopy strategie efficacité publicitaire
Copy strategie efficacité publicitaire
 
Anticiper les besoins en consommation d'énergie de Seattle
Anticiper les besoins en consommation d'énergie de SeattleAnticiper les besoins en consommation d'énergie de Seattle
Anticiper les besoins en consommation d'énergie de Seattle
 
La veille Du concept à la réalité : Culture, Méthode et Outils
La veille Du concept à la réalité : Culture, Méthode et OutilsLa veille Du concept à la réalité : Culture, Méthode et Outils
La veille Du concept à la réalité : Culture, Méthode et Outils
 
2020 Women in the Workplace Participant Briefing
2020 Women in the Workplace Participant Briefing2020 Women in the Workplace Participant Briefing
2020 Women in the Workplace Participant Briefing
 
ANOVA à 1 facteur, Analyse de variance, (One-way ANOVA)
ANOVA  à 1 facteur, Analyse de variance, (One-way ANOVA)ANOVA  à 1 facteur, Analyse de variance, (One-way ANOVA)
ANOVA à 1 facteur, Analyse de variance, (One-way ANOVA)
 
5.3 Régression logistique
5.3 Régression logistique5.3 Régression logistique
5.3 Régression logistique
 
Introduction au BIG DATA
Introduction au BIG DATAIntroduction au BIG DATA
Introduction au BIG DATA
 
New horizons in transportation: mobility, innovation, economic development an...
New horizons in transportation: mobility, innovation, economic development an...New horizons in transportation: mobility, innovation, economic development an...
New horizons in transportation: mobility, innovation, economic development an...
 
Méthodes d’analyse en intelligence économique
Méthodes d’analyse en intelligence économiqueMéthodes d’analyse en intelligence économique
Méthodes d’analyse en intelligence économique
 

Similaire à La Data peut-elle améliorer la sécurité routière.

Présentation intelli3
Présentation intelli3 Présentation intelli3
Présentation intelli3 Intelli³
 
Meetup Voiture Connectée et Autonome #23 chez Léonard groupe Vinci avec PSA, ...
Meetup Voiture Connectée et Autonome #23 chez Léonard groupe Vinci avec PSA, ...Meetup Voiture Connectée et Autonome #23 chez Léonard groupe Vinci avec PSA, ...
Meetup Voiture Connectée et Autonome #23 chez Léonard groupe Vinci avec PSA, ...Laurent Dunys
 
La conduite autonome et la mobilité en tant que service. Les défis de l’indus...
La conduite autonome et la mobilité en tant que service. Les défis de l’indus...La conduite autonome et la mobilité en tant que service. Les défis de l’indus...
La conduite autonome et la mobilité en tant que service. Les défis de l’indus...LIEGE CREATIVE
 
Aqc sycodes pathologie2016
Aqc sycodes pathologie2016Aqc sycodes pathologie2016
Aqc sycodes pathologie2016Bertrand Chauvet
 
Rapport Véhicule autonome et transports publics - CGI 2017
Rapport Véhicule autonome et transports publics - CGI 2017Rapport Véhicule autonome et transports publics - CGI 2017
Rapport Véhicule autonome et transports publics - CGI 2017Ghislain Delabie
 
Usages novateurs de la voiture et nouvelles mobilités
Usages novateurs de la voiture et nouvelles mobilitésUsages novateurs de la voiture et nouvelles mobilités
Usages novateurs de la voiture et nouvelles mobilitésFrenchWeb.fr
 
Prez geo campsud2019_meetup_opentransport_marseille_12122018
Prez geo campsud2019_meetup_opentransport_marseille_12122018Prez geo campsud2019_meetup_opentransport_marseille_12122018
Prez geo campsud2019_meetup_opentransport_marseille_12122018Open Transport meetup by Kisio
 
Rapport GESTE/Cedexis 2017 Q2
Rapport GESTE/Cedexis 2017 Q2Rapport GESTE/Cedexis 2017 Q2
Rapport GESTE/Cedexis 2017 Q2Garance Desportes
 
La dge et_tourisme_et_territoires_mettent_en_ligne_dat_atourisme
La dge et_tourisme_et_territoires_mettent_en_ligne_dat_atourismeLa dge et_tourisme_et_territoires_mettent_en_ligne_dat_atourisme
La dge et_tourisme_et_territoires_mettent_en_ligne_dat_atourismeDominique Gayraud
 
Référencement web & cartographie des zones d'activités de la Région Sud en Op...
Référencement web & cartographie des zones d'activités de la Région Sud en Op...Référencement web & cartographie des zones d'activités de la Région Sud en Op...
Référencement web & cartographie des zones d'activités de la Région Sud en Op...Jean-Louis ZIMMERMANN
 
Gart utp2012 une décennie de tarification rapport
Gart utp2012 une décennie de tarification rapportGart utp2012 une décennie de tarification rapport
Gart utp2012 une décennie de tarification rapportmobixio
 
Synthèse du benchmark international - Exploration DataCités 1
Synthèse du benchmark international - Exploration DataCités 1Synthèse du benchmark international - Exploration DataCités 1
Synthèse du benchmark international - Exploration DataCités 1Le Lab OuiShare x Chronos
 
Marc Jacquet : Observatoire national des risques naturels en france
Marc Jacquet : Observatoire national des risques naturels en franceMarc Jacquet : Observatoire national des risques naturels en france
Marc Jacquet : Observatoire national des risques naturels en franceOECD Governance
 
La voiture sans chauffeur, bientôt une réalité
La voiture sans chauffeur, bientôt une réalitéLa voiture sans chauffeur, bientôt une réalité
La voiture sans chauffeur, bientôt une réalitéFrance Stratégie
 
2 orange businessservices datatuesday toursime&transport -_vf
2   orange businessservices datatuesday toursime&transport -_vf2   orange businessservices datatuesday toursime&transport -_vf
2 orange businessservices datatuesday toursime&transport -_vfData Tuesday
 

Similaire à La Data peut-elle améliorer la sécurité routière. (20)

Présentation intelli3
Présentation intelli3 Présentation intelli3
Présentation intelli3
 
Meetup Voiture Connectée et Autonome #23 chez Léonard groupe Vinci avec PSA, ...
Meetup Voiture Connectée et Autonome #23 chez Léonard groupe Vinci avec PSA, ...Meetup Voiture Connectée et Autonome #23 chez Léonard groupe Vinci avec PSA, ...
Meetup Voiture Connectée et Autonome #23 chez Léonard groupe Vinci avec PSA, ...
 
La conduite autonome et la mobilité en tant que service. Les défis de l’indus...
La conduite autonome et la mobilité en tant que service. Les défis de l’indus...La conduite autonome et la mobilité en tant que service. Les défis de l’indus...
La conduite autonome et la mobilité en tant que service. Les défis de l’indus...
 
Laurent Pigache
Laurent PigacheLaurent Pigache
Laurent Pigache
 
TEC SCOOP
TEC SCOOPTEC SCOOP
TEC SCOOP
 
Aac2014
Aac2014Aac2014
Aac2014
 
Aqc sycodes pathologie2016
Aqc sycodes pathologie2016Aqc sycodes pathologie2016
Aqc sycodes pathologie2016
 
JTR 2017
JTR 2017JTR 2017
JTR 2017
 
Laurent Blum
Laurent BlumLaurent Blum
Laurent Blum
 
Rapport Véhicule autonome et transports publics - CGI 2017
Rapport Véhicule autonome et transports publics - CGI 2017Rapport Véhicule autonome et transports publics - CGI 2017
Rapport Véhicule autonome et transports publics - CGI 2017
 
Usages novateurs de la voiture et nouvelles mobilités
Usages novateurs de la voiture et nouvelles mobilitésUsages novateurs de la voiture et nouvelles mobilités
Usages novateurs de la voiture et nouvelles mobilités
 
Prez geo campsud2019_meetup_opentransport_marseille_12122018
Prez geo campsud2019_meetup_opentransport_marseille_12122018Prez geo campsud2019_meetup_opentransport_marseille_12122018
Prez geo campsud2019_meetup_opentransport_marseille_12122018
 
Rapport GESTE/Cedexis 2017 Q2
Rapport GESTE/Cedexis 2017 Q2Rapport GESTE/Cedexis 2017 Q2
Rapport GESTE/Cedexis 2017 Q2
 
La dge et_tourisme_et_territoires_mettent_en_ligne_dat_atourisme
La dge et_tourisme_et_territoires_mettent_en_ligne_dat_atourismeLa dge et_tourisme_et_territoires_mettent_en_ligne_dat_atourisme
La dge et_tourisme_et_territoires_mettent_en_ligne_dat_atourisme
 
Référencement web & cartographie des zones d'activités de la Région Sud en Op...
Référencement web & cartographie des zones d'activités de la Région Sud en Op...Référencement web & cartographie des zones d'activités de la Région Sud en Op...
Référencement web & cartographie des zones d'activités de la Région Sud en Op...
 
Gart utp2012 une décennie de tarification rapport
Gart utp2012 une décennie de tarification rapportGart utp2012 une décennie de tarification rapport
Gart utp2012 une décennie de tarification rapport
 
Synthèse du benchmark international - Exploration DataCités 1
Synthèse du benchmark international - Exploration DataCités 1Synthèse du benchmark international - Exploration DataCités 1
Synthèse du benchmark international - Exploration DataCités 1
 
Marc Jacquet : Observatoire national des risques naturels en france
Marc Jacquet : Observatoire national des risques naturels en franceMarc Jacquet : Observatoire national des risques naturels en france
Marc Jacquet : Observatoire national des risques naturels en france
 
La voiture sans chauffeur, bientôt une réalité
La voiture sans chauffeur, bientôt une réalitéLa voiture sans chauffeur, bientôt une réalité
La voiture sans chauffeur, bientôt une réalité
 
2 orange businessservices datatuesday toursime&transport -_vf
2   orange businessservices datatuesday toursime&transport -_vf2   orange businessservices datatuesday toursime&transport -_vf
2 orange businessservices datatuesday toursime&transport -_vf
 

Plus de FUMERY Michael

Computer Vision - Classification automatique des races de chien à partir de p...
Computer Vision - Classification automatique des races de chien à partir de p...Computer Vision - Classification automatique des races de chien à partir de p...
Computer Vision - Classification automatique des races de chien à partir de p...FUMERY Michael
 
Effectuez une prédiction de revenus
Effectuez une prédiction de revenusEffectuez une prédiction de revenus
Effectuez une prédiction de revenusFUMERY Michael
 
Détectez des faux billets
Détectez des faux billetsDétectez des faux billets
Détectez des faux billetsFUMERY Michael
 
Produisez une étude de marché
Produisez une étude de marchéProduisez une étude de marché
Produisez une étude de marchéFUMERY Michael
 
Analysez les ventes de votre entreprise
Analysez les ventes de votre entrepriseAnalysez les ventes de votre entreprise
Analysez les ventes de votre entrepriseFUMERY Michael
 
Réalisez une étude de santé publique | Data Analyst
Réalisez une étude de santé publique | Data AnalystRéalisez une étude de santé publique | Data Analyst
Réalisez une étude de santé publique | Data AnalystFUMERY Michael
 

Plus de FUMERY Michael (6)

Computer Vision - Classification automatique des races de chien à partir de p...
Computer Vision - Classification automatique des races de chien à partir de p...Computer Vision - Classification automatique des races de chien à partir de p...
Computer Vision - Classification automatique des races de chien à partir de p...
 
Effectuez une prédiction de revenus
Effectuez une prédiction de revenusEffectuez une prédiction de revenus
Effectuez une prédiction de revenus
 
Détectez des faux billets
Détectez des faux billetsDétectez des faux billets
Détectez des faux billets
 
Produisez une étude de marché
Produisez une étude de marchéProduisez une étude de marché
Produisez une étude de marché
 
Analysez les ventes de votre entreprise
Analysez les ventes de votre entrepriseAnalysez les ventes de votre entreprise
Analysez les ventes de votre entreprise
 
Réalisez une étude de santé publique | Data Analyst
Réalisez une étude de santé publique | Data AnalystRéalisez une étude de santé publique | Data Analyst
Réalisez une étude de santé publique | Data Analyst
 

Dernier

Cours Préparation à l’ISO 27001 version 2022.pdf
Cours Préparation à l’ISO 27001 version 2022.pdfCours Préparation à l’ISO 27001 version 2022.pdf
Cours Préparation à l’ISO 27001 version 2022.pdfssuserc72852
 
La nouvelle femme . pptx Film français
La   nouvelle   femme  . pptx  Film françaisLa   nouvelle   femme  . pptx  Film français
La nouvelle femme . pptx Film françaisTxaruka
 
Bolero. pptx . Film de A nnne Fontaine
Bolero. pptx . Film   de  A nnne FontaineBolero. pptx . Film   de  A nnne Fontaine
Bolero. pptx . Film de A nnne FontaineTxaruka
 
Cours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdfCours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdfachrafbrahimi1
 
gestion des conflits dans les entreprises
gestion des  conflits dans les entreprisesgestion des  conflits dans les entreprises
gestion des conflits dans les entreprisesMajdaKtiri2
 
Sidonie au Japon . pptx Un film français
Sidonie    au   Japon  .  pptx  Un film françaisSidonie    au   Japon  .  pptx  Un film français
Sidonie au Japon . pptx Un film françaisTxaruka
 
Boléro. pptx Film français réalisé par une femme.
Boléro.  pptx   Film   français   réalisé  par une  femme.Boléro.  pptx   Film   français   réalisé  par une  femme.
Boléro. pptx Film français réalisé par une femme.Txaruka
 
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...Nguyen Thanh Tu Collection
 
L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...
L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...
L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...Faga1939
 
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdfCOURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdfabatanebureau
 
Computer Parts in French - Les parties de l'ordinateur.pptx
Computer Parts in French - Les parties de l'ordinateur.pptxComputer Parts in French - Les parties de l'ordinateur.pptx
Computer Parts in French - Les parties de l'ordinateur.pptxRayane619450
 
Apolonia, Apolonia.pptx Film documentaire
Apolonia, Apolonia.pptx         Film documentaireApolonia, Apolonia.pptx         Film documentaire
Apolonia, Apolonia.pptx Film documentaireTxaruka
 

Dernier (13)

Cours Préparation à l’ISO 27001 version 2022.pdf
Cours Préparation à l’ISO 27001 version 2022.pdfCours Préparation à l’ISO 27001 version 2022.pdf
Cours Préparation à l’ISO 27001 version 2022.pdf
 
La nouvelle femme . pptx Film français
La   nouvelle   femme  . pptx  Film françaisLa   nouvelle   femme  . pptx  Film français
La nouvelle femme . pptx Film français
 
Bolero. pptx . Film de A nnne Fontaine
Bolero. pptx . Film   de  A nnne FontaineBolero. pptx . Film   de  A nnne Fontaine
Bolero. pptx . Film de A nnne Fontaine
 
Cours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdfCours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdf
 
gestion des conflits dans les entreprises
gestion des  conflits dans les entreprisesgestion des  conflits dans les entreprises
gestion des conflits dans les entreprises
 
Sidonie au Japon . pptx Un film français
Sidonie    au   Japon  .  pptx  Un film françaisSidonie    au   Japon  .  pptx  Un film français
Sidonie au Japon . pptx Un film français
 
Boléro. pptx Film français réalisé par une femme.
Boléro.  pptx   Film   français   réalisé  par une  femme.Boléro.  pptx   Film   français   réalisé  par une  femme.
Boléro. pptx Film français réalisé par une femme.
 
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
 
L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...
L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...
L'ÉVOLUTION DE L'ÉDUCATION AU BRÉSIL À TRAVERS L'HISTOIRE ET LES EXIGENCES DE...
 
Evaluación Alumnos de Ecole Victor Hugo
Evaluación Alumnos de Ecole  Victor HugoEvaluación Alumnos de Ecole  Victor Hugo
Evaluación Alumnos de Ecole Victor Hugo
 
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdfCOURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
 
Computer Parts in French - Les parties de l'ordinateur.pptx
Computer Parts in French - Les parties de l'ordinateur.pptxComputer Parts in French - Les parties de l'ordinateur.pptx
Computer Parts in French - Les parties de l'ordinateur.pptx
 
Apolonia, Apolonia.pptx Film documentaire
Apolonia, Apolonia.pptx         Film documentaireApolonia, Apolonia.pptx         Film documentaire
Apolonia, Apolonia.pptx Film documentaire
 

La Data peut-elle améliorer la sécurité routière.

  • 1. PROJET8 Présentationdu rapportdeStage Projet libre à caractère social portant sur l’accidentologie routière en France.
  • 2. OC 2020-2021 SOMMAIRE • Contexte du projet o Thématiques o Problématiques o Réflexions préliminaires. • Présentation du rapport o Choix de plan o Rédaction o Représentations visuelles. Focus 2 Cette présentation portera principalement sur la forme du rapport, les choix de conception et d’illustration.
  • 3. OC 2020-2021 Contextedel’analyse Une approche orientée datas pour sauver des vies sur nos routes Françaises. 3
  • 4. OC 2020-2021 Le constat Les accidents routiers en baisse depuis 1970 mais qui tendent à se stabiliser depuis 2014. 4 Un nombre d’accidents relativement stable depuis 2014
  • 5. OC 2020-2021 Technologies et infrastructures en constante amélioration Sécurité active ABS, ESP, AFU, avertisseur de changement de file (AFIL), feux adaptatifs, radars anticollisions … Sécurité passive Ceintures de sécurité, habitacle déformable, airbags, airbag piéton, E- call (appel d’urgence) Réseau routier Multiplication des aires de repos, amélioration des enrobés, glissières de sécurité, panneaux pédagogiques … Formation Amélioration de la formation des conducteurs, stages de perfectionnement, BSR, permis moto petites cylindrées … Législation Radars fixes et mobiles, interdiction du téléphone, limitation à 80 km/h … 5
  • 6. OC 2020-2021 La limite humaine est-elle aujourd’hui atteinte ? Un bon nombre de grandes entreprises des secteurs automobile et de travaux publics y investissent. Véhicules autonomes, routes intelligentes, toutes ces avancées sont basées sur des algorithmes d’Intelligence Artificielle exploitants des quantités astronomiques de données. La législation quant à elle, n’est pas prête à accueillir ces évolutions et il faudra peut-être une décennie pour y parvenir. Alors en attendant, pouvons-nous exploiter différemment la Data pour faire baisser le nombre d’accidents ? 6 Ouverture vers l’exploitation de la Data
  • 7. OC 2020-2021 ○ Améliorer l’exploitation des données ouvertes (Open Data), en compilant et en décrivant un grand nombre de variables de ces accidents passés. ○ Travailler sur une période relativement récente (2005 à 2018) pour coller aux réalités actuelles. ○ Analyser les corrélations mathématiques entre variables. ○ Mettre en place une classification des accidents grâce à des algorithmes de Machine Learning. ○ Prédire l’évolution des accidents dans le futur grâce à l’exploitation des séries temporelles. ○ Réaliser des prévisions de gravité des accidents en fonction des variables connues par le conducteur à l’instant 𝑡. Objectif du rapport Un projet social pour améliorer la prédiction des accidents de la route et faire baisser leur gravité. 7
  • 9. OC 2020-2021 Contraintes fixées Ce rapport a été souhaité à la fois instructif, par sa partie technique, et expliqué simplement. Accessible Doit être comprit par tout le monde. Instructif Doit aborder des points nouveaux. Expliqué La partie technique doit être expliquée simplement. Graphique Doit être visuellement attractif et agréable à la lecture. 9
  • 10. OC 2020-2021 Charte graphique des rapports La charte graphique de ces rapport et dashboard prend inspiration sur le logo de la sécurité routière ainsi que sur leurs campagnes de prévention. Les couleurs jaune, rouge et bleu ainsi que les grandes images sombres. 10
  • 11. OC 2020-2021 Plan d’analyses Le rapport est divisé en 5 grandes parties DONNÉES • Les principales sources • Description • Nettoyage et corrections • Création de la base de données KPI • Tendances principales • Caractéristiques principales • Indicateurs liés aux lieux • KPI sur les véhicules • Typologie des usagers CORRÉLATIONS • Principe • Feature engineering • Analyse de la matrice des corrélations 11 CLASSIFICATION • Théorie sur les algorithmes de classification • Analyse des clusters PRÉDICTIONS • Prédiction de l’évolution des accidents à date d’horizon • Prédiction de la gravité des accidents
  • 12. OC 2020-2021 Plan d’analyses Application Microsoft PowerBI© Suit le même plan que le rapport. ○ Projection graphique simple des indicateurs clés. ○ Interactivité augmentée avec mise à jour des rapports en fonction des filtres de page. ○ Possibilité de collaboration et de partage. 12
  • 14. OC 2020-2021 Réflexions préliminaires - 1 Compiler des données éparpillées pour mieux les analyser Rassembler Regrouper plusieurs sources de données Open Data dans une seule et unique base MySQL Créer les relations Qui dit MySQL dit base de données relationnelle. Il faut donc créer ses relations entre les tables Nettoyer Supprimer les valeurs nulles et traiter les valeurs manquantes pour améliorer notre base de données 14
  • 15. OC 2020-2021 FOCUS sur les données utilisées Fichier des accidents corporels 15 En France, en 2004, le comité interministériel de la sécurité routière a mis en place le fichier des accidents corporels dans le but d’harmoniser les définitions européennes et de faciliter les comparaisons internationales. L’ensemble de cette base est exploité dans cette analyse afin de construire des indicateurs généraux portants sur les accidents, les lieux, les véhicules et les usagers. Les données portent sur les années 2005 à 2018 et nous permettent d’étudier :
  • 16. OC 2020-2021 FOCUS sur les données utilisées Dataset acc_caracteristiques 16 Les fichiers CSV des caractéristiques des accidents de chaque année ont été regroupés dans un unique dataset. Ce dernier a été enrichi avec les données de l’INSEE concernant les zones administratives, départements, régions, communes et coordonnées géographiques. Au final sur ce jeu de données des caractéristiques, 23 variables sont exploitables.
  • 17. OC 2020-2021 FOCUS sur les données utilisées Point d’attention sur la géolocalisation 17 Les données de géolocalisation occupent une place importante dans notre analyse et les algorithmes de Machine Learning utilisés. Cependant, plus de 500 000 coordonnées étaient manquantes. Il a donc été nécessaire de créer une base d’adresses complètes pour du reverse geocoding en utilisant Geopy et Geopandas puis de coupler ce processus avec un second géocodage via le portail adresse.data.gouv.fr
  • 18. OC 2020-2021 Graphiques pour les analyses géo localisées 18 Carte de chaleur (HeatMap) pour la concentration d’accidents Cette représentation graphique de données statistiques permet de faire correspondre l’intensité du nombre d’accidents à un nuancier : • De bleu pour les zones comptant le moins d’accidents, • à rouge pour les zones les plus accidentogènes. Cela permet d’avoir rapidement et facilement un aperçu des lieux concentrant le plus d’accidents.
  • 19. OC 2020-2021 FOCUS sur les données utilisées Dataset acc_lieux 19 Les fichiers CSV des lieux des accidents de chaque année ont été regroupés dans un unique dataset. Les données catégorielles ont été mappées pour afficher des valeurs textuelles pour une meilleure visibilité dans les tableaux de bord. Ce jeu de données des lieux compte 18 variables exploitables.
  • 20. OC 2020-2021 FOCUS sur les données utilisées Dataset acc_vehicules 20 Les fichiers CSV des véhicules des accidents de chaque année ont été regroupés dans un unique dataset. Les données catégorielles ont été mappées pour afficher des valeurs textuelles pour une meilleure visibilité dans les tableaux de bord. Ce jeu de données des véhicules compte 9 variables.
  • 21. OC 2020-2021 FOCUS sur les données utilisées Dataset acc_usagers 21 Les fichiers CSV des véhicules des usagers de chaque année ont été regroupés dans un unique dataset. Ces données sont liées aux caractéristiques mais également aux véhicules. Ce jeu de données des véhicules compte 11 variables.
  • 22. OC 2020-2021 FOCUS sur les données utilisées Synthèse 22 L’ensemble de ces 61 variables sont utilisées dans les analyses et dans les modèles de Machine Learning. Tous les datasets ont été centralisés dans une base de données MySQL et les relations ont été crées pour alimenter les rapports PowerBI et les algorithmes Python.
  • 23. OC 2020-2021 Graphique pour les analyses descriptives univariées 23 Diagrammes à secteurs (Pie Chart) Permet de comparer la part du nombre d’accidents de différentes modalités. Ce type de graphique s’applique à des variables qualitatives et concerne dans le rapport les variables : agglomération, plan, situation, catégorie véhicules, sexe, répartition des accidents par clusters. Diagrammes à barres (Bar Chart) Permet de comparer le nombre d’accidents de différentes catégories. Là également utilisé pour des variables qualitatives du rapport afin de présenter de grands écarts en nombre d’accidents : Villes les plus accidentogènes, conditions atmosphériques, type de collision.
  • 24. OC 2020-2021 24 Diagrammes à barres empilés Sur le même principe que les Bar Charts simples, ce graphique permet de représenter cette fois 2 variables qualitatives empilées. Utilisé dans le rapport pour les variables : • Type de route / Sens de circulation, • Catégorie d’âge / Gravité, • Type usager / Gravité • Caractérisation des clusters TreeMaps (hiérarchique ou non) La taille des réctangles représente le nombre d’accidents de chaque catégories. 2 variables peuvent également être imbriquées. Utilisé dans le rapport pour les variables : • Luminosité / Condition climatiques, • Types de trajets,
  • 26. OC 2020-2021 Réflexions préliminaires - 2 Réaliser des prédictions pour agir en amont des accidents Modéliser et entrainer des algorithmes de Machine Learning pour anticiper : • L’évolution des accidents dans les prochaines années, • La gravité potentielle d’un accident à un point précis et un instant t en fonction des caractéristiques connues (âge du conducteur, type de véhicule, type de route, conditions climatiques …) Intégrer cette part d’IA à des outils tels que le GPS pourrait permettre par exemple de prévenir en temps réel du potentiel de gravité d’un accident sur la portion de route empruntée. 26
  • 27. OC 2020-2021 Préparation : Les corrélations entre variables Dataset étendu regroupant les caractéristiques, les lieux, les usagers et véhicules 27 Dans un premier temps, afin de construire les modélisations, une étude des corrélations linéaires a été réalisée sur l’ensemble des variables. Variables qui ont par ailleurs été encodées (One Hot) pour faciliter les calculs mathématiques. Un zoom a ensuite été réalisé sur les corrélations de Pearson supérieur à 0,5 pour trouver les paires les plus corrélées. En effet, des corrélations linéaires trop fortes pourraient par exemple avoir un impact négatif sur les modèles. Ces résultats ont également été projetés dans l’application Power BI.
  • 28. OC 2020-2021 Graphique pour les analyses descriptives multivariées 28 Heatmap des corrélations linéaires entre variables Basé sur des scripts développés avec le langage R, ce graphique permet de représenter les coefficients de corrélations linéaires (Pearson) des variables 2 à 2. L’échelle colorimétrique s’étend de -1 pour les variables très anti-corrélées à 1 pour les variables très corrélées. Ce graphique est couplé à un tableau ordonné triable pour plus de clarté.
  • 29. OC 2020-2021 Préparation : Classification non supervisée Dataset étendu regroupant les caractéristiques, les lieux, les usagers et véhicules 29 Une classification automatique non supervisée via l’algorithme des K-means a ensuite été réalisé pour vérifier le clustering sur les données. On voit notamment ici que le cluster 3 regroupe les accidents ayant un nombre important d’usagers et de véhicules impliqués. Chaque cluster a donc ses propres caractéristiques.
  • 30. OC 2020-2021 Prédiction de séries temporelles 30 Toutes ces manipulations préliminaires ont permis de comprendre et de structurer nos données. Des prédictions du nombre d’accidents ont ensuite été réalisées grâce à des modèles Prophet, XGBoost ou encore SARIMA et comparées aux données réelles des accidents 2019. Les modèles ont été entrainés, testé et améliorés grâce au tuning des hyper-paramètres afin de définir les 2 meilleurs modélisation à projeter dans Power BI. Ces modèles sélectionnés ont des erreurs MAPE de l’ordre de 11,4 %
  • 31. OC 2020-2021 Graphique pour les analyses de séries temporelles 31 Graphique en courbes (Line Plot) Ce type de graphique permet de suivre le nombre d’accidents au fil du temps. Utilisé sur des données quantitatives continues, ils sont employés dans le rapport pour illustrer : • L’évolution des accidents de 2005 à 2018, • L’évolution des accidents par catégorie de véhicules, • Les prédictions d’accidents à date d’horizon.
  • 32. OC 2020-2021 Prédiction de la gravité des accidents A l’instant 𝒕 et à un point géographique défini, en fonction des variables connues du conducteur 32 Grâce à toutes les variables connues AVANT l’accident par le conducteur, et en incluant des variables temporelles et géographiques précises, plusieurs modélisation ont été effectuées. • RandomForest, • SGDClassifier, • LogisticRegression. Le but étant de définir si à l’instant 𝒕, sur ce point géographique, le conducteur risque d’être gravement blessé ou tué. Les meilleurs modèles ont une précision de 78% pour les classifiers et une métrique MAPE de 1,83% pour le RandomForest Regressor. Pour améliorer encore la précision, un modèle Deep Learning serait à envisager.
  • 33. OC 2020-2021 En conclusion Ouverture … et fermeture. 33 Ce rapport sur l’accidentologie Française et l’ouverture possible à l’exploitation plus poussée de la data a été pensé pour être compréhensible par tous. Son but est d’ouvrir une réflexion sur la place de l’IA et du traitement des Big Data dans le domaine de la prévention des accidents. Il vient conclure une formation OpenClassrooms riche sur le métier de Data Analyst. Tous ces projets m’ont donné envie de poursuivre l’aventure vers une formation d’Ingénieur Machine Learning et je remercie sincèrement les mentors qui m’ont accompagné et guidé.
  • 34. Merci de votre attention Michael FUMERY 06 59 20 65 39 mika.fumery@email.com