Paris	DataLadies #3	
chez	Google	France
Identification de groupes de
voyageurs à travers leurs
habitudes temporelles
Léna CAREL (Transdev/ENSAE)
INTRODUCTION
11 octobre 2017 Paris Data Ladies #3 2
Données
• Septembre 2015
• Agrégation par numéro
de carte crypté
• Réalisation
multinomiale
11 octobre 2017 Paris Data Ladies #3 3
Problématique
11 octobre 2017 Paris Data Ladies #3
Algorithme EM pour les
modèles de mélange
↓
Nombreux clusters
=
Nombreux paramètres à
estimer
4
MÉTHODOLOGIE
11 octobre 2017 Paris Data Ladies #3 5
Rappel sur la NMF
11 octobre 2017 Paris Data Ladies #3
V
n x m
W
n x k
H
k x m
≈ x
6
Rappel sur la NMF
11 octobre 2017 Paris Data Ladies #3
V
n x m
W
n x k
H
k x m
≈ x
dictionnaire
6
Rappel sur la NMF
11 octobre 2017 Paris Data Ladies #3
V
n x m
W
n x k
H
k x m
≈ x
dictionnairematrice des
poids
6
Rappel sur l’algorithme EM pour les
modèles de mélange
11 octobre 2017 Paris Data Ladies #3 7
Rappel sur l’algorithme EM pour les
modèles de mélange
11 octobre 2017 Paris Data Ladies #3 7
Rappel sur l’algorithme EM pour les
modèles de mélange
11 octobre 2017 Paris Data Ladies #3 7
Rappel sur l’algorithme EM pour les
modèles de mélange
11 octobre 2017 Paris Data Ladies #3
N 𝜇1, 𝜎1
2
N 𝜇2, 𝜎2
2
7
NMF-EM*
11 octobre 2017 Paris Data Ladies #3
* Pour plus de précisions, voir l’article sur arXiv.
Var1
…
VarM
Groupe 1 𝜃1,1 … 𝜃1,𝑀
…
…
…
…
Groupe K 𝜃 𝐾,1 … 𝜃 𝐾,𝑀
8
NMF-EM*
11 octobre 2017 Paris Data Ladies #3
* Pour plus de précisions, voir l’article sur arXiv.
Var1
…
VarM
Groupe 1 𝜃1,1 … 𝜃1,𝑀
…
…
…
…
Groupe K 𝜃 𝐾,1 … 𝜃 𝐾,𝑀
Mot1
…
MotH
Groupe 1 𝜗1,1 … 𝜗1,𝐻
…
…
…
…
Groupe K 𝜗 𝐾,1 … 𝜗 𝐾,𝐻
Var1
…
VarM
Mot 1 Λ1,1 … Λ1,𝑀
…
…
…
…
Mot H Λ 𝐻,1 … Λ 𝐾,𝑀
8
NMF-EM*
11 octobre 2017 Paris Data Ladies #3
* Pour plus de précisions, voir l’article sur arXiv.
Var1
…
VarM
Groupe 1 𝜃1,1 … 𝜃1,𝑀
…
…
…
…
Groupe K 𝜃 𝐾,1 … 𝜃 𝐾,𝑀
Mot1
…
MotH
Groupe 1 𝜗1,1 … 𝜗1,𝐻
…
…
…
…
Groupe K 𝜗 𝐾,1 … 𝜗 𝐾,𝐻
Var1
…
VarM
Mot 1 Λ1,1 … Λ1,𝑀
…
…
…
…
Mot H Λ 𝐻,1 … Λ 𝐾,𝑀
KM paramètres H(K+M) paramètres
8
RÉSULTATS
11 octobre 2017 Paris Data Ladies #3 9
Dictionnaire
11 octobre 2017 Paris Data Ladies #3 10
Clusters
11 octobre 2017 Paris Data Ladies #3 11
Données des cartes de transport
11 octobre 2017 Paris Data Ladies #3 12
Suite de l’analyse
• Localisation des voyageurs + insertion de
données socio-économiques
• Segmentation des stations à Rouen
• Segmentation des utilisateurs du réseau
d’Eindhoven
11 octobre 2017 Paris Data Ladies #3 13
CONCLUSION
11 octobre 2017 Paris Data Ladies #3
• NMF-EM : réduction du nombre de paramètres à estimer pour les modèles de
mélange
• Analyse : identification et description des groupes d’utilisateurs, à partir de
données anonymisées
14
Les données au
service de l’intérêt
général
Meet-up Paris Data Ladies – Octobre 2017
@Mathilde_Bras / @Etalab
Etalab leads open policies and delivers inclusive
digital tools & services
Etalab : de l’open data à l’open gov
2) Open
…gov
…innovation
3) Data
…science
…plateformes
1) Open Data
OPEN DATA – data.gouv.fr: plateforme contributive
d’ouverture et de réutilisation des données
OPEN GOV – Co-construire les politiques publiques
consultation.etalab.gouv.fr – VERSION
BETA
DATA-SCIENCE : tirer pleinement partie des données
pour améliorer les politiques publiques
agd.data.gouv.fr
DATA STORIES
Quelques exemples de projets mettant la
donnée au service de l’intérêt général
Open Fisca: a « public digital common » to
compute tax and benefit systems
openfisca.fr
Mes-Aides: using open data to improve public
service (social benefits)
mes-aides.gouv.fr
Bob emploi : un projet associant divers
partenaires pour améliorer la recherche d’emploi
11
Open Solar Map: a crowdsourced platform for solar
panels geolocalisation
C’EST POSSIBLE !
Envie de rejoindre l’Etat et mettre vos talents
au service de l’intérêt général ?
Entrepreneur.e d’Intérêt général : un programme
d’innovation ouverte
Un cadre unique d’expérimentation
ü Entrepreneurs recrutés en CDD de 10 mois
ü Rémunération de 4000€ nets par mois
ü Des défis relevés en équipe de 2 ou 3, associant data-science,
développement d’interfaces, design et transition numérique des services
publics
ü Une expérience de terrain, au contact des agents publics et des usagers
ü La possibilité de faire évoluer le défi
ü Une promotion soudée et accompagnée par des mentors et Etalab
Les défis de la Promotion 1 à https://github.com/eig-
2017
Suivre l’avancement de projets financés par l’AFD via les images satellites, Agence Française de
Développement
Préfigurer une plateforme de co-production de données entre acteurs publics culturels et
scientifiques, BNF
Permettre aux citoyens d’accéder finalement aux rapports de la Cour des comptes via la conception
d’une API et d’outils de circulation des données, Cour des comptes
Développer une base de données crowd-sourcée sur le patrimoine culturel des orgues en France,
Ministère de la Culture et de la Communication :
Développer des techniques d’analyse et de matching de données pour aider les services fiscaux à
détecter des risques de fraude, Ministère de l’Economie et des Finances
Améliorer la qualité de la base de données du système national des permis de conduire, Ministère de
l’Intérieur
Réaliser un outil de cartographie décisionnelle croisant données des accidents et de verbalisation,
Ministère de l’Intérieur
Constituer une API d’aide à la mise en relation de données textuelles non normées avec des
référentiels, Ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation
Utiliser les données du Système national des données de santé (SNDS) pour modéliser les parcours de
soin et identifier les parcours aberrants, Ministère des Affaires sociales et de la Santé (ARS Occitanie)
13 défis à relever à partir de janvier 2018
PrédiSauvetage : sauver des vies en mer en prévenant les accidents maritimes grâce aux données, Ministère de la Transition Écologique
et Solidaire
Lab Santé : améliorer la santé des Français en valorisant les données du système de santé, Direction de la recherche, des études, de
l’évaluation et des statistiques (DREES)
Gobelins : révéler les richesses du mobilier national en ouvrant sa collection au public, Ministère de la Culture, Mobilier National
Prévisecours : aider les sapeurs-pompiers à intervenir plus efficacement avec des modèles prédictifs, Ministère de l’Intérieur
b@liseNAV : rendre les trajets en mer plus sûrs en réalisant une carte marine augmentée, Service hydrographique et océanographique
de la marine (Shom)
Signaux Faibles : détecter les entreprises en difficulté pour mieux les accompagner, DIRECCTE Bourgogne-Franche-Comté
Hopkins : lutter contre la fraude financière et enrayer l’économie souterraine, Ministère de l’Action et des Comptes publics
SocialConnect : Repérer et mettre en réseau l’innovation sociale dans les territoires, Carrefour des innovations sociales, Commissariat
Général à l’Egalité des Territoires
ArchiFiltre : assurer la mémoire des politiques sociales en transformant la gestion des archives, Secrétariat général des ministères chargés
des affaires sociales
Brigade Numérique : mettre en place un accueil numérique de la gendarmerie au service des citoyens, Mission numérique de la
gendarmerie nationale (MNGN)
EIG Link : accompagner une communauté inédite d’entrepreneur•e•s au sein de l’État, Etalab
CoachÉlèves – AssistProf : améliorer la réussite scolaire et l’orientation avec les données d’apprentissage, Ministère de l’Éducation
nationale
dataESR : révéler tout le potentiel des données de la recherche et l’ouvrir aux citoyens, Ministère de l’Enseignement supérieur, de la
Recherche et de l’Innovation
Profils recherchés pour la promotion 2
13 Défis	d’intérêt	général
27 EIG	
9 Développeur.euse.s
5 Designers
12 Data	scientists
1 Expert.e gestion	de	projets	numériques
Vous souhaitez faire partie de la 2ème promotion ?
ü RDV SUR entrepreneur-interet-general.etalab.gouv.fr
ü Découvrez les 13 défis proposés
ü Postulez jusqu’au 27 octobre 2017
ü Posez vos questions : entrepreneur-interet-general@data.gouv.fr
Etalab recrute aussi !
ü 1 Directeur.rice de projet « Gouvernance et usage des
données » à http://bit.ly/2zgkiMI
ü 2 Data-scientists à http://bit.ly/2ybUBg9
www.etalab.gouv.fr
https://github.com/etalab
Mathilde Bras
mathilde.bras@modernisation.gouv.fr
@Mathilde_Bras / @Etalab
Merci !

Paris dataladies #3

  • 1.
  • 2.
    Identification de groupesde voyageurs à travers leurs habitudes temporelles Léna CAREL (Transdev/ENSAE)
  • 3.
    INTRODUCTION 11 octobre 2017Paris Data Ladies #3 2
  • 4.
    Données • Septembre 2015 •Agrégation par numéro de carte crypté • Réalisation multinomiale 11 octobre 2017 Paris Data Ladies #3 3
  • 5.
    Problématique 11 octobre 2017Paris Data Ladies #3 Algorithme EM pour les modèles de mélange ↓ Nombreux clusters = Nombreux paramètres à estimer 4
  • 6.
    MÉTHODOLOGIE 11 octobre 2017Paris Data Ladies #3 5
  • 7.
    Rappel sur laNMF 11 octobre 2017 Paris Data Ladies #3 V n x m W n x k H k x m ≈ x 6
  • 8.
    Rappel sur laNMF 11 octobre 2017 Paris Data Ladies #3 V n x m W n x k H k x m ≈ x dictionnaire 6
  • 9.
    Rappel sur laNMF 11 octobre 2017 Paris Data Ladies #3 V n x m W n x k H k x m ≈ x dictionnairematrice des poids 6
  • 10.
    Rappel sur l’algorithmeEM pour les modèles de mélange 11 octobre 2017 Paris Data Ladies #3 7
  • 11.
    Rappel sur l’algorithmeEM pour les modèles de mélange 11 octobre 2017 Paris Data Ladies #3 7
  • 12.
    Rappel sur l’algorithmeEM pour les modèles de mélange 11 octobre 2017 Paris Data Ladies #3 7
  • 13.
    Rappel sur l’algorithmeEM pour les modèles de mélange 11 octobre 2017 Paris Data Ladies #3 N 𝜇1, 𝜎1 2 N 𝜇2, 𝜎2 2 7
  • 14.
    NMF-EM* 11 octobre 2017Paris Data Ladies #3 * Pour plus de précisions, voir l’article sur arXiv. Var1 … VarM Groupe 1 𝜃1,1 … 𝜃1,𝑀 … … … … Groupe K 𝜃 𝐾,1 … 𝜃 𝐾,𝑀 8
  • 15.
    NMF-EM* 11 octobre 2017Paris Data Ladies #3 * Pour plus de précisions, voir l’article sur arXiv. Var1 … VarM Groupe 1 𝜃1,1 … 𝜃1,𝑀 … … … … Groupe K 𝜃 𝐾,1 … 𝜃 𝐾,𝑀 Mot1 … MotH Groupe 1 𝜗1,1 … 𝜗1,𝐻 … … … … Groupe K 𝜗 𝐾,1 … 𝜗 𝐾,𝐻 Var1 … VarM Mot 1 Λ1,1 … Λ1,𝑀 … … … … Mot H Λ 𝐻,1 … Λ 𝐾,𝑀 8
  • 16.
    NMF-EM* 11 octobre 2017Paris Data Ladies #3 * Pour plus de précisions, voir l’article sur arXiv. Var1 … VarM Groupe 1 𝜃1,1 … 𝜃1,𝑀 … … … … Groupe K 𝜃 𝐾,1 … 𝜃 𝐾,𝑀 Mot1 … MotH Groupe 1 𝜗1,1 … 𝜗1,𝐻 … … … … Groupe K 𝜗 𝐾,1 … 𝜗 𝐾,𝐻 Var1 … VarM Mot 1 Λ1,1 … Λ1,𝑀 … … … … Mot H Λ 𝐻,1 … Λ 𝐾,𝑀 KM paramètres H(K+M) paramètres 8
  • 17.
    RÉSULTATS 11 octobre 2017Paris Data Ladies #3 9
  • 18.
    Dictionnaire 11 octobre 2017Paris Data Ladies #3 10
  • 19.
    Clusters 11 octobre 2017Paris Data Ladies #3 11
  • 20.
    Données des cartesde transport 11 octobre 2017 Paris Data Ladies #3 12
  • 21.
    Suite de l’analyse •Localisation des voyageurs + insertion de données socio-économiques • Segmentation des stations à Rouen • Segmentation des utilisateurs du réseau d’Eindhoven 11 octobre 2017 Paris Data Ladies #3 13
  • 22.
    CONCLUSION 11 octobre 2017Paris Data Ladies #3 • NMF-EM : réduction du nombre de paramètres à estimer pour les modèles de mélange • Analyse : identification et description des groupes d’utilisateurs, à partir de données anonymisées 14
  • 23.
    Les données au servicede l’intérêt général Meet-up Paris Data Ladies – Octobre 2017 @Mathilde_Bras / @Etalab
  • 24.
    Etalab leads openpolicies and delivers inclusive digital tools & services
  • 25.
    Etalab : del’open data à l’open gov 2) Open …gov …innovation 3) Data …science …plateformes 1) Open Data
  • 26.
    OPEN DATA –data.gouv.fr: plateforme contributive d’ouverture et de réutilisation des données
  • 27.
    OPEN GOV –Co-construire les politiques publiques consultation.etalab.gouv.fr – VERSION BETA
  • 28.
    DATA-SCIENCE : tirerpleinement partie des données pour améliorer les politiques publiques agd.data.gouv.fr
  • 29.
    DATA STORIES Quelques exemplesde projets mettant la donnée au service de l’intérêt général
  • 30.
    Open Fisca: a« public digital common » to compute tax and benefit systems openfisca.fr
  • 31.
    Mes-Aides: using opendata to improve public service (social benefits) mes-aides.gouv.fr
  • 32.
    Bob emploi :un projet associant divers partenaires pour améliorer la recherche d’emploi
  • 33.
    11 Open Solar Map:a crowdsourced platform for solar panels geolocalisation
  • 34.
    C’EST POSSIBLE ! Enviede rejoindre l’Etat et mettre vos talents au service de l’intérêt général ?
  • 35.
    Entrepreneur.e d’Intérêt général: un programme d’innovation ouverte
  • 36.
    Un cadre uniqued’expérimentation ü Entrepreneurs recrutés en CDD de 10 mois ü Rémunération de 4000€ nets par mois ü Des défis relevés en équipe de 2 ou 3, associant data-science, développement d’interfaces, design et transition numérique des services publics ü Une expérience de terrain, au contact des agents publics et des usagers ü La possibilité de faire évoluer le défi ü Une promotion soudée et accompagnée par des mentors et Etalab
  • 37.
    Les défis dela Promotion 1 à https://github.com/eig- 2017 Suivre l’avancement de projets financés par l’AFD via les images satellites, Agence Française de Développement Préfigurer une plateforme de co-production de données entre acteurs publics culturels et scientifiques, BNF Permettre aux citoyens d’accéder finalement aux rapports de la Cour des comptes via la conception d’une API et d’outils de circulation des données, Cour des comptes Développer une base de données crowd-sourcée sur le patrimoine culturel des orgues en France, Ministère de la Culture et de la Communication : Développer des techniques d’analyse et de matching de données pour aider les services fiscaux à détecter des risques de fraude, Ministère de l’Economie et des Finances Améliorer la qualité de la base de données du système national des permis de conduire, Ministère de l’Intérieur Réaliser un outil de cartographie décisionnelle croisant données des accidents et de verbalisation, Ministère de l’Intérieur Constituer une API d’aide à la mise en relation de données textuelles non normées avec des référentiels, Ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation Utiliser les données du Système national des données de santé (SNDS) pour modéliser les parcours de soin et identifier les parcours aberrants, Ministère des Affaires sociales et de la Santé (ARS Occitanie)
  • 38.
    13 défis àrelever à partir de janvier 2018 PrédiSauvetage : sauver des vies en mer en prévenant les accidents maritimes grâce aux données, Ministère de la Transition Écologique et Solidaire Lab Santé : améliorer la santé des Français en valorisant les données du système de santé, Direction de la recherche, des études, de l’évaluation et des statistiques (DREES) Gobelins : révéler les richesses du mobilier national en ouvrant sa collection au public, Ministère de la Culture, Mobilier National Prévisecours : aider les sapeurs-pompiers à intervenir plus efficacement avec des modèles prédictifs, Ministère de l’Intérieur b@liseNAV : rendre les trajets en mer plus sûrs en réalisant une carte marine augmentée, Service hydrographique et océanographique de la marine (Shom) Signaux Faibles : détecter les entreprises en difficulté pour mieux les accompagner, DIRECCTE Bourgogne-Franche-Comté Hopkins : lutter contre la fraude financière et enrayer l’économie souterraine, Ministère de l’Action et des Comptes publics SocialConnect : Repérer et mettre en réseau l’innovation sociale dans les territoires, Carrefour des innovations sociales, Commissariat Général à l’Egalité des Territoires ArchiFiltre : assurer la mémoire des politiques sociales en transformant la gestion des archives, Secrétariat général des ministères chargés des affaires sociales Brigade Numérique : mettre en place un accueil numérique de la gendarmerie au service des citoyens, Mission numérique de la gendarmerie nationale (MNGN) EIG Link : accompagner une communauté inédite d’entrepreneur•e•s au sein de l’État, Etalab CoachÉlèves – AssistProf : améliorer la réussite scolaire et l’orientation avec les données d’apprentissage, Ministère de l’Éducation nationale dataESR : révéler tout le potentiel des données de la recherche et l’ouvrir aux citoyens, Ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation
  • 39.
    Profils recherchés pourla promotion 2 13 Défis d’intérêt général 27 EIG 9 Développeur.euse.s 5 Designers 12 Data scientists 1 Expert.e gestion de projets numériques
  • 40.
    Vous souhaitez fairepartie de la 2ème promotion ? ü RDV SUR entrepreneur-interet-general.etalab.gouv.fr ü Découvrez les 13 défis proposés ü Postulez jusqu’au 27 octobre 2017 ü Posez vos questions : entrepreneur-interet-general@data.gouv.fr
  • 41.
    Etalab recrute aussi! ü 1 Directeur.rice de projet « Gouvernance et usage des données » à http://bit.ly/2zgkiMI ü 2 Data-scientists à http://bit.ly/2ybUBg9
  • 42.