Au programme :
- Léna Carel, doctorante CIFRE Transdev/ENSAE nous parlera d'identification de groupes de voyageurs à travers leurs habitudes temporelles
Les modèles de mélange sont des outils de segmentation très populaires. Cependant, lorsque la dimension et le nombre de clusters sont élevés, l'estimation et l'interprétation des classes deviennent compliquées. Afin de répondre à cette problématique, nous avons proposé un modèle de mélange qui effectue de la réduction de dimension en combinant NMF (Nonnegative Matrix Factorization) et algorithme EM. La segmentation d'utilisateurs de réseaux urbains Transdev à l'aide de données de validation a été à l'origine de cette approche.
- Elisa Gilles, product Data Scientist manager chez Deezer, nous présentera son talk "Au secours je lance ma feature"
Lors du développement d'un nouveau produit ou d'une nouvelle fonctionnalité, la question qu'on se demande d'emblée est : est-ce que ça marche? La massification des données nous permet d'avoir des éléments de réponse - plus seulement à l'aide de tests sur des panels d'utilisateurs/sondages mais plutôt en s'intéressant à l'intégralité de la base d'utilisateurs.
La complexité maintenant est de se demander comment mesurer ce "ça marche?" et comment définir la donnée pour que cette mesure soit possible.
Viendra après la tâche plus ardue de comprendre les résultats de cette mesure, de faire parfois des analyses complémentaires et d'en tirer des actions concrètes à chaque nouvelle itération.
- Mathilde Bras, chargée de projet open gov et innovation à Etalab, montrera comment les données peuvent aussi améliorer les politiques publiques :
Comment mettre les données et la datascience au service de l’intérêt général ? C’est la mission d’Etalab, véritable « task force » numérique au sein de l’Etat. Les actions d’Etalab embrassent un large spectre : de l’ouverture de bases de données essentielles à l’économie et la société (ex : base SIRENE, base adresse) à l’accompagnement d’administrations dans des projets d’innovation, en passant par la construction d’outils visant à améliorer le service public. Le programme Entrepreneurs d’Intérêt Général sera également présenté.
7. Rappel sur la NMF
11 octobre 2017 Paris Data Ladies #3
V
n x m
W
n x k
H
k x m
≈ x
6
8. Rappel sur la NMF
11 octobre 2017 Paris Data Ladies #3
V
n x m
W
n x k
H
k x m
≈ x
dictionnaire
6
9. Rappel sur la NMF
11 octobre 2017 Paris Data Ladies #3
V
n x m
W
n x k
H
k x m
≈ x
dictionnairematrice des
poids
6
10. Rappel sur l’algorithme EM pour les
modèles de mélange
11 octobre 2017 Paris Data Ladies #3 7
11. Rappel sur l’algorithme EM pour les
modèles de mélange
11 octobre 2017 Paris Data Ladies #3 7
12. Rappel sur l’algorithme EM pour les
modèles de mélange
11 octobre 2017 Paris Data Ladies #3 7
13. Rappel sur l’algorithme EM pour les
modèles de mélange
11 octobre 2017 Paris Data Ladies #3
N 𝜇1, 𝜎1
2
N 𝜇2, 𝜎2
2
7
14. NMF-EM*
11 octobre 2017 Paris Data Ladies #3
* Pour plus de précisions, voir l’article sur arXiv.
Var1
…
VarM
Groupe 1 𝜃1,1 … 𝜃1,𝑀
…
…
…
…
Groupe K 𝜃 𝐾,1 … 𝜃 𝐾,𝑀
8
15. NMF-EM*
11 octobre 2017 Paris Data Ladies #3
* Pour plus de précisions, voir l’article sur arXiv.
Var1
…
VarM
Groupe 1 𝜃1,1 … 𝜃1,𝑀
…
…
…
…
Groupe K 𝜃 𝐾,1 … 𝜃 𝐾,𝑀
Mot1
…
MotH
Groupe 1 𝜗1,1 … 𝜗1,𝐻
…
…
…
…
Groupe K 𝜗 𝐾,1 … 𝜗 𝐾,𝐻
Var1
…
VarM
Mot 1 Λ1,1 … Λ1,𝑀
…
…
…
…
Mot H Λ 𝐻,1 … Λ 𝐾,𝑀
8
16. NMF-EM*
11 octobre 2017 Paris Data Ladies #3
* Pour plus de précisions, voir l’article sur arXiv.
Var1
…
VarM
Groupe 1 𝜃1,1 … 𝜃1,𝑀
…
…
…
…
Groupe K 𝜃 𝐾,1 … 𝜃 𝐾,𝑀
Mot1
…
MotH
Groupe 1 𝜗1,1 … 𝜗1,𝐻
…
…
…
…
Groupe K 𝜗 𝐾,1 … 𝜗 𝐾,𝐻
Var1
…
VarM
Mot 1 Λ1,1 … Λ1,𝑀
…
…
…
…
Mot H Λ 𝐻,1 … Λ 𝐾,𝑀
KM paramètres H(K+M) paramètres
8
21. Suite de l’analyse
• Localisation des voyageurs + insertion de
données socio-économiques
• Segmentation des stations à Rouen
• Segmentation des utilisateurs du réseau
d’Eindhoven
11 octobre 2017 Paris Data Ladies #3 13
22. CONCLUSION
11 octobre 2017 Paris Data Ladies #3
• NMF-EM : réduction du nombre de paramètres à estimer pour les modèles de
mélange
• Analyse : identification et description des groupes d’utilisateurs, à partir de
données anonymisées
14
23. Les données au
service de l’intérêt
général
Meet-up Paris Data Ladies – Octobre 2017
@Mathilde_Bras / @Etalab
24. Etalab leads open policies and delivers inclusive
digital tools & services
25. Etalab : de l’open data à l’open gov
2) Open
…gov
…innovation
3) Data
…science
…plateformes
1) Open Data
26. OPEN DATA – data.gouv.fr: plateforme contributive
d’ouverture et de réutilisation des données
27. OPEN GOV – Co-construire les politiques publiques
consultation.etalab.gouv.fr – VERSION
BETA
28. DATA-SCIENCE : tirer pleinement partie des données
pour améliorer les politiques publiques
agd.data.gouv.fr
36. Un cadre unique d’expérimentation
ü Entrepreneurs recrutés en CDD de 10 mois
ü Rémunération de 4000€ nets par mois
ü Des défis relevés en équipe de 2 ou 3, associant data-science,
développement d’interfaces, design et transition numérique des services
publics
ü Une expérience de terrain, au contact des agents publics et des usagers
ü La possibilité de faire évoluer le défi
ü Une promotion soudée et accompagnée par des mentors et Etalab
37. Les défis de la Promotion 1 à https://github.com/eig-
2017
Suivre l’avancement de projets financés par l’AFD via les images satellites, Agence Française de
Développement
Préfigurer une plateforme de co-production de données entre acteurs publics culturels et
scientifiques, BNF
Permettre aux citoyens d’accéder finalement aux rapports de la Cour des comptes via la conception
d’une API et d’outils de circulation des données, Cour des comptes
Développer une base de données crowd-sourcée sur le patrimoine culturel des orgues en France,
Ministère de la Culture et de la Communication :
Développer des techniques d’analyse et de matching de données pour aider les services fiscaux à
détecter des risques de fraude, Ministère de l’Economie et des Finances
Améliorer la qualité de la base de données du système national des permis de conduire, Ministère de
l’Intérieur
Réaliser un outil de cartographie décisionnelle croisant données des accidents et de verbalisation,
Ministère de l’Intérieur
Constituer une API d’aide à la mise en relation de données textuelles non normées avec des
référentiels, Ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation
Utiliser les données du Système national des données de santé (SNDS) pour modéliser les parcours de
soin et identifier les parcours aberrants, Ministère des Affaires sociales et de la Santé (ARS Occitanie)
38. 13 défis à relever à partir de janvier 2018
PrédiSauvetage : sauver des vies en mer en prévenant les accidents maritimes grâce aux données, Ministère de la Transition Écologique
et Solidaire
Lab Santé : améliorer la santé des Français en valorisant les données du système de santé, Direction de la recherche, des études, de
l’évaluation et des statistiques (DREES)
Gobelins : révéler les richesses du mobilier national en ouvrant sa collection au public, Ministère de la Culture, Mobilier National
Prévisecours : aider les sapeurs-pompiers à intervenir plus efficacement avec des modèles prédictifs, Ministère de l’Intérieur
b@liseNAV : rendre les trajets en mer plus sûrs en réalisant une carte marine augmentée, Service hydrographique et océanographique
de la marine (Shom)
Signaux Faibles : détecter les entreprises en difficulté pour mieux les accompagner, DIRECCTE Bourgogne-Franche-Comté
Hopkins : lutter contre la fraude financière et enrayer l’économie souterraine, Ministère de l’Action et des Comptes publics
SocialConnect : Repérer et mettre en réseau l’innovation sociale dans les territoires, Carrefour des innovations sociales, Commissariat
Général à l’Egalité des Territoires
ArchiFiltre : assurer la mémoire des politiques sociales en transformant la gestion des archives, Secrétariat général des ministères chargés
des affaires sociales
Brigade Numérique : mettre en place un accueil numérique de la gendarmerie au service des citoyens, Mission numérique de la
gendarmerie nationale (MNGN)
EIG Link : accompagner une communauté inédite d’entrepreneur•e•s au sein de l’État, Etalab
CoachÉlèves – AssistProf : améliorer la réussite scolaire et l’orientation avec les données d’apprentissage, Ministère de l’Éducation
nationale
dataESR : révéler tout le potentiel des données de la recherche et l’ouvrir aux citoyens, Ministère de l’Enseignement supérieur, de la
Recherche et de l’Innovation
39. Profils recherchés pour la promotion 2
13 Défis d’intérêt général
27 EIG
9 Développeur.euse.s
5 Designers
12 Data scientists
1 Expert.e gestion de projets numériques
40. Vous souhaitez faire partie de la 2ème promotion ?
ü RDV SUR entrepreneur-interet-general.etalab.gouv.fr
ü Découvrez les 13 défis proposés
ü Postulez jusqu’au 27 octobre 2017
ü Posez vos questions : entrepreneur-interet-general@data.gouv.fr
41. Etalab recrute aussi !
ü 1 Directeur.rice de projet « Gouvernance et usage des
données » à http://bit.ly/2zgkiMI
ü 2 Data-scientists à http://bit.ly/2ybUBg9