Nos formations : www.jedha.co
De plus en plus demandés par les recruteurs de tous types d'entreprises, les Data Scientists ont pris une importance considérable dans leurs processus de décision. Lors de cette session Ask My Anything, nous répondrons à toutes vos questions sur le métier de Data Scientist après vous avoir donnés nos astuces et conseils.
3. Sommaire
Mon Parcours :
•Scolaire
•Pro
•Projets scolaire
•Projets pro
La Data Science :
•Définition comme intersection
de domaines
•Formation continue - R&D
•Mode projet
Les compétences :
•Depuis la définition
•Vers les contextes réels
5. Parcours scolaire
Prépa École d’ingé
Lycée Montaigne /
Université de Bordeaux
ENSIIE d’Évry – associée
à Mines-Télécom / Paris
Saclay (Master IMSD)
• Maths théoriques
• Sciences expérimentales
• Philo
Modélisation
Déterminisme / Probabilisme
• Informatique
• Maths appliquées
• Monde professionnel
Outils
Utilité – Mode projet
6. Parcours pro
CEVIPOF de SciencesPo SFR LeKiosk
• La Recherche
• Données socio-économiques
• Marketing électoral
• R
• L’Entreprise
• Data Analyse Marketing
• SQL, R
• La Start-Up
• Data Science
• Python, SQL
• Plus de prédictif
7. Parcours pro
CEVIPOF de SciencesPo SFR LeKiosk
• La Recherche
• Données socio-économiques
• Marketing électoral
• R
• L’Entreprise
• Data Analyse Marketing
• SQL, R
• La Start-Up
• Data Science
• Python, SQL
• Plus de prédictif
Collaboration
Autonomie
Encadrement
CEVIPOF
SFR
LeKiosk
8. Les projets scolaires
Modélisation non-supervisée : Web Scraping de données
économiques de pays, classification et mapping du
développement en 3D (Analyse en Composantes Principales, Classification
Ascendante Hiérarchique, K-Means, Gaussian Mixtures)
Modélisation supervisée : Études des résultats d’une étude
sociologique de speed dating. Sélection des variables. Développement
de modèles de prédiction du match entre deux participants. Validation
croisée avec observations par paires (x rencontre y, y rencontre x).
Optimisation de paramètres. Mise à l’épreuve de modèles linéaires :
Classifieur naïf bayésien, Analyse discriminante, Machines à vecteurs support.
Modèles non-linéaires : Arbres de décision, Réseaux de Neurones.
Scoring : Octroi de crédit pour une banque d’investissement.
Imputation de valeurs manquantes, mise en classe de variables continues,
AIC/BIC, Ridge/Lasso, odd ratio, tableau de scores.
9. Les projets scolaires
Inconvénients :
Données déjà rassemblées ou manipulées, Hors contexte métier ...
Avantages :
Open Data, Jouer avec les notions, Tester les performances
machines, Analyser/Coder/Synthétiser …
10. Projets actuels chez LeKiosk
NLP : Extraction automatisé de mots-clés à partir d’articles, création de data pour applications produit
Marketing : Calcul et prévision de KPI (Durée de vie) / Segmentation / Personnalisation
Automatisation de la chaîne de production : Découpe de magazine en lecture smart
Détection de fraude : Patterns d’inscription et de consommation des fraudeurs
13. Computer Science / IT
Machine Learning
Data
Science
Data Engineering
Domaines
d’apprentissage
14. Computer Science / IT
Machine Learning
Data communication,
Domain/Business knowledge
Data
Science
Data Analysis /
Recherche
Traditionnelle
Software
Development
Data Engineering
Domaines
d’apprentissage
15. Programmation système – objet,
API,
Web (Scraping),
Cloud computing
…
Algèbre Multilinéaire, Optimisation linéaire
et combinatoire, Recherche opérationnelle
…
Apprentissage du champ d’application,
Documentation,
Datavizualisation,
Présentations powerpoint
Data
Science
Data Analysis /
Recherche
Traditionnelle
Software
Development
Data Engineering
Domaines
d’apprentissage
16. Formation continue - R&D
Tutos PapersCoursVeille
Medium, Data Elixir, Data Science Weekly, MIT
Tech Review, O’Reilly …
MOOCs (Edx, Data Camp…)
Livres
Challenges
Bootcamps
Portfolio Publications
GitHub Blogs, Revues…
17. Méthodologie – Mode projet
CRISP-DM : Cross Industry
Standard Process for Data Mining
Confronter,
Documenter
Mise en
production
Besoins,
Règles
Hypothèses,
Plan, Sources
Analyse, feature
engineering
Modélisation
Itérer
21. Les compétences
et appétences
du DS
Computer Science /
IT
Machine Learning
Rigueur
Scientifique
Bon sensExpérimentation
Technologie
Agilité,
Réactivité
Conception
Production
Analyse/
Synthèse
22. Les compétences
et appétences
du DS
Computer Science /
IT
Machine Learning
Data
communication,
Domain/Business
knowledge
Rigueur
Scientifique
Bon sensExpérimentation
Technologie
Vulgarisation
Communication,
Relationnel
Agilité,
Réactivité
Conception
Production
Analyse/
Synthèse
23. Les compétences
et appétences
du DS
Computer Science /
IT
Machine Learning
Data
communication,
Domain/Business
knowledge
Rigueur
Scientifique
Bon sensExpérimentation
Technologie
Vulgarisation
Communication,
Relationnel
Agilité,
Réactivité
Formation continue
- R&D
Méthodologie -
Gestion de projet
Conception
Production
Analyse/
Synthèse
24. Les compétences
et appétences
du DS
Computer Science /
IT
Machine Learning
Data
communication,
Domain/Business
knowledge
Rigueur
Scientifique
Bon sensExpérimentation
Technologie
Conception
Vulgarisation
Communication,
Relationnel
Agilité,
Réactivité
Opérationnel Fonctionnel
Production
Analyse/
Synthèse
25. Pour résumer …
Computer Science / IT
Machine Learning
Data communication,
Domain/Business
knowledge
Rigueur
Scientifique
Bon sensExpérimentation
Technologie
Conception
Vulgarisation
Communication,
Relationnel
Agilité,
Réactivité
Opérationnel
Fonctionnel
Production
Analyse/
Synthèse
Méthodologie -
Gestion de projet
Formation
continue- R&D
… Mais ça ouvre le
champ des possibles
d’un point de vu pro
et perso
30. Nos Prochaines Sessions
—
40 HEURES
5 Mars - 25 Avril
Mardis & Jeudis
18h30 - 21h
Semaine
—
9 Mars - 27 Avril
Samedis
9h30 - 15h30
Weekend
—
1 Avril - 12 Avril
Lundi au Vendredi
9h30 - 15h30
Intensive
—
31. Nos Prochaines Sessions
—
FULLSTACK : DEVENEZ DATA SCIENTIST
4 Mars - 28 Septembre
Lundi 18h30 - 21h
Samedi 9h30 -15h30
TEMPS PARTIEL
—
25 Février - 17 Mai
Lundi au Vendredi
9h30 à 15h30
TEMPS COMPLET
—