Version DRAFT d'une formation Data Scientist que j'ai conçue à partir de sources diverses (voir références bibliographiques à la fin de chaque diapositive).
La formation est destinée aux personnes possédant des bases (~BAC+2) en statistiques et programmation (j'utilise R).
Je reste ouvert à tout commentaire, critique et correction. Je continuerai à mettre à jour les diapositives et à en ajouter d'autres si j'ai le temps.
Le Machine Learning, sous-ensemble de l'Intelligence Artificielle, est la discipline donnant à un ordinateur la capacité d'apprendre sans avoir été explicitement programmé, en se basant sur des données d'entrée.
Systèmes de recommandations, détection de fraude, prédiction de ventes, segmentation de clients: ses champs d'applications sont nombreux. Venez découvrir à travers cette présentation ce qui se cache derrière ces mots, quels algorithmes existent, comment ils fonctionnent, avec quels outils, dans quel cas et comment les utiliser.
Par Yoann Benoit & Alban Phelip, consultants Xebia
La vidéo de la conférence est à retrouver sur : http://www.xebicon.fr/programme.html
Que faire quand vous avez du mal à trier et prioriser des informations ? La solution s'appelle Machine Learning. Le principe est simple : faire faire les apprentissages à une application pour qu'elle puisse classer, categoriser ou caracteriser différentes informations, sans les connaître initialement. Cela s'applique au spam, aux traductions ou même à la qualité de code. Le Machine Learning est parfois difficile à prendre en main avec de gros projets, alors nous verrons comment en faire sur des données plus modestes, et plus accessibles.
Autour d'exemples simples, découvrons ensemble les concepts sous-jacents et les possibilités offertes par le Machine Learning. Si sans complexe vous voulez savoir ce qui se cache derrière ce « buzz word », cette session est pour vous! Vous vous demandez ce qu'il y a exactement derrière des termes tels que: apprentissage supervisé, classification, régression, clustering, série temporelle… Venez, aucun pré-requis n'est nécessaire!
Version DRAFT d'une formation Data Scientist que j'ai conçue à partir de sources diverses (voir références bibliographiques à la fin de chaque diapositive).
La formation est destinée aux personnes possédant des bases (~BAC+2) en statistiques et programmation (j'utilise R).
Je reste ouvert à tout commentaire, critique et correction. Je continuerai à mettre à jour les diapositives et à en ajouter d'autres si j'ai le temps.
Le Machine Learning, sous-ensemble de l'Intelligence Artificielle, est la discipline donnant à un ordinateur la capacité d'apprendre sans avoir été explicitement programmé, en se basant sur des données d'entrée.
Systèmes de recommandations, détection de fraude, prédiction de ventes, segmentation de clients: ses champs d'applications sont nombreux. Venez découvrir à travers cette présentation ce qui se cache derrière ces mots, quels algorithmes existent, comment ils fonctionnent, avec quels outils, dans quel cas et comment les utiliser.
Par Yoann Benoit & Alban Phelip, consultants Xebia
La vidéo de la conférence est à retrouver sur : http://www.xebicon.fr/programme.html
Que faire quand vous avez du mal à trier et prioriser des informations ? La solution s'appelle Machine Learning. Le principe est simple : faire faire les apprentissages à une application pour qu'elle puisse classer, categoriser ou caracteriser différentes informations, sans les connaître initialement. Cela s'applique au spam, aux traductions ou même à la qualité de code. Le Machine Learning est parfois difficile à prendre en main avec de gros projets, alors nous verrons comment en faire sur des données plus modestes, et plus accessibles.
Autour d'exemples simples, découvrons ensemble les concepts sous-jacents et les possibilités offertes par le Machine Learning. Si sans complexe vous voulez savoir ce qui se cache derrière ce « buzz word », cette session est pour vous! Vous vous demandez ce qu'il y a exactement derrière des termes tels que: apprentissage supervisé, classification, régression, clustering, série temporelle… Venez, aucun pré-requis n'est nécessaire!
Conférence plénière sur l'impact de l'utilisation du big data sur la conception d'outils et de produits dans le cadre du 51ème congrès de la Société des Ergonomes de Langue Française (https://self2016.sciencesconf.org/).
Applying Design and UX technique to improve usability of the code we develop.
It is vital for business success to have a performant tool to develop features. The most important tool development is the existing code, so how about Designing for Usability?
Une introduction à la Blockchain avec un exemple simple.
Une réflexion et des conseils sur ce qu'est un bon cas d’usage.
Une contribution : le Blockchain Canevas (sorte de business model canevas pour les cas d'usage spécifiques à la blockchain).
Bonne consultation,
Sajida
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesOCTO Technology Suisse
L'importance de la donnée et les informations que nous pouvons en tirer sont en train de révolutionner notre monde. De plus en plus massives et hétérogènes, l'exploitation de ces données induit de faire appel à de nouvelles méthodes et technologies. Ces évolutions récentes en termes de moyens de stockage, de capacités de calcul et de méthodes d'analyse donnent une nouvelle place aux données dans notre quotidien.
Cette présentation offre une découverte du monde du big data en introduisant les différentes méthodes et technologies utilisées et en les illustrant de plusieurs cas pratiques.
What's Next Contenus : Et si on parlait Performance ? DigitasLBi Paris
A la question : évaluez-vous le cout et l’efficacité de vos contenus ? Peu de directions de la communication ou digitales souhaitent répondre. L’énergie dépensée et l’enveloppe consacrée a la création de contenus sont des paramètres à mettre en regard des résultats obtenus. La cartographie de la présence digitale d’une entreprise via ses contenus réserve souvent des surprises tout comme leur rôle dans le parcours d’achat ou dans la conversion
Pour mesurer l’effet d’un contenu, faut-il encore qu’il intéresse ses publics, qu’il soit visible dans les moteurs, et surtout qu’à chaque contenu soit assigne un objectif quantifiable. Performance, audience et engagement sont les trois piliers qui ont guidé notre conférence.
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeJean Roger Mably
Aujourd’hui, les entreprises collectent des informations de plus en plus nombreuses et variées sur leurs clients. S’appuyant sur les dernières techniques statistiques et mathématiques (analyse factorielle, régression, arbres de décision, textmining, webmining, réseaux neuronaux, moteur bayesiens,...), le Data Mining a pour objectif d’exploiter ce réservoir de richesse inégalée en transformant ces données en indicateurs marketing et commerciaux.
Saisie et exploitation des données cliniques - Conférence de la 2e édition du Cours international « Atelier Paludisme » - GRILLET Gérard - société OPTIMA, France - ggrillet@optima-europe.com
Sciences cognitives et design UX : quels (r)apports ?Akiani
Slides de la conférence proposée par Akiani visant à partager un retour d’expérience sur une dizaine d’année dans le domaine du design centré utilisateurs.
On y décrit notre approche singulière combinant l’intervention ergonomique, les facteurs organisationnels et humains et les sciences cognitives.
Nous intervenons pour tous types de clients dans tous les secteurs, pour la conception de produits digitaux, services ou organisation.
Conférence présentées auprès de plusieurs communautés : IXDA Lausanne, Sketch Lyon Meetup en présentiel, puis en téléconférence début avril 2020 lors du confinement.
Vidéo accessible sur youtube : https://youtu.be/Zx8UBwQOM38
Conférence Paris Retail Week : sur la voix d'un futur moins digital ?Fabernovel
6h, c'est le temps moyen que nous passons quotidiennement sur les interfaces connectées. Analystes et entreprises se réjouissent de ce chiffre qui n'a jamais été aussi élevé. Alors pourquoi certains géants du secteur comme Google ou Amazon veulent-ils nous faire passer moins de temps sur le digital ? Qu'est-ce qui explique le phénomène grandissant du "Zero UI", la montée en puissance de l’audio et des assistants vocaux ou encore la redéfinition des “lieux” dans le parcours client ?
Amélioration de la productivité par les outils TIC/Internet - Recherche d'inf...Karim ATTOUMANI MOHAMED
Permettre à tout en chacun de comprendre (i) comment est conçu l'Internet, (ii) l'organisation des informations ainsi que (iii) les moteurs de recherches permettant de trouver tout ce que l'on cherche sur Internet
Optimisez vos Recherches, Formez-vous sur Expernova !Expernova
Accédez aux meilleurs experts mondiaux et développez les réseaux de votre entreprise grâce à la solution Expernova.
Découvrez dans cette présentation des explications, exemples et astuces pour réaliser des requêtes approfondies en utilisant les bons opérateurs de recherche disponibles avec la solution Expernova.
Obtenez des résultats encore plus pertinents !
Lettre d'information du mois de septembre 2018
Au sommaire
Invention à l’honneur | Le récupérateur de chaleur pour douche « TURBOSIPHON » de David Rodriguez
I’nov Expérience, le Festival des Inventifs | Programme détaillé sur http://inovexperience.fr
Focus sur la journée I’nov Pro, jeudi 25 octobre | Inscriptions avant le 10 octobre 2018 sur http://inovexperience.fr/inov-pro/
Les algorithmes génétiques dans tous leurs étatsGeneticIO
Présentation des algorithmes génétiques, appartenant à la famille des algorithmes évolutionnistes. Ils permettent d'obtenir une solution approchée à un problème d'optimisation, lorsqu'il n'existe pas de méthode exacte (ou que la solution est inconnue) pour le résoudre en un temps raisonnable.Des exemples ludiques d'application seront présentés ("tobeornottobe', smart rockets) afin d'illustrer leur comportement.
Human Talks Paris du 11 octobre 2016 à Prestashop
Liens:
- Domaine application Marketing, détermination des meilleures implantations de sites touristiques : https://goo.gl/aCc9SJ
- Domaine application Astronautique, détection d’orbites de satellite : https://goo.gl/eauC32
- Domaines d'applications : https://en.wikipedia.org/wiki/List_of_genetic_algorithm_applications
Vidéos:
- Smart Rockets : http://dl.genetic.io/demo/SmartRockets.mp4
- TOBEORNOTTOBE : http://dl.genetic.io/demo/ToBeOrNotToBe.mp4
Novascope Télécoms et Réseaux Informatiques en BtoB 2023Enov
Depuis 1996, nous mesurons la digitalisation des entreprises françaises grâce à notre observatoire Novascope Télécoms et Réseaux informatiques en B2B. Découvrez quelques résultats exclusifs de la vague 2023.
Conférence plénière sur l'impact de l'utilisation du big data sur la conception d'outils et de produits dans le cadre du 51ème congrès de la Société des Ergonomes de Langue Française (https://self2016.sciencesconf.org/).
Applying Design and UX technique to improve usability of the code we develop.
It is vital for business success to have a performant tool to develop features. The most important tool development is the existing code, so how about Designing for Usability?
Une introduction à la Blockchain avec un exemple simple.
Une réflexion et des conseils sur ce qu'est un bon cas d’usage.
Une contribution : le Blockchain Canevas (sorte de business model canevas pour les cas d'usage spécifiques à la blockchain).
Bonne consultation,
Sajida
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesOCTO Technology Suisse
L'importance de la donnée et les informations que nous pouvons en tirer sont en train de révolutionner notre monde. De plus en plus massives et hétérogènes, l'exploitation de ces données induit de faire appel à de nouvelles méthodes et technologies. Ces évolutions récentes en termes de moyens de stockage, de capacités de calcul et de méthodes d'analyse donnent une nouvelle place aux données dans notre quotidien.
Cette présentation offre une découverte du monde du big data en introduisant les différentes méthodes et technologies utilisées et en les illustrant de plusieurs cas pratiques.
What's Next Contenus : Et si on parlait Performance ? DigitasLBi Paris
A la question : évaluez-vous le cout et l’efficacité de vos contenus ? Peu de directions de la communication ou digitales souhaitent répondre. L’énergie dépensée et l’enveloppe consacrée a la création de contenus sont des paramètres à mettre en regard des résultats obtenus. La cartographie de la présence digitale d’une entreprise via ses contenus réserve souvent des surprises tout comme leur rôle dans le parcours d’achat ou dans la conversion
Pour mesurer l’effet d’un contenu, faut-il encore qu’il intéresse ses publics, qu’il soit visible dans les moteurs, et surtout qu’à chaque contenu soit assigne un objectif quantifiable. Performance, audience et engagement sont les trois piliers qui ont guidé notre conférence.
Seminaire datamining Ecole de Statistique et d'Economie AppliquéeJean Roger Mably
Aujourd’hui, les entreprises collectent des informations de plus en plus nombreuses et variées sur leurs clients. S’appuyant sur les dernières techniques statistiques et mathématiques (analyse factorielle, régression, arbres de décision, textmining, webmining, réseaux neuronaux, moteur bayesiens,...), le Data Mining a pour objectif d’exploiter ce réservoir de richesse inégalée en transformant ces données en indicateurs marketing et commerciaux.
Saisie et exploitation des données cliniques - Conférence de la 2e édition du Cours international « Atelier Paludisme » - GRILLET Gérard - société OPTIMA, France - ggrillet@optima-europe.com
Sciences cognitives et design UX : quels (r)apports ?Akiani
Slides de la conférence proposée par Akiani visant à partager un retour d’expérience sur une dizaine d’année dans le domaine du design centré utilisateurs.
On y décrit notre approche singulière combinant l’intervention ergonomique, les facteurs organisationnels et humains et les sciences cognitives.
Nous intervenons pour tous types de clients dans tous les secteurs, pour la conception de produits digitaux, services ou organisation.
Conférence présentées auprès de plusieurs communautés : IXDA Lausanne, Sketch Lyon Meetup en présentiel, puis en téléconférence début avril 2020 lors du confinement.
Vidéo accessible sur youtube : https://youtu.be/Zx8UBwQOM38
Conférence Paris Retail Week : sur la voix d'un futur moins digital ?Fabernovel
6h, c'est le temps moyen que nous passons quotidiennement sur les interfaces connectées. Analystes et entreprises se réjouissent de ce chiffre qui n'a jamais été aussi élevé. Alors pourquoi certains géants du secteur comme Google ou Amazon veulent-ils nous faire passer moins de temps sur le digital ? Qu'est-ce qui explique le phénomène grandissant du "Zero UI", la montée en puissance de l’audio et des assistants vocaux ou encore la redéfinition des “lieux” dans le parcours client ?
Amélioration de la productivité par les outils TIC/Internet - Recherche d'inf...Karim ATTOUMANI MOHAMED
Permettre à tout en chacun de comprendre (i) comment est conçu l'Internet, (ii) l'organisation des informations ainsi que (iii) les moteurs de recherches permettant de trouver tout ce que l'on cherche sur Internet
Optimisez vos Recherches, Formez-vous sur Expernova !Expernova
Accédez aux meilleurs experts mondiaux et développez les réseaux de votre entreprise grâce à la solution Expernova.
Découvrez dans cette présentation des explications, exemples et astuces pour réaliser des requêtes approfondies en utilisant les bons opérateurs de recherche disponibles avec la solution Expernova.
Obtenez des résultats encore plus pertinents !
Lettre d'information du mois de septembre 2018
Au sommaire
Invention à l’honneur | Le récupérateur de chaleur pour douche « TURBOSIPHON » de David Rodriguez
I’nov Expérience, le Festival des Inventifs | Programme détaillé sur http://inovexperience.fr
Focus sur la journée I’nov Pro, jeudi 25 octobre | Inscriptions avant le 10 octobre 2018 sur http://inovexperience.fr/inov-pro/
Les algorithmes génétiques dans tous leurs étatsGeneticIO
Présentation des algorithmes génétiques, appartenant à la famille des algorithmes évolutionnistes. Ils permettent d'obtenir une solution approchée à un problème d'optimisation, lorsqu'il n'existe pas de méthode exacte (ou que la solution est inconnue) pour le résoudre en un temps raisonnable.Des exemples ludiques d'application seront présentés ("tobeornottobe', smart rockets) afin d'illustrer leur comportement.
Human Talks Paris du 11 octobre 2016 à Prestashop
Liens:
- Domaine application Marketing, détermination des meilleures implantations de sites touristiques : https://goo.gl/aCc9SJ
- Domaine application Astronautique, détection d’orbites de satellite : https://goo.gl/eauC32
- Domaines d'applications : https://en.wikipedia.org/wiki/List_of_genetic_algorithm_applications
Vidéos:
- Smart Rockets : http://dl.genetic.io/demo/SmartRockets.mp4
- TOBEORNOTTOBE : http://dl.genetic.io/demo/ToBeOrNotToBe.mp4
Similaire à Data science a machine learning tour (20)
Novascope Télécoms et Réseaux Informatiques en BtoB 2023Enov
Depuis 1996, nous mesurons la digitalisation des entreprises françaises grâce à notre observatoire Novascope Télécoms et Réseaux informatiques en B2B. Découvrez quelques résultats exclusifs de la vague 2023.
Dans un contexte où la transmission et l'installation d'agriculteurs sont des enjeux cruciaux pour la profession agricole, de nouveaux agriculteurs s'installent chaque année et, parmi eux, certains Bac+5 ou plus. Les cursus des écoles d'ingénieurs n'ont pas vocation à former de futurs agriculteurs. Pourtant, certains apprenants ayant suivi ces cursus BAC + 5, qu'ils soient ou non issus du milieu agricole, tentent l'aventure de l'entrepreneuriat agricole. Qui sont-ils ? Quelles sont leurs motivations et visions ? Comment travaillent-ils ?
3. ¡ Fondements
“We are living the age of information and entering the age of
recommendation”
The Long tail - Chris Anderson
Copyright Franck Bardol 2016 3
PARADOX OF CHOICE
MORE IS LESS
4. ¡ Fondements
§ “The web is leaving the era of search and entering one of discovery”
§ “Race to create a smart GOOGLE” – CNN –
Copyright Franck Bardol 2016 4
FROM SEARCH TO DISCOVERY
SEARCH
DISCOVERY
users
users
idea
idea
👧 👨
👦
👩
👧 👨
👦
👩
💡
🔮
❤️
💡
🔮
❤️
5. Copyright Franck Bardol 2016 5
FROM SEARCH TO DISCOVERY
“you may
also like” “people
you may
know”
“people
to
follow”
reco in
stealth
mode
👧 👨
👦
👩
👩
👩
👮
6. 80%
watch
via
RECO
¡ Quels sont les secteurs qui l’utilisent ?
§ Sites de streaming video
§ Sites marchands
§ Opérateur télécom
§ Formation & MOOC
Copyright Franck Bardol 2016 6
FROM SEARCH TO DISCOVERY
CA
+35%
click
+40%
7. ¡ Apprentissage
Définition : Modification du comportement par l’expérience
¡ Machine learning
définition : Programmes executables qui :
ü apprennent les données
ü s’adaptent aux données
ü s’améliorent au cours du temps
Copyright Franck Bardol 2016 7
DATA-SCIENCE
QU’EST-CE-QUE C’EST ?
9. Copyright Franck Bardol 2016 9
QU’EST-CE QUE C’EST ?
Apprendre Généraliser
quoi ?
un concept
quand ?
sur nouvelles
données
comment ?
par l’exemple
pourquoi ?
généraliser
10. Copyright Franck Bardol 2016 10
COMMENT ÇA FONCTIONNE ?
Intuition
Hypothèses
Connaissances
Modèle /
programme Données
Données
Détecteur
schémas
cachés
Modèle/
programme
informatique
traditionnelle
informatique data
driven
X , Yf
X , Y f
fX Y
PRODUCTION
input decision predict
11. COMMENT ÇA FONCTIONNE ?
DESCRIPTEURS / FEATURES
nb_appel duree_
min
appel
internation
age categorie
_socio
type_
forfait
3 46 6 98 86 11
4 33 0 8 6 12
PREDICTION
reste_client
part
PREDICTION
part
reste_client
DESCRIPTEURS / FEATURES
nb_
appel
duree_
min
appel
internatio
n
age categori
e_socia
type_
forfait
3 46 6 98 86 11
4 33 0 8 6 12
1 - TRAIN
2 - TEST
34 7 56 2 3 - PREDICT
?
NOUVELLE DATA
BASE
D’APPRENTISSAGE
BASE DE TEST
PREDICTION
?
Copyright Franck Bardol 2016 11
13. Supervisé = exemples étiquettés
ü Régression
prédire des chiffres continus
ü Classification
prédire des étiquettes / classes / label
Copyright Franck Bardol 2016 13
APPRENTISSAGE
SUPERVISÉ
COMBIEN ?
EST-CE QUE ?
14. Supervisé = exemples étiquettés
ü Régression
prédire des chiffres continus
ü Classification
prédire des étiquettes / classes / label
Copyright Franck Bardol 2016 14
APPRENTISSAGE
SUPERVISÉ
big /
little ?
temperature
pressure stock markets
petit moyen grand très
grand ?
COMBIEN ?
EST-CE QUE ?
15. Non supervisé = pas d’étiquettes
ü Clustering
trouver des familles naturelles
ü Moteur de recommandation
Introduire de la sérendipité controllable
Copyright Franck Bardol 2016 15
APPRENTISSAGE
NON SUPERVISÉ
RESUME ?
16. Non supervisé = exemples non étiquettés
ü Clustering – anomaly detection – recommender system
§ Comprendre, explorer, simplifier les données, trouver des structures
cachées invisibles à l’oeil
Copyright Franck Bardol 2016 16
APPRENTISSAGE
NON SUPERVISÉ
CARTE TOPOLOGIQUE
300 variables économiques
(PIB/hab, accès eau, ….)
ANOMALY
DETECTION
RECOMMENDER SYSTEM
RESUME ?
17. Copyright Franck Bardol 2016 17
EXEMPLES
web log
text
text langue ?
EEG
web
log
who ?
epilepsy ?
bot?
gender ?
churn?
CRIME
where ?
when ?
predpol.com
deepinstinct.com
Malicious Code & Attacks ?
age?
click pub ?
18. ¡ Règles écrites “à la main” èapproche peu performante
¡ Pas de règles / absence d’expertise humaine
§ bio informatique
¡ Trop de règles
§ Difficulté à poser les règles, les expliquer…
§ La solution évolue
§ Reconnaissance artificielle (vision, parole, signes gestes …)
§ Voiture autonome
§ Ranking, Tracking, poursuite
§ routing computer networks
§ pub temps réel
Copyright Franck Bardol 2016 18
C’EST EFFICACE QUAND ?
pedestrian detection
19. Automatic questions – answering
Requirement :
ü never seen these words before
ü comprehension
ü time element (« before », « after », …)
ü action (« go », « pick up », …)
Copyright Franck Bardol 2016 19
EXEMPLES
www.github.com/vinhkhuc/MemN2N-babi-python
21. Copyright Franck Bardol 2016 21
DATA
Scrapping = extract info
from web sites
opendata.cern.ch
data.gov
data.gouv.fr
www = thousand more
Open Data
Scrapping
25. ¡ De quoi parle-t-on ?
Copyright Franck Bardol 2016 25
BEWARE OF THE DIMENSION
p features
(descripteurs - variables explicatives)
DIMENSION = p
V
O
L
U
M
E DATA
n
S
A
M
P
L
E
S
26. ¡ De quoi parle-t-on ?
Copyright Franck Bardol 2016 26
DIMENSION ?
DIMENSION
V
O
L
U
M
E
TECHNO
BIG DATA
STATISTICS &
MACHINE
LEARNING
ACP
ACC
SOM
n
S
A
M
P
L
E
S
27. ¡ é dimension du problème èRISQUE de …
§ é corrélation fallacieuses - spurious correlations – potentielles
Tendance aléatoire fortuite commune
http://www.tylervigen.com/spurious-correlations
§ é combinaisons fallacieuses - spurious combinations – potentielles
Combinaisons fallacieuses qui peuvent “prédire” un phénomène
é exponentielle du nombre de combinaisons entre les colonnes
§ é données nécessaires pour l’apprentissage
§ é exponentielle du nombre de lignes (samples) pour apprendre
convenablement
§ Curse of dimensionality
§ En très grande dimension, les données se trouvent toutes à égales distance.
§ Les méthode basées sur le voisinage (kNN…) échouent
Copyright Franck Bardol 2016 27
RÉDUCTION DIMENSION
DIMENSION
28. ¡ é dimension du problème èRISQUE de …
§ é complexité de la solution
§ é complexité
§ Kolmogoroff
§ MDL : Minimum Description Length
§ Occam Razor “l’explication la plus simple est toujours la meilleure”
§ nb : simple ≠ simpliste
§ ê pouvoir explicatif de la solution
§ nb : pouvoir explicatif ≠ pouvoir prédictif
§ é sur-apprentissage – over fitting (par coeur vs. généralisation)
§ é difficulté de visualiser le problème (êintuition)
Copyright Franck Bardol 2016 28
RÉDUCTION DIMENSION
DIMENSION
29. ¡ é dimension du problème èRISQUE de …
§ faire ECHOUER les méthodes statistiques et mathématiques
Exemple inspiré de
Copyright Franck Bardol 2016 29
RÉDUCTION DIMENSION
DIMENSION
30. ¡ é dimension du problème èRISQUE de …
§ faire ECHOUER les méthodes statistiques et mathématiques
§ Exemple en bio-informatique - génomique :
§ Quelques centaines de lignes (les patients - samples) vs. 100 millions de
descripteurs (les gènes extraits - features)
Copyright Franck Bardol 2016 30
RÉDUCTION DIMENSION
DIMENSION
contexte
31. ¡ é dimension du problème èRISQUE de …
§ faire ECHOUER les méthodes statistiques et mathématiques
Copyright Franck Bardol 2016 31
RÉDUCTION DIMENSION
DIMENSION
problème !
32. ¡ Pourquoi ê dimension du problème ?
Vision d’ensemble donnée par 2 des plus grands spécialistes
§ Interview de Michael Jordan
§ Interview de Vladimir Vapnik
§ fichier “interview Vapnik”
Copyright Franck Bardol 2016 32
RÉDUCTION DIMENSION
33. Copyright Franck Bardol 2016 33
METHOD
KEY SKILL = FAST PROTOTYPING
AVOID
COMPLEXITY
N
O
O
K
N
O
SIMPLEST
SOLUTION
34. Copyright Franck Bardol 2016 34
COMPETE AGAINST OTHER DATA
SCIENTIST
Key figures:
• 400K data scientists
• 2 million machine learning models
Lessons learned from previous contest :
• Top methods
• XgBoost models : for structured problems
• Deep Learning : for unstructured problems (sounds, visual, texts)
- source : Anthony Goldbloom, CEO Kaggle – www.kaggle.com
35. Copyright Franck Bardol 2016 35
COMPETE AGAINST OTHER DATA SCIENTIST
www.datascience.net
www.challengedata.ens.fr
37. ¡ Python : langage de programmation
¡ Avantages :
§ Très vaste choix de librairies gratuites
§ Courbe d’apprentissage faible
§ Communauté d’utilisateurs actifs gigantesque
§ Le langage favori des data-scientists
§ Elimine la ré-écriture complète du code prototypé par data-scientist
§ langage interprété – prototyping rapide (pas de compilation – link)
§ lisibilité du code (via identation)
¡ Inconvénients :
§ langage interprété (pas d’étape compilation – link)
§ vitesse d’exécution
Copyright Franck Bardol 2016 37
DATA-SCIENCE AVEC PYTHON
38. Copyright Franck Bardol 2016 38
OPEN SOURCE TOOLS
vision langage
general purpose
machine learningvisualization
data management
optimization …
package
thousand other tools
39. Copyright Franck Bardol 2016 39
API
portails
API
www.mashape.com
www.programmableweb.com
www.mloss.org
thousand other tools
40. ULTRA FAST PROTOTYPING
#chargement des données
— 1 import pandas as pd
— data = pd.read_csv(‘data_to_read.csv’)
#chargement d’une librairie
— 2 from sklearn import model
#chargement d’un algorithme de prédiction
— 3 clf = model.algo()
#ENTRAINEMENT sur les données d’apprentissage
— 4 clf.fit(data_train , out_train)
#TEST sur les données non vues
— 5 predict = clf.predict(data_test)
Copyright Franck Bardol 2016 40
42.
Copyright Franck Bardol 2016
42
Internet ressources : MOOC
(massive onLine open courses)
Udacity.com
coursera.org
Edx.org
france-universite-numerique.fr
moocs.epfl.ch
...
43. Copyright Franck Bardol 2016
43
• duplique le savoir d’experts
• construit des programmes exécutables de décision
• augmente la boite à outils des analystes
Prediction
TAKE HOME
Machine
Learning
Algo
Hidden
Pattern
Detector
DataTRAINING
PROD
Data
Hidden
Pattern
Detector