Version DRAFT d'une formation Data Scientist que j'ai conçue à partir de sources diverses (voir références bibliographiques à la fin de chaque diapositive).
La formation est destinée aux personnes possédant des bases (~BAC+2) en statistiques et programmation (j'utilise R).
Je reste ouvert à tout commentaire, critique et correction. Je continuerai à mettre à jour les diapositives et à en ajouter d'autres si j'ai le temps.
TP Fouille de données (Data Mining) et Apprentissage MachineBoubaker KHMILI
Importation, Exploration et Correction des données.
Modélisation prédictive en utilisant l’apprentissage machine : Régression linéaire, Arbre de décision et Forêt d'arbres décisionnels
1 hour to browse the algos stars of machine learning. No code, big concepts with a little math. Linear regression, classification (logistic regression / svm / tree), neural network, deep learning...
Le suivi des process de production fait l'objet d'une littérature abondante. le SPC (MSP) est une technique qui a pénétré le monde des process "séries". Force est néanmoins de constater que la mesure, et les incertitudes associées, sont rarement considérées. Et pourtant ...
Ce sert à décrire les modèles de probabilités qui seront utilisé dans le cours de probabilité. il sera utile aux étudiants de premières années des sections de gestion.
Apprentissage par interaction est une idée fondamentale que sous-tend un grand
nombre de théories sur l’intelligence et l’apprentissage. Cette interaction avec l’environnement permet de réaliser un ensemble d’informations sur les causes et effets des actions
afin d’atteindre les objectifs poursuivis. C’est de cette forme d’apprentissage qu’est tiré
l’Apprentissage par Renforcement.
Le but de ce document est de fournir une introduction à l’Apprentissage par Renforcement à un niveau facile à comprendre. Par ce dernier nous présentons le formalisme,
les principaux algorithmes et leurs performances, une implémentation de base, et les différentes applications sur l’Apprentissage par Renforcement.
Ce TD est celui du cours "L1 COURS Numérique et Société".
Il vise, par une introduction à la manipulation des données, la compréhension de l'open data dans la perspectives d'une data analyse. On y apprend à utiliser Un Tableau et un outil de visualisation des données.
Version DRAFT d'une formation Data Scientist que j'ai conçue à partir de sources diverses (voir références bibliographiques à la fin de chaque diapositive).
La formation est destinée aux personnes possédant des bases (~BAC+2) en statistiques et programmation (j'utilise R).
Je reste ouvert à tout commentaire, critique et correction. Je continuerai à mettre à jour les diapositives et à en ajouter d'autres si j'ai le temps.
TP Fouille de données (Data Mining) et Apprentissage MachineBoubaker KHMILI
Importation, Exploration et Correction des données.
Modélisation prédictive en utilisant l’apprentissage machine : Régression linéaire, Arbre de décision et Forêt d'arbres décisionnels
1 hour to browse the algos stars of machine learning. No code, big concepts with a little math. Linear regression, classification (logistic regression / svm / tree), neural network, deep learning...
Le suivi des process de production fait l'objet d'une littérature abondante. le SPC (MSP) est une technique qui a pénétré le monde des process "séries". Force est néanmoins de constater que la mesure, et les incertitudes associées, sont rarement considérées. Et pourtant ...
Ce sert à décrire les modèles de probabilités qui seront utilisé dans le cours de probabilité. il sera utile aux étudiants de premières années des sections de gestion.
Apprentissage par interaction est une idée fondamentale que sous-tend un grand
nombre de théories sur l’intelligence et l’apprentissage. Cette interaction avec l’environnement permet de réaliser un ensemble d’informations sur les causes et effets des actions
afin d’atteindre les objectifs poursuivis. C’est de cette forme d’apprentissage qu’est tiré
l’Apprentissage par Renforcement.
Le but de ce document est de fournir une introduction à l’Apprentissage par Renforcement à un niveau facile à comprendre. Par ce dernier nous présentons le formalisme,
les principaux algorithmes et leurs performances, une implémentation de base, et les différentes applications sur l’Apprentissage par Renforcement.
Ce TD est celui du cours "L1 COURS Numérique et Société".
Il vise, par une introduction à la manipulation des données, la compréhension de l'open data dans la perspectives d'une data analyse. On y apprend à utiliser Un Tableau et un outil de visualisation des données.
Alternative - Complément au Tramway et 3ème lien de la ville de Québec Daniel Bedard
An update of this presentation has been done with Slide 16 that has been updated and 17 has been added, only.
Cette présentation a été ajournée avec la diapo 16 qui a été modifié et la 17 qui a été ajouté.
Voir ici
https://www.slideshare.net/slideshow/alternative-au-tramway-de-la-ville-de-quebec-rev1-sum-pdf/269691794
CDPQ Infra dévoile un plan de mobilité de 15 G$ sur 15 ans pour la région de Québec. Une alternative plus économique et rapide, ne serait-elle pas posssible?
- Valoriser les infrastructures ferroviaires du CN, en créant un Réseau Express Métropolitain (REM) plutôt qu'un nouveau tramway ou une combinaison des 2.
- Optimiser l'utilisation des rails pour un transport combiné des marchandises et des personnes, en accordant une priorité aux déplacements des personnes aux heures de pointes.
- Intégrer un téléphérique transrives comme 3ème lien urbain dédiés aux piétons et cyclistes avec correspondance avec le REM.
- Le 3 ème lien routier est repensé en intégrant un tunnel routier qui se prolonge avec le nouveau pont de l'Île d'Orléans et quelques réaménagemet de ses chausées.
https://www.linkedin.com/in/bedarddaniel/
English:
CDPQ Infra unveils a $15 billion, 15-year mobility plan for the Quebec region. Wouldn't a more economical and faster alternative be possible?
Leverage CN's railway infrastructure by creating a Metropolitan Express Network (REM) instead of a new tramway or a combination of both.
Optimize the use of rails for combined freight and passenger transport, giving priority to passenger travel during peak hours.
Integrate a cross-river cable car as a third urban link dedicated to pedestrians and cyclists, with connections to the REM.
Rethink the third road link by integrating a road tunnel that extends with the new Île d'Orléans bridge and some reconfiguration of its lanes.
https://www.linkedin.com/in/bedarddaniel/
2. Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 2
Tableau de données
Success Wages Job Refunding
Y 0 Unemployed Slow
N 2000 Skilled Worker Slow
N 1400 Worker Slow
N 1573 Retired Slow
Y 2776 Skilled Worker Slow
N 2439 Retired Fast
N 862 Office employee Slow
Y 1400 Salesman Slow
N 1700 Skilled Worker Slow
Y 785 Employee Fast
Y 1274 Worker Slow
N 960 Employee Fast
N 1656 Worker Fast
N 0 Unemployed Slow
Variables, caractères, attributs,
Descripteurs, champs, etc.
Individus, observations, objets, enregistrements, etc.
3. Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 3
Statut des variables
Variable à prédire
Attribut classe
Variable endogène
Nécessairement discrète nominale
(qualitative)
Success Wages Job Refunding
Y 0 Unemployed Slow
N 2000 Skilled Worker Slow
N 1400 Worker Slow
N 1573 Retired Slow
Y 2776 Skilled Worker Slow
N 2439 Retired Fast
N 862 Office employee Slow
Y 1400 Salesman Slow
N 1700 Skilled Worker Slow
Y 785 Employee Fast
Y 1274 Worker Slow
N 960 Employee Fast
N 1656 Worker Fast
N 0 Unemployed Slow
Variables prédictives
Descripteurs
Variables exogènes
De type quelconque
(nominale, ordinale, continue)
4. Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 4
Principes de l’apprentissage supervisé
Population
es)
(quelconqu
exogènes
variables
e
qualitativ
,
(endogène)
prédire
à
variable
X
Y
Une série de variables
X=(x1|…|xp)
On veut construire une fonction de classement telle que
)
,
(
X
f
Y
Objet de l ’étude
Utiliser un échantillon a (extraite de la population) pour
choisir la fonction f et ses paramètres telle que l ’on
minimise l ’erreur théorique
Objectif de
l ’apprentissage
)
ˆ
,
(
ˆ
0
)
ˆ
,
(
ˆ
1
[.]
)]
ˆ
,
(
ˆ
,
[
)
(
1
X
f
Y
si
X
f
Y
si
où
X
f
Y
card
ET Problèmes :
il faut choisir une famille de fonction
il faut estimer les paramètres
on utilise un échantillon pour optimiser
sur la population
5. Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 5
Apprentissage bayésien
(cas particulier du problème à 2 classes – Positifs vs. Négatifs)
Apprentissage en 2 étapes à partir des données :
• estimer la probabilité d’affectation P(Y / X)
• prédire [Y = +] si P(Y = + / X) > P(Y = - / X)
Remarques :
• P(Y = + / X) est selon le cas appelé « score » ou « appétence » : c’est
la « propension à être un positif »
• Cette méthode d’affectation minimise l’erreur de prédiction -- c’est
un cas particulier du coût de mauvaise affectation
6. Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 6
Apprentissage bayésien
(généralisation à K classes)
Apprentissage en 2 étapes à partir des données :
• estimer la probabilité d’affectation
• prédire
)
/
( X
y
Y
P k
)
/
(
max
arg
* X
y
Y
P
y k
k
k
Remarque : Lorsque les X sont discrets, nous pouvons en déduire un
modèle logique d’affectation.
Si X1 = ? et X2 = ? et X3 = ? … Alors Y = ?
prémisse conclusion
7. Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 7
Apprentissage bayésien -- Exemple
Maladie Poids Taille Marié Etud.Sup
Présent 45 Trapu Non Oui
Présent 57 Elancé Non Oui
Absent 59 Elancé Non Non
Absent 61 Trapu Oui Oui
Présent 65 Elancé Non Oui
Absent 68 Elancé Non Non
Absent 70 Trapu Oui Non
Présent 72 Trapu Non Oui
Absent 78 Trapu Oui Non
Présent 80 Elancé Oui Non
Y X
• SI taille = ? ALORS Maladie = ?
• SI taille = ? ET etud.sup = ? ALORS Maladie = ?
8. Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 8
Avantages et inconvénient du modèle bayésien complet
Optimale, elle minimise l’erreur théorique
Pas de solution directe pour les descripteurs continus
(discrétisation ou hypothèse de distribution)
Pas de sélection et d’évaluation des descripteurs
(individuellement ou des groupes de variables – donc pas de sélection)
Dès que le nombre de descripteurs augmente
• Problème de calculabilité
Nombre d’opérations énorme, ex. 10 descr. Binaires => 2^10 règles
• Problème de fragmentation des données
Plein de cases avec des 0, estimations peu fiables
Cette approche n’est pas utilisable dans la pratique !
9. Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 9
Évaluation de l’apprentissage
Compréhensibilité
Rapidité
Précision
Le modèle exprime une « connaissance »
Explication : comprendre la causalité pour mieux l’exploiter
Validation : l’expert peut évaluer la pertinence de l’expertise
Amélioration : l’expert peut intervenir pour ajuster les paramètres
calculés (ex. les bornes de discrétisation)
En apprentissage pouvoir tester plusieurs pistes (ajout de variables,
test de combinaison de variables, modifications de paramètres, etc.)
En classement, affecter une étiquette à un nouvel individu
Facilité de mise à jour du modèle (cf. la notion d’incrémentalité)
Évaluer la précision (qualité) du modèle lors de son utilisation future
10. Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 10
Évaluation de l’apprentissage – Matrice de confusion
Principe : confronter la valeur observée avec la prédiction
+ - Total
+ a b a+b
- c d c+d
Total a+c b+d n
Prédite
Observée
Quelques indicateurs :
• Vrais positifs VP = a
• Faux positifs FP = c
• Taux d’erreur = (c+b)/n
• Sensibilité = Rappel = Taux de VP = a/(a+b)
• Précision = a/(a+c)
• Taux de FP = c/(c+d)
• Spécificité = d/(c+d) = 1 – Taux de FP
11. Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 11
Évaluation – Les coûts de mauvaise affectation
+ - Total
+ 40 10 50
- 20 30 50
Total 60 40 100
Prédite
Observée
Comparaison de deux méthodes d’apprentissage
+ - Total
+ 20 30 50
- 0 50 50
Total 20 80 100
Prédite
Observée
Une information complémentaire
La matrice de coûts de mauvais classement
+ -
+ 0 5
- 1 0
Prédite
Observée
Coût moyen de mauvaise affectation (dont le taux d’erreur est un cas particulier)
Calculer les indicateurs synthétiques et comparer
12. Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 12
Évaluation – Le principe apprentissage & test
Problème : un fichier ne peut pas être juge et partie
Dans ce cas, les indicateurs calculés sont dit « de resubstitution »
On sait qu’ils sont biaisés -- trop optimistes
Success Wages Job Refunding
Y 0 Unemployed Slow
N 2000 Skilled Worker Slow
N 1400 Worker Slow
N 1573 Retired Slow
Y 2776 Skilled Worker Slow
N 2439 Retired Fast
N 862 Office employee Slow
Y 1400 Salesman Slow
N 1700 Skilled Worker Slow
Y 785 Employee Fast
Y 1274 Worker Slow
N 960 Employee Fast
N 1656 Worker Fast
N 0 Unemployed Slow
Subdivision aléatoire
Échantillon d’apprentissage
Utilisé pour la construction du modèle
70%
Échantillon test
Utilisé pour l’évaluation du modèle
30%
Rappel, précision, taux d’erreur…
(exercice : fichier LOAN – Success vs. Housing & Refunding)…
13. Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 13
Bibliographique : compréhension des méthodes supervisées
• « Analyse discriminante – Application au risque et au scoring financier », M.
Bardos, ed. Dunod, 2001.
Technique pratique, avec de bons repères théoriques, tourné vers les applications
• « The elements of statistical learning - Data Mining, Inference and
Prediction », T. Hastie, R. Tibshirani, J. Friedman, Springer 2001.
Très technique, encyclopédique, indispensable pour la recherche, à lire plusieurs fois