Maching Learning

EXPOSÉ DANS LE CADRE DU MODULE
MACHINE LEARNING
 Réalisé par : GHILAS Billal
REZKELLAH Bilal 2017-2018
Train/Test Split Cross Validation
Underfitting
Vs
Overfitting
Grid search
Vs
Random search

Sélection de modèles et régularisation
1
Cross validationSur-apprentissage et Sous-apprentissage
Grid Search vs Random Search
MACHINE LEARNING
Qu’est ce que un bon modèle ? Régularisation
En machine Learning un bon modèle est un modèle qui généralise !
La généralisation, c’est la capacité d’un modèle à faire
des prédictions non seulement sur les données que
utilisées pour le construire (données d’entrainement et de
test), mais surtout sur de nouvelles données.
Cross validationSur-apprentissage et Sous-apprentissageQu’est ce que un bon modèle ? RégularisationSélection du modèle

2
Train/Test split
MACHINE LEARNING
Un modèle qui sur-apprend est un modèle qui est trop complexe par rapport à la réalité qu’il
essaie de représenter.
Un tel phénomène ce produit lorsqu'un modèle apprend le détail et le bruit dans les données
d’entrainement dans la mesure où cela a un impact négatif sur la performance du modèle
sur de nouvelles données
Cela signifie que le bruit ou les fluctuations aléatoires dans les données d'entraînement sont
ramassés et acquis comme concepts par le modèle. Le problème est que ces concepts ne
s'appliquent pas aux nouvelles données et ont un impact négatif sur la capacité des
modèles à se généraliser.
le modèle (la ligne violette) qui sépare les
points bleus des points oranges colle bien
aux données, ce qui peut poser problème Ce modèle fait des erreurs sur le jeu
d’apprentissage, mais il va probablement
mieux généraliser
Sur-apprentissage
Sélection de modèles et régularisation Grid Search vs Random Search
MACHINE LEARNING

3
Train/Test split
Grid Search vs Random Search.
MACHINE LEARNING
Le sous-apprentissage se réfère à un modèle qui ne peut ni modéliser les données
d’entrainement ni généraliser sur de nouvelles données.
Un modèle d'apprentissage machine inadéquat n'est pas un modèle approprié et sera
évident car il aura de mauvaises performances sur les données de test.
L'inadéquation n'est souvent pas discutée car elle est facile à détecter.
Le solution est de passer à autre chose et d'essayer d'autres
algorithmes d'apprentissage machine..
Ce modèle, trop simple, représente trop mal
les données pour prédire
Sous-apprentissage
MACHINE LEARNING

4
Train/Test split
MACHINE LEARNING
Un modèle simple (variance faible) risque le sous-
apprentissage (biais élevé y compris sur les données
d’entraînement).
Un modèle complexe (variance élevée) risque le sur-
apprentissage (biais faible sur les données
d’entraînement mais élevé sur de nouvelles données).
On souhaite trouver un modèle intermédiaire, vers le
creux de la courbe orange, là où le biais de prédiction
est le plus faible et la généralisation la meilleure.
Compromis biais-variance
MACHINE LEARNING

5
Train/Test split
MACHINE LEARNING
Première idée
On sépare le jeu de données en un jeu d’entraînement et un jeu de test. Le
jeu de test n’est pas utilisé pour entraîner le modèle, mais uniquement pour
l’évaluer.
jeu de test vraiment difficile ou vraiment facile à prédire
L’estimation de la performance serait biaisée
Sélection du modèle
MACHINE LEARNING

6
Train/Test split
MACHINE LEARNING
Qu’est ce que un bon modèle ? RégularisationSélection du modèle
La validation croisée va nous permettre d’utiliser l'intégralité de notre jeu de
données pour l’entraînement et pour la validation.
MACHINE LEARNING
3 Types :
Holdout cross validation
K-fold cross validation
Leave-one-out cross validation

7
Train/Test split
MACHINE LEARNING
Validation croisée ( K-Fold)
On découpe le jeu de données en k parties (folds en anglais) à peu près égales.
Tour à tour, chacune des k parties est utilisée comme jeu de test. Le reste (autrement dit, l’union des k-1 autres
parties) est utilisé pour l'entraînement.
À la fin, chaque point (ou observation) a servi 1 fois dans un jeu de test, (k-1) fois dans un jeu d'entraînement.
MACHINE LEARNING

8
Train/Test split
MACHINE LEARNING
Constat : généralement, dans les problèmes de machine Learning nous voulons
essayer plusieurs modèles pour choisir le plus performant, et ensuite donner sa
performance.
Première idée : faire une validation croisée sur l’ensemble des données, pour chaque
modèle, puis de donner la meilleure performance obtenue.
Attention ! ce n’est pas une bonne estimation de l’erreur en généralisation. En effet,
en faisant ça, nous utilisons les données de test pour choisir le modèle… Il y a un
risque de sur-apprentissage.
MACHINE LEARNING

9
Train/Test split
MACHINE LEARNING
Solution : On sépare le jeu de données
en un jeu d’entraînement et un jeu de
test. On évalue chaque modèle en
validation croisée sur le jeu
d’entraînement pour choisir le meilleur,
que l’on applique ensuite au jeu de test.
MACHINE LEARNING

10
Train/Test split
MACHINE LEARNING
La régularisation dans les mathématiques et les statistiques est
le processus d'introduire de nouvelle information pour résoudre
les problèmes mal-posés et de prévenir le sur-apprentissage.
Dans la regression, la régularisation consiste à ajouter une
fonction R(f) à la fonction erreur.
V : fonction d’erreur.
λ : paramètre de contrôle de l’importance de terme de
régularisation R(f) .
MACHINE LEARNING

11
Train/Test split Grid Search vs Random Search
MACHINE LEARNING
Grid Search Random Search Grid Search vs Random Search
La manière traditionnelle d'effectuer une optimisation hyperparamétrique a
été la recherche de grille ou un balayage de paramètres, qui est simplement
une recherche exhaustive à travers un sous-ensemble spécifié
manuellement de l'espace hyperparamètre d'un algorithme d'apprentissage.
Un algorithme de recherche de grille doit être guidé par une métrique de
performance, généralement mesurée par validation croisée sur l'ensemble
de formation ou évaluation sur un ensemble de validation retenu.
MACHINE LEARNING

12
MACHINE LEARNING
Étant donné que la recherche par grille est une méthode exhaustive et donc
potentiellement coûteuse, plusieurs alternatives ont été proposées. En
particulier, la recherche aléatoire qui tente des combinaisons aléatoires d'une
gamme de valeurs (nous devons définir le nombre d’itérations).
Il est bon de tester un large éventail de valeurs et, normalement, il atteint une
très bonne combinaison très rapidement.
MACHINE LEARNING

13
MACHINE LEARNING
Grid search
 Recherche exhaustive
 Meilleur combinaison obtenu
 Couteux en terme de temps d’exécution
 Non adapté lorsque le nombre
d’hyperparamètre est élevé
Random search
 Recherche dans une gamme de valeurs
 Meilleur combinaison non garantit
 Moins couteux en terme de temps d’exécution
 Plus adapté lorsque le nombre d’hyperparamètre est
élevé
MACHINE LEARNING

Références
Chloé-Aguathe Azencott (publication 28 juil 2017). «Évaluez et améliorez les performances d'un
modèle de machine learning », sur le site openclassrooms.
https://openclassrooms.com/courses/evaluez-et-ameliorez-les-performances-d-un-modele-de-
machine-learning/comprenez-ce-qui-fait-un-bon-modele-d-apprentissage
Sebastian Raschka (publication 2 oct 2016). «Model evaluation, model selection,
and algorithm selection in machine learning»,sur le blog SebastianRaschka.
https://sebastianraschka.com/blog/2016/model-evaluation-selection-part3.html

Maching Learning

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (20)

Maching Learning

Notes de l'éditeur