Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Maching Learning
1. EXPOSÉ DANS LE CADRE DU MODULE
MACHINE LEARNING
Réalisé par : GHILAS Billal
REZKELLAH Bilal 2017-2018
Train/Test Split Cross Validation
Underfitting
Vs
Overfitting
Grid search
Vs
Random search
2. Sélection de modèles et régularisation
1
Cross validationSur-apprentissage et Sous-apprentissage
Grid Search vs Random Search
MACHINE LEARNING
Qu’est ce que un bon modèle ? Régularisation
En machine Learning un bon modèle est un modèle qui généralise !
La généralisation, c’est la capacité d’un modèle à faire
des prédictions non seulement sur les données que
utilisées pour le construire (données d’entrainement et de
test), mais surtout sur de nouvelles données.
Cross validationSur-apprentissage et Sous-apprentissageQu’est ce que un bon modèle ? RégularisationSélection du modèle
3. Sélection de modèles et régularisation
2
Train/Test split
Cross validationSur-apprentissage et Sous-apprentissage
Grid Search vs Random Search
MACHINE LEARNING
Qu’est ce que un bon modèle ? Régularisation
Un modèle qui sur-apprend est un modèle qui est trop complexe par rapport à la réalité qu’il
essaie de représenter.
Un tel phénomène ce produit lorsqu'un modèle apprend le détail et le bruit dans les données
d’entrainement dans la mesure où cela a un impact négatif sur la performance du modèle
sur de nouvelles données
Cela signifie que le bruit ou les fluctuations aléatoires dans les données d'entraînement sont
ramassés et acquis comme concepts par le modèle. Le problème est que ces concepts ne
s'appliquent pas aux nouvelles données et ont un impact négatif sur la capacité des
modèles à se généraliser.
le modèle (la ligne violette) qui sépare les
points bleus des points oranges colle bien
aux données, ce qui peut poser problème Ce modèle fait des erreurs sur le jeu
d’apprentissage, mais il va probablement
mieux généraliser
Sur-apprentissage
Cross validationSur-apprentissage et Sous-apprentissageQu’est ce que un bon modèle ? RégularisationSélection du modèle
Sélection de modèles et régularisation Grid Search vs Random Search
MACHINE LEARNING
4. Sélection de modèles et régularisation
3
Train/Test split
Cross validationSur-apprentissage et Sous-apprentissage
Grid Search vs Random Search.
MACHINE LEARNING
Qu’est ce que un bon modèle ? Régularisation
Le sous-apprentissage se réfère à un modèle qui ne peut ni modéliser les données
d’entrainement ni généraliser sur de nouvelles données.
Un modèle d'apprentissage machine inadéquat n'est pas un modèle approprié et sera
évident car il aura de mauvaises performances sur les données de test.
L'inadéquation n'est souvent pas discutée car elle est facile à détecter.
Le solution est de passer à autre chose et d'essayer d'autres
algorithmes d'apprentissage machine..
Ce modèle, trop simple, représente trop mal
les données pour prédire
Sous-apprentissage
Cross validationSur-apprentissage et Sous-apprentissageQu’est ce que un bon modèle ? RégularisationSélection du modèle
Sélection de modèles et régularisation Grid Search vs Random Search
MACHINE LEARNING
5. Sélection de modèles et régularisation
4
Train/Test split
Cross validationSur-apprentissage et Sous-apprentissage
Grid Search vs Random Search
MACHINE LEARNING
Qu’est ce que un bon modèle ? Régularisation
Un modèle simple (variance faible) risque le sous-
apprentissage (biais élevé y compris sur les données
d’entraînement).
Un modèle complexe (variance élevée) risque le sur-
apprentissage (biais faible sur les données
d’entraînement mais élevé sur de nouvelles données).
On souhaite trouver un modèle intermédiaire, vers le
creux de la courbe orange, là où le biais de prédiction
est le plus faible et la généralisation la meilleure.
Compromis biais-variance
Cross validationSur-apprentissage et Sous-apprentissageQu’est ce que un bon modèle ? RégularisationSélection du modèle
Sélection de modèles et régularisation Grid Search vs Random Search
MACHINE LEARNING
6. Sélection de modèles et régularisation
5
Train/Test split
Cross validationSur-apprentissage et Sous-apprentissage
Grid Search vs Random Search
MACHINE LEARNING
Qu’est ce que un bon modèle ? Régularisation
Première idée
On sépare le jeu de données en un jeu d’entraînement et un jeu de test. Le
jeu de test n’est pas utilisé pour entraîner le modèle, mais uniquement pour
l’évaluer.
jeu de test vraiment difficile ou vraiment facile à prédire
L’estimation de la performance serait biaisée
Sélection du modèle
Sélection de modèles et régularisation Grid Search vs Random Search
MACHINE LEARNING
7. Sélection de modèles et régularisation
6
Train/Test split
Cross validationSur-apprentissage et Sous-apprentissage
Grid Search vs Random Search
MACHINE LEARNING
Qu’est ce que un bon modèle ? RégularisationSélection du modèle
La validation croisée va nous permettre d’utiliser l'intégralité de notre jeu de
données pour l’entraînement et pour la validation.
Sélection de modèles et régularisation Grid Search vs Random Search
MACHINE LEARNING
3 Types :
Holdout cross validation
K-fold cross validation
Leave-one-out cross validation
8. Sélection de modèles et régularisation
7
Train/Test split
Cross validationSur-apprentissage et Sous-apprentissage
Grid Search vs Random Search
MACHINE LEARNING
Qu’est ce que un bon modèle ? RégularisationSélection du modèle
Validation croisée ( K-Fold)
On découpe le jeu de données en k parties (folds en anglais) à peu près égales.
Tour à tour, chacune des k parties est utilisée comme jeu de test. Le reste (autrement dit, l’union des k-1 autres
parties) est utilisé pour l'entraînement.
À la fin, chaque point (ou observation) a servi 1 fois dans un jeu de test, (k-1) fois dans un jeu d'entraînement.
Sélection de modèles et régularisation Grid Search vs Random Search
MACHINE LEARNING
9. Sélection de modèles et régularisation
8
Train/Test split
Cross validationSur-apprentissage et Sous-apprentissage
Grid Search vs Random Search
MACHINE LEARNING
Qu’est ce que un bon modèle ? RégularisationSélection du modèle
Constat : généralement, dans les problèmes de machine Learning nous voulons
essayer plusieurs modèles pour choisir le plus performant, et ensuite donner sa
performance.
Première idée : faire une validation croisée sur l’ensemble des données, pour chaque
modèle, puis de donner la meilleure performance obtenue.
Attention ! ce n’est pas une bonne estimation de l’erreur en généralisation. En effet,
en faisant ça, nous utilisons les données de test pour choisir le modèle… Il y a un
risque de sur-apprentissage.
Sélection de modèles et régularisation Grid Search vs Random Search
MACHINE LEARNING
10. Sélection de modèles et régularisation
9
Train/Test split
Cross validationSur-apprentissage et Sous-apprentissage
Grid Search vs Random Search
MACHINE LEARNING
Qu’est ce que un bon modèle ? RégularisationSélection du modèle
Solution : On sépare le jeu de données
en un jeu d’entraînement et un jeu de
test. On évalue chaque modèle en
validation croisée sur le jeu
d’entraînement pour choisir le meilleur,
que l’on applique ensuite au jeu de test.
Sélection de modèles et régularisation Grid Search vs Random Search
MACHINE LEARNING
11. Sélection de modèles et régularisation
10
Train/Test split
Cross validationSur-apprentissage et Sous-apprentissage
Grid Search vs Random Search
MACHINE LEARNING
Qu’est ce que un bon modèle ? RégularisationSélection du modèle
La régularisation dans les mathématiques et les statistiques est
le processus d'introduire de nouvelle information pour résoudre
les problèmes mal-posés et de prévenir le sur-apprentissage.
Dans la regression, la régularisation consiste à ajouter une
fonction R(f) à la fonction erreur.
V : fonction d’erreur.
λ : paramètre de contrôle de l’importance de terme de
régularisation R(f) .
Sélection de modèles et régularisation Grid Search vs Random Search
MACHINE LEARNING
12. Sélection de modèles et régularisation
11
Train/Test split Grid Search vs Random Search
MACHINE LEARNING
Grid Search Random Search Grid Search vs Random Search
La manière traditionnelle d'effectuer une optimisation hyperparamétrique a
été la recherche de grille ou un balayage de paramètres, qui est simplement
une recherche exhaustive à travers un sous-ensemble spécifié
manuellement de l'espace hyperparamètre d'un algorithme d'apprentissage.
Un algorithme de recherche de grille doit être guidé par une métrique de
performance, généralement mesurée par validation croisée sur l'ensemble
de formation ou évaluation sur un ensemble de validation retenu.
Sélection de modèles et régularisation Grid Search vs Random Search
MACHINE LEARNING
13. Sélection de modèles et régularisation
12
Train/Test split Grid Search vs Random Search
MACHINE LEARNING
Grid Search Random Search Grid Search vs Random Search
Étant donné que la recherche par grille est une méthode exhaustive et donc
potentiellement coûteuse, plusieurs alternatives ont été proposées. En
particulier, la recherche aléatoire qui tente des combinaisons aléatoires d'une
gamme de valeurs (nous devons définir le nombre d’itérations).
Il est bon de tester un large éventail de valeurs et, normalement, il atteint une
très bonne combinaison très rapidement.
Sélection de modèles et régularisation Grid Search vs Random Search
MACHINE LEARNING
14. Sélection de modèles et régularisation
13
Train/Test split Grid Search vs Random Search
MACHINE LEARNING
Grid Search Random Search Grid Search vs Random Search
Grid search
Recherche exhaustive
Meilleur combinaison obtenu
Couteux en terme de temps d’exécution
Non adapté lorsque le nombre
d’hyperparamètre est élevé
Random search
Recherche dans une gamme de valeurs
Meilleur combinaison non garantit
Moins couteux en terme de temps d’exécution
Plus adapté lorsque le nombre d’hyperparamètre est
élevé
Sélection de modèles et régularisation Grid Search vs Random Search
MACHINE LEARNING
15.
16. Références
Chloé-Aguathe Azencott (publication 28 juil 2017). «Évaluez et améliorez les performances d'un
modèle de machine learning », sur le site openclassrooms.
https://openclassrooms.com/courses/evaluez-et-ameliorez-les-performances-d-un-modele-de-
machine-learning/comprenez-ce-qui-fait-un-bon-modele-d-apprentissage
Sebastian Raschka (publication 2 oct 2016). «Model evaluation, model selection,
and algorithm selection in machine learning»,sur le blog SebastianRaschka.
https://sebastianraschka.com/blog/2016/model-evaluation-selection-part3.html
Notes de l'éditeur
Le concept de compromis biais-variance nous permet de bien résumer la situation :
Repartition stratifiée
Comment peut-on mesurer la performance d’un modèle?
Repartition stratifiée(equitable)
Comment peut-on mesurer la performance d’un modèle?
Holdout
K-fold
Leave-one-out
Comment peut-on mesurer la performance d’un modèle?
Holdout
K-fold
Leave-one-out