3. M L / D L
- D A N S Q U E L L E P H A S E I N T E R V I E N T L E
M A C H I N E L E A R N I N G ?
- Q U E L S A L G O R I T H M E S U T L I S E R ?
- M A C H I N E L E A R N I N G E T D E E P
L E A R N I N G
INTRODUCTION
5. LES ALGORITHMES DE MACHINE LEARNING:
https://www.slideshare.net/awahid/big-data-and-machine-learning-for-businesses
6. Les classes sont connues.
Prédire les classes à partir d'une
base d'apprentissage.
La sortie est une catégorie.
CLASSIFICATION
7. Principe: calcule la distance entre deux
observations, il rend une décision en
minimisant la distance entre les membres des
différentes classes.
Avantage: - robuste au sur-apprentissage
- Modélisation non linéaire
Problèmes: - Consommation de mémoire
- Non adéquat pour les
traitements parallèles et
incrémentaux.
1-SVM
8. Prédiction linéaire.
La sortie peut prendre deux
valeurs.
Basée sur la fonction logistique.
Sur-apprentissage: faible
probabilité
Non adéquat pour les relations
complexes: non linéaire.
2-RÉGRESSION
LOGISTIQUE
9. Le nombre K est pré-fixé.
Calcule de la distance:
* Distance euclidienne
* Distance de Minkowski
* Distance de Manhattan...
Le choix est basé sur un calcule de
probabilité.
Dédié au nombre limité d'entrées.
3- KNN
10. La construction de l'arbre avec CART ou
bien ID3 .
Avantages: Simplicité de compréhension
Robustesse
Fonctionnel pour les problème
non linéaires.
Inconvénients: le sur-apprentissage.
4-ARBRE DE
DÉCISION
11. La Régression:
Les algorithmes de régression permettent de prédire des valeurs
continues à partir des variables prédictives.
Un algorithme de régression permet de trouver un modèle en
fonction des données d’entrainement.
Le modèle calculé permettra de donner une estimation sur une
nouvelle donnée non encore vue par l’algorithme.
12. Principe: trouver une droite qui se
rapproche le plus d'un ensemble de points.
Avantages: performant pour les données
linéaires
Inconvénients: - limité aux relations
linéaires.
- Les données doivent être
indépendantes
1-RÉGRESSION
LINÉAIRE
13. Une arborescence de régression peut être
considérée comme une variante des arbres
de décision, conçue pour approximer des
fonctions à valeur réelle, au lieu d'être
utilisée pour des méthodes de classification.
2- ARBRE DE
RÉGRESSION
14. 3- RANDOM FOREST
Une forêt de regression est une collection d'arbres de regression formés au hasard.
Avantage : Interprétabilité.
Inconvénient : Lent pour créer des prédictions après la phase d'entrainement .
16. K est le nombre de clusters à
obtenir.
Traitement itératif.
Avantages: -Simplicité
-Adéquat pour les
grandes masses de
données.
Inconvénients: -le nombre k est
prédéfini
- le résultat dépend
du choix des
centres initiaux.
1-KMEANS
17. Association
Type de données: Données non étiquetées.
Principe: Permet de déterminer les relations
entre les différents attributs.
18. Détermine les règles d'association
dans un jeu de données.
Traitement itératif.
Avantage: Simple à utiliser
Inconvénient: Un nombre
considérable d'accès à la base de
données.
1-APRIORI
25. APPRENTISSAGE PROFOND: DEEP LEARNING
Le deep learning est une méthode d'apprentissage qui utilise des réseaux de
neurones à plusieurs couches.
Les réseaux à couches multiples existaient depuis des années, ce qui est
nouveau, c'est les algorithmes d'apprentissage
Un réseau de neurones profond consiste en une hiérarchie de couches, chacune
transforme les données d'entrée en une représentation plus abstraite.
27. PROBLÈMES DES ALGORITHMES ML:
Sur-apprentissage: quand le modèle devient trop lié à la base
d'apprentissage et se généralise mal.
Sous-apprentissage: Le modèle est incapable de fournir des prédictions
précises.
28. RÉDUCTION DE L'OVERFITTING :
Réduire la taille du réseau.
Validation croisée (séparation du données en partie d'apprentissage et partie
de validation).
Régularisation (weight decay : pénaliser les grand poids).
29. G R A N D S N O M B R E S D ' A L G O R I T H M E S
B E S O I N D E S É T A P E S D E P R É P A R A T I O N
E T D E S T R U C T U R A T I O N .
CONCLUSION ET
PERSPECTIVES
Quels outils permettant de faciliter et d'automatiser ces tâches ?
30. NOS SOURCES
Master Machine Learning Algorithms. Jason Brownlee.
https://machinelearningmastery.com/overfitting-and-underfitting-with-machine-
learning-algorithms/
http://neuralnetworksanddeeplearning.com
https://mrmint.fr/overfitting-et-underfitting-quand-vos-algorithmes-de-machine-
learning-derapent
https://docs.microsoft.com/en-us/azure/machine-learning/studio/algorithm-choice
33. A B P E N S
ID3
Initialisation par un arbre vide
Calcule de l'entropie totale .
On prend attribut par attribut.
Pour chaque valeur d'attribut on calcule sa
probabilité et son entropie.
On calcule le gain en information de chaque
attribut.
L'attribut qui a le gain le plus important sera
sélectionné.
Traitement itératif.
34. A B P E N S
CART
Répartition des données sur des groupes.
Poser toutes les questions possibles.
Evaluation de l'arbre obtenu
35. A B P E N S
GRADIANT DESCENT
Choisir une fonction coût
Fixer les paramètre initiaux (nombre aléatoire de
gauss avec un petit écart type)
Calculer le gradiant de cette fonction dans cette
position
Mise à jour de la position en fonction du gradiant