Debuteraveclesmls

26/10/2019
Le Machine Learning Pour
débutants Première phase
Ibrahim Ali MAHADI
ELEVE INGENIEUR INFORMATICIEN

Présenter par IBRAHIM ALI MAHADI
Élève Ingénieur Informaticien a IAI
DEBUTEZ AVEC LES MACHINES LEARNING
1
Tables des matières
Définition des termes.............................................................................................................................2
A. Données structurées / Données non-structurées :.....................................................................2
B. La data science :..........................................................................................................................2
C. Le clustering................................................................................................................................2
Introduction............................................................................................................................................3
I. Le Contexte.....................................................................................................................................4
II. Les Problématiques du ML ............................................................................................................4
III. Spécifications Technique Globale..............................................................................................5
A. Le cycle de travail........................................................................................................................5
1. La première étape du cycle.....................................................................................................5
2. La deuxième étape..................................................................................................................6
3. Troisieme tape ........................................................................................................................6
4. Derriere etape.......................................................................................................................10
B. Choix du langage.......................................................................................................................11

2
Définition des termes
A. Données structurées / Données non-structurées :
Les données structurées désignent toutes les données pouvant être intégrées dans des bases de
données relationnelles . Ce sont des données qui, par leur structure, peuvent être associées
entre elles au sein de tableaux. Les données non-structurées, à l’inverse, désignent toutes les
autres données : les fichiers audios, les fichiers vidéo, les postes sur les réseaux sociaux, les
emails, etc.
B. La data science :
Est un nouveau domaine de travail, qui augmente les capacités d’analyse classique, afin
d’aider les entreprises à prendre des décisions plus informées. Elle s’appuie pour cela de
données utiles et ne peut s’appliquer que dans certaines problématiques précises, qui gagnent
à utiliser ce type de méthodes.
C. Le clustering
Le clustering désigne les méthodes de regroupement automatique de données qui
se ressemblent le plus en un ensemble de "nuages", appelés clusters. Un ensemble
d'algorithmes non supervisés peuvent réaliser cette tâche. Ils mesurent donc de manière
automatique la similarité entre les différentes données. Par exemple, les points sur le graphe
ci-dessous peuvent être considérés comme similaires s'ils sont proches en termes de distance.

3
Introduction
Le Big data a certainement révolutionné le monde ces dernières années parmi les sujets qui
lui sont associés les Machine Learning. C’est un champ d'étude qui se fonde sur des approches
mathématiques et statistiques pour donner aux ordinateurs la capacité d’« apprendre » à partir de
données.
Elles mettent à notre disposition un ensemble de techniques puissantes permettant de créer
des modèles prédictifs à partir de données, et qui apprennent par eux-mêmes!
Une fois les données récupérées, nettoyées et explorées ; la phase de modélisation commence
avec la question comme régression ou une classification ? puis supervisée ou non
supervisée?
Et enfin débute une phase d’évaluation et d’interprétation juste avant la mise en production
de la solution.

4
I. Le Contexte
L’accumulation aujourd’hui énorme des données par les systèmes représente une énorme
opportunité et un enjeu majeur pour la survie des entreprises depuis quelques année dans notre
société
II. Problématiques du ML
La problématique commence avec les data dit-on en big data; c’est pour quoi dans cette partie
une analyse des différents problèmes pratiques est réalisée dans le but de faire un choix de
data et donc de domaine à modéliser.
En effet il existe des sites d’Open data comme Keggle
Nous pouvons citez quelques exemples de solutions de machine Learning courantes à des
problématiques d'entreprises :
• Affecter un score à un client
• Prédire la rentabilité d’une campagne marketing
• Identifier les événements rare
• Affecter une catégorie à un produit
• Segmenter les visiteurs d’un site
• Reconnaissance d’image et des textes
• Recommander un produit à un client
• Prédire les ventes d'une campagne marketing.
• Identifier si une image est déjà présente dans une banque d'image existante.
• Segmenter les utilisateurs d'un site en plusieurs groupes en fonction de leur
comportement sur le site.
• Etc…

5
III. Spécifications Technique Globale
A. Le cycle de travail
Au sein de du cycle de travail du data scientiste, le machine Learning désigne l'ensemble
des méthodes de modélisation statistique à partir des données.
1. La première étape du cycle
La récupération des données et leurs provenances dépend fortement de la problématique poser ;
par exemple: une voiture autonome générera des données à partir de ses capteurs, une entreprise de
trading récupérera les données sur des outils de marché financier, etc. Voici quelques outils un
peu généraux :
• Pour récupérer des données texte depuis des pages internet, nous allons utiliser un
outil de scraping comme scrapy en python par exemple

6
• Pours des données structurées comme SQL, on utilise leurs syntaxes de
récupération.
• Pour les données publiques Il existe des hubs comme- sur GitHub
•
2. La deuxième étape
Pour Le nettoyage et l'exploration des données En Python, l’écosystème Scipy est
universellement utilisé avec ses librairies :
• Pandas pour créer des tableaux (ou "Dataframe") à partir des données brutes,
• Numpy pour gérer des matrices,
• Matplotlib pour générer des graphiques,
• iPython pour les feuilles de calculs,
Etc…
Cette famille de librairies est très utilisée et sert en réalité de base à beaucoup de Framework de
Machine Learning que nous pourrons utiliser
3. Troisieme tape
Pour La phase de modélisation (et l’évaluation) Les modèles sont le plus souvent représentés
par un ensemble de paramètres qu'on mettra dans un vecteur. Par exemple, une droite peut
être représentée par l'équation de la droite
C’est le modèle paramétrique, et l'apprentissage du modèle revient dans ce cas à trouver la
valeur optimale du paramètre.
a) L'algorithme d'apprentissage
L'algorithme d'apprentissage constitue la méthode avec laquelle le modèle statistique va se
paramétrer à partir des données d'exemple. Il existe de nombreux algorithmes différents
Quelques exemples d'algorithmes de machine Learning, dont nous allons utiliser.

7
• La regression linéaire
• K-nn
• Les Support Vector Machine (SVM)
• Les reseaux de neurones
• Les random forests
• etc.
b) Construction d’un modèle statistique
• Pour construire notre modèle, on part d'une hypothèse de départ qui représente
l'ensemble des formes que peut prendre notre modélisation (une courbe par exemple,
mais ça peut être bien d'autres choses encore).
• En apprentissage supervisé, on cherche à trouver le modèle optimal à l'aide des
données d'entraînement. Cela consiste à faire converger une mesure appelée loss
function (fonction de perte) en utilisant des techniques d'optimisation numérique.
• Deux types de fonctions de perte souvent utilisées en apprentissage supervisé sont le
risque empirique et le maximum de vraisemblance.
• Les algorithmes de machine Learning sont une combinaison de plusieurs domaines
d'études : les statistiques (statistical learning theory), l'optimisation numérique,
l'informatique théorique, etc.
Exemple d’un modèle statistique : cas d’une régression linéaire
• À partir d'une problématique et d'un dataset, nous avons considéré une hypothèse de
travail pour contraindre le modèle : ici nous nous sommes placés dans le cas d'une
régression linéaire, qui signifie contraindre la forme du modèle à une droite.
• Nous allons décomposer l'entraînement de ce modèle sur les observations, afin de
déterminer le paramètre (pente et ordonnée à l'origine) de la droite optimale pour ces
données. C'est cette partie que l'on appelle apprentissage du modèle.
• À l'aide du modèle ainsi trouvé, nous avons effectué des prédictions de montant de
loyer à partir de n'importe quelle surface donnée

8
c) Exploitons le jeu de données
• S’il y en a beaucoup de data, on travaille d'abord avec un échantillon représentatif de
la population pour pouvoir aller plus vite.
• On sépare dès le départ en deux parties notre jeu de données : un training set pour
créer le modèle et un testing set pour tester la qualité du modèle
Exemple d’exploitation de donnée : cas de l’algo k-NN
Le k-NN est le diminutif de k Nearest Neighbors. C’est un algorithme qui peut servir autant pour la
classification que la régression. Il est surnommé « nearest neighbors » (plus proches voisins en
français) car le principe de ce modèle consiste en effet à choisir les k données les plus proches du
point étudié afin d’en prédire sa valeur.
En fait, le k-NN est un type spécial d’algorithme qui n’utilise pas de modèle statistique. Il est "non
paramétrique", et il se base uniquement sur les données d’entraînement. Ce type d’algorithme est
appelé memory-based. A contrario, la régression linéaire est paramétrique, et ne va donc pas avoir
besoin de conserver toutes les données pour effectuer des prédictions, mais seulement le paramètre
Le jeu de données que nous allons utiliser. C'est un datasets très célèbre appelé MNIST. Il est
constitué d'un ensemble de 70000 images 28x28 pixels en noir et blanc annotées du chiffre
correspondant (entre 0 et 9). L'objectif de ce jeu de données était de permettre à un ordinateur
d'apprendre à reconnaître des nombres manuscrits automatiquement (pour lire des chèques par
exemple) dispo en sur les Framework.
d) Une API pour les tests
Pour tester rapidement la viabilité du modèle nous utiliserons un API. Les plus reconnues sont
Google Cloud AI, Microsoft Azure Machine Learning et AWS Machine Learning. Ces logiciels,
hébergé dans le cloud, permettent directement de travailler sans code sur tous les aspects de la partie
modélisation et la mesure de performance.

9
e) Choix des outils
Pour les outils à utiliser. Nous avons le choix Torch, Theano, Caffe mais
surtout Tensorflow et Scikit-Learn sont les librairies les plus utilisés pour la modélisation.

10
En effet, Tensorflow est plus populaire, il permet plus de flexibilité dans l’implémentation et
permet d’aller plus loin, notamment grâce à Keras, pour la construction d’algorithmes de
Deep Learning.
4. Derriere etape
Pour le déploiement et la mise en production nous allons exporter notre modèle final et le rendre
accessible sous forme d’API sur un serveur.
Nous allons nous appuyer sur des outils robustes et spécialisés comme Hadoop.
L’image ci-dessous représente une partie de l’écosystème Hadoop avec les différentes librairies qui
répondent chacune à une utilisation spécifique de mise en place d’architecture Big Data.
L'écosystème Hadoop est très fourni et répondra à tous nos besoins pour la mise en production
Des liens sur les parcours des data Architect expliquent en détail la plupart des questions concernant
la création du data Lake et de la mise en production des Big Data.

11
B. Choix du langage
a) "R ou Python ?"
R, créé en 1993, est le langage historique des statisticiens, métier qui représente l’ancêtre de la Data
Science
Python est aussi un “vieux” langage (1991). Il est devenu plus récemment le langage de référence
pour tous les ingénieurs qui veulent effectuer rapidement des implémentations d’algorithmes
mathématiques, entre autres de Machine Learning. C’est pourquoi notre choix se porte sur ce langage.
Quel est le langage le plus recherché sur Google ?
Fin

12
“Everything we love about civilization is a product of intelligence, so amplifying our human
intelligence with artificial intelligence has the potential of helping civilization flourish like never
before – as long as we manage to keep the technology beneficial. “
Max Tegmark, Président of the Future of Life Institute
« Ce que nous aimons au sujet de la civilisation, c’est qu’il s’agit d’un produit de l’intelligence.
Ainsi, amplifier l’intelligence humaine grâce à l’intelligence artificielle peut nous permettre de
faire prospérer la civilisation comme jamais auparavant – du moins, tant que nous ferons en sorte
que la technologie nous soit bénéfique »
Max Tegmark, Président de la Future of Life Institute
https://futureoflife.org/background/benefits-risks-artificial-intelligence-french/
Sur l'aspect « éthique » du machine Learning. Pour en savoir plus C’est ici la rubrique
dédiée sur le site future of life.

Debuteraveclesmls

Recommandé

Recommandé

Contenu connexe

Similaire à Debuteraveclesmls

Similaire à Debuteraveclesmls (20)

Dernier

Dernier (11)

Debuteraveclesmls