SlideShare une entreprise Scribd logo
26/10/2019
Le Machine Learning Pour
débutants Première phase
Ibrahim Ali MAHADI
ELEVE INGENIEUR INFORMATICIEN
Présenter par IBRAHIM ALI MAHADI
Élève Ingénieur Informaticien a IAI
DEBUTEZ AVEC LES MACHINES LEARNING
1
Tables des matières
Définition des termes.............................................................................................................................2
A. Données structurées / Données non-structurées :.....................................................................2
B. La data science :..........................................................................................................................2
C. Le clustering................................................................................................................................2
Introduction............................................................................................................................................3
I. Le Contexte.....................................................................................................................................4
II. Les Problématiques du ML ............................................................................................................4
III. Spécifications Technique Globale..............................................................................................5
A. Le cycle de travail........................................................................................................................5
1. La première étape du cycle.....................................................................................................5
2. La deuxième étape..................................................................................................................6
3. Troisieme tape ........................................................................................................................6
4. Derriere etape.......................................................................................................................10
B. Choix du langage.......................................................................................................................11
Présenter par IBRAHIM ALI MAHADI
Élève Ingénieur Informaticien a IAI
DEBUTEZ AVEC LES MACHINES LEARNING
2
Définition des termes
A. Données structurées / Données non-structurées :
Les données structurées désignent toutes les données pouvant être intégrées dans des bases de
données relationnelles . Ce sont des données qui, par leur structure, peuvent être associées
entre elles au sein de tableaux. Les données non-structurées, à l’inverse, désignent toutes les
autres données : les fichiers audios, les fichiers vidéo, les postes sur les réseaux sociaux, les
emails, etc.
B. La data science :
Est un nouveau domaine de travail, qui augmente les capacités d’analyse classique, afin
d’aider les entreprises à prendre des décisions plus informées. Elle s’appuie pour cela de
données utiles et ne peut s’appliquer que dans certaines problématiques précises, qui gagnent
à utiliser ce type de méthodes.
C. Le clustering
Le clustering désigne les méthodes de regroupement automatique de données qui
se ressemblent le plus en un ensemble de "nuages", appelés clusters. Un ensemble
d'algorithmes non supervisés peuvent réaliser cette tâche. Ils mesurent donc de manière
automatique la similarité entre les différentes données. Par exemple, les points sur le graphe
ci-dessous peuvent être considérés comme similaires s'ils sont proches en termes de distance.
Présenter par IBRAHIM ALI MAHADI
Élève Ingénieur Informaticien a IAI
DEBUTEZ AVEC LES MACHINES LEARNING
3
Introduction
Le Big data a certainement révolutionné le monde ces dernières années parmi les sujets qui
lui sont associés les Machine Learning. C’est un champ d'étude qui se fonde sur des approches
mathématiques et statistiques pour donner aux ordinateurs la capacité d’« apprendre » à partir de
données.
Elles mettent à notre disposition un ensemble de techniques puissantes permettant de créer
des modèles prédictifs à partir de données, et qui apprennent par eux-mêmes!
Une fois les données récupérées, nettoyées et explorées ; la phase de modélisation commence
avec la question comme régression ou une classification ? puis supervisée ou non
supervisée?
Et enfin débute une phase d’évaluation et d’interprétation juste avant la mise en production
de la solution.
Présenter par IBRAHIM ALI MAHADI
Élève Ingénieur Informaticien a IAI
DEBUTEZ AVEC LES MACHINES LEARNING
4
I. Le Contexte
L’accumulation aujourd’hui énorme des données par les systèmes représente une énorme
opportunité et un enjeu majeur pour la survie des entreprises depuis quelques année dans notre
société
II. Problématiques du ML
La problématique commence avec les data dit-on en big data; c’est pour quoi dans cette partie
une analyse des différents problèmes pratiques est réalisée dans le but de faire un choix de
data et donc de domaine à modéliser.
En effet il existe des sites d’Open data comme Keggle
Nous pouvons citez quelques exemples de solutions de machine Learning courantes à des
problématiques d'entreprises :
• Affecter un score à un client
• Prédire la rentabilité d’une campagne marketing
• Identifier les événements rare
• Affecter une catégorie à un produit
• Segmenter les visiteurs d’un site
• Reconnaissance d’image et des textes
• Recommander un produit à un client
• Prédire les ventes d'une campagne marketing.
• Identifier si une image est déjà présente dans une banque d'image existante.
• Segmenter les utilisateurs d'un site en plusieurs groupes en fonction de leur
comportement sur le site.
• Etc…
Présenter par IBRAHIM ALI MAHADI
Élève Ingénieur Informaticien a IAI
DEBUTEZ AVEC LES MACHINES LEARNING
5
III. Spécifications Technique Globale
A. Le cycle de travail
Au sein de du cycle de travail du data scientiste, le machine Learning désigne l'ensemble
des méthodes de modélisation statistique à partir des données.
1. La première étape du cycle
La récupération des données et leurs provenances dépend fortement de la problématique poser ;
par exemple: une voiture autonome générera des données à partir de ses capteurs, une entreprise de
trading récupérera les données sur des outils de marché financier, etc. Voici quelques outils un
peu généraux :
• Pour récupérer des données texte depuis des pages internet, nous allons utiliser un
outil de scraping comme scrapy en python par exemple
Présenter par IBRAHIM ALI MAHADI
Élève Ingénieur Informaticien a IAI
DEBUTEZ AVEC LES MACHINES LEARNING
6
• Pours des données structurées comme SQL, on utilise leurs syntaxes de
récupération.
• Pour les données publiques Il existe des hubs comme- sur GitHub
•
2. La deuxième étape
Pour Le nettoyage et l'exploration des données En Python, l’écosystème Scipy est
universellement utilisé avec ses librairies :
• Pandas pour créer des tableaux (ou "Dataframe") à partir des données brutes,
• Numpy pour gérer des matrices,
• Matplotlib pour générer des graphiques,
• iPython pour les feuilles de calculs,
Etc…
Cette famille de librairies est très utilisée et sert en réalité de base à beaucoup de Framework de
Machine Learning que nous pourrons utiliser
3. Troisieme tape
Pour La phase de modélisation (et l’évaluation) Les modèles sont le plus souvent représentés
par un ensemble de paramètres qu'on mettra dans un vecteur. Par exemple, une droite peut
être représentée par l'équation de la droite
C’est le modèle paramétrique, et l'apprentissage du modèle revient dans ce cas à trouver la
valeur optimale du paramètre.
a) L'algorithme d'apprentissage
L'algorithme d'apprentissage constitue la méthode avec laquelle le modèle statistique va se
paramétrer à partir des données d'exemple. Il existe de nombreux algorithmes différents
Quelques exemples d'algorithmes de machine Learning, dont nous allons utiliser.
Présenter par IBRAHIM ALI MAHADI
Élève Ingénieur Informaticien a IAI
DEBUTEZ AVEC LES MACHINES LEARNING
7
• La regression linéaire
• K-nn
• Les Support Vector Machine (SVM)
• Les reseaux de neurones
• Les random forests
• etc.
b) Construction d’un modèle statistique
• Pour construire notre modèle, on part d'une hypothèse de départ qui représente
l'ensemble des formes que peut prendre notre modélisation (une courbe par exemple,
mais ça peut être bien d'autres choses encore).
• En apprentissage supervisé, on cherche à trouver le modèle optimal à l'aide des
données d'entraînement. Cela consiste à faire converger une mesure appelée loss
function (fonction de perte) en utilisant des techniques d'optimisation numérique.
• Deux types de fonctions de perte souvent utilisées en apprentissage supervisé sont le
risque empirique et le maximum de vraisemblance.
• Les algorithmes de machine Learning sont une combinaison de plusieurs domaines
d'études : les statistiques (statistical learning theory), l'optimisation numérique,
l'informatique théorique, etc.
Exemple d’un modèle statistique : cas d’une régression linéaire
• À partir d'une problématique et d'un dataset, nous avons considéré une hypothèse de
travail pour contraindre le modèle : ici nous nous sommes placés dans le cas d'une
régression linéaire, qui signifie contraindre la forme du modèle à une droite.
• Nous allons décomposer l'entraînement de ce modèle sur les observations, afin de
déterminer le paramètre (pente et ordonnée à l'origine) de la droite optimale pour ces
données. C'est cette partie que l'on appelle apprentissage du modèle.
• À l'aide du modèle ainsi trouvé, nous avons effectué des prédictions de montant de
loyer à partir de n'importe quelle surface donnée
Présenter par IBRAHIM ALI MAHADI
Élève Ingénieur Informaticien a IAI
DEBUTEZ AVEC LES MACHINES LEARNING
8
c) Exploitons le jeu de données
• S’il y en a beaucoup de data, on travaille d'abord avec un échantillon représentatif de
la population pour pouvoir aller plus vite.
• On sépare dès le départ en deux parties notre jeu de données : un training set pour
créer le modèle et un testing set pour tester la qualité du modèle
Exemple d’exploitation de donnée : cas de l’algo k-NN
Le k-NN est le diminutif de k Nearest Neighbors. C’est un algorithme qui peut servir autant pour la
classification que la régression. Il est surnommé « nearest neighbors » (plus proches voisins en
français) car le principe de ce modèle consiste en effet à choisir les k données les plus proches du
point étudié afin d’en prédire sa valeur.
En fait, le k-NN est un type spécial d’algorithme qui n’utilise pas de modèle statistique. Il est "non
paramétrique", et il se base uniquement sur les données d’entraînement. Ce type d’algorithme est
appelé memory-based. A contrario, la régression linéaire est paramétrique, et ne va donc pas avoir
besoin de conserver toutes les données pour effectuer des prédictions, mais seulement le paramètre
Le jeu de données que nous allons utiliser. C'est un datasets très célèbre appelé MNIST. Il est
constitué d'un ensemble de 70000 images 28x28 pixels en noir et blanc annotées du chiffre
correspondant (entre 0 et 9). L'objectif de ce jeu de données était de permettre à un ordinateur
d'apprendre à reconnaître des nombres manuscrits automatiquement (pour lire des chèques par
exemple) dispo en sur les Framework.
d) Une API pour les tests
Pour tester rapidement la viabilité du modèle nous utiliserons un API. Les plus reconnues sont
Google Cloud AI, Microsoft Azure Machine Learning et AWS Machine Learning. Ces logiciels,
hébergé dans le cloud, permettent directement de travailler sans code sur tous les aspects de la partie
modélisation et la mesure de performance.
Présenter par IBRAHIM ALI MAHADI
Élève Ingénieur Informaticien a IAI
DEBUTEZ AVEC LES MACHINES LEARNING
9
e) Choix des outils
Pour les outils à utiliser. Nous avons le choix Torch, Theano, Caffe mais
surtout Tensorflow et Scikit-Learn sont les librairies les plus utilisés pour la modélisation.
Présenter par IBRAHIM ALI MAHADI
Élève Ingénieur Informaticien a IAI
DEBUTEZ AVEC LES MACHINES LEARNING
10
En effet, Tensorflow est plus populaire, il permet plus de flexibilité dans l’implémentation et
permet d’aller plus loin, notamment grâce à Keras, pour la construction d’algorithmes de
Deep Learning.
4. Derriere etape
Pour le déploiement et la mise en production nous allons exporter notre modèle final et le rendre
accessible sous forme d’API sur un serveur.
Nous allons nous appuyer sur des outils robustes et spécialisés comme Hadoop.
L’image ci-dessous représente une partie de l’écosystème Hadoop avec les différentes librairies qui
répondent chacune à une utilisation spécifique de mise en place d’architecture Big Data.
L'écosystème Hadoop est très fourni et répondra à tous nos besoins pour la mise en production
Des liens sur les parcours des data Architect expliquent en détail la plupart des questions concernant
la création du data Lake et de la mise en production des Big Data.
Présenter par IBRAHIM ALI MAHADI
Élève Ingénieur Informaticien a IAI
DEBUTEZ AVEC LES MACHINES LEARNING
11
B. Choix du langage
a) "R ou Python ?"
R, créé en 1993, est le langage historique des statisticiens, métier qui représente l’ancêtre de la Data
Science
Python est aussi un “vieux” langage (1991). Il est devenu plus récemment le langage de référence
pour tous les ingénieurs qui veulent effectuer rapidement des implémentations d’algorithmes
mathématiques, entre autres de Machine Learning. C’est pourquoi notre choix se porte sur ce langage.
Quel est le langage le plus recherché sur Google ?
Fin
Présenter par IBRAHIM ALI MAHADI
Élève Ingénieur Informaticien a IAI
DEBUTEZ AVEC LES MACHINES LEARNING
12
“Everything we love about civilization is a product of intelligence, so amplifying our human
intelligence with artificial intelligence has the potential of helping civilization flourish like never
before – as long as we manage to keep the technology beneficial. “
Max Tegmark, Président of the Future of Life Institute
« Ce que nous aimons au sujet de la civilisation, c’est qu’il s’agit d’un produit de l’intelligence.
Ainsi, amplifier l’intelligence humaine grâce à l’intelligence artificielle peut nous permettre de
faire prospérer la civilisation comme jamais auparavant – du moins, tant que nous ferons en sorte
que la technologie nous soit bénéfique »
Max Tegmark, Président de la Future of Life Institute
https://futureoflife.org/background/benefits-risks-artificial-intelligence-french/
Sur l'aspect « éthique » du machine Learning. Pour en savoir plus C’est ici la rubrique
dédiée sur le site future of life.

Contenu connexe

Similaire à Debuteraveclesmls

Intro au Big Data & Machine Learning
Intro au Big Data & Machine LearningIntro au Big Data & Machine Learning
Intro au Big Data & Machine Learning
Eric Daoud
 
Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning
Novagen Conseil
 
UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...
UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...
UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...
OCTO Technology
 
Application de gestion_de_magasin_doptique_medicale_gmom
Application de gestion_de_magasin_doptique_medicale_gmomApplication de gestion_de_magasin_doptique_medicale_gmom
Application de gestion_de_magasin_doptique_medicale_gmom
Oumaima FOUZI
 
Comment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le Kiosk
Comment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le KioskComment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le Kiosk
Comment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le Kiosk
Jedha Bootcamp
 
PJ - machine learning avec scikit-learn.pdf
PJ - machine learning avec scikit-learn.pdfPJ - machine learning avec scikit-learn.pdf
PJ - machine learning avec scikit-learn.pdf
YounesOuladSayad1
 
Conception et réalisation d’un Système d’information des étudiants du départe...
Conception et réalisation d’un Système d’information des étudiants du départe...Conception et réalisation d’un Système d’information des étudiants du départe...
Conception et réalisation d’un Système d’information des étudiants du départe...
Ilyas CHAOUA
 
Guillaume Morissette - Big Data PME
Guillaume Morissette - Big Data PMEGuillaume Morissette - Big Data PME
Guillaume Morissette - Big Data PME
Web à Québec
 
cours logiciels de simulation.docx
cours logiciels de simulation.docxcours logiciels de simulation.docx
cours logiciels de simulation.docx
ssuser0dbd4e
 
Big Data Developers in Paris presentation : Social Data
Big Data Developers in Paris presentation : Social DataBig Data Developers in Paris presentation : Social Data
Big Data Developers in Paris presentation : Social Data
Abdellah Lamrani Alaoui
 
458008733-Rapport-de-projet-de-fin-d-etudes.pdf
458008733-Rapport-de-projet-de-fin-d-etudes.pdf458008733-Rapport-de-projet-de-fin-d-etudes.pdf
458008733-Rapport-de-projet-de-fin-d-etudes.pdf
soyedmohamed
 
Big data et machine Learning
Big data et machine Learning Big data et machine Learning
Big data et machine Learning
ichrafkhalfaoui
 
01-introduction.ppt
01-introduction.ppt01-introduction.ppt
01-introduction.ppt
informatiquehageryah
 
01-introduction (2).ppt
01-introduction (2).ppt01-introduction (2).ppt
01-introduction (2).ppt
Souha Bennani
 
Big data f prez formation_datascience_14-sept
Big data f prez formation_datascience_14-septBig data f prez formation_datascience_14-sept
Big data f prez formation_datascience_14-sept
Kezhan SHI
 
Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data Mining
Takfarinas KENOUCHE
 
0 a005g formation-introduction-a-ibm-spss-modeler-et-au-data-mining-v16
0 a005g formation-introduction-a-ibm-spss-modeler-et-au-data-mining-v160 a005g formation-introduction-a-ibm-spss-modeler-et-au-data-mining-v16
0 a005g formation-introduction-a-ibm-spss-modeler-et-au-data-mining-v16CERTyou Formation
 
Le Machine Learning pour lutter contre les menaces en termes de Cybersécurité...
Le Machine Learning pour lutter contre les menaces en termes de Cybersécurité...Le Machine Learning pour lutter contre les menaces en termes de Cybersécurité...
Le Machine Learning pour lutter contre les menaces en termes de Cybersécurité...
Philippe Beraud
 
Machine Leargning_supérvisé.pptx
Machine Leargning_supérvisé.pptxMachine Leargning_supérvisé.pptx
Machine Leargning_supérvisé.pptx
bely26
 

Similaire à Debuteraveclesmls (20)

Intro au Big Data & Machine Learning
Intro au Big Data & Machine LearningIntro au Big Data & Machine Learning
Intro au Big Data & Machine Learning
 
Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning
 
UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...
UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...
UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...
 
Application de gestion_de_magasin_doptique_medicale_gmom
Application de gestion_de_magasin_doptique_medicale_gmomApplication de gestion_de_magasin_doptique_medicale_gmom
Application de gestion_de_magasin_doptique_medicale_gmom
 
Comment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le Kiosk
Comment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le KioskComment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le Kiosk
Comment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le Kiosk
 
PJ - machine learning avec scikit-learn.pdf
PJ - machine learning avec scikit-learn.pdfPJ - machine learning avec scikit-learn.pdf
PJ - machine learning avec scikit-learn.pdf
 
Conception et réalisation d’un Système d’information des étudiants du départe...
Conception et réalisation d’un Système d’information des étudiants du départe...Conception et réalisation d’un Système d’information des étudiants du départe...
Conception et réalisation d’un Système d’information des étudiants du départe...
 
Guillaume Morissette - Big Data PME
Guillaume Morissette - Big Data PMEGuillaume Morissette - Big Data PME
Guillaume Morissette - Big Data PME
 
cours logiciels de simulation.docx
cours logiciels de simulation.docxcours logiciels de simulation.docx
cours logiciels de simulation.docx
 
Big Data Developers in Paris presentation : Social Data
Big Data Developers in Paris presentation : Social DataBig Data Developers in Paris presentation : Social Data
Big Data Developers in Paris presentation : Social Data
 
458008733-Rapport-de-projet-de-fin-d-etudes.pdf
458008733-Rapport-de-projet-de-fin-d-etudes.pdf458008733-Rapport-de-projet-de-fin-d-etudes.pdf
458008733-Rapport-de-projet-de-fin-d-etudes.pdf
 
Big data et machine Learning
Big data et machine Learning Big data et machine Learning
Big data et machine Learning
 
01-introduction.ppt
01-introduction.ppt01-introduction.ppt
01-introduction.ppt
 
01-introduction (2).ppt
01-introduction (2).ppt01-introduction (2).ppt
01-introduction (2).ppt
 
Big data f prez formation_datascience_14-sept
Big data f prez formation_datascience_14-septBig data f prez formation_datascience_14-sept
Big data f prez formation_datascience_14-sept
 
Présentation sur le Data Mining
Présentation sur le Data MiningPrésentation sur le Data Mining
Présentation sur le Data Mining
 
rapport
rapportrapport
rapport
 
0 a005g formation-introduction-a-ibm-spss-modeler-et-au-data-mining-v16
0 a005g formation-introduction-a-ibm-spss-modeler-et-au-data-mining-v160 a005g formation-introduction-a-ibm-spss-modeler-et-au-data-mining-v16
0 a005g formation-introduction-a-ibm-spss-modeler-et-au-data-mining-v16
 
Le Machine Learning pour lutter contre les menaces en termes de Cybersécurité...
Le Machine Learning pour lutter contre les menaces en termes de Cybersécurité...Le Machine Learning pour lutter contre les menaces en termes de Cybersécurité...
Le Machine Learning pour lutter contre les menaces en termes de Cybersécurité...
 
Machine Leargning_supérvisé.pptx
Machine Leargning_supérvisé.pptxMachine Leargning_supérvisé.pptx
Machine Leargning_supérvisé.pptx
 

Dernier

Quelles rotations dans les systèmes caprins de Nouvelle-Aquitaine et Pays de ...
Quelles rotations dans les systèmes caprins de Nouvelle-Aquitaine et Pays de ...Quelles rotations dans les systèmes caprins de Nouvelle-Aquitaine et Pays de ...
Quelles rotations dans les systèmes caprins de Nouvelle-Aquitaine et Pays de ...
Institut de l'Elevage - Idele
 
Accompagner les porteurs de projets en transformation fermière
Accompagner les porteurs de projets en transformation fermièreAccompagner les porteurs de projets en transformation fermière
Accompagner les porteurs de projets en transformation fermière
Institut de l'Elevage - Idele
 
Accompagner les éleveurs dans l'analyse de leurs coûts de production
Accompagner les éleveurs dans l'analyse de leurs coûts de productionAccompagner les éleveurs dans l'analyse de leurs coûts de production
Accompagner les éleveurs dans l'analyse de leurs coûts de production
Institut de l'Elevage - Idele
 
Presentation d'esquisse route juin 2023.pptx
Presentation d'esquisse route juin 2023.pptxPresentation d'esquisse route juin 2023.pptx
Presentation d'esquisse route juin 2023.pptx
imed53
 
COURS ANALYSE FINANCIERE-NOGLO Méthodes d’analyses financières.pdf
COURS ANALYSE FINANCIERE-NOGLO Méthodes d’analyses financières.pdfCOURS ANALYSE FINANCIERE-NOGLO Méthodes d’analyses financières.pdf
COURS ANALYSE FINANCIERE-NOGLO Méthodes d’analyses financières.pdf
sieousse95
 
Reconquête de l’engraissement du chevreau à la ferme
Reconquête de l’engraissement du chevreau à la fermeReconquête de l’engraissement du chevreau à la ferme
Reconquête de l’engraissement du chevreau à la ferme
Institut de l'Elevage - Idele
 
COUPROD Une méthode nationale commune à l’ensemble des filières herbivores
COUPROD Une méthode nationale commune à l’ensemble des filières herbivoresCOUPROD Une méthode nationale commune à l’ensemble des filières herbivores
COUPROD Une méthode nationale commune à l’ensemble des filières herbivores
Institut de l'Elevage - Idele
 
Comment aborder le changement climatique dans son métier, volet adaptation
Comment aborder le changement climatique dans son métier, volet adaptationComment aborder le changement climatique dans son métier, volet adaptation
Comment aborder le changement climatique dans son métier, volet adaptation
Institut de l'Elevage - Idele
 
Alternative au Tramway de la ville de Quebec Rev 1 sml.pdf
Alternative au Tramway de la ville de Quebec Rev 1 sml.pdfAlternative au Tramway de la ville de Quebec Rev 1 sml.pdf
Alternative au Tramway de la ville de Quebec Rev 1 sml.pdf
Daniel Bedard
 
Leviers d’adaptation au changement climatique, qualité du lait et des produit...
Leviers d’adaptation au changement climatique, qualité du lait et des produit...Leviers d’adaptation au changement climatique, qualité du lait et des produit...
Leviers d’adaptation au changement climatique, qualité du lait et des produit...
Institut de l'Elevage - Idele
 
1er webinaire INOSYS Réseaux d’élevage Ovins Viande
1er webinaire INOSYS Réseaux d’élevage Ovins Viande1er webinaire INOSYS Réseaux d’élevage Ovins Viande
1er webinaire INOSYS Réseaux d’élevage Ovins Viande
Institut de l'Elevage - Idele
 

Dernier (11)

Quelles rotations dans les systèmes caprins de Nouvelle-Aquitaine et Pays de ...
Quelles rotations dans les systèmes caprins de Nouvelle-Aquitaine et Pays de ...Quelles rotations dans les systèmes caprins de Nouvelle-Aquitaine et Pays de ...
Quelles rotations dans les systèmes caprins de Nouvelle-Aquitaine et Pays de ...
 
Accompagner les porteurs de projets en transformation fermière
Accompagner les porteurs de projets en transformation fermièreAccompagner les porteurs de projets en transformation fermière
Accompagner les porteurs de projets en transformation fermière
 
Accompagner les éleveurs dans l'analyse de leurs coûts de production
Accompagner les éleveurs dans l'analyse de leurs coûts de productionAccompagner les éleveurs dans l'analyse de leurs coûts de production
Accompagner les éleveurs dans l'analyse de leurs coûts de production
 
Presentation d'esquisse route juin 2023.pptx
Presentation d'esquisse route juin 2023.pptxPresentation d'esquisse route juin 2023.pptx
Presentation d'esquisse route juin 2023.pptx
 
COURS ANALYSE FINANCIERE-NOGLO Méthodes d’analyses financières.pdf
COURS ANALYSE FINANCIERE-NOGLO Méthodes d’analyses financières.pdfCOURS ANALYSE FINANCIERE-NOGLO Méthodes d’analyses financières.pdf
COURS ANALYSE FINANCIERE-NOGLO Méthodes d’analyses financières.pdf
 
Reconquête de l’engraissement du chevreau à la ferme
Reconquête de l’engraissement du chevreau à la fermeReconquête de l’engraissement du chevreau à la ferme
Reconquête de l’engraissement du chevreau à la ferme
 
COUPROD Une méthode nationale commune à l’ensemble des filières herbivores
COUPROD Une méthode nationale commune à l’ensemble des filières herbivoresCOUPROD Une méthode nationale commune à l’ensemble des filières herbivores
COUPROD Une méthode nationale commune à l’ensemble des filières herbivores
 
Comment aborder le changement climatique dans son métier, volet adaptation
Comment aborder le changement climatique dans son métier, volet adaptationComment aborder le changement climatique dans son métier, volet adaptation
Comment aborder le changement climatique dans son métier, volet adaptation
 
Alternative au Tramway de la ville de Quebec Rev 1 sml.pdf
Alternative au Tramway de la ville de Quebec Rev 1 sml.pdfAlternative au Tramway de la ville de Quebec Rev 1 sml.pdf
Alternative au Tramway de la ville de Quebec Rev 1 sml.pdf
 
Leviers d’adaptation au changement climatique, qualité du lait et des produit...
Leviers d’adaptation au changement climatique, qualité du lait et des produit...Leviers d’adaptation au changement climatique, qualité du lait et des produit...
Leviers d’adaptation au changement climatique, qualité du lait et des produit...
 
1er webinaire INOSYS Réseaux d’élevage Ovins Viande
1er webinaire INOSYS Réseaux d’élevage Ovins Viande1er webinaire INOSYS Réseaux d’élevage Ovins Viande
1er webinaire INOSYS Réseaux d’élevage Ovins Viande
 

Debuteraveclesmls

  • 1. 26/10/2019 Le Machine Learning Pour débutants Première phase Ibrahim Ali MAHADI ELEVE INGENIEUR INFORMATICIEN
  • 2. Présenter par IBRAHIM ALI MAHADI Élève Ingénieur Informaticien a IAI DEBUTEZ AVEC LES MACHINES LEARNING 1 Tables des matières Définition des termes.............................................................................................................................2 A. Données structurées / Données non-structurées :.....................................................................2 B. La data science :..........................................................................................................................2 C. Le clustering................................................................................................................................2 Introduction............................................................................................................................................3 I. Le Contexte.....................................................................................................................................4 II. Les Problématiques du ML ............................................................................................................4 III. Spécifications Technique Globale..............................................................................................5 A. Le cycle de travail........................................................................................................................5 1. La première étape du cycle.....................................................................................................5 2. La deuxième étape..................................................................................................................6 3. Troisieme tape ........................................................................................................................6 4. Derriere etape.......................................................................................................................10 B. Choix du langage.......................................................................................................................11
  • 3. Présenter par IBRAHIM ALI MAHADI Élève Ingénieur Informaticien a IAI DEBUTEZ AVEC LES MACHINES LEARNING 2 Définition des termes A. Données structurées / Données non-structurées : Les données structurées désignent toutes les données pouvant être intégrées dans des bases de données relationnelles . Ce sont des données qui, par leur structure, peuvent être associées entre elles au sein de tableaux. Les données non-structurées, à l’inverse, désignent toutes les autres données : les fichiers audios, les fichiers vidéo, les postes sur les réseaux sociaux, les emails, etc. B. La data science : Est un nouveau domaine de travail, qui augmente les capacités d’analyse classique, afin d’aider les entreprises à prendre des décisions plus informées. Elle s’appuie pour cela de données utiles et ne peut s’appliquer que dans certaines problématiques précises, qui gagnent à utiliser ce type de méthodes. C. Le clustering Le clustering désigne les méthodes de regroupement automatique de données qui se ressemblent le plus en un ensemble de "nuages", appelés clusters. Un ensemble d'algorithmes non supervisés peuvent réaliser cette tâche. Ils mesurent donc de manière automatique la similarité entre les différentes données. Par exemple, les points sur le graphe ci-dessous peuvent être considérés comme similaires s'ils sont proches en termes de distance.
  • 4. Présenter par IBRAHIM ALI MAHADI Élève Ingénieur Informaticien a IAI DEBUTEZ AVEC LES MACHINES LEARNING 3 Introduction Le Big data a certainement révolutionné le monde ces dernières années parmi les sujets qui lui sont associés les Machine Learning. C’est un champ d'étude qui se fonde sur des approches mathématiques et statistiques pour donner aux ordinateurs la capacité d’« apprendre » à partir de données. Elles mettent à notre disposition un ensemble de techniques puissantes permettant de créer des modèles prédictifs à partir de données, et qui apprennent par eux-mêmes! Une fois les données récupérées, nettoyées et explorées ; la phase de modélisation commence avec la question comme régression ou une classification ? puis supervisée ou non supervisée? Et enfin débute une phase d’évaluation et d’interprétation juste avant la mise en production de la solution.
  • 5. Présenter par IBRAHIM ALI MAHADI Élève Ingénieur Informaticien a IAI DEBUTEZ AVEC LES MACHINES LEARNING 4 I. Le Contexte L’accumulation aujourd’hui énorme des données par les systèmes représente une énorme opportunité et un enjeu majeur pour la survie des entreprises depuis quelques année dans notre société II. Problématiques du ML La problématique commence avec les data dit-on en big data; c’est pour quoi dans cette partie une analyse des différents problèmes pratiques est réalisée dans le but de faire un choix de data et donc de domaine à modéliser. En effet il existe des sites d’Open data comme Keggle Nous pouvons citez quelques exemples de solutions de machine Learning courantes à des problématiques d'entreprises : • Affecter un score à un client • Prédire la rentabilité d’une campagne marketing • Identifier les événements rare • Affecter une catégorie à un produit • Segmenter les visiteurs d’un site • Reconnaissance d’image et des textes • Recommander un produit à un client • Prédire les ventes d'une campagne marketing. • Identifier si une image est déjà présente dans une banque d'image existante. • Segmenter les utilisateurs d'un site en plusieurs groupes en fonction de leur comportement sur le site. • Etc…
  • 6. Présenter par IBRAHIM ALI MAHADI Élève Ingénieur Informaticien a IAI DEBUTEZ AVEC LES MACHINES LEARNING 5 III. Spécifications Technique Globale A. Le cycle de travail Au sein de du cycle de travail du data scientiste, le machine Learning désigne l'ensemble des méthodes de modélisation statistique à partir des données. 1. La première étape du cycle La récupération des données et leurs provenances dépend fortement de la problématique poser ; par exemple: une voiture autonome générera des données à partir de ses capteurs, une entreprise de trading récupérera les données sur des outils de marché financier, etc. Voici quelques outils un peu généraux : • Pour récupérer des données texte depuis des pages internet, nous allons utiliser un outil de scraping comme scrapy en python par exemple
  • 7. Présenter par IBRAHIM ALI MAHADI Élève Ingénieur Informaticien a IAI DEBUTEZ AVEC LES MACHINES LEARNING 6 • Pours des données structurées comme SQL, on utilise leurs syntaxes de récupération. • Pour les données publiques Il existe des hubs comme- sur GitHub • 2. La deuxième étape Pour Le nettoyage et l'exploration des données En Python, l’écosystème Scipy est universellement utilisé avec ses librairies : • Pandas pour créer des tableaux (ou "Dataframe") à partir des données brutes, • Numpy pour gérer des matrices, • Matplotlib pour générer des graphiques, • iPython pour les feuilles de calculs, Etc… Cette famille de librairies est très utilisée et sert en réalité de base à beaucoup de Framework de Machine Learning que nous pourrons utiliser 3. Troisieme tape Pour La phase de modélisation (et l’évaluation) Les modèles sont le plus souvent représentés par un ensemble de paramètres qu'on mettra dans un vecteur. Par exemple, une droite peut être représentée par l'équation de la droite C’est le modèle paramétrique, et l'apprentissage du modèle revient dans ce cas à trouver la valeur optimale du paramètre. a) L'algorithme d'apprentissage L'algorithme d'apprentissage constitue la méthode avec laquelle le modèle statistique va se paramétrer à partir des données d'exemple. Il existe de nombreux algorithmes différents Quelques exemples d'algorithmes de machine Learning, dont nous allons utiliser.
  • 8. Présenter par IBRAHIM ALI MAHADI Élève Ingénieur Informaticien a IAI DEBUTEZ AVEC LES MACHINES LEARNING 7 • La regression linéaire • K-nn • Les Support Vector Machine (SVM) • Les reseaux de neurones • Les random forests • etc. b) Construction d’un modèle statistique • Pour construire notre modèle, on part d'une hypothèse de départ qui représente l'ensemble des formes que peut prendre notre modélisation (une courbe par exemple, mais ça peut être bien d'autres choses encore). • En apprentissage supervisé, on cherche à trouver le modèle optimal à l'aide des données d'entraînement. Cela consiste à faire converger une mesure appelée loss function (fonction de perte) en utilisant des techniques d'optimisation numérique. • Deux types de fonctions de perte souvent utilisées en apprentissage supervisé sont le risque empirique et le maximum de vraisemblance. • Les algorithmes de machine Learning sont une combinaison de plusieurs domaines d'études : les statistiques (statistical learning theory), l'optimisation numérique, l'informatique théorique, etc. Exemple d’un modèle statistique : cas d’une régression linéaire • À partir d'une problématique et d'un dataset, nous avons considéré une hypothèse de travail pour contraindre le modèle : ici nous nous sommes placés dans le cas d'une régression linéaire, qui signifie contraindre la forme du modèle à une droite. • Nous allons décomposer l'entraînement de ce modèle sur les observations, afin de déterminer le paramètre (pente et ordonnée à l'origine) de la droite optimale pour ces données. C'est cette partie que l'on appelle apprentissage du modèle. • À l'aide du modèle ainsi trouvé, nous avons effectué des prédictions de montant de loyer à partir de n'importe quelle surface donnée
  • 9. Présenter par IBRAHIM ALI MAHADI Élève Ingénieur Informaticien a IAI DEBUTEZ AVEC LES MACHINES LEARNING 8 c) Exploitons le jeu de données • S’il y en a beaucoup de data, on travaille d'abord avec un échantillon représentatif de la population pour pouvoir aller plus vite. • On sépare dès le départ en deux parties notre jeu de données : un training set pour créer le modèle et un testing set pour tester la qualité du modèle Exemple d’exploitation de donnée : cas de l’algo k-NN Le k-NN est le diminutif de k Nearest Neighbors. C’est un algorithme qui peut servir autant pour la classification que la régression. Il est surnommé « nearest neighbors » (plus proches voisins en français) car le principe de ce modèle consiste en effet à choisir les k données les plus proches du point étudié afin d’en prédire sa valeur. En fait, le k-NN est un type spécial d’algorithme qui n’utilise pas de modèle statistique. Il est "non paramétrique", et il se base uniquement sur les données d’entraînement. Ce type d’algorithme est appelé memory-based. A contrario, la régression linéaire est paramétrique, et ne va donc pas avoir besoin de conserver toutes les données pour effectuer des prédictions, mais seulement le paramètre Le jeu de données que nous allons utiliser. C'est un datasets très célèbre appelé MNIST. Il est constitué d'un ensemble de 70000 images 28x28 pixels en noir et blanc annotées du chiffre correspondant (entre 0 et 9). L'objectif de ce jeu de données était de permettre à un ordinateur d'apprendre à reconnaître des nombres manuscrits automatiquement (pour lire des chèques par exemple) dispo en sur les Framework. d) Une API pour les tests Pour tester rapidement la viabilité du modèle nous utiliserons un API. Les plus reconnues sont Google Cloud AI, Microsoft Azure Machine Learning et AWS Machine Learning. Ces logiciels, hébergé dans le cloud, permettent directement de travailler sans code sur tous les aspects de la partie modélisation et la mesure de performance.
  • 10. Présenter par IBRAHIM ALI MAHADI Élève Ingénieur Informaticien a IAI DEBUTEZ AVEC LES MACHINES LEARNING 9 e) Choix des outils Pour les outils à utiliser. Nous avons le choix Torch, Theano, Caffe mais surtout Tensorflow et Scikit-Learn sont les librairies les plus utilisés pour la modélisation.
  • 11. Présenter par IBRAHIM ALI MAHADI Élève Ingénieur Informaticien a IAI DEBUTEZ AVEC LES MACHINES LEARNING 10 En effet, Tensorflow est plus populaire, il permet plus de flexibilité dans l’implémentation et permet d’aller plus loin, notamment grâce à Keras, pour la construction d’algorithmes de Deep Learning. 4. Derriere etape Pour le déploiement et la mise en production nous allons exporter notre modèle final et le rendre accessible sous forme d’API sur un serveur. Nous allons nous appuyer sur des outils robustes et spécialisés comme Hadoop. L’image ci-dessous représente une partie de l’écosystème Hadoop avec les différentes librairies qui répondent chacune à une utilisation spécifique de mise en place d’architecture Big Data. L'écosystème Hadoop est très fourni et répondra à tous nos besoins pour la mise en production Des liens sur les parcours des data Architect expliquent en détail la plupart des questions concernant la création du data Lake et de la mise en production des Big Data.
  • 12. Présenter par IBRAHIM ALI MAHADI Élève Ingénieur Informaticien a IAI DEBUTEZ AVEC LES MACHINES LEARNING 11 B. Choix du langage a) "R ou Python ?" R, créé en 1993, est le langage historique des statisticiens, métier qui représente l’ancêtre de la Data Science Python est aussi un “vieux” langage (1991). Il est devenu plus récemment le langage de référence pour tous les ingénieurs qui veulent effectuer rapidement des implémentations d’algorithmes mathématiques, entre autres de Machine Learning. C’est pourquoi notre choix se porte sur ce langage. Quel est le langage le plus recherché sur Google ? Fin
  • 13. Présenter par IBRAHIM ALI MAHADI Élève Ingénieur Informaticien a IAI DEBUTEZ AVEC LES MACHINES LEARNING 12 “Everything we love about civilization is a product of intelligence, so amplifying our human intelligence with artificial intelligence has the potential of helping civilization flourish like never before – as long as we manage to keep the technology beneficial. “ Max Tegmark, Président of the Future of Life Institute « Ce que nous aimons au sujet de la civilisation, c’est qu’il s’agit d’un produit de l’intelligence. Ainsi, amplifier l’intelligence humaine grâce à l’intelligence artificielle peut nous permettre de faire prospérer la civilisation comme jamais auparavant – du moins, tant que nous ferons en sorte que la technologie nous soit bénéfique » Max Tegmark, Président de la Future of Life Institute https://futureoflife.org/background/benefits-risks-artificial-intelligence-french/ Sur l'aspect « éthique » du machine Learning. Pour en savoir plus C’est ici la rubrique dédiée sur le site future of life.