Azure
Machine Learning
par Sana KHIARI
étudiante en génie logiciel à INSAT
Votre équipe favorite va gagner le prochain match?
A-t-elle pris ses médicaments ?
Quand une guerre va se
déclencher ?
Machine Learning derrière la
victoire d’Obama en 2012 !
Sommaire
1. Machine Learning
2. Algorithmes de Machine Learning
3. Azure Machine Learning Demo
4. Exemples
1er partie :
Machine Learning
Data science ?
Une science qui combine :
• Raisonnement logique
• ingénierie + technologie
Un processus :
Business Data
Experience
Hypothèse (marketing,santé …)
Raisonnement
&
Faits résultants
Hypothèse : et après ?
Rejet de l’hypothèse
Non rejet de
l’hypothèse
accepter
(refaire l’expérience )
Ou
Science de données & Machine Learning
Data science permet de traiter 5 questions :
1. Est-ce que c’est A ou B ou C / Oui ou Non ?
2. Est-ce qu’il y a une anomalie ?
3. Combien … ?
4. Comment les données sont organisées ?
5. Que faire après ?
Machine Learning
• Est la science qui permet a
une machine d’apprendre
toute seule grâce aux
données sans être
programmé ou sans aucune
intervention de l’homme .
• Apprendre ? Apprentissage ?
Aucune base au début
Simulé l’enfant à la
machine
Apprentissage :
Alphabet
Mots
Phrases
Apprentissage ?
Machine Learning
Affectés à des systèmes des algorithmes + données afin d’avoir des règles apprises
à appliquer sur d’autres données .
Prédire quelque chose « totalement inconnu » au moment de l’exécution de
l’algorithme en ayant :
• Beaucoup de données consistantes
• Une machine avec une bonne capacité de calcul
Une branche de l’intelligence artificielle depuis 1960
« Big data »
2 notions importantes à savoir avant de construire un modèle d’apprentissage :
• La représentation
• La généralisation
La
représentation
la capacité à garder les données et
leurs interprétation compréhensibles par
le système .
“
”
Notion importante 1
La
généralisation
La capacité du système à appliquer le
modèle appris sur d’autres données
différentes de celles de départ .
“
”
>> Cross-validation :
Diviser les données sur 10 parties par exemple
Entrainer le modèle sur 9 parties
Tester le modèle sur la partie restante
Notion importante 2
Démarche d’apprentissage
Données
d’entrainement(initiales )
Algorithme(s)
d’apprentissage
Modèle d’apprentissage
plus mature
(classes…)Règles de prédiction
Nouvelles
données
2ème partie :
Algorithmes de ML
Machine Learning : 5 questions !
1. Est-ce que c’est A ou B ou C / Oui ou Non ?
2. Est-ce qu’il y a une anomalie à … ?
3. Combien … ?
4. Comment les données sont organisées ?
5. Que faire après ?
1. A ou B / Oui ou non ?
>> Algorithmes de classification (le plus utilisé)
La réponse représente une classe .
Est-ce que le taux des ventes va chuté • oui • non
Qu’est ce qui fait fuir les clients • la hausse des prix • la qualité
moyenne des produits
>> Algorithmes de classification multi-classes
La cause d’un décès est :
•Diabète •Arrêt cardiaque •Hyper-tension •Alcool
C’est la couleur :
•Rouge •Jaune •Bleue …
2. Est-ce qu’il y a une anomalie ?
>> Algorithmes de
détection d’anomalies
• Scanner d’un cerveau en
comparaison avec un
cerveau normal .
• Fraude des cartes bancaires:
retirer des montants très
élevés brusquement est
assez suspect .
3. Combien … ?
>> Les algorithmes de régression
Ce sont des algorithmes qui prédissent des
nombres .
• Combien une équipe de football va marquer ?
• Combien sera la température demain ?
• Combien j’aurais à mon examen ?
• Quel est le salaire d’un employé ?
4. Comment les données sont organisées ?
>> Les algorithmes de Clustering
Regroupement des données en groupes pour aider à
l’interprétation .
On veut structurer les données en entrée (input)
Un bon regroupement de données donne lieu à une
bonne compréhension des comportement et prédire
des événements.
• Quels consommateurs achètent les mêmes produits
?
5. Que faire après ?
>> Algorithme d’apprentissage par
renforcement
le but est d'apprendre, à partir
d'expériences, ce qu'il convient de faire en
différentes situations, ….. L'agent cherche, au
travers d'expériences itérées, un
comportement décisionnel
(appelé stratégie ou politique, et qui est une
fonction associant à l'état courant l'action à
exécuter) optimal…
• Self-driven cars (voiture sans conducteur)
Accélérer , freiner , tourner …
• Contrôle robotique
• Echecs
“
” Wikipedia
Machine Learning : partout !
Database
mining (fouilles
des bases de
données) :
1. Web click data (Silicon Valley)
2. Biologie (détection d’anomalie des gènes )
Programme
personnalisé :
1. L’expérience personnalisée sur Netflix
(films ,séries … personnalisées selon ses
préférences )
3ème partie :
Azure Machine Learning
Microsoft
Azure
Plateforme cloud de Microsoft. Elle offre un certain
nombre de services pour le stockage, le calcul, le
traitement et la transmission des données, la gestion des
bases de données, etc .
Un service dédié à l’analyse prédictive
Construction
de modèles
prédictifs
Evaluation
Déploiement
(Cloud)
Logiciel R
(+5000
algorithmes)
Experiments
Web service
(déploiement)
Facile , navigateur web ,aucune installation
Extensible , R
Expérience rapide
Déploiement rapide en Azure web service
Support d’algorithmes de Machine Learning intéressants.
Azure ML
Avantages :
Azure Machine Learning Studio
est un front end accessible
via un navigateur web, on
peut y accéder
gratuitement via un
compte Microsoft à travers
ce lien
https://studio.azureml.net/
Demo : Titanic disaster
prediction
• On va travailler sur des données réelles des passagers qui
était au bord du bateau Titanic le jour de la tragédie .
• L’hypothèse qu’on cherche à implémenter en un modèle
prédictif de machine learning :
>>Est qu’une personne va survivre sur le bateau au
moment de la tragédie ou non ?
• On peut télécharger ces données à partir du site Kaggle.com
dans le volet compétitions.
• Ces données sont issues de « Encyclopedia Titanica » .
• Les critères des personnes (données) utilisées dans le modèle
sont :
4ème partie :
Exemples
Campagne électorale
d’Obama
Une victoire pas comme les autres
Obama a adopté une politique de campagne électorale assez fascinante et nouvelles :
Il a introduit parmi les équipes qui s’occupé de sa campagne , une équipe de data
scientist pour une raison unique : prédire les votants qui sont susceptibles d’etre
convaincus pour la campagne
Ils vont analysé chaque électeurs individuellement et prévoir s’il est possible de le
convaincre par un contact direct , par téléphone , par flyer , ou publicité .
Cet analyse consiste a utiliser « persuasion modeling » qui a aidé Obama à
déterminer si en allant chez le votant et parler avec lui , il gagnera son vote ou pas.
Pour cette initiative, la campagne a dû rassembler des données , tel que la
démographie, l'histoire de vote, et les abonnements de magazine, etc.
Grace à cette démarche analytique qui a changé le cours des élections américaines ,
“persuasion modeling “ ouvrira un nouveau chapitre des eléctions dans le monde.
Cortana
Cortana, l’assistante digitale
personnelle créée , intégrée
dans Windows phone 8.1 a
prédit correctement les
résultats 15 sur 16 match de
FIFA World Cup 2014 .
Cortana Intelligence Suite
Transforme les données de l’entreprise en actions
intelligentes grâce des analyses avancées basées
sur des algorithmes ML et IA .
Netflix
Recommander
system
système qui prédit l’évaluation(rating)
qu’un utilisateur peut attribuer à une
entité/produit .
“
”
offre une expérience personnalisée pour les abonnées
grâce à des recommandations de films et séries pour
garantir la satisfaction .
Algorithme de
Clustering
Algorithme de
régression
Réseau de neurones
artificiels
Merci !

Introduction Azure machine learning

  • 1.
    Azure Machine Learning par SanaKHIARI étudiante en génie logiciel à INSAT
  • 2.
    Votre équipe favoriteva gagner le prochain match?
  • 3.
    A-t-elle pris sesmédicaments ?
  • 4.
    Quand une guerreva se déclencher ?
  • 6.
    Machine Learning derrièrela victoire d’Obama en 2012 !
  • 7.
    Sommaire 1. Machine Learning 2.Algorithmes de Machine Learning 3. Azure Machine Learning Demo 4. Exemples
  • 8.
  • 10.
    Data science ? Unescience qui combine : • Raisonnement logique • ingénierie + technologie Un processus : Business Data
  • 11.
  • 12.
    Hypothèse : etaprès ? Rejet de l’hypothèse Non rejet de l’hypothèse accepter (refaire l’expérience ) Ou
  • 13.
    Science de données& Machine Learning Data science permet de traiter 5 questions : 1. Est-ce que c’est A ou B ou C / Oui ou Non ? 2. Est-ce qu’il y a une anomalie ? 3. Combien … ? 4. Comment les données sont organisées ? 5. Que faire après ?
  • 14.
    Machine Learning • Estla science qui permet a une machine d’apprendre toute seule grâce aux données sans être programmé ou sans aucune intervention de l’homme . • Apprendre ? Apprentissage ?
  • 15.
    Aucune base audébut Simulé l’enfant à la machine Apprentissage : Alphabet Mots Phrases Apprentissage ?
  • 16.
    Machine Learning Affectés àdes systèmes des algorithmes + données afin d’avoir des règles apprises à appliquer sur d’autres données . Prédire quelque chose « totalement inconnu » au moment de l’exécution de l’algorithme en ayant : • Beaucoup de données consistantes • Une machine avec une bonne capacité de calcul Une branche de l’intelligence artificielle depuis 1960 « Big data » 2 notions importantes à savoir avant de construire un modèle d’apprentissage : • La représentation • La généralisation
  • 17.
    La représentation la capacité àgarder les données et leurs interprétation compréhensibles par le système . “ ” Notion importante 1
  • 18.
    La généralisation La capacité dusystème à appliquer le modèle appris sur d’autres données différentes de celles de départ . “ ” >> Cross-validation : Diviser les données sur 10 parties par exemple Entrainer le modèle sur 9 parties Tester le modèle sur la partie restante Notion importante 2
  • 19.
    Démarche d’apprentissage Données d’entrainement(initiales ) Algorithme(s) d’apprentissage Modèled’apprentissage plus mature (classes…)Règles de prédiction Nouvelles données
  • 20.
  • 21.
    Machine Learning :5 questions ! 1. Est-ce que c’est A ou B ou C / Oui ou Non ? 2. Est-ce qu’il y a une anomalie à … ? 3. Combien … ? 4. Comment les données sont organisées ? 5. Que faire après ?
  • 22.
    1. A ouB / Oui ou non ? >> Algorithmes de classification (le plus utilisé) La réponse représente une classe . Est-ce que le taux des ventes va chuté • oui • non Qu’est ce qui fait fuir les clients • la hausse des prix • la qualité moyenne des produits >> Algorithmes de classification multi-classes La cause d’un décès est : •Diabète •Arrêt cardiaque •Hyper-tension •Alcool C’est la couleur : •Rouge •Jaune •Bleue …
  • 23.
    2. Est-ce qu’ily a une anomalie ? >> Algorithmes de détection d’anomalies • Scanner d’un cerveau en comparaison avec un cerveau normal . • Fraude des cartes bancaires: retirer des montants très élevés brusquement est assez suspect .
  • 24.
    3. Combien …? >> Les algorithmes de régression Ce sont des algorithmes qui prédissent des nombres . • Combien une équipe de football va marquer ? • Combien sera la température demain ? • Combien j’aurais à mon examen ? • Quel est le salaire d’un employé ?
  • 25.
    4. Comment lesdonnées sont organisées ? >> Les algorithmes de Clustering Regroupement des données en groupes pour aider à l’interprétation . On veut structurer les données en entrée (input) Un bon regroupement de données donne lieu à une bonne compréhension des comportement et prédire des événements. • Quels consommateurs achètent les mêmes produits ?
  • 26.
    5. Que faireaprès ? >> Algorithme d’apprentissage par renforcement le but est d'apprendre, à partir d'expériences, ce qu'il convient de faire en différentes situations, ….. L'agent cherche, au travers d'expériences itérées, un comportement décisionnel (appelé stratégie ou politique, et qui est une fonction associant à l'état courant l'action à exécuter) optimal… • Self-driven cars (voiture sans conducteur) Accélérer , freiner , tourner … • Contrôle robotique • Echecs “ ” Wikipedia
  • 27.
    Machine Learning :partout ! Database mining (fouilles des bases de données) : 1. Web click data (Silicon Valley) 2. Biologie (détection d’anomalie des gènes ) Programme personnalisé : 1. L’expérience personnalisée sur Netflix (films ,séries … personnalisées selon ses préférences )
  • 28.
  • 29.
    Azure Machine Learning Microsoft Azure Plateformecloud de Microsoft. Elle offre un certain nombre de services pour le stockage, le calcul, le traitement et la transmission des données, la gestion des bases de données, etc . Un service dédié à l’analyse prédictive Construction de modèles prédictifs Evaluation Déploiement (Cloud) Logiciel R (+5000 algorithmes)
  • 30.
    Experiments Web service (déploiement) Facile ,navigateur web ,aucune installation Extensible , R Expérience rapide Déploiement rapide en Azure web service Support d’algorithmes de Machine Learning intéressants. Azure ML Avantages :
  • 32.
    Azure Machine LearningStudio est un front end accessible via un navigateur web, on peut y accéder gratuitement via un compte Microsoft à travers ce lien https://studio.azureml.net/
  • 33.
    Demo : Titanicdisaster prediction
  • 34.
    • On vatravailler sur des données réelles des passagers qui était au bord du bateau Titanic le jour de la tragédie . • L’hypothèse qu’on cherche à implémenter en un modèle prédictif de machine learning : >>Est qu’une personne va survivre sur le bateau au moment de la tragédie ou non ? • On peut télécharger ces données à partir du site Kaggle.com dans le volet compétitions. • Ces données sont issues de « Encyclopedia Titanica » . • Les critères des personnes (données) utilisées dans le modèle sont :
  • 36.
  • 37.
  • 38.
    Une victoire pascomme les autres Obama a adopté une politique de campagne électorale assez fascinante et nouvelles : Il a introduit parmi les équipes qui s’occupé de sa campagne , une équipe de data scientist pour une raison unique : prédire les votants qui sont susceptibles d’etre convaincus pour la campagne Ils vont analysé chaque électeurs individuellement et prévoir s’il est possible de le convaincre par un contact direct , par téléphone , par flyer , ou publicité . Cet analyse consiste a utiliser « persuasion modeling » qui a aidé Obama à déterminer si en allant chez le votant et parler avec lui , il gagnera son vote ou pas. Pour cette initiative, la campagne a dû rassembler des données , tel que la démographie, l'histoire de vote, et les abonnements de magazine, etc. Grace à cette démarche analytique qui a changé le cours des élections américaines , “persuasion modeling “ ouvrira un nouveau chapitre des eléctions dans le monde.
  • 40.
    Cortana Cortana, l’assistante digitale personnellecréée , intégrée dans Windows phone 8.1 a prédit correctement les résultats 15 sur 16 match de FIFA World Cup 2014 . Cortana Intelligence Suite Transforme les données de l’entreprise en actions intelligentes grâce des analyses avancées basées sur des algorithmes ML et IA .
  • 42.
    Netflix Recommander system système qui préditl’évaluation(rating) qu’un utilisateur peut attribuer à une entité/produit . “ ” offre une expérience personnalisée pour les abonnées grâce à des recommandations de films et séries pour garantir la satisfaction . Algorithme de Clustering Algorithme de régression Réseau de neurones artificiels
  • 43.

Notes de l'éditeur

  • #5 and in the last decade the use of machine learning has spread rapidly throughout computer science and beyond. Machine learning is used in Web search, spam filters, recommender systems, ad placement, credit scoring, fraud detection, stock trading, drug design, and many other applications. Vous utilisez chaque jour machine learning sans vraiment le savoir , votre boite de mail qui filtre les messages en spams ou non est un exemple , Votre machine apprend a faire la distingtion entre les messages spams ou ceux venont des reseaux sociaux ce qui facilite votre consultation ,
  • #10 On ne peut pas parler de ml sans aborder la notion de data science ou la science des données ou d’intelligence artificielle , Commencent d’abord avec la data science ,
  • #11 Comprehension , analyse logique ,raisonnement Non pas accepter , on ne peut en aucun cas affirmer l’hypo , on ne peut jamais etre sur de ca ) Sol : on refait l’experience plusieurs fois et si on ne peut pas rejeter c’est mieux , on le refait encore et encrore Process : dans le but de bien comprendre ou essayer de changer quelques chose du business , il faut une bonne comprehension des donnees ce qui Nous menent a construire chaque fois un model prédictive qui va nous aider a changer notre business pour le meilleur , puis les données rechangent et le model changent e tle business changent etc .
  • #12 Experience : demander a des clients leurs donnees, chercher et stocker les donnees, collecter des donnees a partir de logs de l’entreprise ou tickets des clients / histoique,,,
  • #13 La data science basé sur une hypothese a rejeter ou non rejeter
  • #17 Regle ou modele Il faut savoir que le mL est apparu depuis 1960 et n’est devenu populaire que ces jours ci grace au big data Cette notion a revu le jour ces années vu l’exlposion de données d’une facon massive , en effet la taille des données collectionnner ces 3 dernieres annees est superieur a ceux collectionner depuis l’annee 2000 , Finalement utilisé ml revient à
  • #18 Non à l’interpretation ambigue
  • #19 On peut etre sur que son modele est fiable et donne des resultats assez correctes
  • #20 Exemple d’etnr : les donéées initiales Algo : comme le cerveau de l’homme
  • #26 ON N’a pas de reponse a l’avance pour ce type de question Avec le clustering il n’y a pas une seule bonne reponse
  • #27 L’algorithme consiste à apprendre à partir d’experoence ce qui’il convient de faire en differentes situations
  • #28 Les biologistes maintenant collectent beaucoup de données sur les séquences de genes et d’adn , et utilisent des algo de machine learning afin d’avoir une bonne compréhension du génome de l’homme et comparer des genes avec un modele normale afin de detecter toute sorte de maladies ou anomalies automatiquement . On pensant a ce que netflix fait au début personnelement et comment l’entreprise arrive a savoir les préférences de chacun personne aussi rapidement Sachant que netflix possedent 94 millions d’abonnées je me suis dit il y aurais alors 94 millions d’algortihmes personnalisés et propres a chque personne selon les series et les films qu’ils regardent ,en suite vu la rapidité et le nombre exponentielle d’abonnes chaque jour, eh bah c’est totalement impossible de faire ca , c’est impo car réellement il n’y a qu’un seul algo qui apprend tout seul avec chaque abonnes , c’est magic oui on lui entre en input l’abonnée et on output on aura ses preferences , preferences
  • #30 Azure ML intègre le logiciel R et la grande majorité des packages associés De ce fait azure ML offre une opportunité unique par rapport a ses concurrents ,on peut réaliser des traitements en ligne avec du code R Deploiement , et tout cela est dans le cloud , nos données sont stockés ailleurs dans des data centers quelque part dans le monde , les calculs sont effedctues sur des machines distantes sur des serveurs externalisés .
  • #31 Notre produit final avec Azure ML est défini Web service appelée par un web application ou mobile application, dashborad que votre patron peut consulter Version gratuite / limitée : en taille des données introduites ,la duree de l’exepereicne , vitesse ,,,, 10Gb Version payante : 40dt par mois avec un mois gratuit au début 1 2 3- la rapidité de construction du modèle , on n’écrit pas du code , module contenant de la logique préte a etre utilisé, drag and drop 4-le point dont Microsoft se distingue par , dans les cas ordinaires , le data scientist acheve la constructon de son modele et la passe a qu’elqun d’autre pour la deployer c’est un processus qui n’est pas facile (la mise en production)et couteux surtout en temps
  • #33  Un simple navigateur suffit pour développer les analyses et réaliser les traitements. Ainsi, un client léger avec des capacités limitées ne nous pénalise en rien, tant en matière de volumétrie qu’en matière de temps de calcul.
  • #42 Voteurs indecis , changeant d’avis Le challenge était
  • #43 Un réseau de neurones artificiels, ou réseau neuronal artificiel, est un ensemble d'algorithmes dont la conception est à l'origine très schématiquement inspirée du fonctionnement des neurones biologiques, et qui par la suite s'est rapproché des méthodes statistiques Les réseaux de neurones sont généralement optimisés par des méthodes d’apprentissage de type probabiliste, en particulier bayésien.  Les réseaux de neurones, en tant que systèmes capables d'apprendre, mettent en œuvre le principe de l'induction, c’est-à-dire l'apprentissage par l'expérience. Par confrontation avec des situations ponctuelles, ils infèrent un système de décision intégré dont le caractère générique est fonction du nombre de cas d'apprentissages rencontrés et de leur complexité par rapport à la complexité du problème à résoudre. Grâce à leur capacité de classification et de généralisation, les réseaux de neurones sont généralement utilisés dans des problèmes de nature statistique, Autre exemple, une banque peut créer un jeu de données sur les clients qui ont effectué un emprunt constitué : de leur revenu, de leur âge, du nombre d’enfants à charge… et s’il s’agit d’un bon client. Si ce jeu de données est suffisamment grand, il peut être utilisé pour l’entraînement d’un réseau de neurones. La banque pourra alors présenter les caractéristiques d’un potentiel nouveau client, et le réseau répondra s’il sera bon client ou non, en généralisant à partir des cas qu’il connaît.