Fr & En
Fr
L'apprentissage automatique (en anglais machine learning, littéralement « apprentissage machine ») ou apprentissage statistique est un champ d'étude de l'intelligence artificielle qui se fonde sur des approches mathématiques et statistiques pour donner aux ordinateurs la capacité d' « apprendre » à partir de données, c'est-à-dire d'améliorer leurs performances à résoudre des tâches sans être explicitement programmés pour chacune. Plus largement, il concerne la conception, l'analyse, l'optimisation, le développement et l'implémentation de telles méthodes.
En
Machine learning is a subfield of artificial intelligence (AI). The goal of machine learning generally is to understand the structure of data and fit that data into models that can be understood and utilized by people.
Although machine learning is a field within computer science, it differs from traditional computational approaches. In traditional computing, algorithms are sets of explicitly programmed instructions used by computers to calculate or problem solve. Machine learning algorithms instead allow for computers to train on data inputs and use statistical analysis in order to output values that fall within a specific range. Because of this, machine learning facilitates computers in building models from sample data in order to automate decision-making processes based on data inputs.
Ce document est un rapport sur mon travail pour l'application des algorithmes de 'Machine Learning' par RapidMiner sur une base de données de e-bay en Allemagne.
git: https://github.com/hannachiMajdi/Machine-learning-avec-RapidMiner
email: majdi_hannachi@outlook.fr
Colloque IMT -04/04/2019- L'IA au cœur des mutations industrielles - Introduc...I MT
Colloque IMT "L'Intelligence Artificielle au cœur des mutations industrielles": Introduction de la journée par Christian Roux, directeur de la recherche et de l'innovation et Talel Abdessalem, animateur de la thématique IMT Data Analytics & IA et professeur (Télécom ParisTech).
Le 19 septembre nous avons démystifié l'IA pour les TPE et PME !
Qui a dit que l'intelligence artificielle était réservée aux géants de la Silicon Valley et aux budgets colossaux ?
Préparez-vous à briser les idées reçues et à explorer comment l'IA peut être votre alliée !
Au cœur de notre projet Extr4.0rdinaire, nous vous avons invité à une matinée passionnante, centrée sur un sujet des plus actuels !
Ce document est un rapport sur mon travail pour l'application des algorithmes de 'Machine Learning' par RapidMiner sur une base de données de e-bay en Allemagne.
git: https://github.com/hannachiMajdi/Machine-learning-avec-RapidMiner
email: majdi_hannachi@outlook.fr
Colloque IMT -04/04/2019- L'IA au cœur des mutations industrielles - Introduc...I MT
Colloque IMT "L'Intelligence Artificielle au cœur des mutations industrielles": Introduction de la journée par Christian Roux, directeur de la recherche et de l'innovation et Talel Abdessalem, animateur de la thématique IMT Data Analytics & IA et professeur (Télécom ParisTech).
Le 19 septembre nous avons démystifié l'IA pour les TPE et PME !
Qui a dit que l'intelligence artificielle était réservée aux géants de la Silicon Valley et aux budgets colossaux ?
Préparez-vous à briser les idées reçues et à explorer comment l'IA peut être votre alliée !
Au cœur de notre projet Extr4.0rdinaire, nous vous avons invité à une matinée passionnante, centrée sur un sujet des plus actuels !
Courte présentation du Big Data & Machine Learning lors d'un séminaire à la Cité Internationale Universitaire de Paris, Maison des Etudiants Arméniens.
Vous êtes responsable MOA ou MOE et vous vous interrogez sur les possibilités du Machine Learning ?
Vous avez déjà rapidement entendu parler de classification supervisée, de prédiction, de recommandation … mais vous n’en comprenez pas réellement les tenants et les aboutissants ?
Cette présentation est faite pour vous!
Vous trouverez :
- une définition concise
- les grands principes du ML
- les problématiques auxquelles répond le ML
- les étapes à suivre
- les prémices d’un projet
- les indicateurs à prendre en compte lors du choix de l’algorithme à utiliser
Aujourd’hui, tous les métiers sont concernés par le Machine Learning, alors n’ayez pas peur de vous lancer! C’est à vous!
Si vous avez des questions, les commentaires sont les bienvenus.
UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...OCTO Technology
BNP Paribas était présent pour témoigner de sa démarche avec un retour sur la mise en œuvre de ces nouvelles architectures de données.
Un menu copieux pour cette rentrée des petits-déjeuners OCTO avec un focus sur les architectures de données, un témoignage de BNP Paribas, un retour sur la mise en œuvre de ces nouvelles architectures de données et, cerise sur le gâteau, une mise en perspective de la tendance vers des architectures de flux à l’occasion de la publication du livre blanc Digital Studies Vol.02 : La question du temps dans les architectures digitales.
Les données sont là, initialement éclatées dans différents silos applicatifs. Mais maintenant qu’elles commencent à alimenter un Data Lake sous Hadoop, que va-t-on en faire ? Comment les valoriser ? Comment créer de nouveaux services à valeur ajoutée ?
BNP Paribas était là poue témoigner de sa démarche – initiée par des expérimentations autour des data - pour proposer dès à présent de nouveaux services (trois projets seront évoqués).
OCTO a présenté le retour d'expérience sur la mise en œuvre de ces nouvelles architectures de données, incluant les technologies Hadoop, Spark, Cassandra, Solr ainsi que des expérimentations sur le Machine Learning, tout en soulignant les méthodes de travail utilisées avec des équipes mixtes BNP Paribas / OCTO.
Ce petit-déjeuner a aussi été l’occasion de vous présenter et de vous remettre une version imprimée du livre blanc Digital Studies Vol.02, consacré aux questions d’architecture, notamment aux nouvelles architectures de flux.
Comment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le KioskJedha Bootcamp
Nos formations : www.jedha.co
De plus en plus demandés par les recruteurs de tous types d'entreprises, les Data Scientists ont pris une importance considérable dans leurs processus de décision. Lors de cette session Ask My Anything, nous répondrons à toutes vos questions sur le métier de Data Scientist après vous avoir donnés nos astuces et conseils.
Conception et réalisation d’un Système d’information des étudiants du départe...Ilyas CHAOUA
Ce projet vise à développer un système d’information des étudiants du département
informatique. Mais, pour aboutir à cette fin, nous allons tout d’abord effectué une étude
conceptuelle de l’application. Cette dernière nous permettra, en effet, d’accéder facilement
à la réalisation de l’application en organisant les idées et en structurant le processus de
codage suivant des diagrammes. L’application a été implémenté par diverses technologies
en se basant sur l’étude conceptuelle. Le système de gestion de base de données choisi
fut MySQL. L’application a été implémenté avec Laravel5 et Boostrap3, qui sont des
frameworks permettant de créer rapidement et efficacement un site web complexe et flexible.
Presentation during the Big Data Developers in Paris organized by IBM. Subject : Social Data (application of machine learning to a data challenge proposed by DrivenData (Data Science to save the world) ).
Abdellah Lamrani Alaoui & Samed Atouati
initiation a la conception des SI
La conception des systèmes d'information (SI) est un processus crucial dans le développement et la mise en œuvre de solutions informatiques pour répondre aux besoins d'une organisation. La conception des SI englobe plusieurs étapes clés, chacune jouant un rôle essentiel dans la création d'un système efficace et adapté. Voici un aperçu général du processus de conception des systèmes d'information :
Identification des Besoins :
Comprendre les besoins spécifiques de l'organisation et des utilisateurs.
Effectuer des analyses des processus métier pour identifier les exigences fonctionnelles.
Planification du Système :
Élaborer un plan global pour la conception du système.
Définir les objectifs, les délais et les ressources nécessaires.
Conception Conceptuelle :
Créer un modèle conceptuel du système qui identifie les grandes composantes et leurs relations.
Utiliser des techniques comme la modélisation entité-relation pour représenter les entités et les relations clés.
Conception Logique :
Développer un modèle logique basé sur le modèle conceptuel.
Utiliser des diagrammes de classe, des diagrammes de séquence, etc., pour définir la structure et le comportement du système.
Conception Physique :
Transformer le modèle logique en un modèle physique qui tient compte des détails de mise en œuvre.
Définir les tables de bases de données, les structures de fichiers, les interfaces, etc.
Développement de l'Architecture :
Concevoir l'architecture matérielle et logicielle du système.
Choisir les technologies et les plateformes appropriées.
Prototypage :
Créer des prototypes du système pour recueillir des commentaires et valider les concepts.
Itérer sur le prototype en fonction des retours.
Développement et Programmation :
Écrire le code source en utilisant les langages de programmation appropriés.
Suivre les meilleures pratiques de développement logiciel.
Tests :
Effectuer des tests unitaires, des tests d'intégration et des tests système pour garantir la qualité du système.
Identifier et corriger les bogues éventuels.
Mise en Œuvre :
Déployer le système dans l'environnement de production.
Fournir la formation nécessaire aux utilisateurs finaux.
Maintenance et Évolution :
Assurer la maintenance continue du système.
Mettre en œuvre des mises à jour et des améliorations en fonction des évolutions des besoins.
La conception des systèmes d'information est un processus itératif, et il est important de rester flexible pour ajuster le système en fonction des retours des utilisateurs et des changements dans l'environnement organisationnel. Un suivi continu et une gestion efficace du cycle de vie des systèmes d'information sont également essentiels pour assurer leur pertinence à long terme.
Le Machine Learning pour lutter contre les menaces en termes de Cybersécurité...Philippe Beraud
Avec l'agilité et l'échelle du Cloud, la capacité des machines à analyser rapidement et à répondre des quantités sans précédent de données devient indispensable comme la fréquence, l'échelle et la sophistication des cyberattaques ne cessent d'augmenter. Extraire les signaux d'un attaquant de milliards d'événements de log en quasi réel temps depuis un stockage à l'échelle du Pétaoctet est une tâche ardue.
L'application des algorithmes de Machine Learning aux vastes quantités de données issues des logs et de la télémétrie recueillies par les différents services donne une connaissance et une capacité de détection d'anomalies sans précédent pour identifier les comportements malveillants ou les entités malveillantes ; appelez-les hackers, attaquants, logiciel malveillant, comportement indésirable, etc. Ces techniques contribuent à identifier les menaces plus efficacement que d'autres approches pilotées par logiciel pour défendre les services Cloud de Microsoft, son infrastructure et ses clients.
Cette session s’intéressera à la façon dont le Machine Learning et désormais le Transfer Learning peuvent être appliqués à la Cybersécurité à chaque niveau de défense (prévention, détection et remédiation) et illustrera comment cela se traduit dans les services proposés à nos clients.
Courte présentation du Big Data & Machine Learning lors d'un séminaire à la Cité Internationale Universitaire de Paris, Maison des Etudiants Arméniens.
Vous êtes responsable MOA ou MOE et vous vous interrogez sur les possibilités du Machine Learning ?
Vous avez déjà rapidement entendu parler de classification supervisée, de prédiction, de recommandation … mais vous n’en comprenez pas réellement les tenants et les aboutissants ?
Cette présentation est faite pour vous!
Vous trouverez :
- une définition concise
- les grands principes du ML
- les problématiques auxquelles répond le ML
- les étapes à suivre
- les prémices d’un projet
- les indicateurs à prendre en compte lors du choix de l’algorithme à utiliser
Aujourd’hui, tous les métiers sont concernés par le Machine Learning, alors n’ayez pas peur de vous lancer! C’est à vous!
Si vous avez des questions, les commentaires sont les bienvenus.
UN ÉLÉPHANT QUI SE BALANÇAIT … Comment mettre en musique les big data et valo...OCTO Technology
BNP Paribas était présent pour témoigner de sa démarche avec un retour sur la mise en œuvre de ces nouvelles architectures de données.
Un menu copieux pour cette rentrée des petits-déjeuners OCTO avec un focus sur les architectures de données, un témoignage de BNP Paribas, un retour sur la mise en œuvre de ces nouvelles architectures de données et, cerise sur le gâteau, une mise en perspective de la tendance vers des architectures de flux à l’occasion de la publication du livre blanc Digital Studies Vol.02 : La question du temps dans les architectures digitales.
Les données sont là, initialement éclatées dans différents silos applicatifs. Mais maintenant qu’elles commencent à alimenter un Data Lake sous Hadoop, que va-t-on en faire ? Comment les valoriser ? Comment créer de nouveaux services à valeur ajoutée ?
BNP Paribas était là poue témoigner de sa démarche – initiée par des expérimentations autour des data - pour proposer dès à présent de nouveaux services (trois projets seront évoqués).
OCTO a présenté le retour d'expérience sur la mise en œuvre de ces nouvelles architectures de données, incluant les technologies Hadoop, Spark, Cassandra, Solr ainsi que des expérimentations sur le Machine Learning, tout en soulignant les méthodes de travail utilisées avec des équipes mixtes BNP Paribas / OCTO.
Ce petit-déjeuner a aussi été l’occasion de vous présenter et de vous remettre une version imprimée du livre blanc Digital Studies Vol.02, consacré aux questions d’architecture, notamment aux nouvelles architectures de flux.
Comment devenir Data Scientist - Nicolas Garcia, Data Scientist @ Le KioskJedha Bootcamp
Nos formations : www.jedha.co
De plus en plus demandés par les recruteurs de tous types d'entreprises, les Data Scientists ont pris une importance considérable dans leurs processus de décision. Lors de cette session Ask My Anything, nous répondrons à toutes vos questions sur le métier de Data Scientist après vous avoir donnés nos astuces et conseils.
Conception et réalisation d’un Système d’information des étudiants du départe...Ilyas CHAOUA
Ce projet vise à développer un système d’information des étudiants du département
informatique. Mais, pour aboutir à cette fin, nous allons tout d’abord effectué une étude
conceptuelle de l’application. Cette dernière nous permettra, en effet, d’accéder facilement
à la réalisation de l’application en organisant les idées et en structurant le processus de
codage suivant des diagrammes. L’application a été implémenté par diverses technologies
en se basant sur l’étude conceptuelle. Le système de gestion de base de données choisi
fut MySQL. L’application a été implémenté avec Laravel5 et Boostrap3, qui sont des
frameworks permettant de créer rapidement et efficacement un site web complexe et flexible.
Presentation during the Big Data Developers in Paris organized by IBM. Subject : Social Data (application of machine learning to a data challenge proposed by DrivenData (Data Science to save the world) ).
Abdellah Lamrani Alaoui & Samed Atouati
initiation a la conception des SI
La conception des systèmes d'information (SI) est un processus crucial dans le développement et la mise en œuvre de solutions informatiques pour répondre aux besoins d'une organisation. La conception des SI englobe plusieurs étapes clés, chacune jouant un rôle essentiel dans la création d'un système efficace et adapté. Voici un aperçu général du processus de conception des systèmes d'information :
Identification des Besoins :
Comprendre les besoins spécifiques de l'organisation et des utilisateurs.
Effectuer des analyses des processus métier pour identifier les exigences fonctionnelles.
Planification du Système :
Élaborer un plan global pour la conception du système.
Définir les objectifs, les délais et les ressources nécessaires.
Conception Conceptuelle :
Créer un modèle conceptuel du système qui identifie les grandes composantes et leurs relations.
Utiliser des techniques comme la modélisation entité-relation pour représenter les entités et les relations clés.
Conception Logique :
Développer un modèle logique basé sur le modèle conceptuel.
Utiliser des diagrammes de classe, des diagrammes de séquence, etc., pour définir la structure et le comportement du système.
Conception Physique :
Transformer le modèle logique en un modèle physique qui tient compte des détails de mise en œuvre.
Définir les tables de bases de données, les structures de fichiers, les interfaces, etc.
Développement de l'Architecture :
Concevoir l'architecture matérielle et logicielle du système.
Choisir les technologies et les plateformes appropriées.
Prototypage :
Créer des prototypes du système pour recueillir des commentaires et valider les concepts.
Itérer sur le prototype en fonction des retours.
Développement et Programmation :
Écrire le code source en utilisant les langages de programmation appropriés.
Suivre les meilleures pratiques de développement logiciel.
Tests :
Effectuer des tests unitaires, des tests d'intégration et des tests système pour garantir la qualité du système.
Identifier et corriger les bogues éventuels.
Mise en Œuvre :
Déployer le système dans l'environnement de production.
Fournir la formation nécessaire aux utilisateurs finaux.
Maintenance et Évolution :
Assurer la maintenance continue du système.
Mettre en œuvre des mises à jour et des améliorations en fonction des évolutions des besoins.
La conception des systèmes d'information est un processus itératif, et il est important de rester flexible pour ajuster le système en fonction des retours des utilisateurs et des changements dans l'environnement organisationnel. Un suivi continu et une gestion efficace du cycle de vie des systèmes d'information sont également essentiels pour assurer leur pertinence à long terme.
Le Machine Learning pour lutter contre les menaces en termes de Cybersécurité...Philippe Beraud
Avec l'agilité et l'échelle du Cloud, la capacité des machines à analyser rapidement et à répondre des quantités sans précédent de données devient indispensable comme la fréquence, l'échelle et la sophistication des cyberattaques ne cessent d'augmenter. Extraire les signaux d'un attaquant de milliards d'événements de log en quasi réel temps depuis un stockage à l'échelle du Pétaoctet est une tâche ardue.
L'application des algorithmes de Machine Learning aux vastes quantités de données issues des logs et de la télémétrie recueillies par les différents services donne une connaissance et une capacité de détection d'anomalies sans précédent pour identifier les comportements malveillants ou les entités malveillantes ; appelez-les hackers, attaquants, logiciel malveillant, comportement indésirable, etc. Ces techniques contribuent à identifier les menaces plus efficacement que d'autres approches pilotées par logiciel pour défendre les services Cloud de Microsoft, son infrastructure et ses clients.
Cette session s’intéressera à la façon dont le Machine Learning et désormais le Transfer Learning peuvent être appliqués à la Cybersécurité à chaque niveau de défense (prévention, détection et remédiation) et illustrera comment cela se traduit dans les services proposés à nos clients.
Alternative au Tramway de la ville de Quebec Rev 1 sml.pdfDaniel Bedard
CDPQ Infra dévoile un plan de mobilité de 15 G$ sur 15 ans pour la région de Québec. Une alternative plus économique et rapide, ne serait-elle pas posssible?
- Valoriser les infrastructures ferroviaires du CN, en créant un Réseau Express Métropolitain (REM) plutôt qu'un nouveau tramway ou une combinaison des 2.
- Optimiser l'utilisation des rails pour un transport combiné des marchandises et des personnes, en accordant une priorité aux déplacements des personnes aux heures de pointes.
- Intégrer un téléphérique transrives comme 3ème lien urbain dédiés aux piétons et cyclistes avec correspondance avec le REM.
- Le 3 ème lien routier est repensé en intégrant un tunnel routier qui se prolonge avec le nouveau pont de l'Île d'Orléans et quelques réaménagemet de ses chausées.
https://www.linkedin.com/in/bedarddaniel/
English:
CDPQ Infra unveils a $15 billion, 15-year mobility plan for the Quebec region. Wouldn't a more economical and faster alternative be possible?
Leverage CN's railway infrastructure by creating a Metropolitan Express Network (REM) instead of a new tramway or a combination of both.
Optimize the use of rails for combined freight and passenger transport, giving priority to passenger travel during peak hours.
Integrate a cross-river cable car as a third urban link dedicated to pedestrians and cyclists, with connections to the REM.
Rethink the third road link by integrating a road tunnel that extends with the new Île d'Orléans bridge and some reconfiguration of its lanes.
https://www.linkedin.com/in/bedarddaniel/
2. Présenter par IBRAHIM ALI MAHADI
Élève Ingénieur Informaticien a IAI
DEBUTEZ AVEC LES MACHINES LEARNING
1
Tables des matières
Définition des termes.............................................................................................................................2
A. Données structurées / Données non-structurées :.....................................................................2
B. La data science :..........................................................................................................................2
C. Le clustering................................................................................................................................2
Introduction............................................................................................................................................3
I. Le Contexte.....................................................................................................................................4
II. Les Problématiques du ML ............................................................................................................4
III. Spécifications Technique Globale..............................................................................................5
A. Le cycle de travail........................................................................................................................5
1. La première étape du cycle.....................................................................................................5
2. La deuxième étape..................................................................................................................6
3. Troisieme tape ........................................................................................................................6
4. Derriere etape.......................................................................................................................10
B. Choix du langage.......................................................................................................................11
3. Présenter par IBRAHIM ALI MAHADI
Élève Ingénieur Informaticien a IAI
DEBUTEZ AVEC LES MACHINES LEARNING
2
Définition des termes
A. Données structurées / Données non-structurées :
Les données structurées désignent toutes les données pouvant être intégrées dans des bases de
données relationnelles . Ce sont des données qui, par leur structure, peuvent être associées
entre elles au sein de tableaux. Les données non-structurées, à l’inverse, désignent toutes les
autres données : les fichiers audios, les fichiers vidéo, les postes sur les réseaux sociaux, les
emails, etc.
B. La data science :
Est un nouveau domaine de travail, qui augmente les capacités d’analyse classique, afin
d’aider les entreprises à prendre des décisions plus informées. Elle s’appuie pour cela de
données utiles et ne peut s’appliquer que dans certaines problématiques précises, qui gagnent
à utiliser ce type de méthodes.
C. Le clustering
Le clustering désigne les méthodes de regroupement automatique de données qui
se ressemblent le plus en un ensemble de "nuages", appelés clusters. Un ensemble
d'algorithmes non supervisés peuvent réaliser cette tâche. Ils mesurent donc de manière
automatique la similarité entre les différentes données. Par exemple, les points sur le graphe
ci-dessous peuvent être considérés comme similaires s'ils sont proches en termes de distance.
4. Présenter par IBRAHIM ALI MAHADI
Élève Ingénieur Informaticien a IAI
DEBUTEZ AVEC LES MACHINES LEARNING
3
Introduction
Le Big data a certainement révolutionné le monde ces dernières années parmi les sujets qui
lui sont associés les Machine Learning. C’est un champ d'étude qui se fonde sur des approches
mathématiques et statistiques pour donner aux ordinateurs la capacité d’« apprendre » à partir de
données.
Elles mettent à notre disposition un ensemble de techniques puissantes permettant de créer
des modèles prédictifs à partir de données, et qui apprennent par eux-mêmes!
Une fois les données récupérées, nettoyées et explorées ; la phase de modélisation commence
avec la question comme régression ou une classification ? puis supervisée ou non
supervisée?
Et enfin débute une phase d’évaluation et d’interprétation juste avant la mise en production
de la solution.
5. Présenter par IBRAHIM ALI MAHADI
Élève Ingénieur Informaticien a IAI
DEBUTEZ AVEC LES MACHINES LEARNING
4
I. Le Contexte
L’accumulation aujourd’hui énorme des données par les systèmes représente une énorme
opportunité et un enjeu majeur pour la survie des entreprises depuis quelques année dans notre
société
II. Problématiques du ML
La problématique commence avec les data dit-on en big data; c’est pour quoi dans cette partie
une analyse des différents problèmes pratiques est réalisée dans le but de faire un choix de
data et donc de domaine à modéliser.
En effet il existe des sites d’Open data comme Keggle
Nous pouvons citez quelques exemples de solutions de machine Learning courantes à des
problématiques d'entreprises :
• Affecter un score à un client
• Prédire la rentabilité d’une campagne marketing
• Identifier les événements rare
• Affecter une catégorie à un produit
• Segmenter les visiteurs d’un site
• Reconnaissance d’image et des textes
• Recommander un produit à un client
• Prédire les ventes d'une campagne marketing.
• Identifier si une image est déjà présente dans une banque d'image existante.
• Segmenter les utilisateurs d'un site en plusieurs groupes en fonction de leur
comportement sur le site.
• Etc…
6. Présenter par IBRAHIM ALI MAHADI
Élève Ingénieur Informaticien a IAI
DEBUTEZ AVEC LES MACHINES LEARNING
5
III. Spécifications Technique Globale
A. Le cycle de travail
Au sein de du cycle de travail du data scientiste, le machine Learning désigne l'ensemble
des méthodes de modélisation statistique à partir des données.
1. La première étape du cycle
La récupération des données et leurs provenances dépend fortement de la problématique poser ;
par exemple: une voiture autonome générera des données à partir de ses capteurs, une entreprise de
trading récupérera les données sur des outils de marché financier, etc. Voici quelques outils un
peu généraux :
• Pour récupérer des données texte depuis des pages internet, nous allons utiliser un
outil de scraping comme scrapy en python par exemple
7. Présenter par IBRAHIM ALI MAHADI
Élève Ingénieur Informaticien a IAI
DEBUTEZ AVEC LES MACHINES LEARNING
6
• Pours des données structurées comme SQL, on utilise leurs syntaxes de
récupération.
• Pour les données publiques Il existe des hubs comme- sur GitHub
•
2. La deuxième étape
Pour Le nettoyage et l'exploration des données En Python, l’écosystème Scipy est
universellement utilisé avec ses librairies :
• Pandas pour créer des tableaux (ou "Dataframe") à partir des données brutes,
• Numpy pour gérer des matrices,
• Matplotlib pour générer des graphiques,
• iPython pour les feuilles de calculs,
Etc…
Cette famille de librairies est très utilisée et sert en réalité de base à beaucoup de Framework de
Machine Learning que nous pourrons utiliser
3. Troisieme tape
Pour La phase de modélisation (et l’évaluation) Les modèles sont le plus souvent représentés
par un ensemble de paramètres qu'on mettra dans un vecteur. Par exemple, une droite peut
être représentée par l'équation de la droite
C’est le modèle paramétrique, et l'apprentissage du modèle revient dans ce cas à trouver la
valeur optimale du paramètre.
a) L'algorithme d'apprentissage
L'algorithme d'apprentissage constitue la méthode avec laquelle le modèle statistique va se
paramétrer à partir des données d'exemple. Il existe de nombreux algorithmes différents
Quelques exemples d'algorithmes de machine Learning, dont nous allons utiliser.
8. Présenter par IBRAHIM ALI MAHADI
Élève Ingénieur Informaticien a IAI
DEBUTEZ AVEC LES MACHINES LEARNING
7
• La regression linéaire
• K-nn
• Les Support Vector Machine (SVM)
• Les reseaux de neurones
• Les random forests
• etc.
b) Construction d’un modèle statistique
• Pour construire notre modèle, on part d'une hypothèse de départ qui représente
l'ensemble des formes que peut prendre notre modélisation (une courbe par exemple,
mais ça peut être bien d'autres choses encore).
• En apprentissage supervisé, on cherche à trouver le modèle optimal à l'aide des
données d'entraînement. Cela consiste à faire converger une mesure appelée loss
function (fonction de perte) en utilisant des techniques d'optimisation numérique.
• Deux types de fonctions de perte souvent utilisées en apprentissage supervisé sont le
risque empirique et le maximum de vraisemblance.
• Les algorithmes de machine Learning sont une combinaison de plusieurs domaines
d'études : les statistiques (statistical learning theory), l'optimisation numérique,
l'informatique théorique, etc.
Exemple d’un modèle statistique : cas d’une régression linéaire
• À partir d'une problématique et d'un dataset, nous avons considéré une hypothèse de
travail pour contraindre le modèle : ici nous nous sommes placés dans le cas d'une
régression linéaire, qui signifie contraindre la forme du modèle à une droite.
• Nous allons décomposer l'entraînement de ce modèle sur les observations, afin de
déterminer le paramètre (pente et ordonnée à l'origine) de la droite optimale pour ces
données. C'est cette partie que l'on appelle apprentissage du modèle.
• À l'aide du modèle ainsi trouvé, nous avons effectué des prédictions de montant de
loyer à partir de n'importe quelle surface donnée
9. Présenter par IBRAHIM ALI MAHADI
Élève Ingénieur Informaticien a IAI
DEBUTEZ AVEC LES MACHINES LEARNING
8
c) Exploitons le jeu de données
• S’il y en a beaucoup de data, on travaille d'abord avec un échantillon représentatif de
la population pour pouvoir aller plus vite.
• On sépare dès le départ en deux parties notre jeu de données : un training set pour
créer le modèle et un testing set pour tester la qualité du modèle
Exemple d’exploitation de donnée : cas de l’algo k-NN
Le k-NN est le diminutif de k Nearest Neighbors. C’est un algorithme qui peut servir autant pour la
classification que la régression. Il est surnommé « nearest neighbors » (plus proches voisins en
français) car le principe de ce modèle consiste en effet à choisir les k données les plus proches du
point étudié afin d’en prédire sa valeur.
En fait, le k-NN est un type spécial d’algorithme qui n’utilise pas de modèle statistique. Il est "non
paramétrique", et il se base uniquement sur les données d’entraînement. Ce type d’algorithme est
appelé memory-based. A contrario, la régression linéaire est paramétrique, et ne va donc pas avoir
besoin de conserver toutes les données pour effectuer des prédictions, mais seulement le paramètre
Le jeu de données que nous allons utiliser. C'est un datasets très célèbre appelé MNIST. Il est
constitué d'un ensemble de 70000 images 28x28 pixels en noir et blanc annotées du chiffre
correspondant (entre 0 et 9). L'objectif de ce jeu de données était de permettre à un ordinateur
d'apprendre à reconnaître des nombres manuscrits automatiquement (pour lire des chèques par
exemple) dispo en sur les Framework.
d) Une API pour les tests
Pour tester rapidement la viabilité du modèle nous utiliserons un API. Les plus reconnues sont
Google Cloud AI, Microsoft Azure Machine Learning et AWS Machine Learning. Ces logiciels,
hébergé dans le cloud, permettent directement de travailler sans code sur tous les aspects de la partie
modélisation et la mesure de performance.
10. Présenter par IBRAHIM ALI MAHADI
Élève Ingénieur Informaticien a IAI
DEBUTEZ AVEC LES MACHINES LEARNING
9
e) Choix des outils
Pour les outils à utiliser. Nous avons le choix Torch, Theano, Caffe mais
surtout Tensorflow et Scikit-Learn sont les librairies les plus utilisés pour la modélisation.
11. Présenter par IBRAHIM ALI MAHADI
Élève Ingénieur Informaticien a IAI
DEBUTEZ AVEC LES MACHINES LEARNING
10
En effet, Tensorflow est plus populaire, il permet plus de flexibilité dans l’implémentation et
permet d’aller plus loin, notamment grâce à Keras, pour la construction d’algorithmes de
Deep Learning.
4. Derriere etape
Pour le déploiement et la mise en production nous allons exporter notre modèle final et le rendre
accessible sous forme d’API sur un serveur.
Nous allons nous appuyer sur des outils robustes et spécialisés comme Hadoop.
L’image ci-dessous représente une partie de l’écosystème Hadoop avec les différentes librairies qui
répondent chacune à une utilisation spécifique de mise en place d’architecture Big Data.
L'écosystème Hadoop est très fourni et répondra à tous nos besoins pour la mise en production
Des liens sur les parcours des data Architect expliquent en détail la plupart des questions concernant
la création du data Lake et de la mise en production des Big Data.
12. Présenter par IBRAHIM ALI MAHADI
Élève Ingénieur Informaticien a IAI
DEBUTEZ AVEC LES MACHINES LEARNING
11
B. Choix du langage
a) "R ou Python ?"
R, créé en 1993, est le langage historique des statisticiens, métier qui représente l’ancêtre de la Data
Science
Python est aussi un “vieux” langage (1991). Il est devenu plus récemment le langage de référence
pour tous les ingénieurs qui veulent effectuer rapidement des implémentations d’algorithmes
mathématiques, entre autres de Machine Learning. C’est pourquoi notre choix se porte sur ce langage.
Quel est le langage le plus recherché sur Google ?
Fin
13. Présenter par IBRAHIM ALI MAHADI
Élève Ingénieur Informaticien a IAI
DEBUTEZ AVEC LES MACHINES LEARNING
12
“Everything we love about civilization is a product of intelligence, so amplifying our human
intelligence with artificial intelligence has the potential of helping civilization flourish like never
before – as long as we manage to keep the technology beneficial. “
Max Tegmark, Président of the Future of Life Institute
« Ce que nous aimons au sujet de la civilisation, c’est qu’il s’agit d’un produit de l’intelligence.
Ainsi, amplifier l’intelligence humaine grâce à l’intelligence artificielle peut nous permettre de
faire prospérer la civilisation comme jamais auparavant – du moins, tant que nous ferons en sorte
que la technologie nous soit bénéfique »
Max Tegmark, Président de la Future of Life Institute
https://futureoflife.org/background/benefits-risks-artificial-intelligence-french/
Sur l'aspect « éthique » du machine Learning. Pour en savoir plus C’est ici la rubrique
dédiée sur le site future of life.