Anticiper les besoins en consommation d'énergie de SeattleFUMERY Michael
Projet de Machine Learning, data analysis, EDA et modélisation pour prédiction des consommations d'énergie de la ville de Seattle. Formation Ingénieur Machine Learning
NLP - Prédictions de tags sur les questions StackoverflowFUMERY Michael
Présentation des techniques de NLP, Bag of words, TFIDF, modélisations supervisées et non-supervisées pour prédiction des tags automatiques sur les questions Stackoverflow
DeciLogic, la gestion d'un projet décisionnelEric Mauvais
Comment mettre en place un SID ?
Les enjeux du Système d’Information Décisionnel :
Environnement et organisation des projets
- Raisons et justifications
- L’information décisionnelle dans l’organisation
- Facteurs de succès et risques majeurs
- Organisation
- Choix des outils
Version DRAFT d'une formation Data Scientist que j'ai conçue à partir de sources diverses (voir références bibliographiques à la fin de chaque diapositive).
La formation est destinée aux personnes possédant des bases (~BAC+2) en statistiques et programmation (j'utilise R).
Je reste ouvert à tout commentaire, critique et correction. Je continuerai à mettre à jour les diapositives et à en ajouter d'autres si j'ai le temps.
Anticiper les besoins en consommation d'énergie de SeattleFUMERY Michael
Projet de Machine Learning, data analysis, EDA et modélisation pour prédiction des consommations d'énergie de la ville de Seattle. Formation Ingénieur Machine Learning
NLP - Prédictions de tags sur les questions StackoverflowFUMERY Michael
Présentation des techniques de NLP, Bag of words, TFIDF, modélisations supervisées et non-supervisées pour prédiction des tags automatiques sur les questions Stackoverflow
DeciLogic, la gestion d'un projet décisionnelEric Mauvais
Comment mettre en place un SID ?
Les enjeux du Système d’Information Décisionnel :
Environnement et organisation des projets
- Raisons et justifications
- L’information décisionnelle dans l’organisation
- Facteurs de succès et risques majeurs
- Organisation
- Choix des outils
Version DRAFT d'une formation Data Scientist que j'ai conçue à partir de sources diverses (voir références bibliographiques à la fin de chaque diapositive).
La formation est destinée aux personnes possédant des bases (~BAC+2) en statistiques et programmation (j'utilise R).
Je reste ouvert à tout commentaire, critique et correction. Je continuerai à mettre à jour les diapositives et à en ajouter d'autres si j'ai le temps.
Réduction de la dimension, Diagonalisation, études des valeurs propres, centrage et réduction, techniques de choix des axes factoriels, critère de coude, critère de Kaiser, plans factoriels, carte des individus, cercle de corrélation
SQL Server Analysis Services dans sa version 2012 a introduit la notion de BI Semantic Model, BISM, qui se décline soit en modèle Multidimensionnel, soit en modèle Tabulaire. Les besoins adressés par ces deux modes sont pour une grande part communs, mais les prérequis nécessaires à leur implémentation diffèrent sur de nombreux points qu'il est important de connaître avant de se lancer dans un projet. Durant cette session nous comparerons ces deux modes sur de nombreux critères, qu'ils concernent les administrateurs (infrastructures à mettre en place, maintenabilité, sécurité), les architectes (modélisations relationnelles sous-jacentes et frontaux supportés), les développeurs (techniques d'implémentation, performance des requêtes) et les chefs de projet qu'ils soient techniques ou fonctionnels (cas métier adressés, facilité de mise en place).
Présentation général des étapes du processus ETL (Extract,Transform, Load) d'un projet décisionnel.
ETL, acronyme de Extraction, Transformation, Loading, est un système de chargement de données depuis les différentes sources d'information de l'entreprise (hétérogènes) jusqu'à l'entrepôt de données (modèles multidimensionnels).
A Brief History of Database Management (SQL, NoSQL, NewSQL)Abdelkader OUARED
What's the Difference Between SQL, NoSQL, and NewSQL
SQL is a relational database management system (RDBMS) based on ... NewSQL tries to bring some of the features and scalability of NoSQL to SQL.
InfluxDB IOx Tech Talks: Query Engine Design and the Rust-Based DataFusion in...InfluxData
The document discusses updates to InfluxDB IOx, a new columnar time series database. It covers changes and improvements to the API, CLI, query capabilities, and path to open sourcing builds. Key points include moving to gRPC for management, adding PostgreSQL string functions to queries, optimizing functions for scalar values and columns, and monitoring internal systems as the first step to releasing open source builds.
Le Deep Learning est la nouvelle révolution dans le monde de l’Intelligence Artificielle. Les systèmes de reconnaissance vocale et d’image fleurissent de toutes parts. Le Deep Learning est-il aussi utile pour votre entreprise ?
Si vous ne traitez pas que des images, quels Use Cases vous reste-t-il ? Quelles sont les solutions à votre disposition si vous ne possédez pas une grande quantité de données ? En quoi cette approche est-elle différente du Machine Learning classique ? Peut-on facilement interpréter les résultats fournis par ces “black-boxes” ? Est-il d’ores et déjà possible d’aller au-delà du POC ? Est-ce que votre SI va être impacté ? Comment confronter vos résultats à la réalité ?
Au cours de cette présentation, nous passerons en revue ces différentes questions et apporterons des solutions exploitables afin de mettre en application le Deep Learning en entreprise. Même si tout le monde ne s’appelle pas Google ou Facebook ou que vous n’avez pas des To de données à analyser, nous verrons qu’il est possible d’exploiter au mieux la puissance de ces algorithmes et d’en tirer bénéfice rapidement.
Virtual Flink Forward 2020: Netflix Data Mesh: Composable Data Processing - J...Flink Forward
Netflix processes trillions of events and petabytes of data a day in the Keystone data pipeline, which is built on top of Apache Flink. As Netflix has scaled up original productions annually enjoyed by more than 150 million global members, data integration across the streaming service and the studio has become a priority. Scalably integrating data across hundreds of different data stores in a way that enables us to holistically optimize cost, performance and operational concerns presented a significant challenge. Learn how we expanded the scope of the Keystone pipeline into the Netflix Data Mesh, our real-time, general-purpose, data transportation platform for moving data between Netflix systems. The Keystone Platform’s unique approach to declarative configuration and schema evolution, as well as our approach to unifying batch and streaming data and processing will be covered in depth.
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Data Mesh in Practice - How Europe's Leading Online Platform for Fashion Goes...Dr. Arif Wider
A talk presented by Max Schultze from Zalando and Arif Wider from ThoughtWorks at NDC Oslo 2020.
Abstract:
The Data Lake paradigm is often considered the scalable successor of the more curated Data Warehouse approach when it comes to democratization of data. However, many who went out to build a centralized Data Lake came out with a data swamp of unclear responsibilities, a lack of data ownership, and sub-par data availability.
At Zalando - europe’s biggest online fashion retailer - we realised that accessibility and availability at scale can only be guaranteed when moving more responsibilities to those who pick up the data and have the respective domain knowledge - the data owners - while keeping only data governance and metadata information central. Such a decentralized and domain focused approach has recently been coined a Data Mesh.
The Data Mesh paradigm promotes the concept of Data Products which go beyond sharing of files and towards guarantees of quality and acknowledgement of data ownership.
This talk will take you on a journey of how we went from a centralized Data Lake to embrace a distributed Data Mesh architecture and will outline the ongoing efforts to make creation of data products as simple as applying a template.
CNES - CCT SIL - Traitement et Manipulation de la donnée à l‘aide des technologies Big Data
Présentation du 30 Juin 2017
Les CCT sont des espaces d'échanges techniques mis en place par le CNES il y a 20 ans, dans le but de réunir différents acteurs industriels et public pour s'enrichir mutuellement.
Réduction de la dimension, Diagonalisation, études des valeurs propres, centrage et réduction, techniques de choix des axes factoriels, critère de coude, critère de Kaiser, plans factoriels, carte des individus, cercle de corrélation
SQL Server Analysis Services dans sa version 2012 a introduit la notion de BI Semantic Model, BISM, qui se décline soit en modèle Multidimensionnel, soit en modèle Tabulaire. Les besoins adressés par ces deux modes sont pour une grande part communs, mais les prérequis nécessaires à leur implémentation diffèrent sur de nombreux points qu'il est important de connaître avant de se lancer dans un projet. Durant cette session nous comparerons ces deux modes sur de nombreux critères, qu'ils concernent les administrateurs (infrastructures à mettre en place, maintenabilité, sécurité), les architectes (modélisations relationnelles sous-jacentes et frontaux supportés), les développeurs (techniques d'implémentation, performance des requêtes) et les chefs de projet qu'ils soient techniques ou fonctionnels (cas métier adressés, facilité de mise en place).
Présentation général des étapes du processus ETL (Extract,Transform, Load) d'un projet décisionnel.
ETL, acronyme de Extraction, Transformation, Loading, est un système de chargement de données depuis les différentes sources d'information de l'entreprise (hétérogènes) jusqu'à l'entrepôt de données (modèles multidimensionnels).
A Brief History of Database Management (SQL, NoSQL, NewSQL)Abdelkader OUARED
What's the Difference Between SQL, NoSQL, and NewSQL
SQL is a relational database management system (RDBMS) based on ... NewSQL tries to bring some of the features and scalability of NoSQL to SQL.
InfluxDB IOx Tech Talks: Query Engine Design and the Rust-Based DataFusion in...InfluxData
The document discusses updates to InfluxDB IOx, a new columnar time series database. It covers changes and improvements to the API, CLI, query capabilities, and path to open sourcing builds. Key points include moving to gRPC for management, adding PostgreSQL string functions to queries, optimizing functions for scalar values and columns, and monitoring internal systems as the first step to releasing open source builds.
Le Deep Learning est la nouvelle révolution dans le monde de l’Intelligence Artificielle. Les systèmes de reconnaissance vocale et d’image fleurissent de toutes parts. Le Deep Learning est-il aussi utile pour votre entreprise ?
Si vous ne traitez pas que des images, quels Use Cases vous reste-t-il ? Quelles sont les solutions à votre disposition si vous ne possédez pas une grande quantité de données ? En quoi cette approche est-elle différente du Machine Learning classique ? Peut-on facilement interpréter les résultats fournis par ces “black-boxes” ? Est-il d’ores et déjà possible d’aller au-delà du POC ? Est-ce que votre SI va être impacté ? Comment confronter vos résultats à la réalité ?
Au cours de cette présentation, nous passerons en revue ces différentes questions et apporterons des solutions exploitables afin de mettre en application le Deep Learning en entreprise. Même si tout le monde ne s’appelle pas Google ou Facebook ou que vous n’avez pas des To de données à analyser, nous verrons qu’il est possible d’exploiter au mieux la puissance de ces algorithmes et d’en tirer bénéfice rapidement.
Virtual Flink Forward 2020: Netflix Data Mesh: Composable Data Processing - J...Flink Forward
Netflix processes trillions of events and petabytes of data a day in the Keystone data pipeline, which is built on top of Apache Flink. As Netflix has scaled up original productions annually enjoyed by more than 150 million global members, data integration across the streaming service and the studio has become a priority. Scalably integrating data across hundreds of different data stores in a way that enables us to holistically optimize cost, performance and operational concerns presented a significant challenge. Learn how we expanded the scope of the Keystone pipeline into the Netflix Data Mesh, our real-time, general-purpose, data transportation platform for moving data between Netflix systems. The Keystone Platform’s unique approach to declarative configuration and schema evolution, as well as our approach to unifying batch and streaming data and processing will be covered in depth.
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Data Mesh in Practice - How Europe's Leading Online Platform for Fashion Goes...Dr. Arif Wider
A talk presented by Max Schultze from Zalando and Arif Wider from ThoughtWorks at NDC Oslo 2020.
Abstract:
The Data Lake paradigm is often considered the scalable successor of the more curated Data Warehouse approach when it comes to democratization of data. However, many who went out to build a centralized Data Lake came out with a data swamp of unclear responsibilities, a lack of data ownership, and sub-par data availability.
At Zalando - europe’s biggest online fashion retailer - we realised that accessibility and availability at scale can only be guaranteed when moving more responsibilities to those who pick up the data and have the respective domain knowledge - the data owners - while keeping only data governance and metadata information central. Such a decentralized and domain focused approach has recently been coined a Data Mesh.
The Data Mesh paradigm promotes the concept of Data Products which go beyond sharing of files and towards guarantees of quality and acknowledgement of data ownership.
This talk will take you on a journey of how we went from a centralized Data Lake to embrace a distributed Data Mesh architecture and will outline the ongoing efforts to make creation of data products as simple as applying a template.
CNES - CCT SIL - Traitement et Manipulation de la donnée à l‘aide des technologies Big Data
Présentation du 30 Juin 2017
Les CCT sont des espaces d'échanges techniques mis en place par le CNES il y a 20 ans, dans le but de réunir différents acteurs industriels et public pour s'enrichir mutuellement.
Oxalide MorningTech #1 - BigData
1er MorningTech @Oxalide, animé par Ludovic Piot (@lpiot), le 15 décembre 2016.
Pour cette 1ère édition du Morning Tech nous vous proposons une overview sur un des thèmes du moment : le Big Data.
Au delà de ce buzz word nous aborderons :
Les grands concepts
Les étapes clés des projets Big Data et les technologies à utiliser (stockage, ingestion, …)
Les enjeux des architectures Big Data (architecture lambda, …)
L'intelligence artificielle (machine learning, deep learning, …)
Et nous finirons par un cas d'usage du big data sur AWS autour de l'utilisation des données gyroscopiques de vos internautes mobiles
Subject: Oxalide's 1st MorningTech talk about BigData.
Date: 15-dec-2016
Speakers: Ludovic Piot (@lpiot, @oxalide)
Language: french
Lien SpeakerDeck : https://speakerdeck.com/lpiot/oxalide-morningtech-number-1-bigdata
Lien SlideShare : https://www.slideshare.net/LudovicPiot/oxalide-morningtech-1-bigdata
YouTube Video capture: https://youtu.be/7O85lRzvMY0
Main topics:
* Les grands enjeux du BigData
** les 3 V du Gartner : volume, variété, vélocité
* Le stockage des données
** datalake
** les technos
* L'ingestion des données
** ETL
** datastream
** les technos
* Les enjeux du compute
** map-reduce
** spark
** lambda architecture
* Démo d'une plateforme BigData sur AWS
* L'intelligence artificielle
** datascience exploratoire et notebooks,
** machine learning,
** deep learning,
** data pipeline
** les technos
* Pour aller plus loin
** La gouvernance des données
** La dataviz
Session en ligne: Découverte du Logical Data Fabric & Data VirtualizationDenodo
Watch full webinar here: https://buff.ly/47gqTVV
Une session découverte de Denodo Platform pour les professionnels de la data
D'après la dernière étude du cabinet Forrester The Total Economic Impact™️ of Data Virtualization Using The Denodo Platform, l’impact de la Data Virtualization avec Denodo permet un ROI de 408% et inférieur à 6 mois, une réduction de 65 % des délais de livraison des données par rapport à l'ETL, de 83 % du time-to-revenue et de 67 % du temps alloué à la préparation des données.
Découvrez lors de cette session en ligne de 1h30 en quoi la Logical Data Fabric et la data virtualization révolutionnent l'approche métier & IT dans l’accès, la livraison, la consommation, la gouvernance et la sécurisation de vos données, quel que soit l'âge de votre technologie, le format de la donnée ou son emplacement.
Avec plus de 1000 clients à travers le monde, Denodo est heureux de vous inviter à cette session en ligne le 14 novembre 2023 de 9h30 à 11h. Si vous êtes un IT Manager, architecte, DSI, Data Scientist ou Data Analyst, cet atelier est pour vous!
CONTENU
Au programme : une introduction à ce qu'est la virtualisation des données, les cas d'usages, des études de cas clients réels et une démo guidée pas à pas des fonctionnalités de Denodo Platform avec notre version gratuite sur le cloud, Denodo Test Drive. Vous apprendrez comment:
- Intégrer et livrer vos données rapidement et facilement à l'aide de Denodo Platform
- L'optimiseur de requêtes de Denodo fournit des données en temps réel, à la demande, même lorsqu'il s'agit de jeux de données très volumineux
- Exposer les données en tant que «services de données» en vue d’être consommées par une variété d'utilisateurs et d'outils
- La virtualisation des données joue un rôle essentiel dans la gouvernance et la sécurité des données au sein de votre organisation
La plateforme logicielle BlueData EPIC™ simplifie, accélère et rend plus rentable le déploiement d’infrastructures et d’applications Big Data telles que Hadoop, Spark, Kafka, Cassandra, et plus, dans l’infrastructure locale ou dans le cloud public.
Au delà de ce buzz word :
Les grands concepts
Les étapes clés des projets Big Data et les technologies à utiliser (stockage, ingestion, …)
Les enjeux des architectures Big Data (architecture lambda, …)
L'intelligence artificielle (machine learning, deep learning, …)
Et un cas d'usage du big data sur AWS autour de l'utilisation des données gyroscopiques de vos internautes mobiles.
This talk (in french) develops how users can extend Spark and Spark SQL for processing Spatial Big Data. The talk focus only on Vector Data but the same tricks can be applied to Raster Datasets.
A longer version will be posted later with more details.
Techday Arrow Group: Hadoop & le Big DataArrow Group
retrouvez notre techday sur Hadoop & le Big Data.
La Technologie Hadoop au coeur des
projets "Big Data".
Pour en savoir plus sur notre projet Square Predict:
http://www.square-solutions.com/accueil/square-predict-big-data-assurance/
Gab17 lyon - La BI traditionnelle est une histoire du passée. Impacts de la r...AZUG FR
Global Azure Bootcam Lyon, France 2017 - La BI traditionnelle est une histoire du passée. Impacts de la révolution Cloud Azure sur la BI data en général, by Ihor Leontiev et Loris Andaloro
Dans un contexte où la transmission et l'installation d'agriculteurs sont des enjeux cruciaux pour la profession agricole, de nouveaux agriculteurs s'installent chaque année et, parmi eux, certains Bac+5 ou plus. Les cursus des écoles d'ingénieurs n'ont pas vocation à former de futurs agriculteurs. Pourtant, certains apprenants ayant suivi ces cursus BAC + 5, qu'ils soient ou non issus du milieu agricole, tentent l'aventure de l'entrepreneuriat agricole. Qui sont-ils ? Quelles sont leurs motivations et visions ? Comment travaillent-ils ?
Si la baisse de la productivité est effective dans toutes les économies développées... elle est particulièrement marquée en France. Au niveau national, cet essoufflement touche tous les secteurs, et plus particulièrement celui de l’industrie, usuellement caractérisé par des gains de productivité élevés. Depuis la crise Covid, le secteur industriel contribue pour 35 % environ à cette perte, alors qu’il ne représente que 9,3 % de la valeur ajoutée nationale brute en 2023. Dans ce contexte, est-il possible de mener une politique de réindustrialisation du pays sans y associer un objectif de hausse des gains de productivité ?Non rappelle ce Cube. Au contraire, ces deux objectifs, jusqu’alors indépendants l’un de l’autre, sont désormais deux défis à relever conjointement. En analysant les différents explications à la baisse de celle-ci observée en France et dans les autres économies développées, ce Cube suggère que l’augmenter en parallèle d’une politique de réindustrialisation sous-entend une réallocation des facteurs de production vers les entreprises industrielles à fort potentiel. Elle suppose également une une meilleure affectation des ressources.
Deuxième actualisation estimation élections européennes 2024
P8 03 presentation
1. Déploiement d’un modèle de
classification d’images dans le
Cloud
Parcours Data Scientist
Déployez un modèle dans le
Cloud
Etudiant: Eric Wendling
Mentor: Julien Heiduk
Date: 04/12/2020
Projet 8 :
2. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
1 Présentation du projet
Contexte
Développement de systèmes innovants pour la préservation de la biodiversité des fruits
• Robots cueilleurs intelligents
• Application mobile pour la reconnaissance de fruits
Développement d’un moteur de classification de fruits
• Augmentation rapide du volume de données
Prototype architecture Big Data
Notebook Jupyter
• PySpark
• Etapes de traitement des données
Objectif
Livrable
3. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
1 Présentation du projet
Données
Images de fruits
• Propriétés
• Dimensions (pixels): 100 X 100
• Profondeur: 24
Stockage
Source: Horea Muresan, Mihai Oltean. Fruit recognition from images using deep learning.
JEU DE TEST
131 répertoires (catégories)
22 688 images
152 Mo
JEU D’ENTRAINEMENT
131 répertoires (catégories)
67 692 images
467 Mo
4. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
2 Modélisation
Techniques de classification d’images
Réseaux de neurones convolutifs
Identification auto des variables explicatives
Autres techniques d’apprentissage supervisé
Détermination des variables explicatives
5. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
Points d’intérêts et descripteurs
• OpenCV
• SIFT, ORB, SURF
2 Modélisation
Variables explicatives
Descripteurs
Points d’intérêt
image 0
image 241
…
…
6. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
Visual Words
• Clustering des descripteurs
• Modèle K-Means
K clusters (centroïdes)
Variables
• Classification des descripteurs
• Prédictions modèle K-Means
• Bag of Words
• Historisation
₋ Variables = clusters (visual words)
₋ Valeurs = nombre de cluster par image
Poids
• Matrice des descripteurs
2 Modélisation
Variables explicatives Visual Words
Clustering
Prédiction
Jeu de données Nombre
d’images
Nombre de
points d’intérêt
par image
Nombre de
descripteurs
total
Poids d’un
descripteur
(octets)
Poids
total (Gb)
Entraînement 67692 50 3384600 977 3,3
Test 22688 50 1134400 977 1,1
7. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
3 Architecture Big Data
Big Data
Important volume de données
• Scalabilité
• Augmentation des ressources (serveurs, RAM…)
• Limites
• Lorsque les solutions classiques de stockage, de gestion et de traitement sont insuffisantes
Les 3V du Big Data
• Volume
• Stockage
• Vélocité
• Traitement temps réel
• Variété
• Données structurées / non structurées
Calcul distribué
• Clusters de calcul
• Passage à l’échelle horizontal
• Plus grande tolérance aux pannes
• Transfert de tâches entre nœuds du cluster
• Recréer l’état du nœud en échec
8. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
3 Architecture Big Data
MapReduce
Cadre générique pour le calcul distribué
• Diviser pour régner
• Problème Sous-problèmes Résolutions Combinaison des résultats
• Combinaison de 2 fonctions simples
• Map: transformation
• Reduce: agrégation
SOCRATE :
Prétends-tu que
l'agréable soit
identique au
bon, ou bien y a-
t-il de l'agréable
qui ne soit pas
bon ?
prétendre
agréable soit
identique bon
ou agréable soit
pas bon
(prétendre, 1)
(agréable, 1, 1)
(soit, 1, 1)
(identique, 1)
(bon, 1, 1)
(ou, 1)
(pas, 1)
(prétendre, 1)
(agréable, 1)
(soit, 1)
(identique, 1)
(bon, 1)
(ou, 1)
(agréable, 1)
(soit, 1)
(pas, 1)
(bon, 1)
(prétendre, 1)
(agréable, 2)
(soit, 2)
(identique, 1)
(bon, 2)
(ou, 1)
(pas, 1)
SPLIT MAP SHUFFLE REDUCE
Application de
comptage de mots
9. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
3 Architecture Big Data
Hadoop 1.0 (Apache)
Infrastructure de référence pour MapReduce
• Socle technique
• HDFS (Hadoop Distributed File System)
• Framework MapReduce
• Architecture HDFS
• Type maître / esclaves
• Distribution des fichiers
• Réplication des fichiers
• Colocalisation données/traitements
• Framework MapReduce
• Type maître / esclaves
• Ordonnancement traitements
• Distribution de l’exécution
• Localisation des fichiers
Name Node
Data Node 1
Task Tracker
Data Node 2
Task Tracker
Data Node 3
Task Tracker
Secondary
Name Node
64 Mo
Blocs dupliqués (tolérance aux pannes)
CLIENT
Job Tracker
Node
Task Tracker
Fichier découpé en blocs
Réplication
10. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
3 Architecture Big Data
Hadoop 2.0 (Apache)
Optimisation de l’architecture
• YARN
• Yet Another Ressource Negociator
• Exécution de tout type d’applications
• Hadoop Streaming
• Utilisation d’autres langages que Java
Installation / Distributions
• Installation manuelle
• Paquets
• Distribution intégrée
• Services
• Cloud
• Services
Limites
• Ecriture sur disque
• Ecriture sur disque des données entre 2 étapes (Map Reduce)
Lenteur d’exécution
• Jeu d’instructions limité
• Map et Reduce
Difficulté de réaliser des opérations complexes
11. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
3 Architecture Big Data
Spark (Apache)
Description
• Framework open source de calcul distribué
Avantages
• Données stockées en RAM
Rapidité d’exécution (X10 à X100 par rapport à Hadoop)
• Jeu d’instructions optimisé
• Nombreuses opérations en mode distribué
• Réduction automatique niveau Map / Reduce
Langages de programmation
• Java
• Scala (natif)
• Python
API PySpark
Temps réel Machine Learning
12. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
3 Architecture Big Data
Spark (Apache)
Architecture
• Type Maître / Esclaves
• Gestion des fichiers: HDFS
• Hadoop Map Reduce
Distribution des calculs
• Classe SparkContext
Configuration de l’application
Lecture des données
• Création d’un objet de type RDD (Resilient Distributed Dataset)
Format permettant la distribution des calculs
Optimisé pour la tolérance aux pannes
Type clé / valeur
Driver
Worker 1
Executor
Task 1
Task 2
…
Worker 2
Executor
Task 1
Task 2
…
Worker 3
Executor
Task 1
Task 2
…
(prétendre, 1)
(agréable, 1)
(soit, 1)
(identique, 1)
(bon, 1)
(ou, 1)
(agréable, 1)
(soit, 1)
(pas, 1)
(bon, 1)
Source: Documentation de Spark
clé
valeur
13. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
3 Architecture Big Data
Spark (Apache)
RDD (Resilient Distributed Dataset)
• Types d’opérations
• Transformation
• Action
• DAG (Directed Acyclic Graph)
Tolérance aux pannes
• Lazy evaluation
• Evaluation des transformations au moment utile
Lors d’une action
RDD 1
RDD 2
RDD 3
Transformation
Résultat
Action
Transformation
RDD 4
RDD 5
Transformation
Résultat
Action
évaluation
14. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
RDD (Resilient Distributed Dataset)
• Distribution par partition
Calcul distribué
3 Architecture Big Data
Spark (Apache)
Task 1
Task 2
Task 3
Partition
Partition
Partition
Etape RDD
Driver
Worker 1
Executor
Task 1
…
…
Worker 2
Executor
Task 2
Task 3
…
Worker 3
Executor
Task 4
…
…
Task 4 Partition
15. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
3 Architecture Big Data
Spark - Langage Python
Installation (LOCAL)
• Packages
• Java
• Python3
• Jupyter Notebook
• Spark / PySpark
• Variables d’environnement
eric@eric-VirtualBox:~/OC_DS_P8$ spark-submit --master local[2] P8_01_spark.py True data/fruits_360…
Console Spark - Python
16. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
3 Architecture Big Data
Spark - Langage Python
Installation (LOCAL)
• Packages
• Java
• Python3
• Jupyter Notebook
• Spark / PySpark
• Variables d’environnement
17. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
4 Conception
Descripteurs
- Détection des points d’intérêt
- Calcul des descripteurs
Visual Words
- Clustering K-Means
- Clusters = Visual Words
Bag of Words
- Prédiction K-Means
- Regroupement des Visuals
Words par image
Variables
- Historisation
- Variables = Visual Words
Réduction de
dimension
Classification
- Random Forest
- MLP
- ACP
18. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
4 Conception
Descripteurs Visual Words Bag of Words Variables
Réduction de
dimension
Classification
19. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
4 Conception
Visual Words
Descripteurs Bag of Words Variables
Réduction de
dimension
Classification
Visual Words
20. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
Concaténation des identifiants
des images (encodés) et des
prédictions (clusters K-Means)
4 Conception
Descripteurs Variables
Réduction de
dimension
Classification
Bag of Words
Visual Words
ReduceByKey
21. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
4 Conception
Descripteurs
Réduction de
dimension
Classification
Visual Words Variables
Bag of Words
CountVectorizer
transformation DataFrame des
variables explicatives
Nombre de visuals
words uniques (30)
22. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
4 Conception
Descripteurs Classification
Visual Words Bag of Words
Réduction de
dimension
Variables
PCA
23. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
4 Conception
Classification
Descripteurs Visual Words Bag of Words Variables
Réduction de
dimension
Apprentissage
Test
Evaluation
24. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
4 Conception
Architecture de l’application
get_descriptors
image_path
Get_path
rdd_desc
ima_collected
sdf_ima_cat
kmeans_train
nb_cat kmeans_pred
km_model
list_km_pred bow_creation
bow_reduce
nb_clusters
data_set_name
df_lab_features pca_dim
ima_cat, ima, desc
image
get_images_descriptors
sdf_bow
1 2
3 4
5
6
Fonctions
25. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
4 Conception
rdd_images
rdd_cat_ima_desc
rdd_cat_ima_desc_f
rdd_cat rdd_ima rdd_desc
list_cat list_ima
km_model
sdf_ima_cat
kmeans train
rdd_km_pred
reduceByKey
list_km_pred
rdd_ima_pred
sdf_words sdf_bow
CountVectorizer
kmeans pred
rdd_words
sdf_lab_features
PCA
map
filtre
flatMap
test_lab_pred
CLS
Architecture de l’application
Objets
transformation
action
Collecte
Collecte
Mise en
cache
26. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
5 Déploiement dans le Cloud
Le Cloud
• Accès à des ressources distantes
• Calcul (CPU, mémoire…)
• Stockage (espace disque)
• Elasticité
• Modification des capacités
• Gestion des coûts
• Facturation à l’utilisation
Solutions
AWS (Amazon Web Service)
• Serveurs de calcul
• Elastic Compute Cloud (EC2)
• Clusters
• Elastic Map Reduce (EMR)
Framework Hadoop hébergé
• Stockage
• Simple Storage Service (S3)
Connecteur HDFS
Plateforme pour le Big Data
27. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
5 Déploiement dans le Cloud
EC2
instances
S3
bucket
Données
Objets
S3AFileSystem
- Images (fruits)
- Bag of words
- Logs
28. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
5 Déploiement dans le Cloud
Création d’un Cluster avec EMR
29. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
5 Déploiement dans le Cloud
Création d’un Cluster avec EMR
30. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
5 Déploiement dans le Cloud
Création d’un Cluster avec EMR
31. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
Nombre de partitions
5 Déploiement dans le Cloud
Cluster EMR
MASTER
NODE 1
NODE 2
CORE 1
CORE 2
CORE 3
CORE 4
CORE 1
CORE 2
CORE 3
CORE 4
6 cœurs virtuels
3 partitions par cœur
Minimum 18 partitions
Cluster
Manager
16 Gb
Worker
Executor
32. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
5 Déploiement dans le Cloud
Accès au driver via SSH
Cluster EMR
33. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
5 Déploiement dans le Cloud
Connecter un notebook Jupyter
Cluster EMR
34. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
5 Déploiement dans le Cloud
Notebook Jupyter (noyau spark)
35. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
5 Déploiement dans le Cloud
Notebook Jupyter (noyau PySpark)
36. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
5 Déploiement dans le Cloud
Résultats comparatifs
vs
37. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
5 Déploiement dans le Cloud
Redimensionnement du Cluster EMR
38. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
5 Déploiement dans le Cloud
2 instances
(8 cœurs)
4 instances
(16 cœurs)
39. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
5 Déploiement dans le Cloud
AWS S3 (Simple Storage Service)
40. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
5 Déploiement dans le Cloud
AWS S3 (Simple Storage Service)
Affichage console Export fichier
41. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
6 Contrôle Web UI
…
Processeur double cœur (4 processeurs logiques)
42. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
6 Contrôle Web UI
43. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
6 Contrôle Web UI
task 0
task 2
task 1 task 3
task 4
Processeur double cœur (4 processeurs logiques)
1 tâche par processeur (executor) à la fois
44. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
6 Contrôle Web UI
2 instances (8 processeurs logiques)
45. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
5 Prochaines étapes
Optimisation du code
• Analyse des tâches
• Optimisation
Dimension de l’architecture
• Serveurs de calcul
• Nombre de cores
• Nombre de partitions
• Stockage
• Croissance du volume des images
• Dimension des images
Modèle de classification
• Choix d’un modèle
• Performances
46. Parcours Data Scientist Projet 8: Déployez un modèle dans le cloud Eric Wendling 2020-12-04
Déploiement d’un modèle dans le Cloud
5 Conclusion
Configuration de l’architecture Big Data
• Complexe
Ressources: Data Architect…
Services: AWS…
Programmation calcul distribué
• Plusieurs langages dont Python
Nouvelle syntaxe (PySpark)
• Optimisation
Liée à l’architecture
Le Big Data: plus que des big data
Transformation des processus métiers