SlideShare une entreprise Scribd logo
1  sur  69
Télécharger pour lire hors ligne
CHAP 1: PRÉSENTATION GENERALE
ISET DJERBA 2020-2021
OBJECTIFS DE CETTE PARTIE
• Comprendre comment les grands flux de
données et l’informatique à la demande
(Cloud Computing) ont lancé le domaine de
l’analyse de données.
• Data Science
POURQUOI LE BIG DATA A DE LA VALEUR?
C'est la façon dont les mégadonnées peuvent répondre aux
besoins humains qui la valorise.
• les moteurs de recommandation.
• Tirent parti des modèles utilisateur et des
fonctionnalités du produit pour prédire le meilleur
produit correspondant pour enrichir l'expérience
utilisateur.
• Sur Amazon, vous obtenez des recommandations
basées sur votre achat.
• Netflix vous recommande de regarder les nouvelles
émissions en fonction de votre historique de
visionnage.
• l'analyse des sentiments autour des événements et
des produits.
• Amazon peut surveiller les avis
produits et les tendances pour un
produit particulier.
• ils peuvent juger si un avis de produit
est positif ou négatif.
MACHINE LEARNING
• Les images satellites pour évaluer le niveau de pauvreté:
• Des chercheurs ont utilisé le machine learning pour pouvoir cartographier les zones de
pauvreté de manière automatique, simplement à partir d'images satellites !
MACHINE LEARNING
• Détectez l'illettrisme par l'utilisation du smartphone:
• Un chercheur norvégien a utilisé plusieurs types de données mobiles (tels que les SMS,
le nombre de contacts, etc.) pour détecter les personnes illettrées dans les pays en voie
de développement!
• Pour en savoir plus, vous pouvez consulter cet article de 2016 du site MIT Technology
Review.
LE CYCLE DE TRAVAIL DU DATA SCIENTIST
MACHINE LEARNING
• Dans beaucoup de cas, l’innovation en data science dans une entreprise
vient de l’originalité de l’utilisation des données
• Le croisement de différentes sources de données.
• il faut dans l’idéal posséder une politique de gestion des données dans
son entreprise la plus transparente possible.
• Pour les données, c’est comme pour les ressources humaines :
• les différents départements organisés en silos communiquent moins et
innovent moins
• un environnement ou la transversalité est favorisée communique plus
et innove
 essayez d'éviter les data-silos !
MACHINE LEARNING:NETTOYAGE DES DONNÉES
• Nettoyer les données, c'est s'assurer qu'elles sont consistantes, sans
valeurs aberrantes ni manquantes.
• aggrégation de ces données dans un data lake.
• Nettoyer les données signifie donc qu’elles sont toutes sous le même
format, accessible au même endroit et au bon moment.
• L’objectif est la création du modèle statistique associé aux données pour
les data analysts
• En machine learning et en data science plus généralement, l'objectif est
de trouver un modèle (stochastique ou déterministe) du phénomène à
l'origine des données.
• on considère que chaque donnée observée est l'expression d'une
variable aléatoire générée par une distribution de probabilité.
MACHINE LEARNING:EXEMPLE
• Imaginez que vous voulez savoir si vous payez trop cher votre loyer
• On récupère sur un site de location une trentaine de prix des
locations disponibles, ainsi que la surface associée .
• Bien sûr en réalité d’autres paramètres seraient probablement à
prendre en compte (parties communes, voisinage, évolution des
loyers au cours du temps, etc).
• Si on affiche maintenant ces différents points sur un graphe qui représente le
montant du loyer en fonction de la surface, on obtient le graphique suivante :
MACHINE LEARNING:EXEMPLE
MACHINE LEARNING:EXEMPLE
• Comme on pouvait s’y attendre, on remarque une augmentation
relativement linéaire du loyer par rapport à la surface de
l’appartement.
• Une première modélisation simple du phénomène (le prix du loyer)
serait donc simplement de considérer la droite la plus “proche” de
l’ensemble des points.
MACHINE LEARNING:EXEMPLE
MACHINE LEARNING:EXEMPLE
• La droite représente donc notre modèle du phénomène, auquel
nous pouvons ajouter l'intervalle de confiance dans laquelle on
pense que se trouve la droite.
MACHINE LEARNING:EXEMPLE
• Pour résumer, le travail de modélisation consiste à trouver le
bon modèle statistique
• notre modèle est la droite et son intervalle de confiance
• Le machine learning en particulier intervient pour trouver ce modèle de manière
automatisée.
MACHINE LEARNING: INTERPRETATION ET UTILISATION
• déploiement du modèle en production.
• Si vous trouvez que votre modèle d’évaluation des loyers est très
performant, et mériterait d’être partagé à plus de monde.
• Vous décidez donc de le déployer sur un serveur où tout le monde
pourra obtenir une estimation de son loyer selon votre modèle,
• déterminer s'il paie plus ou moins que les prix du marché !
• Cela l'aidera sûrement dans sa décision de déménager.
MACHINE LEARNING: INTERPRETATION ET UTILISATION
• il vous suffit de récupérer les paramètres de votre modèle et de faire
passer la surface de l'appartement en entrée du modèle, afin d’obtenir
le loyer associé en sortie, en suivant la droite.
MACHINE LEARNING: INTERPRETATION ET UTILISATION
• Pour des modèles plus complexes, le fonctionnement reste le même,
• Pour appliquer votre travail à de nouvelles données, il vous suffit de
passer les nouvelles entrées dans votre modèle
• qui est en principe un ensemble de transformations des valeurs
d’entrées afin d’obtenir une sortie.
• Là encore, si ce passage en production est complexe, en termes
d’échelle, de contrainte de rapidité de calcul ou de sortie de résultats,
il faut faire appel à un data architect qui sera responsable
d’industrialiser le prototype.
DATA WAREHOUSE
• le BI, comprend un environnement décisionnel
• Il a comme concept central l'entrepôt de données ou le Data
Warehouse.
• Mais comment concevoir un entrepôt de données?
• Quelle structure permet-elle d'avoir les fonctionnalités requises pour
un entrepôt de données ?
• Quelles sont les techniques utilisées pour bien concevoir ?
• Quels sont les indicateurs d'une bonne conception ?
DATA WAREHOUSE
• Un entrepôt de données, ou data Warehouse, est une vision centralisée et
universelle de toutes les informations de l'entreprise.
• C'est une structure (comme une base de données) qui a pour but de regrouper les
données de l'entreprise pour des fins analytiques
• pour aider à la décision stratégique.
• La décision stratégique étant une action entreprise par les décideurs de l'entreprise
et qui vise à améliorer, quantitativement ou qualitativement, la performance de
l'entreprise.
• c'est un gigantesque tas d'informations épurées, organisées, historisées et
provenant de plusieurs sources de données,
• servant aux analyses et à l'aide à la décision.
• l'entrepôt de données est le meilleur moyen pour modéliser de l'information pour
des fins d'analyse,
DATA WAREHOUSE
• Les Data Warehouses sont, en général, très volumineux et très complexes à
concevoir,
• on le divise en bouchées plus faciles à créer et entretenir.
• Ce sont les Data Marts.
• On peut faire des divisions par fonction
• un data mart pour les ventes, pour les commandes, pour les ressources
humaines
• par sous-ensemble organisationnel
• un data mart par succursale.
• Nous verrons plus tard comment organiser les data marts pour créer un
entrepôt proprement dit.
DATA WAREHOUSE
• Dans un schéma de BD pour un système d'information classique, on parle en
termes de tables et de relations,
• une table étant une représentation d'une entité et une relation une technique
pour lier ces entités.
• Et bien en BI, on parle en termes de Dimension et de Faits.
• C'est une autre approche des données,
• on entend par dimensions les axes avec lesquels on veut faire l'analyse.
• Il peut y avoir une dimension client, une dimension produit, une dimension
géographie (pour faire des analyses par secteur géographique), etc.
• Une dimension est tout ce qu'on utilisera pour faire nos analyses.
DATA WAREHOUSE
• Les faits, en complément aux dimensions, sont ce sur quoi va porter l'analyse.
• Ce sont des tables qui contiennent des informations opérationnelles
• qui relatent la vie de l'entreprise.
• On aura des tables de faits pour:
• les ventes (chiffre d'affaire net, quantités et montants commandés, quantités
facturées, quantités retournées, volumes des ventes, etc.)
• les stocks (nombre d'exemplaires d'un produit en stock, niveau de remplissage du
stock, taux de roulement d'une zone, etc.),
• les ressources humaines (performances des employés, nombre de demandes de
congés, nombre de démissions, taux de roulement des employés, etc.).
• Un fait est tout ce qu'on voudra analyser.
DATA WAREHOUSE
• Extraction, Transformation, Loading. C'est un système par lequel vont passer
toutes les données des systèmes opérationnels avant d'arriver dans la forme
souhaitée dans l'entrepôt
• L'ETL sert à transposer le modèle entité-relation des bases de données de
production ainsi que les autres modèles utilisés dans les opérations de
l'entreprise,
• en modèle à base de dimensions et de faits
• " OLAP ", acronyme de OnLine Analytical Processing. Un serveur d'analyse est un
moyen permettant aux analystes et décideurs de naviguer, forer, découvrir les
données de l'entrepôt.
DATA WAREHOUSE : ETOILE ET FLACON
• Une étoile est une façon de mettre en relation les dimensions et les faits dans un
entrepôt de données.
• le principe est que les dimensions sont directement reliées à un fait
(schématiquement, ça fait comme une étoile).
• Le flacon parcontre est une hiérarchie de dimensions et qu'elles sont reliées au
faits, ça fait comme un flocon
• les flocons et les étoiles peuvent être vus comme une manière de diviser les
entrepôts de données et les magasins de données.
DATA WAREHOUSE : EXEMPLE D’ETOILE
• L'important en BI est de toujours garder à l'esprit que ce que nous faisons est
différent des bases de données traditionnelles.
• Le schéma créé sera accessible par les utilisateurs et doit donc être le plus simple
et explicite possible !
DATA WAREHOUSE : ENONCE DE L’EXEMPLE D’ETOILE
• On vous demande de créer un data Mart (une étoile) pour l'analyse de l'activité des
représentants d'une entreprise de vente d'imprimantes.
• Le chef d'entreprise veut savoir ce qui se passe pour ses vendeurs.
• Les employés font ils leur travail?
• quelle est la zone de couverture des vendeurs?
• ou sont les endroits où les vendeurs sont le moins efficaces?
• quelle est la moyenne de ventes des représentants?
• L'entreprise possède un système de gestion de ressources humaines,
• un système de gestion des ventes
• des feuilles de routes avec des informations concernant les vendeurs : kilomètres
parcourus, litres d'essence utilisée, frais de voyage, ventes, promesses de ventes, etc.
DATA WAREHOUSE : ENONCE DE L’EXEMPLE D’ETOILE
• On vous demande de créer un data Mart (une
étoile) pour l'analyse de l'activité des
représentants d'une entreprise de vente
d'imprimantes.
• Le chef d'entreprise veut savoir ce qui se passe
pour ses vendeurs.
• Les employés font ils leur travail?
• quelle est la zone de couverture des vendeurs?
• ou sont les endroits où les vendeurs sont le
moins efficaces?
• quelle est la moyenne de ventes des
représentants?
• L'entreprise possède un système de gestion de
ressources humaines,
• un système de gestion des ventes
• des feuilles de routes avec des informations
concernant les vendeurs : kilomètres
parcourus, litres d'essence utilisée, frais de
voyage, ventes, promesses de ventes, etc.
 Notre objectif est d'analyser l'activité des
représentants.
 Il semble que nous ayons toutes les
informations pour ce faire... Mais dans
différents systèmes.
 Le but du jeu est de déceler les axes
d'analyses (les dimensions)
 les attributs ainsi que les éléments à
analyser (les faits).
DATA WAREHOUSE : ENONCE DE L’EXEMPLE D’ETOILE
• On vous demande de créer un data Mart (une
étoile) pour l'analyse de l'activité des
représentants d'une entreprise de vente
d'imprimantes.
• Le chef d'entreprise veut savoir ce qui se passe
pour ses vendeurs.
• Les employés font ils leur travail?
• quelle est la zone de couverture des vendeurs?
• ou sont les endroits où les vendeurs sont le
moins efficaces?
• quelle est la moyenne de ventes des
représentants?
• L'entreprise possède un système de gestion de
ressources humaines,
• un système de gestion des ventes
• des feuilles de routes avec des informations
concernant les vendeurs : kilomètres
parcourus, litres d'essence utilisée, frais de
voyage, ventes, promesses de ventes, etc.
 La meilleur façon de ce faire, est l'étude
approfondie de ce qui se passe dans
l'entreprise
 documents échangés, rapports périodiques,
interviews des personnes clés, étude des
besoins.
 Il faut vraiment faire un travail d'acteur, et
rentrer dans la peau de chaque utilisateur,
 savoir comment les analystes organisent leurs
raisonnements,
 savoir ce que voient les décideurs avant de
décider, connaître les indicateurs de bonne
santé de l'entreprise
DATA WAREHOUSE : ENONCE DE L’EXEMPLE D’ETOILE
• On vous demande de créer un data Mart (une
étoile) pour l'analyse de l'activité des
représentants d'une entreprise de vente
d'imprimantes.
• Le chef d'entreprise veut savoir ce qui se passe
pour ses vendeurs.
• Les employés font ils leur travail?
• quelle est la zone de couverture des vendeurs?
• ou sont les endroits où les vendeurs sont le
moins efficaces?
• quelle est la moyenne de ventes des
représentants?
• L'entreprise possède un système de gestion de
ressources humaines,
• un système de gestion des ventes
• des feuilles de routes avec des informations
concernant les vendeurs : kilomètres
parcourus, litres d'essence utilisée, frais de
voyage, ventes, promesses de ventes, etc.
Remarque : L'axe du temps (dimension
Temps) est toujours présent dans un
entrepôt de données, c'est le type d'analyse
le plus commun et le plus fréquent en
entreprise.
DATA WAREHOUSE : ENONCE DE L’EXEMPLE D’ETOILE
• On vous demande de créer un data Mart (une
étoile) pour l'analyse de l'activité des
représentants d'une entreprise de vente
d'imprimantes.
• Le chef d'entreprise veut savoir ce qui se passe
pour ses vendeurs.
• Les employés font ils leur travail?
• quelle est la zone de couverture des vendeurs?
• ou sont les endroits où les vendeurs sont le
moins efficaces?
• quelle est la moyenne de ventes des
représentants?
• L'entreprise possède un système de gestion de
ressources humaines,
• un système de gestion des ventes
• des feuilles de routes avec des informations
concernant les vendeurs : kilomètres
parcourus, litres d'essence utilisée, frais de
voyage, ventes, promesses de ventes, etc.
Il faut savoir :
D'où provient chaque champ ?
Comment transite l'information ?
Où trouver l'information voulue?
Se poser des questions du type :
Ai-je assez de données pour répondre aux
besoins ?
Si non, qu'est ce que cela impliquerait de les
créer ?
Comment alimenter mes dimensions ?
Comment alimenter mes faits ?
Comment valider mes chargements ?
DATA WAREHOUSE : ENONCE DE L’EXEMPLE D’ETOILE
• On vous demande de créer un data Mart (une
étoile) pour l'analyse de l'activité des
représentants d'une entreprise de vente
d'imprimantes.
• Le chef d'entreprise veut savoir ce qui se passe
pour ses vendeurs.
• Les employés font ils leur travail?
• quelle est la zone de couverture des vendeurs?
• ou sont les endroits où les vendeurs sont le
moins efficaces?
• quelle est la moyenne de ventes des
représentants?
• L'entreprise possède un système de gestion de
ressources humaines,
• un système de gestion des ventes
• des feuilles de routes avec des informations
concernant les vendeurs : kilomètres
parcourus, litres d'essence utilisée, frais de
voyage, ventes, promesses de ventes, etc.
La modélisation en étoile découle
naturellement du tableau ci-dessus, il en
résulte le schéma suivant :
DATA WAREHOUSE : ENONCE DE L’EXEMPLE D’ETOILE
• On vous demande de créer un data Mart (une
étoile) pour l'analyse de l'activité des
représentants d'une entreprise de vente
d'imprimantes.
• Le chef d'entreprise veut savoir ce qui se passe
pour ses vendeurs.
• Les employés font ils leur travail?
• quelle est la zone de couverture des vendeurs?
• ou sont les endroits où les vendeurs sont le
moins efficaces?
• quelle est la moyenne de ventes des
représentants?
• L'entreprise possède un système de gestion de
ressources humaines,
• un système de gestion des ventes
• des feuilles de routes avec des informations
concernant les vendeurs : kilomètres
parcourus, litres d'essence utilisée, frais de
voyage, ventes, promesses de ventes, etc.
DATA WAREHOUSE
• La table de fait contient se qu'on appelle des " mesures ", on peut y trouver le
montant des ventes nettes, les quantités vendues, les kilomètres parcourus, les
quantités en pré commande, etc.
• La table de faits est reliée aux dimensions par des relation (1, n).
• Pour analyser une ligne de fait par client par exemple, il faut qu'il y ait une
relation entre cette ligne et la dimension client.
• Les tables de dimension contiennent les éléments qu'utiliseront les décideurs
pour voir la table de faits.
• Les utilisateurs pourront ainsi apprécier les montant des ventes par vendeur,
par client, ou le kilométrage pour un vendeur pour un client donnée (pour voir
si ce client est rentable), calculer le coût de revient d'un produit par rapport aux
activités des vendeurs, etc.
DATA WAREHOUSE : ENONCE DE L’EXEMPLE D’ETOILE
• On n'utilise JAMAIS la clé d'un système de production comme clé de dimension
pour préserver l'historique des modifications dans l'entrepôt de données
• La granularité des tables de dimensions et de faits doit être la même : imaginez
que la table de faits regroupe les informations par heures et que la table de
dimension du temps gère les minutes, il ne sera pas possible de lier la
dimension temps et la table de faits (multi détermination).
• Chaque ligne de la table de faits doit avoir une relation avec chacune des tables
de dimensions : dans le cas contraire, on aurait perte d'information ou analyse
erronée.

Contenu connexe

Similaire à CHAP 1 PRÉSENTATION GENERALE.pdf

Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigData
Ludovic Piot
 
Cv dominique emmanuel
Cv dominique emmanuelCv dominique emmanuel
Cv dominique emmanuel
DOMEMM
 

Similaire à CHAP 1 PRÉSENTATION GENERALE.pdf (20)

Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide Academy
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigData
 
Offrir de l'analytique en temps réel en un clic
Offrir de l'analytique en temps réel en un clicOffrir de l'analytique en temps réel en un clic
Offrir de l'analytique en temps réel en un clic
 
1-Intro to DB.pptx
1-Intro to DB.pptx1-Intro to DB.pptx
1-Intro to DB.pptx
 
Partie2BI-DW2019
Partie2BI-DW2019Partie2BI-DW2019
Partie2BI-DW2019
 
Livre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakesLivre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakes
 
6bestpracticeseffectivedashboards loc fr-fr
6bestpracticeseffectivedashboards loc fr-fr6bestpracticeseffectivedashboards loc fr-fr
6bestpracticeseffectivedashboards loc fr-fr
 
Déjeuner-débat EIM360 | Machine Learning et Transformation Digitale, un duo g...
Déjeuner-débat EIM360 | Machine Learning et Transformation Digitale, un duo g...Déjeuner-débat EIM360 | Machine Learning et Transformation Digitale, un duo g...
Déjeuner-débat EIM360 | Machine Learning et Transformation Digitale, un duo g...
 
Conception datawarehouse
Conception datawarehouseConception datawarehouse
Conception datawarehouse
 
Trop de Bla Bla, Passons au BigData
Trop de Bla Bla, Passons au BigDataTrop de Bla Bla, Passons au BigData
Trop de Bla Bla, Passons au BigData
 
SI_MCC_2020_21.pptx
SI_MCC_2020_21.pptxSI_MCC_2020_21.pptx
SI_MCC_2020_21.pptx
 
Offre Search
Offre SearchOffre Search
Offre Search
 
Offre onepoint - Referentiels et business intelligence
Offre onepoint - Referentiels et business intelligenceOffre onepoint - Referentiels et business intelligence
Offre onepoint - Referentiels et business intelligence
 
Seance 1 & 2 deploiement de la bi dans l'entreprise
Seance 1 & 2 deploiement de la bi dans l'entrepriseSeance 1 & 2 deploiement de la bi dans l'entreprise
Seance 1 & 2 deploiement de la bi dans l'entreprise
 
Microsoft Power Business Intelligence
Microsoft Power Business IntelligenceMicrosoft Power Business Intelligence
Microsoft Power Business Intelligence
 
Introduction au Machine Learning
Introduction au Machine Learning Introduction au Machine Learning
Introduction au Machine Learning
 
Comment choisir sa solution de tableaux de bord ?
Comment choisir sa solution de tableaux de bord ?Comment choisir sa solution de tableaux de bord ?
Comment choisir sa solution de tableaux de bord ?
 
Comment choisir sa solution de tableaux de bord ?
Comment choisir sa solution de tableaux de bord ?Comment choisir sa solution de tableaux de bord ?
Comment choisir sa solution de tableaux de bord ?
 
Cv dominique emmanuel
Cv dominique emmanuelCv dominique emmanuel
Cv dominique emmanuel
 
7 points clés à retenir pour aborder le data management de données clients...
7 points clés à retenir pour aborder le data management de données clients...7 points clés à retenir pour aborder le data management de données clients...
7 points clés à retenir pour aborder le data management de données clients...
 

Plus de amine17157 (8)

doranum_07_fiche_synthetique_formats_ouverts_fermes.pdf
doranum_07_fiche_synthetique_formats_ouverts_fermes.pdfdoranum_07_fiche_synthetique_formats_ouverts_fermes.pdf
doranum_07_fiche_synthetique_formats_ouverts_fermes.pdf
 
docker-workshop-by-rbk.pdf jhuhiuguigugyug
docker-workshop-by-rbk.pdf jhuhiuguigugyugdocker-workshop-by-rbk.pdf jhuhiuguigugyug
docker-workshop-by-rbk.pdf jhuhiuguigugyug
 
SOA-Partie 2.pdf hvjhvhjvkhvhjvhvhvjhvkhv
SOA-Partie 2.pdf hvjhvhjvkhvhjvhvhvjhvkhvSOA-Partie 2.pdf hvjhvhjvkhvhjvhvhvjhvkhv
SOA-Partie 2.pdf hvjhvhjvkhvhjvhvhvjhvkhv
 
cours soa partie 1 dfvfvfdbgfbvdfhbvhdfbvhdbvhjdv
cours soa partie 1 dfvfvfdbgfbvdfhbvhdfbvhdbvhjdvcours soa partie 1 dfvfvfdbgfbvdfhbvhdfbvhdbvhjdv
cours soa partie 1 dfvfvfdbgfbvdfhbvhdfbvhdbvhjdv
 
ch8_architecture.ppt
ch8_architecture.pptch8_architecture.ppt
ch8_architecture.ppt
 
ch7_memoires.ppt
ch7_memoires.pptch7_memoires.ppt
ch7_memoires.ppt
 
ch4_circuitscombinatoires.ppt
ch4_circuitscombinatoires.pptch4_circuitscombinatoires.ppt
ch4_circuitscombinatoires.ppt
 
bigdata-25.pdf
bigdata-25.pdfbigdata-25.pdf
bigdata-25.pdf
 

CHAP 1 PRÉSENTATION GENERALE.pdf

  • 1. CHAP 1: PRÉSENTATION GENERALE ISET DJERBA 2020-2021
  • 2.
  • 3. OBJECTIFS DE CETTE PARTIE • Comprendre comment les grands flux de données et l’informatique à la demande (Cloud Computing) ont lancé le domaine de l’analyse de données. • Data Science
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11.
  • 12.
  • 13. POURQUOI LE BIG DATA A DE LA VALEUR? C'est la façon dont les mégadonnées peuvent répondre aux besoins humains qui la valorise.
  • 14.
  • 15.
  • 16. • les moteurs de recommandation. • Tirent parti des modèles utilisateur et des fonctionnalités du produit pour prédire le meilleur produit correspondant pour enrichir l'expérience utilisateur. • Sur Amazon, vous obtenez des recommandations basées sur votre achat. • Netflix vous recommande de regarder les nouvelles émissions en fonction de votre historique de visionnage. • l'analyse des sentiments autour des événements et des produits.
  • 17. • Amazon peut surveiller les avis produits et les tendances pour un produit particulier. • ils peuvent juger si un avis de produit est positif ou négatif.
  • 18.
  • 19.
  • 20.
  • 21.
  • 22.
  • 23.
  • 24.
  • 25.
  • 26.
  • 27.
  • 28.
  • 29.
  • 30.
  • 31.
  • 32.
  • 33.
  • 34.
  • 35.
  • 36.
  • 37.
  • 38.
  • 39. MACHINE LEARNING • Les images satellites pour évaluer le niveau de pauvreté: • Des chercheurs ont utilisé le machine learning pour pouvoir cartographier les zones de pauvreté de manière automatique, simplement à partir d'images satellites !
  • 40. MACHINE LEARNING • Détectez l'illettrisme par l'utilisation du smartphone: • Un chercheur norvégien a utilisé plusieurs types de données mobiles (tels que les SMS, le nombre de contacts, etc.) pour détecter les personnes illettrées dans les pays en voie de développement! • Pour en savoir plus, vous pouvez consulter cet article de 2016 du site MIT Technology Review.
  • 41. LE CYCLE DE TRAVAIL DU DATA SCIENTIST
  • 42. MACHINE LEARNING • Dans beaucoup de cas, l’innovation en data science dans une entreprise vient de l’originalité de l’utilisation des données • Le croisement de différentes sources de données. • il faut dans l’idéal posséder une politique de gestion des données dans son entreprise la plus transparente possible. • Pour les données, c’est comme pour les ressources humaines : • les différents départements organisés en silos communiquent moins et innovent moins • un environnement ou la transversalité est favorisée communique plus et innove  essayez d'éviter les data-silos !
  • 43. MACHINE LEARNING:NETTOYAGE DES DONNÉES • Nettoyer les données, c'est s'assurer qu'elles sont consistantes, sans valeurs aberrantes ni manquantes. • aggrégation de ces données dans un data lake. • Nettoyer les données signifie donc qu’elles sont toutes sous le même format, accessible au même endroit et au bon moment. • L’objectif est la création du modèle statistique associé aux données pour les data analysts • En machine learning et en data science plus généralement, l'objectif est de trouver un modèle (stochastique ou déterministe) du phénomène à l'origine des données. • on considère que chaque donnée observée est l'expression d'une variable aléatoire générée par une distribution de probabilité.
  • 44. MACHINE LEARNING:EXEMPLE • Imaginez que vous voulez savoir si vous payez trop cher votre loyer • On récupère sur un site de location une trentaine de prix des locations disponibles, ainsi que la surface associée . • Bien sûr en réalité d’autres paramètres seraient probablement à prendre en compte (parties communes, voisinage, évolution des loyers au cours du temps, etc). • Si on affiche maintenant ces différents points sur un graphe qui représente le montant du loyer en fonction de la surface, on obtient le graphique suivante :
  • 46. MACHINE LEARNING:EXEMPLE • Comme on pouvait s’y attendre, on remarque une augmentation relativement linéaire du loyer par rapport à la surface de l’appartement. • Une première modélisation simple du phénomène (le prix du loyer) serait donc simplement de considérer la droite la plus “proche” de l’ensemble des points.
  • 48. MACHINE LEARNING:EXEMPLE • La droite représente donc notre modèle du phénomène, auquel nous pouvons ajouter l'intervalle de confiance dans laquelle on pense que se trouve la droite.
  • 49. MACHINE LEARNING:EXEMPLE • Pour résumer, le travail de modélisation consiste à trouver le bon modèle statistique • notre modèle est la droite et son intervalle de confiance • Le machine learning en particulier intervient pour trouver ce modèle de manière automatisée.
  • 50. MACHINE LEARNING: INTERPRETATION ET UTILISATION • déploiement du modèle en production. • Si vous trouvez que votre modèle d’évaluation des loyers est très performant, et mériterait d’être partagé à plus de monde. • Vous décidez donc de le déployer sur un serveur où tout le monde pourra obtenir une estimation de son loyer selon votre modèle, • déterminer s'il paie plus ou moins que les prix du marché ! • Cela l'aidera sûrement dans sa décision de déménager.
  • 51. MACHINE LEARNING: INTERPRETATION ET UTILISATION • il vous suffit de récupérer les paramètres de votre modèle et de faire passer la surface de l'appartement en entrée du modèle, afin d’obtenir le loyer associé en sortie, en suivant la droite.
  • 52. MACHINE LEARNING: INTERPRETATION ET UTILISATION • Pour des modèles plus complexes, le fonctionnement reste le même, • Pour appliquer votre travail à de nouvelles données, il vous suffit de passer les nouvelles entrées dans votre modèle • qui est en principe un ensemble de transformations des valeurs d’entrées afin d’obtenir une sortie. • Là encore, si ce passage en production est complexe, en termes d’échelle, de contrainte de rapidité de calcul ou de sortie de résultats, il faut faire appel à un data architect qui sera responsable d’industrialiser le prototype.
  • 53. DATA WAREHOUSE • le BI, comprend un environnement décisionnel • Il a comme concept central l'entrepôt de données ou le Data Warehouse. • Mais comment concevoir un entrepôt de données? • Quelle structure permet-elle d'avoir les fonctionnalités requises pour un entrepôt de données ? • Quelles sont les techniques utilisées pour bien concevoir ? • Quels sont les indicateurs d'une bonne conception ?
  • 54. DATA WAREHOUSE • Un entrepôt de données, ou data Warehouse, est une vision centralisée et universelle de toutes les informations de l'entreprise. • C'est une structure (comme une base de données) qui a pour but de regrouper les données de l'entreprise pour des fins analytiques • pour aider à la décision stratégique. • La décision stratégique étant une action entreprise par les décideurs de l'entreprise et qui vise à améliorer, quantitativement ou qualitativement, la performance de l'entreprise. • c'est un gigantesque tas d'informations épurées, organisées, historisées et provenant de plusieurs sources de données, • servant aux analyses et à l'aide à la décision. • l'entrepôt de données est le meilleur moyen pour modéliser de l'information pour des fins d'analyse,
  • 55. DATA WAREHOUSE • Les Data Warehouses sont, en général, très volumineux et très complexes à concevoir, • on le divise en bouchées plus faciles à créer et entretenir. • Ce sont les Data Marts. • On peut faire des divisions par fonction • un data mart pour les ventes, pour les commandes, pour les ressources humaines • par sous-ensemble organisationnel • un data mart par succursale. • Nous verrons plus tard comment organiser les data marts pour créer un entrepôt proprement dit.
  • 56. DATA WAREHOUSE • Dans un schéma de BD pour un système d'information classique, on parle en termes de tables et de relations, • une table étant une représentation d'une entité et une relation une technique pour lier ces entités. • Et bien en BI, on parle en termes de Dimension et de Faits. • C'est une autre approche des données, • on entend par dimensions les axes avec lesquels on veut faire l'analyse. • Il peut y avoir une dimension client, une dimension produit, une dimension géographie (pour faire des analyses par secteur géographique), etc. • Une dimension est tout ce qu'on utilisera pour faire nos analyses.
  • 57. DATA WAREHOUSE • Les faits, en complément aux dimensions, sont ce sur quoi va porter l'analyse. • Ce sont des tables qui contiennent des informations opérationnelles • qui relatent la vie de l'entreprise. • On aura des tables de faits pour: • les ventes (chiffre d'affaire net, quantités et montants commandés, quantités facturées, quantités retournées, volumes des ventes, etc.) • les stocks (nombre d'exemplaires d'un produit en stock, niveau de remplissage du stock, taux de roulement d'une zone, etc.), • les ressources humaines (performances des employés, nombre de demandes de congés, nombre de démissions, taux de roulement des employés, etc.). • Un fait est tout ce qu'on voudra analyser.
  • 58. DATA WAREHOUSE • Extraction, Transformation, Loading. C'est un système par lequel vont passer toutes les données des systèmes opérationnels avant d'arriver dans la forme souhaitée dans l'entrepôt • L'ETL sert à transposer le modèle entité-relation des bases de données de production ainsi que les autres modèles utilisés dans les opérations de l'entreprise, • en modèle à base de dimensions et de faits • " OLAP ", acronyme de OnLine Analytical Processing. Un serveur d'analyse est un moyen permettant aux analystes et décideurs de naviguer, forer, découvrir les données de l'entrepôt.
  • 59. DATA WAREHOUSE : ETOILE ET FLACON • Une étoile est une façon de mettre en relation les dimensions et les faits dans un entrepôt de données. • le principe est que les dimensions sont directement reliées à un fait (schématiquement, ça fait comme une étoile). • Le flacon parcontre est une hiérarchie de dimensions et qu'elles sont reliées au faits, ça fait comme un flocon • les flocons et les étoiles peuvent être vus comme une manière de diviser les entrepôts de données et les magasins de données.
  • 60. DATA WAREHOUSE : EXEMPLE D’ETOILE • L'important en BI est de toujours garder à l'esprit que ce que nous faisons est différent des bases de données traditionnelles. • Le schéma créé sera accessible par les utilisateurs et doit donc être le plus simple et explicite possible !
  • 61. DATA WAREHOUSE : ENONCE DE L’EXEMPLE D’ETOILE • On vous demande de créer un data Mart (une étoile) pour l'analyse de l'activité des représentants d'une entreprise de vente d'imprimantes. • Le chef d'entreprise veut savoir ce qui se passe pour ses vendeurs. • Les employés font ils leur travail? • quelle est la zone de couverture des vendeurs? • ou sont les endroits où les vendeurs sont le moins efficaces? • quelle est la moyenne de ventes des représentants? • L'entreprise possède un système de gestion de ressources humaines, • un système de gestion des ventes • des feuilles de routes avec des informations concernant les vendeurs : kilomètres parcourus, litres d'essence utilisée, frais de voyage, ventes, promesses de ventes, etc.
  • 62. DATA WAREHOUSE : ENONCE DE L’EXEMPLE D’ETOILE • On vous demande de créer un data Mart (une étoile) pour l'analyse de l'activité des représentants d'une entreprise de vente d'imprimantes. • Le chef d'entreprise veut savoir ce qui se passe pour ses vendeurs. • Les employés font ils leur travail? • quelle est la zone de couverture des vendeurs? • ou sont les endroits où les vendeurs sont le moins efficaces? • quelle est la moyenne de ventes des représentants? • L'entreprise possède un système de gestion de ressources humaines, • un système de gestion des ventes • des feuilles de routes avec des informations concernant les vendeurs : kilomètres parcourus, litres d'essence utilisée, frais de voyage, ventes, promesses de ventes, etc.  Notre objectif est d'analyser l'activité des représentants.  Il semble que nous ayons toutes les informations pour ce faire... Mais dans différents systèmes.  Le but du jeu est de déceler les axes d'analyses (les dimensions)  les attributs ainsi que les éléments à analyser (les faits).
  • 63. DATA WAREHOUSE : ENONCE DE L’EXEMPLE D’ETOILE • On vous demande de créer un data Mart (une étoile) pour l'analyse de l'activité des représentants d'une entreprise de vente d'imprimantes. • Le chef d'entreprise veut savoir ce qui se passe pour ses vendeurs. • Les employés font ils leur travail? • quelle est la zone de couverture des vendeurs? • ou sont les endroits où les vendeurs sont le moins efficaces? • quelle est la moyenne de ventes des représentants? • L'entreprise possède un système de gestion de ressources humaines, • un système de gestion des ventes • des feuilles de routes avec des informations concernant les vendeurs : kilomètres parcourus, litres d'essence utilisée, frais de voyage, ventes, promesses de ventes, etc.  La meilleur façon de ce faire, est l'étude approfondie de ce qui se passe dans l'entreprise  documents échangés, rapports périodiques, interviews des personnes clés, étude des besoins.  Il faut vraiment faire un travail d'acteur, et rentrer dans la peau de chaque utilisateur,  savoir comment les analystes organisent leurs raisonnements,  savoir ce que voient les décideurs avant de décider, connaître les indicateurs de bonne santé de l'entreprise
  • 64. DATA WAREHOUSE : ENONCE DE L’EXEMPLE D’ETOILE • On vous demande de créer un data Mart (une étoile) pour l'analyse de l'activité des représentants d'une entreprise de vente d'imprimantes. • Le chef d'entreprise veut savoir ce qui se passe pour ses vendeurs. • Les employés font ils leur travail? • quelle est la zone de couverture des vendeurs? • ou sont les endroits où les vendeurs sont le moins efficaces? • quelle est la moyenne de ventes des représentants? • L'entreprise possède un système de gestion de ressources humaines, • un système de gestion des ventes • des feuilles de routes avec des informations concernant les vendeurs : kilomètres parcourus, litres d'essence utilisée, frais de voyage, ventes, promesses de ventes, etc. Remarque : L'axe du temps (dimension Temps) est toujours présent dans un entrepôt de données, c'est le type d'analyse le plus commun et le plus fréquent en entreprise.
  • 65. DATA WAREHOUSE : ENONCE DE L’EXEMPLE D’ETOILE • On vous demande de créer un data Mart (une étoile) pour l'analyse de l'activité des représentants d'une entreprise de vente d'imprimantes. • Le chef d'entreprise veut savoir ce qui se passe pour ses vendeurs. • Les employés font ils leur travail? • quelle est la zone de couverture des vendeurs? • ou sont les endroits où les vendeurs sont le moins efficaces? • quelle est la moyenne de ventes des représentants? • L'entreprise possède un système de gestion de ressources humaines, • un système de gestion des ventes • des feuilles de routes avec des informations concernant les vendeurs : kilomètres parcourus, litres d'essence utilisée, frais de voyage, ventes, promesses de ventes, etc. Il faut savoir : D'où provient chaque champ ? Comment transite l'information ? Où trouver l'information voulue? Se poser des questions du type : Ai-je assez de données pour répondre aux besoins ? Si non, qu'est ce que cela impliquerait de les créer ? Comment alimenter mes dimensions ? Comment alimenter mes faits ? Comment valider mes chargements ?
  • 66. DATA WAREHOUSE : ENONCE DE L’EXEMPLE D’ETOILE • On vous demande de créer un data Mart (une étoile) pour l'analyse de l'activité des représentants d'une entreprise de vente d'imprimantes. • Le chef d'entreprise veut savoir ce qui se passe pour ses vendeurs. • Les employés font ils leur travail? • quelle est la zone de couverture des vendeurs? • ou sont les endroits où les vendeurs sont le moins efficaces? • quelle est la moyenne de ventes des représentants? • L'entreprise possède un système de gestion de ressources humaines, • un système de gestion des ventes • des feuilles de routes avec des informations concernant les vendeurs : kilomètres parcourus, litres d'essence utilisée, frais de voyage, ventes, promesses de ventes, etc. La modélisation en étoile découle naturellement du tableau ci-dessus, il en résulte le schéma suivant :
  • 67. DATA WAREHOUSE : ENONCE DE L’EXEMPLE D’ETOILE • On vous demande de créer un data Mart (une étoile) pour l'analyse de l'activité des représentants d'une entreprise de vente d'imprimantes. • Le chef d'entreprise veut savoir ce qui se passe pour ses vendeurs. • Les employés font ils leur travail? • quelle est la zone de couverture des vendeurs? • ou sont les endroits où les vendeurs sont le moins efficaces? • quelle est la moyenne de ventes des représentants? • L'entreprise possède un système de gestion de ressources humaines, • un système de gestion des ventes • des feuilles de routes avec des informations concernant les vendeurs : kilomètres parcourus, litres d'essence utilisée, frais de voyage, ventes, promesses de ventes, etc.
  • 68. DATA WAREHOUSE • La table de fait contient se qu'on appelle des " mesures ", on peut y trouver le montant des ventes nettes, les quantités vendues, les kilomètres parcourus, les quantités en pré commande, etc. • La table de faits est reliée aux dimensions par des relation (1, n). • Pour analyser une ligne de fait par client par exemple, il faut qu'il y ait une relation entre cette ligne et la dimension client. • Les tables de dimension contiennent les éléments qu'utiliseront les décideurs pour voir la table de faits. • Les utilisateurs pourront ainsi apprécier les montant des ventes par vendeur, par client, ou le kilométrage pour un vendeur pour un client donnée (pour voir si ce client est rentable), calculer le coût de revient d'un produit par rapport aux activités des vendeurs, etc.
  • 69. DATA WAREHOUSE : ENONCE DE L’EXEMPLE D’ETOILE • On n'utilise JAMAIS la clé d'un système de production comme clé de dimension pour préserver l'historique des modifications dans l'entrepôt de données • La granularité des tables de dimensions et de faits doit être la même : imaginez que la table de faits regroupe les informations par heures et que la table de dimension du temps gère les minutes, il ne sera pas possible de lier la dimension temps et la table de faits (multi détermination). • Chaque ligne de la table de faits doit avoir une relation avec chacune des tables de dimensions : dans le cas contraire, on aurait perte d'information ou analyse erronée.