3. OBJECTIFS DE CETTE PARTIE
• Comprendre comment les grands flux de
données et l’informatique à la demande
(Cloud Computing) ont lancé le domaine de
l’analyse de données.
• Data Science
4.
5.
6.
7.
8.
9.
10.
11.
12.
13. POURQUOI LE BIG DATA A DE LA VALEUR?
C'est la façon dont les mégadonnées peuvent répondre aux
besoins humains qui la valorise.
14.
15.
16. • les moteurs de recommandation.
• Tirent parti des modèles utilisateur et des
fonctionnalités du produit pour prédire le meilleur
produit correspondant pour enrichir l'expérience
utilisateur.
• Sur Amazon, vous obtenez des recommandations
basées sur votre achat.
• Netflix vous recommande de regarder les nouvelles
émissions en fonction de votre historique de
visionnage.
• l'analyse des sentiments autour des événements et
des produits.
17. • Amazon peut surveiller les avis
produits et les tendances pour un
produit particulier.
• ils peuvent juger si un avis de produit
est positif ou négatif.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
39. MACHINE LEARNING
• Les images satellites pour évaluer le niveau de pauvreté:
• Des chercheurs ont utilisé le machine learning pour pouvoir cartographier les zones de
pauvreté de manière automatique, simplement à partir d'images satellites !
40. MACHINE LEARNING
• Détectez l'illettrisme par l'utilisation du smartphone:
• Un chercheur norvégien a utilisé plusieurs types de données mobiles (tels que les SMS,
le nombre de contacts, etc.) pour détecter les personnes illettrées dans les pays en voie
de développement!
• Pour en savoir plus, vous pouvez consulter cet article de 2016 du site MIT Technology
Review.
42. MACHINE LEARNING
• Dans beaucoup de cas, l’innovation en data science dans une entreprise
vient de l’originalité de l’utilisation des données
• Le croisement de différentes sources de données.
• il faut dans l’idéal posséder une politique de gestion des données dans
son entreprise la plus transparente possible.
• Pour les données, c’est comme pour les ressources humaines :
• les différents départements organisés en silos communiquent moins et
innovent moins
• un environnement ou la transversalité est favorisée communique plus
et innove
essayez d'éviter les data-silos !
43. MACHINE LEARNING:NETTOYAGE DES DONNÉES
• Nettoyer les données, c'est s'assurer qu'elles sont consistantes, sans
valeurs aberrantes ni manquantes.
• aggrégation de ces données dans un data lake.
• Nettoyer les données signifie donc qu’elles sont toutes sous le même
format, accessible au même endroit et au bon moment.
• L’objectif est la création du modèle statistique associé aux données pour
les data analysts
• En machine learning et en data science plus généralement, l'objectif est
de trouver un modèle (stochastique ou déterministe) du phénomène à
l'origine des données.
• on considère que chaque donnée observée est l'expression d'une
variable aléatoire générée par une distribution de probabilité.
44. MACHINE LEARNING:EXEMPLE
• Imaginez que vous voulez savoir si vous payez trop cher votre loyer
• On récupère sur un site de location une trentaine de prix des
locations disponibles, ainsi que la surface associée .
• Bien sûr en réalité d’autres paramètres seraient probablement à
prendre en compte (parties communes, voisinage, évolution des
loyers au cours du temps, etc).
• Si on affiche maintenant ces différents points sur un graphe qui représente le
montant du loyer en fonction de la surface, on obtient le graphique suivante :
46. MACHINE LEARNING:EXEMPLE
• Comme on pouvait s’y attendre, on remarque une augmentation
relativement linéaire du loyer par rapport à la surface de
l’appartement.
• Une première modélisation simple du phénomène (le prix du loyer)
serait donc simplement de considérer la droite la plus “proche” de
l’ensemble des points.
48. MACHINE LEARNING:EXEMPLE
• La droite représente donc notre modèle du phénomène, auquel
nous pouvons ajouter l'intervalle de confiance dans laquelle on
pense que se trouve la droite.
49. MACHINE LEARNING:EXEMPLE
• Pour résumer, le travail de modélisation consiste à trouver le
bon modèle statistique
• notre modèle est la droite et son intervalle de confiance
• Le machine learning en particulier intervient pour trouver ce modèle de manière
automatisée.
50. MACHINE LEARNING: INTERPRETATION ET UTILISATION
• déploiement du modèle en production.
• Si vous trouvez que votre modèle d’évaluation des loyers est très
performant, et mériterait d’être partagé à plus de monde.
• Vous décidez donc de le déployer sur un serveur où tout le monde
pourra obtenir une estimation de son loyer selon votre modèle,
• déterminer s'il paie plus ou moins que les prix du marché !
• Cela l'aidera sûrement dans sa décision de déménager.
51. MACHINE LEARNING: INTERPRETATION ET UTILISATION
• il vous suffit de récupérer les paramètres de votre modèle et de faire
passer la surface de l'appartement en entrée du modèle, afin d’obtenir
le loyer associé en sortie, en suivant la droite.
52. MACHINE LEARNING: INTERPRETATION ET UTILISATION
• Pour des modèles plus complexes, le fonctionnement reste le même,
• Pour appliquer votre travail à de nouvelles données, il vous suffit de
passer les nouvelles entrées dans votre modèle
• qui est en principe un ensemble de transformations des valeurs
d’entrées afin d’obtenir une sortie.
• Là encore, si ce passage en production est complexe, en termes
d’échelle, de contrainte de rapidité de calcul ou de sortie de résultats,
il faut faire appel à un data architect qui sera responsable
d’industrialiser le prototype.
53. DATA WAREHOUSE
• le BI, comprend un environnement décisionnel
• Il a comme concept central l'entrepôt de données ou le Data
Warehouse.
• Mais comment concevoir un entrepôt de données?
• Quelle structure permet-elle d'avoir les fonctionnalités requises pour
un entrepôt de données ?
• Quelles sont les techniques utilisées pour bien concevoir ?
• Quels sont les indicateurs d'une bonne conception ?
54. DATA WAREHOUSE
• Un entrepôt de données, ou data Warehouse, est une vision centralisée et
universelle de toutes les informations de l'entreprise.
• C'est une structure (comme une base de données) qui a pour but de regrouper les
données de l'entreprise pour des fins analytiques
• pour aider à la décision stratégique.
• La décision stratégique étant une action entreprise par les décideurs de l'entreprise
et qui vise à améliorer, quantitativement ou qualitativement, la performance de
l'entreprise.
• c'est un gigantesque tas d'informations épurées, organisées, historisées et
provenant de plusieurs sources de données,
• servant aux analyses et à l'aide à la décision.
• l'entrepôt de données est le meilleur moyen pour modéliser de l'information pour
des fins d'analyse,
55. DATA WAREHOUSE
• Les Data Warehouses sont, en général, très volumineux et très complexes à
concevoir,
• on le divise en bouchées plus faciles à créer et entretenir.
• Ce sont les Data Marts.
• On peut faire des divisions par fonction
• un data mart pour les ventes, pour les commandes, pour les ressources
humaines
• par sous-ensemble organisationnel
• un data mart par succursale.
• Nous verrons plus tard comment organiser les data marts pour créer un
entrepôt proprement dit.
56. DATA WAREHOUSE
• Dans un schéma de BD pour un système d'information classique, on parle en
termes de tables et de relations,
• une table étant une représentation d'une entité et une relation une technique
pour lier ces entités.
• Et bien en BI, on parle en termes de Dimension et de Faits.
• C'est une autre approche des données,
• on entend par dimensions les axes avec lesquels on veut faire l'analyse.
• Il peut y avoir une dimension client, une dimension produit, une dimension
géographie (pour faire des analyses par secteur géographique), etc.
• Une dimension est tout ce qu'on utilisera pour faire nos analyses.
57. DATA WAREHOUSE
• Les faits, en complément aux dimensions, sont ce sur quoi va porter l'analyse.
• Ce sont des tables qui contiennent des informations opérationnelles
• qui relatent la vie de l'entreprise.
• On aura des tables de faits pour:
• les ventes (chiffre d'affaire net, quantités et montants commandés, quantités
facturées, quantités retournées, volumes des ventes, etc.)
• les stocks (nombre d'exemplaires d'un produit en stock, niveau de remplissage du
stock, taux de roulement d'une zone, etc.),
• les ressources humaines (performances des employés, nombre de demandes de
congés, nombre de démissions, taux de roulement des employés, etc.).
• Un fait est tout ce qu'on voudra analyser.
58. DATA WAREHOUSE
• Extraction, Transformation, Loading. C'est un système par lequel vont passer
toutes les données des systèmes opérationnels avant d'arriver dans la forme
souhaitée dans l'entrepôt
• L'ETL sert à transposer le modèle entité-relation des bases de données de
production ainsi que les autres modèles utilisés dans les opérations de
l'entreprise,
• en modèle à base de dimensions et de faits
• " OLAP ", acronyme de OnLine Analytical Processing. Un serveur d'analyse est un
moyen permettant aux analystes et décideurs de naviguer, forer, découvrir les
données de l'entrepôt.
59. DATA WAREHOUSE : ETOILE ET FLACON
• Une étoile est une façon de mettre en relation les dimensions et les faits dans un
entrepôt de données.
• le principe est que les dimensions sont directement reliées à un fait
(schématiquement, ça fait comme une étoile).
• Le flacon parcontre est une hiérarchie de dimensions et qu'elles sont reliées au
faits, ça fait comme un flocon
• les flocons et les étoiles peuvent être vus comme une manière de diviser les
entrepôts de données et les magasins de données.
60. DATA WAREHOUSE : EXEMPLE D’ETOILE
• L'important en BI est de toujours garder à l'esprit que ce que nous faisons est
différent des bases de données traditionnelles.
• Le schéma créé sera accessible par les utilisateurs et doit donc être le plus simple
et explicite possible !
61. DATA WAREHOUSE : ENONCE DE L’EXEMPLE D’ETOILE
• On vous demande de créer un data Mart (une étoile) pour l'analyse de l'activité des
représentants d'une entreprise de vente d'imprimantes.
• Le chef d'entreprise veut savoir ce qui se passe pour ses vendeurs.
• Les employés font ils leur travail?
• quelle est la zone de couverture des vendeurs?
• ou sont les endroits où les vendeurs sont le moins efficaces?
• quelle est la moyenne de ventes des représentants?
• L'entreprise possède un système de gestion de ressources humaines,
• un système de gestion des ventes
• des feuilles de routes avec des informations concernant les vendeurs : kilomètres
parcourus, litres d'essence utilisée, frais de voyage, ventes, promesses de ventes, etc.
62. DATA WAREHOUSE : ENONCE DE L’EXEMPLE D’ETOILE
• On vous demande de créer un data Mart (une
étoile) pour l'analyse de l'activité des
représentants d'une entreprise de vente
d'imprimantes.
• Le chef d'entreprise veut savoir ce qui se passe
pour ses vendeurs.
• Les employés font ils leur travail?
• quelle est la zone de couverture des vendeurs?
• ou sont les endroits où les vendeurs sont le
moins efficaces?
• quelle est la moyenne de ventes des
représentants?
• L'entreprise possède un système de gestion de
ressources humaines,
• un système de gestion des ventes
• des feuilles de routes avec des informations
concernant les vendeurs : kilomètres
parcourus, litres d'essence utilisée, frais de
voyage, ventes, promesses de ventes, etc.
Notre objectif est d'analyser l'activité des
représentants.
Il semble que nous ayons toutes les
informations pour ce faire... Mais dans
différents systèmes.
Le but du jeu est de déceler les axes
d'analyses (les dimensions)
les attributs ainsi que les éléments à
analyser (les faits).
63. DATA WAREHOUSE : ENONCE DE L’EXEMPLE D’ETOILE
• On vous demande de créer un data Mart (une
étoile) pour l'analyse de l'activité des
représentants d'une entreprise de vente
d'imprimantes.
• Le chef d'entreprise veut savoir ce qui se passe
pour ses vendeurs.
• Les employés font ils leur travail?
• quelle est la zone de couverture des vendeurs?
• ou sont les endroits où les vendeurs sont le
moins efficaces?
• quelle est la moyenne de ventes des
représentants?
• L'entreprise possède un système de gestion de
ressources humaines,
• un système de gestion des ventes
• des feuilles de routes avec des informations
concernant les vendeurs : kilomètres
parcourus, litres d'essence utilisée, frais de
voyage, ventes, promesses de ventes, etc.
La meilleur façon de ce faire, est l'étude
approfondie de ce qui se passe dans
l'entreprise
documents échangés, rapports périodiques,
interviews des personnes clés, étude des
besoins.
Il faut vraiment faire un travail d'acteur, et
rentrer dans la peau de chaque utilisateur,
savoir comment les analystes organisent leurs
raisonnements,
savoir ce que voient les décideurs avant de
décider, connaître les indicateurs de bonne
santé de l'entreprise
64. DATA WAREHOUSE : ENONCE DE L’EXEMPLE D’ETOILE
• On vous demande de créer un data Mart (une
étoile) pour l'analyse de l'activité des
représentants d'une entreprise de vente
d'imprimantes.
• Le chef d'entreprise veut savoir ce qui se passe
pour ses vendeurs.
• Les employés font ils leur travail?
• quelle est la zone de couverture des vendeurs?
• ou sont les endroits où les vendeurs sont le
moins efficaces?
• quelle est la moyenne de ventes des
représentants?
• L'entreprise possède un système de gestion de
ressources humaines,
• un système de gestion des ventes
• des feuilles de routes avec des informations
concernant les vendeurs : kilomètres
parcourus, litres d'essence utilisée, frais de
voyage, ventes, promesses de ventes, etc.
Remarque : L'axe du temps (dimension
Temps) est toujours présent dans un
entrepôt de données, c'est le type d'analyse
le plus commun et le plus fréquent en
entreprise.
65. DATA WAREHOUSE : ENONCE DE L’EXEMPLE D’ETOILE
• On vous demande de créer un data Mart (une
étoile) pour l'analyse de l'activité des
représentants d'une entreprise de vente
d'imprimantes.
• Le chef d'entreprise veut savoir ce qui se passe
pour ses vendeurs.
• Les employés font ils leur travail?
• quelle est la zone de couverture des vendeurs?
• ou sont les endroits où les vendeurs sont le
moins efficaces?
• quelle est la moyenne de ventes des
représentants?
• L'entreprise possède un système de gestion de
ressources humaines,
• un système de gestion des ventes
• des feuilles de routes avec des informations
concernant les vendeurs : kilomètres
parcourus, litres d'essence utilisée, frais de
voyage, ventes, promesses de ventes, etc.
Il faut savoir :
D'où provient chaque champ ?
Comment transite l'information ?
Où trouver l'information voulue?
Se poser des questions du type :
Ai-je assez de données pour répondre aux
besoins ?
Si non, qu'est ce que cela impliquerait de les
créer ?
Comment alimenter mes dimensions ?
Comment alimenter mes faits ?
Comment valider mes chargements ?
66. DATA WAREHOUSE : ENONCE DE L’EXEMPLE D’ETOILE
• On vous demande de créer un data Mart (une
étoile) pour l'analyse de l'activité des
représentants d'une entreprise de vente
d'imprimantes.
• Le chef d'entreprise veut savoir ce qui se passe
pour ses vendeurs.
• Les employés font ils leur travail?
• quelle est la zone de couverture des vendeurs?
• ou sont les endroits où les vendeurs sont le
moins efficaces?
• quelle est la moyenne de ventes des
représentants?
• L'entreprise possède un système de gestion de
ressources humaines,
• un système de gestion des ventes
• des feuilles de routes avec des informations
concernant les vendeurs : kilomètres
parcourus, litres d'essence utilisée, frais de
voyage, ventes, promesses de ventes, etc.
La modélisation en étoile découle
naturellement du tableau ci-dessus, il en
résulte le schéma suivant :
67. DATA WAREHOUSE : ENONCE DE L’EXEMPLE D’ETOILE
• On vous demande de créer un data Mart (une
étoile) pour l'analyse de l'activité des
représentants d'une entreprise de vente
d'imprimantes.
• Le chef d'entreprise veut savoir ce qui se passe
pour ses vendeurs.
• Les employés font ils leur travail?
• quelle est la zone de couverture des vendeurs?
• ou sont les endroits où les vendeurs sont le
moins efficaces?
• quelle est la moyenne de ventes des
représentants?
• L'entreprise possède un système de gestion de
ressources humaines,
• un système de gestion des ventes
• des feuilles de routes avec des informations
concernant les vendeurs : kilomètres
parcourus, litres d'essence utilisée, frais de
voyage, ventes, promesses de ventes, etc.
68. DATA WAREHOUSE
• La table de fait contient se qu'on appelle des " mesures ", on peut y trouver le
montant des ventes nettes, les quantités vendues, les kilomètres parcourus, les
quantités en pré commande, etc.
• La table de faits est reliée aux dimensions par des relation (1, n).
• Pour analyser une ligne de fait par client par exemple, il faut qu'il y ait une
relation entre cette ligne et la dimension client.
• Les tables de dimension contiennent les éléments qu'utiliseront les décideurs
pour voir la table de faits.
• Les utilisateurs pourront ainsi apprécier les montant des ventes par vendeur,
par client, ou le kilométrage pour un vendeur pour un client donnée (pour voir
si ce client est rentable), calculer le coût de revient d'un produit par rapport aux
activités des vendeurs, etc.
69. DATA WAREHOUSE : ENONCE DE L’EXEMPLE D’ETOILE
• On n'utilise JAMAIS la clé d'un système de production comme clé de dimension
pour préserver l'historique des modifications dans l'entrepôt de données
• La granularité des tables de dimensions et de faits doit être la même : imaginez
que la table de faits regroupe les informations par heures et que la table de
dimension du temps gère les minutes, il ne sera pas possible de lier la
dimension temps et la table de faits (multi détermination).
• Chaque ligne de la table de faits doit avoir une relation avec chacune des tables
de dimensions : dans le cas contraire, on aurait perte d'information ou analyse
erronée.