SlideShare une entreprise Scribd logo
1  sur  64
Mini Projet du Data Warehouse
1
ANALYSE MOVIE RATINGS DATA USING
DATA WAREHOUSE
USING
Encadré par:
Mr. EL ALLALI Naoufal
Réalisée par:
EL MIRI Soukaina
BABZINE Bahija
GHAZLI Nassima
PLAN DE TRAVAIL
2
Introduction
Dataset(MovieLens)
Power BI
Conception
Outils
ETL
Analyse et visualision python
INTRODUCTION
3
1
4
5
C’est quoi le cloud?
6
Cloud Data Warehouses
7
Avantage cloud datawarehousing
Évolutivité facile
Haute disponibilité et performance
Sécurité renforcée
Mises à jour et améliorations automatiques
Efficacité et rapidité
Dataset(MovieLens)
8
2
9
MovieLens est un ensemble de données de recommandation de films largement utilisé
dans la recherche sur l'apprentissage automatique et la science des données.
 Il contient des évaluations de films fournies par des utilisateurs du site MovieLens.
Les versions MovieLens
latest-small 100K 1M 20M 25M
"25m": Il s'agit de la dernière version stable de l'ensemble de données MovieLens.
10
movie ratings tags
MovieLens contient environ 25 millions d'évaluations de films sur 62 423 films.
Contient les
évaluations de films
fournies par les
utilisateurs
userId, movieId, rating
timestamp
25000095
Représente des
informations sur les
films
movieId, title, genres
62423
Stocke les tags
associés aux films par
les utilisateurs
userId, movieId, tag ,
Timestamp
1093360
11
MovieLens contient environ 25 millions d'évaluations de films sur 62 423 films.
links
Genome-
scores
Genome-
tags
Contient des Ids
permettant de relier
Dataset à d'autres
sources externes
d'informations sur les
films
movieId ,imdbld,tmdbId
62423
Contient les scores de
pertinence de
différentes
caractéristiques
("tags") pour chaque
film
movieId, tagId, relevance
15584448
Contient les tags
génériques
tagId, Tag
1128
OUTILS
12
3
13
PETL
Conception
14
4
15
Concevoir et mettre en œuvre un schéma d'entrepôt de données pour stocker les
données de rating des films.
Snowflake
 les tables de dimensions sont
normalisées en plusieurs tables
connectées par des relations, ce qui
crée une structure en flocon de neige
Star
 la table de faits est au centre de l'étoile
et est connectée à des tables de
dimensions
 Les tables de dimensions sont
connectées entre elles pour former des
branches de l'étoile
Vs
16
Schéma d'entrepôt de données: Snowflake
Pour les données de rating film:
Un shéma flocon d neige
le schéma en flocon est plus
adapté pour stocker des données
complexes et hiérarchiques, avec
des relations plus complexes
entre les tables
17
Schéma d'entrepôt de données: Snowflake
Les avantages à
utiliser un schéma
en flocon plutôt
qu'un schéma en
étoile
Gestion de la
hiérarchie
Flexibilité
Normalisation
Évolutivité
18
Schéma d'entrepôt de données: Snowflake Cloud
Snowflake est une plateforme de data warehousing cloud qui permet de stocker, gérer et analyser des
données à grande échelle.
19
Schéma d'entrepôt de données: Snowflake Cloud
 Installé localement sur un ordinateur
 Fonctionner sur un seul serveur
 N'a pas la même capacité de traitement de
données en temps réel.
 Service de data warehouse dans le cloud
 Optimisé pour le traitement parallèle et distribué
 Permet d'avoir des données à jour en temps réel
pour les rapports et les analyses
 La sécurité
19
20
Schéma d'entrepôt de données: Snowflake Cloud
Snowflake est une plateforme de data warehousing cloud qui permet de stocker, gérer et analyser des
données à grande échelle.
21
Schéma d'entrepôt de données: Snowflake Cloud
22
Schéma d'entrepôt de données: Snowflake Cloud
23
Schéma d'entrepôt de données: Snowflake Cloud
24
Schéma d'entrepôt de données: Configuration de
l’environnement
SNOWFLAKE_ACCOUNT
SCHEMA
DATABASE
TABLES
NAMESPACE
25
Schéma d'entrepôt de données: Configuration de
l’environnement
26
Schéma d'entrepôt de données: Configuration de
l’environnement
27
Schéma d'entrepôt de données: Configuration de
l’environnement
28
Schéma d'entrepôt de données: Configuration de
l’environnement
29
Schéma d'entrepôt de données: Configuration de
l’environnement
30
Schéma d'entrepôt de données: Configuration de
l’environnement
31
Schéma d'entrepôt de données: Configuration de
l’environnement
32
Schéma d'entrepôt de données: Configuration de
l’environnement
33
Schéma d'entrepôt de données: Configuration de
l’environnement
34
Schéma d'entrepôt de données: Configuration de
l’environnement
35
Schéma d'entrepôt de données: Configuration de
l’environnement
36
Schéma d'entrepôt de données: Configuration de
l’environnement
37
Schéma d'entrepôt de données: Configuration de
l’environnement
38
Schéma d'entrepôt de données: Configuration de
l’environnement
39
Schéma d'entrepôt de données: Configuration de
l’environnement
ETL
40
5
41
Python
Python est le langage de programmation open source le plus
employé par les informaticiens. Ce langage s’est propulsé en tête
de la gestion d’infrastructure, d’analyse de données ou dans le
domaine du développement de logiciels.
Et aussi utilisé pour implémenter de nombreux types de processus
ETL (Extract, Transform, Load)
42
ETL
43
1 Fichiers Plats
L'extraction de données est le processus de récupération des données à partir des sources des données
diverse telle que :
EXTRACTION
DES DONNEES
44
2 Bases de Données Relationnelles
EXTRACTION
DES DONNEES
L'extraction de données est le processus de récupération des données à partir des sources des données
diverse telle que :
45
3 Systèmes de Fichiers Distribués
EXTRACTION
DES DONNEES
L'extraction de données est le processus de récupération des données à partir des sources des données
diverse telle que :
46
La transformation des données se réfère au processus de modification ou de conversion des données d'une forme à
une autre, souvent dans le but de les rendre plus utiles ou plus faciles à utiliser pour une analyse ultérieure.
Les tâches de transformation de données courantes peuvent inclure:
Nettoyage
des Données
Normalisation
des Données
Fusion
Des Données
Agrégation
des Données
TRANSFORMATION
DES DONNEES
47
Le chargement des données est le processus de transfert de données d'une source vers une destination, souvent
dans le but de les stocker ou de les utiliser ultérieurement
On peut charger les données transformées dans diverses destinations telles que :
CHARGEMENT
DES DONNEES
EXTRACTION DES DONNEES EN PYTHON
48
Python dispose des bibliothèques et des modules pour extraire des données de diverses sources telle
que:
Pandas
SQL Alchemy
BeautifulSoup
Requests
TRANSFORMATION DES DONNEES EN PYTHON
49
Python dispose des bibliothèques et des modules pour transformer des données de diverses sources
telle que:
CHARGEMENT DES DONNEES EN PYTHON
50
Python dispose des bibliothèques et des modules pour charger des données de diverses sources telle
que:
Boto 3
SQL Alchemy
S3fs
Py
mongo
51
PETL
PETL(Python Extract Transform Load) est une bibliothèque Python open-source pour le traitement de
données ETL.
Elle offre des fonctionnalités pour extraire des données à partir des différentes sources telles que des
fichiers CSV, JSon, bases de données relationnelles, des services web, etc., les transformer et les charger
dans des destinations telles que des bases de données, des fichiers plats, etc.
52
AVANTAGE DE PETL Flexibilité
Petl est conçu pour travailler avec différents
types de sources de données, (CSV, les
bases de données relationnelles, données
semi-structurés.
Haute performance
Petl est optimisé pour le traitement
de gros volumes de données, ce qui
lui permet de traiter rapidement des
données massives.
Open source
Petl est une bibliothèque open source,
gratuite et facile à installer.
Modularité
Petl permet de chaîner facilement des
opérations de transformation pour
créer des pipelines de traitement de
données personnalisés.
Facilité d'utilisation
Petl est très simple à utiliser. Elle est
également plus légère et moins
complexe que Pandas, ce qui facilite la
manipulation de grands volumes de
données.
2
1 5
4
3
53
FONCTIONNEMENT DE PETL
L’interface utilisateur de petl est basée sur la chaîne de traitement de données (pipeline), qui permet de connecter
facilement des opérations de transformation et de manipulation de données pour créer des workflows personnalisés.
Le flux de travail de Petl se compose de plusieurs étapes clés :
Une fois que les données ont été
transformées, elles peuvent être
chargées dans différentes
destinations, telles que des bases
de données, des fichiers CSV,des
fichiers JSON, etc.
Petl offre une grande variété
d'opérations de transformation de
données, telles que la sélection de
colonnes, le filtrage de données, le tri
de données, l'agrégation, le
renommage, la fusion, etc.
Petl permet d'extraire des
données à partir de différentes
sources, telles que des fichiers
CSV, des bases de données
relationnelles, des fichiers Excel,
des fichiers JSON, etc.
Chargement
Extraction Transformation
PETL && PANDAS
54
Pandas et Petl sont deux bibliothèques Python pour la
manipulation de données, mais ils ont des objectifs
différents. Pandas est conçu pour l'analyse de données et
Petl est conçu pour l'extraction, la transformation et le
chargement de données (ETL).
55
PANDAS VS PETL
04
Performances
Pandas est optimisé pour le traitement de données en
mémoire plus rapide que Petl pour les opérations sur les
données en mémoire.
Petl est conçu pour manipuler des données de grande taille et
peut être plus performant que Pandas pour les opérations qui
nécessitent des lectures et écritures de données sur des
sources de données externes.
02
Performances
Pandas offre des capacités plus avancées pour
l'analyse de données, telles que l'agrégation de
données, la visualisation de données, etc.
Petl, en revanche, offre des capacités plus
avancées pour la transformation de données, tels
que la fusion de données et la gestion des sources
de données externes.
01
Objectifs
Pandas est conçu pour
l'analyse de données,
Petl pour l'extraction, la
transformation et le
chargement de données
(ETL).
Analyse et Visualisation
Python
56
6
ANALYSE & VISUALISATION DES DONNEES
57
L'analyse et la visualisation des données ont plusieurs avantages les plus importants est :
Compréhension des données
Prise de décision éclairée
01
01
01
01
Amélioration de la communication
Détection des erreurs
Power BI: Création des
rapports et des tableaux
de bord
58
7
59
Power BI est une solution de Business Intelligence (BI) proposée par
Microsoft, qui permet de collecter, transformer, analyser et visualiser des
données.
Power BI est principalement conçu pour les utilisateurs non techniques
qui ont besoin de visualiser des données sans avoir à écrire de code.
60
Le dataset MovieLens contient des données sur des évaluations de films faites par des utilisateurs.
Analyser et visualiser ces données avec Power BI
peut permettre d'obtenir plusieurs insights intéressants
• Compréhension des préférences des utilisateurs
• Analyse de la popularité des films
• Identification des utilisateurs les plus actifs
• Détection des tendances
61
L'analyse et la visualisation des données du dataset
MovieLens avec Power BI peuvent aider les entreprises
et les organisations à mieux comprendre les tendances et
les préférences du marché et ainsi à adapter leur
stratégie en conséquence.
62
63
Mini Projet du Data Warehouse
64
ANALYSE MOVIE RATINGS DATA USING
DATA WAREHOUSE
USING
Encadré par:
Mr. EL ALLALI Naoufal
Réalisée par:
EL MIRI Soukaina
BABZINE Bahija
GHAZLI Nassima

Contenu connexe

Similaire à Bidirectional Encoder Representations from Transformers

Business intelligence pour startups
Business intelligence pour startupsBusiness intelligence pour startups
Business intelligence pour startupsSébastien Derivaux
 
Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018Converteo
 
Distributed programing (hadoop && java) version finale.pptx
Distributed programing  (hadoop && java) version finale.pptxDistributed programing  (hadoop && java) version finale.pptx
Distributed programing (hadoop && java) version finale.pptxAhmed rebai
 
Les nouveautés stockage dans Windows Server 2012 R2
Les nouveautés stockage dans Windows Server 2012 R2Les nouveautés stockage dans Windows Server 2012 R2
Les nouveautés stockage dans Windows Server 2012 R2Georgeot Cédric
 
BigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherBigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherLilia Sfaxi
 
Geneva jug Lucene Solr
Geneva jug Lucene Solr Geneva jug Lucene Solr
Geneva jug Lucene Solr francelabs
 
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...Micropole Group
 
Salesforce Einstein analytics - Formation sur les-bases - By iMalka
Salesforce Einstein analytics - Formation sur les-bases - By iMalkaSalesforce Einstein analytics - Formation sur les-bases - By iMalka
Salesforce Einstein analytics - Formation sur les-bases - By iMalkaIlan Malka
 
Benchmarking NoSQL DataBase dans le cadre d'un projet IoT
Benchmarking NoSQL DataBase dans le cadre d'un projet IoTBenchmarking NoSQL DataBase dans le cadre d'un projet IoT
Benchmarking NoSQL DataBase dans le cadre d'un projet IoTCHAKER ALLAOUI
 
Emna borgi mabroukachraita-datawarehouse
Emna borgi mabroukachraita-datawarehouseEmna borgi mabroukachraita-datawarehouse
Emna borgi mabroukachraita-datawarehouseEmna Borgi
 
Livre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakesLivre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakesConverteo
 
Azure Camp 9 Décembre - slides session développeurs webmedia
Azure Camp 9 Décembre - slides session développeurs webmediaAzure Camp 9 Décembre - slides session développeurs webmedia
Azure Camp 9 Décembre - slides session développeurs webmediaMicrosoft
 
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data VirtualizationSession en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data VirtualizationDenodo
 
11 visual basic .net - acces aux donnees avec ado .net
11 visual basic .net - acces aux donnees avec ado .net11 visual basic .net - acces aux donnees avec ado .net
11 visual basic .net - acces aux donnees avec ado .netHamza SAID
 
Integration de donnees_etl
Integration de donnees_etlIntegration de donnees_etl
Integration de donnees_etlhoracio lassey
 
SQL Server et les développeurs
SQL Server et les développeurs SQL Server et les développeurs
SQL Server et les développeurs Microsoft
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDenodo
 

Similaire à Bidirectional Encoder Representations from Transformers (20)

Business intelligence pour startups
Business intelligence pour startupsBusiness intelligence pour startups
Business intelligence pour startups
 
Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018
 
Distributed programing (hadoop && java) version finale.pptx
Distributed programing  (hadoop && java) version finale.pptxDistributed programing  (hadoop && java) version finale.pptx
Distributed programing (hadoop && java) version finale.pptx
 
Les nouveautés stockage dans Windows Server 2012 R2
Les nouveautés stockage dans Windows Server 2012 R2Les nouveautés stockage dans Windows Server 2012 R2
Les nouveautés stockage dans Windows Server 2012 R2
 
BigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherBigData_Chp5: Putting it all together
BigData_Chp5: Putting it all together
 
Geneva jug Lucene Solr
Geneva jug Lucene Solr Geneva jug Lucene Solr
Geneva jug Lucene Solr
 
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
 
Salesforce Einstein analytics - Formation sur les-bases - By iMalka
Salesforce Einstein analytics - Formation sur les-bases - By iMalkaSalesforce Einstein analytics - Formation sur les-bases - By iMalka
Salesforce Einstein analytics - Formation sur les-bases - By iMalka
 
Benchmarking NoSQL DataBase dans le cadre d'un projet IoT
Benchmarking NoSQL DataBase dans le cadre d'un projet IoTBenchmarking NoSQL DataBase dans le cadre d'un projet IoT
Benchmarking NoSQL DataBase dans le cadre d'un projet IoT
 
Emna borgi mabroukachraita-datawarehouse
Emna borgi mabroukachraita-datawarehouseEmna borgi mabroukachraita-datawarehouse
Emna borgi mabroukachraita-datawarehouse
 
Show de boucane pour ELK
Show de boucane pour ELKShow de boucane pour ELK
Show de boucane pour ELK
 
Livre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakesLivre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakes
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Azure Camp 9 Décembre - slides session développeurs webmedia
Azure Camp 9 Décembre - slides session développeurs webmediaAzure Camp 9 Décembre - slides session développeurs webmedia
Azure Camp 9 Décembre - slides session développeurs webmedia
 
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data VirtualizationSession en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
 
Les outils OLAP
Les outils OLAPLes outils OLAP
Les outils OLAP
 
11 visual basic .net - acces aux donnees avec ado .net
11 visual basic .net - acces aux donnees avec ado .net11 visual basic .net - acces aux donnees avec ado .net
11 visual basic .net - acces aux donnees avec ado .net
 
Integration de donnees_etl
Integration de donnees_etlIntegration de donnees_etl
Integration de donnees_etl
 
SQL Server et les développeurs
SQL Server et les développeurs SQL Server et les développeurs
SQL Server et les développeurs
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data Virtualization
 

Plus de bahija babzine

Bidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from TransformersBidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from Transformersbahija babzine
 
To_understand_transformers_together presentation
To_understand_transformers_together presentationTo_understand_transformers_together presentation
To_understand_transformers_together presentationbahija babzine
 
Recurrent neural network_PresentationRNN.pptx
Recurrent neural network_PresentationRNN.pptxRecurrent neural network_PresentationRNN.pptx
Recurrent neural network_PresentationRNN.pptxbahija babzine
 
Introduction aux systèmes de recommandation part 3.pptx
Introduction aux systèmes  de recommandation part 3.pptxIntroduction aux systèmes  de recommandation part 3.pptx
Introduction aux systèmes de recommandation part 3.pptxbahija babzine
 
Introduction aux systèmes de recommandation part 2.pptx
Introduction aux systèmes  de recommandation part 2.pptxIntroduction aux systèmes  de recommandation part 2.pptx
Introduction aux systèmes de recommandation part 2.pptxbahija babzine
 
Introduction aux systèmes de recommandation.pptx
Introduction aux systèmes  de recommandation.pptxIntroduction aux systèmes  de recommandation.pptx
Introduction aux systèmes de recommandation.pptxbahija babzine
 

Plus de bahija babzine (6)

Bidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from TransformersBidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from Transformers
 
To_understand_transformers_together presentation
To_understand_transformers_together presentationTo_understand_transformers_together presentation
To_understand_transformers_together presentation
 
Recurrent neural network_PresentationRNN.pptx
Recurrent neural network_PresentationRNN.pptxRecurrent neural network_PresentationRNN.pptx
Recurrent neural network_PresentationRNN.pptx
 
Introduction aux systèmes de recommandation part 3.pptx
Introduction aux systèmes  de recommandation part 3.pptxIntroduction aux systèmes  de recommandation part 3.pptx
Introduction aux systèmes de recommandation part 3.pptx
 
Introduction aux systèmes de recommandation part 2.pptx
Introduction aux systèmes  de recommandation part 2.pptxIntroduction aux systèmes  de recommandation part 2.pptx
Introduction aux systèmes de recommandation part 2.pptx
 
Introduction aux systèmes de recommandation.pptx
Introduction aux systèmes  de recommandation.pptxIntroduction aux systèmes  de recommandation.pptx
Introduction aux systèmes de recommandation.pptx
 

Bidirectional Encoder Representations from Transformers

  • 1. Mini Projet du Data Warehouse 1 ANALYSE MOVIE RATINGS DATA USING DATA WAREHOUSE USING Encadré par: Mr. EL ALLALI Naoufal Réalisée par: EL MIRI Soukaina BABZINE Bahija GHAZLI Nassima
  • 2. PLAN DE TRAVAIL 2 Introduction Dataset(MovieLens) Power BI Conception Outils ETL Analyse et visualision python
  • 4. 4
  • 7. 7 Avantage cloud datawarehousing Évolutivité facile Haute disponibilité et performance Sécurité renforcée Mises à jour et améliorations automatiques Efficacité et rapidité
  • 9. 9 MovieLens est un ensemble de données de recommandation de films largement utilisé dans la recherche sur l'apprentissage automatique et la science des données.  Il contient des évaluations de films fournies par des utilisateurs du site MovieLens. Les versions MovieLens latest-small 100K 1M 20M 25M "25m": Il s'agit de la dernière version stable de l'ensemble de données MovieLens.
  • 10. 10 movie ratings tags MovieLens contient environ 25 millions d'évaluations de films sur 62 423 films. Contient les évaluations de films fournies par les utilisateurs userId, movieId, rating timestamp 25000095 Représente des informations sur les films movieId, title, genres 62423 Stocke les tags associés aux films par les utilisateurs userId, movieId, tag , Timestamp 1093360
  • 11. 11 MovieLens contient environ 25 millions d'évaluations de films sur 62 423 films. links Genome- scores Genome- tags Contient des Ids permettant de relier Dataset à d'autres sources externes d'informations sur les films movieId ,imdbld,tmdbId 62423 Contient les scores de pertinence de différentes caractéristiques ("tags") pour chaque film movieId, tagId, relevance 15584448 Contient les tags génériques tagId, Tag 1128
  • 15. 15 Concevoir et mettre en œuvre un schéma d'entrepôt de données pour stocker les données de rating des films. Snowflake  les tables de dimensions sont normalisées en plusieurs tables connectées par des relations, ce qui crée une structure en flocon de neige Star  la table de faits est au centre de l'étoile et est connectée à des tables de dimensions  Les tables de dimensions sont connectées entre elles pour former des branches de l'étoile Vs
  • 16. 16 Schéma d'entrepôt de données: Snowflake Pour les données de rating film: Un shéma flocon d neige le schéma en flocon est plus adapté pour stocker des données complexes et hiérarchiques, avec des relations plus complexes entre les tables
  • 17. 17 Schéma d'entrepôt de données: Snowflake Les avantages à utiliser un schéma en flocon plutôt qu'un schéma en étoile Gestion de la hiérarchie Flexibilité Normalisation Évolutivité
  • 18. 18 Schéma d'entrepôt de données: Snowflake Cloud Snowflake est une plateforme de data warehousing cloud qui permet de stocker, gérer et analyser des données à grande échelle.
  • 19. 19 Schéma d'entrepôt de données: Snowflake Cloud  Installé localement sur un ordinateur  Fonctionner sur un seul serveur  N'a pas la même capacité de traitement de données en temps réel.  Service de data warehouse dans le cloud  Optimisé pour le traitement parallèle et distribué  Permet d'avoir des données à jour en temps réel pour les rapports et les analyses  La sécurité 19
  • 20. 20 Schéma d'entrepôt de données: Snowflake Cloud Snowflake est une plateforme de data warehousing cloud qui permet de stocker, gérer et analyser des données à grande échelle.
  • 21. 21 Schéma d'entrepôt de données: Snowflake Cloud
  • 22. 22 Schéma d'entrepôt de données: Snowflake Cloud
  • 23. 23 Schéma d'entrepôt de données: Snowflake Cloud
  • 24. 24 Schéma d'entrepôt de données: Configuration de l’environnement SNOWFLAKE_ACCOUNT SCHEMA DATABASE TABLES NAMESPACE
  • 25. 25 Schéma d'entrepôt de données: Configuration de l’environnement
  • 26. 26 Schéma d'entrepôt de données: Configuration de l’environnement
  • 27. 27 Schéma d'entrepôt de données: Configuration de l’environnement
  • 28. 28 Schéma d'entrepôt de données: Configuration de l’environnement
  • 29. 29 Schéma d'entrepôt de données: Configuration de l’environnement
  • 30. 30 Schéma d'entrepôt de données: Configuration de l’environnement
  • 31. 31 Schéma d'entrepôt de données: Configuration de l’environnement
  • 32. 32 Schéma d'entrepôt de données: Configuration de l’environnement
  • 33. 33 Schéma d'entrepôt de données: Configuration de l’environnement
  • 34. 34 Schéma d'entrepôt de données: Configuration de l’environnement
  • 35. 35 Schéma d'entrepôt de données: Configuration de l’environnement
  • 36. 36 Schéma d'entrepôt de données: Configuration de l’environnement
  • 37. 37 Schéma d'entrepôt de données: Configuration de l’environnement
  • 38. 38 Schéma d'entrepôt de données: Configuration de l’environnement
  • 39. 39 Schéma d'entrepôt de données: Configuration de l’environnement
  • 41. 41 Python Python est le langage de programmation open source le plus employé par les informaticiens. Ce langage s’est propulsé en tête de la gestion d’infrastructure, d’analyse de données ou dans le domaine du développement de logiciels. Et aussi utilisé pour implémenter de nombreux types de processus ETL (Extract, Transform, Load)
  • 43. 43 1 Fichiers Plats L'extraction de données est le processus de récupération des données à partir des sources des données diverse telle que : EXTRACTION DES DONNEES
  • 44. 44 2 Bases de Données Relationnelles EXTRACTION DES DONNEES L'extraction de données est le processus de récupération des données à partir des sources des données diverse telle que :
  • 45. 45 3 Systèmes de Fichiers Distribués EXTRACTION DES DONNEES L'extraction de données est le processus de récupération des données à partir des sources des données diverse telle que :
  • 46. 46 La transformation des données se réfère au processus de modification ou de conversion des données d'une forme à une autre, souvent dans le but de les rendre plus utiles ou plus faciles à utiliser pour une analyse ultérieure. Les tâches de transformation de données courantes peuvent inclure: Nettoyage des Données Normalisation des Données Fusion Des Données Agrégation des Données TRANSFORMATION DES DONNEES
  • 47. 47 Le chargement des données est le processus de transfert de données d'une source vers une destination, souvent dans le but de les stocker ou de les utiliser ultérieurement On peut charger les données transformées dans diverses destinations telles que : CHARGEMENT DES DONNEES
  • 48. EXTRACTION DES DONNEES EN PYTHON 48 Python dispose des bibliothèques et des modules pour extraire des données de diverses sources telle que: Pandas SQL Alchemy BeautifulSoup Requests
  • 49. TRANSFORMATION DES DONNEES EN PYTHON 49 Python dispose des bibliothèques et des modules pour transformer des données de diverses sources telle que:
  • 50. CHARGEMENT DES DONNEES EN PYTHON 50 Python dispose des bibliothèques et des modules pour charger des données de diverses sources telle que: Boto 3 SQL Alchemy S3fs Py mongo
  • 51. 51 PETL PETL(Python Extract Transform Load) est une bibliothèque Python open-source pour le traitement de données ETL. Elle offre des fonctionnalités pour extraire des données à partir des différentes sources telles que des fichiers CSV, JSon, bases de données relationnelles, des services web, etc., les transformer et les charger dans des destinations telles que des bases de données, des fichiers plats, etc.
  • 52. 52 AVANTAGE DE PETL Flexibilité Petl est conçu pour travailler avec différents types de sources de données, (CSV, les bases de données relationnelles, données semi-structurés. Haute performance Petl est optimisé pour le traitement de gros volumes de données, ce qui lui permet de traiter rapidement des données massives. Open source Petl est une bibliothèque open source, gratuite et facile à installer. Modularité Petl permet de chaîner facilement des opérations de transformation pour créer des pipelines de traitement de données personnalisés. Facilité d'utilisation Petl est très simple à utiliser. Elle est également plus légère et moins complexe que Pandas, ce qui facilite la manipulation de grands volumes de données. 2 1 5 4 3
  • 53. 53 FONCTIONNEMENT DE PETL L’interface utilisateur de petl est basée sur la chaîne de traitement de données (pipeline), qui permet de connecter facilement des opérations de transformation et de manipulation de données pour créer des workflows personnalisés. Le flux de travail de Petl se compose de plusieurs étapes clés : Une fois que les données ont été transformées, elles peuvent être chargées dans différentes destinations, telles que des bases de données, des fichiers CSV,des fichiers JSON, etc. Petl offre une grande variété d'opérations de transformation de données, telles que la sélection de colonnes, le filtrage de données, le tri de données, l'agrégation, le renommage, la fusion, etc. Petl permet d'extraire des données à partir de différentes sources, telles que des fichiers CSV, des bases de données relationnelles, des fichiers Excel, des fichiers JSON, etc. Chargement Extraction Transformation
  • 54. PETL && PANDAS 54 Pandas et Petl sont deux bibliothèques Python pour la manipulation de données, mais ils ont des objectifs différents. Pandas est conçu pour l'analyse de données et Petl est conçu pour l'extraction, la transformation et le chargement de données (ETL).
  • 55. 55 PANDAS VS PETL 04 Performances Pandas est optimisé pour le traitement de données en mémoire plus rapide que Petl pour les opérations sur les données en mémoire. Petl est conçu pour manipuler des données de grande taille et peut être plus performant que Pandas pour les opérations qui nécessitent des lectures et écritures de données sur des sources de données externes. 02 Performances Pandas offre des capacités plus avancées pour l'analyse de données, telles que l'agrégation de données, la visualisation de données, etc. Petl, en revanche, offre des capacités plus avancées pour la transformation de données, tels que la fusion de données et la gestion des sources de données externes. 01 Objectifs Pandas est conçu pour l'analyse de données, Petl pour l'extraction, la transformation et le chargement de données (ETL).
  • 57. ANALYSE & VISUALISATION DES DONNEES 57 L'analyse et la visualisation des données ont plusieurs avantages les plus importants est : Compréhension des données Prise de décision éclairée 01 01 01 01 Amélioration de la communication Détection des erreurs
  • 58. Power BI: Création des rapports et des tableaux de bord 58 7
  • 59. 59 Power BI est une solution de Business Intelligence (BI) proposée par Microsoft, qui permet de collecter, transformer, analyser et visualiser des données. Power BI est principalement conçu pour les utilisateurs non techniques qui ont besoin de visualiser des données sans avoir à écrire de code.
  • 60. 60 Le dataset MovieLens contient des données sur des évaluations de films faites par des utilisateurs. Analyser et visualiser ces données avec Power BI peut permettre d'obtenir plusieurs insights intéressants • Compréhension des préférences des utilisateurs • Analyse de la popularité des films • Identification des utilisateurs les plus actifs • Détection des tendances
  • 61. 61 L'analyse et la visualisation des données du dataset MovieLens avec Power BI peuvent aider les entreprises et les organisations à mieux comprendre les tendances et les préférences du marché et ainsi à adapter leur stratégie en conséquence.
  • 62. 62
  • 63. 63
  • 64. Mini Projet du Data Warehouse 64 ANALYSE MOVIE RATINGS DATA USING DATA WAREHOUSE USING Encadré par: Mr. EL ALLALI Naoufal Réalisée par: EL MIRI Soukaina BABZINE Bahija GHAZLI Nassima

Notes de l'éditeur

  1. Un data warehouse est une base de données conçue pour stocker de grandes quantités de données provenant de diverses sources, pour permettre une analyse efficace et des rapports en temps réel
  2. Le cloud computing, quant à lui, fait référence à l'utilisation de ressources informatiques à distance, via Internet, plutôt que de les stocker ou de les exécuter localement
  3. En combinant ces deux technologies, il est possible de créer des data warehouses dans le cloud, également connus sous le nom de "cloud data warehouses".
  4. En combinant ces deux technologies, il est possible de créer des data warehouses dans le cloud, également connus sous le nom de "cloud data warehouses".
  5. En combinant ces deux technologies, il est possible de créer des data warehouses dans le cloud, également connus sous le nom de "cloud data warehouses".
  6. En combinant ces deux technologies, il est possible de créer des data warehouses dans le cloud, également connus sous le nom de "cloud data warehouses".
  7. En combinant ces deux technologies, il est possible de créer des data warehouses dans le cloud, également connus sous le nom de "cloud data warehouses".
  8. Les avantages à utiliser un schéma en flocon plutôt qu'un schéma en étoile pour stocker les données de rating des films Il y a plusieurs avantages à utiliser un schéma en flocon plutôt qu'un schéma en étoile pour stocker les données de rating des films : Normalisation : Le schéma en flocon permet une plus grande normalisation des données, ce qui réduit les redondances et la taille de la base de données, améliorant ainsi les performances et l'efficacité. Flexibilité : Le schéma en flocon est plus flexible que le schéma en étoile, ce qui facilite les modifications de la structure de la base de données sans affecter les autres parties du système. Gestion de la hiérarchie : Le schéma en flocon permet une meilleure gestion de la hiérarchie des données, ce qui facilite la création de rapports complexes. Évolutivité : Le schéma en flocon est plus évolutif que le schéma en étoile, car il permet d'ajouter facilement de nouvelles tables et de nouvelles relations sans perturber le schéma existant.
  9. MSSM VS Plateforme Snowflake
  10. Parler de la création d’un compte: et le choix des drivers …. Et l’activation du compte
  11. Une fois créer le comptre, on commence par la connexion
  12. Une fois créer le comptre, on commence par la connexion
  13. Une fois créer le comptre, on commence par la connexion
  14.   Pour organiser le travaille 
  15.   Pour organiser le travaille 
  16.   Pour organiser le travaille 
  17.   Pour organiser le travaille 
  18.   Pour organiser le travaille 
  19.   Pour organiser le travaille 
  20.   Pour organiser le travaille 
  21.   Pour organiser le travaille 
  22.   Pour organiser le travaille 
  23.   Pour organiser le travaille 
  24.   Pour organiser le travaille 
  25.   Pour organiser le travaille 
  26.   Pour organiser le travaille 
  27.   Pour organiser le travaille 
  28.   Pour organiser le travaille 
  29.   Pour organiser le travaille 
  30. C’est la page d’entrée ou principale de notre DSPS, où vous pouvez vous identifier comme un responsable (professeur, responsable de la scolarité, recruteur…), un étudiant(e), ou bien un administrateur. :
  31. Extraction des données peut ce fait de diverses sources telles que :
  32. Extraction des données peut ce fait de diverses sources telles que :
  33. Extraction des données peut ce fait de diverses sources telles que :
  34. Extraction des données peut ce fait de diverses sources telles que :
  35. Extraction des données peut ce fait de diverses sources telles que :
  36. Grâce à une interface Web, le professeur ou responsable de scolarité peut simplement s’inscrire au système DSPS en remplissant un formulaire et ainsi être enregistré dans la base de données du système.
  37. Grâce à une interface Web, le professeur ou responsable de scolarité peut simplement s’inscrire au système DSPS en remplissant un formulaire et ainsi être enregistré dans la base de données du système.
  38. Grâce à une interface Web, le professeur ou responsable de scolarité peut simplement s’inscrire au système DSPS en remplissant un formulaire et ainsi être enregistré dans la base de données du système.
  39. Grâce à une interface Web, le professeur ou responsable de scolarité peut simplement s’inscrire au système DSPS en remplissant un formulaire et ainsi être enregistré dans la base de données du système.
  40. la plupart des données scolaires sont stockées dans différentes institutions (primaire, collège, lycée, université...).ce qui entraîne leur dispersion. Et cela rend difficile pour les étudiants d’acquérir tous leurs dossiers scolaires auprès des diverses institutions dans lequel ils ont étudiée
  41. Compréhension des données : L'analyse et la visualisation des données permettent de mieux comprendre les données et de découvrir des tendances, des schémas et des relations cachées dans les données. Cela peut aider les entreprises à prendre des décisions plus éclairées et à identifier des opportunités pour améliorer leur efficacité et leur rentabilité. Prise de décision éclairée : Les analyses et les visualisations de données permettent aux décideurs de prendre des décisions plus éclairées en se basant sur des données plutôt que sur des suppositions ou des conjectures. Cela peut aider à réduire les risques, à améliorer l'efficacité et à maximiser la rentabilité. Amélioration de la communication : Les visualisations de données permettent de communiquer des idées et des informations de manière plus efficace que les tableaux de données ou les présentations textuelles. Les graphiques et les diagrammes peuvent aider à transmettre des informations complexes de manière simple et facile à comprendre pour un public varié. Détection des erreurs : L'analyse des données peut aider à détecter des erreurs ou des incohérences dans les données, ce qui peut aider à corriger les problèmes avant qu'ils ne deviennent plus importants.