Bidirectional Encoder Representations from Transformers
1. Mini Projet du Data Warehouse
1
ANALYSE MOVIE RATINGS DATA USING
DATA WAREHOUSE
USING
Encadré par:
Mr. EL ALLALI Naoufal
Réalisée par:
EL MIRI Soukaina
BABZINE Bahija
GHAZLI Nassima
9. 9
MovieLens est un ensemble de données de recommandation de films largement utilisé
dans la recherche sur l'apprentissage automatique et la science des données.
Il contient des évaluations de films fournies par des utilisateurs du site MovieLens.
Les versions MovieLens
latest-small 100K 1M 20M 25M
"25m": Il s'agit de la dernière version stable de l'ensemble de données MovieLens.
10. 10
movie ratings tags
MovieLens contient environ 25 millions d'évaluations de films sur 62 423 films.
Contient les
évaluations de films
fournies par les
utilisateurs
userId, movieId, rating
timestamp
25000095
Représente des
informations sur les
films
movieId, title, genres
62423
Stocke les tags
associés aux films par
les utilisateurs
userId, movieId, tag ,
Timestamp
1093360
11. 11
MovieLens contient environ 25 millions d'évaluations de films sur 62 423 films.
links
Genome-
scores
Genome-
tags
Contient des Ids
permettant de relier
Dataset à d'autres
sources externes
d'informations sur les
films
movieId ,imdbld,tmdbId
62423
Contient les scores de
pertinence de
différentes
caractéristiques
("tags") pour chaque
film
movieId, tagId, relevance
15584448
Contient les tags
génériques
tagId, Tag
1128
15. 15
Concevoir et mettre en œuvre un schéma d'entrepôt de données pour stocker les
données de rating des films.
Snowflake
les tables de dimensions sont
normalisées en plusieurs tables
connectées par des relations, ce qui
crée une structure en flocon de neige
Star
la table de faits est au centre de l'étoile
et est connectée à des tables de
dimensions
Les tables de dimensions sont
connectées entre elles pour former des
branches de l'étoile
Vs
16. 16
Schéma d'entrepôt de données: Snowflake
Pour les données de rating film:
Un shéma flocon d neige
le schéma en flocon est plus
adapté pour stocker des données
complexes et hiérarchiques, avec
des relations plus complexes
entre les tables
17. 17
Schéma d'entrepôt de données: Snowflake
Les avantages à
utiliser un schéma
en flocon plutôt
qu'un schéma en
étoile
Gestion de la
hiérarchie
Flexibilité
Normalisation
Évolutivité
18. 18
Schéma d'entrepôt de données: Snowflake Cloud
Snowflake est une plateforme de data warehousing cloud qui permet de stocker, gérer et analyser des
données à grande échelle.
19. 19
Schéma d'entrepôt de données: Snowflake Cloud
Installé localement sur un ordinateur
Fonctionner sur un seul serveur
N'a pas la même capacité de traitement de
données en temps réel.
Service de data warehouse dans le cloud
Optimisé pour le traitement parallèle et distribué
Permet d'avoir des données à jour en temps réel
pour les rapports et les analyses
La sécurité
19
20. 20
Schéma d'entrepôt de données: Snowflake Cloud
Snowflake est une plateforme de data warehousing cloud qui permet de stocker, gérer et analyser des
données à grande échelle.
41. 41
Python
Python est le langage de programmation open source le plus
employé par les informaticiens. Ce langage s’est propulsé en tête
de la gestion d’infrastructure, d’analyse de données ou dans le
domaine du développement de logiciels.
Et aussi utilisé pour implémenter de nombreux types de processus
ETL (Extract, Transform, Load)
43. 43
1 Fichiers Plats
L'extraction de données est le processus de récupération des données à partir des sources des données
diverse telle que :
EXTRACTION
DES DONNEES
44. 44
2 Bases de Données Relationnelles
EXTRACTION
DES DONNEES
L'extraction de données est le processus de récupération des données à partir des sources des données
diverse telle que :
45. 45
3 Systèmes de Fichiers Distribués
EXTRACTION
DES DONNEES
L'extraction de données est le processus de récupération des données à partir des sources des données
diverse telle que :
46. 46
La transformation des données se réfère au processus de modification ou de conversion des données d'une forme à
une autre, souvent dans le but de les rendre plus utiles ou plus faciles à utiliser pour une analyse ultérieure.
Les tâches de transformation de données courantes peuvent inclure:
Nettoyage
des Données
Normalisation
des Données
Fusion
Des Données
Agrégation
des Données
TRANSFORMATION
DES DONNEES
47. 47
Le chargement des données est le processus de transfert de données d'une source vers une destination, souvent
dans le but de les stocker ou de les utiliser ultérieurement
On peut charger les données transformées dans diverses destinations telles que :
CHARGEMENT
DES DONNEES
48. EXTRACTION DES DONNEES EN PYTHON
48
Python dispose des bibliothèques et des modules pour extraire des données de diverses sources telle
que:
Pandas
SQL Alchemy
BeautifulSoup
Requests
49. TRANSFORMATION DES DONNEES EN PYTHON
49
Python dispose des bibliothèques et des modules pour transformer des données de diverses sources
telle que:
50. CHARGEMENT DES DONNEES EN PYTHON
50
Python dispose des bibliothèques et des modules pour charger des données de diverses sources telle
que:
Boto 3
SQL Alchemy
S3fs
Py
mongo
51. 51
PETL
PETL(Python Extract Transform Load) est une bibliothèque Python open-source pour le traitement de
données ETL.
Elle offre des fonctionnalités pour extraire des données à partir des différentes sources telles que des
fichiers CSV, JSon, bases de données relationnelles, des services web, etc., les transformer et les charger
dans des destinations telles que des bases de données, des fichiers plats, etc.
52. 52
AVANTAGE DE PETL Flexibilité
Petl est conçu pour travailler avec différents
types de sources de données, (CSV, les
bases de données relationnelles, données
semi-structurés.
Haute performance
Petl est optimisé pour le traitement
de gros volumes de données, ce qui
lui permet de traiter rapidement des
données massives.
Open source
Petl est une bibliothèque open source,
gratuite et facile à installer.
Modularité
Petl permet de chaîner facilement des
opérations de transformation pour
créer des pipelines de traitement de
données personnalisés.
Facilité d'utilisation
Petl est très simple à utiliser. Elle est
également plus légère et moins
complexe que Pandas, ce qui facilite la
manipulation de grands volumes de
données.
2
1 5
4
3
53. 53
FONCTIONNEMENT DE PETL
L’interface utilisateur de petl est basée sur la chaîne de traitement de données (pipeline), qui permet de connecter
facilement des opérations de transformation et de manipulation de données pour créer des workflows personnalisés.
Le flux de travail de Petl se compose de plusieurs étapes clés :
Une fois que les données ont été
transformées, elles peuvent être
chargées dans différentes
destinations, telles que des bases
de données, des fichiers CSV,des
fichiers JSON, etc.
Petl offre une grande variété
d'opérations de transformation de
données, telles que la sélection de
colonnes, le filtrage de données, le tri
de données, l'agrégation, le
renommage, la fusion, etc.
Petl permet d'extraire des
données à partir de différentes
sources, telles que des fichiers
CSV, des bases de données
relationnelles, des fichiers Excel,
des fichiers JSON, etc.
Chargement
Extraction Transformation
54. PETL && PANDAS
54
Pandas et Petl sont deux bibliothèques Python pour la
manipulation de données, mais ils ont des objectifs
différents. Pandas est conçu pour l'analyse de données et
Petl est conçu pour l'extraction, la transformation et le
chargement de données (ETL).
55. 55
PANDAS VS PETL
04
Performances
Pandas est optimisé pour le traitement de données en
mémoire plus rapide que Petl pour les opérations sur les
données en mémoire.
Petl est conçu pour manipuler des données de grande taille et
peut être plus performant que Pandas pour les opérations qui
nécessitent des lectures et écritures de données sur des
sources de données externes.
02
Performances
Pandas offre des capacités plus avancées pour
l'analyse de données, telles que l'agrégation de
données, la visualisation de données, etc.
Petl, en revanche, offre des capacités plus
avancées pour la transformation de données, tels
que la fusion de données et la gestion des sources
de données externes.
01
Objectifs
Pandas est conçu pour
l'analyse de données,
Petl pour l'extraction, la
transformation et le
chargement de données
(ETL).
57. ANALYSE & VISUALISATION DES DONNEES
57
L'analyse et la visualisation des données ont plusieurs avantages les plus importants est :
Compréhension des données
Prise de décision éclairée
01
01
01
01
Amélioration de la communication
Détection des erreurs
59. 59
Power BI est une solution de Business Intelligence (BI) proposée par
Microsoft, qui permet de collecter, transformer, analyser et visualiser des
données.
Power BI est principalement conçu pour les utilisateurs non techniques
qui ont besoin de visualiser des données sans avoir à écrire de code.
60. 60
Le dataset MovieLens contient des données sur des évaluations de films faites par des utilisateurs.
Analyser et visualiser ces données avec Power BI
peut permettre d'obtenir plusieurs insights intéressants
• Compréhension des préférences des utilisateurs
• Analyse de la popularité des films
• Identification des utilisateurs les plus actifs
• Détection des tendances
61. 61
L'analyse et la visualisation des données du dataset
MovieLens avec Power BI peuvent aider les entreprises
et les organisations à mieux comprendre les tendances et
les préférences du marché et ainsi à adapter leur
stratégie en conséquence.
64. Mini Projet du Data Warehouse
64
ANALYSE MOVIE RATINGS DATA USING
DATA WAREHOUSE
USING
Encadré par:
Mr. EL ALLALI Naoufal
Réalisée par:
EL MIRI Soukaina
BABZINE Bahija
GHAZLI Nassima
Notes de l'éditeur
Un data warehouse est une base de données conçue pour stocker de grandes quantités de données provenant de diverses sources, pour permettre une analyse efficace et des rapports en temps réel
Le cloud computing, quant à lui, fait référence à l'utilisation de ressources informatiques à distance, via Internet, plutôt que de les stocker ou de les exécuter localement
En combinant ces deux technologies, il est possible de créer des data warehouses dans le cloud, également connus sous le nom de "cloud data warehouses".
En combinant ces deux technologies, il est possible de créer des data warehouses dans le cloud, également connus sous le nom de "cloud data warehouses".
En combinant ces deux technologies, il est possible de créer des data warehouses dans le cloud, également connus sous le nom de "cloud data warehouses".
En combinant ces deux technologies, il est possible de créer des data warehouses dans le cloud, également connus sous le nom de "cloud data warehouses".
En combinant ces deux technologies, il est possible de créer des data warehouses dans le cloud, également connus sous le nom de "cloud data warehouses".
Les avantages à utiliser un schéma en flocon plutôt qu'un schéma en étoile pour stocker les données de rating des films
Il y a plusieurs avantages à utiliser un schéma en flocon plutôt qu'un schéma en étoile pour stocker les données de rating des films :
Normalisation : Le schéma en flocon permet une plus grande normalisation des données, ce qui réduit les redondances et la taille de la base de données, améliorant ainsi les performances et l'efficacité.
Flexibilité : Le schéma en flocon est plus flexible que le schéma en étoile, ce qui facilite les modifications de la structure de la base de données sans affecter les autres parties du système.
Gestion de la hiérarchie : Le schéma en flocon permet une meilleure gestion de la hiérarchie des données, ce qui facilite la création de rapports complexes.
Évolutivité : Le schéma en flocon est plus évolutif que le schéma en étoile, car il permet d'ajouter facilement de nouvelles tables et de nouvelles relations sans perturber le schéma existant.
MSSM
VS
Plateforme Snowflake
Parler de la création d’un compte: et le choix des drivers …. Et l’activation du compte
Une fois créer le comptre, on commence par la connexion
Une fois créer le comptre, on commence par la connexion
Une fois créer le comptre, on commence par la connexion
Pour organiser le travaille
Pour organiser le travaille
Pour organiser le travaille
Pour organiser le travaille
Pour organiser le travaille
Pour organiser le travaille
Pour organiser le travaille
Pour organiser le travaille
Pour organiser le travaille
Pour organiser le travaille
Pour organiser le travaille
Pour organiser le travaille
Pour organiser le travaille
Pour organiser le travaille
Pour organiser le travaille
Pour organiser le travaille
C’est la page d’entrée ou principale de notre DSPS, où vous pouvez vous identifier comme un responsable (professeur, responsable de la scolarité, recruteur…), un étudiant(e), ou bien un administrateur. :
Extraction des données peut ce fait de diverses sources telles que :
Extraction des données peut ce fait de diverses sources telles que :
Extraction des données peut ce fait de diverses sources telles que :
Extraction des données peut ce fait de diverses sources telles que :
Extraction des données peut ce fait de diverses sources telles que :
Grâce à une interface Web, le professeur ou responsable de scolarité peut simplement s’inscrire au système DSPS en remplissant un formulaire et ainsi être enregistré dans la base de données du système.
Grâce à une interface Web, le professeur ou responsable de scolarité peut simplement s’inscrire au système DSPS en remplissant un formulaire et ainsi être enregistré dans la base de données du système.
Grâce à une interface Web, le professeur ou responsable de scolarité peut simplement s’inscrire au système DSPS en remplissant un formulaire et ainsi être enregistré dans la base de données du système.
Grâce à une interface Web, le professeur ou responsable de scolarité peut simplement s’inscrire au système DSPS en remplissant un formulaire et ainsi être enregistré dans la base de données du système.
la plupart des données scolaires sont stockées dans différentes institutions (primaire, collège, lycée, université...).ce qui entraîne leur dispersion. Et cela rend difficile pour les étudiants d’acquérir tous leurs dossiers scolaires auprès des diverses institutions dans lequel ils ont étudiée
Compréhension des données : L'analyse et la visualisation des données permettent de mieux comprendre les données et de découvrir des tendances, des schémas et des relations cachées dans les données. Cela peut aider les entreprises à prendre des décisions plus éclairées et à identifier des opportunités pour améliorer leur efficacité et leur rentabilité.
Prise de décision éclairée : Les analyses et les visualisations de données permettent aux décideurs de prendre des décisions plus éclairées en se basant sur des données plutôt que sur des suppositions ou des conjectures. Cela peut aider à réduire les risques, à améliorer l'efficacité et à maximiser la rentabilité.
Amélioration de la communication : Les visualisations de données permettent de communiquer des idées et des informations de manière plus efficace que les tableaux de données ou les présentations textuelles. Les graphiques et les diagrammes peuvent aider à transmettre des informations complexes de manière simple et facile à comprendre pour un public varié.
Détection des erreurs : L'analyse des données peut aider à détecter des erreurs ou des incohérences dans les données, ce qui peut aider à corriger les problèmes avant qu'ils ne deviennent plus importants.