Bidirectional Encoder Representations from Transformers

Mini Projet du Data Warehouse
1
ANALYSE MOVIE RATINGS DATA USING
DATA WAREHOUSE
USING
Encadré par:
Mr. EL ALLALI Naoufal
Réalisée par:
EL MIRI Soukaina
BABZINE Bahija
GHAZLI Nassima

PLAN DE TRAVAIL
2
Introduction
Dataset(MovieLens)
Power BI
Conception
Outils
ETL
Analyse et visualision python

7
Avantage cloud datawarehousing
Évolutivité facile
Haute disponibilité et performance
Sécurité renforcée
Mises à jour et améliorations automatiques
Efficacité et rapidité

9
MovieLens est un ensemble de données de recommandation de films largement utilisé
dans la recherche sur l'apprentissage automatique et la science des données.
 Il contient des évaluations de films fournies par des utilisateurs du site MovieLens.
Les versions MovieLens
latest-small 100K 1M 20M 25M
"25m": Il s'agit de la dernière version stable de l'ensemble de données MovieLens.

10
movie ratings tags
MovieLens contient environ 25 millions d'évaluations de films sur 62 423 films.
Contient les
évaluations de films
fournies par les
utilisateurs
userId, movieId, rating
timestamp
25000095
Représente des
informations sur les
films
movieId, title, genres
62423
Stocke les tags
associés aux films par
les utilisateurs
userId, movieId, tag ,
Timestamp
1093360

11
MovieLens contient environ 25 millions d'évaluations de films sur 62 423 films.
links
Genome-
scores
Genome-
tags
Contient des Ids
permettant de relier
Dataset à d'autres
sources externes
d'informations sur les
films
movieId ,imdbld,tmdbId
62423
Contient les scores de
pertinence de
différentes
caractéristiques
("tags") pour chaque
film
movieId, tagId, relevance
15584448
Contient les tags
génériques
tagId, Tag
1128

15
Concevoir et mettre en œuvre un schéma d'entrepôt de données pour stocker les
données de rating des films.
Snowflake
 les tables de dimensions sont
normalisées en plusieurs tables
connectées par des relations, ce qui
crée une structure en flocon de neige
Star
 la table de faits est au centre de l'étoile
et est connectée à des tables de
dimensions
 Les tables de dimensions sont
connectées entre elles pour former des
branches de l'étoile
Vs

16
Schéma d'entrepôt de données: Snowflake
Pour les données de rating film:
Un shéma flocon d neige
le schéma en flocon est plus
adapté pour stocker des données
complexes et hiérarchiques, avec
des relations plus complexes
entre les tables

17
Schéma d'entrepôt de données: Snowflake
Les avantages à
utiliser un schéma
en flocon plutôt
qu'un schéma en
étoile
Gestion de la
hiérarchie
Flexibilité
Normalisation
Évolutivité

18
Schéma d'entrepôt de données: Snowflake Cloud
Snowflake est une plateforme de data warehousing cloud qui permet de stocker, gérer et analyser des
données à grande échelle.

19
 Installé localement sur un ordinateur
 Fonctionner sur un seul serveur
 N'a pas la même capacité de traitement de
données en temps réel.
 Service de data warehouse dans le cloud
 Optimisé pour le traitement parallèle et distribué
 Permet d'avoir des données à jour en temps réel
pour les rapports et les analyses
 La sécurité
19

20
Snowflake est une plateforme de data warehousing cloud qui permet de stocker, gérer et analyser des
données à grande échelle.

21

22

23

24
Schéma d'entrepôt de données: Configuration de
l’environnement
SNOWFLAKE_ACCOUNT
SCHEMA
DATABASE
TABLES
NAMESPACE

25
l’environnement

26
l’environnement

27
l’environnement

28
l’environnement

29
l’environnement

30
l’environnement

31
l’environnement

32
l’environnement

33
l’environnement

34
l’environnement

35
l’environnement

36
l’environnement

37
l’environnement

38
l’environnement

39
l’environnement

41
Python
Python est le langage de programmation open source le plus
employé par les informaticiens. Ce langage s’est propulsé en tête
de la gestion d’infrastructure, d’analyse de données ou dans le
domaine du développement de logiciels.
Et aussi utilisé pour implémenter de nombreux types de processus
ETL (Extract, Transform, Load)

43
1 Fichiers Plats
L'extraction de données est le processus de récupération des données à partir des sources des données
diverse telle que :
EXTRACTION
DES DONNEES

44
2 Bases de Données Relationnelles
EXTRACTION
DES DONNEES
diverse telle que :

45
3 Systèmes de Fichiers Distribués
EXTRACTION
DES DONNEES
diverse telle que :

46
La transformation des données se réfère au processus de modification ou de conversion des données d'une forme à
une autre, souvent dans le but de les rendre plus utiles ou plus faciles à utiliser pour une analyse ultérieure.
Les tâches de transformation de données courantes peuvent inclure:
Nettoyage
des Données
Normalisation
des Données
Fusion
Des Données
Agrégation
des Données
TRANSFORMATION
DES DONNEES

47
Le chargement des données est le processus de transfert de données d'une source vers une destination, souvent
dans le but de les stocker ou de les utiliser ultérieurement
On peut charger les données transformées dans diverses destinations telles que :
CHARGEMENT
DES DONNEES

EXTRACTION DES DONNEES EN PYTHON
48
Python dispose des bibliothèques et des modules pour extraire des données de diverses sources telle
que:
Pandas
SQL Alchemy
BeautifulSoup
Requests

TRANSFORMATION DES DONNEES EN PYTHON
49
Python dispose des bibliothèques et des modules pour transformer des données de diverses sources
telle que:

CHARGEMENT DES DONNEES EN PYTHON
50
Python dispose des bibliothèques et des modules pour charger des données de diverses sources telle
que:
Boto 3
SQL Alchemy
S3fs
Py
mongo

51
PETL
PETL(Python Extract Transform Load) est une bibliothèque Python open-source pour le traitement de
données ETL.
Elle offre des fonctionnalités pour extraire des données à partir des différentes sources telles que des
fichiers CSV, JSon, bases de données relationnelles, des services web, etc., les transformer et les charger
dans des destinations telles que des bases de données, des fichiers plats, etc.

52
AVANTAGE DE PETL Flexibilité
Petl est conçu pour travailler avec différents
types de sources de données, (CSV, les
bases de données relationnelles, données
semi-structurés.
Haute performance
Petl est optimisé pour le traitement
de gros volumes de données, ce qui
lui permet de traiter rapidement des
données massives.
Open source
Petl est une bibliothèque open source,
gratuite et facile à installer.
Modularité
Petl permet de chaîner facilement des
opérations de transformation pour
créer des pipelines de traitement de
données personnalisés.
Facilité d'utilisation
Petl est très simple à utiliser. Elle est
également plus légère et moins
complexe que Pandas, ce qui facilite la
manipulation de grands volumes de
données.
2
1 5
4
3

53
FONCTIONNEMENT DE PETL
L’interface utilisateur de petl est basée sur la chaîne de traitement de données (pipeline), qui permet de connecter
facilement des opérations de transformation et de manipulation de données pour créer des workflows personnalisés.
Le flux de travail de Petl se compose de plusieurs étapes clés :
Une fois que les données ont été
transformées, elles peuvent être
chargées dans différentes
destinations, telles que des bases
de données, des fichiers CSV,des
fichiers JSON, etc.
Petl offre une grande variété
d'opérations de transformation de
données, telles que la sélection de
colonnes, le filtrage de données, le tri
de données, l'agrégation, le
renommage, la fusion, etc.
Petl permet d'extraire des
données à partir de différentes
sources, telles que des fichiers
CSV, des bases de données
relationnelles, des fichiers Excel,
des fichiers JSON, etc.
Chargement
Extraction Transformation

PETL && PANDAS
54
Pandas et Petl sont deux bibliothèques Python pour la
manipulation de données, mais ils ont des objectifs
différents. Pandas est conçu pour l'analyse de données et
Petl est conçu pour l'extraction, la transformation et le
chargement de données (ETL).

55
PANDAS VS PETL
04
Performances
Pandas est optimisé pour le traitement de données en
mémoire plus rapide que Petl pour les opérations sur les
données en mémoire.
Petl est conçu pour manipuler des données de grande taille et
peut être plus performant que Pandas pour les opérations qui
nécessitent des lectures et écritures de données sur des
sources de données externes.
02
Performances
Pandas offre des capacités plus avancées pour
l'analyse de données, telles que l'agrégation de
données, la visualisation de données, etc.
Petl, en revanche, offre des capacités plus
avancées pour la transformation de données, tels
que la fusion de données et la gestion des sources
de données externes.
01
Objectifs
Pandas est conçu pour
l'analyse de données,
Petl pour l'extraction, la
transformation et le
chargement de données
(ETL).

Analyse et Visualisation
Python
56
6

ANALYSE & VISUALISATION DES DONNEES
57
L'analyse et la visualisation des données ont plusieurs avantages les plus importants est :
Compréhension des données
Prise de décision éclairée
01
01
01
01
Amélioration de la communication
Détection des erreurs

Power BI: Création des
rapports et des tableaux
de bord
58
7

59
Power BI est une solution de Business Intelligence (BI) proposée par
Microsoft, qui permet de collecter, transformer, analyser et visualiser des
données.
Power BI est principalement conçu pour les utilisateurs non techniques
qui ont besoin de visualiser des données sans avoir à écrire de code.

60
Le dataset MovieLens contient des données sur des évaluations de films faites par des utilisateurs.
Analyser et visualiser ces données avec Power BI
peut permettre d'obtenir plusieurs insights intéressants
• Compréhension des préférences des utilisateurs
• Analyse de la popularité des films
• Identification des utilisateurs les plus actifs
• Détection des tendances

61
L'analyse et la visualisation des données du dataset
MovieLens avec Power BI peuvent aider les entreprises
et les organisations à mieux comprendre les tendances et
les préférences du marché et ainsi à adapter leur
stratégie en conséquence.

Mini Projet du Data Warehouse
64
ANALYSE MOVIE RATINGS DATA USING
DATA WAREHOUSE
USING
Encadré par:
Mr. EL ALLALI Naoufal
Réalisée par:
EL MIRI Soukaina
BABZINE Bahija
GHAZLI Nassima

Bidirectional Encoder Representations from Transformers

Recommandé

Recommandé

Contenu connexe

Similaire à Bidirectional Encoder Representations from Transformers

Similaire à Bidirectional Encoder Representations from Transformers (20)

Plus de bahija babzine

Plus de bahija babzine (6)

Bidirectional Encoder Representations from Transformers

Notes de l'éditeur