BigData_TP2: Design Patterns dans HadoopLilia Sfaxi
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Alphorm.com Formation ETL Talend Open Studio (1/2) - Les fondamentauxAlphorm
Formation complète ici:
http://www.alphorm.com/tutoriel/formation-en-ligne-etl-talend-open-studio-1-2-les-fondamentaux
Talend Open Studio for Data Integration est un outil libre de type ETL qui permet de traiter les données volumineuses à partir de données en entrée appelées source vers des destinations SGBD ou fichiers (csv, txt, xml …) appelées cibles.
La formation a pour but de vous aider à prendre en main l’ETL Talend Open Studio for Data Integration d’une manière rapide afin que vous soyez autonome.
Vous allez apprendre à gérer les données de différentes sources (Base données, fichiers), les extraire, les manipuler, les transformer et les intégrer à des cibles.
La formation vous permettra de réaliser les tâches de conception, modélisation et de développement des jobs Talend.
BigData_TP2: Design Patterns dans HadoopLilia Sfaxi
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Alphorm.com Formation ETL Talend Open Studio (1/2) - Les fondamentauxAlphorm
Formation complète ici:
http://www.alphorm.com/tutoriel/formation-en-ligne-etl-talend-open-studio-1-2-les-fondamentaux
Talend Open Studio for Data Integration est un outil libre de type ETL qui permet de traiter les données volumineuses à partir de données en entrée appelées source vers des destinations SGBD ou fichiers (csv, txt, xml …) appelées cibles.
La formation a pour but de vous aider à prendre en main l’ETL Talend Open Studio for Data Integration d’une manière rapide afin que vous soyez autonome.
Vous allez apprendre à gérer les données de différentes sources (Base données, fichiers), les extraire, les manipuler, les transformer et les intégrer à des cibles.
La formation vous permettra de réaliser les tâches de conception, modélisation et de développement des jobs Talend.
Bases de Données non relationnelles, NoSQL (Introduction) 1er coursHatim CHAHDI
Ce premier cours introduit les systèmes de stockages NoSQL. L'objectif est d'introduire les alternatives de stockages disponibles et de sensibiliser sur les spécificités de chacun des paradigmes de stockage.
Les BD orientées graphes sont aussi présentées dans la deuxième partie du cours avec une étude du système Neo4j.
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Présentation général des étapes du processus ETL (Extract,Transform, Load) d'un projet décisionnel.
ETL, acronyme de Extraction, Transformation, Loading, est un système de chargement de données depuis les différentes sources d'information de l'entreprise (hétérogènes) jusqu'à l'entrepôt de données (modèles multidimensionnels).
La deuxième partie sur le cours Business Intelligence et Data warehouse.
Si vous avez des questions, des remarques ou des propositions afin d’améliorer le contenu et la qualité de ce cours, n' hésitez pas à me contacter via mon email:
pr.azizdarouichi@gmail.com.
Bonne lecture.
A. DAROUICHI
Bases de Données non relationnelles, NoSQL (Introduction) 1er coursHatim CHAHDI
Ce premier cours introduit les systèmes de stockages NoSQL. L'objectif est d'introduire les alternatives de stockages disponibles et de sensibiliser sur les spécificités de chacun des paradigmes de stockage.
Les BD orientées graphes sont aussi présentées dans la deuxième partie du cours avec une étude du système Neo4j.
Pour accéder aux fichiers nécessaires pour faire ce TP, visitez: https://drive.google.com/folderview?id=0Bz7DokLRQvx7M2JWZEt1VHdwSE0&usp=sharing
Pour plus de contenu, Visitez http://liliasfaxi.wix.com/liliasfaxi !
Présentation général des étapes du processus ETL (Extract,Transform, Load) d'un projet décisionnel.
ETL, acronyme de Extraction, Transformation, Loading, est un système de chargement de données depuis les différentes sources d'information de l'entreprise (hétérogènes) jusqu'à l'entrepôt de données (modèles multidimensionnels).
La deuxième partie sur le cours Business Intelligence et Data warehouse.
Si vous avez des questions, des remarques ou des propositions afin d’améliorer le contenu et la qualité de ce cours, n' hésitez pas à me contacter via mon email:
pr.azizdarouichi@gmail.com.
Bonne lecture.
A. DAROUICHI
ARCHITECTURE MICROSERVICE : TOUR D’HORIZON DU CONCEPT ET BONNES PRATIQUESSOAT
Les systèmes distribués ont largement évolués ces 10 dernières années, passant d’énormes applications monolithiques à de petits containers de services, apportant plus de souplesse et d’agilité au sein des systèmes d’information.
Le terme « Architecture microservice » a vu le jour pour décrire cette manière particulière de concevoir des applications logicielles.
Bien qu’il n’y ait pas de définition précise de ce style d’architecture, elles ont un certain nombre de caractéristiques communes basées autour de l’organisation de l’entreprise, du déploiement automatisé et de la décentralisation du contrôle du langage et des données.
Seulement, développer ces systèmes peut tourner au véritable casse-tête. Je vous propose donc un tour des concepts et différentes caractéristiques de ce type d’architecture, des bonnes et mauvaises pratiques, de la création jusqu’au déploiement des applications.
La formation complète est disponible ici:
http://www.alphorm.com/tutoriel/formation-en-ligne-oracle-database-11g-dba-1-1z0-052
Grâce à cette formation, vous pouvez commencer votre chemin pour devenir l'indispensable DBA Oracle dans votre entreprise.
Durant cette formation, Noureddine DRISSI, vous apprend à installer et gérer une base de données Oracle. Il présente l'architecture et les composants d'une base de données, ainsi que les interactions entre les différents éléments. Il montre comment créer une base opérationnelle et comment gérer correctement et efficacement les différentes structures, notamment via le contrôle des performances, la sécurité, la gestion des utilisateurs et les techniques de sauvegarde/récupération.
A la fin de cette formation vous serez en mesure de passer l'examen Oracle Certified Associate 1Z0-052 Oracle, une certification qui est presque obligatoire sur le marché du travail.
Objectif général : Concevoir une base de données
Objectifs opérationnels :
- Comprendre les différents concepts entourant les BD
- Comprendre les concepts associés aux BD relationnelles
- Établir un dictionnaire de données (DD)
- Structurer les données du DD
- Construire un Modèle Conceptuel des Données (MCD)
- Transformer un MCD en Modèle logique de données (MLD)
- Normaliser un MLD
Ce cours de base de données est présenté en mode diaporama, il est préparé et dédié aux étudiants en 1er cycle spécialité informatique et pour ceux qui s’intéressent à la gestion de la base de données.
Ce cours est réparti comme suit :
La première partie présente une introduction générale sur la base de données.
La deuxième partie est consacrée aux bases de données relationnelles, c'est-à-dire aux bases conçues suivant le modèle relationnel et manipulées en utilisant l'algèbre relationnelle. Il s'agit de la méthode la plus courante pour organiser et accéder à des ensembles de données.
La dernière partie constitue, enfin, une bonne introduction au langage SQL (Structured Query Language) qui peut être considéré comme le langage d'accès normalisé aux bases de données relationnelles.
2. Plan
Introduction
Architecture interne d'Oracle
Gestion des instances
Privilèges et rôle
Profil
Gestion des utilisateurs
Sauvegarde et restauration
Quelques utilitaires
abdellah_madani@yahoo.fr 2
3. Plan
Introduction
Architecture interne d'Oracle
Introduction
Organisation logique
Organisation physique(il existe réellement )
Dictionnaire de données
Notion d'instance
Gestion des instances
Privilèges et rôle
Profil
Gestion des utilisateurs
Sauvegarde et restauration
Quelques utilitaires
abdellah_madani@yahoo.fr 3
6. Introduction (données)
Les données correspondent à :
La structure de la base de données
(structure physique)
La façon dont les données sont stockées
(structure logique)
abdellah_madani@yahoo.fr 6
7. Introduction (données)
La structure physique est composée de
fichiers du système d'exploitation
Data files contenant les données de la BD
Redo log files contient les transactions
validées
Control files où sont stockés les
emplacements des fichiers de la BD
…
abdellah_madani@yahoo.fr 7
8. Introduction (données)
La structure logique indique comment sont
organisés les données
Contient plusieurs éléments :
Schéma objet : objets d'un utilisateur
Tablespaces : regroupement logique de
fichiers
Segments : élément d'un tablespace
…
abdellah_madani@yahoo.fr 8
9. Introduction (mémoires)
Correspond à l'organisation des données en
mémoire centrale
La mémoire est composée de 2 zones :
SGA (System/Shared Global Area) : buffers
alloués par Oracle pour contenir des données
partagées
PGA (Program/Process Global Area) : zones
allouées aux processus utilisateurs qui se
connectent à la base
abdellah_madani@yahoo.fr 9
10. Introduction (processus)
Correspond aux différents processus
qu'Oracle met en œuvre
On distingue :
Processus utilisateur : permet d'établir une
connexion au serveur
Processus serveur : prend en charge les
processus utilisateurs
Processus d'arrière plan : chacun a une tâche
(écriture des données sur disque, gestion de
la mémoire, …)
abdellah_madani@yahoo.fr 10
11. Introduction (remarques)
La mémoire SGA et les processus d'arrière
plan constitue une instance d'Oracle
Les caractéristiques de l'instance sont
contenues dans le fichier de paramètres
associé
abdellah_madani@yahoo.fr 11
12. Organisation logique
La structure logique définit le mode d'utilisation
de l'espace physique d'une base de données
Constituée d'entités manipulables par des
commandes SQL
On peut regrouper ces entités en catégories :
Dictionnaire de données
Schéma objet
Tablespaces
Segments
Extents
Blocks
…
abdellah_madani@yahoo.fr 12
13. Dictionnaire de Données
Ensemble de tables, vues et synonymes
contenant des informations sur la BD (tables,
vues, indexes, utilisateurs, droits, …).
Accessible à l’aide de l’instruction SELECT
Select * from user_tables;
Select * from all_tables;
Select * from dba_users;
Select * from user_constraints where
table_name=‘EMP’;
abdellah_madani@yahoo.fr 13
14. Dictionnaire de Données
Attention : personne ne peut changer le
DD, même le DBA.
Accessible
explicitement par les utilisateurs (select …)
Implicitement par les système :
Si on crée une table, par exemple, le système
ajoute une nouvelle entrée dans la table des
tables (DD)
abdellah_madani@yahoo.fr 14
15. Dictionnaire de données
Les vues du dictionnaire de données sont
de deux types :
Statiques, décrivent les objets statiques :
tablespaces, fichiers physiques, tables,
contraintes, clusters, vues, indexes,
synonymes, procédures, fonctions, packages,
triggers, utilisateurs, droits, rôles, profiles, …
Dynamiques, concernant les ressources
systèmes en cours d'utilisation, les sessions
connectées, les verrous, …
abdellah_madani@yahoo.fr 15
16. Dictionnaire de données
Trois catégories de vues statiques
User_xxx : les objets de l'utilisateur connecté
All_xxx : tous les objets accessibles par l'utilisateur
connecté
DBA_xxx : tous les objets
Vues dynamiques : commencent par V_$ ou V$ (synonymes)
V$Session : informations sur les sessions actuellement
connectées
V$Version : numéro de la version du noyau Oracle
V$Database : informations sur la base de données
V$Lock : verrous actifs et en attentes
V$SGA : taille et composition de la mémoire partagée
V$SQL : ordre SQL en cache
abdellah_madani@yahoo.fr 16
17. Organisation logique (schéma d'objets)
Ensemble d'objets de la base logique appartenant à un même
utilisateur, On distingue :
Table : espace de stockage des données
Index : colonne(s) permettant d'accélérer la recherche
Vue : table virtuelle (requête)
Synonyme : nom alternatif à une table/vue
Séquence : générateur de série de nombre
Cluster : regroupement physique de tables ayant des
colonnes en commun
Database link : lien avec une BD distante
Procédures/fonctions : ensemble d'instructions nommé
Déclencheurs : procédure associée à une table
Packages : collection d'objets stockés ensemble
…
abdellah_madani@yahoo.fr 17
18. Organisation logique (tablespace)
Espace logique contenant les objets
stockés dans une BD.
Différents types
Tablespace de données Données
Tablespace temporaire Opérations de tris
Tablespace d’annulation Annulation
…
abdellah_madani@yahoo.fr 18
19. Organisation logique (tablespace)
SYSTEM : Tablespace crée par défaut,
contient :
Le dictionnaire de données
Rollback segment
On peut également y stocker :
Données
Index
Etc..
abdellah_madani@yahoo.fr 19
22. Organisation logique (segment)
Eléments constitutifs d’un tablespace.
Une table est constituée d’au moins deux
segments :
Data Segment : données d'une table
RollBack Segment : données avant validation
Deux autres segments peuvent apparaître dans
une table
Index Segment : informations des index
Temporary Segment : résultat temporaire d'une
requête PL/SQL
abdellah_madani@yahoo.fr 22
23. Organisation logique (extent et block)
Block
La plus petite unité que peut manipuler le
système
Tous les blocks ont la même taille (voir
DB_BLOCK_SIZE dans le fichier de paramètres)
abdellah_madani@yahoo.fr 23
24. Organisation physique
Une BD est constituée de plusieurs types :
Un ou plusieurs Data Files
Deux ou plusieurs Redo Log Files
Un ou plusieurs Control Files
Un ou plusieurs Init File
Et optionnellement :
Des fichiers d’archivage de journaux
Des fichiers de trace et journal d’alerte
Un fichier de mot de passe
abdellah_madani@yahoo.fr 24
26. Organisation physique
Fichiers installés lors de la création d’une base de données
par défaut d’Oracle 8.05 sur NT
abdellah_madani@yahoo.fr 26
27. DataFile (fichier de données)
Contient l’ensemble des données de la BD
(tables, vues, index, …).
À la création de la BD, au moins un fichier
de données est créé
D'autres fichier peuvent créer pour
répondre aux besoins
Les fichiers sont regroupés logiquement
dans des tablespaces
abdellah_madani@yahoo.fr 27
28. DataFile (fichier de données)
Chaque tablespace est constitué d’un ou
de plusieurs datafile
Create tablespace tbs1
Datafile ‘c:oradata1.dbf’ size 5M
‘d:oradata2.dbf’ size 5M
…
Pour connaître les fichiers de données
Select * from V$DBFILE;
Select * from dba_data_files;
abdellah_madani@yahoo.fr 28
29. DataFile (fichier de données)
Dans les datafiles, seulement les tables sont
des données :
Vues, synonymes et database links sont des
pointeurs sur des données
Index et clusters sont des accélérateurs
Fonctions, procédures et packages des
programmes PL/SQL
Rollback segments zone mémoires stockant
des images de données
abdellah_madani@yahoo.fr 29
30. Redo Log File (fichier de Journal)
Servent à stocker les données générées
par des commandes DML-SQL des
utilisateurs
Contiennent les changements effectués
sur la BD (ensemble des transactions).
Permettent de reconstruire la BD après
une panne
abdellah_madani@yahoo.fr 30
31. Redo Log File (fichier de Journal)
Pour connaître les fichiers journaux :
Select * from V$Logfile;
Select * from V$log;
À la création de la base de données, ils
sont au moins 2, afin d'assurer une
sauvegarde cyclique
abdellah_madani@yahoo.fr 31
32. Redo Log File (fichier de Journal)
Oracle écrit dans les
redo log files de
manière cyclique : 1er redo log
lorsqu’il rempli le
1er, il passe au
2ième et ainsi de 2ième redo log
suite. Lorsque le
dernier est
rempli, il écrase 3ième redo log
le 1er.
abdellah_madani@yahoo.fr 32
33. Redo Log File (fichier de Journal)
Le log switch se produit quand LGWR
s'arrête d'écrire dans un groupe de
journaux et commence à écrire dans un
autre.
Pour forcer un log switch
ALTER SYSTEM SWITCH LOGFILE;
abdellah_madani@yahoo.fr 33
34. Redo Log File (fichier de Journal)
Avant log switch Après log switch
abdellah_madani@yahoo.fr 34
35. Redo Log File (fichier de Journal)
On peut forcer le log switch pour plusieurs
raisons :
On surestimer un fichier de journal
On a besoin d'effectuer des opérations de
maintenance sur un journal
Etc…
abdellah_madani@yahoo.fr 35
36. Control File (Fichier de Contrôle)
Permettent à une instance d’utiliser les
fichiers précédents.
Contiennent les emplacements physiques
des fichiers, leurs natures, …
Pour connaître les fichiers de contrôle
Select * from V$Controlfile;
abdellah_madani@yahoo.fr 36
37. Control File (Fichier de Contrôle)
L'emplacement et le nom du fichier de
contrôle sont indiqués dans le fichier de
paramètre de l'instance
abdellah_madani@yahoo.fr 37
39. Instance d’une base de données
Combinaison de :
Structures mémoires regroupées dans la
SGA (System Global Area)
Processus d’arrière plan (background
proccess)
abdellah_madani@yahoo.fr 39
41. SGA
Zone mémoire partagée entre tous les
utilisateurs de la base de données
Allouée à chaque démarrage de l'instance et est
libérée lorsque celle-ci est arrêtée.
Constituée de plusieurs mémoires (tampons ou
Buffers) :
tampon de blocs de données : database buffer
tampon du journal de reprise : redolog buffer
pool partagé : shared pool
…
Show SGA : affiche les caractéristiques de SGA
abdellah_madani@yahoo.fr 41
42. Database buffer
Stocke les données demandées par les
commandes SQL des utilisateurs
Permet aux utilisateurs de lire le moins
souvent les mêmes données sur le disque
et de garder en mémoire les données
souvent utilisées
Oracle enregistre plus tard sur disque les
données de cette zone
abdellah_madani@yahoo.fr 42
43. Database buffer
Permet des gains de performances
considérables lors de l'obtention et de la
mise à jour de données
Sa taille est déterminée par le paramètre
DB_BLOCK_SIZE
abdellah_madani@yahoo.fr 43
44. Redo log buffer
Contient temporairement les données
modifiées et validées avant qu'elles ne
soient enregistrées dans le fichiers redo
log
Ces modifications sont générées par les
commandes insert, update et delete
Sa taille est définie par LOG_BUFFER
abdellah_madani@yahoo.fr 44
45. Shared pool
Constituée de 2 zones de mémoires :
Library cache : stocke les commandes SQL à
exécuter
Dictionary cache : stocke les informations du
DD récemment demandées
Sa taille est définie par le paramètre
SHARED_POOL_SIZE
Pour la modifier :
Alter system set shared_pool_size=64M
abdellah_madani@yahoo.fr 45
46. Structure de processus
Oracle utilise 3 types de processus :
Le processus utilisateur, qui est démarré au
moment où un utilisateur tente de se
connecter au serveur
Le processus serveur, qui établit la connexion
à l'instance Oracle
Les processus d'arrière plan, lancés au
démarrage d'une instance Oracle.
abdellah_madani@yahoo.fr 46
47. Processus d'arrière plan
Gèrent et appliquent les relations entre les
structures physiques et les structures logiques
Processus obligatoires
DBWR PMON CKPT
LGWR SMON
Processus facultatifs
ARC : processus d'archivage
RECO : processus de récupération
…
abdellah_madani@yahoo.fr 47
48. Processus Database Writer(DBWR)
Écrit les blocs de données
modifiés da la database buffer
vers le disque (data file)
S'exécute quand le processus
serveur ne trouve plus de
buffer libre pour stocker les
données
Peut s'exécuter aussi à une
fréquence déterminée par le
paramètre : checkpoint
abdellah_madani@yahoo.fr 48
49. Processus Log Writer (LGWR)
Écrit les entrées du
redolog buffer dans les
fichier redolog
Il écrit dans les cas
suivants :
Une transaction est
validée
Un tiers du buffer est
rempli
De manière périodique
abdellah_madani@yahoo.fr 49
50. Processus System Monitor (SMON)
Assure :
Le recouvrement d'instance
quand celle-ci démarre
Annule les transactions non
validées
Ré implémente les
modifications dans les
redolog files
Libération des segments
temporaires quand ils ne
sont plus utilisés
abdellah_madani@yahoo.fr 50
51. Processus Process Monitor (PMON)
Suite à l'echec d'un
processus, PMON exécute
les opérations suivantes :
Annule les transactions
Libère les ressources
Nettoie le cache utilisé
par les processus serveur
abdellah_madani@yahoo.fr 51
52. Processus CheckPoint (CKPT)
Ce processus est chargé
de :
Signaler DBWR aux points
de reprise,
Mettre à jour les fichiers
de contrôle avec les
informations sur le point
de reprise
abdellah_madani@yahoo.fr 52
53. Processus d'archivage (ARC)
Processus d'arrière plan facultatif
En mode ARCHIVELOG, il archive
automatiquement les redolog files
Il enregistre toutes les modifications
apportées à la base de données
abdellah_madani@yahoo.fr 53
Notes de l'éditeur
Sga memoire partage entre plus utilasateurs Pga :spéciique à chaque utilateurs Si jamais une panne on peut recupérer tous les fichiers de journalisations ça nous permet de l’archivé Fichiers contrôle :fichier utilisé par oracle pour localiser les autres fichiers FIchier de mot passe facultative Fichier paramètre :sera ouvert avant l’ouverture de base données Instance est un cas particulier c’est un objet