TIC MANAGEMENT
Les Entrepôts de Données (Data Warehouses)
PRÉSENTER PAR :
 NZUGUEM KEVIN
BILONG LEON
MELINGA PATRICK
Institut Africain d’Informatique
7/5/2016
1
DATAWAREHOUSE
PLAN DU TRAVAIL
 INTRODUCTION
 LES ENTREPOTS DE DONNEES
 LES DATAMARTS
 ARCHITECTURE
 MODELISATION
 ALIMENTATION
 LES BASES DE DONNEES MULTIDIMENTIONNELLES
 MARCHE DU DECISIONNEL
 LE DATAMINIG
7/5/2016
2
DATA WAREHOUSE
INTRODUCTION
7/5/2016
3
DATA WAREHOUSE
CONTEXTE
 Besoin : prise de décision stratégiques et tactique;
 Pourquoi : besoin de réactivité;
 Qui : les décideurs (non informaticiens);
 Comment : répondre au demande d’analyse de données, dégager les informations qualitatives
nouvelles.
7/5/2016
4
DATA WAREHOUSE
CONTEXTE
Quels francais
consomment beaucoup le
piossons ?
Quels francais
consomment beaucoup
le piossons ?
Quels francais
consomment beaucoup
le piossons ?
Quels francais
consomment beaucoup
le piossons ?
7/5/2016
5
DATA WAREHOUSE
PROBLEMATIQUE
 Comment repondre aux données des decideurs ? :
 En donnant un acces rapide et simple a l’information strategique;
 En donnant du sens au données.
 mettre en place un systeme d’information dédié aux applications decisionnelles :
un DATA WAREHOUSE.
7/5/2016DATA WAREHOUSE
6
PROCESSUS DE PRISE DE DECISION
7/5/2016DATA WAREHOUSE
7
PROCESSUS DE PRISE DE DECISION
7/5/2016DATA WAREHOUSE
8
DOMAINE D’UTILISATION D’UN DW
 BANQUE : risque d’un prêt, prime plus precise
 SANTE : épidémologie, risque alimentaire
 COMMERCE : ciblage de clientèle, determiner des promotions
 LOGISTIQUE : adéquation demande/production
 ASSURANCE : risque lié au contrat d’assurance(voiture)
7/5/2016DATA WAREHOUSE
9
LES ENTREPOTS
DE DONNEES
7/5/2016
10
DATA WAREHOUSE
DEFININITION D’UN DW
 W.B.Inmon
« Le data Warehouse est une collection de données orientées sujet, intégrées,
non volatiles et historisées, organisées pour le support d’un processus d’aide à la
décision »
 PRINCIPE : mettre en place une base de donnée utilisé a des fin d’analyse.
7/5/2016
11
DATA WAREHOUSE
LES 4 CARACTERISTIQUES D’UN DW
 DONNÉES ORIENTÉES SUJET :
 Regroupe les informations des différents métiers
 Ne tiens pas compte de l’organisation fonctionnelle des données
7/5/2016
12
DATA WAREHOUSE
LES 4 CARACTERISTIQUES D’UN DW
7/5/2016
13
DATA WAREHOUSE
 DONNÉES INTÉGRÉES :
Normalisation des données
Définition d’un référentiel unique
LES 4 CARACTERISTIQUES D’UN DW
 DONNÉES NON VOLATILES :
 Traçabilité des informations et des décisions prises
 Copie des données de production
7/5/2016
14
DATA WAREHOUSE
LES 4 CARACTERISTIQUES D’UN DW
 DONNÉES DATÉES :
 Les données persistent dans le temps
 Mise en place d’un référentiel temps
7/5/2016
15
DATA WAREHOUSE
SGBDR ET DW
7/5/2016
16
DATA WAREHOUSE
OLTP: On-Line
Transactional
Processing
OLAP: On-Line
Analitical
Processing
OLTP vs DW
7/5/2016
17
DATA WAREHOUSE
LES DATA MARTS
7/5/2016
18
DATA WAREHOUSE
DATA MARTS
7/5/2016
19
DATA WAREHOUSE
 SOUS ENSEMBLE D’UN ENTREPOTS DE DONNNEES
 DESTINE A REPONDRE AU BESION D’UN SECTEUR OU
D’UNE FONCTION PARTICULIERE DE L’ENTREPRISE
 POINT DE VUE VUE SPECIFIQUE SELON LES CRITERES
METIERS
DATA MARTS
7/5/2016
20
DATA WAREHOUSE
INTERETS DES DATA MARTS
7/5/2016
21
DATA WAREHOUSE
 NOUVEL ENVIRONNEMENT STRUCTURE ET FORMATE EN FONCTION
DES BESIONS D’UN METIER OU D’UN USAGE PARTICULIER
 MOINS DE DONNEES QUE LE DATA WAREHOUSE : plus facile à
comprendre et a manipuler, amélioration des temps de réponses
 UTILISATEURS PLUS CIBLES : DM PLUS FACILE A DEFINIR
ARCHITECTURE
7/5/2016
22
DATA WAREHOUSE
ARCHITECTURE GENERALE
7/5/2016
23
DATA WAREHOUSE
FLUX DE DONNEES
7/5/2016
24
DATA WAREHOUSE
 FLUX ENTRANTS :
- Extraction : multi-source, hétérogene;
- Transformation : filter, Trier, homogeiniser, netoyer
- Chargement : insertion des données dans l’entrepot
 FLUX SORTANTS :
- Mise à la disposition des données pour les utilisateurs finaux
LES DIFFERENTES ZONES DE
L’ARCHITECTURE
7/5/2016
25
DATA WAREHOUSE
 ZONE DE PREPARATION (STAGING AREA):
- zone temporaire de stockage des données extraites;
- Realisation des transformation avant l’insertion dans le DW :
nettoyage, normalisation
- Données souvent detruites après chargement dans le DW
LES DIFFERENTES ZONES DE
L’ARCHITECTURE
7/5/2016
26
DATA WAREHOUSE
 ZONE DE STOCKAGE (DW, DM):
- On y transfert les données nettoyés;
- Stockage permanent des données
LES DIFFERENTES ZONES DE
L’ARCHITECTURE
7/5/2016
27
DATA WAREHOUSE
 ZONE DE PRESENTATION :
- Donne accès au données contenues dans le DW;
- Peut contenir des outils d’analyse programmés: rapports,
requetes
MODELISATION
7/5/2016
28
DATA WAREHOUSE
MODELISATION ENTITE/ ASSOCIATION
7/5/2016
29
DATA WAREHOUSE
 AVANTAGES:
- Normalisation: éleminer les redondances, preserver la coherence
des données.
- Optimisation des transactions
- Reduction de l’espace de stockage
MODELISATION ENTITE/ ASSOCIATION
7/5/2016
30
DATA WAREHOUSE
 INCONVENIENTS POUR UTILISATEURS FINAUX:
- Shema très et trop complet : contient des tables/champs inutiles
pour l’analyse
- Pas d’interface graphique capable de rendre utilisable le madèle E/A
- Inapdaté pour l’analyse
EXEMPLE
7/5/2016
31
DATA WAREHOUSE
MODELISATION DE DW
7/5/2016
32
DATA WAREHOUSE
 NOUVELLES METHODES DE CONCEPTION AUTOUR DES CONCEPTS
METIERS :
- Ne pas normaliser au maximun
 INTRODUCTION DE NOUVEAUX TYPES DE TABLES :
- Tables de faits
- Tables de dimension
 INTRODUCTION DE NOUVEAUX MODELES:
- Modèle en etoile
- Modèle en flocon
TABLE DE FAITS
7/5/2016
33
DATA WAREHOUSE
 TABLE PRINCIPALE DU MODELE DIMENSIONNEL
 CONTIENT DES DONNEES OBSERVABLE (FAITS) SUR
LE SUJET ETUDIE SELON DIVERS AXES D’ANALYSE
(LES DIMENSIONS)
TABLE DE FAITS
7/5/2016
34
DATA WAREHOUSE
TABLE DE FAITS
7/5/2016
35
DATA WAREHOUSE
 FAIT :
- ce que l’on souhaite mésurer : quantité vendue, montant des ventes.
- Contient les clés étrangeres des axes d’analyse: date, produit, magasin
- Trois types de faits : additif, semi-additif, non additif
TYPOLOGIES DES FAITS
7/5/2016
36
DATA WAREHOUSE
 ADDITIF : additionnable suivant toutes les dimensions
- quantité vendue, chiffre d’affaire
- peut etre le resultat d’un calcul : Benefice= montant de ventes –
cout
TYPOLOGIES DES FAITS
7/5/2016
37
DATA WAREHOUSE
 SEMI-ADDITIF: additionable suivant certaines dimensions
- solde d’un compte bancaire : pas de sens d’additionner sur les
dates car cela represente les instantanés d’un niveau
TYPOLOGIES DES FAITS
7/5/2016
38
DATA WAREHOUSE
 NON ADDITIF: Fait non additionable quelque soit la
dimension
- prix unitaire : l’addition sur n’importe quelle dimension donne
un nonbre depouvu de sens
TABLE DE DIMENSIONS
7/5/2016
39
DATA WAREHOUSE
 AXES D’ANALYSE SELON LESQUELS VONT ETRE ETUDIEES
LES DONNEES OBSERVABLE (FAITS )
 CONTIENT LE DETAIL SUR LES FAITS
TABLE DE DIMENSIONS
7/5/2016
40
DATA WAREHOUSE
TABLE DE DIMENSIONS
7/5/2016
41
DATA WAREHOUSE
 DIMENSIONS = AXES D’ANALYSE
- Client, produit, periode de temps…
 CONTIENT SOUVENT UN GRAND NOMBRE DE COLONNE:
l’essemble d’information desciptives des faits
 CONTIENT EN GENERALE BEAUCOUP MOINS D’INFORMATION
Q’UNE TABLE DE FAITS
TYPE DE MODELES
7/5/2016
42
DATA WAREHOUSE
 MODELE EN ETOILE
TYPE DE MODELES
7/5/2016
43
DATA WAREHOUSE
 MODELE EN FLOCON
MODELE EN ETOILE
7/5/2016
44
DATA WAREHOUSE
 UNE TABLE DE FAITS CENTRALE ET DES DIMENSIONS
 LES DIMENSIONS N’ONT PAS DE LIAISON ENTRE ELLES
 AVANTAGES : facilité de navigation, nombre de jointures limitées
 INCONVENIENTS : redondance dans les dimensions, toutes les
dimensions ne concernent pas les mesures.
MODELE EN ETOILE
7/5/2016
45
DATA WAREHOUSE
MODELE EN FLOCON
7/5/2016
46
DATA WAREHOUSE
 UNE TABLE DE FAIT ET DES DIMENSIONS DECOMPOSEES EN
SOUS HIERACHIE
 ON A UN SEUL NIVEAU HIERACHIQUE DANS UNE TABLE DE
DIMENSION
 LA TABLE DE DIMENSION HIERACHIQUE LE PLUS BAS EST RELIEE
A LA TABLE DE FAITS
MODELE EN FLOCON
7/5/2016
47
DATA WAREHOUSE
 AVANTAGES : normalisation des dimensions, economie
d’espace du disque
 INCONVENIENTS : modele plus complexe (jointures ),
requetes moins performantes
MODELE EN FLOCON
7/5/2016
48
DATA WAREHOUSE
ALIMENTATION
7/5/2016
49
DATA WAREHOUSE
ALIMENTATION/ MISE A JOUR DU DW
7/5/2016
50
DATA WAREHOUSE
 ENTREPOT MISE A JOUR REGULIEREMENT
 BESION D’OUTIL PERMETTANT D’AUTOMATISER LE
CHARGEMENT DANS L’ENTREPOT
 UTILISATION D’OUTIL ETL (EXTRACT, TRANSFORM AND
LOAD)
DEFINITION D’UN ETL
7/5/2016
51
DATA WAREHOUSE
 OFFRE UN ENVIRONNEMENT DE DEVELLOPEMENT
 OFFRE DES OUTILS DE GESTION DES OPERATIONS ET DE MAINTENANCE
 PERMET DE DECOUVRIR, ANALYSER, EXTRAIRE DES DONNEES A PARTIR DE
SOURCES HETEROGENES
 PERMET DE NETTOYER ET DE STANDADISER LES DONNEES
 PERMET DE CHARGER LES DONNEES DANS LE DW
EXTRACTION
7/5/2016
52
DATA WAREHOUSE
 EXTRAIRE DES DONNEES DE SYSTEME DE PRODUCTION
 DIALOGUER AVEC DIFFERENTES SOURCES: Bases de
données, fichiers, bases proprietaires
 UTILISE DIVERS CONNECTEURS: ODBC, SQL natif, fichiers
plats
TRANSFORMATION
7/5/2016
53
DATA WAREHOUSE
 RENDRE COHERENTES LES DONNEES DE DIFFERENTES SOURCES :
- transformer, nettoyer, trier, unifier les données
- exemple : unifier le format de date (MM/JJ/AAA en JJ/MM/AAAA)
 ETAPE TRES IMPORTANTE: garantir la coherence et le fiabilité des données
CHARGEMENT
7/5/2016
54
DATA WAREHOUSE
 INSERER OU MODIFIER LES DONNEES DANS
L’ENTREPOT
 UTILISATION DES CONNECTEURS : ODBC, SQL natif,
fichiers plats
APERCU D’UN ETL
7/5/2016
55
DATA WAREHOUSE
BASE DE DONNEE
MULTIDIMENTIONNE
L
7/5/2016
56
DATA WAREHOUSE
OLTP vs OLAP
7/5/2016
57
DATA WAREHOUSE
MANIPULATION DES DONNEES
MULTIDIMENSIONNELLES
7/5/2016
58
DATA WAREHOUSE
 ROTATION (ROTATE) : presenter une autre face du cube
MANIPULATION DES DONNEES
MULTIDIMENSIONNELLES
7/5/2016
59
DATA WAREHOUSE
 TRANCHAGE (SLICING) : consiste a travailler que sur une tranche du cube.
Une des diensions est alors reduite a une seule valeur
MANIPULATION DES DONNEES
MULTIDIMENSIONNELLES
7/5/2016
60
DATA WAREHOUSE
 EXTRACTION D’UN BLOC DE DONNEE(DICING) : ne travailler
que sous un sous cube.
MANIPULATION DES DONNEES
MULTIDIMENSIONNELLES
7/5/2016
61
DATA WAREHOUSE
 EXTRACTION D’UN BLOC DE DONNEE(DICING) : ne travailler
que sous un sous cube.
MANIPULATION DES DONNEES
MULTIDIMENSIONNELLES
7/5/2016
62
DATA WAREHOUSE
 FORAGE VERS LE HAUT (ROLL-UP): << dezoomer>> obtenir
un niveau de granularité superieur, utilisation des fonctions
d’agregations
 FORAGE VERS LE HAUT (ROLL-UP): <<zoomer>> obtenir un
niveau de granularité inferieur, données plus detaillées
MANIPULATION DES DONNEES
MULTIDIMENSIONNELLES
7/5/2016
63
DATA WAREHOUSE
MDX : MULTIDIMENSIONNAL
EXPRESSION
7/5/2016
64
DATA WAREHOUSE
 LANGUAGE PERMETTANT DE DEFINIR, D’UTILISER ET
DE RECUPERER, DES DONNEES A PARTIR D’OBJETS
MULTIDIMENTIONNELLES
- Permet de faire des operations decrites precedemment
 EQUIVALENT DE SQL POUR LE MONDE OLAP
 ORIGINE : MICROSOFT
MDX, EXEMPLE
7/5/2016
65
DATA WAREHOUSE
 FOURNIR LES EFFECTIFS D’UNE SOCIETE PENDANT
LES ANNEES 2004 ET 2005 CROISES PAR LES
PAIEMENT
MARCHE DU
DECISIONNEL
7/5/2016
66
DATA WAREHOUSE
MARCHE DU DESICIONNEL
7/5/2016
67
DATA WAREHOUSE
QUELQUES SOLUTIONS
COMMERCIALES
7/5/2016
68
DATA WAREHOUSE
QUELQUES SOLUTIONS OPEN
SOURCE
7/5/2016
69
DATA WAREHOUSE
DATA MINING
7/5/2016
70
DATA WAREHOUSE
INTRODUCTION AU DATAMINING
7/5/2016
71
DATA WAREHOUSE
 LA FOUILLE DES DONNÉES
 Le DATAMINING est l’ensemble des:
 techniques et méthodes
 … destinées à l’exploration et l’analyse
 … de (souvent) grandes bases de données informatiques
 … en vue de détecter dans ces données des règles, des associations, des
tendances inconnues (non fixées a priori), dans des structures particulières
restituant de façon concise l’essentiel de l’information utile.
 … pour l’aide à la décision.
 On parle alors d’extraction de l’information dans la donnée
INTRODUCTION AU DATAMINING
7/5/2016
72
DATA WAREHOUSE
 LA FOUILLE DES DONNÉES
 Le DATAMINING est l’ensemble des:
 techniques et méthodes
 … destinées à l’exploration et l’analyse
 … de (souvent) grandes bases de données informatiques
 … en vue de détecter dans ces données des règles, des associations, des
tendances inconnues (non fixées a priori), dans des structures particulières
restituant de façon concise l’essentiel de l’information utile.
 … pour l’aide à la décision.
 On parle alors d’extraction de l’information dans la donnée
APPLICATION DU DATA MINING
7/5/2016
73
DATA WAREHOUSE
 Utilité du datamining dans le CRM (gestion de la relation client)
 Mieux connaître le client
 pour mieux le servir
 pour augmenter sa satisfaction
 pour augmenter sa fidélité (+ coûteux d’acquérir un client que le conserver)
 La connaissance du client est encore plus utile
dans le secteur tertiaire :
 les produits se ressemblent entre établissements
 le prix n’est pas toujours déterminant
 ce sont surtout le service et la relation avec le client qui font la différence
CRM (GESTION DE LA RELATION
CLIENT)
7/5/2016
74
DATA WAREHOUSE
 Utilité du datamining dans le CRM (gestion de la relation client)
 Mieux connaître le client
 pour mieux le servir
 pour augmenter sa satisfaction
 pour augmenter sa fidélité (+ coûteux d’acquérir un client que le conserver)
 La connaissance du client est encore plus utile
dans le secteur tertiaire :
 les produits se ressemblent entre établissements
 le prix n’est pas toujours déterminant
 ce sont surtout le service et la relation avec le client qui font la différence
CRM (GESTION DE LA RELATION
CLIENT)
7/5/2016
75
DATA WAREHOUSE
LE DATA MINING DANS LA
TELEPHONIE
7/5/2016
76
DATA WAREHOUSE
 Deux événements :
 ouverture des monopoles nationaux à d’autres opérateurs télécom
 arrivée à saturation du marché de la téléphonie mobile
 D’où les sujets dominants dans la téléphonie :
 score d’attrition (churn = changement d’opérateur)
 optimisation des campagnes marketing
LE DATA MINING DANS LA
TELEPHONIE
7/5/2016
77
DATA WAREHOUSE
 text mining (pour analyser les lettres de réclamation)
 Problème du churn :
 coût d’acquisition moyen en téléphonie mobile : 50,000 frs env
 plus d’un million d’utilisateurs changent chaque d’année
d’opérateur
 En France, la loi Chatel (juin 2008) facilite le changement
d’opérateur en diminuant le coût pour ceux qui ont dépassé 12
mois chez l’opérateur
 la portabilité du numéro facilite le churn
LE DATA MINING DANS LE
COMMERCE
7/5/2016
78
DATA WAREHOUSE
 Vente Par Correspondance
 utilise depuis longtemps des scores d’appétence
 pour optimiser ses ciblages et en réduire les coûts
 des centaines de millions de documents envoyés par an
 e-commerce
 personnalisation des pages du site web de l’entreprise, en fonction
du profil de chaque internaute
 optimisation de la navigation sur un site web
LE DATA MINING DANS LE
COMMERCE
7/5/2016
79
DATA WAREHOUSE
LE DATA MINING DANS LE
COMMERCE
7/5/2016
80
DATA WAREHOUSE
 Grande distribution
 analyse du ticket de caisse
 détermination des meilleures implantations (géomarketing)
Bibliographie
Supports de Cours
 Karima Tekaya – « Informatique Décisionnelle » - INSAT
 Fatma Baklouti – « Les entrepôts de données (Data Warehouses) » - INSAT
 Hweichao Lu – « Online Analytical Processing (OLAP) » - CS157B-02 Spring 2007
 Didier Donsez – « Systèmes d’information décisionnels (Data Warehouse / Data Mining) » - Université Joseph Fourier
 Jacky Akoka et Isabelle Comyn-Wattiau – « Le Data Warehouse et les Systèmes Multidimentionnels » - Université de
Versailles
Livres
 Ralph Kimball - « Concevoir et déployer un Data Warehouse » - Editions Eyrolles, 2000
7/5/2016
81
DATA WAREHOUSE
7/5/2016
82
DATA WAREHOUSE
MERCI
Pour votre
participation

DataWarehouse

  • 1.
    TIC MANAGEMENT Les Entrepôtsde Données (Data Warehouses) PRÉSENTER PAR :  NZUGUEM KEVIN BILONG LEON MELINGA PATRICK Institut Africain d’Informatique 7/5/2016 1 DATAWAREHOUSE
  • 2.
    PLAN DU TRAVAIL INTRODUCTION  LES ENTREPOTS DE DONNEES  LES DATAMARTS  ARCHITECTURE  MODELISATION  ALIMENTATION  LES BASES DE DONNEES MULTIDIMENTIONNELLES  MARCHE DU DECISIONNEL  LE DATAMINIG 7/5/2016 2 DATA WAREHOUSE
  • 3.
  • 4.
    CONTEXTE  Besoin :prise de décision stratégiques et tactique;  Pourquoi : besoin de réactivité;  Qui : les décideurs (non informaticiens);  Comment : répondre au demande d’analyse de données, dégager les informations qualitatives nouvelles. 7/5/2016 4 DATA WAREHOUSE
  • 5.
    CONTEXTE Quels francais consomment beaucouple piossons ? Quels francais consomment beaucoup le piossons ? Quels francais consomment beaucoup le piossons ? Quels francais consomment beaucoup le piossons ? 7/5/2016 5 DATA WAREHOUSE
  • 6.
    PROBLEMATIQUE  Comment repondreaux données des decideurs ? :  En donnant un acces rapide et simple a l’information strategique;  En donnant du sens au données.  mettre en place un systeme d’information dédié aux applications decisionnelles : un DATA WAREHOUSE. 7/5/2016DATA WAREHOUSE 6
  • 7.
    PROCESSUS DE PRISEDE DECISION 7/5/2016DATA WAREHOUSE 7
  • 8.
    PROCESSUS DE PRISEDE DECISION 7/5/2016DATA WAREHOUSE 8
  • 9.
    DOMAINE D’UTILISATION D’UNDW  BANQUE : risque d’un prêt, prime plus precise  SANTE : épidémologie, risque alimentaire  COMMERCE : ciblage de clientèle, determiner des promotions  LOGISTIQUE : adéquation demande/production  ASSURANCE : risque lié au contrat d’assurance(voiture) 7/5/2016DATA WAREHOUSE 9
  • 10.
  • 11.
    DEFININITION D’UN DW W.B.Inmon « Le data Warehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d’un processus d’aide à la décision »  PRINCIPE : mettre en place une base de donnée utilisé a des fin d’analyse. 7/5/2016 11 DATA WAREHOUSE
  • 12.
    LES 4 CARACTERISTIQUESD’UN DW  DONNÉES ORIENTÉES SUJET :  Regroupe les informations des différents métiers  Ne tiens pas compte de l’organisation fonctionnelle des données 7/5/2016 12 DATA WAREHOUSE
  • 13.
    LES 4 CARACTERISTIQUESD’UN DW 7/5/2016 13 DATA WAREHOUSE  DONNÉES INTÉGRÉES : Normalisation des données Définition d’un référentiel unique
  • 14.
    LES 4 CARACTERISTIQUESD’UN DW  DONNÉES NON VOLATILES :  Traçabilité des informations et des décisions prises  Copie des données de production 7/5/2016 14 DATA WAREHOUSE
  • 15.
    LES 4 CARACTERISTIQUESD’UN DW  DONNÉES DATÉES :  Les données persistent dans le temps  Mise en place d’un référentiel temps 7/5/2016 15 DATA WAREHOUSE
  • 16.
    SGBDR ET DW 7/5/2016 16 DATAWAREHOUSE OLTP: On-Line Transactional Processing OLAP: On-Line Analitical Processing
  • 17.
  • 18.
  • 19.
    DATA MARTS 7/5/2016 19 DATA WAREHOUSE SOUS ENSEMBLE D’UN ENTREPOTS DE DONNNEES  DESTINE A REPONDRE AU BESION D’UN SECTEUR OU D’UNE FONCTION PARTICULIERE DE L’ENTREPRISE  POINT DE VUE VUE SPECIFIQUE SELON LES CRITERES METIERS
  • 20.
  • 21.
    INTERETS DES DATAMARTS 7/5/2016 21 DATA WAREHOUSE  NOUVEL ENVIRONNEMENT STRUCTURE ET FORMATE EN FONCTION DES BESIONS D’UN METIER OU D’UN USAGE PARTICULIER  MOINS DE DONNEES QUE LE DATA WAREHOUSE : plus facile à comprendre et a manipuler, amélioration des temps de réponses  UTILISATEURS PLUS CIBLES : DM PLUS FACILE A DEFINIR
  • 22.
  • 23.
  • 24.
    FLUX DE DONNEES 7/5/2016 24 DATAWAREHOUSE  FLUX ENTRANTS : - Extraction : multi-source, hétérogene; - Transformation : filter, Trier, homogeiniser, netoyer - Chargement : insertion des données dans l’entrepot  FLUX SORTANTS : - Mise à la disposition des données pour les utilisateurs finaux
  • 25.
    LES DIFFERENTES ZONESDE L’ARCHITECTURE 7/5/2016 25 DATA WAREHOUSE  ZONE DE PREPARATION (STAGING AREA): - zone temporaire de stockage des données extraites; - Realisation des transformation avant l’insertion dans le DW : nettoyage, normalisation - Données souvent detruites après chargement dans le DW
  • 26.
    LES DIFFERENTES ZONESDE L’ARCHITECTURE 7/5/2016 26 DATA WAREHOUSE  ZONE DE STOCKAGE (DW, DM): - On y transfert les données nettoyés; - Stockage permanent des données
  • 27.
    LES DIFFERENTES ZONESDE L’ARCHITECTURE 7/5/2016 27 DATA WAREHOUSE  ZONE DE PRESENTATION : - Donne accès au données contenues dans le DW; - Peut contenir des outils d’analyse programmés: rapports, requetes
  • 28.
  • 29.
    MODELISATION ENTITE/ ASSOCIATION 7/5/2016 29 DATAWAREHOUSE  AVANTAGES: - Normalisation: éleminer les redondances, preserver la coherence des données. - Optimisation des transactions - Reduction de l’espace de stockage
  • 30.
    MODELISATION ENTITE/ ASSOCIATION 7/5/2016 30 DATAWAREHOUSE  INCONVENIENTS POUR UTILISATEURS FINAUX: - Shema très et trop complet : contient des tables/champs inutiles pour l’analyse - Pas d’interface graphique capable de rendre utilisable le madèle E/A - Inapdaté pour l’analyse
  • 31.
  • 32.
    MODELISATION DE DW 7/5/2016 32 DATAWAREHOUSE  NOUVELLES METHODES DE CONCEPTION AUTOUR DES CONCEPTS METIERS : - Ne pas normaliser au maximun  INTRODUCTION DE NOUVEAUX TYPES DE TABLES : - Tables de faits - Tables de dimension  INTRODUCTION DE NOUVEAUX MODELES: - Modèle en etoile - Modèle en flocon
  • 33.
    TABLE DE FAITS 7/5/2016 33 DATAWAREHOUSE  TABLE PRINCIPALE DU MODELE DIMENSIONNEL  CONTIENT DES DONNEES OBSERVABLE (FAITS) SUR LE SUJET ETUDIE SELON DIVERS AXES D’ANALYSE (LES DIMENSIONS)
  • 34.
  • 35.
    TABLE DE FAITS 7/5/2016 35 DATAWAREHOUSE  FAIT : - ce que l’on souhaite mésurer : quantité vendue, montant des ventes. - Contient les clés étrangeres des axes d’analyse: date, produit, magasin - Trois types de faits : additif, semi-additif, non additif
  • 36.
    TYPOLOGIES DES FAITS 7/5/2016 36 DATAWAREHOUSE  ADDITIF : additionnable suivant toutes les dimensions - quantité vendue, chiffre d’affaire - peut etre le resultat d’un calcul : Benefice= montant de ventes – cout
  • 37.
    TYPOLOGIES DES FAITS 7/5/2016 37 DATAWAREHOUSE  SEMI-ADDITIF: additionable suivant certaines dimensions - solde d’un compte bancaire : pas de sens d’additionner sur les dates car cela represente les instantanés d’un niveau
  • 38.
    TYPOLOGIES DES FAITS 7/5/2016 38 DATAWAREHOUSE  NON ADDITIF: Fait non additionable quelque soit la dimension - prix unitaire : l’addition sur n’importe quelle dimension donne un nonbre depouvu de sens
  • 39.
    TABLE DE DIMENSIONS 7/5/2016 39 DATAWAREHOUSE  AXES D’ANALYSE SELON LESQUELS VONT ETRE ETUDIEES LES DONNEES OBSERVABLE (FAITS )  CONTIENT LE DETAIL SUR LES FAITS
  • 40.
  • 41.
    TABLE DE DIMENSIONS 7/5/2016 41 DATAWAREHOUSE  DIMENSIONS = AXES D’ANALYSE - Client, produit, periode de temps…  CONTIENT SOUVENT UN GRAND NOMBRE DE COLONNE: l’essemble d’information desciptives des faits  CONTIENT EN GENERALE BEAUCOUP MOINS D’INFORMATION Q’UNE TABLE DE FAITS
  • 42.
    TYPE DE MODELES 7/5/2016 42 DATAWAREHOUSE  MODELE EN ETOILE
  • 43.
    TYPE DE MODELES 7/5/2016 43 DATAWAREHOUSE  MODELE EN FLOCON
  • 44.
    MODELE EN ETOILE 7/5/2016 44 DATAWAREHOUSE  UNE TABLE DE FAITS CENTRALE ET DES DIMENSIONS  LES DIMENSIONS N’ONT PAS DE LIAISON ENTRE ELLES  AVANTAGES : facilité de navigation, nombre de jointures limitées  INCONVENIENTS : redondance dans les dimensions, toutes les dimensions ne concernent pas les mesures.
  • 45.
  • 46.
    MODELE EN FLOCON 7/5/2016 46 DATAWAREHOUSE  UNE TABLE DE FAIT ET DES DIMENSIONS DECOMPOSEES EN SOUS HIERACHIE  ON A UN SEUL NIVEAU HIERACHIQUE DANS UNE TABLE DE DIMENSION  LA TABLE DE DIMENSION HIERACHIQUE LE PLUS BAS EST RELIEE A LA TABLE DE FAITS
  • 47.
    MODELE EN FLOCON 7/5/2016 47 DATAWAREHOUSE  AVANTAGES : normalisation des dimensions, economie d’espace du disque  INCONVENIENTS : modele plus complexe (jointures ), requetes moins performantes
  • 48.
  • 49.
  • 50.
    ALIMENTATION/ MISE AJOUR DU DW 7/5/2016 50 DATA WAREHOUSE  ENTREPOT MISE A JOUR REGULIEREMENT  BESION D’OUTIL PERMETTANT D’AUTOMATISER LE CHARGEMENT DANS L’ENTREPOT  UTILISATION D’OUTIL ETL (EXTRACT, TRANSFORM AND LOAD)
  • 51.
    DEFINITION D’UN ETL 7/5/2016 51 DATAWAREHOUSE  OFFRE UN ENVIRONNEMENT DE DEVELLOPEMENT  OFFRE DES OUTILS DE GESTION DES OPERATIONS ET DE MAINTENANCE  PERMET DE DECOUVRIR, ANALYSER, EXTRAIRE DES DONNEES A PARTIR DE SOURCES HETEROGENES  PERMET DE NETTOYER ET DE STANDADISER LES DONNEES  PERMET DE CHARGER LES DONNEES DANS LE DW
  • 52.
    EXTRACTION 7/5/2016 52 DATA WAREHOUSE  EXTRAIREDES DONNEES DE SYSTEME DE PRODUCTION  DIALOGUER AVEC DIFFERENTES SOURCES: Bases de données, fichiers, bases proprietaires  UTILISE DIVERS CONNECTEURS: ODBC, SQL natif, fichiers plats
  • 53.
    TRANSFORMATION 7/5/2016 53 DATA WAREHOUSE  RENDRECOHERENTES LES DONNEES DE DIFFERENTES SOURCES : - transformer, nettoyer, trier, unifier les données - exemple : unifier le format de date (MM/JJ/AAA en JJ/MM/AAAA)  ETAPE TRES IMPORTANTE: garantir la coherence et le fiabilité des données
  • 54.
    CHARGEMENT 7/5/2016 54 DATA WAREHOUSE  INSEREROU MODIFIER LES DONNEES DANS L’ENTREPOT  UTILISATION DES CONNECTEURS : ODBC, SQL natif, fichiers plats
  • 55.
  • 56.
  • 57.
  • 58.
    MANIPULATION DES DONNEES MULTIDIMENSIONNELLES 7/5/2016 58 DATAWAREHOUSE  ROTATION (ROTATE) : presenter une autre face du cube
  • 59.
    MANIPULATION DES DONNEES MULTIDIMENSIONNELLES 7/5/2016 59 DATAWAREHOUSE  TRANCHAGE (SLICING) : consiste a travailler que sur une tranche du cube. Une des diensions est alors reduite a une seule valeur
  • 60.
    MANIPULATION DES DONNEES MULTIDIMENSIONNELLES 7/5/2016 60 DATAWAREHOUSE  EXTRACTION D’UN BLOC DE DONNEE(DICING) : ne travailler que sous un sous cube.
  • 61.
    MANIPULATION DES DONNEES MULTIDIMENSIONNELLES 7/5/2016 61 DATAWAREHOUSE  EXTRACTION D’UN BLOC DE DONNEE(DICING) : ne travailler que sous un sous cube.
  • 62.
    MANIPULATION DES DONNEES MULTIDIMENSIONNELLES 7/5/2016 62 DATAWAREHOUSE  FORAGE VERS LE HAUT (ROLL-UP): << dezoomer>> obtenir un niveau de granularité superieur, utilisation des fonctions d’agregations  FORAGE VERS LE HAUT (ROLL-UP): <<zoomer>> obtenir un niveau de granularité inferieur, données plus detaillées
  • 63.
  • 64.
    MDX : MULTIDIMENSIONNAL EXPRESSION 7/5/2016 64 DATAWAREHOUSE  LANGUAGE PERMETTANT DE DEFINIR, D’UTILISER ET DE RECUPERER, DES DONNEES A PARTIR D’OBJETS MULTIDIMENTIONNELLES - Permet de faire des operations decrites precedemment  EQUIVALENT DE SQL POUR LE MONDE OLAP  ORIGINE : MICROSOFT
  • 65.
    MDX, EXEMPLE 7/5/2016 65 DATA WAREHOUSE FOURNIR LES EFFECTIFS D’UNE SOCIETE PENDANT LES ANNEES 2004 ET 2005 CROISES PAR LES PAIEMENT
  • 66.
  • 67.
  • 68.
  • 69.
  • 70.
  • 71.
    INTRODUCTION AU DATAMINING 7/5/2016 71 DATAWAREHOUSE  LA FOUILLE DES DONNÉES  Le DATAMINING est l’ensemble des:  techniques et méthodes  … destinées à l’exploration et l’analyse  … de (souvent) grandes bases de données informatiques  … en vue de détecter dans ces données des règles, des associations, des tendances inconnues (non fixées a priori), dans des structures particulières restituant de façon concise l’essentiel de l’information utile.  … pour l’aide à la décision.  On parle alors d’extraction de l’information dans la donnée
  • 72.
    INTRODUCTION AU DATAMINING 7/5/2016 72 DATAWAREHOUSE  LA FOUILLE DES DONNÉES  Le DATAMINING est l’ensemble des:  techniques et méthodes  … destinées à l’exploration et l’analyse  … de (souvent) grandes bases de données informatiques  … en vue de détecter dans ces données des règles, des associations, des tendances inconnues (non fixées a priori), dans des structures particulières restituant de façon concise l’essentiel de l’information utile.  … pour l’aide à la décision.  On parle alors d’extraction de l’information dans la donnée
  • 73.
    APPLICATION DU DATAMINING 7/5/2016 73 DATA WAREHOUSE  Utilité du datamining dans le CRM (gestion de la relation client)  Mieux connaître le client  pour mieux le servir  pour augmenter sa satisfaction  pour augmenter sa fidélité (+ coûteux d’acquérir un client que le conserver)  La connaissance du client est encore plus utile dans le secteur tertiaire :  les produits se ressemblent entre établissements  le prix n’est pas toujours déterminant  ce sont surtout le service et la relation avec le client qui font la différence
  • 74.
    CRM (GESTION DELA RELATION CLIENT) 7/5/2016 74 DATA WAREHOUSE  Utilité du datamining dans le CRM (gestion de la relation client)  Mieux connaître le client  pour mieux le servir  pour augmenter sa satisfaction  pour augmenter sa fidélité (+ coûteux d’acquérir un client que le conserver)  La connaissance du client est encore plus utile dans le secteur tertiaire :  les produits se ressemblent entre établissements  le prix n’est pas toujours déterminant  ce sont surtout le service et la relation avec le client qui font la différence
  • 75.
    CRM (GESTION DELA RELATION CLIENT) 7/5/2016 75 DATA WAREHOUSE
  • 76.
    LE DATA MININGDANS LA TELEPHONIE 7/5/2016 76 DATA WAREHOUSE  Deux événements :  ouverture des monopoles nationaux à d’autres opérateurs télécom  arrivée à saturation du marché de la téléphonie mobile  D’où les sujets dominants dans la téléphonie :  score d’attrition (churn = changement d’opérateur)  optimisation des campagnes marketing
  • 77.
    LE DATA MININGDANS LA TELEPHONIE 7/5/2016 77 DATA WAREHOUSE  text mining (pour analyser les lettres de réclamation)  Problème du churn :  coût d’acquisition moyen en téléphonie mobile : 50,000 frs env  plus d’un million d’utilisateurs changent chaque d’année d’opérateur  En France, la loi Chatel (juin 2008) facilite le changement d’opérateur en diminuant le coût pour ceux qui ont dépassé 12 mois chez l’opérateur  la portabilité du numéro facilite le churn
  • 78.
    LE DATA MININGDANS LE COMMERCE 7/5/2016 78 DATA WAREHOUSE  Vente Par Correspondance  utilise depuis longtemps des scores d’appétence  pour optimiser ses ciblages et en réduire les coûts  des centaines de millions de documents envoyés par an  e-commerce  personnalisation des pages du site web de l’entreprise, en fonction du profil de chaque internaute  optimisation de la navigation sur un site web
  • 79.
    LE DATA MININGDANS LE COMMERCE 7/5/2016 79 DATA WAREHOUSE
  • 80.
    LE DATA MININGDANS LE COMMERCE 7/5/2016 80 DATA WAREHOUSE  Grande distribution  analyse du ticket de caisse  détermination des meilleures implantations (géomarketing)
  • 81.
    Bibliographie Supports de Cours Karima Tekaya – « Informatique Décisionnelle » - INSAT  Fatma Baklouti – « Les entrepôts de données (Data Warehouses) » - INSAT  Hweichao Lu – « Online Analytical Processing (OLAP) » - CS157B-02 Spring 2007  Didier Donsez – « Systèmes d’information décisionnels (Data Warehouse / Data Mining) » - Université Joseph Fourier  Jacky Akoka et Isabelle Comyn-Wattiau – « Le Data Warehouse et les Systèmes Multidimentionnels » - Université de Versailles Livres  Ralph Kimball - « Concevoir et déployer un Data Warehouse » - Editions Eyrolles, 2000 7/5/2016 81 DATA WAREHOUSE
  • 82.

Notes de l'éditeur

  • #15 Rollup: moving from finer-granularity data to coarser granularity Drill-down: opposite to Rollup