Chp3 - Modélisation Multidimensionnelle

10 644 vues

Publié le

Visitez http://liliasfaxi.wix.com/liliasfaxi

3 commentaires
10 j’aime
Statistiques
Remarques
Aucun téléchargement
Vues
Nombre de vues
10 644
Sur SlideShare
0
Issues des intégrations
0
Intégrations
1 432
Actions
Partages
0
Téléchargements
1 184
Commentaires
3
J’aime
10
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Chp3 - Modélisation Multidimensionnelle

  1. 1. Institut National des Sciences Appliquées et de Technologie Business Intelligence Chp3 – Modélisation des Données Décisionnelles Dr. Lilia SFAXI GL5 - 2013-2014 1
  2. 2. Modélisation des Données Décisionnelles  Utilisation de concepts pour : o Optimiser la restitution de données selon les axes métiers de l’entreprise o Gérer et visualiser les données de manière rapide et intuitive o Retrouver et analyser rapidement les données à partir de diverses sources o Intégrer plusieurs bases de données o  2 Extraire, grouper, organiser et corréler et transformer les données Deux types de modélisations: Entité-Relation et Multidimensionnelle Business Intelligence 27/02/2014
  3. 3. Modèles de Données Business Intelligence 3 27/02/2014
  4. 4. 4 Plan du Chapitre  Modélisation Entité-Relation  Modélisation Multidimensionnelle  Conception des Data Warehouses : Etapes et Exemple  Modèles d’un Data Warehouse  Aspects Fondamentaux de la Modélisation Multidimensionnelle Business Intelligence 27/02/2014
  5. 5. 5 Modélisation Entité-Relation Business Intelligence CHP3: MODÉLISATION DES DONNÉES DÉCISIONNELLES 27/02/2014
  6. 6. 6 Modélisation Entité-Relation  Discipline permettant d’éclairer les relations microscopiques entre les données o o Simplifier le traitement des transactions o  Supprimer la redondance des données Aider le concepteur dans la répartition des propriétés entre les entités Principes o Notion d’identifiant o Dépendance fonctionnelle o Décomposition o Formes normales Business Intelligence 27/02/2014
  7. 7. 7 Normalisation dans les BDR  Forme normale : o o Permet d’éviter les anomalies transactionnelles dues à une mauvaise modélisation des données o  Type de relation particulier entre les entités Permet de vérifier la robustesse de la conception des modèles de données pour éviter les problèmes de redondance et de mise à jour du contexte Dans le modèle OLTP, il existe 8 formes normales o Elles s’emboitent les unes dans les autres o Le respect d’une FN de niveau supérieur implique le respect des FN des niveaux inférieurs o On va présenter les 3 premières (les plus utilisées) Business Intelligence 27/02/2014
  8. 8. 8 Première Forme Normale (1FN)  Relation dont tous les attributs : o Contiennent une valeur scalaire (les valeurs ne peuvent pas être divisées en plusieurs sousvaleurs dépendant également individuellement de la clé primaire) o Contiennent des valeurs non répétitives (le cas contraire consiste à mettre une liste dans un seul attribut). o Sont constants dans le temps (utiliser par exemple la date de naissance plutôt que l'âge). Problème Produit Téléviseur Solution Fournisseur Fournisseur Téléviseur Vidéo SA Téléviseur Business Intelligence Vidéo SA, Hitek LTD Produit Hitek LTD 27/02/2014
  9. 9. 9 Deuxième Forme Normale (2FN)  Les attributs d'une relation sont divisés en deux groupes : o o  Le premier groupe est composé de la clé (une ou plusieurs). Le deuxième groupe est composé des autres attributs (éventuellement vides). Tout attribut du deuxième groupe ne peut pas dépendre que d'un sous-ensemble (strict) d'attribut(s) du premier groupe. o « Un attribut non clé ne dépend pas que d'une partie de la clé » Problème Pdt Fournisseur Solution Adresse Fournisseur Produit Fournisseur Fournisseur Adresse Télé Vidéo SA 13 rue Midi Télé Vidéo SA Vidéo SA 13 rue Midi Ecran Vidéo SA 13 rue Midi Ecran Vidéo SA Hitek LTD 25 rue Bond Télé Hitek LTD 25 rue Bond Télé Hitek LTD 27/02/2014
  10. 10. 10 Troisième Forme Normale (3FN)  Les attributs d'une relation sont divisés en deux groupes : o o  Le premier groupe est composé de la clé (une ou plusieurs). Le deuxième groupe est composé des autres attributs (éventuellement vides). Tout attribut du deuxième groupe ne peut pas dépendre que d'un sous-ensemble (strict) d'attribut(s) du deuxième groupe. o « Un attribut non clé ne dépend pas d'un ou plusieurs attributs ne participant pas à la clé ». Problème Fournisse ur Adresse Vidéo SA 13 rue Midi Paris Hitek LTD 25 rue Bond London Business Intelligence Ville Solution Pays Fournisse ur Adresse Ville France Vidéo SA 13 rue Midi Paris England Hitek LTD 25 rue Bond London Ville Pays Paris France London England 27/02/2014
  11. 11. 11 Modélisation Entité-Relation  Le succès du traitement des transactions dans les BDR est essentiellement dû à l’apport de la modélisation entité/relation  Exemple o simple recherche dans une table principale d'adresses clients. une o Cette recherche est contrôlée par une clé d'adresse client, qui définit l'unicité de l'enregistrement et permet une recherche indexée extrêmement rapide. o Le respect des formes normales fait que cette mise à jour soit faite en une itération, sans risque d’oublier des enregistrements Business Intelligence 27/02/2014
  12. 12. 12 Limites de la Modélisation E/R  Modèle complexe o Plusieurs tables et jointures mises en œuvre   Pas de compréhension pour l’utilisateur  Données historiques difficilement représentées  Business Intelligence Risque de dégradation des performances Contraire aux objectifs du DW 27/02/2014
  13. 13. 13 Modélisation Multidimensionn elle Business Intelligence CHP3: MODÉLISATION DES DONNÉES DÉCISIONNELLES 27/02/2014
  14. 14. Modélisation Multidimensionnelle : Notions de Base 14  Méthode de conception logique qui vise à présenter les données sous une forme standardisée, intuitive et qui permet des accès hautement performants  Permet de considérer un sujet analysé comme point dans un espace à plusieurs dimensions  Les données sont organisées de manière à mettre en évidence: o Le Sujet  Le Fait o Les perspectives de l’analyse  La table des dimensions Business Intelligence 27/02/2014
  15. 15. 15 Faits – Table des Faits  Fait o o Grain de mesure de l’activité o Résultat d’une opération d’agrégation des données o Exemple: Chiffre d’affaires, nombre de vente, gain, nombre de transaction… en général : une valeur numérique o  Sujet d’analyse Les mesures sont stockées dans la table des faits Table des faits o Clé composite référencent des clés primaires des tables de dimensions o Contient les valeurs des mesures et des clefs vers les tables de dimensions  traduit une relation (n,m) entre les dimensions o Plusieurs tables de fait dans un DW o Les faits les plus utiles d’une table des faits sont numériques et additifs Business Intelligence 27/02/2014
  16. 16. 16 Faits – Table des Faits  Exemple: o  Fait: Montant des ventes, chaque jour pour chaque produit dans chaque magasin A en général plusieurs lignes et peu de colonnes Date Dimensions Produit Business Intelligence Ventes Journalières Clé Date Clé Produit Clé Magasin Quantité vendue Montant des ventes Table des Faits Magasin Faits 27/02/2014
  17. 17. 17 Table des Dimensions  Contient une clé primaire unique qui correspond à l’un des composants de la clé multiple de la table des faits  Les tables dimensionnelles sont les points d’entrée de l’entrepôt de données  Les dimensions o o En général sous forme textuelle o  Thème (ou axe) selon lequel les données sont analysées Parfois discrète (ensemble limité de valeurs): couleurs, parfums A en général plusieurs colonnes et peu de lignes Business Intelligence Produit Clé Produit Description produit Description marque Description catégorie Description type emballage Taille emballage Poids Unité de mesure du poids Type de stockage Type de durée rayon Largeur sur étagère Hauteur sur étagère Profondeur sur étagère 27/02/2014
  18. 18. 18 Vue  Représentation d’une ou plusieurs requêtes de l’utilisateur du SID o o  À une requête correspond une et une seule vue À une vue peuvent correspondre plusieurs requêtes Une vue correspond également à un hyper-cube dont : o Chaque dimension est décrite par une entité dont le contenu est décrit par l’association de ces entités o Les propriétés de l’association sont des faits ou mesures o Les propriétés des entités intervenant dans la vue sont des conditions  Les combinaisons des conditions sont les coordonnées qui déterminent des valeurs de faits, comme une combinaison de valeurs numériques peut déterminer la position d’un point dans l’espace  Un fait n’est pas seulement un élément du résultat de la requête, mais il doit être déterminé par l’association des conditions Business Intelligence 27/02/2014
  19. 19. 19 Vue  Exemple 1: o Requête: Quels sont les frais de déplacement et le kilométrage des commerciaux de la région nord ayant des véhicules de 10 à 14 CV en avril 2004? o Vue: Faits   Kilométrage  Par Employé (fonction)  Par Véhicule (puissance)  Par Région Véhicule  Business Intelligence Frais de déplacement Par Mois Marque Puissance Employé Nom Fonction Clé Employé Clé Véhicule Clé Région Clé Mois Frais de déplacement Kilométrage Région Mois 27/02/2014
  20. 20. 20 Vue  Exemple 2: o Requête: Quelles ont été les marges sur les ventes du produit ‘P023’ pour le client Ben Salah Ahmed à Hammamet durant le mois de Janvier? o Vue: Client Nom Fonction   Produit  Client  Région Produit  Business Intelligence Marge Mois Région Nom Vue 1 Marge Mois 27/02/2014
  21. 21. 21 Vue  Exemple 3: o Requête: Quels ont été les revenus sur les ventes de la marque ‘Teams’ en Tunisie durant l’année 2011? Marque o Vue:   Pays  Business Intelligence Marque  Vue 2 Revenu Année Pays Année Revenu 27/02/2014
  22. 22. 22 Vue  Exemple 4: o Requête: Quels ont été les quantités vendues de la gamme ‘G006’ durant le Trimestre 2 pour la région du nord ? Gamme o Vue:   Trimestre  Business Intelligence Gamme  Vue 3 Quantité Région Région Trimestre Quantité 27/02/2014
  23. 23. 23 Domaine et Contexte  Domaine o o  Concerne un utilisateur ou un ensemble cohérent d’utilisateurs Implique un vocabulaire commun et une manière commune d’appréhender l’information Contexte o Ensemble de faits et dimensions assemblées selon des critères sémantiques formels de cohérence o Caractérisé par une association unique, groupant tous les faits relevés dans les vues Business Intelligence 27/02/2014
  24. 24. 24 Contexte : Activité des Ventes  En opérant une relation superficielle entre les trois vues des exemples 2, 3 et 4, on détecte deux sortes d’éléments de rapprochement o Certaines informations (entités ou faits) se retrouvent dans plusieurs vues o Certaines entités, appartenant à des vues différentes, sont fonctionnellement liées les unes aux autres. o On peut intégrer ces vues en un seul contexte comportant une association porteuse des faits: Marge, Revenu, Quantité, qui comporte neuf entités distinctes Business Intelligence 27/02/2014
  25. 25. 25 Contexte : Activité des Ventes  Contexte : Activité des Ventes Client Région Année Vue 1 Marge Produit Trimestre Mois Vue 2 Année Produit Revenu Pays Marge Revenu Quantité Région Gamme Gamme Vue 3 Région Client Mois Marque Trimestre Pays Marque Quantité 27/02/2014
  26. 26. 26 Hiérarchie  Élément fondamental dans la structure d’un contexte  Représente pour l’utilisateur des chemins de consolidation d’indicateurs (faits)  Chaque niveau est représenté par une entité  Certaines entités sont rattachées à d’autres par des liens d’appartenance ou de regroupement hiérarchique  Certains de ces chemins sont connus (Jour, Mois, Année), d’autres doivent être repérés par une analyse précise du vocabulaire des utilisateurs (Produit, Gamme, Marque) Business Intelligence 27/02/2014
  27. 27. 27 Hiérarchie : Activité des Ventes … … … … Business Intelligence Mois Trimestre Année Produit Gamme Marque Région Pays Client Catégorie Temps Produit Territoire Client 27/02/2014
  28. 28. 28 Granularité  Le « grain » d’une dimension est le niveau de sélection le plus fin possible de cette dimension o Le grain de la dimension Temps est Mois o Le grain de la dimension Territoire est Région  L’intégration de chaque nouvelle vue est donc susceptible de modifier le grain sur une ou plusieurs dimensions  Le grain d’un contexte découle de la combinaison des grains de toutes les dimensions. Il définit le niveau de détail pouvant être obtenu par la requête la plus sélective et la plus fine possible mettant en jeu toutes les dimensions. Business Intelligence 27/02/2014
  29. 29. 29 Granularité (Exemple)  Grain du contexte: combinaison Produit-Mois-Client-Région o  S’applique à tous les faits Règle: Tous les faits d’un contexte doivent être définis pour le grain de ce contexte o Si les 3 indicateurs marge, revenu et quantité sont dans le contexte, alors ils ont un sens à tous les niveaux. o Exemple: si la marge n’est définie que par Pays et par Mois, alors que les autres le sont par Région et par Trimestre, il y aurait décalage de grain entre les faits o Décalage  les faits n’appartiennent pas tous au même contexte  facteur d’incohérence Business Intelligence 27/02/2014
  30. 30. 30 Grain du contexte Vente Temps Année Client Trimestre Catégorie Mois Produit Gamme Produit Région Mois Client Marge Revenu Quantité Client Région Pays Marque Territoire Produit Business Intelligence 27/02/2014
  31. 31. Modélisation Multidimensionnelle: Caractéristiques  Lisibilité  Performances (chargement + exécution des requêtes)  Évolutivité  31 Redondances envisageables o o Pas de problème d’intégrité des données (contrôles à l’acquisition) o  Pas de mise à jour en ligne (chargement uniquement) Privilégier l’accessibilité plutôt que la normalisation Requêtes ensemblistes, portant sur de gros volumes de données o o Adaptation du modèle pour des requêtes ad-hoc o  Projections, restrictions, regroupements, agrégations Techniques d’optimisation basées sur les chemins d’accès Pré-calcul de certains agrégats + dé-normalisation Business Intelligence 27/02/2014
  32. 32. Modélisation Multidimensionnelle: Avantages  Structure prévisible et standardisée  Diminution du nombre de tables et de jointures  32 Modèle évolutif qui peut être modifié sans peine o Ajout de nouveaux faits non prévus initialement, à partir du moment où ils sont cohérents avec la granularité de la table des faits existante o Ajout de nouvelles dimensions, à partir du moment où une seule valeur de la dimension est définie pour chaque enregistrement factuel existant o Ajout d’attributs dimensionnels nouveaux o Changement de granularité: Décomposition des enregistrements d’une dimension existante en un niveau de détail plus fin à partir d’une date déterminée Business Intelligence 27/02/2014
  33. 33. Modélisation Multidimensionnelle: Inconvénients  Tables plus volumineuses  33 Fréquence d’accès très variable aux contenus des tables Business Intelligence 27/02/2014
  34. 34. Règles d’Élaboration et d’Intégration des Vues 34  La structure des vues externes se déduit directement des requêtes des utilisateurs, non des connexions possibles entre les entités  Dans un domaine, il existe un ou plusieurs sous-ensembles de vues liées entre elles par des critères de cohérence sémantique et structurelles.  Contextes  La liste exhaustive des vues n’est jamais figée  La normalisation du MDD permet d’anticiper et d’intégrer automatiquement dans chaque contexte le plus grand nombre possible de vues probables d’après la structure vue connues.  Entre deux entités intervenant dans une vue, il doit exister un et un seul chemin de navigation sémantique et ce chemin doit être le plus court possible Business Intelligence 27/02/2014
  35. 35. Démarche de Synthèse des VuesContextes  Identifier les faits de l’association  Identifier les liens de dépendance entre les entités  Regrouper les entités dépendantes dans une même dimension  35 Nommer les dimensions o Les dimensions pour lesquelles on trouve facilement un nom sont dites « Dimensions fortes » o Celles pour lesquelles on doute du nom associé sont dites « Dimensions douteuses »  Business Intelligence La structure d’une dimension douteuse peut varier à terme 27/02/2014
  36. 36. 36 Normalisation des Contextes  Un contexte regroupant un nombre élevé de dimensions a peu de chances de correspondre à une réalité et serait d’un maniement trop complexe o o  En général, le nombre de dimensions d’un contexte varie entre 4 et 12 dimensions Au delà de ce nombre, la probabilité de redondance dimensionnelle devient de plus en plus importante Un contexte est dit cohérent lorsque toutes les vues qu’il autorise ont une signification dans le domaine de l’utilisateur Business Intelligence 27/02/2014
  37. 37. 37 Règles de Normalisation Dimensionnelle  Règle 1: o o  Il ne doit pas y avoir de dépendance fonctionnelle entre deux entités appartenant à des dimensions différentes d’un même contexte Conséquence: Regroupement des entités dépendantes dans une même dimension Exemple: Si les produits sont organisés par région, on doit intégrer l’entité Région dans la dimension Produit Id_produit Id_région Id_mois Id_client Marge Revenu Quantité Business Intelligence Produit Id_produit Région Id_produit Id_mois Id_client Marge Revenu Quantité Produit Id_produit région 27/02/2014
  38. 38. 38 Règles de Normalisation Dimensionnelle  Règle 2: o o  Tous les faits d’un contexte doivent être définis d’une manière cohérente pour toutes les combinaisons dimensionnelles de ce contexte Conséquence: Les faits qui ne sont valables que pour certaines dimensions nécessitent l’éclatement du contexte Exemple: Mois Client Business Intelligence Id_produit Id_région Id_mois Id_client Marge_ventes Marge_achats Revenu Quantité Produit Id_produit Région La marge des achats ne correspond pas à un client et région. Il faut donc l’intégrer dans un autre contexte 27/02/2014
  39. 39. 39 Règles de Normalisation Dimensionnelle  Règle 3: o Tous les faits d’un contexte doivent être définis pour le grain de ce contexte    Le grain d’un contexte découle de la combinaison des grains de toutes les dimensions Le grain d’une dimension est le niveau de sélection le plus fin possible de cette dimension Règle 4: o Le graphe de chaque dimension doit être acyclique o Conséquence: Il faut rompre les cycles Gamme Gamme Marque Produit Région Pays Pays Produit Id_produit Marque Id_produit Région Business Intelligence Pays 27/02/2014
  40. 40. 40 Forme Dimensionnelle Normale  Le MDD correspond à un domaine qui se présente sous forme d’une constellation ou galaxie dans laquelle chaque étoile correspond à un contexte  Une même entité ou un même fait peut appartenir à plus d’un contexte, à condition de conserver une définition unique  Pour ces raisons pratiques, il est préférable de représenter les contextes sous une forme déconnectée Business Intelligence 27/02/2014
  41. 41. 41 Modèles d’un Data Warehouse Business Intelligence CHP3: MODÉLISATION DES DONNÉES DÉCISIONNELLES 27/02/2014
  42. 42. 42 Modèles d’un DataWarehouse  Modèle en étoile  Modèle en flocon de neige  Modèle en constellation Business Intelligence 27/02/2014
  43. 43. 43 Modèle Étoile  Une (ou plusieurs) table(s) de faits comprenant une ou plusieurs mesures  Plusieurs tables de dimension dé-normalisées: descripteurs des dimensions.  Les tables de dimension n'ont pas de lien entre elles.  Avantages o o Performances : nombre de jointures limité ; gestion des données creuses. o  Facilité de navigation. Gestion des agrégats Inconvénients o Redondances dans les dimensions. o Alimentation complexe.. Business Intelligence 27/02/2014
  44. 44. 44 Modèle en Étoile - Exemple Produit Code_pdt Description Couleur Marque Créateur Période Code_per Année Trimestre Mois Jour Business Intelligence Ventes Code_produit Code_période Code_Magasin Unités_vendues Montant_ventes Montant_coût Magasin Code_ma g Nom_mag Ville Téléphone Manager 27/02/2014
  45. 45. 45 Modèle en Flocon de Neige  Dérivé du schéma en étoile où les tables de dimensions sont normalisées o La table des faits reste inchangée  Chacune des dimensions est décomposée selon sa (ou ses) hiérarchie(s)  Exemple : Commune, Département, Région, Pays, Continent  Utilisé lorsque les tables sont très volumineuses  Avantages o o  Réduction du volume Permettre des analyses par pallier (drill down) sur la dimension hiérarchisée Inconvénients o Navigation difficile o Nombreuses jointures Business Intelligence 27/02/2014
  46. 46. 46 Modèle en Flocon de Neige - Exemple Marque Code_marque Nom Description Créateur Produit Code_pdt Description Couleur Code_marque Période Code_per Année Trimestre Mois Jour Business Intelligence Ventes Code_produit Code_période Code_Magasin Unités_vendues Montant_ventes Montant_coût Magasin Code_ma g Nom_mag Ville Téléphone Manager 27/02/2014
  47. 47. 47 Constellation  Fusionner plusieurs modèles en étoile qui utilisent des dimensions communes  Un modèle en constellation comprend donc : o Plusieurs tables de faits o Des tables de dimensions communes ou non à ces tables de faits. Business Intelligence 27/02/2014
  48. 48. 48 Modèle en Constellation - Exemple Produit Fournisseur Code_four Nom Adresse Catégorie Achats Code_produit Code_période Code_fournisseur Unités_achetées Montant_achats Montant_remises Business Intelligence Code_pdt Description Couleur Marque Créateur Période Code_per Année Trimestre Mois Jour Ventes Code_produit Code_période Code_Magasin Unités_vendues Montant_ventes Montant_coût Magasin Code_ma g Nom_mag Ville Téléphone Manager 27/02/2014
  49. 49. 49 Synthèse  Modèle en étoile o  Modèle en flocon de neige o  Taille de dimension plus grosse Jointures pour reconstruire Modèle en étoile >> Modèle en flocon o Business Intelligence car tables de dimension << tables de fait 27/02/2014
  50. 50. 50 Aspects Fondamentaux de la Modélisation MultiDimensionn elle Business Intelligence CHP3: MODÉLISATION DES DONNÉES DÉCISIONNELLES 27/02/2014
  51. 51. 51 Dimension  Une dimension peut être définie comme : o un thème, ou un axe (attributs), selon lequel les données seront analysées.  Ex : Temps, Découpage administratif, Produits.  Une dimension contient des membres organisés en hiérarchie : o Chacun des membres appartient à un niveau hiérarchique (ou niveau de granularité) particulier o Ex : pour la dimension Temps: année –semestre – mois – jour Business Intelligence 27/02/2014
  52. 52. 52 Dimensions - Caractéristiques  Dimension o  Temps, Produit, Géographie, ... Niveau : hiérarchisation des dimensions o o Produit : Rayon, Catégorie, Nature,... o  Temps : Année, Semestre, Trimestre, Mois, Semaine, ... Géographie : Région, Département, Ville, Magasin, … Membres d'un Niveau o o Produit:: gorie : Frais.Laitage, ... , Liquide.Jus o  Produit::Rayon Produit:: gorie.Nature : Frais.Laitage.Yaourt, ... , Liquide.Jus.Orange Cellule o  : Frais, Surgelé, ... , Liquide Intersection des membres des différentes dimensions Formule o calcul, expression, règle, croisement des dimensions  Business Intelligence Somme(Qte), Somme(Qte*PrixVente), Moyenne(Qte*(PrixVente-PrixAchat)), ... 27/02/2014
  53. 53. 53 Faits  Une mesure est un élément de donnée sur lequel portent les analyses, en fonction des différentes dimensions o Ex : coût des travaux, nombre d’accidents, ventes  Un fait représente la valeur d’une mesure, mesurée ou calculée, selon un membre de chacune des dimensions  Exemple : o Business Intelligence « 250 000 euros » est un fait qui exprime la valeur de la mesure « coût des travaux » pour le membre « 2002 » du niveau année de la dimension « temps » et le membre « Versailles » du niveau « ville » de la dimension « découpage administratif » 27/02/2014
  54. 54. 54 Faits – Table des Faits  Fait additif : o o  Additionnable suivant toutes les dimensions Exemples: quantité vendue, chiffre d’affaire, coût Fait semi-additif : o o  Additionnable selon certaines dimensions Exemples: Niveau de stock (excepté sur la dimension temps), Nombre de transactions, de clients (excepté sur la dimension produit) Fait non-additif : o Non additionnable o Exemple: attribut ratio (marge brute = 1- Coût/CA) Business Intelligence 27/02/2014
  55. 55. 55 Dimension Temps tout entrepôt   Reliée toute table de fait  2 choix d ’implantation o Type SQL DATE o Calendrier + Table Temps  Informations supplémentaires   Jours fériés, vacances, période fiscale,  Business Intelligence Évènement (match de finale de coupe du monde) saison haute ou basse, … 27/02/2014
  56. 56. 56 Opérations OLAP  Drill Up / Drill Down  Rotate  Slicing  Scoping Business Intelligence 27/02/2014
  57. 57. 57 Opérations OLAP - Drill Up/Drill Down Business Intelligence 27/02/2014
  58. 58. 58 Opérations OLAP - Rotate Business Intelligence 27/02/2014
  59. 59. 59 Opérations OLAP - Slicing Business Intelligence 27/02/2014
  60. 60. 60 Opérations OLAP - Scoping Business Intelligence 27/02/2014
  61. 61. 61 Stockage  ROLAP : Relational OLAP  MOLAP : Multi-Dimentional OLAP  HOLAP : Hybrid OLAP  DOLAP : Desktop OLAP Business Intelligence 27/02/2014
  62. 62. 62 ROLAP (Relational OLAP)  OLAP relationnel  Données obtenues à partir de tables relationnelles et de jointures entre celles-ci  En fonction de la granularité, la requête générée est plus ou moins complexe  A chaque consultation, la requête est recalculée o Les résultats ne sont pas stockés  Langage : SQL  Avantages o  Faible coût (car tire partie des ressources existantes) Inconvénients o Business Intelligence Temps de réponse long car sollicitation de la base à chaque relance d’un rapport 27/02/2014
  63. 63. 63 MOLAP (Multi-Dimentional OLAP)  OLAP multi-dimentionnel  Données stockées dans une base de données multi-dimentionnelle appelée CUBE o Exemple : Essbase…  Plus de relationnel!  Tous les croisements possibles sont précalculés o Restitution des données instantanée  Langage : MDX  Avantages o  Temps de réponse très court (toutes les données et résultats sont stockés) Inconvénients o Coût élevé des licences pour les bases multi-dimentionnelles o Coût élevé de développement des cubes o Difficile à mettre en place pour les gros volumes de données, à cause de tous les résultats précompilés Business Intelligence 27/02/2014
  64. 64. 64 HOLAP (Hybrid OLAP)  Association du ROLAP et du MOLAP  Concept de Drill-Through o o  Accès aux données agrégées avec MOLAP (Cube) Accès aux détails avec le ROLAP (tables relationnelles) Étapes : o Données agrégées stockées dans une table multi-dimentionnelle o Restitution de ces données à partir d’un outil de reporting    Affichage des données agrégées extraites à partir des tables multi-dimentionnelles Affichage des détails des opérations issus des bases relationnelles Avantages o o  Temps de réponse assez court Moins coûteux que MOLAP car moins de développement Inconvénients o Business Intelligence Ne pourra pas être utilisé si les rapports sont trop complexes et font trop de croisements de données 27/02/2014
  65. 65. 65 DOLAP (Desktop OLAP)  Ce n’est pas une technologie de stockage, mais un mode de fonctionnement.  Base de donnée OLAP limitée en taille  Permet à l’utilisateur d’enregistrer une partie de la base de données multidimentionnelle en local Business Intelligence 27/02/2014
  66. 66. 66 H-OLAP  Nouvelles fonctions pour SQL o BREAK BY (SAS) o RANK o TOP / BOTTOM : Requête de type « Top Ten » (les dix meilleurs, les dix moins bons) o Extension du Group By (SQL99) un agrégat   Rollup: réduire progressivement   Grouping Sets : Partitionnement selon plusieurs dimensions Cube : Partitionnement selon tous les sous-ensembles possibles de Grouping Sets MS MDX o Langage d’expression OLAP pour MS SQL Server o Exemples  Business Intelligence SELECT NON EMPTY {[Time].[1997], [Time].[1998]} ON COLUMNS, [Promotion Media].[Media Type].Members ON ROWS FROM Sales 27/02/2014
  67. 67. 67 Conception d’un Data Warehouse: Étapes et Exemples Business Intelligence CHP3: MODÉLISATION DES DONNÉES DÉCISIONNELLES 27/02/2014
  68. 68. 68 Conception d’un Data Warehouse  Étape 1 o  Choisir le processus à modéliser Étape 2 o Choisir le grain des faits o Décider de ce que représente une ligne de la table de faits   Étape 3 o Identifier les dimensions qui s’appliquent aux lignes de la table des faits   Niveau de détail : transactions individuelles, récapitulatifs journaliers, mensuels… Typiquement le temps, le client, le foyer, le produit, magasin, agence, compte… Étape 4 o Identifier les mesures de fait qui renseignent la table de faits  Business Intelligence De préférence des quantités numériques additives 27/02/2014
  69. 69. Conception d’un Data Warehouse Exemple : La Distribution  Processus : o Comprendre les achats des clients saisis aux Terminaux Points de Vente (TPV) o  69 Modéliser les ventes au niveau des TPV Etape 1 : Le premier modèle dimensionnel o Doit répondre aux questions les plus pressantes de l’utilisateur o Ses données doivent être les plus faciles à extraire o  Quels produits se vendent dans quel magasin, à quel prix, quand, dans quelles conditions de promotion? Business Intelligence 27/02/2014
  70. 70. Conception d’un Data Warehouse Exemple : La Distribution  70 Etape 2 : o Quel niveau de détail doit être disponible dans le modèle? o Principe: Obtenir un schéma basé sur les données les plus atomiques o  Donnée atomique : une ligne individuelle de transaction saisie sur un TPV pour mieux anticiper les requêtes ad-hoc des utilisateurs Business Intelligence 27/02/2014
  71. 71. Conception d’un Data Warehouse Exemple : La Distribution  71 Etape 3 : o o Principe: l’énoncé précis du grain détermine les dimensions principales o  Choix des dimensions Les dimensions supplémentaires qui peuvent être ajoutées doivent prendre une valeur unique pour chaque combinaison de valeurs des dimensions principales Dimensions principales o Temps o Produit o Promotion Date Magasin o Faits de Transaction TPV Clé Date Attributs Produit Clé Produit Attributs Business Intelligence Clé date Clé Produit Clé Magasin Clé Promotion … Magasin Clé magasin Attributs Promotion Clé Promo Attributs 27/02/2014
  72. 72. 72 Conception d’un Data Warehouse Exemple : La Distribution Produit  Clé Produit Description produit Etape 3 (Suite): Description marque Description catégorie o Dimension Produit Description type emballage  Attributs obtenus à partir du fichier Produits de l’application opérationnelle Taille emballage Poids Unité de mesure du poids Type de stockage Type de durée rayon Largeur sur étagère Hauteur sur étagère Profondeur sur étagère … Business Intelligence 27/02/2014
  73. 73. Conception d’un Data Warehouse Exemple : La Distribution  73 Etape 4 : Identifier les faits o Quantité vendue, montant de la vente en euros, coût standard en euro o Questions: stocker le bénéfice? La marge brute? o Principe: pourcentage et ratios sont non-additifs  Ne pas les stocker, mais stocker le numérateur et dénominateur Faits de Transaction TPV Date Clé Date Attributs Produit Clé Produit Attributs Business Intelligence Magasin Clé date Clé Produit Clé Magasin Clé Promotion Numéro de trans. TPV Quantité vendue Montant des ventes Coût Bénéfice Brut Clé magasin Attributs Promotion Clé Promo Attributs 27/02/2014
  74. 74. 74 Bibliographie  Supports de Cours o Karima Tekaya – « Informatique Décisionnelle » - INSAT o Fatma Baklouti – « Les entrepôts de données (Data Warehouses) » - INSAT o Didier Donsez – « Conception de Bases Décisionnelles » - Université Joseph Fourier o E. Grislin-Le Strugeon – « mes d’information Mining) » - Université de Valenciennes Business Intelligence cisionnels (Data Warehouse / Data 27/02/2014

×