SlideShare une entreprise Scribd logo
1  sur  32
Télécharger pour lire hors ligne
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
1
1
Département des Sciences de l’Informatique
Conception des
Entrepôts de Données
2012/2013
Mohamed Ali BEN HASSINE
Faculté des Sciences de Tunis
mohamedali.benhassine@fst.rnu.tn
Section: 5ème année Ingénieurs (IF5)
FST© Med Ali Ben Hassine 2012
2
Plan
Chapitre 1 : Introduction à l'informatique décisionnelle
Chapitre 2 : Les Entrepôts de données
Chapitre 3 : Modélisation multidimensionnelle
Chapitre 4 : L'algèbre multidimensionnelle
Chapitre 5 : Les SGBD décisionnels et Extension de SQL
Chapitre 6 : Les techniques d'optimisation dans les ED
Chapitre 7 : Le cycle de vie dimensionnel
Chapitre 8 : La fouille de données
Bibliographie
● Kimball R, Reeves L, Concevoir et déployer un data warehouse Guide de
conduite de projet, Eyrolles, 2000.
● Kimball R, Margy Ross, The Data Warehouse Toolkit: The Complete Guide to
Dimensional Modeling, 2nd Edition, Wiley Computer Publishing, 2002 .
● Inmon, W.H. : What is a Data Warehouse? Prism Solutions. Volume 1. 1995.
● Jiawei Han and Micheline Kamber: Data Mining : Concepts and Technics,
Morgan Kaufmann Publishers, Elsevier, 2006.
● Ladjel Bellatreche, Techniques d'optimisation des requêtes dans les data
warehouses, Sixth International Symposium on Programming and Systems, pp.
81-98, 2003
3
Chapitre 1
Introduction à l'informatique décisionnelle
4
FST© Med Ali Ben Hassine 2012
Plan
1. Contexte
2. L’information et la prise de décision
3. Informatique décisionnelle
4. Système d'information décisionnel
4.1 Système d'information
4.2 SID
4.3 OLAP et ROLAP
4.4 Architecture d’un SID
4.5 Historique des SID
5. Conclusion
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
2
● Besoin
 Prise de décisions stratégiques et tactiques
 Réactivité
● Qui?
 les décideurs (non informaticiens, non statisticiens)
● Comment
 Répondre aux demandes d’analyse de données
 Dégager des informations qualitatives nouvelles
Contexte
5
Quels tunisiens
consomment beaucoup
de poisson?
Qui sont mes
meilleurs clients?
Pourquoi et
comment le chiffre
d’affaire a baissé?
A combien s’élèvent
mes ventes
journalières?
Entreprise
■ une organisation dotée d’une mission et d’un objectif métier. Elle doit gérer
sa raison d’être et/ou sa pérennité au travers de différents objectifs
(sécurité, développement, rentabilité). Par voie de conséquence, cette
organisation humaine est dotée d’un centre de décision.
Objectifs d’une entreprise
■ Améliorer ses performances
■ Faire face à la concurrence
■ Développer sa part de marché
■ Etre plus entreprenante
 Prendre des risques, remettre en cause certain choix, se recentrer sur
des secteurs d’activité ou au contraire s’élargie sur des nouveaux.
Besoins des entreprises
6
Décision : action mentale volontaire qui vise à modifier ou déformer un
état de choses en vue d’atteindre un certain objectif.
(Courbon, 1982)
Objectifs (suite)
■ Meilleure connaissance de ses clients, de son environnement
 « profiler » ses clients pour mieux les satisfaire, voir même créer un
nouveau besoin chez eux.
■ Anticiper des événements de plusieurs types : évolution du marché,
fluctuation de consommation, etc.
■ Prendre des décisions stratégiques ayant une forte répercussion sur la
santé financière de l’entreprise.
Besoins des entreprises
7
 peut-être le responsable de l’entreprise, d’une fonction ou d’un secteur.
 engage la pérennité ou la raison d’être de l’entreprise.
 doit s’entourer de différents moyens lui permettant une prise de décision
la plus pertinente.
Qui?
■ le décideur (non informaticien, non statisticien) :
Besoins des entreprises
8
Besoins importants
■ Maîtriser ses données
■ Accéder à toutes les données de l’entreprise
■ Regrouper les informations disséminées
■ Exploiter ses données
■ Analyser rapidement les données pour prendre les bonnes décisions
Problèmes
■ Masse importante de données collectées
■ Nombreux systèmes d’information, souvent hétérogènes
■ Information surabondante, non organisée, éparpillée
■ Difficulté d’accéder à l’information
■ L’information brute n’a aucun sens ou une valeur ajoutée limitée.
■ Codification différente selon les services.
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
3
Besoins des entreprises
9
Solutions :
■ Sélectionner et transformer les données en informations fiables,
homogènes, utiles et accessibles par un traitement rapide, efficace et
productif.
■ La BI recouvre l’ensemble des technologies permettant de gérer et
d’exploiter les informations disponibles, en particulier le DW qui permet
de stocker ces informations stratégiques.
Années 70 : début de l’informatique de gestion :
■ Entrée de l'informatique de gestion dans les grandes entreprises.
Années 80 : informatique opérationnelle centralisée :
■ Arrivée dans beaucoup d’entreprises des BDR, des progiciels de
gestion, des premiers micro-ordinateurs.
■ Informatisation d’applications traitant des données directement liées à
l'activité quotidienne des organisations : paie, comptabilité, commandes,
facturation (informatique de production ou opérationnelle).
■ Architecture maître-esclave : maître = puissant ordinateur en site central
et esclaves = terminaux passifs en mode texte.
Evolution de l’informatique dans l’entreprise
10
Années 90 : informatique opérationnelle décentralisée :
■ Apparition des ordinateurs personnels et des réseaux locaux.
■ Développement d’application bureautiques : traitement de textes, tableurs,
petites BD, …
■ Architecture client-serveur permet de décloisonner la bureautique et
l’informatique opérationnelle et s’impose conduisant à une nouvelle
informatique orientée vers les utilisateurs et les centres de décision des
entreprises.
Années 2000 : Développement de l’Informatique Décisionnelle (ID) :
■ Développement de Systèmes d'Information Décisionnels (orientés décision).
■ Architecture client-serveur multi-niveaux (multi-tiers).
■ Entrepôt de données (Data Warehouse) : restructurer et exploiter des
quantités très grande de données historisées selon différentes dimensions.
■ Fouille de données (Data Mining) : extraction de connaissances à partir de
données, en général stockées dans ces entrepôts.
Evolution de l’informatique dans l’entreprise
11
■ Disposer de l’information pertinente était réservée aux managers.
■ L’information était centralisée.
■ Les décideurs n’avaient pas la maîtrise de l’ensemble des
informations de l’entreprise.
Avant les SID
■ Dans tous les secteurs économiques, dans toutes les entreprises,
l’information est devenue “le nerf de la guerre”.
■ L’information est omniprésente; la difficulté n’est plus de la recueillir, mais
de la rendre disponible sous la bonne forme, au bon moment et à la
bonne personne, qui saura l’exploiter et en tirer de la valeur ajoutée.
■ L’information devient un capital en temps.
■ L’information est une source de valeur pour l’entreprise.
Maintenant
L’information et la prise de décision
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
4
Les principaux aspects du décisionnel
13
■ Stratégie: appropriation et partage d'objectifs.
■ Organisation: institutionnalisation du dialogue de gestion, positionnement du
contrôle de gestion.
■ Finances et comptabilité: mesure de coûts, outils d'analyse économique.
■ Ergonomie et contenu : choix d'indicateurs, mise au point de tableaux de bord.
■ Système d'information : données, outils, infrastructures, intégration dans le SI.
■ L’information est la matière première de la décision : le décideur se détermine
sur la base des informations dont il dispose sur les éléments ayant un impact sur le
problème à résoudre.
■ L’identification des informations dont la connaissance est nécessaire est une
décision en soit.
■ Processus de décision : Selon H. Simon, le processus de prise de décision se fait
selon un modèle dit : Intelligence - Design - Choice (IDC)
La prise de décision
Contrôle
Choix
Conception
Renseignement Identifier et formuler le problème (constatation d’une
différence entre la réalité et ce qui est souhaité)
Imaginer des solutions alternatives possibles et
en déterminer les conséquences potentielles
Choisir une solution parmi les alternatives
Vérifier que la solution est conforme aux attentes
Modèle IDC
■ Décisions structurées :
Une décision est dite structurée quand :
 Les informations nécessaires à son élaboration sont disponibles
 Les alternatives possibles sont énumérables
 Les mécanismes d’évaluation des solutions sont connus
Exemples
 Gestion de stock,
 Planification de fabrication en raffinerie
 Les décisions structurées sont programmables.
Types de décisions : structurées ou non structurées
Les décisions sont de deux types :
1. Décisions structurées
2. Décisions faiblement ou non structurées
■ Décisions faiblement ou non structurées :
Une décision est dite faiblement ou non structurée quand :
 Les informations nécessaires à son élaboration sont plus ou moins
disponibles, sujette à interprétation ou suspectes.
 Les alternatives possibles sont non énumérables (explosion combinatoire).
 Les critères à satisfaire sont contradictoires.
Exemples
 Décisions faiblement structurées : Ordonnancement de fabrication,
préparation de budget, lancement d’un produit.
 Décisions non structurées : Gestion de projet, publicité, R&D
 En la simplifiant, une décision faiblement structurée peut devenir structurée et
donc programmable.
Types de décisions : structurées ou non structurées
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
5
■ Les décisions structurées sont exécutables via des procédures automatisées.
Elles constituent le Système d’Information Transactionnel (SIT). [voir plus loin]
■ Le système informatisé correspondant est composé d’applications de type
OLTP (On Line Transaction Processing).
■ Les décisions peu ou pas structurées ne peuvent pas être totalement prises en
se basant uniquement sur le SIT.
 Nécessité d’un autre système d’information au dessus du SIT
susceptible d’apporter une aide à ces décisions. C’est le Système
d’Information d’Aide à la Décision (SIAD). [voir plus loin]
■ Le SIAD a les caractéristiques suivantes :
● Utilise les données du SIT.
● Dispose en plus d’informations propres.
● Fournit un accès aisé aux informations pour les décideurs.
● Offre des possibilités de modélisation et de simulation.
● Laisse une place plus ou moins importante à l’informel.
Types de décisions et SI L'Informatique décisionnelle
Processus de décision humain:
18
Stimuliexternes
Stimuli internes
● Je reconnais une personne quand je
la vois parce que je l’ai déjà vue
 Je vois la personne
 Je compare cette vision avec ma
mémoire qui a stocké l’image des
personnes que je connais (image + nom)
● J’ai chaud
 S’il fait chaud dehors => c’est normal,
je vais me mettre au frais
 S’il ne fait pas chaud => j’ai de la fièvre
=> je vais chez le médecin
=> une information isolée a peu de valeur.
Elle n’a de sens que comparée à d’autres
informations
 Contexte
 Mémoire
L'Informatique décisionnelle
Système d’aide à la décision:
19
■ une information isolée a peu de valeur.
 On compare un chiffre à un objectif
(référentiel)
 On suit l’évolution d’un indicateur
dans le temps
 On fédère des données provenant de
plusieurs systèmes pour obtenir une
information à valeur ajoutée
Systèmesopérants
L'Informatique décisionnelle
■ Terme anglais : Business Intelligence (BI)
■ Définition 1: c’est la branche de l’informatique qui permet l'exploitation des
données de l'entreprise dans le but de faciliter la prise de décision. C'est-à-dire,
la compréhension du fonctionnement actuel et l'anticipation des actions pour un
pilotage éclairé de l'entreprise.
20
■ Définition 2: désigne les moyens, les outils et les méthodes qui permettent de
collecter, consolider, modéliser et restituer les données, matérielles ou
immatérielles, d'une entreprise en vue d'offrir une aide à la décision et de
permettre aux responsables de la stratégie d'entreprise d’avoir une vue
d’ensemble de l’activité traitée.
■ Objectifs
■ Vision globale de l’activité
■ Aide à la décision
■ Basée sur un entrepôt de données pour stocker des données transverses provenant
de plusieurs sources hétérogènes.
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
6
L'Informatique décisionnelle
■ Le flux informationnel lié au processus de la BI
21
Définir le 
problème
Rassembler 
les données
Analyser les 
données
Etablir les 
solutions
Décider
Temps de prise de décision
Champs d’application des 
systèmes décisionnels
■ Processus de prise de la BI
L'Informatique décisionnelle
22
23
Aide à la décision : Quelques notions à préciser
■ Pilotage
■ Indicateur
■ Tableau de bord
■ Reporting
24
■ Pilotage / décision
 Piloter : prendre des décisions pour réaliser des objectifs (qui sont
censés découler d'une stratégie).
 Décision: acte ponctuel, le pilotage étant une démarche permanente.
■ Pilotage stratégique / opérationnel
 Deux différences : niveau et horizon temporel de la décision
 Stratégique : direction, horizon à moyen – long terme
 Par ex. création d'une nouvelle unité, recrutement de médecin, etc.
 Opérationnel : niveau du service, de l'unité 'médicale'
 Horizon plus court (peut être mensuel, peut être aussi quotidien)
 Décisions concrètes de fonctionnement : par ex. planning infirmières
■ Performance d’une organisation : se caractérise par sa capacité à
atteindre les objectifs qu’elle s’est fixés, dans le cadre de sa stratégie"
■ Pilotage de la performance
 définir et quantifier le niveau de performance à atteindre,
 suivre et projeter l’atteinte de la cible,
 évaluer et analyser les résultats pour adapter sa stratégie.
gestion
d'unhôpital
Pilotage
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
7
25
■ Indicateur :
 Information qui doit aider un acteur à évaluer le cours d’une action vers
l’atteinte d’un objectif ou son résultat.
 C’est un élément d’alerte, d’analyse, et de décision.
■ Indicateur :
 à un domaine d’utilisation : dépend de l’objectif et de l’utilisateur,
 suppose l’existence d’une question qu’il contribue à éclairer,
 n’a pas de sens sans éléments d’interprétation,
 doit pouvoir être comparé dans l’espace et le temps,
 Indicateur de pilotage : n’est pertinent que s’il peut susciter une action.
■ Il se caractérise par :
 un libellé, une définition
 un champ : période de référence, établissement ou service
 une formule ou procédure de calcul
 les référentiels qu’il emploie
 une documentation (guide de lecture)
Indicateur
26
■ Tableau de bord
Outil destiné à un responsable pour lui permettre, grâce à des
indicateurs, présentés de façon synthétique et en référence à des
objectifs fixés, de contrôler le fonctionnement de son système, en
analysant des écarts significatifs, afin de prévoir, décider, agir.
Tableau de bord
■ Nécessité de tableaux de bord multi-niveaux
 Tableau de bord très synthétique pour la direction, puis
possibilités d’approfondissements service, par activité,
…
27
Modèle conducteur/automobile/ tableau de bord
■ Analogie avec la conduite d’un véhicule :
un tableau de bord est constitué d’indicateurs et de témoins
 Lisibles, rassemblés sur une surface réduite, de signification claire
 Importance de la forme et de la notion de zone de validité
Perturbations
Tableau de bord
Perception
Mesure
Action
Objectif
Contraintes
Tableau de bord
28
■ En résumé, un tableau de bord
 ne fournit pas de solution prête à l’emploi. Il utilise des sondes et des alertes.
 fournit des informations précises et vérifiées, nécessitant toutefois une analyse
 favorise le dialogue sur des bases communes pour maîtriser l’action collective
 décloisonne les services
 institue une culture de résultat
Tableau de bord
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
8
29
désigne l’ensemble des informations (rapports et bilans
analytiques) relatives aux réalisations d’une période
préparé pour un niveau de responsabilité supérieur
Reporting
Reporting / Tableau de bord
Tableau de bord
Pendant l’action
Reporting
Après l’action
(pour la hiérarchie)
Outil de mesure de performances et de contrôle
Contextes économique et informationnel de
l’informatique décisionnelle
Contexte économique :
■ Mondialisation de l'économie, ouverture de nouveaux marchés
■ Concurrence toujours plus accrue
■ Besoin d'obtenir des informations pour prises de décisions de plus
en plus rapides
Contexte informationnel :
■ Décentralisation des données vers les utilisateurs
■ Difficulté d'accès à l'information qui est en trop grande quantité
■ Un enjeu stratégique d’entreprise
■ Les informations, une source de revenu et de compétitivité
Contexte informatique :
■ Puissance de calcul croissante
■ Capacité de stockage croissante
■ Bases de données de plus en plus importantes
■ SGBD de plus en plus performants (parallélisme, …)
■ Ouverture sur le Web, 30
31
FST© Med Ali Ben Hassine 2012
Système d’Information Décisionnel (SID)Système d’InformationSystème
Système :
32
■ est un tout constitué d'éléments en interaction dynamique, ces
éléments sont organisés et coordonnés en vue d'atteindre un objectif,
qui évolue dans un environnement.
FST© Med Ali Ben Hassine 2012
■ peut être considéré comme une « boîte noire » qui, soumise à des
entrées imposées par l’environnement du système, les transforme en
sorties satisfaisant des critères de performances que le système
s’efforce à atteindre par un mécanisme de régulation.
SYSTÈMEEntrées Sorties
ObjectifsRégulation
Système d’Information Décisionnel (SID)
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
9
• Information
Système d’ Information Décisionnel (SID)
33
: une donnée qui a un sens, et ce sens vient
d'un certain modèle d'interprétation.
Information = Donnée + Modèle d'interprétation
■ Une même donnée peut avoir plusieurs sens selon le modèle d'interprétation qui
lui est associé.
■ Exemple : la donnée `12101995' peut être aussi interprétée - par un anglo-saxon-
comme la date du 10 décembre 1995 (et non pas 12 octobre 1995).
■ Donnée : une description élémentaire, souvent codée, d'une réalité (chose,
transaction, événement, etc.). Elle peut revêtir plusieurs formes :
expression, caractère, papier, numérique, images, sons, etc.
34
Les informations sont des données traitées ou transformées qui aident
quelqu'un à prendre une décision ou à tirer des conclusions.
SI : Données, Information et Connaissance
Les données sont des faits qui n'ont pas encore été traités et dont on ne peut, à ce
stade, tirer aucun renseignement.
Données
(entrées)
Informations
(sorties)
Traitement
■ L’information se rapporte à un problème pour le sujet, donc à un contexte bien précis.
C’est cette caractéristique qui permet de distinguer entre connaissance et information.
■ La connaissance est l’ensemble d’informations interprétées par l’individus en lui
permettant de tirer des décisions.
35
■ La comparaison entre les paiements effectués et le calendrier des
versements nous renseigne sur la situation du prêt et sa chronologie -
informations qui peuvent être utilisées pour prendre une décision
concernant le suivi ou le provisionnement du prêt en question.
Une institution peut être noyée sous les données, sans pour autant
avoir beaucoup d'informations.
Exemple
■ une simple opération de paiement ne nous dit pas si le paiement a été
effectué en temps voulu et ne nous éclaire pas sur la situation du prêt.
SI : Données vs Information SI : Type d’Information
36
■ Niveau d'agrégation
 brutes
 élaborées
■ Flux
 Logistique
 Monétaire
 de personnel
 de l'actif
■ Utilisation
 Prise de décision
 planification stratégique
 gestion administrative
 régulation opérationnelle
■ Nature du support
 oral
 documentaire
 informatique
● L'information décisionnelle sort du système
● elle est instantanée ou historique
● elle est livrée à l'utilisateur à des fins de
reporting, d'analyse, de prévision
● L'information opérationnelle est liée au
fonctionnement immédiat de l'organisation
● elle évolue en temps réel
● elle est transactionnelle
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
10
SI : l'information utile
37
■ L'information n'est pas bonne ou mauvaise, elle est simplement
appropriée ou non.
une information est « appropriée » quand elle est livrée à la
bonne destination, au bon moment et sous une forme
directement exploitable par le destinataire.
Système d’Information Décisionnel (SID)
38
Définition 1: Le SI est un ensemble organisé de ressources (matériels,
logiciels, personnels, données et procédures) qui permet de regrouper, de
classifier, de traiter et de diffuser de l'information d’une organisation.
Système d’Information
Définition 2: Le SI est le système de couplage entre le système opérant
et le système de pilotage.
Systèmes d’information
Système de pilotage
Système opérant
Flux d’informations en
provenance de l’environnement
Flux entrant des
biens et services
Flux d’informations à
destination de l’environnement
Flux sortant des biens et
services
À ne pas confondre avec système informatique : ensemble d'équipements destiné
au traitement automatique de l'information.
39
C’est un système dans lequel s’effectuent les transformations
physiques ou intellectuelles sur les flux qui traversent
l’entreprise en vue de produire des sorties valorisées.
Système OpérantFlux en Entrée :
■ Matières
■ Argent
■ équipements
■ ressources humaines
■ informations
Sorties :
■ Produits
■ Services
Système Opérant Système Opérant et BD pour la prise de décision
■ Les données des opérations de tous les jours :
 source importante d'informations
 richesse importante pour l'entreprise
 il faut les utiliser au mieux
■ Idée :
 exploiter au mieux cette masse d'informations (BD existantes, applications de
production :OLTP ),
 rendre possible l'accès à toutes ces données accumulées dans le temps,
 analyser ces données pour produire de nouvelles informations permettant de :
 résumer et d'analyser l'importance de certains facteurs
 dégager des tendances générales
40
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
11
Système de Pilotage
41
« On ne peut améliorer que ce qu’on sait mesurer »
les informations fournies par mon
système comptable m’indiquent si
je gagne ou si je perds globalement
de l’argent, mais ne m’en explique
pas les causes et ne me suggère
aucun axe d’amélioration
j’ai besoin d’outils m’aidant
à formaliser mes projets
stratégiques, à suivre leur
avancement
Système de pilotage = outils d'analyse + outils de suivi
je connais mal la rentabilité réelle
de mes actes, de mes patients, de
mes filières de soins
je ne dispose pas des informations 
synthétiques, pertinentes et fiables 
me permettant de prendre les bonnes 
décisions au bon moment
je ne dispose pas des informations 
synthétiques, pertinentes et fiables 
me permettant de prendre les bonnes 
décisions au bon moment
je souhaite placer mon personnel
dans un contexte d’amélioration
continue de la performance
(objectifs individuels clairs, suivi
de leur réalisation ...)
Système de Pilotage
42
Système dans lequel les décisions sont prises concernant :
■ les objectifs assignés au système opérant.
■ l’affectation des ressources au système opérant.
■ le contrôle des résultats obtenus du SO.
■ la régulation.
■ l’évolution de l’organisation.
Système de Pilotage Objectifs,
affectation des ressources,
régulation
Résultats du
système opérant
Informations
externes
43
Parallèlement au flux physique, il y a un flux de décisions
L'information va permettre de
prendre les bonnes décisions.
1. Niveau stratégique (planification)
2. Niveau de pilotage
3. Niveau opérationnel (régulation)
Les différents niveaux d’un SI d’une organisation
Opérant Flux
physique
Pilotage
ContraintesContraintes
Flux de
décisions
Stra-
tegique
Les différents niveaux d’un SI d’une organisation:
44
3. Niveau opérationnel (régulation)
C’est le niveau hiérarchique le plus bas. Il agit sur les flux qui traversent
l’organisation en se basant sur les directives du niveau supérieur.
2. Niveau de pilotage
C’est le niveau hiérarchique moyen mettant en
œuvre les objectifs élaborés par le niveau
supérieur. Il détermine les moyens d’atteindre
les objectifs globaux :
● en les décomposant en sous-objectifs,
● en allouant les ressources nécessaires,
● en mettant en place les moyens de contrôle et
● en prenant les initiatives correction en cas de besoin.
1. Niveau stratégique (planification)
C’est le niveau le plus haut hiérarchiquement. Il consiste à :
● définir les objectifs de l’entreprise,
● définir les moyens et les scénarios pour parvenir aux objectifs, dans une vision à long terme.
● fournir au niveau inférieur un cadre d’objectifs à atteindre et une orientation pour les mettre en œuvre.
Opérant Flux
physique
Pilotage
ContraintesContraintes
Flux de
décisions
Stra-
tegique
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
12
Système Opérant, Système de Pilotage et SI
45
commandes
données
Modèle systémique des organisations
SI
SP Système de
Pilotage
Infos externes
Infos vers extérieur
SOSystème
Opérant
Flux entrant
Flux sortant
SI
décisionnel
(SID)
analyse + prise de
décisions
SI
opérationnel
(SIO)
activités
courantes
Zone de décisions
Système Opérant, Système de Pilotage et SI
46
Système d’Informations
Opérant
Système d’information opérationnel (SIO)
Stra-
tegique
Pilotage
analyse + prise
de décisions
commandes
données
Zone de décisions
Système d’information décisionnel (SID)
activités courantes
Modèle systémique des organisations
47
Systèmes
d’aide
stratégique
Prévision des ventes
à moyen terme
Plan à 5 ans
Prévision
budgétaires à
moyen et long
terme
Planification de
la force de travail
Systèmes
d’aide à la
décision
Gestion des
ventes
Analyse des
ventes
Contrôle
d’inventaire
Echéancier de
production
Budget annuel Analyse des
investissements
Analyse
prix/profit
Analyse des
localisations
Analyse des
coûts
Systèmes
transactionnels
Suivi des
commandes
Traitements
des
commandes
Contrôle des
machines
Ordonnancement
des usines
Contrôle des flux
de matériels
Paie
Gestion des
comptes
débiteurs
Gestion des
comptes
créditeurs
Audit
Reporting
fiscal
Gestion de
la trésorerie
Compensation
Formation
Gestion des
carrières
Vente Production Comptabilité Finance Personnel
Exemple de SI
48
Système d’Information Décisionnel (SID)
Définition 1 : Un SID est un système capable
d'agréger les données internes ou externes et de
les transformer en informations servant à une
prise de décision.
Définition 2 : Un SID est un ensemble de technologies destinées à
permettre aux collaborateurs d’accéder et comprendre les données de
pilotage plus rapidement, de telle sorte qu’ils prennent des décisions
meilleures et plus rapides pour atteindre les objectifs de son organisation.
Connaissances
Informations
Données
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
13
49
SID
Les SID, dans leur version la plus complète, permettent de répondre
aux questions suivantes :
■ Que s’est-il passé ?
■ Pourquoi cela s’est-il passé ?
■ Que va-t-il se passer ?
■ Que vient-il se passer ?
Différentes questions :
■ Quel est le volume des ventes par produit et par région durant le troisième
trimestre de 2011 ?
■ Quels sont les produits dont le volume des ventes baisse constamment
durant les 6 derniers mois de l'année ?
■ Est ce qu'une baisse de prix de 10% par rapport à la concurrence ferait
redémarrer les ventes du produit p ?
50
■ Les décideurs doivent :
● prendre rapidement des décisions
● prendre de "bonnes décisions"
● faire des prévisions pour orienter les choix de l'entreprise
SID
■ Un SID bien conçu doit donc :
● Fournir un accès à des données fiables.
● Présenter l’information de manière cohérente.
● Être acceptable et accepté par tous les utilisateurs.
● Faciliter la prise de décision. Connaître la signification d’une information
c’est bien, savoir quoi en faire c’est mieux.
● Aider à la diffusion de l’information et à la mise en œuvre des actions.
51
Comment faciliter la prise de décision ?
■ utiliser les données produites par l'entreprise dans la gestion quotidienne
■ produire régulièrement des données nécessaires au processus de décision
(résumés, synthèses, etc.)
■ disposer d'outils d'analyse de données
SID
La valeur ajoutée du décisionnel réside dans :
■ l’apport fonctionnel
■ la performance
■ la capacité à traiter de grands volumes de données
■ la capacité à évoluer
■ l’accessibilité
52
SID : Applications typiques
■ Banque et assurance
● Détermination de profils de clients (risques de prêt, nouveaux services)
● Suivi des clients, gestion de portefeuilles
● Mailing ciblés pour le marketing …
■ Econométrie
● Prévisions de trafics routiers
● Prévisions de mouvements boursiers …
■ Santé
● Etudes épidémiologiques
● Recherche de nouveaux médicaments …
■ Grande distribution
● Ciblage de clientèle, habitudes d’achat, secteurs géographiques …
● Opportunités de promotions, produits à succès, modes …
● Agencements de magasins (sur la base de corrélations entre produits).
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
14
Architecture d’un SID
53
Trois couches : alimentation, stockage, restitution
■ ETL (Extract Transform Load)
● Récupère des données hétérogènes, les transforme et les charge.
■ Entrepôt de données
● Stockage intelligent de l’information, associé à des outils de «navigation»
dans les données.
■ Outils de restitution
● Rapports prédéfinis, outils de requêtage, reporting de masse, tableaux de
bord dynamiques, …
■ Un «portail» pour fédérer l’ensemble
● Point d’entrée unique pour l’ensemble des applications.
● Gestion des droits d’accès en fonction du profil de l’utilisateur.
54
Architecture d’un SID
55
Fonctions d’un SID
● Collecte des données brutes dans leurs environnements d'origine, ce qui
implique des activités plus ou moins élaborées de détection et de filtrage;
● Intégration des données, c-à-d leur regroupement en un ensemble technique,
logique et sémantique homogène approprié aux besoins de l'organisation ;
● Diffusion, ou distribution d'informations élaborées à partir des données dans
des contextes appropriés aux besoins des utilisateurs ;
● Administration, qui gère le dictionnaire de données et le processus
d'alimentation de bout en bout, (le SID doit lui-même être piloté).
● Présentation se charge de
présenter les informations à
valeur ajoutée de telle sorte
qu'elles apparaissent de la
façon la plus lisible possible
dans le cadre de l’aide à la
décision
Historique de l’informatique décisionnelle
56
L’usage de l’informatique pour supporter des décisions n’est pas nouveau :
Années 70-80 : débuts de l’Informatique Décisionnelle :
● Développement d'outils d'édition de rapports, de statistiques, exploitant les BD du
Système d’information Opérationnel.
● Développement de petits systèmes d’aide à la décision à base de tableurs
(simulation budgétaire, …).
● Développement de systèmes experts (IA) systèmes à base de règles, conçus par
extraction de la connaissance d'un ou plusieurs experts :
■ bons résultats obtenus pour certains domaines d'application tels que la médecine, la
géologie, la finance, ...
■ mais formalisation sous forme de règles de la prise de décision est difficile voire
impossible dans de nombreux domaines.
● Développement de SIAD (DSS Decision Support Systems) : basés sur des
techniques de Recherche Opérationnelle (RO), la simulation, l’optimisation, …
Systèmes en général mal intégrés au système d'information opérationnel, et
devant être développés par des informaticiens.
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
15
Historique de l’informatique décisionnelle
57
Années 90-2000 : essor de l’informatique décisionnelle :
■ technologie informatique permettant le développement d’environnements
spécialisés pour l'aide à la décision notamment des entrepôts de données.
■ de nombreux algorithmes, souvent issus des statistiques et de l’IA,
permettant d'extraire des informations à partir de données brutes sont arrivés à
maturité.
■ ces algorithmes sont regroupés dans des logiciels de fouille de données et
permettent la recherche d'informations nouvelles ou cachées à partir de données.
■ de plus en plus ces données sont issues du Web, aussi la recherche
d’information et la fouille de données sur le Web (ou "Web Mining") sont de
plus en plus d’actualité.
Infocentre
58
■ Concept apparu au début des années 80.
■ Réponse à la difficulté des services informatiques de satisfaire les besoins
variés, nombreux et imprévisibles des décideurs.
■ L'infocentre peut être vu comme une interface entre un utilisateur (non
informaticien) et une BD de production ou privée (agrégation de données).
Cette interface permet à l'utilisateur d'accéder aux données facilement et
sans recourir à un langage.
Différence entre Infocentre et DataWarehouse
59
■ L’infocentre est une collection de données orientées sujet, intégrées, volatiles,
actuelles, organisées pour le support d’un processus de décision ponctuel.
■ Le DW est une collection de données orientées sujet, intégrées, non volatiles,
historisées, organisées pour le support d’un processus d’aide à la décision.
■ L’infocentre une solution décisionnelle qui consiste en une mise à disposition
simple des données de production.
■ Le DW complète l'infocentre par une 'Préparation' intelligente des données mises
à disposition :
● Mise en conformité et uniformisation des codes utilisés
● Choix des données à présenter : Mesures et Axes d'analyse, ainsi que du degré
d'historisation nécessaire
● Nettoyage des données présentés avant chargement
● Pré-agrégations répondant à des problématiques de performance, choix du degré
de finesse des mesures présentées.
Executive Information System (EIS)
60
■ Un EIS (ou encore système d'information pour dirigeants) est un système
destiné aux dirigeants qui ont besoin d'un outil d'aide à la décision mais qui ne
disposent pas de temps pour l'apprentissage.
■ Il s'agit en quelque sorte du « tableau de bord » informatisé des cadres
supérieurs, qui sert à la planification stratégique et à partir duquel on peut
produire des rapports, des graphiques, etc., faciles à consulter rapidement.
■ Un EIS permet de générer à partir d'une ou plusieurs bases de production un
ensemble d'informations agrégées (indicateurs) et de les présenter sous forme
de tableau de bord aux utilisateurs.
■ À la différence d’un SAD, l’EIS ne permet pas à l’utilisateur final de poser une
question qui n’aurait pas été prévue initialement.
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
16
61
SIO / SID
OLTP / OLAP
BDR / BDMD
Systèmes d’informations
Système de pilotage
Système d’information
opérationnel (SIO)
Système opérant
Entrepôt de
données
BPBPBP
OLAP
OLTP
Système d’information
décisionnel (SID)
ETL
Base de
production
62
SID et SIO
Opérationnel et Décisionnel sont deux technologies complémentaires
et indissociables, et il est vain de vouloir faire sans l’une ou l’autre.
63
SID / SIO
■ système de production
■ Informatique opérationnelle
■ représente aujourd'hui la majeure partie du SI
■ focalisé sur le fonctionnement courant (gestion des patients par exemple)
■ procédures répétitives
■ transactions
■ données élémentaires
■ Utilisation des bases de données relationnelles normalisées
SIO
Limites du SIO
■ données détaillées surabondantes et peu lisibles, absence de synthèses
■ mauvaise qualité informationnelle
■ compartimentage, absence de sémantique commune, incohérences
■ manque de recul historique
contenu très riche,
faible valeur informationnelle 64
SID / SIO
■ Informatique décisionnelle
■ destiné uniquement à produire de l'information et non à automatiser des opérations
■ découplé du SIO mais alimenté par le SIO
■ transforme les données pour améliorer leur valeur informationnelle
■ potentiellement concerné par tous les types de données
■ Modélisation dimensionnelle
■ Entrepôts de données, magasin de données
SID
Limites du SID
■ distinction SIO/SID artificielle
■ aller-retour SIO-SID malcommodé
■ besoins flous et changeants
■ prédominance des données internes
■ manque de données instantanées
■ périmètre limité aux structures de données les plus simples
■ Dénormalisation des bases de données
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
17
OLTP / OLAP
65
Les applications informatiques peuvent être classées en deux catégories :
■ Applications OLTP (On-Line Transactional Processing)
■ Applications OLAP (On-Line Analytical Processing)
OLTP / OLAP
Applications OLTP :
■ L'intégrité et la sécurité des données sont privilégiées.
■ Requêtes simples
■ Utilisées par des services de production : commerciaux, administratifs, production, etc..
■ Nécessitent la connaissance des structures des données.
■ Utilisent des bases de données de production (relationnelles)
■ Manipulent des données homogènes.
■ Nombre d'utilisateurs simultanés important.
■ Applications critiques.
Exemples d'applications :
■ Gestion bancaire
■ Systèmes de réservation
■ Gestion commerciale, personnel, production, etc.
66
Exemple de requête :
■ Le 15/01/2002 à 13h12, le client X a retiré 500DT du compte Y
OLTP / OLAP
67
Exemple de requête :
■ Quel est le volume des ventes par produit et par région durant le troisième
trimestre de 2002?
Applications OLAP :
■ Catégorie de traitements dédiés à l’ide à la décision dont des requêtes interactives
complexes sur des gros volumes de données.
■ L'analyse et la manipulation des données sont privilégiées.
■ Requêtes complexes
■ Applications d'aide à l'élaboration de stratégies
■ Utilisées par les DG, les services marketing, financiers, contrôleurs de gestion, etc..
■ Ne nécessitent pas la connaissance des structures des données.
■ Utilisent des entrepôts de données (modèle multidimensionnel)
■ Manipulent des données hétérogènes.
■ Nombre d'utilisateurs simultanés faible.
Exemples d'applications :
■ Analyse des tendances
■ Analyse des comportements
68
BD relationnelles / BD multidimensionnelles
Pays
France
Espagne
Allemagnepommes
poires
oranges
janvier
février
avril
Temps
Produits
Vente de
pommes en
Allemagne
en avril
Achat
PK id_achat
FK id_client
id_produit
Quantité
client
PK id_client
Nom
adresse
Produit
PK id_produit
Libellé
Famille
Les données nécessaires pour effectuer des analyses et en déduire des orientations
stratégiques peuvent être stockées dans des structures :
■ relationnelles ou
■ multidimensionnelles.
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
18
69
BD relationnelles / BD multidimensionnelles
Bases de données relationnelles
■ Structure tabulaire.
■ Croisement des données à l'aide des jointures.
■ Pas de redondance (doublons, agrégation).
■ Les résultats de requêtes sont sous forme de listes.
■ Opérations : Sélectionner, ajouter, mettre à jour et supprimer des tuples.
 Structures peu adaptées aux applications de type OLAP.
■ Les données sont organisées selon des axes.
■ Hypercube comprend autant de dimensions que d'axes d'analyse.
■ Possibilité de redondance des données.
■ Les requêtes peuvent exploiter toutes les combinaisons d'axes.
■ Temps d'accès stable.
■ Moins de risque d'erreurs dans la formulation des requêtes.
■ Langage MDX = Multidimensional Expressions (de Microsoft "OLE DB for OLAP")
 Structures bien adaptées aux applications de type OLAP.
Bases de données multidimensionnelles
Différences entre OLTP et OLAP
OLTP OLAP
Conception
 orientée application (Application de 
production, Facturation )
 structure statique  (E/R) 
 orientée sujet (Client, Produit, Vendeur)
 structure évolutive (en étoile, flocon)
Données
 détaillées, non agrégées
 récentes, mise à jour
 accessibles de façon individuelle
 normalisées
 Résumées, recalculées, agrégées.
 Historiques
 accessibles de façon ensembliste
 dénormalisées
Vue  relationnelle  multidimensionnelle
Requêtes / 
Utilisation
 simples, nombreuses, régulières, 
prévisibles, répétitives
 sensibles aux performances (réponses 
immédiates)
 accès à beaucoup de données
 complexes, peu nombreuses, 
irrégulières, non prévisibles
 non sensibles aux performances 
(réponses moins rapides)
 accès à beaucoup d'information
Utilisateurs
 agents opérationnels
 nombreux (des milliers)
 concurrents
 managers / analystes
 peu  (dizaines voir centaines)
 non concurrents
Accès  lectures, insertions, m‐à‐j, suppressions  lectures, insertions, mises à jour,
Taille  100MB à qcqs Go  100GB à qcqs To 70
Charge du serveur de données
opérationnel
décisionnel
opér. + décis.
taux
d’occupation
temps
Source: H.E.C. Liège - U.E.R. Systèmes d'Information (F. Fontaine)
71
Besoins décisionnels
Data Warehousedonnées
opérationnelles
contrôle d’info. détaillées
et récentes, rapports
standardisés
« interrogation et
rapports »
fichiers du
logiciel DM
BUSINESS INTELLIGENCEBUSINESS INTELLIGENCE
analyse ad-hoc, info.
globalisées, prise de
décisions
« OLAP - EIS»
découverte de
connaissance
« Data Mining »
En synthèse
72
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
19
Chapitre 2
Entrepôt de données
73
Plan
1. Introduction
2. Objectifs
3. Définition
4. Architecture
5. Processus ETL
6. Implementation
FST© Med Ali Ben Hassine 2012
■ La réponse tient en un mot : Entrepôt de données (data warehouse) !
■ Il ne faut pas être inquiet,... nous sommes tous fichés dans ces immenses
entrepôts de données : toutes actions liées à l’activité d’une entreprise sont
stockées dans un Data Warehouse (DW) pour en être analysées, via des outils de
datamining afin de nous étudier. Ceci dans un but bien précis :
celui de nous connaître afin de mieux identifier nos besoins
Introduction
c’est par pur « feeling » du responsable ou bien
par une stratégie de marketing bien plus
élaborée?
Par quel moyen, la publicité nominative (postal ou par
mail) est bien souvent en relation directe avec nos
habitudes de consommations ?
Comment choisir l’emplacement
des produits dans une grande
surface ?
74
Introduction - Problématique
Une grande masse de données :
– Distribuée
– Hétérogène
– Très détaillée
À traiter :
– Synthétiser / Résumer
– Visualiser
– Analyser
Pour une utilisation par :
– Des experts et des analystes d'un métier
– NON informaticiens
– NON statisticiens
75
Introduction – Problématique
Comment répondre aux besoins de décideurs afin d’améliorer les
performances décisionnelles de l’entreprise?
■ En donnant un accès rapide et simple à l’information stratégique.
■ En donnant du sens aux données.
■ En donnant une vision transversale des données de l’entreprise
(intégration de différentes bases de données).
■ En extrayant, groupant, organisant, corrélant et transformant
(résumé, agrégation) les données.
76
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
20
Introduction – Solution
● Mettre en place un SI dédié aux applications décisionnelles : un
entrepôt de données (datawarehouse).
● Transformer des données de production en informations
stratégiques.
77
Le DW est un système d’information dédié aux applications décisionnelles situé en :
■ Aval des bases de production (bases opérationnelles)
■ Amont des prises de décision basées sur des indicateurs (Key Business Indicators (KBI))
78
Entrepôt de Données
Entrepôt de Données (Définition)
Bill Inmon (1996)
79
Principe
■ base de données utilisée à des fins d’analyse.
■ récolte, stocke et gère efficacement des gros volumes données
pour la prise de décision.
■ assure un regroupement homogène et exploitable de données
hétérogènes, très nombreuses et distribuées.
" Un Entrepôt de Données est une collection de données orientées sujet,
intégrées, non volatiles et historisées, organisées pour la prise de
décision ".
Caractéristiques : orientées sujet
● orientées sujet («métiers») : Les données des entrepôts sont
organisées par sujet plutôt que par application. Par exemple, une
chaîne de magasins d’alimentation organise les données de son
entrepôt par rapport aux ventes qui ont été réalisées par produit et
par magasin, au cours d’un certain temps.
Production
Employé
Facturation
Données
Production
Données
Employé
Données
Facturation
80
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
21
Caractéristiques : Données intégrées
● intégrées : Les données provenant des différentes sources doivent
être intégrées, avant leur stockage dans l’entrepôt de données.
L’intégration (mise en correspondance des formats, par exemple),
permet d’avoir une cohérence de l’information.
Production
Employés
Facturation
Données
Client
81
Caractéristiques : Données non volatiles
● non volatiles : à la différence des données opérationnelles, celles de
l’entrepôt sont permanentes et ne peuvent pas être modifiées. Le
rafraîchissement de l’entrepôt, consiste à ajouter de nouvelles données,
sans modifier ou perdre celles qui existent.
82
Ajout
Modification
Suppression
Accès
Chargement
Bases de production Entrepôts de données
Caractéristiques : Données et historisées
● historisées : La prise en compte de l’évolution des données est
essentielle pour la prise de décision qui, par exemple, utilise des
techniques de prédiction en s’appuyant sur les évolutions passées
pour prévoir les évolutions futures.
Ventes Données
client
83
Pourquoi ne pas utiliser une BD?
BD et DW :
■ ont des objectifs différents et font des traitements différents
■ stockent des données différentes
■ font l'objet de requêtes différentes
 BD et DW ont besoin d'une organisation différente des données
 BD et DW doivent être physiquement séparés.
84
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
22
Processus de l’entreprise : Un exemple
85
Les clients
Les fournisseurs L’entreprise Les salariés
Gestion de la relation client,
optimisation des ventes
Gestion de la relation client,
optimisation des ventes
Optimisation des achats Gestion des RHprocessus opérationnels
Optimisation des
processus opérationnels
Les actionnaires
Enterprise Management
Finances, Strategic
Enterprise Management
Exemple 1/3
 Consolidation financière
 Analyse des coûts et de la profitabilité
 Gestion des risques
 Budget, planning, simulation, prévision
 Gestion de la relation actionnaires
 Management de la valeur
■ Gestion du temps de travail
■ Formation, recrutement
■ Fidélisation des salaries
■ Salaires et rémunération
■ Profitabilité client
■ Satisfaction client
■ Analyse comportementale, ciblage
■ Opportunités de ventes croisées
■ Efficacité de forces de ventes, canaux de distribution
■ Efficacité des opérations commerciales (promotion, publicité, etc.)
■ Performance du fournisseur
■ Optimisation des délais
■ Coûts et qualité du service
(interne et prestataires)
■ Performance de la production et de la logistique
(Coûts, Qualité, Délai)
■ Analyse des affectations, coût du temps travaille
Objectifs, enjeux
■ Retour sur investissement (RSI, en anglais Return Of Investment 'ROI')
■ Réduction des coûts et contrôle des limites
■ Avoir une vision de l’entreprise qui aide à sa gestion, à son pilotage.
■ Répondre à des questions auxquelles les progiciels orientés métier ne
peuvent faire face.
■ Les ERP ont apporté des solutions pour gérer les données de
l’entreprise selon un modèle unifié et cohérent, la Business Intelligence
les rentabilise.
86
Exemple 2/3
■ Quel a été l’impact de la dernière promotion sur cette gamme d’articles?
■ Quel a été le secteur d’activité le plus rentable dans cette région?
■ Quelle est la période où l’absentéisme est le plus fort ? Quelle est la catégorie de
personnel la plus touchée et quel est l’impact sur la production?
■ … Autant de questions auxquelles il est difficile de répondre, voire impossible si
elles mettent en jeu des données de plusieurs compartiments de l’entreprise.
■ Exemple de problème rencontré lors du passage d’une logique de compte à une
logique de client : Le client apparaît en de multiples endroits ; dans :
 La base marketing
 La base commerciale
 Le système de facturation
 Le système après vente
■ Toutes ces données doivent être homogénéisées, organisées et intégrées au sein
du Datawarehouse.
Requêtes
87
Exemple 3/3 Entrepôt de Données : Objectifs
Principaux objectifs :
1. regrouper, organiser des informations provenant de sources diverses,
2. les intégrer et les stocker pour donner à l’utilisateur une vue orientée métier,
3. retrouver et analyser l’information facilement et rapidement.
En plus:
4. Transformer un SI qui avait une vocation de production en un SI décisionnel.
Transformation des données de production en informations stratégiques.
5. Les informations d'un DW doivent être cohérentes.
6. Les données du DW doivent pouvoir être séparées et combinées au moyen de
toutes les mesures possibles de l'activité.
7. Le DW ne comporte pas seulement des données mais aussi un ensemble
d'outils de requêtes, d'analyse et de présentation d'information.
88
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
23
8. Gestion et visualisation des données doit être rapide et intuitive
visualisation multidimensionnelle des données:
9. La qualité de l'information d'un DW est l'un des ressorts de la réorganisation
des données (Business Reengineering).
Entrepôt de Données : Objectifs (suite)
Comment Fédérer/Regrouper l'ensemble des données de l'entreprise ?
89
Entrepôt de Données (Fonctions)
La construction d’un entrepôt revient à faire correspondre les besoins des
utilisateurs avec la réalité des informations disponibles.
Trois fonctions essentielles :
■ collecte de données de différentes bases existantes
■ Stockage de données (historisées)
■ Mettre à disposition les données pour :
 Interrogation
 Visualisation
 Analyse
90
Architecture
91
Différence entre un DW et un datamart
Un DW et un datamart se distinguent par le spectre qu'il recouvre :
● Le DW recouvre l'ensemble des données et problématiques d'analyse visées par
l'entreprise.
● Le datamart recouvre une partie des données et problématiques liées à un métier
ou un sujet d'analyse en particulier (finance, commercial, …)
 Mini DW lié à un métier particulier de l ’entreprise
● Un DW est souvent volumineux (plusieurs centaines de Go voire qcqs To ) avec des
performances inappropriées (temps de réponse trop longs).
● Un Data mart comporte moins de 50 Go, ce qui permet des performances
acceptables.
● La création d’un datamart peut être un moyen de débuter un projet de DW (projet
pilote).
92
Datamarts du service Marketing
Datamart du service
Ressources HumainesDW de l’entreprise
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
24
Différence entre un DW et un datamart
Pourquoi des datamarts ?
Les datamarts sont destinés à pré-agréger des données disponibles de
façon plus détaillée dans les DW, afin de traiter plus facilement certaines
questions spécifiques, critiques, etc.
93
Exemple : Ticket de caisse
Si un DW enregistre un ensemble de ventes d'articles avec un grain très
fin, un datamart peut faciliter une analyse dite de ticket de caisse (co-
occurrence de ventes de produits par exemple) en adoptant un grain
plus grossier (le ticket plutôt que l'article).
Catégories des données stockées
■ Données dans un DW : données du SIO + BD externes (ETL).
■ Quatre catégories de données :
 Les données de détail : issues des systèmes transactionnels de l’entreprise
"socle de l’entreprise". Leur stockage permet d’offrir aux utilisateurs du SID les
détails des chiffres affichés, par exemple, sur un tableau de bord.
 Les données agrégées : correspondent à des éléments d’analyse représentant
les besoins des utilisateurs. Elles constituent déjà un résultat d’analyse et une
synthèse de l’information contenue dans le système décisionnel, et doivent être
facilement accessibles et compréhensibles..
 Les méta données : décrivent les caractéristiques des données stockées :
origine, date de dernière m-à-j, mode de calcul, procédure de transformation.
Elles sont utiles aussi bien aux utilisateurs (comprendre les données) qu’aux
administrateurs (fournir des moyens d’exploitation et de maintenance du DW).
 Les données historisées : Couches de données dans lesquelles chaque
nouvelle insertion de données provenant du SIO ne détruit pas les anciennes
valeurs, mais créée une nouvelle occurrence de la donnée.
94
Processus ETL
95
■ L’ETL est une couche logicielle responsable de l’alimentation d’une BD à partir
de sources de données.
■ Dans un SID, l’ETL sert à alimenter l’ED ou bien les magasins de données .
■ L’ETL fait partie des middlewares (intergiciels)
Importance de l’ETL
96
■ Constitue 70 à 80% du temps passé dans un projet décisionnel.
■ La qualité de l’ED dépend de la qualité de l’ETL :
 Temps de chargement
 Fréquence de chargement
 Qualité des données (QoD)
 Qualité des services (QoS)
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
25
Processus ETL
Outils d’alimentation pour
■ Extraire
■ Transformer
■ Charger dans un DW
97
données
sources
ETL = Extracteur+Intégrateur
Extract + Transform + Load
Objectif
● Obtenir des informations consolidées et stables dans l’entrepôt.
● Tache difficile à mettre en œuvre
ETL – Extraction
■ Objectif : Identifier et localiser les données sources pertinentes (BDR,
fichiers, …) puis les collecter et les extraire des différents systèmes
opérationnels.
■ Fonctionnalités :
 Traiter différents formats (XML, HTML, TXT, CSV, DB2, Oracle…).
 Gérer les connexions aux sources (ODBC, JDBC...).
 Extraire le dictionnaire des sources (propriété des colonnes, clés…).
 Extraire les données de manière performante et sans perturber les
environnements de production.
 Détecter les données qui ont été modifiées dans les sources.
 Ajouter des contrôles (fichier de rejets, audits…).
 Stocker l’ensemble des règles d’extraction dans le référentiel.
98
ETL – Extraction
99
Extraction logique
Traite la quantité des
données à extraire
Extraction
Extraction physique
Traite l’aspect technique de
l’opération de l’extraction
■ totale : extraire toutes les données
dans un seul coup
■ incrémentale(partielle) : à chaque
fois, extraire une partie des données
■ directe (Charger les données
directement au DW)
■ indirecte (passer par staging
area)
100
Deux principales possibilités
■ Extraction des changements:
■ Que les parties des données ayant été modifiées depuis la dernière
procédure d’extraction sont transmises au système DW.
■ Modifications peuvent être des insertions de tuples (insert), des effacements
de tuples (delete). Des modifications de tuples existants (update) sont
typiquement implémentés par une suite insert+delete.
■ Copie intégrale des données source (snapshot)
■ S’utilise lorsque le nombre de changements individuels est trop important ou
si l’extraction des changements n’est pas possible due à des raisons
techniques.
■ Conflit d’intérêt: Extraction de données cohérentes vs. restriction du
fonctionnement opératif causé par l’accès exclusif des données, nécessaire
durant l’extraction.
ETL – Extraction
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
26
ETL –Transformation
Problématique
■ Existence de plusieurs sources
■ non conformité des représentations
■ découpages géographiques différents
■ 5 à 30 % des données des BD commerciales sont erronées
■ une centaine de type d’inconsistances ont été répertoriées
données erronées analyse erronée !
DW
BP
BP
BP
■ Transformation : Étape importante garantissant que les données intégrées dans
le DW seront cohérentes et fiables.
101
■ Objectif
 Transformer les données sources selon les
unités de mesure et les formats de l’ED.
 Homogénéiser les données sources.
 Nettoyer les données.
 Suppression des incohérences sémantiques.
 Dater les données.
 Créer des clés. 102
Suppression des incohérences sémantiques entre les sources pouvant
survenir lors de l’intégration :
■ des schémas :
 problème de modélisation : différents modèles de données sont utilisés
 problèmes de terminologie : un objet est désigné par 2 noms différents, un même
nom désigne 2 objets différents
 incompatibilités de contraintes : 2 concepts équivalents ont des contraintes
incompatibles
 conflit sémantique : choix de différents niveaux d’abstraction pour un même concept
 conflits de structures : choix de différentes propriétés pour un même concept
 conflits de représentation : 2 représentations différentes choisies pour les mêmes
propriétés d’un même objet
■ des données :
 Equivalence de champs
 Equivalence d’enregistrements : fusion d’enregistrements
ETL –Transformation
103
Objectif : Résoudre le problème de consistance des données au sein
de chaque source.
ETL – Transformation
■ présence de données fausses dès leur saisie
 faute de frappe
 différent format dans une même colonne
 (jj/mm/aa, mm/jj/aa, jj-mois  jj/mm/aaaa)
 texte masquant de l’information (e.g., “N/A”)
 valeurs nulles et valeurs incohérentes
 9999, xxxx, non renseignée, inc,  inconnue
 Traiter les valeurs manquantes et les valeurs incohérentes (ignorer, remplacer,
saisir manuellement ces valeurs manquantes)
 incompatibilité entre la valeur et la description de la colonne
 duplication d’information (Référence des produits, des clients dans
différentes sources)
Types d’inconsistances
Nettoyage
104
■ persistance de données obsolètes
■ confrontation de données sémantiquement équivalentes mais
syntaxiquement différentes (Problèmes de codage et de nommage)
 Employé, Personnes, Salariés, Personnel  Employés
 Boulvd, Bd, Boulevard  Boulevard
Types d’inconsistances (suite)
un outil de nettoyage comprend
■ des fonctions d’analyse
■ des fonctions de normalisation
■ des fonctions de conversion
■ des dictionnaires de synonymes ou d’abréviations
ETL – Transformation Nettoyage
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
27
105
Définition de table de règles
remplacer valeur par
Mr M
monsieur M
mnsieur M
masculin M
M M
Msieur M
M. M
Monseur M
normalisation, conversion, dictionnaires, ...
Exemple de conversions :
utilisation d’expression régulière, suppression de doublons, de valeur nulle, ...
ETL – Transformation Nettoyage
106
■ 5 étapes de nettoyage de données:
1. Décomposition des données source en éléments (elementizing)
Par exemple adresse  rue, numéro, code postal, ville
2. Adaptation des éléments à un format standard (standardizing) : par exemple,
adoption d’un même format pour les dates (jj/mm/aaaa), "1ST AVE"  "First Avenue"
3. Vérification de la plausibilité de données (vérification) : par exemple le conflit entre
code postal = «91400» et ville = «Paris» est identifié et résolu
4. Alignement des données (matching) : par exemple vérification de l’existence d’un
produit (tuple provenant d’une source) dans la BD intégrée. Si un produit y existe
déjà, sa représentation intégrée est adaptée.
5. Formation de groupes (householding)
Vérification de l’appartenance de nouveau tuples à un groupe de tuples de la BD
intégrée intéressant au niveau application (bénéfique lors des analyses).
Par exemple, formation / élargissement du groupe «type de consommateur».
ETL – Transformation Nettoyage
ETL – Chargement Données nettoyées et transformées
■ Fonctionnalités :
 Traiter les messages reçus du système de transformation des données.
 Insérer de nouvelles données et archivage de données anciennes.
 Ordre de chargement :
1. Tables de Dimensions
2. Tables de Faits
 Mettre à jour périodiquement les tables de faits (selon le grain).
 Gérer les gros volumes de données (index, partitionnement,
parallélisation, chargement en blocs…).
 Ajouter des contrôles (fichier de rejets, audits…).
 Stocker l’ensemble des règles de chargement dans le référentiel
■ Objectif : Charger les données transformées dans l’entrepôt.
107
ETL – Chargement Techniques
■ Basées SQL
 Interface standard: embedded SQL, JDBC, ...
 Opération / extension propriétaire: Array Insert
 Considération et activation de toutes les méthodes BD: déclencheurs,
actualisation d’indexes, concurrence, ...
■ Chargement de masse (bulk load): Extension spécifique d’un système
BD dédiée au chargement de larges volumes de données.
■ Utilisation d’interfaces d’application: nécessaire chez certains vendeurs
(SAP)
108
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
28
Cycle de vie de l’ETL
■ La mise en place de l’ETL passe par les étapes suivantes :
1. Conception de l’ETL :
 Identification des sources de données
 Correspondance des données
 Définition des transformations
 Structure de la zone d’attente
2. 1er chargement :
 Chargement de toutes les données sources
3. Rafraichissement de l’ED :
 Chargement périodique des données
■ Mise à jour de l’ETL lorsque les structures sources ou cibles
changent
109
Fréquence de l’ETL
■ Dépend de :
 la granularité de la dimension Temps
 la disponibilité des données sources
 la fréquence d’utilisation de l’ED
■ Dans certains cas, pour gagner du temps, on peut avoir une
fréquence de chargement inférieure à celle de la granularité de la
dimension temps.
■ Exemple :
 Granularité Temps = mois
 Fréquence de chargement = jour
110
La méthode pull et la méthode push
■ Techniques de détection des mises à jour effectuées sur la BD
opérationnelle et son envoi à l ’entrepôt pour sa mise à niveau ultérieure.
 avec la méthode pull, c’est le SID qui recherche périodiquement les
données dans les BD opérationnelles. Cette méthode alimente le SID
en temps différé, cependant la quantité volumineuse de données à
chaque transfert peut être coûteuse en temps.
 avec la méthode push, c’est le SIO qui au fil de l’eau de ses
transactions alimente le SID. Cette méthode alimente le SID en temps
direct ce qui oblige à revoir le code des applications opérationnelles.
111
Outils ETL
■ Sans outils :
 Commandes SQL et utilitaires du SGBD source et cible
 Programmation (PL/SQL)
■ Outils propriétaires :
 Oracle Warehouse Builder
 IBM DB2 Warehouse Manager
 Microsoft Integration Services
 …
■ Open source :
 Talend Open studio
 Pentaho Data Integration
 …
■ Comparatif des outils ETL open source
 http://alma.univ-nantes.fr/promotions/2007-08/stages/08-obs-francheteau.pdf
 http://www.atolcd.com/fileadmin/Publications/Atol_CD_Livre_Blanc_ETL_Open_Source.pdf
112
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
29
Modélisation d'un DW
• Les BD relationnelles ne sont pas adaptées à l'OLAP car :
 Pas les mêmes objectifs
 Pas les mêmes données:
 Les données nécessaires à l'OLAP sont multidimensionnelles (i.e.
ventes par vendeur, par date, par ville, …). Les tables en représentent
une vue aplatie.
 Pas les mêmes traitements et requêtes:
 Non seulement perte de performances mais aussi nécessité pour les
utilisateurs de savoir comment trouver les liens entre les tables pour
recréer la vue multidimensionnelle.
• Il est donc nécessaire de disposer d'une structure de stockage adaptée à l'OLAP,
i.e. permettant de :
 représenter les données dans plusieurs dimensions,
 manipuler les données facilement et efficacement.
Nécessité d'une structure multidimensionnelle
 (Chapitre 3)
113
Implémentation d'un data warehouse
3 possibilités:
1. Relational OLAP (ROLAP)
2. Multidimensional OLAP (MOLAP)
3. Hybrid OLAP (HOLAP)
[Ces concepts seront détaillés dans le chapitre 5]
114
115
ROLAP
Idée:
● Données stockées en relationnel.
● La conception du schéma est particulière: schéma en étoile, en flocon.
● Des vues (matérialisées) sont utilisées pour la représentation
multidimensionnelle.
● Un moteur ROLAP permet de simuler le comportement d’un SGBD
multidimensionnel (Traduction des requêtes OLAP (slice, rollup…) en SQL)
● Utilisation d'index spéciaux: bitmap.
● Administration (tuning) particulière de la base.
Avantages/inconvénients
● Souplesse, évolution facile, moins
cher à mettre en place stockage
de gros volumes.
● Mais peu efficace pour les calculs
complexes. 115
MOLAP
Idée:
● Utilise un système multidimensionnel pour gérer les structures multidimensionnels
● Modélisation directe du cube.
● Ces cubes sont implémentés comme des matrices à plusieurs dimensions.
● CUBE [1:m, 1:n, 1:p…] (mesure)
● Le cube est indexé sur ses dimensions.
Avantages/inconvénients
● rapide
● formats propriétaires
● ne supporte pas de très gros volumes de données
116
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
30
HOLAP
Idée:
● MOLAP + ROLAP
● Données stockées dans des tables relationnelles
● Données agrégées stockées dans des cubes.
● Les requêtes vont chercher les données dans les tables et les cubes.
● Solution hybride entre MOLAP et ROLAP
● Bon compromis au niveau coût et performance
117
Administration d'un ED
■ L'ED est un aspect physique du SI de l'entreprise. Il doit être par conséquent
évolutif. Les données doivent donc changer. On doit procéder à d'autres
alimentations et donc gérer l'actualisation des données.
■ Il existe des outils qui prennent en charge les tâches de rafraîchissement des
données.
■ Ils procèdent par réplication pour propager les m-à-j effectuées dans les BD
sources, dans l'ED.
■ Le mécanisme de réplication et une opération de copie de données d'une BD
vers une ou plusieurs BD.
■ Les réplications sont alors asymétriques synchrones ou asynchrones ou alors
symétriques synchrones ou asynchrones.
■ Le rafraîchissement des données peut se faire également par des processus de
transformation qui exploitent les méta-données.
118
Administration d'un ED
■ La fonction d'administration porte sur un aspect fonctionnel (qualité et la
pérennité des données) mais aussi sur un aspect technique (maintenance,
optimisation, sécurisation,...)
■ Elle concerne l'ensemble des tâches du processus d'entreposage de la sélection
des données de production à la mise à disposition pour construire les espaces
d'analyse.
■ L'administrateur de l'ED doit maîtriser la gestion des données (données,
provenance des données, méta-données).
■ Les données agrégées sont aussi une production (information) de l'entreprise
comme les données de production (ERP), doivent être entreposées.
■ Ainsi le développement de l'ED témoignera, aussi bien de la production de base
que de l'activité informationnelle (pilotage de l'entreprise).
■ Les requêtes portent plus souvent sur les agrégats que sur les données de base
(80% - 20%)
119
Rôles et responsabilités
Kimball (2004) a définit 8 rôles dont les plus sont :
1. Gestionnaire ETL
■ Gérer quotidiennement l’équipe ETL.
■ Définir les standards et procédures de l’environnement de développement
ETL (Règles de nomenclature, Meilleures pratiques…)
■ Superviser le développement, les tests et l’assurance qualité
2. Architecte ETL
■ Concevoir l’architecture et l’infrastructure de l’environnement ETL.
■ Concevoir le mappage logique de données.
■ Livrer les routines ETL en production.
■ Appréhender les besoins d’affaire.
■ Connaître les systèmes source.
■ Résoudre les problèmes techniques complexes.
120
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
31
Rôles et responsabilités
3. Développeur ETL
■ Développer les routines ETL.
■ Tester les routines ETL.
■ S’assurer que les résultats du processus ETL répondent aux besoins
d’affaire (Collaboration étroite avec l’architecte ETL)
4. Analyste système
■ Rassembler des besoins d’affaire.
■ Documenter les besoins d’affaire.
■ Travailler en collaboration avec toute l’équipe du DW (Non seulement celle
du système ETL).
121
Rôles et responsabilités
5. Spécialiste qualité de données
■ S’assurer de la qualité des données dans l’entrepôt de données en entier.
■ S’assurer que les règles d’affaire sont bien implantées par les processus
ETL (en collaboration avec l’analyste système et l’architecte ETL)
6. DBA
■ Installer, configurer, migrer et maintenir la base de données.
■ Traduire le modèle logique de données en modèle physique.
122
Annexe :
Méthode générale de conception de l’ETL sous Oracle
1. Récupération des données sources dans la zone d'extraction
 Création de vues pour les données stockées dans des BDR
 Création de tables externes pour les fichiers CSV
 Transformation XSLT des fichiers XML en instructions SQL et ajout
manuel des données XML. Une table classique correspondant au schéma
XML doit donc être créée dans le zone d'extraction.
123
2. Création des tables de traitement
● Créer une table pour chaque vue, table externe et table classique de la zone
d'extraction selon la syntaxe SQL3 du modèle RO pour pouvoir accepter des
méthodes ultérieurement. Déclarer ensuite une méthode pour chaque attribut à
exporter dans le modèle dimensionnel.
● Ajouter un attribut booléen pour chaque table afin de discriminer ultérieurement les
données nouvelles des données anciennes.
● Pour chaque hypothèse de "propreté" des données sources, on poser une contrainte
associée. Par exemple si une donnée doit être une clé primaire et que l'on pense que
les sources sont correctes de ce point de vue, on ajoute la clause PRIMARY KEY. Par
contre il ne faut pas ajouter les contraintes lorsque l'on sait que les données sources
sont "sales", sans quoi ces données seront refusées au chargement et ne pourront
jamais être nettoyées.
● Pour chaque hypothèse de "nettoyage" des données sources, on pose un trigger qui
va traquer les erreurs et les rapporter dans une table de log.
● On note enfin qu'il est parfois utile de donner des tailles de champs plus grandes que
celle attendues afin de ne pas bloquer ou tronquer d'enregistrement. C'est une autre
façon de "relâcher" les Contraintes.
Annexe :
Méthode générale de conception de l’ETL sous Oracle
124
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
32
3. Transfert des données de la zone d'extraction vers la zone de
transformation
● Toutes les données doivent passer, l'analyse des triggers et le non blocage par
les contraintes posées permettent de valider les hypothèses de propreté.
● On utilise l'instruction Oracle MERGE pour les imports. Les données nouvelles
sont marquées en utilisant l'attribut de discrimination ajouté à cet effet.
● Les sources de données importées manuellement de la zone d'import sont
remises à zéro (DELETE).
Annexe :
Méthode générale de conception de l’ETL sous Oracle
4. Création des méthodes de transformation
● On implémente une méthode pour chaque attribut que l'on souhaite exporter
dans le modèle dimensionnel. Cette méthode permet de réaliser dynamiquement
les transformations et vérifications adéquates.
125
5. Préparation du chargement
● Désactivation des contraintes des tables dimensionnelles.
● Suppression des index des tables dimensionnelles.
6. Chargement dans les tables dimensionnelles
● Seule l'API fournie par les méthodes est utilisée pour accéder aux données.
● On peut choisir une mise à jour complète : la base dimensionnelle est vidée
puis remplie à nouveau ; ou bien une mise à jour partielle : les données
nouvelles (marquées comme telles) sont ajoutées mais les modifications sur
les données préalables ne sont pas prises en compte.
7. Post-chargememnt
● Réactivation des contraintes, en cas d'erreur procéder aux corrections ad hoc
dans les méthodes de transformation et recommencer.
● Recréer les index.
Annexe :
Méthode générale de conception de l’ETL sous Oracle
126
Attention : Passage
● Le passage d'une zone à l'autre doit toujours laisser passer toutes les
données.
● Lors du passage de la zone d'extraction à la zone de transformation, les
contraintes qui bloquent doivent être levées pour laisser passer les données et
lors du passage de la zone de transformation à la zone d'exploitation, les
méthodes doivent gérer tous les cas de figure problématiques.
Rappel : Particularités Oracle à mobiliser
● Tables externes : ORACLE LOADER
● Triggers : CREATE TRIGGER
● Instruction d'ajout et mise à jour de données : MERGE
● Méthodes relationnel-objet : CREATE TYPE et CREATE TYPE BODY
● Désactivation et réactivation de contraintes : ALTER TABLE nom_table
[ENABLE | DISABLE] CONSTRAINT nom_contrainte;
Annexe :
Méthode générale de conception de l’ETL sous Oracle
127
128
Annexe :
Méthode générale de conception de l’ETL sous Oracle
Résumé en image
128

Contenu connexe

Tendances

Etat de l’art approche et outils BI
Etat de l’art approche et outils BIEtat de l’art approche et outils BI
Etat de l’art approche et outils BISaid Sadik
 
DataWarehouse
DataWarehouseDataWarehouse
DataWarehousenzuguem
 
Projet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de donnéesProjet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de donnéesJean-Marc Dupont
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1Amal Abid
 
Chp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesChp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesLilia Sfaxi
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkAmal Abid
 
La BI : Qu’est-ce que c’est ? A quoi ça sert ?
La BI : Qu’est-ce que c’est ? A quoi ça sert ?La BI : Qu’est-ce que c’est ? A quoi ça sert ?
La BI : Qu’est-ce que c’est ? A quoi ça sert ?Jean-Marc Dupont
 
Mini projet power bi
Mini projet power bi Mini projet power bi
Mini projet power bi AfnouchAhmed
 
Présentation data warehouse etl et olap
Présentation data warehouse etl et olapPrésentation data warehouse etl et olap
Présentation data warehouse etl et olapCynapsys It Hotspot
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2Amal Abid
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataLilia Sfaxi
 
Rapport de stage: mastère ISIC (Business Intelligence)
Rapport de stage: mastère ISIC (Business Intelligence)Rapport de stage: mastère ISIC (Business Intelligence)
Rapport de stage: mastère ISIC (Business Intelligence)Ines Ben Kahla
 
Introduction à la Business Intelligence
Introduction à la Business Intelligence Introduction à la Business Intelligence
Introduction à la Business Intelligence Cynapsys It Hotspot
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceLilia Sfaxi
 
Business Intelligence au coeur de la décision
Business Intelligence au coeur de la décision Business Intelligence au coeur de la décision
Business Intelligence au coeur de la décision Amal Brioual
 
BigData_Chp4: NOSQL
BigData_Chp4: NOSQLBigData_Chp4: NOSQL
BigData_Chp4: NOSQLLilia Sfaxi
 
Projet BI - 1 - Analyse des besoins
Projet BI - 1 - Analyse des besoinsProjet BI - 1 - Analyse des besoins
Projet BI - 1 - Analyse des besoinsJean-Marc Dupont
 

Tendances (20)

Etat de l’art approche et outils BI
Etat de l’art approche et outils BIEtat de l’art approche et outils BI
Etat de l’art approche et outils BI
 
DataWarehouse
DataWarehouseDataWarehouse
DataWarehouse
 
Projet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de donnéesProjet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de données
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
Chp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesChp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de Données
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - Spark
 
Bddwdm
BddwdmBddwdm
Bddwdm
 
La BI : Qu’est-ce que c’est ? A quoi ça sert ?
La BI : Qu’est-ce que c’est ? A quoi ça sert ?La BI : Qu’est-ce que c’est ? A quoi ça sert ?
La BI : Qu’est-ce que c’est ? A quoi ça sert ?
 
Mini projet power bi
Mini projet power bi Mini projet power bi
Mini projet power bi
 
Présentation data warehouse etl et olap
Présentation data warehouse etl et olapPrésentation data warehouse etl et olap
Présentation data warehouse etl et olap
 
Cours Big Data Chap2
Cours Big Data Chap2Cours Big Data Chap2
Cours Big Data Chap2
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
 
Rapport de stage: mastère ISIC (Business Intelligence)
Rapport de stage: mastère ISIC (Business Intelligence)Rapport de stage: mastère ISIC (Business Intelligence)
Rapport de stage: mastère ISIC (Business Intelligence)
 
Business intelligence
Business intelligenceBusiness intelligence
Business intelligence
 
Introduction à la Business Intelligence
Introduction à la Business Intelligence Introduction à la Business Intelligence
Introduction à la Business Intelligence
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-Reduce
 
Business Intelligence au coeur de la décision
Business Intelligence au coeur de la décision Business Intelligence au coeur de la décision
Business Intelligence au coeur de la décision
 
BigData_Chp4: NOSQL
BigData_Chp4: NOSQLBigData_Chp4: NOSQL
BigData_Chp4: NOSQL
 
Projet BI - 1 - Analyse des besoins
Projet BI - 1 - Analyse des besoinsProjet BI - 1 - Analyse des besoins
Projet BI - 1 - Analyse des besoins
 

En vedette

Conférence Groupe Dia-Mart 2016 • Et si la prochaine révolution retail était ...
Conférence Groupe Dia-Mart 2016 • Et si la prochaine révolution retail était ...Conférence Groupe Dia-Mart 2016 • Et si la prochaine révolution retail était ...
Conférence Groupe Dia-Mart 2016 • Et si la prochaine révolution retail était ...Groupe Dia-Mart
 
Concevoir un système Linux embarqué avec Yocto Project - Version révisée
Concevoir un système Linux embarqué avec Yocto Project - Version réviséeConcevoir un système Linux embarqué avec Yocto Project - Version révisée
Concevoir un système Linux embarqué avec Yocto Project - Version réviséeChristian Charreyre
 
Archives participatives
Archives participativesArchives participatives
Archives participativesPauline Moirez
 
LE MARKETING MOBILE AU SERVICE DE L’EXPÉRIENCE CONSOMMATEUR « IN STORE »
LE MARKETING MOBILE AU SERVICE DE L’EXPÉRIENCE CONSOMMATEUR « IN STORE »LE MARKETING MOBILE AU SERVICE DE L’EXPÉRIENCE CONSOMMATEUR « IN STORE »
LE MARKETING MOBILE AU SERVICE DE L’EXPÉRIENCE CONSOMMATEUR « IN STORE »Mobile Marketing Association France
 
Une vision des transformations de l’EAD par Éric Bruillard, STEF
Une vision des transformations de l’EAD par Éric Bruillard, STEFUne vision des transformations de l’EAD par Éric Bruillard, STEF
Une vision des transformations de l’EAD par Éric Bruillard, STEFFFFOD
 
HUB REPORT - L'indispensable à savoir sur la Data & le CRM
HUB REPORT - L'indispensable à savoir sur la Data & le CRM HUB REPORT - L'indispensable à savoir sur la Data & le CRM
HUB REPORT - L'indispensable à savoir sur la Data & le CRM HUB INSTITUTE
 
The Ultimate Guide to Creating Visually Appealing Content
The Ultimate Guide to Creating Visually Appealing ContentThe Ultimate Guide to Creating Visually Appealing Content
The Ultimate Guide to Creating Visually Appealing ContentNeil Patel
 
Dear NSA, let me take care of your slides.
Dear NSA, let me take care of your slides.Dear NSA, let me take care of your slides.
Dear NSA, let me take care of your slides.Emiland
 
What I Carry: 10 Tools for Success
What I Carry: 10 Tools for SuccessWhat I Carry: 10 Tools for Success
What I Carry: 10 Tools for SuccessJonathon Colman
 
What Makes Great Infographics
What Makes Great InfographicsWhat Makes Great Infographics
What Makes Great InfographicsSlideShare
 
Masters of SlideShare
Masters of SlideShareMasters of SlideShare
Masters of SlideShareKapost
 
STOP! VIEW THIS! 10-Step Checklist When Uploading to Slideshare
STOP! VIEW THIS! 10-Step Checklist When Uploading to SlideshareSTOP! VIEW THIS! 10-Step Checklist When Uploading to Slideshare
STOP! VIEW THIS! 10-Step Checklist When Uploading to SlideshareEmpowered Presentations
 
10 Ways to Win at SlideShare SEO & Presentation Optimization
10 Ways to Win at SlideShare SEO & Presentation Optimization10 Ways to Win at SlideShare SEO & Presentation Optimization
10 Ways to Win at SlideShare SEO & Presentation OptimizationOneupweb
 
How To Get More From SlideShare - Super-Simple Tips For Content Marketing
How To Get More From SlideShare - Super-Simple Tips For Content MarketingHow To Get More From SlideShare - Super-Simple Tips For Content Marketing
How To Get More From SlideShare - Super-Simple Tips For Content MarketingContent Marketing Institute
 
A Guide to SlideShare Analytics - Excerpts from Hubspot's Step by Step Guide ...
A Guide to SlideShare Analytics - Excerpts from Hubspot's Step by Step Guide ...A Guide to SlideShare Analytics - Excerpts from Hubspot's Step by Step Guide ...
A Guide to SlideShare Analytics - Excerpts from Hubspot's Step by Step Guide ...SlideShare
 
Apresentação NFC-e Porto Alegre 27.06.2012
Apresentação NFC-e Porto Alegre 27.06.2012Apresentação NFC-e Porto Alegre 27.06.2012
Apresentação NFC-e Porto Alegre 27.06.2012decision-it
 

En vedette (20)

Conférence Groupe Dia-Mart 2016 • Et si la prochaine révolution retail était ...
Conférence Groupe Dia-Mart 2016 • Et si la prochaine révolution retail était ...Conférence Groupe Dia-Mart 2016 • Et si la prochaine révolution retail était ...
Conférence Groupe Dia-Mart 2016 • Et si la prochaine révolution retail était ...
 
Byzance icono
Byzance iconoByzance icono
Byzance icono
 
Concevoir un système Linux embarqué avec Yocto Project - Version révisée
Concevoir un système Linux embarqué avec Yocto Project - Version réviséeConcevoir un système Linux embarqué avec Yocto Project - Version révisée
Concevoir un système Linux embarqué avec Yocto Project - Version révisée
 
Archives participatives
Archives participativesArchives participatives
Archives participatives
 
LE MARKETING MOBILE AU SERVICE DE L’EXPÉRIENCE CONSOMMATEUR « IN STORE »
LE MARKETING MOBILE AU SERVICE DE L’EXPÉRIENCE CONSOMMATEUR « IN STORE »LE MARKETING MOBILE AU SERVICE DE L’EXPÉRIENCE CONSOMMATEUR « IN STORE »
LE MARKETING MOBILE AU SERVICE DE L’EXPÉRIENCE CONSOMMATEUR « IN STORE »
 
Une vision des transformations de l’EAD par Éric Bruillard, STEF
Une vision des transformations de l’EAD par Éric Bruillard, STEFUne vision des transformations de l’EAD par Éric Bruillard, STEF
Une vision des transformations de l’EAD par Éric Bruillard, STEF
 
Cicéron
CicéronCicéron
Cicéron
 
HUB REPORT - L'indispensable à savoir sur la Data & le CRM
HUB REPORT - L'indispensable à savoir sur la Data & le CRM HUB REPORT - L'indispensable à savoir sur la Data & le CRM
HUB REPORT - L'indispensable à savoir sur la Data & le CRM
 
The Ultimate Guide to Creating Visually Appealing Content
The Ultimate Guide to Creating Visually Appealing ContentThe Ultimate Guide to Creating Visually Appealing Content
The Ultimate Guide to Creating Visually Appealing Content
 
Dear NSA, let me take care of your slides.
Dear NSA, let me take care of your slides.Dear NSA, let me take care of your slides.
Dear NSA, let me take care of your slides.
 
What I Carry: 10 Tools for Success
What I Carry: 10 Tools for SuccessWhat I Carry: 10 Tools for Success
What I Carry: 10 Tools for Success
 
What Makes Great Infographics
What Makes Great InfographicsWhat Makes Great Infographics
What Makes Great Infographics
 
Masters of SlideShare
Masters of SlideShareMasters of SlideShare
Masters of SlideShare
 
STOP! VIEW THIS! 10-Step Checklist When Uploading to Slideshare
STOP! VIEW THIS! 10-Step Checklist When Uploading to SlideshareSTOP! VIEW THIS! 10-Step Checklist When Uploading to Slideshare
STOP! VIEW THIS! 10-Step Checklist When Uploading to Slideshare
 
You Suck At PowerPoint!
You Suck At PowerPoint!You Suck At PowerPoint!
You Suck At PowerPoint!
 
10 Ways to Win at SlideShare SEO & Presentation Optimization
10 Ways to Win at SlideShare SEO & Presentation Optimization10 Ways to Win at SlideShare SEO & Presentation Optimization
10 Ways to Win at SlideShare SEO & Presentation Optimization
 
How To Get More From SlideShare - Super-Simple Tips For Content Marketing
How To Get More From SlideShare - Super-Simple Tips For Content MarketingHow To Get More From SlideShare - Super-Simple Tips For Content Marketing
How To Get More From SlideShare - Super-Simple Tips For Content Marketing
 
A Guide to SlideShare Analytics - Excerpts from Hubspot's Step by Step Guide ...
A Guide to SlideShare Analytics - Excerpts from Hubspot's Step by Step Guide ...A Guide to SlideShare Analytics - Excerpts from Hubspot's Step by Step Guide ...
A Guide to SlideShare Analytics - Excerpts from Hubspot's Step by Step Guide ...
 
Android
AndroidAndroid
Android
 
Apresentação NFC-e Porto Alegre 27.06.2012
Apresentação NFC-e Porto Alegre 27.06.2012Apresentação NFC-e Porto Alegre 27.06.2012
Apresentação NFC-e Porto Alegre 27.06.2012
 

Similaire à Chap1 2 dw (1)

7 points clés à retenir pour aborder le data management de données clients...
7 points clés à retenir pour aborder le data management de données clients...7 points clés à retenir pour aborder le data management de données clients...
7 points clés à retenir pour aborder le data management de données clients...dibs-conseil
 
Les enjeux de la transformation numérique
Les enjeux de la transformation numériqueLes enjeux de la transformation numérique
Les enjeux de la transformation numériqueAntoine Vigneron
 
Propos sur les si décisionnels.
Propos sur les si décisionnels.Propos sur les si décisionnels.
Propos sur les si décisionnels.Michel Bruley
 
Gouvernance de la donnée : positionnement, missions et moyens des fonctions C...
Gouvernance de la donnée : positionnement, missions et moyens des fonctions C...Gouvernance de la donnée : positionnement, missions et moyens des fonctions C...
Gouvernance de la donnée : positionnement, missions et moyens des fonctions C...Novaminds
 
Les sept stratégies des Mieux gérées
Les sept stratégies des Mieux géréesLes sept stratégies des Mieux gérées
Les sept stratégies des Mieux géréesDeloitte Canada
 
Entrepreneuriat : entre philosophie et technologie
Entrepreneuriat : entre philosophie et technologieEntrepreneuriat : entre philosophie et technologie
Entrepreneuriat : entre philosophie et technologieEtilux
 
Systèmes d informations
Systèmes d informationsSystèmes d informations
Systèmes d informationsReda Hassani
 
Competitic simplifiez le pilotage de votre entreprise avec la business inte...
Competitic   simplifiez le pilotage de votre entreprise avec la business inte...Competitic   simplifiez le pilotage de votre entreprise avec la business inte...
Competitic simplifiez le pilotage de votre entreprise avec la business inte...COMPETITIC
 
Comparing technologies
Comparing technologiesComparing technologies
Comparing technologiesFriaa Marwa
 
Préconisation pour la boite à outils de l'intelligence économique dans les pme
Préconisation pour la boite à outils de l'intelligence économique dans les pmePréconisation pour la boite à outils de l'intelligence économique dans les pme
Préconisation pour la boite à outils de l'intelligence économique dans les pmeBoudaud
 
Connaissance marché et apports du web
Connaissance marché et apports du webConnaissance marché et apports du web
Connaissance marché et apports du webThomas Coustenoble
 
Offre mobile SRM par Business & Decision et Microstrategy
Offre mobile SRM par Business & Decision et MicrostrategyOffre mobile SRM par Business & Decision et Microstrategy
Offre mobile SRM par Business & Decision et MicrostrategyJean-Michel Franco
 
Synergie km ie_ib vf
Synergie km ie_ib vfSynergie km ie_ib vf
Synergie km ie_ib vfSoumayaNebli
 
La Gouvernance des Données
La Gouvernance des DonnéesLa Gouvernance des Données
La Gouvernance des DonnéesSoft Computing
 
Pilotage de gestion, data et machine learning by Mindoo Management
Pilotage de gestion, data et machine learning by Mindoo ManagementPilotage de gestion, data et machine learning by Mindoo Management
Pilotage de gestion, data et machine learning by Mindoo ManagementCyril Lagrange
 
Synthèse du chantier gouvernance information (Pôle 1)
Synthèse du chantier gouvernance information (Pôle 1)Synthèse du chantier gouvernance information (Pôle 1)
Synthèse du chantier gouvernance information (Pôle 1)Ourouk
 

Similaire à Chap1 2 dw (1) (20)

7 points clés à retenir pour aborder le data management de données clients...
7 points clés à retenir pour aborder le data management de données clients...7 points clés à retenir pour aborder le data management de données clients...
7 points clés à retenir pour aborder le data management de données clients...
 
Les enjeux de la transformation numérique
Les enjeux de la transformation numériqueLes enjeux de la transformation numérique
Les enjeux de la transformation numérique
 
BI_Part1_2020.pdf
BI_Part1_2020.pdfBI_Part1_2020.pdf
BI_Part1_2020.pdf
 
Propos sur les si décisionnels.
Propos sur les si décisionnels.Propos sur les si décisionnels.
Propos sur les si décisionnels.
 
projet BI licnence.pdf
projet BI licnence.pdfprojet BI licnence.pdf
projet BI licnence.pdf
 
Gouvernance de la donnée : positionnement, missions et moyens des fonctions C...
Gouvernance de la donnée : positionnement, missions et moyens des fonctions C...Gouvernance de la donnée : positionnement, missions et moyens des fonctions C...
Gouvernance de la donnée : positionnement, missions et moyens des fonctions C...
 
Les sept stratégies des Mieux gérées
Les sept stratégies des Mieux géréesLes sept stratégies des Mieux gérées
Les sept stratégies des Mieux gérées
 
Entrepreneuriat : entre philosophie et technologie
Entrepreneuriat : entre philosophie et technologieEntrepreneuriat : entre philosophie et technologie
Entrepreneuriat : entre philosophie et technologie
 
Data Science
Data ScienceData Science
Data Science
 
Systèmes d informations
Systèmes d informationsSystèmes d informations
Systèmes d informations
 
Competitic simplifiez le pilotage de votre entreprise avec la business inte...
Competitic   simplifiez le pilotage de votre entreprise avec la business inte...Competitic   simplifiez le pilotage de votre entreprise avec la business inte...
Competitic simplifiez le pilotage de votre entreprise avec la business inte...
 
Comparing technologies
Comparing technologiesComparing technologies
Comparing technologies
 
Préconisation pour la boite à outils de l'intelligence économique dans les pme
Préconisation pour la boite à outils de l'intelligence économique dans les pmePréconisation pour la boite à outils de l'intelligence économique dans les pme
Préconisation pour la boite à outils de l'intelligence économique dans les pme
 
Connaissance marché et apports du web
Connaissance marché et apports du webConnaissance marché et apports du web
Connaissance marché et apports du web
 
Offre mobile SRM par Business & Decision et Microstrategy
Offre mobile SRM par Business & Decision et MicrostrategyOffre mobile SRM par Business & Decision et Microstrategy
Offre mobile SRM par Business & Decision et Microstrategy
 
Synergie km ie_ib vf
Synergie km ie_ib vfSynergie km ie_ib vf
Synergie km ie_ib vf
 
Synergie KM_BI_IE
Synergie KM_BI_IESynergie KM_BI_IE
Synergie KM_BI_IE
 
La Gouvernance des Données
La Gouvernance des DonnéesLa Gouvernance des Données
La Gouvernance des Données
 
Pilotage de gestion, data et machine learning by Mindoo Management
Pilotage de gestion, data et machine learning by Mindoo ManagementPilotage de gestion, data et machine learning by Mindoo Management
Pilotage de gestion, data et machine learning by Mindoo Management
 
Synthèse du chantier gouvernance information (Pôle 1)
Synthèse du chantier gouvernance information (Pôle 1)Synthèse du chantier gouvernance information (Pôle 1)
Synthèse du chantier gouvernance information (Pôle 1)
 

Plus de 'Farouk' 'BEN GHARSSALLAH' (18)

UML v2
UML v2UML v2
UML v2
 
UML4
UML4UML4
UML4
 
UML Diagrammes Dynamiques
UML Diagrammes DynamiquesUML Diagrammes Dynamiques
UML Diagrammes Dynamiques
 
UML Diagrammes Statiques
UML Diagrammes StatiquesUML Diagrammes Statiques
UML Diagrammes Statiques
 
UML3
UML3UML3
UML3
 
UML2
UML2UML2
UML2
 
UML1
UML1UML1
UML1
 
IPV6
IPV6IPV6
IPV6
 
Transmission de signal
Transmission de signalTransmission de signal
Transmission de signal
 
Custom PrimeFaces components
Custom PrimeFaces componentsCustom PrimeFaces components
Custom PrimeFaces components
 
Custom JSF components
Custom JSF componentsCustom JSF components
Custom JSF components
 
Hibernate
HibernateHibernate
Hibernate
 
Java Server Faces 2
Java Server Faces 2Java Server Faces 2
Java Server Faces 2
 
Business Models
Business ModelsBusiness Models
Business Models
 
People Orientated Approaches
People Orientated ApproachesPeople Orientated Approaches
People Orientated Approaches
 
Leadership strategy
Leadership strategyLeadership strategy
Leadership strategy
 
HTML
HTMLHTML
HTML
 
Css
CssCss
Css
 

Chap1 2 dw (1)

  • 1. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données 1 1 Département des Sciences de l’Informatique Conception des Entrepôts de Données 2012/2013 Mohamed Ali BEN HASSINE Faculté des Sciences de Tunis mohamedali.benhassine@fst.rnu.tn Section: 5ème année Ingénieurs (IF5) FST© Med Ali Ben Hassine 2012 2 Plan Chapitre 1 : Introduction à l'informatique décisionnelle Chapitre 2 : Les Entrepôts de données Chapitre 3 : Modélisation multidimensionnelle Chapitre 4 : L'algèbre multidimensionnelle Chapitre 5 : Les SGBD décisionnels et Extension de SQL Chapitre 6 : Les techniques d'optimisation dans les ED Chapitre 7 : Le cycle de vie dimensionnel Chapitre 8 : La fouille de données Bibliographie ● Kimball R, Reeves L, Concevoir et déployer un data warehouse Guide de conduite de projet, Eyrolles, 2000. ● Kimball R, Margy Ross, The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling, 2nd Edition, Wiley Computer Publishing, 2002 . ● Inmon, W.H. : What is a Data Warehouse? Prism Solutions. Volume 1. 1995. ● Jiawei Han and Micheline Kamber: Data Mining : Concepts and Technics, Morgan Kaufmann Publishers, Elsevier, 2006. ● Ladjel Bellatreche, Techniques d'optimisation des requêtes dans les data warehouses, Sixth International Symposium on Programming and Systems, pp. 81-98, 2003 3 Chapitre 1 Introduction à l'informatique décisionnelle 4 FST© Med Ali Ben Hassine 2012 Plan 1. Contexte 2. L’information et la prise de décision 3. Informatique décisionnelle 4. Système d'information décisionnel 4.1 Système d'information 4.2 SID 4.3 OLAP et ROLAP 4.4 Architecture d’un SID 4.5 Historique des SID 5. Conclusion
  • 2. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données 2 ● Besoin  Prise de décisions stratégiques et tactiques  Réactivité ● Qui?  les décideurs (non informaticiens, non statisticiens) ● Comment  Répondre aux demandes d’analyse de données  Dégager des informations qualitatives nouvelles Contexte 5 Quels tunisiens consomment beaucoup de poisson? Qui sont mes meilleurs clients? Pourquoi et comment le chiffre d’affaire a baissé? A combien s’élèvent mes ventes journalières? Entreprise ■ une organisation dotée d’une mission et d’un objectif métier. Elle doit gérer sa raison d’être et/ou sa pérennité au travers de différents objectifs (sécurité, développement, rentabilité). Par voie de conséquence, cette organisation humaine est dotée d’un centre de décision. Objectifs d’une entreprise ■ Améliorer ses performances ■ Faire face à la concurrence ■ Développer sa part de marché ■ Etre plus entreprenante  Prendre des risques, remettre en cause certain choix, se recentrer sur des secteurs d’activité ou au contraire s’élargie sur des nouveaux. Besoins des entreprises 6 Décision : action mentale volontaire qui vise à modifier ou déformer un état de choses en vue d’atteindre un certain objectif. (Courbon, 1982) Objectifs (suite) ■ Meilleure connaissance de ses clients, de son environnement  « profiler » ses clients pour mieux les satisfaire, voir même créer un nouveau besoin chez eux. ■ Anticiper des événements de plusieurs types : évolution du marché, fluctuation de consommation, etc. ■ Prendre des décisions stratégiques ayant une forte répercussion sur la santé financière de l’entreprise. Besoins des entreprises 7  peut-être le responsable de l’entreprise, d’une fonction ou d’un secteur.  engage la pérennité ou la raison d’être de l’entreprise.  doit s’entourer de différents moyens lui permettant une prise de décision la plus pertinente. Qui? ■ le décideur (non informaticien, non statisticien) : Besoins des entreprises 8 Besoins importants ■ Maîtriser ses données ■ Accéder à toutes les données de l’entreprise ■ Regrouper les informations disséminées ■ Exploiter ses données ■ Analyser rapidement les données pour prendre les bonnes décisions Problèmes ■ Masse importante de données collectées ■ Nombreux systèmes d’information, souvent hétérogènes ■ Information surabondante, non organisée, éparpillée ■ Difficulté d’accéder à l’information ■ L’information brute n’a aucun sens ou une valeur ajoutée limitée. ■ Codification différente selon les services.
  • 3. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données 3 Besoins des entreprises 9 Solutions : ■ Sélectionner et transformer les données en informations fiables, homogènes, utiles et accessibles par un traitement rapide, efficace et productif. ■ La BI recouvre l’ensemble des technologies permettant de gérer et d’exploiter les informations disponibles, en particulier le DW qui permet de stocker ces informations stratégiques. Années 70 : début de l’informatique de gestion : ■ Entrée de l'informatique de gestion dans les grandes entreprises. Années 80 : informatique opérationnelle centralisée : ■ Arrivée dans beaucoup d’entreprises des BDR, des progiciels de gestion, des premiers micro-ordinateurs. ■ Informatisation d’applications traitant des données directement liées à l'activité quotidienne des organisations : paie, comptabilité, commandes, facturation (informatique de production ou opérationnelle). ■ Architecture maître-esclave : maître = puissant ordinateur en site central et esclaves = terminaux passifs en mode texte. Evolution de l’informatique dans l’entreprise 10 Années 90 : informatique opérationnelle décentralisée : ■ Apparition des ordinateurs personnels et des réseaux locaux. ■ Développement d’application bureautiques : traitement de textes, tableurs, petites BD, … ■ Architecture client-serveur permet de décloisonner la bureautique et l’informatique opérationnelle et s’impose conduisant à une nouvelle informatique orientée vers les utilisateurs et les centres de décision des entreprises. Années 2000 : Développement de l’Informatique Décisionnelle (ID) : ■ Développement de Systèmes d'Information Décisionnels (orientés décision). ■ Architecture client-serveur multi-niveaux (multi-tiers). ■ Entrepôt de données (Data Warehouse) : restructurer et exploiter des quantités très grande de données historisées selon différentes dimensions. ■ Fouille de données (Data Mining) : extraction de connaissances à partir de données, en général stockées dans ces entrepôts. Evolution de l’informatique dans l’entreprise 11 ■ Disposer de l’information pertinente était réservée aux managers. ■ L’information était centralisée. ■ Les décideurs n’avaient pas la maîtrise de l’ensemble des informations de l’entreprise. Avant les SID ■ Dans tous les secteurs économiques, dans toutes les entreprises, l’information est devenue “le nerf de la guerre”. ■ L’information est omniprésente; la difficulté n’est plus de la recueillir, mais de la rendre disponible sous la bonne forme, au bon moment et à la bonne personne, qui saura l’exploiter et en tirer de la valeur ajoutée. ■ L’information devient un capital en temps. ■ L’information est une source de valeur pour l’entreprise. Maintenant L’information et la prise de décision
  • 4. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données 4 Les principaux aspects du décisionnel 13 ■ Stratégie: appropriation et partage d'objectifs. ■ Organisation: institutionnalisation du dialogue de gestion, positionnement du contrôle de gestion. ■ Finances et comptabilité: mesure de coûts, outils d'analyse économique. ■ Ergonomie et contenu : choix d'indicateurs, mise au point de tableaux de bord. ■ Système d'information : données, outils, infrastructures, intégration dans le SI. ■ L’information est la matière première de la décision : le décideur se détermine sur la base des informations dont il dispose sur les éléments ayant un impact sur le problème à résoudre. ■ L’identification des informations dont la connaissance est nécessaire est une décision en soit. ■ Processus de décision : Selon H. Simon, le processus de prise de décision se fait selon un modèle dit : Intelligence - Design - Choice (IDC) La prise de décision Contrôle Choix Conception Renseignement Identifier et formuler le problème (constatation d’une différence entre la réalité et ce qui est souhaité) Imaginer des solutions alternatives possibles et en déterminer les conséquences potentielles Choisir une solution parmi les alternatives Vérifier que la solution est conforme aux attentes Modèle IDC ■ Décisions structurées : Une décision est dite structurée quand :  Les informations nécessaires à son élaboration sont disponibles  Les alternatives possibles sont énumérables  Les mécanismes d’évaluation des solutions sont connus Exemples  Gestion de stock,  Planification de fabrication en raffinerie  Les décisions structurées sont programmables. Types de décisions : structurées ou non structurées Les décisions sont de deux types : 1. Décisions structurées 2. Décisions faiblement ou non structurées ■ Décisions faiblement ou non structurées : Une décision est dite faiblement ou non structurée quand :  Les informations nécessaires à son élaboration sont plus ou moins disponibles, sujette à interprétation ou suspectes.  Les alternatives possibles sont non énumérables (explosion combinatoire).  Les critères à satisfaire sont contradictoires. Exemples  Décisions faiblement structurées : Ordonnancement de fabrication, préparation de budget, lancement d’un produit.  Décisions non structurées : Gestion de projet, publicité, R&D  En la simplifiant, une décision faiblement structurée peut devenir structurée et donc programmable. Types de décisions : structurées ou non structurées
  • 5. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données 5 ■ Les décisions structurées sont exécutables via des procédures automatisées. Elles constituent le Système d’Information Transactionnel (SIT). [voir plus loin] ■ Le système informatisé correspondant est composé d’applications de type OLTP (On Line Transaction Processing). ■ Les décisions peu ou pas structurées ne peuvent pas être totalement prises en se basant uniquement sur le SIT.  Nécessité d’un autre système d’information au dessus du SIT susceptible d’apporter une aide à ces décisions. C’est le Système d’Information d’Aide à la Décision (SIAD). [voir plus loin] ■ Le SIAD a les caractéristiques suivantes : ● Utilise les données du SIT. ● Dispose en plus d’informations propres. ● Fournit un accès aisé aux informations pour les décideurs. ● Offre des possibilités de modélisation et de simulation. ● Laisse une place plus ou moins importante à l’informel. Types de décisions et SI L'Informatique décisionnelle Processus de décision humain: 18 Stimuliexternes Stimuli internes ● Je reconnais une personne quand je la vois parce que je l’ai déjà vue  Je vois la personne  Je compare cette vision avec ma mémoire qui a stocké l’image des personnes que je connais (image + nom) ● J’ai chaud  S’il fait chaud dehors => c’est normal, je vais me mettre au frais  S’il ne fait pas chaud => j’ai de la fièvre => je vais chez le médecin => une information isolée a peu de valeur. Elle n’a de sens que comparée à d’autres informations  Contexte  Mémoire L'Informatique décisionnelle Système d’aide à la décision: 19 ■ une information isolée a peu de valeur.  On compare un chiffre à un objectif (référentiel)  On suit l’évolution d’un indicateur dans le temps  On fédère des données provenant de plusieurs systèmes pour obtenir une information à valeur ajoutée Systèmesopérants L'Informatique décisionnelle ■ Terme anglais : Business Intelligence (BI) ■ Définition 1: c’est la branche de l’informatique qui permet l'exploitation des données de l'entreprise dans le but de faciliter la prise de décision. C'est-à-dire, la compréhension du fonctionnement actuel et l'anticipation des actions pour un pilotage éclairé de l'entreprise. 20 ■ Définition 2: désigne les moyens, les outils et les méthodes qui permettent de collecter, consolider, modéliser et restituer les données, matérielles ou immatérielles, d'une entreprise en vue d'offrir une aide à la décision et de permettre aux responsables de la stratégie d'entreprise d’avoir une vue d’ensemble de l’activité traitée. ■ Objectifs ■ Vision globale de l’activité ■ Aide à la décision ■ Basée sur un entrepôt de données pour stocker des données transverses provenant de plusieurs sources hétérogènes.
  • 6. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données 6 L'Informatique décisionnelle ■ Le flux informationnel lié au processus de la BI 21 Définir le  problème Rassembler  les données Analyser les  données Etablir les  solutions Décider Temps de prise de décision Champs d’application des  systèmes décisionnels ■ Processus de prise de la BI L'Informatique décisionnelle 22 23 Aide à la décision : Quelques notions à préciser ■ Pilotage ■ Indicateur ■ Tableau de bord ■ Reporting 24 ■ Pilotage / décision  Piloter : prendre des décisions pour réaliser des objectifs (qui sont censés découler d'une stratégie).  Décision: acte ponctuel, le pilotage étant une démarche permanente. ■ Pilotage stratégique / opérationnel  Deux différences : niveau et horizon temporel de la décision  Stratégique : direction, horizon à moyen – long terme  Par ex. création d'une nouvelle unité, recrutement de médecin, etc.  Opérationnel : niveau du service, de l'unité 'médicale'  Horizon plus court (peut être mensuel, peut être aussi quotidien)  Décisions concrètes de fonctionnement : par ex. planning infirmières ■ Performance d’une organisation : se caractérise par sa capacité à atteindre les objectifs qu’elle s’est fixés, dans le cadre de sa stratégie" ■ Pilotage de la performance  définir et quantifier le niveau de performance à atteindre,  suivre et projeter l’atteinte de la cible,  évaluer et analyser les résultats pour adapter sa stratégie. gestion d'unhôpital Pilotage
  • 7. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données 7 25 ■ Indicateur :  Information qui doit aider un acteur à évaluer le cours d’une action vers l’atteinte d’un objectif ou son résultat.  C’est un élément d’alerte, d’analyse, et de décision. ■ Indicateur :  à un domaine d’utilisation : dépend de l’objectif et de l’utilisateur,  suppose l’existence d’une question qu’il contribue à éclairer,  n’a pas de sens sans éléments d’interprétation,  doit pouvoir être comparé dans l’espace et le temps,  Indicateur de pilotage : n’est pertinent que s’il peut susciter une action. ■ Il se caractérise par :  un libellé, une définition  un champ : période de référence, établissement ou service  une formule ou procédure de calcul  les référentiels qu’il emploie  une documentation (guide de lecture) Indicateur 26 ■ Tableau de bord Outil destiné à un responsable pour lui permettre, grâce à des indicateurs, présentés de façon synthétique et en référence à des objectifs fixés, de contrôler le fonctionnement de son système, en analysant des écarts significatifs, afin de prévoir, décider, agir. Tableau de bord ■ Nécessité de tableaux de bord multi-niveaux  Tableau de bord très synthétique pour la direction, puis possibilités d’approfondissements service, par activité, … 27 Modèle conducteur/automobile/ tableau de bord ■ Analogie avec la conduite d’un véhicule : un tableau de bord est constitué d’indicateurs et de témoins  Lisibles, rassemblés sur une surface réduite, de signification claire  Importance de la forme et de la notion de zone de validité Perturbations Tableau de bord Perception Mesure Action Objectif Contraintes Tableau de bord 28 ■ En résumé, un tableau de bord  ne fournit pas de solution prête à l’emploi. Il utilise des sondes et des alertes.  fournit des informations précises et vérifiées, nécessitant toutefois une analyse  favorise le dialogue sur des bases communes pour maîtriser l’action collective  décloisonne les services  institue une culture de résultat Tableau de bord
  • 8. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données 8 29 désigne l’ensemble des informations (rapports et bilans analytiques) relatives aux réalisations d’une période préparé pour un niveau de responsabilité supérieur Reporting Reporting / Tableau de bord Tableau de bord Pendant l’action Reporting Après l’action (pour la hiérarchie) Outil de mesure de performances et de contrôle Contextes économique et informationnel de l’informatique décisionnelle Contexte économique : ■ Mondialisation de l'économie, ouverture de nouveaux marchés ■ Concurrence toujours plus accrue ■ Besoin d'obtenir des informations pour prises de décisions de plus en plus rapides Contexte informationnel : ■ Décentralisation des données vers les utilisateurs ■ Difficulté d'accès à l'information qui est en trop grande quantité ■ Un enjeu stratégique d’entreprise ■ Les informations, une source de revenu et de compétitivité Contexte informatique : ■ Puissance de calcul croissante ■ Capacité de stockage croissante ■ Bases de données de plus en plus importantes ■ SGBD de plus en plus performants (parallélisme, …) ■ Ouverture sur le Web, 30 31 FST© Med Ali Ben Hassine 2012 Système d’Information Décisionnel (SID)Système d’InformationSystème Système : 32 ■ est un tout constitué d'éléments en interaction dynamique, ces éléments sont organisés et coordonnés en vue d'atteindre un objectif, qui évolue dans un environnement. FST© Med Ali Ben Hassine 2012 ■ peut être considéré comme une « boîte noire » qui, soumise à des entrées imposées par l’environnement du système, les transforme en sorties satisfaisant des critères de performances que le système s’efforce à atteindre par un mécanisme de régulation. SYSTÈMEEntrées Sorties ObjectifsRégulation Système d’Information Décisionnel (SID)
  • 9. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données 9 • Information Système d’ Information Décisionnel (SID) 33 : une donnée qui a un sens, et ce sens vient d'un certain modèle d'interprétation. Information = Donnée + Modèle d'interprétation ■ Une même donnée peut avoir plusieurs sens selon le modèle d'interprétation qui lui est associé. ■ Exemple : la donnée `12101995' peut être aussi interprétée - par un anglo-saxon- comme la date du 10 décembre 1995 (et non pas 12 octobre 1995). ■ Donnée : une description élémentaire, souvent codée, d'une réalité (chose, transaction, événement, etc.). Elle peut revêtir plusieurs formes : expression, caractère, papier, numérique, images, sons, etc. 34 Les informations sont des données traitées ou transformées qui aident quelqu'un à prendre une décision ou à tirer des conclusions. SI : Données, Information et Connaissance Les données sont des faits qui n'ont pas encore été traités et dont on ne peut, à ce stade, tirer aucun renseignement. Données (entrées) Informations (sorties) Traitement ■ L’information se rapporte à un problème pour le sujet, donc à un contexte bien précis. C’est cette caractéristique qui permet de distinguer entre connaissance et information. ■ La connaissance est l’ensemble d’informations interprétées par l’individus en lui permettant de tirer des décisions. 35 ■ La comparaison entre les paiements effectués et le calendrier des versements nous renseigne sur la situation du prêt et sa chronologie - informations qui peuvent être utilisées pour prendre une décision concernant le suivi ou le provisionnement du prêt en question. Une institution peut être noyée sous les données, sans pour autant avoir beaucoup d'informations. Exemple ■ une simple opération de paiement ne nous dit pas si le paiement a été effectué en temps voulu et ne nous éclaire pas sur la situation du prêt. SI : Données vs Information SI : Type d’Information 36 ■ Niveau d'agrégation  brutes  élaborées ■ Flux  Logistique  Monétaire  de personnel  de l'actif ■ Utilisation  Prise de décision  planification stratégique  gestion administrative  régulation opérationnelle ■ Nature du support  oral  documentaire  informatique ● L'information décisionnelle sort du système ● elle est instantanée ou historique ● elle est livrée à l'utilisateur à des fins de reporting, d'analyse, de prévision ● L'information opérationnelle est liée au fonctionnement immédiat de l'organisation ● elle évolue en temps réel ● elle est transactionnelle
  • 10. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données 10 SI : l'information utile 37 ■ L'information n'est pas bonne ou mauvaise, elle est simplement appropriée ou non. une information est « appropriée » quand elle est livrée à la bonne destination, au bon moment et sous une forme directement exploitable par le destinataire. Système d’Information Décisionnel (SID) 38 Définition 1: Le SI est un ensemble organisé de ressources (matériels, logiciels, personnels, données et procédures) qui permet de regrouper, de classifier, de traiter et de diffuser de l'information d’une organisation. Système d’Information Définition 2: Le SI est le système de couplage entre le système opérant et le système de pilotage. Systèmes d’information Système de pilotage Système opérant Flux d’informations en provenance de l’environnement Flux entrant des biens et services Flux d’informations à destination de l’environnement Flux sortant des biens et services À ne pas confondre avec système informatique : ensemble d'équipements destiné au traitement automatique de l'information. 39 C’est un système dans lequel s’effectuent les transformations physiques ou intellectuelles sur les flux qui traversent l’entreprise en vue de produire des sorties valorisées. Système OpérantFlux en Entrée : ■ Matières ■ Argent ■ équipements ■ ressources humaines ■ informations Sorties : ■ Produits ■ Services Système Opérant Système Opérant et BD pour la prise de décision ■ Les données des opérations de tous les jours :  source importante d'informations  richesse importante pour l'entreprise  il faut les utiliser au mieux ■ Idée :  exploiter au mieux cette masse d'informations (BD existantes, applications de production :OLTP ),  rendre possible l'accès à toutes ces données accumulées dans le temps,  analyser ces données pour produire de nouvelles informations permettant de :  résumer et d'analyser l'importance de certains facteurs  dégager des tendances générales 40
  • 11. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données 11 Système de Pilotage 41 « On ne peut améliorer que ce qu’on sait mesurer » les informations fournies par mon système comptable m’indiquent si je gagne ou si je perds globalement de l’argent, mais ne m’en explique pas les causes et ne me suggère aucun axe d’amélioration j’ai besoin d’outils m’aidant à formaliser mes projets stratégiques, à suivre leur avancement Système de pilotage = outils d'analyse + outils de suivi je connais mal la rentabilité réelle de mes actes, de mes patients, de mes filières de soins je ne dispose pas des informations  synthétiques, pertinentes et fiables  me permettant de prendre les bonnes  décisions au bon moment je ne dispose pas des informations  synthétiques, pertinentes et fiables  me permettant de prendre les bonnes  décisions au bon moment je souhaite placer mon personnel dans un contexte d’amélioration continue de la performance (objectifs individuels clairs, suivi de leur réalisation ...) Système de Pilotage 42 Système dans lequel les décisions sont prises concernant : ■ les objectifs assignés au système opérant. ■ l’affectation des ressources au système opérant. ■ le contrôle des résultats obtenus du SO. ■ la régulation. ■ l’évolution de l’organisation. Système de Pilotage Objectifs, affectation des ressources, régulation Résultats du système opérant Informations externes 43 Parallèlement au flux physique, il y a un flux de décisions L'information va permettre de prendre les bonnes décisions. 1. Niveau stratégique (planification) 2. Niveau de pilotage 3. Niveau opérationnel (régulation) Les différents niveaux d’un SI d’une organisation Opérant Flux physique Pilotage ContraintesContraintes Flux de décisions Stra- tegique Les différents niveaux d’un SI d’une organisation: 44 3. Niveau opérationnel (régulation) C’est le niveau hiérarchique le plus bas. Il agit sur les flux qui traversent l’organisation en se basant sur les directives du niveau supérieur. 2. Niveau de pilotage C’est le niveau hiérarchique moyen mettant en œuvre les objectifs élaborés par le niveau supérieur. Il détermine les moyens d’atteindre les objectifs globaux : ● en les décomposant en sous-objectifs, ● en allouant les ressources nécessaires, ● en mettant en place les moyens de contrôle et ● en prenant les initiatives correction en cas de besoin. 1. Niveau stratégique (planification) C’est le niveau le plus haut hiérarchiquement. Il consiste à : ● définir les objectifs de l’entreprise, ● définir les moyens et les scénarios pour parvenir aux objectifs, dans une vision à long terme. ● fournir au niveau inférieur un cadre d’objectifs à atteindre et une orientation pour les mettre en œuvre. Opérant Flux physique Pilotage ContraintesContraintes Flux de décisions Stra- tegique
  • 12. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données 12 Système Opérant, Système de Pilotage et SI 45 commandes données Modèle systémique des organisations SI SP Système de Pilotage Infos externes Infos vers extérieur SOSystème Opérant Flux entrant Flux sortant SI décisionnel (SID) analyse + prise de décisions SI opérationnel (SIO) activités courantes Zone de décisions Système Opérant, Système de Pilotage et SI 46 Système d’Informations Opérant Système d’information opérationnel (SIO) Stra- tegique Pilotage analyse + prise de décisions commandes données Zone de décisions Système d’information décisionnel (SID) activités courantes Modèle systémique des organisations 47 Systèmes d’aide stratégique Prévision des ventes à moyen terme Plan à 5 ans Prévision budgétaires à moyen et long terme Planification de la force de travail Systèmes d’aide à la décision Gestion des ventes Analyse des ventes Contrôle d’inventaire Echéancier de production Budget annuel Analyse des investissements Analyse prix/profit Analyse des localisations Analyse des coûts Systèmes transactionnels Suivi des commandes Traitements des commandes Contrôle des machines Ordonnancement des usines Contrôle des flux de matériels Paie Gestion des comptes débiteurs Gestion des comptes créditeurs Audit Reporting fiscal Gestion de la trésorerie Compensation Formation Gestion des carrières Vente Production Comptabilité Finance Personnel Exemple de SI 48 Système d’Information Décisionnel (SID) Définition 1 : Un SID est un système capable d'agréger les données internes ou externes et de les transformer en informations servant à une prise de décision. Définition 2 : Un SID est un ensemble de technologies destinées à permettre aux collaborateurs d’accéder et comprendre les données de pilotage plus rapidement, de telle sorte qu’ils prennent des décisions meilleures et plus rapides pour atteindre les objectifs de son organisation. Connaissances Informations Données
  • 13. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données 13 49 SID Les SID, dans leur version la plus complète, permettent de répondre aux questions suivantes : ■ Que s’est-il passé ? ■ Pourquoi cela s’est-il passé ? ■ Que va-t-il se passer ? ■ Que vient-il se passer ? Différentes questions : ■ Quel est le volume des ventes par produit et par région durant le troisième trimestre de 2011 ? ■ Quels sont les produits dont le volume des ventes baisse constamment durant les 6 derniers mois de l'année ? ■ Est ce qu'une baisse de prix de 10% par rapport à la concurrence ferait redémarrer les ventes du produit p ? 50 ■ Les décideurs doivent : ● prendre rapidement des décisions ● prendre de "bonnes décisions" ● faire des prévisions pour orienter les choix de l'entreprise SID ■ Un SID bien conçu doit donc : ● Fournir un accès à des données fiables. ● Présenter l’information de manière cohérente. ● Être acceptable et accepté par tous les utilisateurs. ● Faciliter la prise de décision. Connaître la signification d’une information c’est bien, savoir quoi en faire c’est mieux. ● Aider à la diffusion de l’information et à la mise en œuvre des actions. 51 Comment faciliter la prise de décision ? ■ utiliser les données produites par l'entreprise dans la gestion quotidienne ■ produire régulièrement des données nécessaires au processus de décision (résumés, synthèses, etc.) ■ disposer d'outils d'analyse de données SID La valeur ajoutée du décisionnel réside dans : ■ l’apport fonctionnel ■ la performance ■ la capacité à traiter de grands volumes de données ■ la capacité à évoluer ■ l’accessibilité 52 SID : Applications typiques ■ Banque et assurance ● Détermination de profils de clients (risques de prêt, nouveaux services) ● Suivi des clients, gestion de portefeuilles ● Mailing ciblés pour le marketing … ■ Econométrie ● Prévisions de trafics routiers ● Prévisions de mouvements boursiers … ■ Santé ● Etudes épidémiologiques ● Recherche de nouveaux médicaments … ■ Grande distribution ● Ciblage de clientèle, habitudes d’achat, secteurs géographiques … ● Opportunités de promotions, produits à succès, modes … ● Agencements de magasins (sur la base de corrélations entre produits).
  • 14. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données 14 Architecture d’un SID 53 Trois couches : alimentation, stockage, restitution ■ ETL (Extract Transform Load) ● Récupère des données hétérogènes, les transforme et les charge. ■ Entrepôt de données ● Stockage intelligent de l’information, associé à des outils de «navigation» dans les données. ■ Outils de restitution ● Rapports prédéfinis, outils de requêtage, reporting de masse, tableaux de bord dynamiques, … ■ Un «portail» pour fédérer l’ensemble ● Point d’entrée unique pour l’ensemble des applications. ● Gestion des droits d’accès en fonction du profil de l’utilisateur. 54 Architecture d’un SID 55 Fonctions d’un SID ● Collecte des données brutes dans leurs environnements d'origine, ce qui implique des activités plus ou moins élaborées de détection et de filtrage; ● Intégration des données, c-à-d leur regroupement en un ensemble technique, logique et sémantique homogène approprié aux besoins de l'organisation ; ● Diffusion, ou distribution d'informations élaborées à partir des données dans des contextes appropriés aux besoins des utilisateurs ; ● Administration, qui gère le dictionnaire de données et le processus d'alimentation de bout en bout, (le SID doit lui-même être piloté). ● Présentation se charge de présenter les informations à valeur ajoutée de telle sorte qu'elles apparaissent de la façon la plus lisible possible dans le cadre de l’aide à la décision Historique de l’informatique décisionnelle 56 L’usage de l’informatique pour supporter des décisions n’est pas nouveau : Années 70-80 : débuts de l’Informatique Décisionnelle : ● Développement d'outils d'édition de rapports, de statistiques, exploitant les BD du Système d’information Opérationnel. ● Développement de petits systèmes d’aide à la décision à base de tableurs (simulation budgétaire, …). ● Développement de systèmes experts (IA) systèmes à base de règles, conçus par extraction de la connaissance d'un ou plusieurs experts : ■ bons résultats obtenus pour certains domaines d'application tels que la médecine, la géologie, la finance, ... ■ mais formalisation sous forme de règles de la prise de décision est difficile voire impossible dans de nombreux domaines. ● Développement de SIAD (DSS Decision Support Systems) : basés sur des techniques de Recherche Opérationnelle (RO), la simulation, l’optimisation, … Systèmes en général mal intégrés au système d'information opérationnel, et devant être développés par des informaticiens.
  • 15. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données 15 Historique de l’informatique décisionnelle 57 Années 90-2000 : essor de l’informatique décisionnelle : ■ technologie informatique permettant le développement d’environnements spécialisés pour l'aide à la décision notamment des entrepôts de données. ■ de nombreux algorithmes, souvent issus des statistiques et de l’IA, permettant d'extraire des informations à partir de données brutes sont arrivés à maturité. ■ ces algorithmes sont regroupés dans des logiciels de fouille de données et permettent la recherche d'informations nouvelles ou cachées à partir de données. ■ de plus en plus ces données sont issues du Web, aussi la recherche d’information et la fouille de données sur le Web (ou "Web Mining") sont de plus en plus d’actualité. Infocentre 58 ■ Concept apparu au début des années 80. ■ Réponse à la difficulté des services informatiques de satisfaire les besoins variés, nombreux et imprévisibles des décideurs. ■ L'infocentre peut être vu comme une interface entre un utilisateur (non informaticien) et une BD de production ou privée (agrégation de données). Cette interface permet à l'utilisateur d'accéder aux données facilement et sans recourir à un langage. Différence entre Infocentre et DataWarehouse 59 ■ L’infocentre est une collection de données orientées sujet, intégrées, volatiles, actuelles, organisées pour le support d’un processus de décision ponctuel. ■ Le DW est une collection de données orientées sujet, intégrées, non volatiles, historisées, organisées pour le support d’un processus d’aide à la décision. ■ L’infocentre une solution décisionnelle qui consiste en une mise à disposition simple des données de production. ■ Le DW complète l'infocentre par une 'Préparation' intelligente des données mises à disposition : ● Mise en conformité et uniformisation des codes utilisés ● Choix des données à présenter : Mesures et Axes d'analyse, ainsi que du degré d'historisation nécessaire ● Nettoyage des données présentés avant chargement ● Pré-agrégations répondant à des problématiques de performance, choix du degré de finesse des mesures présentées. Executive Information System (EIS) 60 ■ Un EIS (ou encore système d'information pour dirigeants) est un système destiné aux dirigeants qui ont besoin d'un outil d'aide à la décision mais qui ne disposent pas de temps pour l'apprentissage. ■ Il s'agit en quelque sorte du « tableau de bord » informatisé des cadres supérieurs, qui sert à la planification stratégique et à partir duquel on peut produire des rapports, des graphiques, etc., faciles à consulter rapidement. ■ Un EIS permet de générer à partir d'une ou plusieurs bases de production un ensemble d'informations agrégées (indicateurs) et de les présenter sous forme de tableau de bord aux utilisateurs. ■ À la différence d’un SAD, l’EIS ne permet pas à l’utilisateur final de poser une question qui n’aurait pas été prévue initialement.
  • 16. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données 16 61 SIO / SID OLTP / OLAP BDR / BDMD Systèmes d’informations Système de pilotage Système d’information opérationnel (SIO) Système opérant Entrepôt de données BPBPBP OLAP OLTP Système d’information décisionnel (SID) ETL Base de production 62 SID et SIO Opérationnel et Décisionnel sont deux technologies complémentaires et indissociables, et il est vain de vouloir faire sans l’une ou l’autre. 63 SID / SIO ■ système de production ■ Informatique opérationnelle ■ représente aujourd'hui la majeure partie du SI ■ focalisé sur le fonctionnement courant (gestion des patients par exemple) ■ procédures répétitives ■ transactions ■ données élémentaires ■ Utilisation des bases de données relationnelles normalisées SIO Limites du SIO ■ données détaillées surabondantes et peu lisibles, absence de synthèses ■ mauvaise qualité informationnelle ■ compartimentage, absence de sémantique commune, incohérences ■ manque de recul historique contenu très riche, faible valeur informationnelle 64 SID / SIO ■ Informatique décisionnelle ■ destiné uniquement à produire de l'information et non à automatiser des opérations ■ découplé du SIO mais alimenté par le SIO ■ transforme les données pour améliorer leur valeur informationnelle ■ potentiellement concerné par tous les types de données ■ Modélisation dimensionnelle ■ Entrepôts de données, magasin de données SID Limites du SID ■ distinction SIO/SID artificielle ■ aller-retour SIO-SID malcommodé ■ besoins flous et changeants ■ prédominance des données internes ■ manque de données instantanées ■ périmètre limité aux structures de données les plus simples ■ Dénormalisation des bases de données
  • 17. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données 17 OLTP / OLAP 65 Les applications informatiques peuvent être classées en deux catégories : ■ Applications OLTP (On-Line Transactional Processing) ■ Applications OLAP (On-Line Analytical Processing) OLTP / OLAP Applications OLTP : ■ L'intégrité et la sécurité des données sont privilégiées. ■ Requêtes simples ■ Utilisées par des services de production : commerciaux, administratifs, production, etc.. ■ Nécessitent la connaissance des structures des données. ■ Utilisent des bases de données de production (relationnelles) ■ Manipulent des données homogènes. ■ Nombre d'utilisateurs simultanés important. ■ Applications critiques. Exemples d'applications : ■ Gestion bancaire ■ Systèmes de réservation ■ Gestion commerciale, personnel, production, etc. 66 Exemple de requête : ■ Le 15/01/2002 à 13h12, le client X a retiré 500DT du compte Y OLTP / OLAP 67 Exemple de requête : ■ Quel est le volume des ventes par produit et par région durant le troisième trimestre de 2002? Applications OLAP : ■ Catégorie de traitements dédiés à l’ide à la décision dont des requêtes interactives complexes sur des gros volumes de données. ■ L'analyse et la manipulation des données sont privilégiées. ■ Requêtes complexes ■ Applications d'aide à l'élaboration de stratégies ■ Utilisées par les DG, les services marketing, financiers, contrôleurs de gestion, etc.. ■ Ne nécessitent pas la connaissance des structures des données. ■ Utilisent des entrepôts de données (modèle multidimensionnel) ■ Manipulent des données hétérogènes. ■ Nombre d'utilisateurs simultanés faible. Exemples d'applications : ■ Analyse des tendances ■ Analyse des comportements 68 BD relationnelles / BD multidimensionnelles Pays France Espagne Allemagnepommes poires oranges janvier février avril Temps Produits Vente de pommes en Allemagne en avril Achat PK id_achat FK id_client id_produit Quantité client PK id_client Nom adresse Produit PK id_produit Libellé Famille Les données nécessaires pour effectuer des analyses et en déduire des orientations stratégiques peuvent être stockées dans des structures : ■ relationnelles ou ■ multidimensionnelles.
  • 18. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données 18 69 BD relationnelles / BD multidimensionnelles Bases de données relationnelles ■ Structure tabulaire. ■ Croisement des données à l'aide des jointures. ■ Pas de redondance (doublons, agrégation). ■ Les résultats de requêtes sont sous forme de listes. ■ Opérations : Sélectionner, ajouter, mettre à jour et supprimer des tuples.  Structures peu adaptées aux applications de type OLAP. ■ Les données sont organisées selon des axes. ■ Hypercube comprend autant de dimensions que d'axes d'analyse. ■ Possibilité de redondance des données. ■ Les requêtes peuvent exploiter toutes les combinaisons d'axes. ■ Temps d'accès stable. ■ Moins de risque d'erreurs dans la formulation des requêtes. ■ Langage MDX = Multidimensional Expressions (de Microsoft "OLE DB for OLAP")  Structures bien adaptées aux applications de type OLAP. Bases de données multidimensionnelles Différences entre OLTP et OLAP OLTP OLAP Conception  orientée application (Application de  production, Facturation )  structure statique  (E/R)   orientée sujet (Client, Produit, Vendeur)  structure évolutive (en étoile, flocon) Données  détaillées, non agrégées  récentes, mise à jour  accessibles de façon individuelle  normalisées  Résumées, recalculées, agrégées.  Historiques  accessibles de façon ensembliste  dénormalisées Vue  relationnelle  multidimensionnelle Requêtes /  Utilisation  simples, nombreuses, régulières,  prévisibles, répétitives  sensibles aux performances (réponses  immédiates)  accès à beaucoup de données  complexes, peu nombreuses,  irrégulières, non prévisibles  non sensibles aux performances  (réponses moins rapides)  accès à beaucoup d'information Utilisateurs  agents opérationnels  nombreux (des milliers)  concurrents  managers / analystes  peu  (dizaines voir centaines)  non concurrents Accès  lectures, insertions, m‐à‐j, suppressions  lectures, insertions, mises à jour, Taille  100MB à qcqs Go  100GB à qcqs To 70 Charge du serveur de données opérationnel décisionnel opér. + décis. taux d’occupation temps Source: H.E.C. Liège - U.E.R. Systèmes d'Information (F. Fontaine) 71 Besoins décisionnels Data Warehousedonnées opérationnelles contrôle d’info. détaillées et récentes, rapports standardisés « interrogation et rapports » fichiers du logiciel DM BUSINESS INTELLIGENCEBUSINESS INTELLIGENCE analyse ad-hoc, info. globalisées, prise de décisions « OLAP - EIS» découverte de connaissance « Data Mining » En synthèse 72
  • 19. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données 19 Chapitre 2 Entrepôt de données 73 Plan 1. Introduction 2. Objectifs 3. Définition 4. Architecture 5. Processus ETL 6. Implementation FST© Med Ali Ben Hassine 2012 ■ La réponse tient en un mot : Entrepôt de données (data warehouse) ! ■ Il ne faut pas être inquiet,... nous sommes tous fichés dans ces immenses entrepôts de données : toutes actions liées à l’activité d’une entreprise sont stockées dans un Data Warehouse (DW) pour en être analysées, via des outils de datamining afin de nous étudier. Ceci dans un but bien précis : celui de nous connaître afin de mieux identifier nos besoins Introduction c’est par pur « feeling » du responsable ou bien par une stratégie de marketing bien plus élaborée? Par quel moyen, la publicité nominative (postal ou par mail) est bien souvent en relation directe avec nos habitudes de consommations ? Comment choisir l’emplacement des produits dans une grande surface ? 74 Introduction - Problématique Une grande masse de données : – Distribuée – Hétérogène – Très détaillée À traiter : – Synthétiser / Résumer – Visualiser – Analyser Pour une utilisation par : – Des experts et des analystes d'un métier – NON informaticiens – NON statisticiens 75 Introduction – Problématique Comment répondre aux besoins de décideurs afin d’améliorer les performances décisionnelles de l’entreprise? ■ En donnant un accès rapide et simple à l’information stratégique. ■ En donnant du sens aux données. ■ En donnant une vision transversale des données de l’entreprise (intégration de différentes bases de données). ■ En extrayant, groupant, organisant, corrélant et transformant (résumé, agrégation) les données. 76
  • 20. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données 20 Introduction – Solution ● Mettre en place un SI dédié aux applications décisionnelles : un entrepôt de données (datawarehouse). ● Transformer des données de production en informations stratégiques. 77 Le DW est un système d’information dédié aux applications décisionnelles situé en : ■ Aval des bases de production (bases opérationnelles) ■ Amont des prises de décision basées sur des indicateurs (Key Business Indicators (KBI)) 78 Entrepôt de Données Entrepôt de Données (Définition) Bill Inmon (1996) 79 Principe ■ base de données utilisée à des fins d’analyse. ■ récolte, stocke et gère efficacement des gros volumes données pour la prise de décision. ■ assure un regroupement homogène et exploitable de données hétérogènes, très nombreuses et distribuées. " Un Entrepôt de Données est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour la prise de décision ". Caractéristiques : orientées sujet ● orientées sujet («métiers») : Les données des entrepôts sont organisées par sujet plutôt que par application. Par exemple, une chaîne de magasins d’alimentation organise les données de son entrepôt par rapport aux ventes qui ont été réalisées par produit et par magasin, au cours d’un certain temps. Production Employé Facturation Données Production Données Employé Données Facturation 80
  • 21. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données 21 Caractéristiques : Données intégrées ● intégrées : Les données provenant des différentes sources doivent être intégrées, avant leur stockage dans l’entrepôt de données. L’intégration (mise en correspondance des formats, par exemple), permet d’avoir une cohérence de l’information. Production Employés Facturation Données Client 81 Caractéristiques : Données non volatiles ● non volatiles : à la différence des données opérationnelles, celles de l’entrepôt sont permanentes et ne peuvent pas être modifiées. Le rafraîchissement de l’entrepôt, consiste à ajouter de nouvelles données, sans modifier ou perdre celles qui existent. 82 Ajout Modification Suppression Accès Chargement Bases de production Entrepôts de données Caractéristiques : Données et historisées ● historisées : La prise en compte de l’évolution des données est essentielle pour la prise de décision qui, par exemple, utilise des techniques de prédiction en s’appuyant sur les évolutions passées pour prévoir les évolutions futures. Ventes Données client 83 Pourquoi ne pas utiliser une BD? BD et DW : ■ ont des objectifs différents et font des traitements différents ■ stockent des données différentes ■ font l'objet de requêtes différentes  BD et DW ont besoin d'une organisation différente des données  BD et DW doivent être physiquement séparés. 84
  • 22. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données 22 Processus de l’entreprise : Un exemple 85 Les clients Les fournisseurs L’entreprise Les salariés Gestion de la relation client, optimisation des ventes Gestion de la relation client, optimisation des ventes Optimisation des achats Gestion des RHprocessus opérationnels Optimisation des processus opérationnels Les actionnaires Enterprise Management Finances, Strategic Enterprise Management Exemple 1/3  Consolidation financière  Analyse des coûts et de la profitabilité  Gestion des risques  Budget, planning, simulation, prévision  Gestion de la relation actionnaires  Management de la valeur ■ Gestion du temps de travail ■ Formation, recrutement ■ Fidélisation des salaries ■ Salaires et rémunération ■ Profitabilité client ■ Satisfaction client ■ Analyse comportementale, ciblage ■ Opportunités de ventes croisées ■ Efficacité de forces de ventes, canaux de distribution ■ Efficacité des opérations commerciales (promotion, publicité, etc.) ■ Performance du fournisseur ■ Optimisation des délais ■ Coûts et qualité du service (interne et prestataires) ■ Performance de la production et de la logistique (Coûts, Qualité, Délai) ■ Analyse des affectations, coût du temps travaille Objectifs, enjeux ■ Retour sur investissement (RSI, en anglais Return Of Investment 'ROI') ■ Réduction des coûts et contrôle des limites ■ Avoir une vision de l’entreprise qui aide à sa gestion, à son pilotage. ■ Répondre à des questions auxquelles les progiciels orientés métier ne peuvent faire face. ■ Les ERP ont apporté des solutions pour gérer les données de l’entreprise selon un modèle unifié et cohérent, la Business Intelligence les rentabilise. 86 Exemple 2/3 ■ Quel a été l’impact de la dernière promotion sur cette gamme d’articles? ■ Quel a été le secteur d’activité le plus rentable dans cette région? ■ Quelle est la période où l’absentéisme est le plus fort ? Quelle est la catégorie de personnel la plus touchée et quel est l’impact sur la production? ■ … Autant de questions auxquelles il est difficile de répondre, voire impossible si elles mettent en jeu des données de plusieurs compartiments de l’entreprise. ■ Exemple de problème rencontré lors du passage d’une logique de compte à une logique de client : Le client apparaît en de multiples endroits ; dans :  La base marketing  La base commerciale  Le système de facturation  Le système après vente ■ Toutes ces données doivent être homogénéisées, organisées et intégrées au sein du Datawarehouse. Requêtes 87 Exemple 3/3 Entrepôt de Données : Objectifs Principaux objectifs : 1. regrouper, organiser des informations provenant de sources diverses, 2. les intégrer et les stocker pour donner à l’utilisateur une vue orientée métier, 3. retrouver et analyser l’information facilement et rapidement. En plus: 4. Transformer un SI qui avait une vocation de production en un SI décisionnel. Transformation des données de production en informations stratégiques. 5. Les informations d'un DW doivent être cohérentes. 6. Les données du DW doivent pouvoir être séparées et combinées au moyen de toutes les mesures possibles de l'activité. 7. Le DW ne comporte pas seulement des données mais aussi un ensemble d'outils de requêtes, d'analyse et de présentation d'information. 88
  • 23. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données 23 8. Gestion et visualisation des données doit être rapide et intuitive visualisation multidimensionnelle des données: 9. La qualité de l'information d'un DW est l'un des ressorts de la réorganisation des données (Business Reengineering). Entrepôt de Données : Objectifs (suite) Comment Fédérer/Regrouper l'ensemble des données de l'entreprise ? 89 Entrepôt de Données (Fonctions) La construction d’un entrepôt revient à faire correspondre les besoins des utilisateurs avec la réalité des informations disponibles. Trois fonctions essentielles : ■ collecte de données de différentes bases existantes ■ Stockage de données (historisées) ■ Mettre à disposition les données pour :  Interrogation  Visualisation  Analyse 90 Architecture 91 Différence entre un DW et un datamart Un DW et un datamart se distinguent par le spectre qu'il recouvre : ● Le DW recouvre l'ensemble des données et problématiques d'analyse visées par l'entreprise. ● Le datamart recouvre une partie des données et problématiques liées à un métier ou un sujet d'analyse en particulier (finance, commercial, …)  Mini DW lié à un métier particulier de l ’entreprise ● Un DW est souvent volumineux (plusieurs centaines de Go voire qcqs To ) avec des performances inappropriées (temps de réponse trop longs). ● Un Data mart comporte moins de 50 Go, ce qui permet des performances acceptables. ● La création d’un datamart peut être un moyen de débuter un projet de DW (projet pilote). 92 Datamarts du service Marketing Datamart du service Ressources HumainesDW de l’entreprise
  • 24. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données 24 Différence entre un DW et un datamart Pourquoi des datamarts ? Les datamarts sont destinés à pré-agréger des données disponibles de façon plus détaillée dans les DW, afin de traiter plus facilement certaines questions spécifiques, critiques, etc. 93 Exemple : Ticket de caisse Si un DW enregistre un ensemble de ventes d'articles avec un grain très fin, un datamart peut faciliter une analyse dite de ticket de caisse (co- occurrence de ventes de produits par exemple) en adoptant un grain plus grossier (le ticket plutôt que l'article). Catégories des données stockées ■ Données dans un DW : données du SIO + BD externes (ETL). ■ Quatre catégories de données :  Les données de détail : issues des systèmes transactionnels de l’entreprise "socle de l’entreprise". Leur stockage permet d’offrir aux utilisateurs du SID les détails des chiffres affichés, par exemple, sur un tableau de bord.  Les données agrégées : correspondent à des éléments d’analyse représentant les besoins des utilisateurs. Elles constituent déjà un résultat d’analyse et une synthèse de l’information contenue dans le système décisionnel, et doivent être facilement accessibles et compréhensibles..  Les méta données : décrivent les caractéristiques des données stockées : origine, date de dernière m-à-j, mode de calcul, procédure de transformation. Elles sont utiles aussi bien aux utilisateurs (comprendre les données) qu’aux administrateurs (fournir des moyens d’exploitation et de maintenance du DW).  Les données historisées : Couches de données dans lesquelles chaque nouvelle insertion de données provenant du SIO ne détruit pas les anciennes valeurs, mais créée une nouvelle occurrence de la donnée. 94 Processus ETL 95 ■ L’ETL est une couche logicielle responsable de l’alimentation d’une BD à partir de sources de données. ■ Dans un SID, l’ETL sert à alimenter l’ED ou bien les magasins de données . ■ L’ETL fait partie des middlewares (intergiciels) Importance de l’ETL 96 ■ Constitue 70 à 80% du temps passé dans un projet décisionnel. ■ La qualité de l’ED dépend de la qualité de l’ETL :  Temps de chargement  Fréquence de chargement  Qualité des données (QoD)  Qualité des services (QoS)
  • 25. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données 25 Processus ETL Outils d’alimentation pour ■ Extraire ■ Transformer ■ Charger dans un DW 97 données sources ETL = Extracteur+Intégrateur Extract + Transform + Load Objectif ● Obtenir des informations consolidées et stables dans l’entrepôt. ● Tache difficile à mettre en œuvre ETL – Extraction ■ Objectif : Identifier et localiser les données sources pertinentes (BDR, fichiers, …) puis les collecter et les extraire des différents systèmes opérationnels. ■ Fonctionnalités :  Traiter différents formats (XML, HTML, TXT, CSV, DB2, Oracle…).  Gérer les connexions aux sources (ODBC, JDBC...).  Extraire le dictionnaire des sources (propriété des colonnes, clés…).  Extraire les données de manière performante et sans perturber les environnements de production.  Détecter les données qui ont été modifiées dans les sources.  Ajouter des contrôles (fichier de rejets, audits…).  Stocker l’ensemble des règles d’extraction dans le référentiel. 98 ETL – Extraction 99 Extraction logique Traite la quantité des données à extraire Extraction Extraction physique Traite l’aspect technique de l’opération de l’extraction ■ totale : extraire toutes les données dans un seul coup ■ incrémentale(partielle) : à chaque fois, extraire une partie des données ■ directe (Charger les données directement au DW) ■ indirecte (passer par staging area) 100 Deux principales possibilités ■ Extraction des changements: ■ Que les parties des données ayant été modifiées depuis la dernière procédure d’extraction sont transmises au système DW. ■ Modifications peuvent être des insertions de tuples (insert), des effacements de tuples (delete). Des modifications de tuples existants (update) sont typiquement implémentés par une suite insert+delete. ■ Copie intégrale des données source (snapshot) ■ S’utilise lorsque le nombre de changements individuels est trop important ou si l’extraction des changements n’est pas possible due à des raisons techniques. ■ Conflit d’intérêt: Extraction de données cohérentes vs. restriction du fonctionnement opératif causé par l’accès exclusif des données, nécessaire durant l’extraction. ETL – Extraction
  • 26. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données 26 ETL –Transformation Problématique ■ Existence de plusieurs sources ■ non conformité des représentations ■ découpages géographiques différents ■ 5 à 30 % des données des BD commerciales sont erronées ■ une centaine de type d’inconsistances ont été répertoriées données erronées analyse erronée ! DW BP BP BP ■ Transformation : Étape importante garantissant que les données intégrées dans le DW seront cohérentes et fiables. 101 ■ Objectif  Transformer les données sources selon les unités de mesure et les formats de l’ED.  Homogénéiser les données sources.  Nettoyer les données.  Suppression des incohérences sémantiques.  Dater les données.  Créer des clés. 102 Suppression des incohérences sémantiques entre les sources pouvant survenir lors de l’intégration : ■ des schémas :  problème de modélisation : différents modèles de données sont utilisés  problèmes de terminologie : un objet est désigné par 2 noms différents, un même nom désigne 2 objets différents  incompatibilités de contraintes : 2 concepts équivalents ont des contraintes incompatibles  conflit sémantique : choix de différents niveaux d’abstraction pour un même concept  conflits de structures : choix de différentes propriétés pour un même concept  conflits de représentation : 2 représentations différentes choisies pour les mêmes propriétés d’un même objet ■ des données :  Equivalence de champs  Equivalence d’enregistrements : fusion d’enregistrements ETL –Transformation 103 Objectif : Résoudre le problème de consistance des données au sein de chaque source. ETL – Transformation ■ présence de données fausses dès leur saisie  faute de frappe  différent format dans une même colonne  (jj/mm/aa, mm/jj/aa, jj-mois  jj/mm/aaaa)  texte masquant de l’information (e.g., “N/A”)  valeurs nulles et valeurs incohérentes  9999, xxxx, non renseignée, inc,  inconnue  Traiter les valeurs manquantes et les valeurs incohérentes (ignorer, remplacer, saisir manuellement ces valeurs manquantes)  incompatibilité entre la valeur et la description de la colonne  duplication d’information (Référence des produits, des clients dans différentes sources) Types d’inconsistances Nettoyage 104 ■ persistance de données obsolètes ■ confrontation de données sémantiquement équivalentes mais syntaxiquement différentes (Problèmes de codage et de nommage)  Employé, Personnes, Salariés, Personnel  Employés  Boulvd, Bd, Boulevard  Boulevard Types d’inconsistances (suite) un outil de nettoyage comprend ■ des fonctions d’analyse ■ des fonctions de normalisation ■ des fonctions de conversion ■ des dictionnaires de synonymes ou d’abréviations ETL – Transformation Nettoyage
  • 27. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données 27 105 Définition de table de règles remplacer valeur par Mr M monsieur M mnsieur M masculin M M M Msieur M M. M Monseur M normalisation, conversion, dictionnaires, ... Exemple de conversions : utilisation d’expression régulière, suppression de doublons, de valeur nulle, ... ETL – Transformation Nettoyage 106 ■ 5 étapes de nettoyage de données: 1. Décomposition des données source en éléments (elementizing) Par exemple adresse  rue, numéro, code postal, ville 2. Adaptation des éléments à un format standard (standardizing) : par exemple, adoption d’un même format pour les dates (jj/mm/aaaa), "1ST AVE"  "First Avenue" 3. Vérification de la plausibilité de données (vérification) : par exemple le conflit entre code postal = «91400» et ville = «Paris» est identifié et résolu 4. Alignement des données (matching) : par exemple vérification de l’existence d’un produit (tuple provenant d’une source) dans la BD intégrée. Si un produit y existe déjà, sa représentation intégrée est adaptée. 5. Formation de groupes (householding) Vérification de l’appartenance de nouveau tuples à un groupe de tuples de la BD intégrée intéressant au niveau application (bénéfique lors des analyses). Par exemple, formation / élargissement du groupe «type de consommateur». ETL – Transformation Nettoyage ETL – Chargement Données nettoyées et transformées ■ Fonctionnalités :  Traiter les messages reçus du système de transformation des données.  Insérer de nouvelles données et archivage de données anciennes.  Ordre de chargement : 1. Tables de Dimensions 2. Tables de Faits  Mettre à jour périodiquement les tables de faits (selon le grain).  Gérer les gros volumes de données (index, partitionnement, parallélisation, chargement en blocs…).  Ajouter des contrôles (fichier de rejets, audits…).  Stocker l’ensemble des règles de chargement dans le référentiel ■ Objectif : Charger les données transformées dans l’entrepôt. 107 ETL – Chargement Techniques ■ Basées SQL  Interface standard: embedded SQL, JDBC, ...  Opération / extension propriétaire: Array Insert  Considération et activation de toutes les méthodes BD: déclencheurs, actualisation d’indexes, concurrence, ... ■ Chargement de masse (bulk load): Extension spécifique d’un système BD dédiée au chargement de larges volumes de données. ■ Utilisation d’interfaces d’application: nécessaire chez certains vendeurs (SAP) 108
  • 28. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données 28 Cycle de vie de l’ETL ■ La mise en place de l’ETL passe par les étapes suivantes : 1. Conception de l’ETL :  Identification des sources de données  Correspondance des données  Définition des transformations  Structure de la zone d’attente 2. 1er chargement :  Chargement de toutes les données sources 3. Rafraichissement de l’ED :  Chargement périodique des données ■ Mise à jour de l’ETL lorsque les structures sources ou cibles changent 109 Fréquence de l’ETL ■ Dépend de :  la granularité de la dimension Temps  la disponibilité des données sources  la fréquence d’utilisation de l’ED ■ Dans certains cas, pour gagner du temps, on peut avoir une fréquence de chargement inférieure à celle de la granularité de la dimension temps. ■ Exemple :  Granularité Temps = mois  Fréquence de chargement = jour 110 La méthode pull et la méthode push ■ Techniques de détection des mises à jour effectuées sur la BD opérationnelle et son envoi à l ’entrepôt pour sa mise à niveau ultérieure.  avec la méthode pull, c’est le SID qui recherche périodiquement les données dans les BD opérationnelles. Cette méthode alimente le SID en temps différé, cependant la quantité volumineuse de données à chaque transfert peut être coûteuse en temps.  avec la méthode push, c’est le SIO qui au fil de l’eau de ses transactions alimente le SID. Cette méthode alimente le SID en temps direct ce qui oblige à revoir le code des applications opérationnelles. 111 Outils ETL ■ Sans outils :  Commandes SQL et utilitaires du SGBD source et cible  Programmation (PL/SQL) ■ Outils propriétaires :  Oracle Warehouse Builder  IBM DB2 Warehouse Manager  Microsoft Integration Services  … ■ Open source :  Talend Open studio  Pentaho Data Integration  … ■ Comparatif des outils ETL open source  http://alma.univ-nantes.fr/promotions/2007-08/stages/08-obs-francheteau.pdf  http://www.atolcd.com/fileadmin/Publications/Atol_CD_Livre_Blanc_ETL_Open_Source.pdf 112
  • 29. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données 29 Modélisation d'un DW • Les BD relationnelles ne sont pas adaptées à l'OLAP car :  Pas les mêmes objectifs  Pas les mêmes données:  Les données nécessaires à l'OLAP sont multidimensionnelles (i.e. ventes par vendeur, par date, par ville, …). Les tables en représentent une vue aplatie.  Pas les mêmes traitements et requêtes:  Non seulement perte de performances mais aussi nécessité pour les utilisateurs de savoir comment trouver les liens entre les tables pour recréer la vue multidimensionnelle. • Il est donc nécessaire de disposer d'une structure de stockage adaptée à l'OLAP, i.e. permettant de :  représenter les données dans plusieurs dimensions,  manipuler les données facilement et efficacement. Nécessité d'une structure multidimensionnelle  (Chapitre 3) 113 Implémentation d'un data warehouse 3 possibilités: 1. Relational OLAP (ROLAP) 2. Multidimensional OLAP (MOLAP) 3. Hybrid OLAP (HOLAP) [Ces concepts seront détaillés dans le chapitre 5] 114 115 ROLAP Idée: ● Données stockées en relationnel. ● La conception du schéma est particulière: schéma en étoile, en flocon. ● Des vues (matérialisées) sont utilisées pour la représentation multidimensionnelle. ● Un moteur ROLAP permet de simuler le comportement d’un SGBD multidimensionnel (Traduction des requêtes OLAP (slice, rollup…) en SQL) ● Utilisation d'index spéciaux: bitmap. ● Administration (tuning) particulière de la base. Avantages/inconvénients ● Souplesse, évolution facile, moins cher à mettre en place stockage de gros volumes. ● Mais peu efficace pour les calculs complexes. 115 MOLAP Idée: ● Utilise un système multidimensionnel pour gérer les structures multidimensionnels ● Modélisation directe du cube. ● Ces cubes sont implémentés comme des matrices à plusieurs dimensions. ● CUBE [1:m, 1:n, 1:p…] (mesure) ● Le cube est indexé sur ses dimensions. Avantages/inconvénients ● rapide ● formats propriétaires ● ne supporte pas de très gros volumes de données 116
  • 30. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données 30 HOLAP Idée: ● MOLAP + ROLAP ● Données stockées dans des tables relationnelles ● Données agrégées stockées dans des cubes. ● Les requêtes vont chercher les données dans les tables et les cubes. ● Solution hybride entre MOLAP et ROLAP ● Bon compromis au niveau coût et performance 117 Administration d'un ED ■ L'ED est un aspect physique du SI de l'entreprise. Il doit être par conséquent évolutif. Les données doivent donc changer. On doit procéder à d'autres alimentations et donc gérer l'actualisation des données. ■ Il existe des outils qui prennent en charge les tâches de rafraîchissement des données. ■ Ils procèdent par réplication pour propager les m-à-j effectuées dans les BD sources, dans l'ED. ■ Le mécanisme de réplication et une opération de copie de données d'une BD vers une ou plusieurs BD. ■ Les réplications sont alors asymétriques synchrones ou asynchrones ou alors symétriques synchrones ou asynchrones. ■ Le rafraîchissement des données peut se faire également par des processus de transformation qui exploitent les méta-données. 118 Administration d'un ED ■ La fonction d'administration porte sur un aspect fonctionnel (qualité et la pérennité des données) mais aussi sur un aspect technique (maintenance, optimisation, sécurisation,...) ■ Elle concerne l'ensemble des tâches du processus d'entreposage de la sélection des données de production à la mise à disposition pour construire les espaces d'analyse. ■ L'administrateur de l'ED doit maîtriser la gestion des données (données, provenance des données, méta-données). ■ Les données agrégées sont aussi une production (information) de l'entreprise comme les données de production (ERP), doivent être entreposées. ■ Ainsi le développement de l'ED témoignera, aussi bien de la production de base que de l'activité informationnelle (pilotage de l'entreprise). ■ Les requêtes portent plus souvent sur les agrégats que sur les données de base (80% - 20%) 119 Rôles et responsabilités Kimball (2004) a définit 8 rôles dont les plus sont : 1. Gestionnaire ETL ■ Gérer quotidiennement l’équipe ETL. ■ Définir les standards et procédures de l’environnement de développement ETL (Règles de nomenclature, Meilleures pratiques…) ■ Superviser le développement, les tests et l’assurance qualité 2. Architecte ETL ■ Concevoir l’architecture et l’infrastructure de l’environnement ETL. ■ Concevoir le mappage logique de données. ■ Livrer les routines ETL en production. ■ Appréhender les besoins d’affaire. ■ Connaître les systèmes source. ■ Résoudre les problèmes techniques complexes. 120
  • 31. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données 31 Rôles et responsabilités 3. Développeur ETL ■ Développer les routines ETL. ■ Tester les routines ETL. ■ S’assurer que les résultats du processus ETL répondent aux besoins d’affaire (Collaboration étroite avec l’architecte ETL) 4. Analyste système ■ Rassembler des besoins d’affaire. ■ Documenter les besoins d’affaire. ■ Travailler en collaboration avec toute l’équipe du DW (Non seulement celle du système ETL). 121 Rôles et responsabilités 5. Spécialiste qualité de données ■ S’assurer de la qualité des données dans l’entrepôt de données en entier. ■ S’assurer que les règles d’affaire sont bien implantées par les processus ETL (en collaboration avec l’analyste système et l’architecte ETL) 6. DBA ■ Installer, configurer, migrer et maintenir la base de données. ■ Traduire le modèle logique de données en modèle physique. 122 Annexe : Méthode générale de conception de l’ETL sous Oracle 1. Récupération des données sources dans la zone d'extraction  Création de vues pour les données stockées dans des BDR  Création de tables externes pour les fichiers CSV  Transformation XSLT des fichiers XML en instructions SQL et ajout manuel des données XML. Une table classique correspondant au schéma XML doit donc être créée dans le zone d'extraction. 123 2. Création des tables de traitement ● Créer une table pour chaque vue, table externe et table classique de la zone d'extraction selon la syntaxe SQL3 du modèle RO pour pouvoir accepter des méthodes ultérieurement. Déclarer ensuite une méthode pour chaque attribut à exporter dans le modèle dimensionnel. ● Ajouter un attribut booléen pour chaque table afin de discriminer ultérieurement les données nouvelles des données anciennes. ● Pour chaque hypothèse de "propreté" des données sources, on poser une contrainte associée. Par exemple si une donnée doit être une clé primaire et que l'on pense que les sources sont correctes de ce point de vue, on ajoute la clause PRIMARY KEY. Par contre il ne faut pas ajouter les contraintes lorsque l'on sait que les données sources sont "sales", sans quoi ces données seront refusées au chargement et ne pourront jamais être nettoyées. ● Pour chaque hypothèse de "nettoyage" des données sources, on pose un trigger qui va traquer les erreurs et les rapporter dans une table de log. ● On note enfin qu'il est parfois utile de donner des tailles de champs plus grandes que celle attendues afin de ne pas bloquer ou tronquer d'enregistrement. C'est une autre façon de "relâcher" les Contraintes. Annexe : Méthode générale de conception de l’ETL sous Oracle 124
  • 32. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données 32 3. Transfert des données de la zone d'extraction vers la zone de transformation ● Toutes les données doivent passer, l'analyse des triggers et le non blocage par les contraintes posées permettent de valider les hypothèses de propreté. ● On utilise l'instruction Oracle MERGE pour les imports. Les données nouvelles sont marquées en utilisant l'attribut de discrimination ajouté à cet effet. ● Les sources de données importées manuellement de la zone d'import sont remises à zéro (DELETE). Annexe : Méthode générale de conception de l’ETL sous Oracle 4. Création des méthodes de transformation ● On implémente une méthode pour chaque attribut que l'on souhaite exporter dans le modèle dimensionnel. Cette méthode permet de réaliser dynamiquement les transformations et vérifications adéquates. 125 5. Préparation du chargement ● Désactivation des contraintes des tables dimensionnelles. ● Suppression des index des tables dimensionnelles. 6. Chargement dans les tables dimensionnelles ● Seule l'API fournie par les méthodes est utilisée pour accéder aux données. ● On peut choisir une mise à jour complète : la base dimensionnelle est vidée puis remplie à nouveau ; ou bien une mise à jour partielle : les données nouvelles (marquées comme telles) sont ajoutées mais les modifications sur les données préalables ne sont pas prises en compte. 7. Post-chargememnt ● Réactivation des contraintes, en cas d'erreur procéder aux corrections ad hoc dans les méthodes de transformation et recommencer. ● Recréer les index. Annexe : Méthode générale de conception de l’ETL sous Oracle 126 Attention : Passage ● Le passage d'une zone à l'autre doit toujours laisser passer toutes les données. ● Lors du passage de la zone d'extraction à la zone de transformation, les contraintes qui bloquent doivent être levées pour laisser passer les données et lors du passage de la zone de transformation à la zone d'exploitation, les méthodes doivent gérer tous les cas de figure problématiques. Rappel : Particularités Oracle à mobiliser ● Tables externes : ORACLE LOADER ● Triggers : CREATE TRIGGER ● Instruction d'ajout et mise à jour de données : MERGE ● Méthodes relationnel-objet : CREATE TYPE et CREATE TYPE BODY ● Désactivation et réactivation de contraintes : ALTER TABLE nom_table [ENABLE | DISABLE] CONSTRAINT nom_contrainte; Annexe : Méthode générale de conception de l’ETL sous Oracle 127 128 Annexe : Méthode générale de conception de l’ETL sous Oracle Résumé en image 128