SlideShare une entreprise Scribd logo
1  sur  73
Télécharger pour lire hors ligne
Entrepôt de données /
Data Warehouse
Préparé par: Dr. Olfa DRIDI
FSB – Département Informatique GLSI2 - 2022
© OD - 2022
2
Plan
1. Introduction : Le marché du décisionnel
2. Les entrepôts de données (ED)
3. Alimentation d’un ED
4. Modélisation d’un ED
5. Les datamarts
© OD - 2022
3
Objectifs
Ø Le cours Entrepôt de données est destiné aux
administrateurs des bases de données ou futurs data
scientist, ou tout autre acteur mené à structurer et/ou
analyser , jouer avec les données volumineuses
© OD - 2022
4
Références bibliographiques
Ø Le data warehouse : Guide de conduite de projet- Ralph Kimball,
2005.
Ø Modélisation des Systèmes d'Information Décisionnels :
Techniques de modélisation conceptuelle et relationnelle des
entrepôts de données - Emmanuel Ferragu, 2013.
Introduction aux
systèmes d’information
FSB – Département Informatique GLSI2 - 2021
© OD - 2022
6
6
Notion d’information
Ø Une information, c’est une donnée qui a un sens pour celui qui en a
besoin.
Le modèle est connu,
l’interprétation donne
du sens aux données
Le modèle est inconnu,
le sens est plus difficile à
percevoir ou incomplet
© OD - 2022
7
Définitions
Bien distinguer :
Donnée-Information-Connaissance
Ø Donnée : Fait
Ø Information : Fait qui a un sens pour quelqu’un
Ø Connaissance : L’information devient connaissance quand elle est traitée
dans le cerveau des individus.
Ø Connaissance : C’est de l’information combinée avec l’expérience, le
contexte, l’interprétation et la réflexion.
© OD - 2022
8
Donnée, information et connaissance
© OD - 2022
9
9
L’information est un facteur de production
presque comme les autres
Ø L’information a une valeur, variable selon son importance, son
ancienneté…
Ø L’information doit être
extraite,
stockée,
traitée,
maintenue…
à c’est la tâche du système d’information !
© OD - 2022
10
Définition SI
En informatique et en télécommunications, et plus généralement dans le
monde de l'entreprise, le terme système d'information (ou SI) possède les
significations suivantes :
1. Un ensemble organisé de ressources (personnel, données, procédures,
matériel, logiciel, …) permettant d'acquérir, de stocker, de structurer et de
communiquer des informations sous forme de textes, images, sons, ou de
données codées dans des organisations. Selon leur finalité principale, on
distingue :
a. des systèmes d'information supports d'opérations (traitement de
transaction, contrôle de processus industriels, supports d'opérations de
bureau et de communication)
b. des systèmes d'information supports de gestion (aide à la production de
rapports, aide à la décision…).
10
© OD - 2022
11
2. Un système ou sous-système d'équipements, d'informatique ou de
télécommunication, interconnectés dans le but de l'acquisition, du
stockage, de la structuration, de la gestion, du déplacement, du
contrôle, de l'affichage, de l'échange (transmission ou réception) de
données sous forme de textes, d'images, de sons, et/ou, faisant
intervenir, du matériel et des logiciels.
Le système d'information coordonne grâce à l'information les
activités de l'organisation et lui permet ainsi d'atteindre ses objectifs.
Il est le véhicule de la communication dans l'organisation. De plus, le
SI (système d'information) représente l'ensemble des ressources (les
hommes, le matériel, les logiciels) organisées pour : collecter,
stocker, traiter et communiquer les informations.
Définition SI
11
© OD - 2022
12
Définition SI
12
© OD - 2022
13
Le système d’information
Ø Différentes missions du SI
• Collecter (sources externes et internes)
Saisie, numérisation
Extraction
• Stocker
Supports divers et multiples
Indexation, mots clés, thésaurus…
Maintenir en état d’utilisation sur une période longue
• Traiter
Produire des informations sous la forme appropriée aux besoins de
l’utilisateur
• Restituer, diffuser (sous différentes formes)
Électronique ou papier
Importance des formats de fichiers
Supports de communication (filaire, non-filaire…)
© OD - 2022
14
14
Notion de système d’information
Système opérationnel
Entrées Sorties
Flux de décisions
Flux d’informations
contraintes
Système de
pilotage
Système d’information
Activité :
Générer des
informations
Mémoriser
Diffuser
Traiter
Activité :
Transformer
Produire
Activité :
ØRéfléchir : adaptation
à l’environnement,
conception
ØDécider : prévisions,
planification
ØContrôler
© OD - 2022
15
Le système de pilotage
Ø Appelé également système de décision
Ø Exploite les informations qui circulent
Ø Organise le fonctionnement du système
Ø Décide des actions à conduire sur le système opérant
Ø Raisonne en fonction des objectifs et des politiques de l’entreprise
15
© OD - 2022
16
Le système opérant
Ø Reçoit les informations émises par le système de pilotage
Ø Se charge de réaliser les tâches qui lui sont confiées
Ø Génère à son tour des informations en direction du système
de pilotage
Ø Il englobe toutes les fonctions liées à l’activité propre de
l’entreprise :
Facturer les clients, régler les salaires, gérer les stocks, …
© OD - 2022
17
17
SI et nouveaux métiers
Ø Directeur de SI
Ø Intégrateur : chargé d’adapter une solution logicielle à la
réalité de l’entreprise
Ø Architecte, urbaniste de SI
Ø Chef de projet sécurité des SI
Ø ….
© OD - 2022
18
Évolution des systèmes d’information au cours des
40 dernières années
Ø «Quel que soit son métier, une organisation doit pour
réussir maîtriser un tripode formé des RH, de la finance
et des systèmes d’information»
• Accélération de la vie des organisations et des affaires
• Environnement de plus en plus large (notion d’entreprise
étendue)
• Évolution permanente et rapide des technologies
• Complexité plus grande à gérer
• Tendance à l’externalisation des services informatiques
• Accroissement des risques
18
© OD - 2022
19
Problématique
Ø Pourquoi un entrepôt de données?
Améliorer les performances décisionnelles de l’entreprise.
Ø Comment?
En répondant aux demandes d’analyse des décisdeurs.
Ø Exemples:
Clientèle: Qui sont mes clients? Pourquoi sont-ils mes clients?
Comment les conserver ou les faire revenir (préférenced’achat,
habitudes, …) ? Ces clients sont-ils vraiment intéressants pour moi?
Marketing, actions commerciales: Où placer ce produit dans des
rayons?
© OD - 2022
20
Problématique
Ø Comment les décideurs prennent-ils les décisions?
20
© OD - 2022
21
Contexte
Ø Aujourd’hui, les entreprises produisent et stockent d’énormes quantités
de données. Ces données, qui constituent un extraordinaire gisement
d’informations sur ses activités et son positionnement dans le contexte
économique, sont souvent insuffisamment exploitées.
21
© OD - 2022
22
Types de données
u Données détaillées:
u courantes ou anciennes
u données opérationnelles (de production)
u Données opérationnelles archivées
u Données agrégées
u Faiblement ou fortement
u Pour mieux répondre aux questions des gestionnaires
u Données sur les données :
u règles d’extraction, de conversion, d’agrégation, ...
22
© OD - 2022
23
Informatique Décisionnelle (ID)
Ø L’informatique décisionnelle ou la Business intelligence est
l’ensemble des moyens, des outils et des méthodes qui permettent de
collecter, intégrer, distribuer et de restituer les informations en vue
d’offrir une aide à la décision.
Ø L’informatique décisionnelle permet la collecte, l’organisation et le
stockage des données ainsi que l’extraction et la restitution des
informations pertinentes.
Ø Elle permet aux responsables de la stratégie d’une entreprise
d’avoir une vision synthétique de leurs activités, les aidant ainsi à
orienter leurs décisions.
Ø
23
© OD - 2022
24
Informatique Décisionnelle (ID)
Ø L’Informatique Décisionnelle (ID) ou la Business Intelligence (BI),
est l'informatique à l'usage des décideurs et des dirigeants des
entreprises
Ø Les systèmes de ID/BI sont utilisés par les décideurs pour obtenir une
connaissance approfondie de l'entreprise et de définir et de soutenir
leurs stratégies d'affaires, par exemple :
d’acquérir un avantage concurrentiel,
d’améliorer la performance de l’entreprise,
de répondre plus rapidement aux changements,
d’augmenter la rentabilité, et
d’une façon générale la création de valeur ajoutée de l'entreprise.
24
© OD - 2022
25
BI
Ø Informatique décisionnelle (business intelligence) : à l’usage des
décideurs
• Accéder rapidement et simplement aux informations stratégiques
• Donner du sens aux données
• Donner une vision transversale des données d’une organisation
• Extraire, grouper, organiser, agréger corréler les données
Qui sont
mes
meilleurs
clients ?
Quelle est
l’évolution du
taux
d’occupation
des chambres
?
Quelle est
l’efficacité des
politiques
publiques en
matière
d’écologie ?
Introduction aux
entrepôts de données
© OD - 2022
27
Les fondateurs
© OD - 2022
28
Définition d’un entrepôt de données
Ø Un entrepôt de données est une collection de
données orientées sujet, intégrées, non volatiles et
historisées, organisées pour le support d'un
processus d'aide à la décision.
W.H. Inmon, 1991
Ø « Un entrepôt de données ne s’achète pas, il se
construit... »
© OD - 2022
29
Définition d’un entrepôt de données
u Un entrepôt de données (ED) est une base de données construite par
copie et réorganisation de multiples sources (dont principalement le
système transactionnel de l'entreprise), afin de servir de source de
données à des applications décisionnelles :
u il agrège de nombreuses données de l'entreprise (intégration) ;
u il mémorise les données dans le temps (historisation) ;
u il les organise pour faciliter les requêtes de prise de décision
(optimisation).
(Goglin, 2001)
29
© OD - 2022
30
Données orientées sujets
Ø Organisé autour d’un sujet bien précis, ex: client, produit, ventes.
Ø S’intéresse à la modélisation et l’analyse des données pour aider les
décideurs, non pas pour des activités quotidiennes ou traitement
transactionnel
Ø Fournit une vue simple et concise concernant un sujet particulier en
excluant les données qui ne servent pas à la prise de décision
© OD - 2022
31
Données intégrées
Ø Elles proviennent de systèmes sources hétérogènes
Ø Cohérence, normalisation, maîtrise de la sémantique, prise
en compte des contraintes référentielles et des règles de
gestion.
Ø Définition d’un référentiel unique
© OD - 2022
32
Données historisées / datées
Ø La portée temporelle des données dans un data warehouse
est plus longue que celle des bases opérationnelles
ü Base opérationnelle: valeur courante des données.
ü Data warehouse: fournit des infos sous une perspective
historique (ex: 5 à 10 dernières années)
Ø Dans un data warehouse, en général, chaque donnée fait
référence au temps
ü Mais dans une base opérationnelle les données peuvent
ne pas faire référence au temps
© OD - 2022
33
Données historisées / datées
© OD - 2022
34
Data Warehouse est Non-Volatile
Ø Un support de stockage séparé
Ø Les mises à jour de la base opérationnelle n’ont pas lieu au
niveau de la data warehouse
ü On n’a pas besoin de modules de gestion de
transactions (concurrence, reprise sur panne ...)
ü On n’a besoin que de deux opérations pour accéder aux
données : Chargement initial des données et
interrogation (lecture).
© OD - 2022
35
Objectif d’un DW
Ø L'objectif du data warehouse est de permettre des requêtes sur de
grands ensembles des données, la plupart du temps sous forme
d’agrégats (GROUP BY) afin d'en obtenir une vision synthétique (propre
à la prise de décision).
Ø Le data warehouse dédié au décisionnel est séparé du système
transactionnel dédié à la gestion quotidienne.
Ø Un est uniquement destiné à l’exécution de questions statistiques sur
des données statiques (ou faiblement dynamiques).
35
© OD - 2022
36
Objectif d’un DW
Ø Objectif
Retrouver une information historique et transversale à l’entreprise
Ø Comment
Fédérer/Regrouper l'ensemble des données de l'entreprise
36
§Données réparties
§Vue «au-jour-le-jour »
§Recoupements d’informations
§Vue sur l’évolution des informations
© OD - 2022
37
Architecture d’un ED
© OD - 2022
38
Architecture d’un ED
Alimentation d'un Entrepôt de
données
© OD - 2022
40
Processus d’alimentation d’un ED
Ø Le processus dʼalimentation dʼun ED (ou entreposage des données)
consiste à :
• rassembler de multiples données sources souvent hétérogènes
• les homogénéiser
Ø Homogénéisation faite selon des règles précises
Ø Ces règles:
• sont mémorisées sous forme de méta-données (information sur les
données) stockées dans le dictionnaire de données
• permettent dʼassurer des tâches dʼadministration et de gestion
des données entreposées.
© OD - 2022
41
Processus d’alimentation d’un ED
Après avoir conçu le modèle des données, comment alimenter
lʼED ?
àProblématique de lʼETL (Extracting Transforming and
Loading)
4 étapes :
Ø Sélection des données sources
Ø Extraction des données
Ø Nettoyage et Transformation
Ø Chargement
© OD - 2022
42
Sélection des données sources
Quelles données de production faut-il sélectionner pour alimenter
lʼED?
Ø Toutes les données sources ne sont forcément pas utiles
Ex : Doit-on prendre l'adresse complète ou séparer le code postal ?
Ø Les données sélectionnées seront réorganisées pour devenir des
informations.
• La synthèse de ces données sources a pour but de les enrichir.
• La dénormalisation des données crée des liens entre les données
et permet des accès différents
© OD - 2022
43
Sources de données
Ø Enterprise resource planning (ERP):
– Gèrent les processus opérationnels d'une entreprise (ex: ressources
Ø humaines, finances, distribution, approvisionnement, etc.).
Ø Customer relationship management (CRM):
– Gèrent les interactions d’une entreprise avec ses clients (ex: marketing,
ventes, après-vente, assistance technique, etc.).
Ø Systèmes « legacy »:
– Matériels et logiciels obsolètes mais difficilement remplaçables.
Ø Point of sale (POS):
– Matériels et logiciels utilisés dans les caisses de sorties d’un magasin.
Ø Externes:
– Ex: données concurrentielles achetées, données démographiques.
© OD - 2022
44
Nettoyage et transformation des données
Objectifs du nettoyage :
Ø résoudre le problème de consistance des données au sein de chaque
source
• une centaine de type d'inconsistances ont été répertoriées
• 5 à 30 % des données des BD commerciales sont erronées
Types d'inconsistances :
Ø présence de données fausses dès leur saisie :
• fautes de frappe
• différents formats dans une même colonne
• valeur nulle
• incompatibilité entre la valeur et la description de la colonne
• duplication d'information, ...
Ø persistance de données obsolètes
Ø confrontation de données sémantiquement équivalentes mais
syntaxiquement différentes
© OD - 2022
45
Nettoyage de données
Ø fonctions de normalisation
Ø fonctions de conversion
Ø usage de dictionnaires de synonymes ou dʼabréviations
Ø Définition de table de règles :
© OD - 2022
46
Transformation de données
Objectifs :
Suppression des incohérences sémantiques entre les sources
pouvant survenir lors de l'intégration :
• des schémas :
ü problème de modélisation : différents modèles de données sont utilisés
ü problèmes de terminologie : un objet est désigné par 2 noms différents, un
même nom désigne 2 objets différents
ü incompatibilités de contraintes : 2 concepts équivalents ont des contraintes
incompatibles
ü conflit sémantique : choix de différents niveaux d'abstraction pour un même
concept
ü conflits de structures : choix de différentes propriétés pour un même concept
ü conflits de représentation : 2 représentations différentes choisies pour les
mêmes propriétés d'un même objet
• des données :
ü Equivalence de champs
ü Equivalence d'enregistrements : fusion dʼenregistrements
© OD - 2022
47
Transformation de données
Exemples:
Ø Unifier les données
• Ex. dates : MM/JJ/AA -> JJ/MM/AA
• Ex. noms : D-Naiss, Naissance, Date-N -> « Date-Naissance »
Ø Trier, Nettoyer
• Eliminer les doubles
• Jointures, projection, agrégation (SUM, AVG, ...)
• Gestion des valeurs manquantes (NULL) (ignorer ou corriger ?)
• Gestion des valeurs erronées ou inconsistantes (détection et
correction)
• Vérification des contraintes d’intégrité (pas de violation)
© OD - 2022
48
Chargement
Objectif :
charger les données nettoyées et préparées dans lʼED
Ø C'est une opération :
• qui risque d'être assez longue
• plutôt mécanique et la moins complexe.
Ø Il est nécessaire de définir et mettre en place :
• des stratégies pour assurer de bonnes conditions à sa
réalisation
• une politique de rafraîchissement.
© OD - 2022
49
Méta-données
Ø Le rôle de ces méta-données est ainsi de permettre :
• la définition des données
• la fabrication des données
• le stockage des données
• l'accès aux données
• la présentation des données
Exploitation d’un
entropôt de données
© OD - 2022
51
Principales applications autour dʼun ED
Ø Réalisation de rapports divers (Reporting)
Ø Réalisation de tableaux de bords (Dashboards)
Ø Analyse en ligne diverses (OLAP)
Ø Fouille de données (Data Mining)
Ø Visualisations autour d'un ED (visualizations)
Ø ...
© OD - 2022
52
Exploitation d’un ED (1)
Rapports (Reporting) :
Ø Pour des les utilisateurs qui ont besoin d'un accès régulier à des
informations d’une manière presque statique
Ex: les hôpitaux doivent envoyer des rapports mensuels à des agences
nationaux.
Ø Un rapport est défini par une requête (plusieurs requêtes) et une mise en
page (diagrammes, histrogrammes, etc.)
Ø Les rapports peuvent être exécutés automatiquement ou manuellement.
© OD - 2022
53
Exploitation d’un ED (2)
Tableaux de bords (Dashboards) :
Ø Affichent une quantité limitée d’informations dans un format graphique
facile à lire.
Ø Fréquemment utilisés par les cadres supérieurs qui ont besoin d’un
rapide aperçu des changement les plus importants.
Ex : un aperçu en temps réel d’évolutions
Ø Pas vraiment utile pour une analyse complexe et détaillée
© OD - 2022
54
Exploitation d’un ED (3)
Analyse OLAP (On-Line Analytical processing) :
Ø Techniques OLAP apparues en recherche dans les années 70 mais ont
été développées dans les années 90 dans l'industrie
Ø Permettent de réaliser des synthèses, des analyses et de la
consolidation dynamique de données multidimensionnelles
Ø Constitue la façon la plus naturelle d'exploiter un ED du fait de son
organisation multidimensionnelle
© OD - 2022
55
Exploitation d’un ED (4)
Fouille de données (Data mining)
Ø Recherche de connaissance, sous forme de modèle de
comportement, cachés dans les données
Ø Domaine jeune à lʼintersection de lʼIntelligence Artificielle, les
Statistiques, les BD
Ø Nombreuses techniques de fouille : régression linéaire, induction
dʼarbres de décision, algorithmes génériques, réseaux de neurones, ...
Ø Les techniques de fouille sont en pleine évolution et sont de plus en
plus intégrées dans les ED
© OD - 2022
56
Exploitation d’un ED (5)
Visualisation autour dʼun ED
Ø Facilitent l'analyse et l'interprétation de données
Ø convertissent des données complexes en images, graphiques en 2 et 3
dimensions, voire en animations
Ø Sont de plus en plus intégrées dans les ED
© OD - 2022
57
Réalisation d’un ED
Voici 5 étapes importantes pour la réalisation d’un DW :
Ø Conception
Ø Acquisition des données
Ø Définition des aspects techniques de la réalisation
Ø Définition des modes de restitution
Ø Stratégies d’administration, évolution, maintenance
© OD - 2022
58
Conception
Ø Définir la finaliteé du DW :
• Quelle activité de l’entreprise faut-il piloter?
• Quel est le processus de l’entreprise à modéliser?
• Qui sont les décideurs?
• Quels sont les faits numériques?
o Qu’est ce qui va être mesurer?
• Quelles sont les dimensions ?
o Comment les gestionnaires décrivent-ils des données qui
résultent du processus concerné?
Ø Définir le modèle de données :
• Modèle en étoile / flocon ?
• et/ou Cube?
• et/ou Vues matérialisées?
© OD - 2022
59
Acquisition des données
Ø Pour l’alimentation ou la mise à jour de l’entrepôt
• Mise à jour régulière
Besoin d’un outil pour automatiser les chargements de l’entrepôt :
ETL (Extract, Transform, Load)
© OD - 2022
60
Aspects techniques
Ø Contraintes
• logicielles,
• matérielles,
• humaines,
• ...
© OD - 2022
61
Restitution
Ø But du processus d’entreposage,
Ø Conditionne souvent le choix de l’architecture et de la construction du
DW
Ø Toutes les analyses nécessaires doivent être réalisables !
Ø Types d’outils de restitution :
• Requêteurs et outils d’analyse
• Outils de data mining
© OD - 2022
62
Administration, maintenance
Ø Toutes les stratégies à mettre en place pour l’administration, l’évolution
et la maintenance
Ø Ex : fréquences des rafraichissements (global ou plus fin?)
Domaines d'application
des entrepôts
Les domaines privilégiés :
• Domaine bancaire
• Domaine de la grande distribution
• Domaine des télécommunications
• Domaines de lʼassurance et de la pharmacie
• Domaine de la santé, ...
© OD - 2022
64
Domaines privilégiés : Bancaire
Domaine bancaire : un des premiers utilisateurs des ED
Ø Pour une banque, il est important de pouvoir regrouper les
informations relatives à un client afin de répondre à ses demandes de
crédit par exemple
Ø Des mailing ciblés doivent aussi être rapidement élabores à partir de
toutes les informations disponibles sur un client lors de la
commercialisation d'un nouveau produit
Ø L'utilisation de cartes de crédit nécessite des contrôles à posteriori,
par exemple pour la recherche de fraudes : la mémorisation des
mouvements peut rendre de grands services
Ø Les échanges d'actions et de conseils de courtages sont facilités
par une mémorisation de l'histoire et une exploitation par des outils
décisionnels avancés par exemple pour déterminer des tendances de
marchés
© OD - 2022
65
Domaines privilégiés : Grande distribution
Domaine de la grande distribution fortement demandeur dʼED :
Ø intéressant de regrouper les informations de ventes pour déterminer
les produits à succès, mieux suivre les modes, détecter les habitudes
dʼachats, les préférences des clients par secteur géographique
Ø La fouille de données a permis de développer des techniques
sophistiquées dʼexploitation de données qui aident à mettre en
évidence les règles de consommation
Ø Explorer le panier de la ménagère est devenu un exercice dʼécole : il
sʼagit de trouver à partir de lʼenregistrement des transactions quelles
sont les habitudes dʼachats, plus précisément quels sont les produits
achetés en même temps
Apports constatés dans la grande distribution :
• augmentation des ventes grâce à un meilleur marketing
• amélioration des taux de rotation de stocks
• élimination des produits obsolètes
• réduction des rabais, remises, ristournes
• meilleure négociation des achats
© OD - 2022
66
Domaines privilégiés : Télécommunications
Domaine très concurrentiel des télécommunications : utilise beaucoup
les ED
Ø grande masse de données concernant les abonnés et les appels est
enregistrée
Ø Plusieurs mois de description détaillée des appels comprenant, pour
chaque appel appelant, appelé, heure et durée sont disponibles chez les
opérateurs
En respectant les lois de sécurité et liberté, que peut-on faire de telles
données ?
Ø Couplées ou non avec des informations comptables, lʼexploitation de
ces données regroupées en ED par des techniques dʼanalyse et
dʼexploration permet :
• Dʼanalyser le trafic
• De mieux cerner les besoins des clients,
• De classer les clients par catégories,
• De comprendre pourquoi certains changent d'opérateurs et mieux
répondre à leur besoins
© OD - 2022
67
Domaines privilégiés : Assurance et de la
pharmacie
Domaines de lʼassurance et de la pharmacie : très friands de
techniques décisionnelles
Ø Lʼexercice de base de lʼassureur est de déterminer le facteur de
risque dʼun assuré
Ø Celui dʼun producteur pharmaceutique est de détecter lʼimpact dʼun
médicament
Ø Plus généralement, le suivi des informations relatives à la liaison
produit-client sur un ED est souvent synonyme de gains importants :
meilleure connaissance des produits, détection des défauts, meilleure
connaissance des clients, détection de rejets, ciblage du marketing, etc
Ø Le couplage aux technologies du Web ouvre aussi des horizons
nouveaux pour le suivi des produits, des clients, des concurrents : notion
émergente de « Data Webhouse »
© OD - 2022
68
Pourquoi pas un SGBD?
Fonctions d’un SGBD :
Ø Systèmes transactionnels (OLTP: OnLine Transaction Processing)
Ø Permettre d’insérer, modifier, interroger rapidement, efficacement et en
sécurité les données de la base
Ø Sélectionner, ajouter, mettre à jour, supprimer des tuples
Ø Répondre à de nombreux utilisateurs simultanément
Fonctions d’un ED:
Ø Systèmes pour l’aide à la prise de décision (OLAP: OnLine Analytical
Processing)
Ø Regrouper, organiser des informations provenant de sources diverses
Ø Intégrer et stocker les données pour une vue orientée métier
Ø Retrouver et analyser l’information rapidement et facilement
© OD - 2022
69
SGBD et ED
© OD - 2022
70
Quelques solutions open source
© OD - 2022
71
Quelques solutions commerciales
© OD - 2022
72
72
Quelques termes du domaine
Ø BPM : Business Process Management ou Gestion des processus métiers
Ø CRM = GRC : Customer Relation Management ou Gestion de la relation client
Ø Datamining : Technique d’exploitation des masses de données du SI
Ø EAI : Enterprise Application Integration ou Intégration des applications de
l’entreprise
Ø EDI : Échange de données informatisées
Ø EFI: Échange de formulaires informatisés
Ø ERP = PGI : Entreprise Resource Planning ou Progiciel de gestion intégré
Ø ESB : Enterprise Service Bus, nouveau type d’outils d’intégration des
applications
Ø Interopérabilité et intégration
Ø KM : Knowledge Management ou Management des connaissances
Ø Portail : Porte d’entrée vers les données du SI, déclinable en EAP, EIP, EEP
Ø Workflow : Flux de travail, modélisation des tâches associées à un processus
métier
© OD - 2022
73
Questions???

Contenu connexe

Similaire à Chap1et2-IntroED (2 aaaaaaaaaaaaaaaa).pdf

informatique-de-gestion-par-Wwww_coursdefsjes_com.pdf
informatique-de-gestion-par-Wwww_coursdefsjes_com.pdfinformatique-de-gestion-par-Wwww_coursdefsjes_com.pdf
informatique-de-gestion-par-Wwww_coursdefsjes_com.pdfmounirhim383
 
Comparing technologies
Comparing technologiesComparing technologies
Comparing technologiesFriaa Marwa
 
DeciLogic, pourquoi mettre en place un SID ?
DeciLogic, pourquoi mettre en place un SID ?DeciLogic, pourquoi mettre en place un SID ?
DeciLogic, pourquoi mettre en place un SID ?Eric Mauvais
 
Des reportings efficients pour des analyses pertinentes
Des reportings efficients pour des analyses pertinentesDes reportings efficients pour des analyses pertinentes
Des reportings efficients pour des analyses pertinentesSoft Computing
 
Etat de l’art approche et outils BI
Etat de l’art approche et outils BIEtat de l’art approche et outils BI
Etat de l’art approche et outils BISaid Sadik
 
wskhlfdm,dsl,sfl
wskhlfdm,dsl,sflwskhlfdm,dsl,sfl
wskhlfdm,dsl,sflcoconimal
 
LES SYSTEMES INTERACTIFS D'AIDE A' LA DECISION.
LES SYSTEMES INTERACTIFS D'AIDE A' LA DECISION.LES SYSTEMES INTERACTIFS D'AIDE A' LA DECISION.
LES SYSTEMES INTERACTIFS D'AIDE A' LA DECISION.IsabelleMasika
 
Competitic simplifiez le pilotage de votre entreprise avec la business inte...
Competitic   simplifiez le pilotage de votre entreprise avec la business inte...Competitic   simplifiez le pilotage de votre entreprise avec la business inte...
Competitic simplifiez le pilotage de votre entreprise avec la business inte...COMPETITIC
 
Les systèmes d'information et tableau de bord
Les systèmes d'information et tableau de bordLes systèmes d'information et tableau de bord
Les systèmes d'information et tableau de bordTayssirLimem
 
Outils décisionnels : Data-Mining and Data-warehouse
Outils décisionnels : Data-Mining and Data-warehouseOutils décisionnels : Data-Mining and Data-warehouse
Outils décisionnels : Data-Mining and Data-warehouseBEL MRHAR Mohamed Amine
 
Introduction aux systèmes d’information des entreprises
Introduction aux systèmes d’information des entreprisesIntroduction aux systèmes d’information des entreprises
Introduction aux systèmes d’information des entreprisesMessaoud Hatri
 
cours-complet-dinformatique-de-gestion-pdf.pdf
cours-complet-dinformatique-de-gestion-pdf.pdfcours-complet-dinformatique-de-gestion-pdf.pdf
cours-complet-dinformatique-de-gestion-pdf.pdfssuserbd075f
 
Gestion et implantation de la sécurité dans les projets d\'intelligence d\'af...
Gestion et implantation de la sécurité dans les projets d\'intelligence d\'af...Gestion et implantation de la sécurité dans les projets d\'intelligence d\'af...
Gestion et implantation de la sécurité dans les projets d\'intelligence d\'af...Youssef Loudiyi
 

Similaire à Chap1et2-IntroED (2 aaaaaaaaaaaaaaaa).pdf (20)

informatique-de-gestion-par-Wwww_coursdefsjes_com.pdf
informatique-de-gestion-par-Wwww_coursdefsjes_com.pdfinformatique-de-gestion-par-Wwww_coursdefsjes_com.pdf
informatique-de-gestion-par-Wwww_coursdefsjes_com.pdf
 
Comparing technologies
Comparing technologiesComparing technologies
Comparing technologies
 
DeciLogic, pourquoi mettre en place un SID ?
DeciLogic, pourquoi mettre en place un SID ?DeciLogic, pourquoi mettre en place un SID ?
DeciLogic, pourquoi mettre en place un SID ?
 
Des reportings efficients pour des analyses pertinentes
Des reportings efficients pour des analyses pertinentesDes reportings efficients pour des analyses pertinentes
Des reportings efficients pour des analyses pertinentes
 
Etat de l’art approche et outils BI
Etat de l’art approche et outils BIEtat de l’art approche et outils BI
Etat de l’art approche et outils BI
 
wskhlfdm,dsl,sfl
wskhlfdm,dsl,sflwskhlfdm,dsl,sfl
wskhlfdm,dsl,sfl
 
LES SYSTEMES INTERACTIFS D'AIDE A' LA DECISION.
LES SYSTEMES INTERACTIFS D'AIDE A' LA DECISION.LES SYSTEMES INTERACTIFS D'AIDE A' LA DECISION.
LES SYSTEMES INTERACTIFS D'AIDE A' LA DECISION.
 
projet BI licnence.pdf
projet BI licnence.pdfprojet BI licnence.pdf
projet BI licnence.pdf
 
Competitic simplifiez le pilotage de votre entreprise avec la business inte...
Competitic   simplifiez le pilotage de votre entreprise avec la business inte...Competitic   simplifiez le pilotage de votre entreprise avec la business inte...
Competitic simplifiez le pilotage de votre entreprise avec la business inte...
 
Cours datamining
Cours dataminingCours datamining
Cours datamining
 
Les systèmes d'information et tableau de bord
Les systèmes d'information et tableau de bordLes systèmes d'information et tableau de bord
Les systèmes d'information et tableau de bord
 
SI_MCC_2020_21.pptx
SI_MCC_2020_21.pptxSI_MCC_2020_21.pptx
SI_MCC_2020_21.pptx
 
Outils décisionnels : Data-Mining and Data-warehouse
Outils décisionnels : Data-Mining and Data-warehouseOutils décisionnels : Data-Mining and Data-warehouse
Outils décisionnels : Data-Mining and Data-warehouse
 
Rapport final-2
Rapport final-2Rapport final-2
Rapport final-2
 
Introduction aux systèmes d’information des entreprises
Introduction aux systèmes d’information des entreprisesIntroduction aux systèmes d’information des entreprises
Introduction aux systèmes d’information des entreprises
 
Diapo - SI.ppt
Diapo - SI.pptDiapo - SI.ppt
Diapo - SI.ppt
 
Si 1
Si 1Si 1
Si 1
 
cours-complet-dinformatique-de-gestion-pdf.pdf
cours-complet-dinformatique-de-gestion-pdf.pdfcours-complet-dinformatique-de-gestion-pdf.pdf
cours-complet-dinformatique-de-gestion-pdf.pdf
 
Gestion et implantation de la sécurité dans les projets d\'intelligence d\'af...
Gestion et implantation de la sécurité dans les projets d\'intelligence d\'af...Gestion et implantation de la sécurité dans les projets d\'intelligence d\'af...
Gestion et implantation de la sécurité dans les projets d\'intelligence d\'af...
 
Partie1BI-DW2019
Partie1BI-DW2019Partie1BI-DW2019
Partie1BI-DW2019
 

Chap1et2-IntroED (2 aaaaaaaaaaaaaaaa).pdf

  • 1. Entrepôt de données / Data Warehouse Préparé par: Dr. Olfa DRIDI FSB – Département Informatique GLSI2 - 2022
  • 2. © OD - 2022 2 Plan 1. Introduction : Le marché du décisionnel 2. Les entrepôts de données (ED) 3. Alimentation d’un ED 4. Modélisation d’un ED 5. Les datamarts
  • 3. © OD - 2022 3 Objectifs Ø Le cours Entrepôt de données est destiné aux administrateurs des bases de données ou futurs data scientist, ou tout autre acteur mené à structurer et/ou analyser , jouer avec les données volumineuses
  • 4. © OD - 2022 4 Références bibliographiques Ø Le data warehouse : Guide de conduite de projet- Ralph Kimball, 2005. Ø Modélisation des Systèmes d'Information Décisionnels : Techniques de modélisation conceptuelle et relationnelle des entrepôts de données - Emmanuel Ferragu, 2013.
  • 5. Introduction aux systèmes d’information FSB – Département Informatique GLSI2 - 2021
  • 6. © OD - 2022 6 6 Notion d’information Ø Une information, c’est une donnée qui a un sens pour celui qui en a besoin. Le modèle est connu, l’interprétation donne du sens aux données Le modèle est inconnu, le sens est plus difficile à percevoir ou incomplet
  • 7. © OD - 2022 7 Définitions Bien distinguer : Donnée-Information-Connaissance Ø Donnée : Fait Ø Information : Fait qui a un sens pour quelqu’un Ø Connaissance : L’information devient connaissance quand elle est traitée dans le cerveau des individus. Ø Connaissance : C’est de l’information combinée avec l’expérience, le contexte, l’interprétation et la réflexion.
  • 8. © OD - 2022 8 Donnée, information et connaissance
  • 9. © OD - 2022 9 9 L’information est un facteur de production presque comme les autres Ø L’information a une valeur, variable selon son importance, son ancienneté… Ø L’information doit être extraite, stockée, traitée, maintenue… à c’est la tâche du système d’information !
  • 10. © OD - 2022 10 Définition SI En informatique et en télécommunications, et plus généralement dans le monde de l'entreprise, le terme système d'information (ou SI) possède les significations suivantes : 1. Un ensemble organisé de ressources (personnel, données, procédures, matériel, logiciel, …) permettant d'acquérir, de stocker, de structurer et de communiquer des informations sous forme de textes, images, sons, ou de données codées dans des organisations. Selon leur finalité principale, on distingue : a. des systèmes d'information supports d'opérations (traitement de transaction, contrôle de processus industriels, supports d'opérations de bureau et de communication) b. des systèmes d'information supports de gestion (aide à la production de rapports, aide à la décision…). 10
  • 11. © OD - 2022 11 2. Un système ou sous-système d'équipements, d'informatique ou de télécommunication, interconnectés dans le but de l'acquisition, du stockage, de la structuration, de la gestion, du déplacement, du contrôle, de l'affichage, de l'échange (transmission ou réception) de données sous forme de textes, d'images, de sons, et/ou, faisant intervenir, du matériel et des logiciels. Le système d'information coordonne grâce à l'information les activités de l'organisation et lui permet ainsi d'atteindre ses objectifs. Il est le véhicule de la communication dans l'organisation. De plus, le SI (système d'information) représente l'ensemble des ressources (les hommes, le matériel, les logiciels) organisées pour : collecter, stocker, traiter et communiquer les informations. Définition SI 11
  • 12. © OD - 2022 12 Définition SI 12
  • 13. © OD - 2022 13 Le système d’information Ø Différentes missions du SI • Collecter (sources externes et internes) Saisie, numérisation Extraction • Stocker Supports divers et multiples Indexation, mots clés, thésaurus… Maintenir en état d’utilisation sur une période longue • Traiter Produire des informations sous la forme appropriée aux besoins de l’utilisateur • Restituer, diffuser (sous différentes formes) Électronique ou papier Importance des formats de fichiers Supports de communication (filaire, non-filaire…)
  • 14. © OD - 2022 14 14 Notion de système d’information Système opérationnel Entrées Sorties Flux de décisions Flux d’informations contraintes Système de pilotage Système d’information Activité : Générer des informations Mémoriser Diffuser Traiter Activité : Transformer Produire Activité : ØRéfléchir : adaptation à l’environnement, conception ØDécider : prévisions, planification ØContrôler
  • 15. © OD - 2022 15 Le système de pilotage Ø Appelé également système de décision Ø Exploite les informations qui circulent Ø Organise le fonctionnement du système Ø Décide des actions à conduire sur le système opérant Ø Raisonne en fonction des objectifs et des politiques de l’entreprise 15
  • 16. © OD - 2022 16 Le système opérant Ø Reçoit les informations émises par le système de pilotage Ø Se charge de réaliser les tâches qui lui sont confiées Ø Génère à son tour des informations en direction du système de pilotage Ø Il englobe toutes les fonctions liées à l’activité propre de l’entreprise : Facturer les clients, régler les salaires, gérer les stocks, …
  • 17. © OD - 2022 17 17 SI et nouveaux métiers Ø Directeur de SI Ø Intégrateur : chargé d’adapter une solution logicielle à la réalité de l’entreprise Ø Architecte, urbaniste de SI Ø Chef de projet sécurité des SI Ø ….
  • 18. © OD - 2022 18 Évolution des systèmes d’information au cours des 40 dernières années Ø «Quel que soit son métier, une organisation doit pour réussir maîtriser un tripode formé des RH, de la finance et des systèmes d’information» • Accélération de la vie des organisations et des affaires • Environnement de plus en plus large (notion d’entreprise étendue) • Évolution permanente et rapide des technologies • Complexité plus grande à gérer • Tendance à l’externalisation des services informatiques • Accroissement des risques 18
  • 19. © OD - 2022 19 Problématique Ø Pourquoi un entrepôt de données? Améliorer les performances décisionnelles de l’entreprise. Ø Comment? En répondant aux demandes d’analyse des décisdeurs. Ø Exemples: Clientèle: Qui sont mes clients? Pourquoi sont-ils mes clients? Comment les conserver ou les faire revenir (préférenced’achat, habitudes, …) ? Ces clients sont-ils vraiment intéressants pour moi? Marketing, actions commerciales: Où placer ce produit dans des rayons?
  • 20. © OD - 2022 20 Problématique Ø Comment les décideurs prennent-ils les décisions? 20
  • 21. © OD - 2022 21 Contexte Ø Aujourd’hui, les entreprises produisent et stockent d’énormes quantités de données. Ces données, qui constituent un extraordinaire gisement d’informations sur ses activités et son positionnement dans le contexte économique, sont souvent insuffisamment exploitées. 21
  • 22. © OD - 2022 22 Types de données u Données détaillées: u courantes ou anciennes u données opérationnelles (de production) u Données opérationnelles archivées u Données agrégées u Faiblement ou fortement u Pour mieux répondre aux questions des gestionnaires u Données sur les données : u règles d’extraction, de conversion, d’agrégation, ... 22
  • 23. © OD - 2022 23 Informatique Décisionnelle (ID) Ø L’informatique décisionnelle ou la Business intelligence est l’ensemble des moyens, des outils et des méthodes qui permettent de collecter, intégrer, distribuer et de restituer les informations en vue d’offrir une aide à la décision. Ø L’informatique décisionnelle permet la collecte, l’organisation et le stockage des données ainsi que l’extraction et la restitution des informations pertinentes. Ø Elle permet aux responsables de la stratégie d’une entreprise d’avoir une vision synthétique de leurs activités, les aidant ainsi à orienter leurs décisions. Ø 23
  • 24. © OD - 2022 24 Informatique Décisionnelle (ID) Ø L’Informatique Décisionnelle (ID) ou la Business Intelligence (BI), est l'informatique à l'usage des décideurs et des dirigeants des entreprises Ø Les systèmes de ID/BI sont utilisés par les décideurs pour obtenir une connaissance approfondie de l'entreprise et de définir et de soutenir leurs stratégies d'affaires, par exemple : d’acquérir un avantage concurrentiel, d’améliorer la performance de l’entreprise, de répondre plus rapidement aux changements, d’augmenter la rentabilité, et d’une façon générale la création de valeur ajoutée de l'entreprise. 24
  • 25. © OD - 2022 25 BI Ø Informatique décisionnelle (business intelligence) : à l’usage des décideurs • Accéder rapidement et simplement aux informations stratégiques • Donner du sens aux données • Donner une vision transversale des données d’une organisation • Extraire, grouper, organiser, agréger corréler les données Qui sont mes meilleurs clients ? Quelle est l’évolution du taux d’occupation des chambres ? Quelle est l’efficacité des politiques publiques en matière d’écologie ?
  • 27. © OD - 2022 27 Les fondateurs
  • 28. © OD - 2022 28 Définition d’un entrepôt de données Ø Un entrepôt de données est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d'un processus d'aide à la décision. W.H. Inmon, 1991 Ø « Un entrepôt de données ne s’achète pas, il se construit... »
  • 29. © OD - 2022 29 Définition d’un entrepôt de données u Un entrepôt de données (ED) est une base de données construite par copie et réorganisation de multiples sources (dont principalement le système transactionnel de l'entreprise), afin de servir de source de données à des applications décisionnelles : u il agrège de nombreuses données de l'entreprise (intégration) ; u il mémorise les données dans le temps (historisation) ; u il les organise pour faciliter les requêtes de prise de décision (optimisation). (Goglin, 2001) 29
  • 30. © OD - 2022 30 Données orientées sujets Ø Organisé autour d’un sujet bien précis, ex: client, produit, ventes. Ø S’intéresse à la modélisation et l’analyse des données pour aider les décideurs, non pas pour des activités quotidiennes ou traitement transactionnel Ø Fournit une vue simple et concise concernant un sujet particulier en excluant les données qui ne servent pas à la prise de décision
  • 31. © OD - 2022 31 Données intégrées Ø Elles proviennent de systèmes sources hétérogènes Ø Cohérence, normalisation, maîtrise de la sémantique, prise en compte des contraintes référentielles et des règles de gestion. Ø Définition d’un référentiel unique
  • 32. © OD - 2022 32 Données historisées / datées Ø La portée temporelle des données dans un data warehouse est plus longue que celle des bases opérationnelles ü Base opérationnelle: valeur courante des données. ü Data warehouse: fournit des infos sous une perspective historique (ex: 5 à 10 dernières années) Ø Dans un data warehouse, en général, chaque donnée fait référence au temps ü Mais dans une base opérationnelle les données peuvent ne pas faire référence au temps
  • 33. © OD - 2022 33 Données historisées / datées
  • 34. © OD - 2022 34 Data Warehouse est Non-Volatile Ø Un support de stockage séparé Ø Les mises à jour de la base opérationnelle n’ont pas lieu au niveau de la data warehouse ü On n’a pas besoin de modules de gestion de transactions (concurrence, reprise sur panne ...) ü On n’a besoin que de deux opérations pour accéder aux données : Chargement initial des données et interrogation (lecture).
  • 35. © OD - 2022 35 Objectif d’un DW Ø L'objectif du data warehouse est de permettre des requêtes sur de grands ensembles des données, la plupart du temps sous forme d’agrégats (GROUP BY) afin d'en obtenir une vision synthétique (propre à la prise de décision). Ø Le data warehouse dédié au décisionnel est séparé du système transactionnel dédié à la gestion quotidienne. Ø Un est uniquement destiné à l’exécution de questions statistiques sur des données statiques (ou faiblement dynamiques). 35
  • 36. © OD - 2022 36 Objectif d’un DW Ø Objectif Retrouver une information historique et transversale à l’entreprise Ø Comment Fédérer/Regrouper l'ensemble des données de l'entreprise 36 §Données réparties §Vue «au-jour-le-jour » §Recoupements d’informations §Vue sur l’évolution des informations
  • 37. © OD - 2022 37 Architecture d’un ED
  • 38. © OD - 2022 38 Architecture d’un ED
  • 40. © OD - 2022 40 Processus d’alimentation d’un ED Ø Le processus dʼalimentation dʼun ED (ou entreposage des données) consiste à : • rassembler de multiples données sources souvent hétérogènes • les homogénéiser Ø Homogénéisation faite selon des règles précises Ø Ces règles: • sont mémorisées sous forme de méta-données (information sur les données) stockées dans le dictionnaire de données • permettent dʼassurer des tâches dʼadministration et de gestion des données entreposées.
  • 41. © OD - 2022 41 Processus d’alimentation d’un ED Après avoir conçu le modèle des données, comment alimenter lʼED ? àProblématique de lʼETL (Extracting Transforming and Loading) 4 étapes : Ø Sélection des données sources Ø Extraction des données Ø Nettoyage et Transformation Ø Chargement
  • 42. © OD - 2022 42 Sélection des données sources Quelles données de production faut-il sélectionner pour alimenter lʼED? Ø Toutes les données sources ne sont forcément pas utiles Ex : Doit-on prendre l'adresse complète ou séparer le code postal ? Ø Les données sélectionnées seront réorganisées pour devenir des informations. • La synthèse de ces données sources a pour but de les enrichir. • La dénormalisation des données crée des liens entre les données et permet des accès différents
  • 43. © OD - 2022 43 Sources de données Ø Enterprise resource planning (ERP): – Gèrent les processus opérationnels d'une entreprise (ex: ressources Ø humaines, finances, distribution, approvisionnement, etc.). Ø Customer relationship management (CRM): – Gèrent les interactions d’une entreprise avec ses clients (ex: marketing, ventes, après-vente, assistance technique, etc.). Ø Systèmes « legacy »: – Matériels et logiciels obsolètes mais difficilement remplaçables. Ø Point of sale (POS): – Matériels et logiciels utilisés dans les caisses de sorties d’un magasin. Ø Externes: – Ex: données concurrentielles achetées, données démographiques.
  • 44. © OD - 2022 44 Nettoyage et transformation des données Objectifs du nettoyage : Ø résoudre le problème de consistance des données au sein de chaque source • une centaine de type d'inconsistances ont été répertoriées • 5 à 30 % des données des BD commerciales sont erronées Types d'inconsistances : Ø présence de données fausses dès leur saisie : • fautes de frappe • différents formats dans une même colonne • valeur nulle • incompatibilité entre la valeur et la description de la colonne • duplication d'information, ... Ø persistance de données obsolètes Ø confrontation de données sémantiquement équivalentes mais syntaxiquement différentes
  • 45. © OD - 2022 45 Nettoyage de données Ø fonctions de normalisation Ø fonctions de conversion Ø usage de dictionnaires de synonymes ou dʼabréviations Ø Définition de table de règles :
  • 46. © OD - 2022 46 Transformation de données Objectifs : Suppression des incohérences sémantiques entre les sources pouvant survenir lors de l'intégration : • des schémas : ü problème de modélisation : différents modèles de données sont utilisés ü problèmes de terminologie : un objet est désigné par 2 noms différents, un même nom désigne 2 objets différents ü incompatibilités de contraintes : 2 concepts équivalents ont des contraintes incompatibles ü conflit sémantique : choix de différents niveaux d'abstraction pour un même concept ü conflits de structures : choix de différentes propriétés pour un même concept ü conflits de représentation : 2 représentations différentes choisies pour les mêmes propriétés d'un même objet • des données : ü Equivalence de champs ü Equivalence d'enregistrements : fusion dʼenregistrements
  • 47. © OD - 2022 47 Transformation de données Exemples: Ø Unifier les données • Ex. dates : MM/JJ/AA -> JJ/MM/AA • Ex. noms : D-Naiss, Naissance, Date-N -> « Date-Naissance » Ø Trier, Nettoyer • Eliminer les doubles • Jointures, projection, agrégation (SUM, AVG, ...) • Gestion des valeurs manquantes (NULL) (ignorer ou corriger ?) • Gestion des valeurs erronées ou inconsistantes (détection et correction) • Vérification des contraintes d’intégrité (pas de violation)
  • 48. © OD - 2022 48 Chargement Objectif : charger les données nettoyées et préparées dans lʼED Ø C'est une opération : • qui risque d'être assez longue • plutôt mécanique et la moins complexe. Ø Il est nécessaire de définir et mettre en place : • des stratégies pour assurer de bonnes conditions à sa réalisation • une politique de rafraîchissement.
  • 49. © OD - 2022 49 Méta-données Ø Le rôle de ces méta-données est ainsi de permettre : • la définition des données • la fabrication des données • le stockage des données • l'accès aux données • la présentation des données
  • 51. © OD - 2022 51 Principales applications autour dʼun ED Ø Réalisation de rapports divers (Reporting) Ø Réalisation de tableaux de bords (Dashboards) Ø Analyse en ligne diverses (OLAP) Ø Fouille de données (Data Mining) Ø Visualisations autour d'un ED (visualizations) Ø ...
  • 52. © OD - 2022 52 Exploitation d’un ED (1) Rapports (Reporting) : Ø Pour des les utilisateurs qui ont besoin d'un accès régulier à des informations d’une manière presque statique Ex: les hôpitaux doivent envoyer des rapports mensuels à des agences nationaux. Ø Un rapport est défini par une requête (plusieurs requêtes) et une mise en page (diagrammes, histrogrammes, etc.) Ø Les rapports peuvent être exécutés automatiquement ou manuellement.
  • 53. © OD - 2022 53 Exploitation d’un ED (2) Tableaux de bords (Dashboards) : Ø Affichent une quantité limitée d’informations dans un format graphique facile à lire. Ø Fréquemment utilisés par les cadres supérieurs qui ont besoin d’un rapide aperçu des changement les plus importants. Ex : un aperçu en temps réel d’évolutions Ø Pas vraiment utile pour une analyse complexe et détaillée
  • 54. © OD - 2022 54 Exploitation d’un ED (3) Analyse OLAP (On-Line Analytical processing) : Ø Techniques OLAP apparues en recherche dans les années 70 mais ont été développées dans les années 90 dans l'industrie Ø Permettent de réaliser des synthèses, des analyses et de la consolidation dynamique de données multidimensionnelles Ø Constitue la façon la plus naturelle d'exploiter un ED du fait de son organisation multidimensionnelle
  • 55. © OD - 2022 55 Exploitation d’un ED (4) Fouille de données (Data mining) Ø Recherche de connaissance, sous forme de modèle de comportement, cachés dans les données Ø Domaine jeune à lʼintersection de lʼIntelligence Artificielle, les Statistiques, les BD Ø Nombreuses techniques de fouille : régression linéaire, induction dʼarbres de décision, algorithmes génériques, réseaux de neurones, ... Ø Les techniques de fouille sont en pleine évolution et sont de plus en plus intégrées dans les ED
  • 56. © OD - 2022 56 Exploitation d’un ED (5) Visualisation autour dʼun ED Ø Facilitent l'analyse et l'interprétation de données Ø convertissent des données complexes en images, graphiques en 2 et 3 dimensions, voire en animations Ø Sont de plus en plus intégrées dans les ED
  • 57. © OD - 2022 57 Réalisation d’un ED Voici 5 étapes importantes pour la réalisation d’un DW : Ø Conception Ø Acquisition des données Ø Définition des aspects techniques de la réalisation Ø Définition des modes de restitution Ø Stratégies d’administration, évolution, maintenance
  • 58. © OD - 2022 58 Conception Ø Définir la finaliteé du DW : • Quelle activité de l’entreprise faut-il piloter? • Quel est le processus de l’entreprise à modéliser? • Qui sont les décideurs? • Quels sont les faits numériques? o Qu’est ce qui va être mesurer? • Quelles sont les dimensions ? o Comment les gestionnaires décrivent-ils des données qui résultent du processus concerné? Ø Définir le modèle de données : • Modèle en étoile / flocon ? • et/ou Cube? • et/ou Vues matérialisées?
  • 59. © OD - 2022 59 Acquisition des données Ø Pour l’alimentation ou la mise à jour de l’entrepôt • Mise à jour régulière Besoin d’un outil pour automatiser les chargements de l’entrepôt : ETL (Extract, Transform, Load)
  • 60. © OD - 2022 60 Aspects techniques Ø Contraintes • logicielles, • matérielles, • humaines, • ...
  • 61. © OD - 2022 61 Restitution Ø But du processus d’entreposage, Ø Conditionne souvent le choix de l’architecture et de la construction du DW Ø Toutes les analyses nécessaires doivent être réalisables ! Ø Types d’outils de restitution : • Requêteurs et outils d’analyse • Outils de data mining
  • 62. © OD - 2022 62 Administration, maintenance Ø Toutes les stratégies à mettre en place pour l’administration, l’évolution et la maintenance Ø Ex : fréquences des rafraichissements (global ou plus fin?)
  • 63. Domaines d'application des entrepôts Les domaines privilégiés : • Domaine bancaire • Domaine de la grande distribution • Domaine des télécommunications • Domaines de lʼassurance et de la pharmacie • Domaine de la santé, ...
  • 64. © OD - 2022 64 Domaines privilégiés : Bancaire Domaine bancaire : un des premiers utilisateurs des ED Ø Pour une banque, il est important de pouvoir regrouper les informations relatives à un client afin de répondre à ses demandes de crédit par exemple Ø Des mailing ciblés doivent aussi être rapidement élabores à partir de toutes les informations disponibles sur un client lors de la commercialisation d'un nouveau produit Ø L'utilisation de cartes de crédit nécessite des contrôles à posteriori, par exemple pour la recherche de fraudes : la mémorisation des mouvements peut rendre de grands services Ø Les échanges d'actions et de conseils de courtages sont facilités par une mémorisation de l'histoire et une exploitation par des outils décisionnels avancés par exemple pour déterminer des tendances de marchés
  • 65. © OD - 2022 65 Domaines privilégiés : Grande distribution Domaine de la grande distribution fortement demandeur dʼED : Ø intéressant de regrouper les informations de ventes pour déterminer les produits à succès, mieux suivre les modes, détecter les habitudes dʼachats, les préférences des clients par secteur géographique Ø La fouille de données a permis de développer des techniques sophistiquées dʼexploitation de données qui aident à mettre en évidence les règles de consommation Ø Explorer le panier de la ménagère est devenu un exercice dʼécole : il sʼagit de trouver à partir de lʼenregistrement des transactions quelles sont les habitudes dʼachats, plus précisément quels sont les produits achetés en même temps Apports constatés dans la grande distribution : • augmentation des ventes grâce à un meilleur marketing • amélioration des taux de rotation de stocks • élimination des produits obsolètes • réduction des rabais, remises, ristournes • meilleure négociation des achats
  • 66. © OD - 2022 66 Domaines privilégiés : Télécommunications Domaine très concurrentiel des télécommunications : utilise beaucoup les ED Ø grande masse de données concernant les abonnés et les appels est enregistrée Ø Plusieurs mois de description détaillée des appels comprenant, pour chaque appel appelant, appelé, heure et durée sont disponibles chez les opérateurs En respectant les lois de sécurité et liberté, que peut-on faire de telles données ? Ø Couplées ou non avec des informations comptables, lʼexploitation de ces données regroupées en ED par des techniques dʼanalyse et dʼexploration permet : • Dʼanalyser le trafic • De mieux cerner les besoins des clients, • De classer les clients par catégories, • De comprendre pourquoi certains changent d'opérateurs et mieux répondre à leur besoins
  • 67. © OD - 2022 67 Domaines privilégiés : Assurance et de la pharmacie Domaines de lʼassurance et de la pharmacie : très friands de techniques décisionnelles Ø Lʼexercice de base de lʼassureur est de déterminer le facteur de risque dʼun assuré Ø Celui dʼun producteur pharmaceutique est de détecter lʼimpact dʼun médicament Ø Plus généralement, le suivi des informations relatives à la liaison produit-client sur un ED est souvent synonyme de gains importants : meilleure connaissance des produits, détection des défauts, meilleure connaissance des clients, détection de rejets, ciblage du marketing, etc Ø Le couplage aux technologies du Web ouvre aussi des horizons nouveaux pour le suivi des produits, des clients, des concurrents : notion émergente de « Data Webhouse »
  • 68. © OD - 2022 68 Pourquoi pas un SGBD? Fonctions d’un SGBD : Ø Systèmes transactionnels (OLTP: OnLine Transaction Processing) Ø Permettre d’insérer, modifier, interroger rapidement, efficacement et en sécurité les données de la base Ø Sélectionner, ajouter, mettre à jour, supprimer des tuples Ø Répondre à de nombreux utilisateurs simultanément Fonctions d’un ED: Ø Systèmes pour l’aide à la prise de décision (OLAP: OnLine Analytical Processing) Ø Regrouper, organiser des informations provenant de sources diverses Ø Intégrer et stocker les données pour une vue orientée métier Ø Retrouver et analyser l’information rapidement et facilement
  • 69. © OD - 2022 69 SGBD et ED
  • 70. © OD - 2022 70 Quelques solutions open source
  • 71. © OD - 2022 71 Quelques solutions commerciales
  • 72. © OD - 2022 72 72 Quelques termes du domaine Ø BPM : Business Process Management ou Gestion des processus métiers Ø CRM = GRC : Customer Relation Management ou Gestion de la relation client Ø Datamining : Technique d’exploitation des masses de données du SI Ø EAI : Enterprise Application Integration ou Intégration des applications de l’entreprise Ø EDI : Échange de données informatisées Ø EFI: Échange de formulaires informatisés Ø ERP = PGI : Entreprise Resource Planning ou Progiciel de gestion intégré Ø ESB : Enterprise Service Bus, nouveau type d’outils d’intégration des applications Ø Interopérabilité et intégration Ø KM : Knowledge Management ou Management des connaissances Ø Portail : Porte d’entrée vers les données du SI, déclinable en EAP, EIP, EEP Ø Workflow : Flux de travail, modélisation des tâches associées à un processus métier
  • 73. © OD - 2022 73 Questions???