Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Modern Data Stack France
Hadoop User Group du lundi 6 oct 2014:
Talk #3: Administration Hadoop et retour d’expérience BI avec Impala, limites et recommandations par Abed Ajraou et Cherif Tifrani de Solocal (Pages Jaunes).
Réussissez vos projets d’analytique self-service avec une couche de services ...Denodo
Watch full webinar here: https://bit.ly/3pjyzRY
Une initiative de self-service réussie signifie que les utilisateurs métiers ont accès à une vue complète et cohérente des données, indépendamment de leur emplacement, de leur source ou de leur type. Toutefois, les entreprises doivent également veiller à ce que, tout en exploitant le plein potentiel des données pour les utilisateurs métiers, elles respectent les exigences de sécurité.
La virtualisation des données en tant que couche de service de données gouvernée peut non seulement aider les organisations à mettre en place une couche d'accès aux données unifiée qui fournit des vues intégrées des données aux utilisateurs métiers en temps réel, mais permet également à l'organisation d'établir des protocoles de gouvernance et de spécifier des sources faisant autorité.
Les points clés du webinar:
- Les défis auxquels sont confrontés les utilisateurs métiers
- Comment la virtualisation des données permet l’analytique self-service
- Une démo live
- Des études de cas client
Session en ligne: Découverte du Logical Data Fabric & Data VirtualizationDenodo
Watch full webinar here: https://buff.ly/47gqTVV
Une session découverte de Denodo Platform pour les professionnels de la data
D'après la dernière étude du cabinet Forrester The Total Economic Impact™️ of Data Virtualization Using The Denodo Platform, l’impact de la Data Virtualization avec Denodo permet un ROI de 408% et inférieur à 6 mois, une réduction de 65 % des délais de livraison des données par rapport à l'ETL, de 83 % du time-to-revenue et de 67 % du temps alloué à la préparation des données.
Découvrez lors de cette session en ligne de 1h30 en quoi la Logical Data Fabric et la data virtualization révolutionnent l'approche métier & IT dans l’accès, la livraison, la consommation, la gouvernance et la sécurisation de vos données, quel que soit l'âge de votre technologie, le format de la donnée ou son emplacement.
Avec plus de 1000 clients à travers le monde, Denodo est heureux de vous inviter à cette session en ligne le 14 novembre 2023 de 9h30 à 11h. Si vous êtes un IT Manager, architecte, DSI, Data Scientist ou Data Analyst, cet atelier est pour vous!
CONTENU
Au programme : une introduction à ce qu'est la virtualisation des données, les cas d'usages, des études de cas clients réels et une démo guidée pas à pas des fonctionnalités de Denodo Platform avec notre version gratuite sur le cloud, Denodo Test Drive. Vous apprendrez comment:
- Intégrer et livrer vos données rapidement et facilement à l'aide de Denodo Platform
- L'optimiseur de requêtes de Denodo fournit des données en temps réel, à la demande, même lorsqu'il s'agit de jeux de données très volumineux
- Exposer les données en tant que «services de données» en vue d’être consommées par une variété d'utilisateurs et d'outils
- La virtualisation des données joue un rôle essentiel dans la gouvernance et la sécurité des données au sein de votre organisation
Big Data ou comment retrouver une aiguille dans une botte de foinPALO IT
Un parc informatique d’un millier de machines génère de nombreux Terra Octets de logs. Comment parvenir à y retrouver une information pertinente et comment valoriser les informations contenues dans ces logs ?
Au programme :
- La centralisation des logs : back to basics;
- Cas pratiques : détection d’attaques DoS et refacturation sur plateforme mutualisée;
- Une grille Hadoop : en quoi ça consiste ?
SQL Server Analysis Services dans sa version 2012 a introduit la notion de BI Semantic Model, BISM, qui se décline soit en modèle Multidimensionnel, soit en modèle Tabulaire. Les besoins adressés par ces deux modes sont pour une grande part communs, mais les prérequis nécessaires à leur implémentation diffèrent sur de nombreux points qu'il est important de connaître avant de se lancer dans un projet. Durant cette session nous comparerons ces deux modes sur de nombreux critères, qu'ils concernent les administrateurs (infrastructures à mettre en place, maintenabilité, sécurité), les architectes (modélisations relationnelles sous-jacentes et frontaux supportés), les développeurs (techniques d'implémentation, performance des requêtes) et les chefs de projet qu'ils soient techniques ou fonctionnels (cas métier adressés, facilité de mise en place).
Hug france - Administration Hadoop et retour d’expérience BI avec Impala, lim...Modern Data Stack France
Hadoop User Group du lundi 6 oct 2014:
Talk #3: Administration Hadoop et retour d’expérience BI avec Impala, limites et recommandations par Abed Ajraou et Cherif Tifrani de Solocal (Pages Jaunes).
Réussissez vos projets d’analytique self-service avec une couche de services ...Denodo
Watch full webinar here: https://bit.ly/3pjyzRY
Une initiative de self-service réussie signifie que les utilisateurs métiers ont accès à une vue complète et cohérente des données, indépendamment de leur emplacement, de leur source ou de leur type. Toutefois, les entreprises doivent également veiller à ce que, tout en exploitant le plein potentiel des données pour les utilisateurs métiers, elles respectent les exigences de sécurité.
La virtualisation des données en tant que couche de service de données gouvernée peut non seulement aider les organisations à mettre en place une couche d'accès aux données unifiée qui fournit des vues intégrées des données aux utilisateurs métiers en temps réel, mais permet également à l'organisation d'établir des protocoles de gouvernance et de spécifier des sources faisant autorité.
Les points clés du webinar:
- Les défis auxquels sont confrontés les utilisateurs métiers
- Comment la virtualisation des données permet l’analytique self-service
- Une démo live
- Des études de cas client
Session en ligne: Découverte du Logical Data Fabric & Data VirtualizationDenodo
Watch full webinar here: https://buff.ly/47gqTVV
Une session découverte de Denodo Platform pour les professionnels de la data
D'après la dernière étude du cabinet Forrester The Total Economic Impact™️ of Data Virtualization Using The Denodo Platform, l’impact de la Data Virtualization avec Denodo permet un ROI de 408% et inférieur à 6 mois, une réduction de 65 % des délais de livraison des données par rapport à l'ETL, de 83 % du time-to-revenue et de 67 % du temps alloué à la préparation des données.
Découvrez lors de cette session en ligne de 1h30 en quoi la Logical Data Fabric et la data virtualization révolutionnent l'approche métier & IT dans l’accès, la livraison, la consommation, la gouvernance et la sécurisation de vos données, quel que soit l'âge de votre technologie, le format de la donnée ou son emplacement.
Avec plus de 1000 clients à travers le monde, Denodo est heureux de vous inviter à cette session en ligne le 14 novembre 2023 de 9h30 à 11h. Si vous êtes un IT Manager, architecte, DSI, Data Scientist ou Data Analyst, cet atelier est pour vous!
CONTENU
Au programme : une introduction à ce qu'est la virtualisation des données, les cas d'usages, des études de cas clients réels et une démo guidée pas à pas des fonctionnalités de Denodo Platform avec notre version gratuite sur le cloud, Denodo Test Drive. Vous apprendrez comment:
- Intégrer et livrer vos données rapidement et facilement à l'aide de Denodo Platform
- L'optimiseur de requêtes de Denodo fournit des données en temps réel, à la demande, même lorsqu'il s'agit de jeux de données très volumineux
- Exposer les données en tant que «services de données» en vue d’être consommées par une variété d'utilisateurs et d'outils
- La virtualisation des données joue un rôle essentiel dans la gouvernance et la sécurité des données au sein de votre organisation
Big Data ou comment retrouver une aiguille dans une botte de foinPALO IT
Un parc informatique d’un millier de machines génère de nombreux Terra Octets de logs. Comment parvenir à y retrouver une information pertinente et comment valoriser les informations contenues dans ces logs ?
Au programme :
- La centralisation des logs : back to basics;
- Cas pratiques : détection d’attaques DoS et refacturation sur plateforme mutualisée;
- Une grille Hadoop : en quoi ça consiste ?
SQL Server Analysis Services dans sa version 2012 a introduit la notion de BI Semantic Model, BISM, qui se décline soit en modèle Multidimensionnel, soit en modèle Tabulaire. Les besoins adressés par ces deux modes sont pour une grande part communs, mais les prérequis nécessaires à leur implémentation diffèrent sur de nombreux points qu'il est important de connaître avant de se lancer dans un projet. Durant cette session nous comparerons ces deux modes sur de nombreux critères, qu'ils concernent les administrateurs (infrastructures à mettre en place, maintenabilité, sécurité), les architectes (modélisations relationnelles sous-jacentes et frontaux supportés), les développeurs (techniques d'implémentation, performance des requêtes) et les chefs de projet qu'ils soient techniques ou fonctionnels (cas métier adressés, facilité de mise en place).
Discovery Session France: Atelier découverte de la Data VirtualizationDenodo
Watch full webinar here: https://bit.ly/34EYBaE
Découvrez la Data Virtualization lors d'un atelier organisé à distance pour les professionnels de la donnée mardi 29 octobre. Quel que soit votre rôle, responsables IT, architectes, data scientists, analystes ou CDO, vous découvrirez comment la Data Virtualization permet de livrer des données en temps réel et accéder à tout type de source de données pour en tirer de la valeur.
Les environnements SAS évoluent et se modernisent, ouvrent de nouvelles opportunités d’usages (automatisation des traitements, industrialisation des productions de restitutions avec un outil de dataviz, …), mais imposent de nouveaux modes de travail. Comment en tirer pleinement profit tout en minimisant l’effort de migration ?
Le décisionnel est depuis longtemps en pleine mutation, il faut pour certains penser l’architecture de la BI de demain, pour d’autres l’accent est à mettre sur l’exploitation des gisements de données restées longtemps impossible avant la révolution du Big Data, pour d’autres enfin il convient plutôt d’adapter les usages aux outils qui malgré leurs nouveautés sont aux prises avec l’évolution des pratiques.
Deux tendances semblent toutefois animer la recherche d’ajustement pour les opérationnels :
La modernisation des environnements : allant vers la centralisation des serveurs, ce mouvement semble ne plus laisser de place aux installations de clients lourds sur PC, offrant de plus en plus de mobilité aux utilisateurs (légers, mobiles, etc.) jusqu’à l’affranchissement des applications classiques : SAS BASE est ainsi devenue SAS STUDIO : un client totalement WEB.
Enfin, la dynamique impulsée par le Dataviz affecte de façon significative les usages de la BI à tous les niveaux, poussant même à repenser le schéma classique des catégories de reporting : reporting de masse, reporting opérationnel, reporting prospectif.
Pour cette nouvelle Matinale Technologique Soft Computing, nous vous proposons deux ateliers autour de la thématique de l’impact de l’évolution des outils sur les usages :
Atelier 1 :
- Migration vers SAS Enterprise Guide ou SAS STUDIO : quels impacts sur les usages et les pratiques ?
Atelier 2 :
- SAS Visual Analytics : un outil de reporting orienté Exploration et Analyse ?
Au delà de ce buzz word :
Les grands concepts
Les étapes clés des projets Big Data et les technologies à utiliser (stockage, ingestion, …)
Les enjeux des architectures Big Data (architecture lambda, …)
L'intelligence artificielle (machine learning, deep learning, …)
Et un cas d'usage du big data sur AWS autour de l'utilisation des données gyroscopiques de vos internautes mobiles.
Session découverte de la Data VirtualizationDenodo
Watch full webinar here: https://bit.ly/3Eo0BU9
Denodo vous propose une session virtuelle pour découvrir la Data Virtualization. Quel que soit votre rôle, responsable IT, architecte, data scientist, analyste ou CDO, vous découvrirez comment la Data Virtualization permet de livrer des données en temps réel et accéder à tout type de source de données pour en tirer de la valeur.
Le tableau de bord a trois objectifs en tant que support synthétique du fait qu’il fournit les informations essentielles pour comprendre la situation, outil de management en ce qu’il est un instrument de référence permettant de détecter et résoudre en équipe les aléas mais aussi comme vecteur de communication en tant qu’outil de partage de l’information et de la communication entre les échelons
GAB 2015 - Nouveautes sur le stockage de donnees dans AzureJean-Luc Boucho
Cette présentation parcourt les principales nouveautés concernant le stockage de données dans Azure. Au menu : évolutions du Storage (Premium), SQL Database (V12) et Cache Redis, nouveaux services Elastic Scale, DocumentDB et améliorations du Backup et Recovery.
Session animée à l'événement Global Azure Bootcamp à Paris, 25 Avril 2015.
La deuxième partie sur le cours Business Intelligence et Data warehouse.
Si vous avez des questions, des remarques ou des propositions afin d’améliorer le contenu et la qualité de ce cours, n' hésitez pas à me contacter via mon email:
pr.azizdarouichi@gmail.com.
Bonne lecture.
A. DAROUICHI
Les clés de succès pour moderniser votre architecture de données en 2022Denodo
Watch full webinar here: https://bit.ly/3I0Hv8D
Aujourd’hui, avoir une gestion des données efficace est un élément essentiel pour la compétitivité de votre organisation. Les entreprises sont néanmoins souvent confrontées à des silos de données, ce qui rend leur exploitation longue et coûteuse. De plus, la vitesse, la diversité et le volume des données peuvent submerger les architectures de données traditionnelles. Enfin, la transformation digitale amène à s’appuyer sur de nouveaux socles hébergés chez des fournisseurs Cloud.
Dès lors, les questions suivantes peuvent se poser :
- Comment améliorer la livraison des données et extraire toute la valeur de vos données ? Comment accélérer la prise de décision ?
- Comment rendre les données disponibles et exploitables en temps réel ?
- Comment réduire les coûts informatiques ?
Denodo France vous propose d’aborder les clés de succès pour moderniser efficacement votre architecture de données en 2022. Rejoignez ce nouveau webinar pour comprendre comment la plateforme d’intégration et de gestion de données de Denodo peut vous aider à moderniser votre architecture dans un contexte de transformation digitale.
Les points clés abordés : -
Les bénéfices et défis liés à la modernisation d’une architecture data avec les aspects :
- Hybridation
- Data Mesh et Data Fabric
- Migration et sécurisation de données
- Agilité
- Maîtrise des risques et des coûts
- Cas d’usages et cas clients concrets
Discovery Session France: Atelier découverte de la Data VirtualizationDenodo
Watch full webinar here: https://bit.ly/34EYBaE
Découvrez la Data Virtualization lors d'un atelier organisé à distance pour les professionnels de la donnée mardi 29 octobre. Quel que soit votre rôle, responsables IT, architectes, data scientists, analystes ou CDO, vous découvrirez comment la Data Virtualization permet de livrer des données en temps réel et accéder à tout type de source de données pour en tirer de la valeur.
Les environnements SAS évoluent et se modernisent, ouvrent de nouvelles opportunités d’usages (automatisation des traitements, industrialisation des productions de restitutions avec un outil de dataviz, …), mais imposent de nouveaux modes de travail. Comment en tirer pleinement profit tout en minimisant l’effort de migration ?
Le décisionnel est depuis longtemps en pleine mutation, il faut pour certains penser l’architecture de la BI de demain, pour d’autres l’accent est à mettre sur l’exploitation des gisements de données restées longtemps impossible avant la révolution du Big Data, pour d’autres enfin il convient plutôt d’adapter les usages aux outils qui malgré leurs nouveautés sont aux prises avec l’évolution des pratiques.
Deux tendances semblent toutefois animer la recherche d’ajustement pour les opérationnels :
La modernisation des environnements : allant vers la centralisation des serveurs, ce mouvement semble ne plus laisser de place aux installations de clients lourds sur PC, offrant de plus en plus de mobilité aux utilisateurs (légers, mobiles, etc.) jusqu’à l’affranchissement des applications classiques : SAS BASE est ainsi devenue SAS STUDIO : un client totalement WEB.
Enfin, la dynamique impulsée par le Dataviz affecte de façon significative les usages de la BI à tous les niveaux, poussant même à repenser le schéma classique des catégories de reporting : reporting de masse, reporting opérationnel, reporting prospectif.
Pour cette nouvelle Matinale Technologique Soft Computing, nous vous proposons deux ateliers autour de la thématique de l’impact de l’évolution des outils sur les usages :
Atelier 1 :
- Migration vers SAS Enterprise Guide ou SAS STUDIO : quels impacts sur les usages et les pratiques ?
Atelier 2 :
- SAS Visual Analytics : un outil de reporting orienté Exploration et Analyse ?
Au delà de ce buzz word :
Les grands concepts
Les étapes clés des projets Big Data et les technologies à utiliser (stockage, ingestion, …)
Les enjeux des architectures Big Data (architecture lambda, …)
L'intelligence artificielle (machine learning, deep learning, …)
Et un cas d'usage du big data sur AWS autour de l'utilisation des données gyroscopiques de vos internautes mobiles.
Session découverte de la Data VirtualizationDenodo
Watch full webinar here: https://bit.ly/3Eo0BU9
Denodo vous propose une session virtuelle pour découvrir la Data Virtualization. Quel que soit votre rôle, responsable IT, architecte, data scientist, analyste ou CDO, vous découvrirez comment la Data Virtualization permet de livrer des données en temps réel et accéder à tout type de source de données pour en tirer de la valeur.
Le tableau de bord a trois objectifs en tant que support synthétique du fait qu’il fournit les informations essentielles pour comprendre la situation, outil de management en ce qu’il est un instrument de référence permettant de détecter et résoudre en équipe les aléas mais aussi comme vecteur de communication en tant qu’outil de partage de l’information et de la communication entre les échelons
GAB 2015 - Nouveautes sur le stockage de donnees dans AzureJean-Luc Boucho
Cette présentation parcourt les principales nouveautés concernant le stockage de données dans Azure. Au menu : évolutions du Storage (Premium), SQL Database (V12) et Cache Redis, nouveaux services Elastic Scale, DocumentDB et améliorations du Backup et Recovery.
Session animée à l'événement Global Azure Bootcamp à Paris, 25 Avril 2015.
La deuxième partie sur le cours Business Intelligence et Data warehouse.
Si vous avez des questions, des remarques ou des propositions afin d’améliorer le contenu et la qualité de ce cours, n' hésitez pas à me contacter via mon email:
pr.azizdarouichi@gmail.com.
Bonne lecture.
A. DAROUICHI
Les clés de succès pour moderniser votre architecture de données en 2022Denodo
Watch full webinar here: https://bit.ly/3I0Hv8D
Aujourd’hui, avoir une gestion des données efficace est un élément essentiel pour la compétitivité de votre organisation. Les entreprises sont néanmoins souvent confrontées à des silos de données, ce qui rend leur exploitation longue et coûteuse. De plus, la vitesse, la diversité et le volume des données peuvent submerger les architectures de données traditionnelles. Enfin, la transformation digitale amène à s’appuyer sur de nouveaux socles hébergés chez des fournisseurs Cloud.
Dès lors, les questions suivantes peuvent se poser :
- Comment améliorer la livraison des données et extraire toute la valeur de vos données ? Comment accélérer la prise de décision ?
- Comment rendre les données disponibles et exploitables en temps réel ?
- Comment réduire les coûts informatiques ?
Denodo France vous propose d’aborder les clés de succès pour moderniser efficacement votre architecture de données en 2022. Rejoignez ce nouveau webinar pour comprendre comment la plateforme d’intégration et de gestion de données de Denodo peut vous aider à moderniser votre architecture dans un contexte de transformation digitale.
Les points clés abordés : -
Les bénéfices et défis liés à la modernisation d’une architecture data avec les aspects :
- Hybridation
- Data Mesh et Data Fabric
- Migration et sécurisation de données
- Agilité
- Maîtrise des risques et des coûts
- Cas d’usages et cas clients concrets
4. 4
Plan
1. Introduction aux systèmes OLAP
2. Systèmes ROLAP
• Introduction à la technologie ROLAP
• Techniques d’indexation ROLAP
• Sélection et matérialisation de vues
• Fragmentation de tables
• Forces et faiblesses de la technologie ROLAP
• Quelques produits de technologie ROLAP
3. Systèmes MOLAP
• Introduction à la technologie MOLAP
• Techniques de stockage
• Densité et compression
• Agrégation et calcul des agrégats
• Forces et faiblesses de la technologie MOLAP
• Quelques produits de technologie MOLAP
4. Systèmes HOLAP
• Introduction à la technologie HOLAP
• Quelques produits de technologie HOLAP
5. 5
Les règles de Codd pour les produits OLAP
En 1993 Codd définit les bases du modèle OLAP : 12 règles de Codd définissent
l’évaluation des produits OLAP :
1. Vue multidimensionnelle : Une base OLAP offre une vue multidimensionnelle des
données
2. Transparence: éléments techniques mis en œuvre invisibles pour l’utilisateur
3. Accessibilité: la complexité et l’hétérogénéité des données sont masquées par les outils
OLAP
4. Stabilité: performances stables indépendamment du contexte d’analyse
5. Architecture Client/Serveur : le coté serveur a en charge l’homogénéisation des
données, les clients se connectent simplement au serveur
6. Traitement générique des dimensions : une seule structure logique pour toutes les
dimensions. Tout calcul effectué sur une dimension peut l’être sur les autres
7. Gestion dynamique des matrices creuses : gestion dynamique de la mémoire physique
nécessaire pour stocker les données non nulles
8. Support multi-utilisateurs : gestion des accès concurrents aux données
9. Croisement des dimensions
10. Manipulation intuitive des données
11. Flexibilité des restitutions
12. Nombre illimité de niveaux d’agrégations et de dimensions
6. 6
ROLAP (Relational OLAP)
Ø OLAP relationnel
Ø Données obtenues à partir de tables relationnelles et de jointures entre
celles-ci
Ø En fonction de la granularité́, la requête générée est plus ou moins
complexe
Ø A chaque consultation, la requête est recalculée
Les résultats ne sont pas stockés
Ø Langage : SQL
Ø Avantages
Faible coût (car tire partie des ressources existantes)
Ø Inconvénients
Temps de réponse long car sollicitation de la base à chaque relance
d’un rapport
7. 7
MOLAP (Multi-Dimentional OLAP)
Ø OLAP multi-dimentionnel
Ø DonnéesstockéesdansunebasededonnéesmultidimentionnelleappeléeCUBE
Exemple : Essbase...
Ø Plus de relationnel!
Ø Tous les croisements possibles sont précalculés
Restitution des données instantanée
Ø Langage : MDX
Ø Avantages
Temps de réponse très court (toutes les données et résultats sont stockés)
Ø Inconvénients
Coût élevé des licences pour les bases multi-dimentionnelles
Coût élevé de développement des cubes
Difficile à mettre en place pour les gros volumes de données, à cause de
tous les résultats précompilés
8. 8
HOLAP (Hybrid OLAP)
Ø Association du ROLAP et du MOLAP
Ø Concept de Drill-Through
Accès aux données agrégées avec MOLAP (Cube)
Accès aux détails avec le ROLAP (tables relationnelles) Étapes :
Données agrégées stockées dans une table multi-dimentionnelle o
Restitution de ces données à partir d’un outil de reporting
Ø Affichage des données agrégées extraites à partir des tables multi-
dimentionnelles Affichage des détails des opérations issus des bases
relationnelles
Ø Avantages
Temps de réponse assez court
Moins coûteux que MOLAP car moins de développement
Ø Inconvénients
Ne pourra pas être utilisé si les rapports sont trop complexes et font trop de
croisements de données
9. 9
DOLAP (Desktop OLAP)
Ø Ce n’est pas une technologie de stockage, mais un mode de
fonctionnement.
Ø Base de données OLAP limitée en taille.
Ø Permet à l’utilisateur d’enregistrer une partie de la base de données
multi-dimentionnelle en local.
11. 11
Phases de construction d’un DW
Ø Il y’a trois parties interdépendante qui relève la construction d’un
Datawarehouse:
Ø L’étude préalable qui va définir les objectifs, la démarche à suivre, le
retour sur investissement,...
Ø L’étude du modèle de données qui représente le DW conceptuellement
et logiquement
Ø L’étude de l’alimentation du Datawarehouse
12. 12
Étude préalable:
Étude des besoins
Ø Définir les objectifs du DW
Ø Déterminer le contenu du DW et son organisation, d’après:
Les résultats attendus par les utilisateurs,
Les requêtes qu’ils formuleront,
Les projets qui ont été définie
Ø Recenser les données nécessaires à un bon fonctionnement du DW:
Recenser les données disponibles dans les bases de production
Identifier les données supplémentaires requises
Ø Choisir les dimensions
Typiquement: le temps, le client, le produit, le magasin...
Ø Choisir les mesures de fait
De préférences de quantités numériques additives
Ø Choisir la granularité des faits
Niveau de détails des dimensions
13. 13
Étude préalable:
Coûts de déploiement:
Ø Nécessite des machines puissantes, souvent une machine parallèle
Ø Capacité de stockage très importante (historisation des données)
Evaluer la capacité de stockage
Ø Equipes de maintenance et d’administration
Les coûts des logiciels
Les logiciels d’administration du DW
Les outils ETL (Extract-Transform- Loading)
Les outils d’interrogation et de visualisation Les outils de Datamining
14. 14
Modélisation
Ø Niveau conceptuel:
Un DW est basé sur une modélisation multidimensionnelle qui
représente les données dans un cube
Un cube permet de voir les données suivant plusieurs dimensions:
Tables de dimensions
La table des faits contient les mesures et les clés des dimensions
Ø Niveau Logique:
Plusieurs schémas types sont proposés pour représenter un DW:
Schéma en étoile;
Schéma en flocon;
15. 15
Alimentation
Ø L’alimentation est la procédure qui permet de transférer des données du
système opérationnel vers le DW
Ø La conception de cette opération est une tâche complexe
60 à 90 % de la charge totale d’un projet DW
Ø Elle doit être faite en collaboration avec l’administrateur des bases de
productions
Ø Il est nécessaire de déterminer:
Quelles données seront chargées
Les transformations et les vérifications nécessaires
La périodicité et le moment de transferts des données
16. 16
Conception d’un Data Warehouse
Ø Étape 1
Choisir le processus à modéliser
Ø Étape 2
Choisir le grain des faits
Décider de ce que représenté une ligne de la table de faits
Niveau de détail: transactions individuelles, récapitulatifs journaliers,
mensuels...
Ø Étape 3
Identifier les dimensions qui s’appliquent aux lignes de la table
des faits
Typiquement le temps, le client, le foyer, le produit, magasin, agence,
compte...
Ø Étape 4
Identifier les mesures de fait qui renseignent la table de faits
De préférence des quantités numériques additives
17. 17
Conclusion
u Voici une liste de points importants à prendre en compte
pour que le projet du SID soit un succès :
u Se concentrer sur les exigences et les objectifs
u Obtenir le soutien des responsables du côté utilisateur
u Choisir un mode de développement itératif plutôt que global
u Prévoir au mieux les coûts de chaque étape (en temps, en homme/jour, en
dépenses)
u Préférer la commodité d’utilisation et la performance des requêtes plutôt que
la facilité de développement
u Rechercher au maximum des solutions simples
u Respecter une architecture commune et cohérente
u Ne pas se limiter à une granularité trop importante
u Préparer et prendre en compte l’évolution future du système opérationnel et
de l’environnement en général
u S’assurer de l’acceptation du système par les utilisateurs
18. 18
Exemple de modèle dimensionnel en étoile
Ø L'ETL (Extraction Transformation Loading) est le processus de copie des
données depuis les tables des systèmes transactionnels vers les tables
du modèle en étoile du data warehouse.