Les Puits de
données
Concepts, enjeux, fonctions
Voir aussi :
http://www.value-
architecture.com/2014/03/a-la-
decouverte-...
Sommaire
 Objectifs d’un puits de données
 Principes de modélisation des données
 Le grain tridaté
 Le modèle génériqu...
Objectifs
 Simplifier le SI
 Lutter contre la complexification des échanges
 Décloisonner les silos
 Gérer les identit...
Principes de modélisation
des données
Les données au cœur du puits
Nécessité de stocker pour mettre en cohérence les échan...
Les principes
Pures, filtrées,
Transparentes, canoniques
Fraîches, Synchronisées,
Historisées, tracées
Partagées 360°
Cohé...
Le grain
 Modéliser le grain le plus fin pertinent
 Attaché à un « fait »
 Identifié : occurrence de l’objet, de la per...
René MANDEL
7 28/03/2014
Le modèle tridaté
 Le fait est daté : date du fait, cycle de vie du
fait
 La vision est datée : vision en anticipation (...
Le modèle générique
 Dates (de vision, de fait) en profondeur historique,
indispensables
 pour pouvoir rapprocher les so...
Exemple de générique :
gestion de périodes
 Période :
 Un début et une fin
 Une situation pendant la période
 Des info...
Subsidiarité
 Noyau du modèle générique et commun
 Identification, localisation, datation, typage
 Développement subsid...
Forme canonique cachée
 Mise en forme canonique invariante
 Cachée : accès uniquement par des
services
 Indépendante de...
Principes d’Architecture
Echanges multi-modes, multi-protocoles
Synergie MDM
Mise en cohérence et en qualité
Réseau de pui...
XML
Connecteur
FTP
MOM
Services
Web
Spécifique
Administr
ation
Gestion
des
Contrats
Accès
MDM
Gestion
cohéren
ce
Gestion
d...
Echanges multi-modes, multi-
protocoles
 Les mêmes données peuvent s’échanger
dans différents modes logiques :
 Stock à ...
Synergie MDM
 MDM implique :
 Transfert de propriété des données (centralisation
d’une propriété éclatée), une refonte d...
Mise en cohérence et en
qualité
 Puits et point de vérité (données Golden)
 Le puits permet de gérer le cycle de mise en...
Réseau de puits
 Le périmètre d’un puits peut changer
 Fusion de puits
 Éclatement d’un puits
 Les puits forment un ré...
Positionnement
(ODS, ERP, Open
Data, Portail,…)
 En aval des processus créateurs des données
 Non intrusif
 Respecte le...
Puits et Big Data
 Agilité d’ingénierie des flux pour le Big Data
 Alimentation transverse en Big Data des
différents do...
Puits et BI
 Le ou les puits font de l’ordre dans les données
opérationnelles
 En amont des ODS
 Laissent aux ETL les t...
Migration
Insertion agile et réversible
Outil de migration et de réingénierie des échanges
28/03/2014
René MANDEL
22
Insertion agile et réversible
 Un Puits s’insère facilement dans les flux
 Il est multi-protocoles, donc non intrusif
 ...
Outil de migration et de
réingénierie des échanges
 Un puits peut (et doit) être mis en place « en
avance de phase »
 Po...
Services
Catalogues
Contrats
Sécurité
28/03/2014
René MANDEL
25
Catalogues
 Les objets métier, les événements, les états
 Les flux de données
 Les flux de meta-données
 Et bien sûr :...
Services
 Basés sur des contrats (MOA et MOE)
 Description des flux
 Meta-données (abonnement aux évolutions)
 Jeux d’...
Sécurité
 Données individuelles
 Le puits a vocation à concentrer les fonctions
d’anonymisation, échantillonnage pour l’...
Gouvernance
Géométrie variable
Montée en charge, ROI
28/03/2014
René MANDEL
29
Géométrie variable
 Faible coût d’un « POC »
 Solutions « open source » économiques
 Fonctionnement sur données réelles...
Exemple de montée en
charge
 Initialisation avec quelques flux « fichier »
 Base esclave
 Quelques mises en cohérence
...
ROI
 Le puits de données est un dispositif facilitant la reprise des
données et en amont la détection voire la correction...
Plateformes support
28/03/2014
René MANDEL
33
Plateformes d’intégration
 Un puits nécessite une plateforme d’intégration, pour
 Le catalogue de services de conversion...
Prochain SlideShare
Chargement dans…5
×

Principe du Puits de données pour un SI simple, agile, anticipant les Big Data

3 809 vues

Publié le

Publié dans : Internet
  • Soyez le premier à commenter

Principe du Puits de données pour un SI simple, agile, anticipant les Big Data

  1. 1. Les Puits de données Concepts, enjeux, fonctions Voir aussi : http://www.value- architecture.com/2014/03/a-la- decouverte-des-puits-de- donnees.html René MANDEL1 28/03/2014
  2. 2. Sommaire  Objectifs d’un puits de données  Principes de modélisation des données  Le grain tridaté  Le modèle générique  Forme canonique cachée  Principes d’architecture  Echanges multi-modes, multi-protocoles  Synergie MDM  Mise en cohérence et en qualité  Réseau de puits  Positionnement (ODS, ERP, Open Data, Portail,…)  Migration  Services  Catalogues  Contrats  Sécurité  Gouvernance  Géométrie variable  Montée en charge, ROI  Plates-formes support 28/03/2014 René MANDEL 2
  3. 3. Objectifs  Simplifier le SI  Lutter contre la complexification des échanges  Décloisonner les silos  Gérer les identités, localisations, dates  Simplifier les données par la généricité du modèle  Faciliter la migration  Mixer ancien patrimoine SI et nouveaux composants  Anticiper sur les données de référence  Capitaliser sur les données  Mise en qualité  Préparer Big Data  Dépassionner la Gouvernance 28/03/2014 René MANDEL 3
  4. 4. Principes de modélisation des données Les données au cœur du puits Nécessité de stocker pour mettre en cohérence les échanges dans tous les espaces (360°, tri-datage, mise en qualité) Pas de format pivot et modèle interne « caché » Le « grain » sain tri-daté Forme canonique cachée 28/03/2014 René MANDEL 4
  5. 5. Les principes Pures, filtrées, Transparentes, canoniques Fraîches, Synchronisées, Historisées, tracées Partagées 360° Cohérentes, subsidiaires Multi-formats Multi-protocoles Synchrone-asynchrone Des données … René MANDEL 5 28/03/2014
  6. 6. Le grain  Modéliser le grain le plus fin pertinent  Attaché à un « fait »  Identifié : occurrence de l’objet, de la personne, …  Localisé : géo-localisé, positionné  Daté : date du fait  En son « Etat » de son cycle de vie  Exemples  Accident, sinistre  Activité d’une ressource  Personne, produit, …  Trajet, circulation  Production d’une unité d’oeuvre René MANDEL 6 28/03/2014
  7. 7. René MANDEL 7 28/03/2014
  8. 8. Le modèle tridaté  Le fait est daté : date du fait, cycle de vie du fait  La vision est datée : vision en anticipation (le fait prévu), vision sur le fait (le fait réel), vision en recul (retour sur le fait : retour d’expérience, enrichissement), cycle de vie de la vision  L’instrument d’observation est daté : date technique (date de saisie, date d’acquisition, date du fichier, …) cycle des observations (mise en qualité, précisions,…), multiplicité des sources (canaux) René MANDEL 8 28/03/2014
  9. 9. Le modèle générique  Dates (de vision, de fait) en profondeur historique, indispensables  pour pouvoir rapprocher les sources  Pour restituer sur différents pas de temps  Être en mesure de tout tracer et mémoriser par ajouts (on accepte tout et on garde tout)  Pour remonter les alertes de qualité vers les sources et gérer les retours  Pour disposer des données au plus tôt même incomplètes et non totalement validées  Pour générer des jeux de test, jouer des scénarios  Gérer le catalogue d’événements (ce qui provoque l’évolution) et d’états de l’objet  Garder trace des sources, dates techniques, anomalies  Heurodater tous les grains (pour gérer les services de diffusion et les services de mise en qualité)  Faire le lien avec les MDM : identifiants, structures, nomenclatures René MANDEL 9 28/03/2014
  10. 10. Exemple de générique : gestion de périodes  Période :  Un début et une fin  Une situation pendant la période  Des informations spécifiques à la situation  Exemples :  Affectation à un poste, congés, maladies, activité … un même modèle SI, mais des silos applicatifs différents  Un déplacement… un même modèle mais des modes de transport différents  Acquisition de droits et consommation de droits (liquidation, allocation)  Revenus, Frais, Abonnements  Mouvements bancaires, couvertures d’assurance, … René MANDEL 10 28/03/2014
  11. 11. Subsidiarité  Noyau du modèle générique et commun  Identification, localisation, datation, typage  Développement subsidiaire du modèle selon les types  Identification propre au type (ex : affectation à une structure, code d’activité, de produit, …)  Informations propres au type  Informations non structurées René MANDEL 11 28/03/2014
  12. 12. Forme canonique cachée  Mise en forme canonique invariante  Cachée : accès uniquement par des services  Indépendante de la technologie (SQL, Hadoop, virtualisation, …)  Levier de migration et de mise en qualité  Permet toutes les alimentations et restitutions  Sous toutes formes et tout tempo  Anticipe le Big Data 28/03/2014 René MANDEL 12
  13. 13. Principes d’Architecture Echanges multi-modes, multi-protocoles Synergie MDM Mise en cohérence et en qualité Réseau de puits Positionnement (ODS, ERP, Open Data, Portail,…) 28/03/2014 René MANDEL 13
  14. 14. XML Connecteur FTP MOM Services Web Spécifique Administr ation Gestion des Contrats Accès MDM Gestion cohéren ce Gestion des Services Evolution s modèle Gestion Sécurité Cœur du puits: Grain tri-daté Domaines applicatifs !: Domaines externes Sites Portails Infocentres BI MDM MDM René MANDEL 14 28/03/2014
  15. 15. Echanges multi-modes, multi- protocoles  Les mêmes données peuvent s’échanger dans différents modes logiques :  Stock à date (fichier, téléchargement, …)  Variation de stock entre dates  Messages au fil de l’eau désynchronisés (messagerie)  Messages synchrones  Invocation de services  En s’appuyant sur divers protocoles (FTP, REST, XML, CSV…) René MANDEL 15 28/03/2014
  16. 16. Synergie MDM  MDM implique :  Transfert de propriété des données (centralisation d’une propriété éclatée), une refonte des processus  Des fonctions de gestion de structure complexes  Puits autorise :  Un fonctionnement à l’identique, sans remise en cause de la propriété des données et des processus  Une gestion de grains en volume et en flux important, selon un modèle simple  Puits et MDM se confortent mutuellement pour assainir le SI sans Big Bang René MANDEL 16 28/03/2014
  17. 17. Mise en cohérence et en qualité  Puits et point de vérité (données Golden)  Le puits permet de gérer le cycle de mise en qualité, et de mémoriser le dernier état  Il constitue donc le point de vérité dès lors que cette mise en qualité se réalise avec les applications source  La qualité est gérée au niveau du grain et n’exige pas de boucles de mise en qualité par lot  Puits et vision 360 °  Le puits apporte la vision 360  Il permet une focalisation par type (principe de subsidiarité) René MANDEL 17 28/03/2014
  18. 18. Réseau de puits  Le périmètre d’un puits peut changer  Fusion de puits  Éclatement d’un puits  Les puits forment un réseau  Partage des meta-données (catalogue unique ou réparti)  Possibilité de synchroniser plusieurs puits (data virtualization)  Possibilité de spécialiser les puits (par client à servir, …) René MANDEL 18 28/03/2014
  19. 19. Positionnement (ODS, ERP, Open Data, Portail,…)  En aval des processus créateurs des données  Non intrusif  Respecte les sources et les canaux  Accepte les nouvelles sources  En cohérence avec les MDM  En amont des fonctions utilisatrices  ODS  ERP  Open Data  Accès web (amont-aval)  Portail … 28/03/2014 René MANDEL 19
  20. 20. Puits et Big Data  Agilité d’ingénierie des flux pour le Big Data  Alimentation transverse en Big Data des différents domaines applicatifs  Ouverture à des sources variées grâce à une fédération de puits  Migration Adoop facilitée par la plateforme du puits  Rapprochement du structuré et non structuré René MANDEL 20 28/03/2014
  21. 21. Puits et BI  Le ou les puits font de l’ordre dans les données opérationnelles  En amont des ODS  Laissent aux ETL les travaux de transcodification  Sont callés sur les cycles opérationnels  La BI garde sa logique d’observation sur champ constant et dates suivies, selon son propre cycle  Nécessite de constituer des stocks de données  Avec une alimentation de données de qualité  Sans gestion automatique de la mise en qualité  Le puits fait ce travail pour toutes les diffusions, yc la BI René MANDEL 21 28/03/2014
  22. 22. Migration Insertion agile et réversible Outil de migration et de réingénierie des échanges 28/03/2014 René MANDEL 22
  23. 23. Insertion agile et réversible  Un Puits s’insère facilement dans les flux  Il est multi-protocoles, donc non intrusif  Il livre les données dans la forme et le protocole attendu  Un puits n’impose ni ne fige le mode d’échange  Synchrone ou asynchrone  Fonctionne en mode traditionnel (fichier, messagerie,…)  N’impose pas l’ESB, permet d’évoluer vers l’ESB  A la carte, au choix selon le flux et le moment  Un puits peut commencer petit et s’étendre au rythme de la conviction  Avec un nombre réduit de flux  Avec un noyau du modèle générique René MANDEL 23 28/03/2014
  24. 24. Outil de migration et de réingénierie des échanges  Un puits peut (et doit) être mis en place « en avance de phase »  Pour préparer l’insertion d’un gros composant (ERP) et anticiper sur son alimentation, ses données produites  Pour préparer l’arrivée de nouveaux flux, et leur mise en cohérence (Ex : Big Data) et exploitation  Le puits rend la réingénierie de flux agile  Nécrose, couveuse, bascule sont faciles et sécurisées  Régimes transitoires et tests sans développement  Voir a/s Article RM sur la migration René MANDEL 24 28/03/2014
  25. 25. Services Catalogues Contrats Sécurité 28/03/2014 René MANDEL 25
  26. 26. Catalogues  Les objets métier, les événements, les états  Les flux de données  Les flux de meta-données  Et bien sûr :  Les services  Les routines  Les clients-fournisseurs  Les contrats  Les versions de meta-données René MANDEL 26 28/03/2014
  27. 27. Services  Basés sur des contrats (MOA et MOE)  Description des flux  Meta-données (abonnement aux évolutions)  Jeux d’essai  Mode d’échange  Caractéristiques techniques  Gestion des incidents  Qualité des données  Peut être étendu à la diffusion des référentiels René MANDEL 27 28/03/2014
  28. 28. Sécurité  Données individuelles  Le puits a vocation à concentrer les fonctions d’anonymisation, échantillonnage pour l’accès aux données individuelles, en conformité avec les prescriptions réglementaires  Sécurité  Le puits peut jouer un rôle clé dans la sécurisation des données : sauvegardes, blocage des accès non autorisés  Les flux peuvent être cryptés  Mobilité  Le puits a vocation à servir les accès en mobilité, avec les protections adaptées René MANDEL 28 28/03/2014
  29. 29. Gouvernance Géométrie variable Montée en charge, ROI 28/03/2014 René MANDEL 29
  30. 30. Géométrie variable  Faible coût d’un « POC »  Solutions « open source » économiques  Fonctionnement sur données réelles  Scénarios simples mais représentatifs  Gouvernance flexible  Pas de transfert de compétence sur les données  Périmètre pouvant évoluer  Mise en qualité par cohérence des flux pouvant évoluer sans Big Bang 28/03/2014 René MANDEL 30
  31. 31. Exemple de montée en charge  Initialisation avec quelques flux « fichier »  Base esclave  Quelques mises en cohérence  Quelques clients en diffusion  Interaction MDM  Extension à l’ensemble des flux d’alimentation  Batch  Accès ESB et messagerie  Inversion des circuits d’alimentation  Des portails  Des EDS  Extension à la data virtualization René MANDEL 31 28/03/2014
  32. 32. ROI  Le puits de données est un dispositif facilitant la reprise des données et en amont la détection voire la correction de problèmes d’intégrité  Une réduction des coûts de maintenance des flux grâce à :  la diminution du nombre de flux  La réduction et l’industrialisation du nombre de transformations  La mise en place de modèles de données métier « de référence » facilite  l’alimentation des décisionnels et leur rapprochement  L’implémentation de nouvelles applications et des flux associés  Le puits met au service de l’ensemble des applications et services des fonctions de conversion de protocole, diminuant d’autant la charge d’investissement et de fonctionnement de chacun  Le puits réduit l’effet tunnel des projets, et permet de multiples scénarios de migration afin de sécuriser l’intégration des nouveaux composants, et l’appropriation par les utilisateurs René MANDEL 32 28/03/2014
  33. 33. Plateformes support 28/03/2014 René MANDEL 33
  34. 34. Plateformes d’intégration  Un puits nécessite une plateforme d’intégration, pour  Le catalogue de services de conversion (multi- protocole)  La gestion des meta-données (locale au puits, mais étendue à l’ensemble des puits : catalogue unique des objets métier)  L’infrastructure base de données (relationnelle, Hadoop)  L’infrastructure technique (exploitation, sécurité, ESB, …)  La supervision  Plateforme ouverte, scalable, standard :  Talend; Oracle; Informatica; Pentaho; Semarchy ? René MANDEL 34 28/03/2014

×