Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.
Visite guidée au pays de la donnée
Introduction et tour d’horizon
Gautier Poupeau
gautier.poupeau@gmail.com,
@lespetitesca...
Plan de la partie
Problématique et définitions
Comment la donnée est-elle devenue
un actif indépendant du SI ?
Tour d’hori...
PROBLÉMATIQUE ET DÉFINITIONS
En guise d’introduction
L’ère des données
Qu’est-ce-qu’une donnée ?
DIKW Pyramid
Des faits, signaux et symboles formant une
unité indépendante les unes des autres e...
Document vs donnée
Lorem ipsum dolor sit amet,
consectetur adipiscing elit.
Fusce mollis neque in ante
vulputate, quis acc...
COMMENT LA DONNÉE EST-ELLE DEVENUE
UN ACTIF INDÉPENDANT DU SI ?
Vers la libération des données
LA DONNÉE DÉPENDANTE DES
APPLICATIONS
Jusqu’au milieu des années 2000
Les silos applicatifs
BA
Silos applicatifs
indépendants et non connectés
BA
Silos de services
Les données sont complètemen...
Traditionnellement, la modélisation d’un SI est basée sur les
besoins des utilisateurs.
Les processus : la partie émergée ...
LE CHANGEMENT DE LA PERCEPTION
DE LA DONNÉE
A partir du milieu des années 2000
Démultiplication des données
L’objet
Pages
Fichiers
Structure physique
Structure numérique
1ère
question : Quel est ce liv...
Du document à la donnée,
un changement de granularité
En permettant le traitement informatisé du contenu lui-même, la numé...
Du document à la donnée,
un changement de granularité
En permettant le traitement informatisé du contenu lui-même, la numé...
Du document à la donnée,
un changement de granularité
En permettant le traitement informatisé du contenu lui-même, la numé...
Un verrou technologique : la scalabilité
La scalabilité ou passage à l’échelle désigne la capacité d’une machine ou
d’une ...
Comment la scalabilité horizontale
a été simplifiée ?
Parrallélisation
La parrallélisation, au cœur de
l’algorithme map/re...
Comment la scalabilité horizontale
a été simplifiée ?
Parrallélisation
Partitionnement/Clustering
Comment la scalabilité horizontale
a été simplifiée ?
No SQL
Chaque entité stockée est indépendante les unes des autres
et peut ainsi se répartir entre les machines d’un cluste...
Le Big Data : ensemble de technologies pour simplifier
l’implémentation de la scalabilité horizontale
En apportant des rép...
Fouille et IA : automatisation et
nouvelles formes de valorisation
La disponibilité de masses de données numériques et d’o...
Pour résumer et compléter
Profusion de
données numériques
Maturité des algorithmes de
traitement des données
Mise au point...
La donnée : une couche transverse et
indépendante du SI
Indépendance des trois niveaux
(applicatif, service, données)
TOUR D’HORIZON DE LA
GESTION DES DONNÉES
Comment maîtriser et utiliser au mieux les données ?
Gouvernance des données
Ensemble des procédures mises en place au sein d’une organisation
afin d’encadrer le traitement et...
Gouvernance des données
Traitement des données
Ensemble des procédures mises en place au sein d’une organisation
afin d’en...
Stockage
des
données
Gouvernance des données
Traitement des données
Ensemble des procédures mises en place au sein d’une o...
Stockage
des
données
Gouvernance des données
Traitement des données
Référentiels
Modélisation
Cartographie
Etats des lieux...
Stockage
des
données
Gouvernance des données
Traitement des données
Référentiels
Modélisation
Cartographie
Gestion de
l’in...
Stockage
des
données
Gouvernance des données
Traitement des données
Modélisation
Cartographie
Gestion de
l’intégrité
et du...
Stockage
des
données
Gouvernance des données
Traitement des données
Modélisation
Cartographie
Gestion de
l’intégrité
et du...
Stockage
des
données
Gouvernance des données
Traitement des données
Modélisation
PilotageCartographie
Culture de la
donnée...
Stockage
des
données
Gouvernance des données
Traitement des données
Modélisation
PilotageCartographie
Culture de la
donnée...
Prochain SlideShare
Chargement dans…5
×

Visite guidée au pays de la donnée - Introduction et tour d'horizon

1 838 vues

Publié le

Ce diaporama est le 1er d'une série qui vise à donner un panorama de la gestion des données à l'ère du big data et de l'intelligence artificielle. Cette 1ère partie revient sur les raisons qui font de la donnée un actif indépendant de notre SI et propose une représentation de la gestion des données

Publié dans : Données & analyses
  • Soyez le premier à commenter

Visite guidée au pays de la donnée - Introduction et tour d'horizon

  1. 1. Visite guidée au pays de la donnée Introduction et tour d’horizon Gautier Poupeau gautier.poupeau@gmail.com, @lespetitescases http://www.lespetitescases.net
  2. 2. Plan de la partie Problématique et définitions Comment la donnée est-elle devenue un actif indépendant du SI ? Tour d’horizon de la gestion des données
  3. 3. PROBLÉMATIQUE ET DÉFINITIONS En guise d’introduction
  4. 4. L’ère des données
  5. 5. Qu’est-ce-qu’une donnée ? DIKW Pyramid Des faits, signaux et symboles formant une unité indépendante les unes des autres et non traitée Un ensemble organisé de données OU résultat d’un traitement sur un ensemble de données Synthèse ou déduction obtenue à partir de plusieurs informations Connaissances assimilées et/ou connaissances partagées
  6. 6. Document vs donnée Lorem ipsum dolor sit amet, consectetur adipiscing elit. Fusce mollis neque in ante vulputate, quis accumsan dui euismod. Nunc lobortis aliquet orci, ut iaculis nunc feugiat id. Interdum et malesuada fames ac ante ipsum primis in faucibus. Un document est un ensemble logique, fini d’informations dont les limites peuvent être définies par des caractéristiques physiques. Le fait que « Le premier mot du texte soit Lorem » est une donnée. Le fait que « ce texte soit extrait d’un texte de Cicéron » est une donnée, qu’on appelle métadonnée (donnée sur la donnée)
  7. 7. COMMENT LA DONNÉE EST-ELLE DEVENUE UN ACTIF INDÉPENDANT DU SI ? Vers la libération des données
  8. 8. LA DONNÉE DÉPENDANTE DES APPLICATIONS Jusqu’au milieu des années 2000
  9. 9. Les silos applicatifs BA Silos applicatifs indépendants et non connectés BA Silos de services Les données sont complètement pensées par rapport aux applications avec lesquelles ils forment un silo
  10. 10. Traditionnellement, la modélisation d’un SI est basée sur les besoins des utilisateurs. Les processus : la partie émergée de l’iceberg • Besoins primaires : production, stockage et restitution • Modélisation des processus-métiers • Réponse directe aux besoins des utilisateurs • Entraîne une multiplication des applications • A chaque application, sa logique propre, son format de données, ses propres mécanismes d’accès Les données : la partie immergée de l’iceberg • Les données du SI dépendent de la modélisation des processus • Les données sont enfermées dans chaque application formant des silos de données • Absence de cohérence technique et sémantique entre les silos • Le modèle physique de stockage des données peut être très éloigné du modèle logique ce qui rend difficile la migration, la maintenance et la compréhension du modèle Les données enfermées dans les silos applicatifs
  11. 11. LE CHANGEMENT DE LA PERCEPTION DE LA DONNÉE A partir du milieu des années 2000
  12. 12. Démultiplication des données L’objet Pages Fichiers Structure physique Structure numérique 1ère question : Quel est ce livre ? Métadonnées descriptives 3ème question : Quels sont les formats des fichiers ? Métadonnées techniques 2ème question : Quels sont tous les fichiers qui résultent de la numérisation ? Structure numérique 4ème question : l’organisation maîtrise-t-elle ces formats ? Référentiel de formats Formats 5ème question : Quand a eu lieu la numérisation et quel est le nom du scanner ? Métadonnées de provenance 6ème question : A quelle page correspond chaque fichier ? Métadonnées de structure 7ème question : Qui, quand et comment un usager a consulté ce livre ? Données d’usage 8ème question : Que contient exactement ce livre ? Contenu exploitable Un exemple : les métadonnées d’un livre dans une collection de bibliothèques
  13. 13. Du document à la donnée, un changement de granularité En permettant le traitement informatisé du contenu lui-même, la numérisation a peu à peu provoqué une modification dans l’appréhension des choses : du document à la donnée. La description est numérique Le document/support est accessible via une notice qui en décrit la globalité
  14. 14. Du document à la donnée, un changement de granularité En permettant le traitement informatisé du contenu lui-même, la numérisation a peu à peu provoqué une modification dans l’appréhension des choses : du document à la donnée. La description est numérique Le document/support est accessible via une notice qui en décrit la globalité Le document est numérisé ou nativement numérique Le moteur de recherche permet d’accéder au contenu du document
  15. 15. Du document à la donnée, un changement de granularité En permettant le traitement informatisé du contenu lui-même, la numérisation a peu à peu provoqué une modification dans l’appréhension des choses : du document à la donnée. La description est numérique Le document/support est accessible via une notice qui en décrit la globalité Le document est numérisé ou nativement numérique Le moteur de recherche permet d’accéder au contenu du document Le document est un ensemble de données exploitables Le document lui-même devient une source de données, il n’existe plus de dichotomie entre les métadonnées et les données
  16. 16. Un verrou technologique : la scalabilité La scalabilité ou passage à l’échelle désigne la capacité d’une machine ou d’une application à supporter une montée en charge ou en volume Deux modèles de scalabilité Scalabilité verticale Une application sur une seule machine : Plus simple à mettre en place mais potentiellement limité Scalabilité horizontale Une application répartie sur plusieurs machines : Plus complexe à mettre en place mais potentiellement illimité
  17. 17. Comment la scalabilité horizontale a été simplifiée ? Parrallélisation La parrallélisation, au cœur de l’algorithme map/reduce, consiste à séparer un problème en de multiples problèmes plus petits et parallélisables (map) puis à rassembler le résultat de chacun des petits problèmes (reduce).
  18. 18. Comment la scalabilité horizontale a été simplifiée ? Parrallélisation
  19. 19. Partitionnement/Clustering Comment la scalabilité horizontale a été simplifiée ?
  20. 20. No SQL Chaque entité stockée est indépendante les unes des autres et peut ainsi se répartir entre les machines d’un cluster Ou comment stocker et interroger des données en passant à l’échelle ? Comment la scalabilité horizontale a été simplifiée ?
  21. 21. Le Big Data : ensemble de technologies pour simplifier l’implémentation de la scalabilité horizontale En apportant des réponses au problème de scalabilité, le Big Data a vu l’émergence d’un intérêt des DSI et, plus globalement, des organisations pour la donnée elle-même au-delà des processus. Le décloisonnement des silos applicatifs La donnée d’usage, pierre angulaire du service aux utilisateurs
  22. 22. Fouille et IA : automatisation et nouvelles formes de valorisation La disponibilité de masses de données numériques et d’outils pour faciliter le traitement en masse des données ont permis aux outils de fouilles et d’intelligence artificielle d’arriver à maturité. Extraire/générer de la donnée Mise en relation de contenus Statistiques Extraction d’entités nommées Analyse des images Transcription de la parole Reconnaissance optique de caractères Recommandations par le contenu Identification de contenus équivalents Analyse du comportement Data-visualisation Tableaux de bord
  23. 23. Pour résumer et compléter Profusion de données numériques Maturité des algorithmes de traitement des données Mise au point de technologies de traitement de données en masse Fin des budgets infinis dans les DSI
  24. 24. La donnée : une couche transverse et indépendante du SI Indépendance des trois niveaux (applicatif, service, données)
  25. 25. TOUR D’HORIZON DE LA GESTION DES DONNÉES Comment maîtriser et utiliser au mieux les données ?
  26. 26. Gouvernance des données Ensemble des procédures mises en place au sein d’une organisation afin d’encadrer le traitement et le stockage des données
  27. 27. Gouvernance des données Traitement des données Ensemble des procédures mises en place au sein d’une organisation afin d’encadrer le traitement et le stockage des données Ensemble des processus qui visent à l’acquisition, la gestion, l’exploitation et la mise à disposition des données. .
  28. 28. Stockage des données Gouvernance des données Traitement des données Ensemble des procédures mises en place au sein d’une organisation afin d’encadrer le traitement et le stockage des données Ensemble des processus qui visent à l’acquisition, la gestion, l’exploitation et la mise à disposition des données. .
  29. 29. Stockage des données Gouvernance des données Traitement des données Référentiels Modélisation Cartographie Etats des lieux des données disponibles et des flux d’échange Formalisation conceptuelle    de la structure des données Vocabulaires et listes de références assurant la cohérence des valeurs de données
  30. 30. Stockage des données Gouvernance des données Traitement des données Référentiels Modélisation Cartographie Gestion de l’intégrité et du cycle de vie Exploitation Acquisition Mise à disposition
  31. 31. Stockage des données Gouvernance des données Traitement des données Modélisation Cartographie Gestion de l’intégrité et du cycle de vie Saisie Récupération Génération Exploitation Mise à disposition Référentiels
  32. 32. Stockage des données Gouvernance des données Traitement des données Modélisation Cartographie Gestion de l’intégrité et du cycle de vie Usages métier   Saisie Récupération Génération Exploitation Exposition Visualisation Référentiels
  33. 33. Stockage des données Gouvernance des données Traitement des données Modélisation PilotageCartographie Culture de la donnée Gestion de l’intégrité et du cycle de vie Saisie Récupération Génération Exploitation Exposition Référentiels Usages métier   Visualisation Assurer l’expertise et la connaissance transverse des données Indicateurs, comitologie et vision stratégique pour la gestion des données
  34. 34. Stockage des données Gouvernance des données Traitement des données Modélisation PilotageCartographie Culture de la donnée Sécurité Gestion de l’intégrité et du cycle de vie Saisie Récupération Génération Exploitation Exposition Etudes Aspects juridiques Référentiels Usages métier   Visualisation

×