Big Data
Chapitre 1
introduction au Big Data
1
Enseignante: Nedra Ibrahim
Nedra.Ibrahim@ensi-uma.tn
Plan du cours
• Introduction aux Big Data
• Principes Hadoop
• Écosystème Hadoop
• Les architectures Big Data
• Bases de données NoSQL
2
Faits
• Chaque jour, nous générons 2.5 trillions d’octets de données
• 90% des données dans le monde ont été crées au cours des deux
dernières années.
• 90% des données générées sont non structurées.
• Sources:
• Capteurs utilisés pour collecter les informations climatiques
• Messages sur les médias sociaux
• Images numériques et vidéos publiées en ligne
• Enregistrements des transactions d’achat en ligne
• Signaux GPS de téléphones mobiles
• Le développement de l’IoT (Internet des objets) et la généralisation
de la géolocalisation ou de l’analytique ont engendré une explosion
du volume de données collectées,
• …
• Données appelées Big Data ou Données Massives
3
Intérêts
• Détecter les sentiments et réactions des clients
• Détecter les conditions critiques ou potentiellement mortelles
dans les hôpitaux.
• Prendre des décisions risquées basées sur des données
transactionnelles en tems réel.
• Identifier les criminels et les menaces à partir de vidéos, sons
et flux de données.
• Étudier les réactions des étudiants pendant un cours, prédire
ceux qui vont réussir, d’après les statistiques et modèles réunis
au long des années.
4
Challenges
• Réunir un grand volume de données variées pour trouver de
nouvelles idées.
• Capturer des données crées rapidement
• Sauvegarder toutes ces données
• Traiter ces données et les utiliser
5
Approches traditionnelles
• Appropriées pour:
• Des données structurées
• Opérations et processus répétitifs
• Sources relativement stables
• Besoins bien compris et bien cadrés
6
Approche Big Data vs
Approche Traditionnelle
7
Approche Big Data vs
Approche Traditionnelle
8
Bases de données et SGBDR
• Une base de données est un ensemble d'informations qui est
organisé dans des tables de manière à être facilement
accessible, géré et mis à jour.
• SGBDR: Un système de gestion de bases de données
relationnelles est un logiciel permettant de partager et gérer
des informations et de les stocker dans une base de données.
9
SGBDR: ACID
• Les concepts de base des SGBDR
• Atomicité: une transaction s’effectue entièrement ou pas du tout
• Cohérence: le contenu d’une base doit être cohérent au début et
à la fin d’une transaction (mais pas forcément durant son
exécution)
• Isolation: les modifications d’une transaction ne sont
visibles/modifiables que quand celle-ci est validée
• Durabilité: une fois la transaction validée, l’état de la base est
permanent
• Fonctionnalités
• Jointures entre les tables
• Construction de requêtes complexes
• Contraintes d’intégrité solides
10
SGBDR: limitations
• Les SGBD relationnels montrent leurs limites avec de très hauts
débits de données de types incompatibles avec les schémas rigides
du modèle relationnel.
• Limites dans le contexte distribué: comment
distribuer/partitionner les données
• Liens entre entités -> Même serveur
• Mais plus on a de liens, plus le placement des données est complexe
• Contraintes ACID très complexes à assurer (techniques de
verrouillages distribués par exemple)
• Incompatible avec les performances
• Limites dans le contexte du quantité et débit de données:
• incapacité à gérer de très grands volumes de données à des débits
extrêmes
• certains types de données ne sont pas adaptés
11
Entrepôts de données (data
warehouse)
• Un entrepôt de données Un entrepôt de données est une base de données
regroupant une partie ou l'ensemble des données fonctionnelles d'une
entreprise. Il entre dans le cadre de l'informatique décisionnelle ; son but
est de fournir un ensemble de données servant de référence unique,
utilisée pour la prise de décisions dans l'entreprise par le biais de
statistiques et de rapports réalisés via des outils de reporting.
12
Entrepôts de données: limites
• L’entrepôt de données ne permet pas de gérer:
• Le volume: les entrepôts sont conçus pour gérer des Go ou To de
données alors que la croissance exponentielle des données nous
conduit aux Po ou Eo
• Le type (variety): plusieurs types de données: les données
textuelles semi ou non structurées,
• La vitesse (velocity): les données sont créées de plus en plus vite
et nécessitent des traitements en temps-réel
13
ACID vs BASE
• Systèmes distribués modernes assurent le modèle BASE
• Basically Available : une disponibilité face à une grande quantité de
requêtes
• Soft-state : l’état du système peut changer au cours du temps même sans
nouveaux inputs (cela est du au modèle de consistence).
• Eventually consistent : tous les réplicas atteignent le même état, et le
système devient à un moment consistant, si on stoppe les inputs.
14
CAP
Consistency
(consistance/cohérence)
Availability
(disponibilité)
Partition tolerance
(distribution)
CA
CP
AP
Ex: BD relationnelles
normalisées
centralisée
Ex: BD relationnelles
distribuées
Ex: Bases de données NoSQL
Big Data
BIG DATA
15
Big Data
• L’explosion quantitative des données numériques a obligé les
chercheurs à trouver de nouvelles manières de voir et d’analyser le
monde. Il s’agit de découvrir de nouveaux ordres de grandeur
concernant la capture, la recherche, le partage, le stockage,
l’analyse et la présentation des données.
• Ainsi est né le « Big Data ». Il s’agit d’un concept permettant de
stocker un nombre indicible d’informations sur une base numérique.
• Big Data est née suite à l’évolution des technologies de gestion de
données.
• Le Big Data désigne toute quantité volumineuse de données
structurées, semi-structurées et non structurées qui a le potentiel
d'être exploité pour obtenir des informations. Les données
deviennent Big data lorsqu'elles sont difficiles à traiter à l'aide des
techniques traditionnelles.
• Big Data est la capacité de gérer un énorme volume de données, à la
bonne vitesse et dans les délais appropriés pour permettre une
analyse et une réaction en temps réel. 16
Caractéristiques des données
• Les volumes à gérer sont Hétérogènes et complexes :
• produites par des applications parfois différentes,
• par des utilisateurs différents,
• avec des liens explicites (par exemple citations, url, etc) ou
implicites (à extraire ou à apprendre).
• Nous avons besoin de nombreux serveurs :
• un serveur unique ne peut stocker cette quantité d'information,
garantir des temps d'accès pour grand nombre d'utilisateur, faire
des calculs rapides, etc.
Besoin de distribuer les calculs et les données
• comme nous avons plusieurs serveurs/clusters, donc on a besoin
d'algorithmes permettant le calcul et la distribution des données
à large échelle.
17
Modèles de données
18
Données structurées
• Modèle relationnel de données
• Une relation est une table avec des lignes et des colonnes
• Chaque relation a un schéma définissant les types de ses
colonnes
• Le schéma prédéfini est statique
19
Données semi-structurées:
fichier log
20
Données non-structurées
• Exemples:
• Post Facebook
• image Instagram
• vidéo
• Blog
• Article journal
• …
21
Caractéristiques du Big Data
Les 5V du Big Data
• Extraction d’informations et décisions à partir de données
caractérisées par les 5V:
• Volume (volume)
• Variété (variety)
• Vélocité ou Vitesse (velocity)
• Véracité ou Validité (veracity)
• Valeur (value) 22
Big
Data
Volume
Variété
Vélocité
Valeur
Véracité
Volume
• le Big Data implique d'énormes volumes de données générées
par les capteurs et les machines combiné à l’explosion d’Internet,
des médias sociaux, du commerce électronique, des appareils
GPS, etc
• Le prix de stockage de données a beaucoup diminué ces 30
dernières années:
• De 100$/Go (1980)
• À 0.10$/Go (2013)
• les lieux de stockage fiables (SAN: Storage Area Network) ou
réseaux de stockage peuvent être couteux.
Comment stocker les données dans un endroit fiable qui sont
moins cher
Comment parcourir ces données et en extraire des
informations facilement et rapidement?
23
Variété
• La plupart des données existantes sont non-structurées ou semi-
structurées.
• Certaines données peuvent paraître obsolètes mais sont utiles pour
certaines décisions.
• Ces données peuvent présenter des formes complexes du fait
qu'elles trouvent leurs origines dans :
• des capteurs divers et variés (température, vitesse du vent,
hygrométrie, tours/mn, luminosité ...),
• des messages échangés (e-mails, médias sociaux, échanges d'images, de
vidéos, musique),
• des textes, des publications en ligne (bibliothèques numériques, sites
web, blogs, ...),
• enregistrements de transactions d'achats, des plans numérisés, des
annuaires, des informations issues des téléphones mobiles, etc.
Besoin de technologies nouvelles pour analyser et recouper les
données non structurées (mails, photos, conversations…)
représentant au moins 90 % des informations collectées.
24
Variété
25
Vélocité ou Vitesse
• Rapidité d’arrivée des données
• Fait référence à l’aspect dynamique et/ou temporel des données, à
leur délai d’actualisation et d’analyse,
• les données ne sont plus traitées, analysées, en différé, mais en
temps réel ou quasi réel,
• elles sont produites en flots continus, sur lesquels des décisions en
temps réel peuvent être prises,
• Ce sont les données notamment issues de capteurs, nécessitant un
traitement rapide pour une réaction en temps réel,
• dans le cas de telles données de grande vélocité engendrant des
volumes très importants, il n’est plus possible de les stocker en l’état,
mais seulement de les analyser en flux (streaming) voire les résumer.
• Exemple
• Il ne suffit pas de savoir quel article un client a acheté ou réservé
• Il suffit de savoir que le client a passé 5mn à consulter un article dans
une boutique en ligne pour lui envoyer un email dès que cet article
est soldé.
26
Valeur
• Il faut transformer toutes les données en valeurs exploitables: les
données sans valeur sont inutiles.
• Atteindre des objectifs stratégiques de création de valeur pour les
clients et pour l’entreprise dans tous les domaines d’activité.
• Associé à l’usage qui peut être fait de ces mégadonnées, de leur
analyse, notamment d’un point de vue économique.
• L’analyse de ces mégadonnées demande une certaine expertise tant
liée à des méthodes et techniques en statistique, en analyse de
données, que de domaine pour l’interprétation de ces analyses.
• Les termes de « Data Scientist » et de « Data Science » sont liés à
cette expertise recherchée et à cette nouvelle discipline émergente.
27
Véracité ou Validité
• Cela fait référence au désordre ou la fiabilité des données.
Avec l’augmentation de la quantité, la qualité et la précision
se perdent.
• Si nous voulons du sens à partir de ces données, nous devons
d'abord les nettoyer.
• Les solutions Big Data doivent remédier à cela en se référant
au volume des données existantes.
• Nécessité d’une précision dans l’organisation de la collecte et
le croisement, enrichissement des données pour:
• Lever l’incertitude de la nature imprévisible des données.
• Créer la confiance et garantir la sécurité et l’intégrité des
données. 28
Ce que les entreprises y
gagnent
• Le Big Data permet aux organisations de stocker, gérer et
manipuler de grandes quantités de données à rapidement et
au bon moment pour obtenir les bonnes informations.
• De nombreuses entreprises expérimentent avec des
techniques qui leur permettent de collecter des quantités
massives de données pour déterminer les modèles cachés
dans ces données qui pourraient être indication précoce d’un
changement important.
• Certaines données peuvent indiquer:
• Le changement des habitudes d’achats du client.
• Apparition de nouvelles opportunités pour l’entreprise.
• Des modifications nécessaires dans le processus de production. 29
Challenges au niveau de
l’entreprise
• La croissance des données entraîne en particulier une hausse
des coûts du matériel, du logiciel, de la maintenance associée,
de l’administration et des services.
• Le Big Data exige un nouvel ensemble de compétences au sein
de l’entreprise.
• Les projets d’analyse Big Data nécessitent des équipes
multidisciplinaires, et une collaboration active doit être
engagée entre le service informatique et les data scientists.
30
Les applications du Big Data
• Big Data & Marketing prédictif : des prévisions basées sur des
données et des probabilités.
• traitement en temps réel d’un grand volume de données :
connaissance et définition des besoins et des attentes des clients
• Dans l’administration publique: des quantités extraordinaires
de données sont accumulées au cours de l'exécution des
services publics :
• La gestion des prestations d'aide sociale et de la santé publique,
• La délivrance des passeports et permis de conduire.
• La gestion des taxes et recettes …
31
Les applications du Big Data
• Blue C.R.U.S.H. (Crime Reduction Utilizing Statistical History): est
un logiciel qui prélève et rassemble avec l’aide de caméras et des
forces de police un maximum de données sur les délits qui
surviennent dans un territoire.
• Il s’agit d’envoyer les policiers dans les « hot spots »; là où la
probabilité qu’un crime survienne est la plus élevée, et ainsi arrêter
un délit avant qu’il ne se produise.
• Depuis son lancement il y a 7 ans,
• le nombre de meurtres et de cambriolages a diminué de 36% à Memphis.
• Le vol de véhicules motorisés a chuté de 55% !
• Départment de la santé et services de l’humanité.
• Améliorer l'utilisation de l'imagerie dans les recherche sur le cancer
• Département d’énergie : permettre d'obtenir des observations
précises des phénomènes atmosphériques.
32
Cycle de vie des Big Data
Génération
Stockage
Analyse
Utilisation
33

690992112-Big-Data-chap-1-introduction.pdf

  • 1.
    Big Data Chapitre 1 introductionau Big Data 1 Enseignante: Nedra Ibrahim Nedra.Ibrahim@ensi-uma.tn
  • 2.
    Plan du cours •Introduction aux Big Data • Principes Hadoop • Écosystème Hadoop • Les architectures Big Data • Bases de données NoSQL 2
  • 3.
    Faits • Chaque jour,nous générons 2.5 trillions d’octets de données • 90% des données dans le monde ont été crées au cours des deux dernières années. • 90% des données générées sont non structurées. • Sources: • Capteurs utilisés pour collecter les informations climatiques • Messages sur les médias sociaux • Images numériques et vidéos publiées en ligne • Enregistrements des transactions d’achat en ligne • Signaux GPS de téléphones mobiles • Le développement de l’IoT (Internet des objets) et la généralisation de la géolocalisation ou de l’analytique ont engendré une explosion du volume de données collectées, • … • Données appelées Big Data ou Données Massives 3
  • 4.
    Intérêts • Détecter lessentiments et réactions des clients • Détecter les conditions critiques ou potentiellement mortelles dans les hôpitaux. • Prendre des décisions risquées basées sur des données transactionnelles en tems réel. • Identifier les criminels et les menaces à partir de vidéos, sons et flux de données. • Étudier les réactions des étudiants pendant un cours, prédire ceux qui vont réussir, d’après les statistiques et modèles réunis au long des années. 4
  • 5.
    Challenges • Réunir ungrand volume de données variées pour trouver de nouvelles idées. • Capturer des données crées rapidement • Sauvegarder toutes ces données • Traiter ces données et les utiliser 5
  • 6.
    Approches traditionnelles • Appropriéespour: • Des données structurées • Opérations et processus répétitifs • Sources relativement stables • Besoins bien compris et bien cadrés 6
  • 7.
    Approche Big Datavs Approche Traditionnelle 7
  • 8.
    Approche Big Datavs Approche Traditionnelle 8
  • 9.
    Bases de donnéeset SGBDR • Une base de données est un ensemble d'informations qui est organisé dans des tables de manière à être facilement accessible, géré et mis à jour. • SGBDR: Un système de gestion de bases de données relationnelles est un logiciel permettant de partager et gérer des informations et de les stocker dans une base de données. 9
  • 10.
    SGBDR: ACID • Lesconcepts de base des SGBDR • Atomicité: une transaction s’effectue entièrement ou pas du tout • Cohérence: le contenu d’une base doit être cohérent au début et à la fin d’une transaction (mais pas forcément durant son exécution) • Isolation: les modifications d’une transaction ne sont visibles/modifiables que quand celle-ci est validée • Durabilité: une fois la transaction validée, l’état de la base est permanent • Fonctionnalités • Jointures entre les tables • Construction de requêtes complexes • Contraintes d’intégrité solides 10
  • 11.
    SGBDR: limitations • LesSGBD relationnels montrent leurs limites avec de très hauts débits de données de types incompatibles avec les schémas rigides du modèle relationnel. • Limites dans le contexte distribué: comment distribuer/partitionner les données • Liens entre entités -> Même serveur • Mais plus on a de liens, plus le placement des données est complexe • Contraintes ACID très complexes à assurer (techniques de verrouillages distribués par exemple) • Incompatible avec les performances • Limites dans le contexte du quantité et débit de données: • incapacité à gérer de très grands volumes de données à des débits extrêmes • certains types de données ne sont pas adaptés 11
  • 12.
    Entrepôts de données(data warehouse) • Un entrepôt de données Un entrepôt de données est une base de données regroupant une partie ou l'ensemble des données fonctionnelles d'une entreprise. Il entre dans le cadre de l'informatique décisionnelle ; son but est de fournir un ensemble de données servant de référence unique, utilisée pour la prise de décisions dans l'entreprise par le biais de statistiques et de rapports réalisés via des outils de reporting. 12
  • 13.
    Entrepôts de données:limites • L’entrepôt de données ne permet pas de gérer: • Le volume: les entrepôts sont conçus pour gérer des Go ou To de données alors que la croissance exponentielle des données nous conduit aux Po ou Eo • Le type (variety): plusieurs types de données: les données textuelles semi ou non structurées, • La vitesse (velocity): les données sont créées de plus en plus vite et nécessitent des traitements en temps-réel 13
  • 14.
    ACID vs BASE •Systèmes distribués modernes assurent le modèle BASE • Basically Available : une disponibilité face à une grande quantité de requêtes • Soft-state : l’état du système peut changer au cours du temps même sans nouveaux inputs (cela est du au modèle de consistence). • Eventually consistent : tous les réplicas atteignent le même état, et le système devient à un moment consistant, si on stoppe les inputs. 14 CAP Consistency (consistance/cohérence) Availability (disponibilité) Partition tolerance (distribution) CA CP AP Ex: BD relationnelles normalisées centralisée Ex: BD relationnelles distribuées Ex: Bases de données NoSQL Big Data
  • 15.
  • 16.
    Big Data • L’explosionquantitative des données numériques a obligé les chercheurs à trouver de nouvelles manières de voir et d’analyser le monde. Il s’agit de découvrir de nouveaux ordres de grandeur concernant la capture, la recherche, le partage, le stockage, l’analyse et la présentation des données. • Ainsi est né le « Big Data ». Il s’agit d’un concept permettant de stocker un nombre indicible d’informations sur une base numérique. • Big Data est née suite à l’évolution des technologies de gestion de données. • Le Big Data désigne toute quantité volumineuse de données structurées, semi-structurées et non structurées qui a le potentiel d'être exploité pour obtenir des informations. Les données deviennent Big data lorsqu'elles sont difficiles à traiter à l'aide des techniques traditionnelles. • Big Data est la capacité de gérer un énorme volume de données, à la bonne vitesse et dans les délais appropriés pour permettre une analyse et une réaction en temps réel. 16
  • 17.
    Caractéristiques des données •Les volumes à gérer sont Hétérogènes et complexes : • produites par des applications parfois différentes, • par des utilisateurs différents, • avec des liens explicites (par exemple citations, url, etc) ou implicites (à extraire ou à apprendre). • Nous avons besoin de nombreux serveurs : • un serveur unique ne peut stocker cette quantité d'information, garantir des temps d'accès pour grand nombre d'utilisateur, faire des calculs rapides, etc. Besoin de distribuer les calculs et les données • comme nous avons plusieurs serveurs/clusters, donc on a besoin d'algorithmes permettant le calcul et la distribution des données à large échelle. 17
  • 18.
  • 19.
    Données structurées • Modèlerelationnel de données • Une relation est une table avec des lignes et des colonnes • Chaque relation a un schéma définissant les types de ses colonnes • Le schéma prédéfini est statique 19
  • 20.
  • 21.
    Données non-structurées • Exemples: •Post Facebook • image Instagram • vidéo • Blog • Article journal • … 21
  • 22.
    Caractéristiques du BigData Les 5V du Big Data • Extraction d’informations et décisions à partir de données caractérisées par les 5V: • Volume (volume) • Variété (variety) • Vélocité ou Vitesse (velocity) • Véracité ou Validité (veracity) • Valeur (value) 22 Big Data Volume Variété Vélocité Valeur Véracité
  • 23.
    Volume • le BigData implique d'énormes volumes de données générées par les capteurs et les machines combiné à l’explosion d’Internet, des médias sociaux, du commerce électronique, des appareils GPS, etc • Le prix de stockage de données a beaucoup diminué ces 30 dernières années: • De 100$/Go (1980) • À 0.10$/Go (2013) • les lieux de stockage fiables (SAN: Storage Area Network) ou réseaux de stockage peuvent être couteux. Comment stocker les données dans un endroit fiable qui sont moins cher Comment parcourir ces données et en extraire des informations facilement et rapidement? 23
  • 24.
    Variété • La plupartdes données existantes sont non-structurées ou semi- structurées. • Certaines données peuvent paraître obsolètes mais sont utiles pour certaines décisions. • Ces données peuvent présenter des formes complexes du fait qu'elles trouvent leurs origines dans : • des capteurs divers et variés (température, vitesse du vent, hygrométrie, tours/mn, luminosité ...), • des messages échangés (e-mails, médias sociaux, échanges d'images, de vidéos, musique), • des textes, des publications en ligne (bibliothèques numériques, sites web, blogs, ...), • enregistrements de transactions d'achats, des plans numérisés, des annuaires, des informations issues des téléphones mobiles, etc. Besoin de technologies nouvelles pour analyser et recouper les données non structurées (mails, photos, conversations…) représentant au moins 90 % des informations collectées. 24
  • 25.
  • 26.
    Vélocité ou Vitesse •Rapidité d’arrivée des données • Fait référence à l’aspect dynamique et/ou temporel des données, à leur délai d’actualisation et d’analyse, • les données ne sont plus traitées, analysées, en différé, mais en temps réel ou quasi réel, • elles sont produites en flots continus, sur lesquels des décisions en temps réel peuvent être prises, • Ce sont les données notamment issues de capteurs, nécessitant un traitement rapide pour une réaction en temps réel, • dans le cas de telles données de grande vélocité engendrant des volumes très importants, il n’est plus possible de les stocker en l’état, mais seulement de les analyser en flux (streaming) voire les résumer. • Exemple • Il ne suffit pas de savoir quel article un client a acheté ou réservé • Il suffit de savoir que le client a passé 5mn à consulter un article dans une boutique en ligne pour lui envoyer un email dès que cet article est soldé. 26
  • 27.
    Valeur • Il fauttransformer toutes les données en valeurs exploitables: les données sans valeur sont inutiles. • Atteindre des objectifs stratégiques de création de valeur pour les clients et pour l’entreprise dans tous les domaines d’activité. • Associé à l’usage qui peut être fait de ces mégadonnées, de leur analyse, notamment d’un point de vue économique. • L’analyse de ces mégadonnées demande une certaine expertise tant liée à des méthodes et techniques en statistique, en analyse de données, que de domaine pour l’interprétation de ces analyses. • Les termes de « Data Scientist » et de « Data Science » sont liés à cette expertise recherchée et à cette nouvelle discipline émergente. 27
  • 28.
    Véracité ou Validité •Cela fait référence au désordre ou la fiabilité des données. Avec l’augmentation de la quantité, la qualité et la précision se perdent. • Si nous voulons du sens à partir de ces données, nous devons d'abord les nettoyer. • Les solutions Big Data doivent remédier à cela en se référant au volume des données existantes. • Nécessité d’une précision dans l’organisation de la collecte et le croisement, enrichissement des données pour: • Lever l’incertitude de la nature imprévisible des données. • Créer la confiance et garantir la sécurité et l’intégrité des données. 28
  • 29.
    Ce que lesentreprises y gagnent • Le Big Data permet aux organisations de stocker, gérer et manipuler de grandes quantités de données à rapidement et au bon moment pour obtenir les bonnes informations. • De nombreuses entreprises expérimentent avec des techniques qui leur permettent de collecter des quantités massives de données pour déterminer les modèles cachés dans ces données qui pourraient être indication précoce d’un changement important. • Certaines données peuvent indiquer: • Le changement des habitudes d’achats du client. • Apparition de nouvelles opportunités pour l’entreprise. • Des modifications nécessaires dans le processus de production. 29
  • 30.
    Challenges au niveaude l’entreprise • La croissance des données entraîne en particulier une hausse des coûts du matériel, du logiciel, de la maintenance associée, de l’administration et des services. • Le Big Data exige un nouvel ensemble de compétences au sein de l’entreprise. • Les projets d’analyse Big Data nécessitent des équipes multidisciplinaires, et une collaboration active doit être engagée entre le service informatique et les data scientists. 30
  • 31.
    Les applications duBig Data • Big Data & Marketing prédictif : des prévisions basées sur des données et des probabilités. • traitement en temps réel d’un grand volume de données : connaissance et définition des besoins et des attentes des clients • Dans l’administration publique: des quantités extraordinaires de données sont accumulées au cours de l'exécution des services publics : • La gestion des prestations d'aide sociale et de la santé publique, • La délivrance des passeports et permis de conduire. • La gestion des taxes et recettes … 31
  • 32.
    Les applications duBig Data • Blue C.R.U.S.H. (Crime Reduction Utilizing Statistical History): est un logiciel qui prélève et rassemble avec l’aide de caméras et des forces de police un maximum de données sur les délits qui surviennent dans un territoire. • Il s’agit d’envoyer les policiers dans les « hot spots »; là où la probabilité qu’un crime survienne est la plus élevée, et ainsi arrêter un délit avant qu’il ne se produise. • Depuis son lancement il y a 7 ans, • le nombre de meurtres et de cambriolages a diminué de 36% à Memphis. • Le vol de véhicules motorisés a chuté de 55% ! • Départment de la santé et services de l’humanité. • Améliorer l'utilisation de l'imagerie dans les recherche sur le cancer • Département d’énergie : permettre d'obtenir des observations précises des phénomènes atmosphériques. 32
  • 33.
    Cycle de viedes Big Data Génération Stockage Analyse Utilisation 33