BIG DATA
PRÉPARÉ PAR: Karima Ghali
Génie Réseaux et Télécoms
PLAN
Définition
Pourquoi le BD?...Statistiques
Caractéristiques du Big Data
Manipulation des Big Data
D’où viennent les données?
Applications
Avantages
Risques
Perspectives
Définition
• Littéralement, les Big Data
signifient mégadonnées, grosses données ou
encore données massives. Ils désignent un
ensemble très volumineux de données qu’aucun
outil classique de gestion de base de données ou
de gestion de l’information ne peut vraiment
travailler.
Pourquoi le BD?...Statistiques
• ↗ des capacités de stockage.
• ↗ de la puissance de traitement.
• Disponibilité de divers types de données.
• IBM affirme que 90% des données stockées
aujourd'hui ont été générées au cours des deux
dernières années.
• Facebook génère 10 TB de données chaque jour.
• Twitter génère 7 TB chaque jour
Caractéristiques du Big Data
Vélocité
Variété
Volume
La quantité de données générées
est très importante; c’est la
taille de données qui
détermine la valeur et le
potentiel de ces données
et si elles peuvent être
considérées big data
ou non.
Ce terme réfère à la
vitesse de génération de
data ou à quel point cette
vitesse satisfait au
demandes et au défis du
développement actuel.
L’analyse des big data inclut différents types de données.
Big data ne sont pas que des nombres. Ce sont aussi des
données géospatiales, des données 3D, audio, vidéo et du
texte non structuré ainsi que les fichiers de journalisation.
Manipulation des Big Data
Stockage:
 Analyse de caractéristiques de data:
 Sélectionner les sources de data.
 Eliminer les données redondantes.
 Vue d’ensemble des outils de stockage:
 Modèles: Graphe, document, feuille ou classeur, valeur clé…etc.
 Le système distribué Hadoop.
Sélection:
 On choisit le bon modèle de stock selon les caractéristiques de
données. Puis on ajoute du code aux données. Ensuite, on
implémente des solutions polyglottes de stock. En fin, on adapte
les buts du business au stock de données approprié.
Traitement:
 Intégrer des stocks de données dispatchés.
 Utiliser La méthode Hadoop MapReduce.
D’où viennent les données?
Les données parviennent de ++ sources:
 Les utilisateurs: utilisation de pc quotidiennement pour
activités diverses.
 Les applications, trouvées sur tablettes et smartphones
génèrent beaucoup de données.
 Les systèmes, les entreprises comme Google, qui se base
sur Google Chrome pour donner les data en relation avec
les comportements des utilisateurs.
 Les capteurs, dans les équipements électroniques comme
les portables qui génèrent des données de localisation, de
météo...etc.
Applications (1/2)
• Soins de santé plus intelligents: données utiles
pour la prévention de maladie ou la découverte
de remèdes;
• Contrôle de trafic: gérer le trafic facilement et
efficacement pour éviter les accidents;
• Sécurité: par une prédiction plus exacte de crimes
aidant à éviter les attaques terroristes;
• Optimisation de business, illustré dans les
activités de l’entreprise postale UPS United Parcel
Service;
Applications (2/2)
 L’UPS faisait la capture et suivi d’une variété de mouvements de paquets
et de transactions dès les années 1980. La société suit maintenant les
données sur 16,3 millions de colis par jour pour 8,8 millions de clients,
avec une moyenne de 39,5 millions de demandes de suivi des clients par
jour.
 La société stocke plus de 16 pétaoctets de données. Une grande partie de
ses données récentes acquises, cependant, vient de capteurs télématiques
dans plus de 46.000 véhicules. Les données sur les paquets de camion UPS
(camions), par exemple, comprennent leur vitesse, la direction, le freinage
et les performances du train d'entraînement.
 Les données ne sont pas seulement utilisées pour surveiller les
performances quotidiennes, mais pour conduire une reconception
majeure des structures des itinéraires des pilotes UPS. Le projet a déjà
permis d'économiser en 2011 plus de 8,4 millions de gallons de carburant
en supprimant 85 millions de milles des itinéraires quotidiens.
 L'entreprise tente également d'utiliser les données et les analyses pour
optimiser l'efficacité de ses vols de 2000 avions par jour.
Avantages (1/2)
• Les big data en temps réel ne sont pas seulement un
processus de stockage des téraoctets ou des hexa
octets de données dans un stock de données. Il s'agit
de la capacité de prendre de meilleures décisions et de
prendre des mesures significatives au bon moment.
• L’utilisation des technologies comme Hadoop assure la
scalabilité et la souplesse pour stocker des données
avant de savoir comment elles seront traitées.
• Des technologies telles que MapReduce, Hive et
Impala permettent d'exécuter des requêtes sans
modifier les structures de données en dessous.
Avantages (2/2)
• Il offre des opportunités commerciales d'une échelle
comparable à l'explosion des médias sociaux
d'aujourd'hui.
• Big Data occupe déjà une place importante dans le
marché des bases de données et des analyses de
données, d'une valeur de 64 milliards de dollars.
• Une recherche récente révèle que les organisations
utilisent le big data pour cibler les résultats axés sur le
client, exploiter les données internes et construire un
meilleur écosystème d'information.
Risques
• Risque de surcharge: besoin de résoudre ce problème par
les bonnes personnes.
• Confidentialité et respect de la vie privée: données
personnelles sur les social media, caméras de surveillance,
achat sur internet, carte de fidélité au supermarché, retrait
d’argent du guichet..etc → identification inévitable
• Risque d’être manipulé: Mr tout le monde ne lit pas les
conditions générales d’utilisation!
• Sécurité des données mise en question malgré les
promesses de l’e/se de les bien conserver.
• Données de santé pouvant être exploitées par les
assurances de maladie..
Perspectives
• Potentiel du big data:
 300 milliards de dollars de valeur annuelle potentielle
pour les soins de santé aux États-Unis.
 600 milliards de dollars de surplus annuel potentiel pour
le consommateur provenant de l'utilisation de données
de localisation personnelle.
 60% du potentiel est dans les marges d'exploitation des
détaillants et des revendeurs.
 ON AVAIT BESOIN EN FIN 2015 DE PLUS DE 4.4
MILLION DE SCIENTIFIQUES SPECIALISTES EN DATA.
FIN.
MERCI

Big data

  • 1.
    BIG DATA PRÉPARÉ PAR:Karima Ghali Génie Réseaux et Télécoms
  • 2.
    PLAN Définition Pourquoi le BD?...Statistiques Caractéristiquesdu Big Data Manipulation des Big Data D’où viennent les données? Applications Avantages Risques Perspectives
  • 3.
    Définition • Littéralement, lesBig Data signifient mégadonnées, grosses données ou encore données massives. Ils désignent un ensemble très volumineux de données qu’aucun outil classique de gestion de base de données ou de gestion de l’information ne peut vraiment travailler.
  • 5.
    Pourquoi le BD?...Statistiques •↗ des capacités de stockage. • ↗ de la puissance de traitement. • Disponibilité de divers types de données. • IBM affirme que 90% des données stockées aujourd'hui ont été générées au cours des deux dernières années. • Facebook génère 10 TB de données chaque jour. • Twitter génère 7 TB chaque jour
  • 6.
    Caractéristiques du BigData Vélocité Variété Volume La quantité de données générées est très importante; c’est la taille de données qui détermine la valeur et le potentiel de ces données et si elles peuvent être considérées big data ou non. Ce terme réfère à la vitesse de génération de data ou à quel point cette vitesse satisfait au demandes et au défis du développement actuel. L’analyse des big data inclut différents types de données. Big data ne sont pas que des nombres. Ce sont aussi des données géospatiales, des données 3D, audio, vidéo et du texte non structuré ainsi que les fichiers de journalisation.
  • 7.
    Manipulation des BigData Stockage:  Analyse de caractéristiques de data:  Sélectionner les sources de data.  Eliminer les données redondantes.  Vue d’ensemble des outils de stockage:  Modèles: Graphe, document, feuille ou classeur, valeur clé…etc.  Le système distribué Hadoop. Sélection:  On choisit le bon modèle de stock selon les caractéristiques de données. Puis on ajoute du code aux données. Ensuite, on implémente des solutions polyglottes de stock. En fin, on adapte les buts du business au stock de données approprié. Traitement:  Intégrer des stocks de données dispatchés.  Utiliser La méthode Hadoop MapReduce.
  • 8.
    D’où viennent lesdonnées? Les données parviennent de ++ sources:  Les utilisateurs: utilisation de pc quotidiennement pour activités diverses.  Les applications, trouvées sur tablettes et smartphones génèrent beaucoup de données.  Les systèmes, les entreprises comme Google, qui se base sur Google Chrome pour donner les data en relation avec les comportements des utilisateurs.  Les capteurs, dans les équipements électroniques comme les portables qui génèrent des données de localisation, de météo...etc.
  • 9.
    Applications (1/2) • Soinsde santé plus intelligents: données utiles pour la prévention de maladie ou la découverte de remèdes; • Contrôle de trafic: gérer le trafic facilement et efficacement pour éviter les accidents; • Sécurité: par une prédiction plus exacte de crimes aidant à éviter les attaques terroristes; • Optimisation de business, illustré dans les activités de l’entreprise postale UPS United Parcel Service;
  • 10.
    Applications (2/2)  L’UPSfaisait la capture et suivi d’une variété de mouvements de paquets et de transactions dès les années 1980. La société suit maintenant les données sur 16,3 millions de colis par jour pour 8,8 millions de clients, avec une moyenne de 39,5 millions de demandes de suivi des clients par jour.  La société stocke plus de 16 pétaoctets de données. Une grande partie de ses données récentes acquises, cependant, vient de capteurs télématiques dans plus de 46.000 véhicules. Les données sur les paquets de camion UPS (camions), par exemple, comprennent leur vitesse, la direction, le freinage et les performances du train d'entraînement.  Les données ne sont pas seulement utilisées pour surveiller les performances quotidiennes, mais pour conduire une reconception majeure des structures des itinéraires des pilotes UPS. Le projet a déjà permis d'économiser en 2011 plus de 8,4 millions de gallons de carburant en supprimant 85 millions de milles des itinéraires quotidiens.  L'entreprise tente également d'utiliser les données et les analyses pour optimiser l'efficacité de ses vols de 2000 avions par jour.
  • 11.
    Avantages (1/2) • Lesbig data en temps réel ne sont pas seulement un processus de stockage des téraoctets ou des hexa octets de données dans un stock de données. Il s'agit de la capacité de prendre de meilleures décisions et de prendre des mesures significatives au bon moment. • L’utilisation des technologies comme Hadoop assure la scalabilité et la souplesse pour stocker des données avant de savoir comment elles seront traitées. • Des technologies telles que MapReduce, Hive et Impala permettent d'exécuter des requêtes sans modifier les structures de données en dessous.
  • 12.
    Avantages (2/2) • Iloffre des opportunités commerciales d'une échelle comparable à l'explosion des médias sociaux d'aujourd'hui. • Big Data occupe déjà une place importante dans le marché des bases de données et des analyses de données, d'une valeur de 64 milliards de dollars. • Une recherche récente révèle que les organisations utilisent le big data pour cibler les résultats axés sur le client, exploiter les données internes et construire un meilleur écosystème d'information.
  • 13.
    Risques • Risque desurcharge: besoin de résoudre ce problème par les bonnes personnes. • Confidentialité et respect de la vie privée: données personnelles sur les social media, caméras de surveillance, achat sur internet, carte de fidélité au supermarché, retrait d’argent du guichet..etc → identification inévitable • Risque d’être manipulé: Mr tout le monde ne lit pas les conditions générales d’utilisation! • Sécurité des données mise en question malgré les promesses de l’e/se de les bien conserver. • Données de santé pouvant être exploitées par les assurances de maladie..
  • 14.
    Perspectives • Potentiel dubig data:  300 milliards de dollars de valeur annuelle potentielle pour les soins de santé aux États-Unis.  600 milliards de dollars de surplus annuel potentiel pour le consommateur provenant de l'utilisation de données de localisation personnelle.  60% du potentiel est dans les marges d'exploitation des détaillants et des revendeurs.  ON AVAIT BESOIN EN FIN 2015 DE PLUS DE 4.4 MILLION DE SCIENTIFIQUES SPECIALISTES EN DATA.
  • 15.