Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

Big data

944 vues

Publié le

1-Problématique
2-Définition du Big Data
3-Big Data et 3V
4-Data wahrehouse VS Big Data
5-Domaines d’utilisations
6-Les techniques de traitement
7-Big Data et Aspect Mobile
8-Conclusion

Publié dans : Technologie
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Big data

  1. 1. Big Data
  2. 2. Plan Problématique Définition du Big Data Big Data et 3V Data wahrehouse VS Big Data Domaines d’utilisations Les techniques de traitement Conclusion Big Data et Aspect Mobile
  3. 3. Problématique • 1.8 Zettaoctets ont été produits en 2011 • 2,5 trillions d’octets de données chaque jour • 90% des données dans le monde ont été créées au cours des deux dernières années seulement.
  4. 4. …de données stockées en 2011 (*)1,8 Zo Bases de données Capteurs Puces Internet Réseaux sociaux Appareils numériques Moyens de paiement Ordinateurs RFID Mobilité …de données générées sur internet en 2010 800 Md Go Videos …de croissance des données prévue Sur la seule année 2012 48% …de croissance annuelles des données non structurées 50 à 75%
  5. 5. Problématique Ces données sont appelées Big Data ou volumes massifs de données.
  6. 6. Définition • Les big data (grosses données), parfois appelées données massives, des ensembles de données qui deviennent tellement volumineux qu'ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données ou de gestion de l'information. • Il s’agit donc d’un ensemble de technologies, d’architecture, d’outils et de procédures permettant à une organisation de très rapidement capter, traiter et analyser de larges quantités et contenus hétérogènes , structurées ,non- structurées et changeants, et d’en extraire les informations pertinentes à un coût accessible.
  7. 7. Big Data et 3V • La difficulté de traitement du « Big Data » s’explique par Leur volume, Leur velocité Et leur variété
  8. 8. Big Data et 3V • Volume  Quantité de données généré est très importante.  La taille des données détermine la valeur et le potentiel des données en cours d'examen.  Le nom «Big Data» contient un terme liée à la taille • Variété  Pas de données relationnelles traditionnelles  Les données sont brutes, semi-structurées voire non structurées  Des données complexes provenant du web, du format texte et des images . Les analyses sont d’autant plus complexes qu’elles portent de plus en plus sur les liens entre des données de natures différentes. • Velocity  La fréquence à laquelle les données sont générées, capturées et partagées.  Permet de répondre aux exigences et aux défis qui nous attendent dans le chemin de la croissance et le développement.
  9. 9. Data warehouse VS Big Data • Les environnements d’analyses Big data ne visent pas à remplacer les data warehouse traditionnels mais à les compléter • Solution big data: technologie • Data warehouse : architecture
  10. 10. Data warehouse VS Big Data DATA WAREHOUSE (BI traditionnelle) BIG DATA Sources de données essentiellement internes, connues et structurées Nombreuses sources externes Modèles de données stables Importants volumes de données non- structurées La majorité des données sont des données historiques L’analyse est faite sur des données qui restent dans leur état brut
  11. 11. Domaines d’utilisations: log files • Les fichiers journaux de serveurs Web représentent un trésor de données que les entreprises peuvent mine pour gagner une compréhension profonde des habitudes d'achat des clients, l'utilisation des médias sociaux, web publicité l'efficacité et d'autres mesures qui informent des décisions d'affaires. • Chaque clic depuis une page Web peut créer de l'ordre de 100 octets de données dans un journal de site typique. • Par conséquent, de grands sites Web de manutention des millions de visiteurs simultanés peuvent générer des centaines de gigaoctets ou même des téraoctets de grumes par jour. • Débusquer les pépites d'informations précieuses à partir de cette masse de données peut nécessiter des algorithmes très sophistiqués. • De nombreuses organisations se tournent vers les logiciels libres utilitaires trouvés dans l'écosystème Hadoop pour analyser ces Big Data. • Le choix d'un outil particulier dépend des besoins de l'analyse, l'ensemble de l'analyste de données de compétences, et le compromis entre le temps de développement et le temps d'exécution.
  12. 12. Hadoop
  13. 13. Hadoop: Qu’est ce que c’est ? o Framework Java open source . o pour le stockage et le traitement distribués de grosses volumétries de données. o Consister deux grandes parties : HDFS (Hadoop Distributed File System) MapReduce
  14. 14. HDFS(Hadoop Distributed Files System)  Un système de fichiers large ,distribué et scalable  Ou moins 10K nœuds ,100 milles de fichiers  HDFS pour stocker de très gros volumes de données sur un grand nombre de machines(nœuds).  Principe : 1. HDFS crée des blocs entre 64MB et 256MB. 2. Chaque bloc est enregistré dans un nœud (Datanode)différent du cluster 3. Répliquée plusieurs fois.
  15. 15. NameNode DataNode 1. NameNode :  s’exécute sur une machine séparée(cluster).  Contient des métadonnées.  Association entre les bloc et leurs emplacement sur data Nœuds  Moteur de réplication des blocs. 2. Data Node  Un serveur de bloc  Rapport des bloc  Faciliter les échanges des donnes entre les nœuds
  16. 16. MapReduce
  17. 17. Definition MapReduce est un cadre logiciel qui permet aux développeurs d'écrire des programmes qui traitent des quantités massives de données non structurées en parallèle sur un distribuée ...
  18. 18. Principe Consiste à découper le traitement en 2 phases : • la première phase (Map) est une étape d'ingestion et de transformation des données sous la forme de paires clé/valeur • la seconde phase (Reduce) est une étape de fusion des enregistrements par clé pour former le résultat final
  19. 19. Des langages pour faciliter les requêtes sur Hadoop 1. HIVE 2. PIG
  20. 20. Mahout 1. Définition 2. Principe
  21. 21. • Mahout est un API Java dédié aux algorithmes d’apprentissage, à savoir:  Recommandation  Clustering  Classification • Mahout supporte l’écosystème Hadoop. • Les algorithmes sont programmés sous le paradigme MapReduce
  22. 22. Principe  Bibliothèque d’apprentissage automatique.  Permet de :  Déterminer des éléments qu’un utilisateur pourra apprécier selon son comportement  Grouper des documents  Affecter automatiquement des catégories aux documents.
  23. 23. Hadoop un écosystème riche et complexé
  24. 24. Big Data et Aspect Mobile
  25. 25. Smartphones : le véritable générateur de données volumineuses • Plus de six milliards de smartphones utilisés génèrent des données massives. • Chaque utilisateur de smartphone génère environ 60 gigaoctets de données chaque année • On stocke plus de 335 exaoctets d'informations chaque année avec seuls smartphones.
  26. 26. Photo Ect… Recherche Texte appel téléphonique e-mailVidéo Stocker  Stockage des données issues des Smartphones
  27. 27. Nécessité du Stockage: Toute information peut être utile ! • Des patrons d'utilisation de smartphones ont aidé les chercheurs en Afrique déterminer où les épidémies de paludisme se produisaient et où les personnes touchées sont allés. • De cette manière, les chercheurs ont pu déterminer où distribuer les meilleurs médicaments de manière plus efficace. • Bientôt, que les appareils mobiles sont utilisés plus fréquemment pour acheter des biens et services, les informations générées seront exploités pour déterminer où vous allez faire des emplettes, quels sont vos intérêts et même quelle marque de café que vous aiment, afin que les annonceurs et les autres peuvent identifier vos besoins et les désirs. • Voilà ce qu’on appelle les réseaux de stockage intelligente - faisant usage de grand stockage de données à exploiter cette information.
  28. 28. Mobile et Big Data : les défis • Tout les données doivent être stockées quelque part • Se qui signifie:  L'industrie du stockage est dans une course pour fournir des densités plus élevées et supérieures de dispositifs de stockage de données à moindre coût  La technologie de déduplication de données devient encore plus important.
  29. 29. Conclusion • le Big Data ne représente pas une opportunité de disruption par un nouveau modèle, mais un moyen de plus en plus incontournable d’optimiser leur efficience et donc leur compétitivité.
  30. 30. Merci pour votre attention

×