Webinar
Degetel - DataStax
Révolution dans la gestion de la data
Du SQL au NoSQL : Pourquoi ? Différences ? Comment ça mar...
Table de matières
• Mot d’accueil
• Les nouveaux métiers dela gestion de la DATA
• Introduction
• Quand la base de données...
Mot d’accueil
Georges KLENKLE
Directeur Général
DegetelPure player de l’innovation, du digital et de la mobilité
1999
CRÉATION DE LA SOCIETÉ
400
COLLABORATEURS
36 m€
DE C...
GroupeTimeline
NoSQL Cassandra
GroupePure player de l’innovation, du digital et de la mobilité
Mobile
Web
Conseil
Cloud Computing
Transformation SI
Socia...
les nouveaux métiersde la gestion de la Data
Le big data : « c'est avant tout la capacité à extraire de l'information à
pa...
les nouveaux métiersde la gestion de la Data
- 190 000
MCKINSEY PRÉVOIT UN
DÉFICIT DE -140 000 À
-190 000 DATA SCIENTIST
D...
Introduction
Document confidentiel
10
DataStax délivre une plateforme de la base de
données Apache Cassandra, conçue
spécifiquement pou...
Document confidentiel
11
Quand la base de données
devient un problème
Document confidentiel
Qu’est ce qui change aujourd’hui ?
13
Document confidentiel
La troisième vague des bases de données
©2015 DataStax Confidential. Do not distribute without conse...
Document confidentiel
Application “classique”– ok pour les SGBDR
15
• Données sur une seule machine
• Support d’accès conc...
Document confidentiel
16
SGBDR pour le “Big Data”
OLTP ou Analytique ?
Document confidentiel
Replication: ACID ?
17
Document confidentiel
La 3ème forme normale ne scale pas
18
• Impossible de prédire les
requêtes
• Les utilisateurs ne veu...
Document confidentiel
Le partitionnement est un “cauchemar”
19
• Données stockées sur différentes machines
• Pas de jointu...
Document confidentiel
Très Haute Disponibilité ?
20
• Failover du Master … qui est responsable?
– Architectures complexes
...
Document confidentiel
Résumé des “problèmes”
21
• La montée en charge est difficile
• L’Acidité n’est pas tout le temps as...
Document confidentiel
Leçons retenues
22
• Dans la pratique la cohérence n’est pas assurée
Abandon
• Le partionnement et ...
Pourquoi Apache Cassandra
et comparaison SGBDR
Document confidentiel
Pourquoi de pas utiliser Oracle ? 
©2014 DataStax Confidential. Do not distribute without consent. ...
Apache Cassandra
Document confidentiel
Cassandra - La Base de Données Distribuée leader
Bordeaux
Paris
Marseille
C *
C *
C *C *
Toujours Di...
Document confidentiel
Apache Cassandra™
• Apache Cassandra™ = Base de données NoSQL, Open Source, Distribuée et créée
pour...
Document confidentiel
Montée en charge linéaire
Plus de données ? Ajout de noeuds
Besoin de plus de débit? Ajout de noeuds...
Document confidentiel
Cassandra @ Netflix
• 90+ Clusters
• 5000+ noeuds
• 4 Data Centres (Régions Amazon)
• > 1 Trillion t...
Document confidentiel
Nodes Down != Database Down
Datacenter Down != Database
Down
Upgrade != Database Down
Haute Disponib...
Document confidentiel
Défaillance d’un Noeud
• La défaillance d’un seul noeud ne doit pas entraîner de défaillance du syst...
Document confidentiel
Configuration en Data Center
©2014 DataStax Confidential. Do not distribute without consent. 32
Node...
Document confidentiel
Cloud & Cloud Hybride
• DataStax Enterprise et Cassandra sont disponibles en multi-data center
et da...
Document confidentiel
Exemple de déploiement
Cassandra fonctionne aussi bien pour des petits que pour des
déploiements éno...
DataStax Enterprise
Document confidentiel
Straightening the road
RELATIONAL DATABASES
CQL SQL
OpsCenter / DevCenter Management tools
DSE for s...
Document confidentiel
DataStax Enterprise
In-Memory
Option de base de données en mémoire
pour le stockage en RAM et non pl...
Document confidentiel
Le futur de DataStax Enterprise
Cas d’Utilisation
Document confidentiel
DataStax Enterprise + DataWarehouse / Hadoop
© 2014 DataStax, All
Rights Reserved.
Company
Confident...
Document confidentiel
Des clients sur tous les verticaux
Document confidentiel
Cas d’usage fréquents
Messagerie
Catalogue/
Playlists
Détection de
Fraude
Recommandation/
Personnali...
Document confidentiel
Plus d’information
• DataStax: http://www.datastax.com
• Downloads: http://www.datastax.com/download...
Questions/Réponses
Merci!
Georges KLENKLE
Directeur Général
gklenkle@degetel.com
Victor Coustenoble
Ingénieur Solutions
vi...
Prochain SlideShare
Chargement dans…5
×

Webinar Degetel DataStax

386 vues

Publié le

Webinar Degetel DataStax du 15 octobre 2015
Du SQL au NoSQL : Pourquoi ? Différences ? Comment ça marche ?

Publié dans : Logiciels
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
386
Sur SlideShare
0
Issues des intégrations
0
Intégrations
17
Actions
Partages
0
Téléchargements
2
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Webinar Degetel DataStax

  1. 1. Webinar Degetel - DataStax Révolution dans la gestion de la data Du SQL au NoSQL : Pourquoi ? Différences ? Comment ça marche ? 13/10/2015
  2. 2. Table de matières • Mot d’accueil • Les nouveaux métiers dela gestion de la DATA • Introduction • Quand la base de données devient unproblème • Pourquoi Cassandra et Comparaison SGBDR • Apache Cassandra • DataStax Enterprise • Cas d’Utilisation • Questions / Réponses
  3. 3. Mot d’accueil Georges KLENKLE Directeur Général
  4. 4. DegetelPure player de l’innovation, du digital et de la mobilité 1999 CRÉATION DE LA SOCIETÉ 400 COLLABORATEURS 36 m€ DE CHIFFRE D’AFFAIRES +100 CLIENTS ACTIFS 63% DU CA EFFECTUÉ DANS LE CAC 40 NoSQL DEPUIS 2010
  5. 5. GroupeTimeline NoSQL Cassandra
  6. 6. GroupePure player de l’innovation, du digital et de la mobilité Mobile Web Conseil Cloud Computing Transformation SI Social media Design IOT Big data Nos partenaires Nos métiers
  7. 7. les nouveaux métiersde la gestion de la Data Le big data : « c'est avant tout la capacité à extraire de l'information à partir de données non structurées ». Jean-Charles Cointot et Yves Eychenne, La Revolution Big Data Aujourd’hui l'enjeu n’est plus d’extraire les données, mais consiste à transformer ces informations en actions, comme le lancement d'un nouveau produit ou le développement de nouveaux services. L’incidence est une mutation des métiers du Big data et Degetel s’y inscrit en recrutant les meilleurs profils de ces nouveaux métiers : • Data scientist • Chief data officer • Data protection officer • Master data manager • Chief Marketing Technologist
  8. 8. les nouveaux métiersde la gestion de la Data - 190 000 MCKINSEY PRÉVOIT UN DÉFICIT DE -140 000 À -190 000 DATA SCIENTIST D’ICI 2018 AUX ETATS UNIS 137 000 EMPLOIS EN FRANCE GRÂCE AU BIG DATA À L’HORIZON 2020 (src:economie.gouv.fr) 27% SELON GARTNER 27% DES ORGANISATIONS AURONT UN CHIEF DATA OFFICER EN 2017 3 chiffres clés à horizon 2020 :
  9. 9. Introduction
  10. 10. Document confidentiel 10 DataStax délivre une plateforme de la base de données Apache Cassandra, conçue spécifiquement pour les besoins en Performance et Disponibilité exigés par les applications d’Internet des Objets, Web ou Mobiles, en offrant aux entreprises une base de données Sécurisée toujours disponible, qui reste Simple à administrer même pour des déploiements à grande échelle, dans un seul ou de Multiples Data Centers et dans le Cloud.
  11. 11. Document confidentiel 11
  12. 12. Quand la base de données devient un problème
  13. 13. Document confidentiel Qu’est ce qui change aujourd’hui ? 13
  14. 14. Document confidentiel La troisième vague des bases de données ©2015 DataStax Confidential. Do not distribute without consent.
  15. 15. Document confidentiel Application “classique”– ok pour les SGBDR 15 • Données sur une seule machine • Support d’accès concurrents • ACID rend le travail confortable • Scalabilité verticale
  16. 16. Document confidentiel 16 SGBDR pour le “Big Data” OLTP ou Analytique ?
  17. 17. Document confidentiel Replication: ACID ? 17
  18. 18. Document confidentiel La 3ème forme normale ne scale pas 18 • Impossible de prédire les requêtes • Les utilisateurs ne veulent plus attendre • Les données doivent être dénormalisées • Si les données ne tiennent pas en mémoire… • Les recherches sur disques sont coûteuses (SELECT CONCAT(city_name,', ',region) value, latitude, longitude, id, population, ( 3959 * acos( cos( radians($latitude) ) * cos( radians( latitude ) ) * cos( radians( longitude ) - radians($longitude) ) + sin( radians($latitude) ) * sin( radians( latitude ) ) ) ) AS distance, CASE region WHEN '$region' THEN 1 ELSE 0 END AS region_match FROM `cities` $where and foo_count > 5 ORDER BY region_match desc, foo_count desc limit 0, 11) UNION (SELECT CONCAT(city_name,', ',region) value, latitude, longitude, id, population, ( 3959 * acos( cos( radians($latitude) ) * cos( radians( latitude ) ) * cos( radians( longitude ) - radians($longitude) ) + sin( radians($latitude) ) * sin( radians( latitude ) ) ) ) AS distance, CASE region WHEN '$region' THEN 1 ELSE 0 END AS region_match FROM `cities` $where ORDER BY region_match desc, population desc, distance asc limit 0, 11) limit 0, 11;
  19. 19. Document confidentiel Le partitionnement est un “cauchemar” 19 • Données stockées sur différentes machines • Pas de jointures, pas d’agrégats • Tout est dénormalisé • Requêtage via un index secondaire doit taper sur toutes les partitions • Ajouter des partitions demande un déplacement de données • Changement de schema
  20. 20. Document confidentiel Très Haute Disponibilité ? 20 • Failover du Master … qui est responsable? – Architectures complexes – “Bricolage” du code • Compléxité du Multi-Data Center • Arrêt de services fréquents • Changement des settings de la base de données – Défaillance des disques … – Mises à jour OS et logiciel …
  21. 21. Document confidentiel Résumé des “problèmes” 21 • La montée en charge est difficile • L’Acidité n’est pas tout le temps assurée • Le re-partionnement est un processus manuel • Il faut dénormaliser pour les performances • La très haute disponible est complexe et demande des composants additionnels
  22. 22. Document confidentiel Leçons retenues 22 • Dans la pratique la cohérence n’est pas assurée Abandon • Le partionnement et le re-balancing sont difficiles Réalisé et Intégré • Chacune des parties rend le système plus complexe Architecture Simplifiée – pas de Maître/Esclave • La scalabilité verticale coûte chère “Commodity Hardware” • Scatter / gather no good Dernomalisation pour les performances Requête sur 1 seule machine
  23. 23. Pourquoi Apache Cassandra et comparaison SGBDR
  24. 24. Document confidentiel Pourquoi de pas utiliser Oracle ?  ©2014 DataStax Confidential. Do not distribute without consent. 24 Versus
  25. 25. Apache Cassandra
  26. 26. Document confidentiel Cassandra - La Base de Données Distribuée leader Bordeaux Paris Marseille C * C * C *C * Toujours Disponible Distribution géographique Performance reconnue Extensibilité prédictible Simplicité Opérationnelle Séries Temporelles 26
  27. 27. Document confidentiel Apache Cassandra™ • Apache Cassandra™ = Base de données NoSQL, Open Source, Distribuée et créée pour les applications en ligne, modernes, critiques et avec des montée en charge massive. • Java, hybride entre Amazon Dynamo et Google BigTable • Sans Maître-Esclave, sans Point Unique de Défaillance (Single Point Of Failure) • Distribuée avec la possibilité de Centres de Données (Data Center) • 100% Disponible • Massivement scalable • Montée en charge linéaire • Haute Performance • Simple à Exploiter ©2014 DataStax Confidential. Do not distribute without consent. 27 Dynamo BigTable BigTable: http://research.google.com/archive/bigtable-osdi06.pdf Dynamo: http://www.allthingsdistributed.com/files/amazon-dynamo-sosp2007.pdf Node 1 Node 2 Node 3Node 4 Node 5
  28. 28. Document confidentiel Montée en charge linéaire Plus de données ? Ajout de noeuds Besoin de plus de débit? Ajout de noeuds http://techblog.netflix.com/2011/11/benchmarking-cassandra-scalability-on.html
  29. 29. Document confidentiel Cassandra @ Netflix • 90+ Clusters • 5000+ noeuds • 4 Data Centres (Régions Amazon) • > 1 Trillion transactions par jour http://planetcassandra.org/functional-use-cases/ Exemple de Montée en Charge ©2014 DataStax Confidential. Do not distribute without consent. 29 Utilisation • Films regardés? • Qu’avez vous regardé avant et après? • Où vous avez fait pause? • Qu’est ce que vous avez arrêté après 5 minutes? • ….
  30. 30. Document confidentiel Nodes Down != Database Down Datacenter Down != Database Down Upgrade != Database Down Haute Disponibilité
  31. 31. Document confidentiel Défaillance d’un Noeud • La défaillance d’un seul noeud ne doit pas entraîner de défaillance du système • Facteur de Réplication + Niveau de Cohérence = Succès • Exemple: – RF = 3 – CL = QUORUM ©2014 DataStax Confidential. Do not distribute without consent. 31 Node 1 1st copy Node 4 Node 5 Node 2 2nd copy Node 3 3rd copy Parallel Write Write CL=QUORUM 5 μs ack 12 μs ack 12 μs ack >51% de réponses – donc la requête est réussie
  32. 32. Document confidentiel Configuration en Data Center ©2014 DataStax Confidential. Do not distribute without consent. 32 Node 1 1st copy Node 4 Node 5 Node 2 2nd copy Node 3 3rd copy Node 1 1st copy Node 4 Node 5 Node 2 2nd copy Node 3 3rd copy DC: EUROPEDC: USA • Actif partout – lecture/écriture dans tous les DC • Le client écrit localement dans un DC • Données synchronisées à travers le WAN • Facteur de Réplication par DC Utilisations • DC de sauvegarde • Distribution géographique • Charge différente entre DC • Prod -> Pré-prod
  33. 33. Document confidentiel Cloud & Cloud Hybride • DataStax Enterprise et Cassandra sont disponibles en multi-data center et dans le cloud (Amazon AWS, Google Cloud et Microsoft Azure) • Les données écrites dans n’importe quel noeud sont aussi automatiquement et de manière transparente écrites sur tous les autres noeuds dans les autres data centers sans ETL Data Centre 1 Data Centre 2 Public Cloud
  34. 34. Document confidentiel Exemple de déploiement Cassandra fonctionne aussi bien pour des petits que pour des déploiements énormes! Déploiement Cassandra chez Apple • 75 000+ noeuds • 10’s petabytes de données • Millions ops/second • Plus gros cluster à 1000+ noeuds Apple Inc.: Cassandra at Apple for Massive Scale Video https://www.youtube.com/watch?v=Bc4ql9TDzyg From Cassandra Summit, London, December 2014
  35. 35. DataStax Enterprise
  36. 36. Document confidentiel Straightening the road RELATIONAL DATABASES CQL SQL OpsCenter / DevCenter Management tools DSE for search & analytics Integration Security Security Support, consulting & training 30 years ecosystem
  37. 37. Document confidentiel DataStax Enterprise In-Memory Option de base de données en mémoire pour le stockage en RAM et non plus sur disque de certaines données pour un accès encore plus rapide. Search Fonctionnaliés de recherche sur des données Cassandra via Apache Solr. Fonctionnalités avancées et performante sur de gros volumes. Analytics Intégration de frameworks analytiques tels que Spark et Hadoop pour des analyses temps-réel ou en mode batch. Support Support 24x7 avec des hot-fixes et des revues de performance. Visual Admin Un outil visuel “DataStax OpsCenter” pour la supervision et l’administration d’un cluster Cassandra et DataStax. Management Services Services d’administration automatique et suivi des performances. Cassandra Certified Une version de Apache Cassandra certifiée, supportée et prête pour l’entreprise. Security Fonctionalités de sécurité d’entreprise comme le chiffrement des données sur disques, des traces d’audit et une authentification externe via Kerberos, LDAP/Active Directory Puissance pour le Développement Robustesse et Support pour la Production
  38. 38. Document confidentiel Le futur de DataStax Enterprise
  39. 39. Cas d’Utilisation
  40. 40. Document confidentiel DataStax Enterprise + DataWarehouse / Hadoop © 2014 DataStax, All Rights Reserved. Company Confidential Write Intensive Internet of Things - Activity logs for fraud and recommendation – Messages 40 Read Intensive Catalogue – Playlist – Recommendation – Fraud Alert – Personalization Operational Search, Dashboard and Reporting Offline Applications Historical Analysis - OLAP - Complex Analytics – Self Service BI Operational Search, Dashboard and Reporting Data Warehouse Hadoop cluster Computation Engine Multidimensional Cube
  41. 41. Document confidentiel Des clients sur tous les verticaux
  42. 42. Document confidentiel Cas d’usage fréquents Messagerie Catalogue/ Playlists Détection de Fraude Recommandation/ Personnalisation Objets connectés/ Données de Capteurs
  43. 43. Document confidentiel Plus d’information • DataStax: http://www.datastax.com • Downloads: http://www.datastax.com/download • Documentation: http://www.datastax.com/docs • Developer Blog: http://www.datastax.com/dev/blog • Academy: https://academy.datastax.com/ • Community Site: http://planetcassandra.org ©2014 DataStax Confidential. Do not distribute without consent.
  44. 44. Questions/Réponses Merci! Georges KLENKLE Directeur Général gklenkle@degetel.com Victor Coustenoble Ingénieur Solutions victor.coustenoble@datastax.com

×