DataStax Enterprise et Cas d'utilisation de Apache Cassandra

2 409 vues

Publié le

Présentation de DataStax Enterprise et de quelques cas d'utilisation de la base de données NoSQL Apache Cassandra.

Publié dans : Logiciels
0 commentaire
0 j’aime
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Nombre de vues
2 409
Sur SlideShare
Issues des intégrations
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive
  • Key Takeaway-
    Introduce the company, our incredible growth and global presence, that we are in about 25% of the FORTUNE 100, and the fact that many of the online and mobile applications you already use every day are actually built on DataStax.

    Talk Track-
    DataStax, the leading distributed database technology, delivers Apache Cassandra to the world’s most innovative companies such as Netflix, Rackspace, Pearson Education and Constant Contact. DataStax is built to be agile, always-on, and predictably scalable to any size.

    We were founded in April 2010, so we are a little over 4 years old. We are headquartered in Santa Clara, California and have offices in Austin TX, New York, London, England and Sydney Australia. We now have over 330 employees; this number will reach well over 400 by the end of our fiscal year (Jan 31 2015) and double by the end of FY16.

    Currently 25% of the Fortune 100 use us, and our success has been built on our customers success and today and we have over 500 customers worldwide, in over 40 countries. The logos you see here are ones that you are already using every day.

    These applications are all built on DataStax and Apache Cassandra.

    So how have we come so far in such a short time…..?
  • En fait la mission de DataStax est de vos libérer de ces incertitudes et vous faciliter la route sur cette nouvelle voie.
    A cette fin, nous vous offrons un DML DDL appelé CQL très proche du SQL maitrisé par vos équipes, des outils complets d’administration et de monitoring,

    So, What DataStax is doing is trying to straightened that bend in the road. We are providing things like CQL, and management tools called DevCenter and OpsCenter. DataStax Enterprise provides integration into analytics and search capabilities and we do it all within a secure environment. We also provide consultants and training courses, including free virtual training to help get you up to speed.
  • DataStax is the company that delivers Cassandra to the enterprise.

    First, we take the open source software and put it through rigorous quality assurance tests including a 1000 node scalability test.
    We certify it and provide the worlds most comprehensive support, training and consulting for Cassandra so that you can get up and running quickly.

    But that isn’t all DataStax does.

    We also build additional software features on top of DataStax including security, search, analytics as well as provide in memory capabilities that don’t come with the open source Cassandra product.
    We also provide management services to help visualize your nodes, plan your capacity and repair issues automatically.
    Finally, we also provide developer tools and drivers as well as monitoring tools. DataStax is the commercial company behind Apache Cassandra plus a whole host of additional software and services.
  • Predictive analytics

    Does this simple architecture look familiar to you? Lambda

    Nathan Marz
  • Qui nous connait parmi vous. En fait dans votre vie quotienne, vous utilisez la technologie DataStax sans le savoir : ebay pour les recommandations produit, bientot NetFlix pour visonner des films en streaming, un achat par SmartSphone grace à nouveau un service offert par un grande banque mutualiste, un échange de de message instantanée avec un service du plus gros opérateur de téléphonie en France etc… Finallement vous utilisez dans votre vie de tous les jours les différents types d’applications proposées par nos 500 clients et qui s’appuie sur notre technologie de base de données

    We are growing so fast, and in so many ways, I'm willing to bet you’ve used our technology several times in just the past few days and don’t even realize it.  Whether you did some online banking, browsed news sites, did a bit of retail shopping, filled a few prescriptions, or watched movies online -- basically, if you lived your life -- you used the kinds of applications that we power for over 400 customers, including over 20 of the Fortune 100.
  • Key Takeaway-
    Educate your customer on the Netflix use case (Personalization)

    Talk Track-
    Now that we understand the dynamics of the new radically connected world, the challenges facing businesses in keeping pace and how DataStax and Apache Cassandra can help, let’s take a look at some real live customer examples.

    Netflix is a long time user of Apache Cassandra and a loyal DataStax customer.

    In an effort to deliver an amazing personalized viewing experience for its customers, Netflix decided to introduce “profile” functionality to ensure it could capture viewing history and preferences of multiple individual users of the same Netflix account. This decision unexpectedly resulted in a 5X increase in the volume of transactions that they needed to handle on a daily basis. In real terms this represented a jump to a total of 10 million transactions per second or a staggering trillion transactions per day.

    Netflix, having tried to manage this using their Oracle RDBMS and failed, turned to Cassandra to solve the problem.

  • Key Takeaway:
    Educate your customer on the Spotify use case (Playlists). Cassandra allows Spotify to manage massive volumes of data while allowing their customers to build and find playlists without ever worrying about downtime.

    Talk Track-
    Another great use case is Spotify. Spotify uses Apache Cassandra as it’s data store for their massive product catalog of over 24 million songs. Their requirements around 100% uptime and the ability to quickly analyze massive volumes of data to empower users to create and share their own playlists.

    They replaced their PostgreSQL database for Cassandra because of its ability to deliver 100% availability of their streaming service through its multi-data center replication and no single point of failure. It’s integration with Apache Spark allows them to have real time data processing and analytics to allow their customers to find songs and build playlists.

    Ultimately, Spotify is managing over 1 billion playlists in real time, more than 40,000 requests/second handled without latency, and ensuring 100% uptime for 500+ nodes across 4000 servers in 4 data centers.
  • Key Takeaway:
    Educate your customer on the Nest use case (Internet of Things). Nest, acquired by Google, provides smart thermometers that learn from user interaction in order to provide a more personalized experience.

    Talk Track-
    Nest is a great example of a company that needed to do just that - scale for high volume, at extremely high velocity.

    Nest provides intelligent thermometers and smoke detectors for the connected home. They were recently acquired by Google for $3B, not for their thermostat, but for their data. To support this high volume of time series data, Nest chose DataStax to store and handle all interactions between the Nest mobile app and the thermometers and ensure guaranteed performance and 100% uptime, all the time.

  • Team at Credit Suisse implemented a project called Hippo, an application that enables a trader’s risk system, interacts with the trading user interface, and stores results and reports. The goals are to provide a risk system that can meet the high availability requirement traders demand, a data retention feature for regulatory compliance, an optimal trading UI for easier navigation and the ability to handle the potential growth of the portfolio data no matter the size.

    Credit Suisse uses Cassandra to enable the risk system to be available 24x7 to allow more than 600 traders around the globe to pull results of various control functions for trading activities.

    Cassandra use case
  • DataStax Enterprise et Cas d'utilisation de Apache Cassandra

    1. 1. DataStax Enterprise (DSE) et Cas d’utilisation Zenika Lyon – 09/04/15 Victor Coustenoble Ingénieur Solutions @vizanalytics
    2. 2. 2 DataStax délivre une plateforme de la base de données Apache Cassandra, conçue spécifiquement pour les besoins en Performance et Disponibilité exigés par les applications d’Internet des Objets, Web ou Mobiles, en offrant aux entreprises une base de données Sécurisée toujours disponible, qui reste Simple à administrer même pour des déploiements à grande échelle, dans un seul ou de Multiples Data Centers et dans le Cloud.
    3. 3. Aperçu Fondé en avril 2010 ~30 500+ Santa Clara, Austin, New York, London, Paris, Sydney 400+ Employés Pourcent Clients 3
    4. 4. Straightening the road RELATIONAL DATABASES CQL SQL OpsCenter / DevCenter Management tools DSE for search & analytics Integration Security Security Support, consulting & training 30 years ecosystem
    5. 5. Confidential 5 DataStax Enterprise Confiance d’utilisation Fonctionnalités d’Entreprise
    6. 6. DataStax Enterprise DataStax supporte la communauté open source et les entreprises 6 Open Source/Communauté Enterprise Software • Apache Cassandra (emploie le président du projet Apache et 80+% des commiteurs) • DataStax Community Edition • DataStax Simple OpsCenter • DataStax DevCenter • DataStax Drivers/Connecteurs • Documentation en ligne • Formation en ligne • Mailing lists et forums • DataStax Enterprise Edition • Cassandra Certifié • In-Memory • Analytique intégré (Hadoop, Spark) • Recherche intégrée (Solr) • Securité d’entreprise • DataStax OpsCenter Avancé • Services d’Administration Automatique • Support Expert • Aide et Consulting • Formation Professionnelle
    7. 7. Support Expert • Contrats de support avec des niveaux de service allant des heures de travail à un support 24x7x365 pour des applications critiques. • Couvre à la fois les environnements de production et de non-production. • Revues (health checks) régulières pour de l’assistance sur l’architecture, la conception et l’optimisation. • Services packs certifiés vous gardant à jour sur tous vos logiciels. • Support correctifs (Hot-fix) pour les situations de maintenance urgente. ©2014 DataStax Confidential. Do not distribute without consent.
    8. 8. DataStax Enterprise – Cassandra Certifié • Prêt et certifié pour les environnements de production • Processus rigoureux de certification: • Tests assurance qualité étendus • Tests de performance et de montée en charge avec des clusters de 1 000 noeuds • Validation des logiciels tiers • Résolution des défauts • Certifié pour toutes les plateformes supportés ©2014 DataStax Confidential. Do not distribute without consent. 8
    9. 9. Table In-Memory = Lecture depuis MemTable • Apporte tous les bénéfices de Cassandra à une base de données en mémoire • Simple à utiliser • Les tables en mémoire ressemblent et fonctionnent comme toute table Cassandra • Idéal pour les cas d’utilisation demandant une latence faible en lecture • Peut être combiné avec de l’analytique en mémoire pour un framework complet de processus transactionnel/analytique en mémoire • Ecritures sont durables • Amélioration de x10-x100 9
    10. 10. Securité dans Apache CassandraFONCTIONSBENEFICES Authentication Interne Gestion des ID de login et des mots de passe dans la base de données + S’assure que seuls les utilisateurs autorisés peuvent accèder à la base de données utilisant la validation interne + Simple à implémenter et facile à comprendre + Pas de courbe d’apprentissage par rapport au monde relationnel Gestion de la Permission des Objects Contrôle des accès aux objets et des actions des utilisateurs dans la base de données + Fournit un contrôle fin des utilisateurs pouvant ajouter/modifier/supprimer/lire les données + Utilisation des commandes classiques GRANT/REVOKE des systèmes relationnels + Pas de courbe d’apprentissage Encryption Client à Noeud Protége les données naviguant vers et depuis le cluster de base de données + S’assure que les données ne peuvent pas être interceptées/volées lors de l’acheminement au serveur + Les données sont sécurisées à la fois en transit vers/depuis la base de données et sur la base de données; une couverture compléte est assurée
    11. 11. Securité Avancée dans DataStax EnterpriseFONCTIONSBENEFICES Authentication externe Utilisation de systèmes de sécurité externes pour gérer la sécurité + Seuls les utilisateurs autorisés peuvent accèder à la base de données utilisant la validation externe + Utilisation des meilleurs systèmes de sécurité externes (Kerberos, LDAP, Active Directory) + Authentification unique pour tous les domaines de données Chiffrement Transparent des Données Processus de cryptage des données au repos + Protége les données sensibles au repos contre le vol et contre la lecture au niveau du système de fichier + Pas besoin de changement au niveau applicatif Audit des Données Propose des pistes d’audit pour savoir qui a fait/vu quoi et quand + Fournit aux administrateurs des pistes d’audit de tous les accès et changements + Contrôle fin pour auditer seulement ce qui est nécessaire + Utilisation de l’interface log4j pour assurer les opérations d’audit de performance et d’efficacité
    12. 12. Monitoring et Gestion d’un Cluster Cassandra • Statistiques et opérations de gestion exposées via Java Management Extensions (JMX) • Monitoring via: • L’utilitaire Cassandra nodetool • La console de gestion DataStax OpsCenter • JConsole • D’autres outils (Nagios, Munin …) ©2013 DataStax Confidential. Do not distribute without consent. 12
    13. 13. OpsCenter - La visualisation de votre Cluster Monitoring ● Visualisation des noeuds ● Métriques & Alertes * ● Activité des noeuds ● Temps Réel Opérations ● Configuration ● Opération sur les noeuds ● Opération de masse ● Re-équilibrage * ● Sauvegarde / Restauration * ● Point In Time Recovery * • Visuel, interface utilisateur Web. • Tâches d’installation, de configuration, et d’administration avec de simples clics • Support visuel des Services de Gestion Automatique DataStax • API REST permettant de scripter toutes les fonctions de OpsCenter • Fonctionne sur tout type de terminal (tablette, etc.) • Historique des métriques * • Accès sécurisé * * Seulement dans Datastax Enterprise
    14. 14. Services d’Administration Automatique dans DataStax Enterprise • Gére automatiquement une grand nombre de tâches de maintenance et de gestion • Rend l’utilisation de DataStax Enterprise plus simple • Repair service – conserve automatiquement la cohérence des données à travers le cluster • Capacity service – permet l’analyse des tendances historiques et la prévision des futurs besoins • Performance service – donne un aperçu des performances du cluster avec des objets de diagnostique pouvant être interrogés en CQL • Best Practice service – fait respecter les règles des meilleurs pratiques dans plusieurs domaines (securité, configuration, etc.) afin d’assurer une installation et une optimisation correcte • Backup Service – permet la gestion des sauvegardes/restaurations, du chiffrement, de la migration de données avec des rapports d’activité ©2013 DataStax Confidential. Do not distribute without consent. 14
    15. 15. Architecture DataStax Enterprise © 2014 DataStax, All Rights Reserved. Company Confidential DataStax • Analytics • Search • Transform Online Operational Application DataStax Cassandra Enterprise Cassandra Cluster 15
    16. 16. DataStax Enterprise - Analytique • Conçu pour faire des analyses sur des données Cassandra • Il y a 4 façons de faire de l’Analytique sur des données Cassandra: 1. Recherche 2. Analytique en mode Batch 3. Analytique en mode Batch avec des outils Externe 4. Analytique Temps Réel ©2014 DataStax Confidential. Do not distribute without consent.
    17. 17. Isolation des ressources • Besoin d’isoler les ressources pour différents cas d’utilisation ? Cassandra est fait pour ça! • Vous pouvez créer des data centers isolés, virtuels et optimisés suivant les besoins – différentes charges de travail, matériels, disponibilité, etc … • Cassandra repliquera les données pour vous – pas besoin d’ETL ©2014 DataStax Confidential. Do not distribute without consent. 17 Replication Cassandra Application Opérationnelle Analytique
    18. 18. Moteur de Recherche • Recherche sur des données Cassandra à travers une intégration forte du moteur Solr • Facettes, filtres, recherche geospatial, recherche plein texte, etc… • Opérations de recherche temps réel • Requêtes de recherche depuis CQL et l’API REST de Solr • Avantages par rapport à Solr seul: • Pas de goulot d’étranglement, le client peut lire/écrire sur tous les noeuds Solr • Partionnement et réplication des index de recherche pour la montée en charge et la disponibilité • Support Multi-DataCenter • Durabilité de la donnée (Solr manque de log, les données peuvent être perdues) 18 Replication Cassandra Application Opérationnelle Noeuds Recherche
    19. 19. Analytique Batch - Hadoop • Hadoop 1.0.4 intégré • CFS (Cassandra File System) , pas de HDFS • Pas de point unique de défaillance • Sans la complexité de Hadoop – chaque noeud est identique • Hive / Pig / Sqoop / Mahout ©2014 DataStax Confidential. Do not distribute without consent. 19 Replication Cassandra Application Opérationnelle Noeuds Hadoop
    20. 20. Analytique Batch Externe - BYOH “Bring Your Own Hadoop” Hadoop Externe Resource Manager Requête Hive • Support Hadoop 2.x • Noeud Cassandra vu comme un DataNode • Ex: Hive soumet des jobs au Job tracker qui assigne les tasks aux Task trackers installés sur les noeuds Cassandra • Certifié sur Cloudera et Hortonworks Noeuds Cassandra
    21. 21. Analytique Temps Réel - Spark • Intégration poussée avec Cassandra de Spark 1.1 • Traitement Distribué • “In-memory Map/Reduce”, multi-thread, meilleur pour les itérations • GraphX, MLLib (Machine learning), Shark (hive sql like), SparkSQL • Spark Streaming - Temps Réel • Partenariat DataStax / Databricks • x10 – x100 plus rapide que MapReduce ©2014 DataStax Confidential. Do not distribute without consent. 21 Replication Cassandra Application Opérationnelle Noeuds Spark Le SDK du « Big Data »
    22. 22. Big Data Temps Réel - Recommandation + Analytique ©2014 DataStax Confidential. Do not distribute without consent. 22 Enrichissement des Données Batch Processing Machine Learning Agrégats pré-calculésDonnées Pas d’ETL
    23. 23. Spark Use Cases 23 Load data from various sources Analytics (join, aggregate, transform, …) Sanitize, validate, normalize data Schema migration, Data conversion
    24. 24. DataStax Enterprise © 2014 DataStax, All Rights Reserved. Company Confidential OpsCenter Services Monitoring Operations Operational Application Real Time Search Real Time Analytics Batch Analytics Analytics Transformation s 24 Cassandra Cluster – Nodes Ring – Column Family Storage High Performance – Alway Available – Massive Scalability Advanced Security In-Memory Support
    25. 25. 25 Cas d’utilisation
    26. 26. Comment utilisez vous DataStax? En contrôlant votre consommation d’énergie En regardant des films en streaming En naviguant sur des sites Internet En achetant en ligne En effectuant un règlement via Smart Phone En jouant à des jeux-vidéo très connus
    27. 27. 5 Cas d’usage fréquents Messagerie Collections/ Playlists Détection de Fraude Recommandation/ Personnalisation Objets connectés/ Données de Capteurs
    28. 28. DataStax Enterprise + DW/Hadoop © 2014 DataStax, All Rights Reserved. Company Confidential Write Intensive Internet of Things - Activity logs for fraud and recommendation – Messages 28 Read Intensive Catalogue – Playlist – Recommendation – Fraud Alert – Personalization Operational Search, Dashboard and Reporting Offline Applications Historical Analysis – Complex Analytics – Self Service BI Operational Search, Dashboard and Reporting Data Warehouse Hadoop cluster Computation Engine
    29. 29. Netflix séduit ses Clients avec des Recommandations Personnalisées Leader mondial de la vidéo en streaming avec un revenu supérieur à 1.5 Milliard de $ Adapte le contenu délivré en se basant sur les données de visionnage capturées dans Cassandra Capitalisation boursière en hausse de 600% depuis 2012 L’introduction des ‘Profiles’ a poussé le débit à plus de 10M de transactions par seconde A Remplacé Oracle dans six data centers dans le monde, 100% en mode cloud Use Case: Personalization 29
    30. 30. • 80+ Clusters • 2500+ noeuds • 4 Data Centers (Régions Amazon) • > 1 Trillion transactions par jour Cassandra DataStax @ Netflix ©2014 DataStax Confidential. Do not distribute without consent. 30
    31. 31. Déploiement Cassandra chez Apple • 75 000+ noeuds • 10’s petabytes de données • Millions ops/second • Plus gros cluster à 1000+ noeuds Apple Inc.: Cassandra at Apple for Massive Scale Video From Cassandra Summit, London, December 2014
    32. 32. Spotify Translates Mood into Music by Delivering the Right Playlist for Every Moment Leading streaming music provider with over 40M+ active monthly users Empowers users to access massive database of music and create and share custom playlists Over 1 billion playlists created and managed in real time More than 40,000 requests/second handled without latency Managing 500+ nodes across 4000 servers in 4 data centers without any downtime Use Case: Playlists
    33. 33. Google Nest Revolutionizes the Thermostat Google pays $3BN for Nest, not for thermostat, but for data All interactions with customer thermostats are written to DataStax All mobile application interactions are handled by DataStax DataStax chosen for ability to handle high velocity writes in time series Use Case: Internet Of Things
    34. 34. EBay Connects 100M Customers with 400M Items; Always-On World’s largest online marketplace needed highly scalable, available and robust data store Handles fraud detection, messaging, and more with DataStax Enterprise Ensures that users get the most accurate results for their searches Stores vast amounts of data: 250 TBs (Single transactional table: 40TB!) Handles high velocity with over 6 billion writes and 5 billion reads daily 34
    35. 35. Delivers 150+ Billion Content Recommendations Per Month Serves content for largest media brands in the world: Reuters, Wall St Journal, USA Today Needed a massively scalable data store High velocity of data with 58,000 links to content per second Always-on data architecture Lost a data center during Hurricane Sandy but never went offline 35
    36. 36. Credit Suisse Benefits from Cassandra’s Resiliency Play: Cloud/On-Prem/Hybrid Public clouds not an option Key infrastructure challenges: high availability, data retention, scale and user experience Started with risk-management systems to help improve up-time Expanding into new areas A new approach—traditional databases could not meet performance needs
    37. 37. Cassandra Days Company Confidential 37
    38. 38. Merci We power the big data apps that transform business. ©2013 DataStax Confidential. Do not distribute without consent.