DataStax Enterprise BBL

DataStax Enterprise
Apache Solr, Apache Spark, Graph
BBL / 21 janvier 2016 / Voyages-SNCF
Victor Coustenoble Ingénieur Solutions
victor.coustenoble@datastax.com
@vizanalytics

RELATIONAL DATABASES
CQL SQL
OpsCenter / DevCenter Management tools
DSE for search & analytics Integration
Security Security
Support, consulting & training 30 years ecosystem

3
DataStax Enterprise (DSE)
Robustesse et Support
pour la Production
Solution d’Entreprise
Puissance pour le
Développement
Workloads différents
Une plateforme de base de données Opérationnelle

In-Memory
Option de base de données en mémoire pour le
stockage en RAM et non plus sur disque de
certaines données pour un accès encore plus
rapide.
Support
Support 24x7 avec
des hot-fixes et des
revues de
performance.
Visual Admin
Un outil visuel “OpsCenter” pour la
supervision et l’administration d’un
cluster DataStax.
Management Services
Services d’administration
automatique (repair, backup,
alertes, ….) et suivi des
performances.
Cassandra Certified
Une version de Apache
Cassandra certifiée,
supportée et prête pour
l’entreprise.
Security
Fonctionalités de sécurité
d’entreprise comme le
chiffrement des données sur
disques, des traces d’audit et
une authentification externe
via Kerberos, LDAP/Active
Directory
DataStax Enterprise (DSE)

©2015 DataStax. Do not distribute without consent. 5
Recherche Intégrée
• Recherche sur des données Cassandra à travers une
intégration forte des moteurs Solr et Lucene
• Facettes, filtres, recherche geospatial, recherche plein texte,
jointures, etc…
• Opérations de recherche et d’indexation temps réel
• Requêtes de recherche depuis CQL et l’API REST de Solr
• Index Solr distribués et répliqués, architecture Masterless

Analytique et Transformation de données
• Intégration poussée avec Cassandra de Apache Spark
• Spark = Traitement Distribué : “In-memory Map/Reduce”, multi-thread …
• GraphX, MLLib (Machine learning), SparkSQL, Spark Streaming, SparkR
• Serveur Spark JDBC – Spark Job Server
• Intégration de Solr
• Partenariat DataStax / Databricks

C*
C*
C*C*
Spark Executor
C* Java Driver
Spark-Cassandra Connector
User Application
Cassandra
Connecteur Spark Cassandra
• Lecture / Ecriture de données Cassandra depuis Spark
• Mapping entre tables Cassandra et RDD / DataFrame
• Data Locality
• Mapping entre partitions Spark et partitions Cassandra
• Conversion des types
• API Scala, Java et Python

8
Load data from various
sources
Analytics (join, aggregate, transform, …)
Sanitize, validate, normalize data
Schema migration,
Data conversion
Cas d’utilisation

©2014 DataStax Confidential. Do not distribute without consent. 9
Enrichissement des Données
Batch Processing
Machine Learning
Agrégats pré-calculésDonnées
Sans ETL
Traitement Temps-réel ou Batch

No ETL
Isolation des workload

Confidential 11
Architecture SMACK
Spark
Mesos
Akka
Cassandra
Kafka

Confidential 12
Exemple d’architecture SMACK
Source : http://www.natalinobusa.com/2015/11/why-is-smack-stack-all-rage-lately.html

Le Futur de DataStax Enterprise
13

Base de données Graphe ?
©2015 DataStax



 



DataStax
DataBricks
Spark
DSE
CassandraJonathan Ellis
Robin
Schumacher
Billy
Bosworth
worksFor
title: VP Product
develops
uses
uses
reportsTo
worksFor
title: CTO
worksFor
title: CEO

RDBMS vs. Graph DB
SELECT TOP (5) [t14].[ProductName]
FROM (SELECT COUNT(*) AS [value],
[t13].[ProductName]
FROM [customers] AS [t0]
CROSS APPLY (SELECT [t9].[ProductName]
FROM [orders] AS [t1]
CROSS JOIN [order details] AS [t2]
INNER JOIN [products] AS [t3]
ON [t3].[ProductID] = [t2].[ProductID]
INNER JOIN [orders] AS [t5]
ON [t5].[OrderID] = [t4].[OrderID]
LEFT JOIN [customers] AS [t6]
ON [t6].[CustomerID] = [t5].[CustomerID]
CROSS JOIN ([orders] AS [t7]
ON [t9].[ProductID] = [t8].[ProductID])
WHERE NOT EXISTS(SELECT NULL AS [EMPTY]
FROM [orders] AS [t10]
ON [t12].[ProductID] = [t11].[ProductID]
WHERE [t9].[ProductID] = [t12].[ProductID]
AND [t10].[CustomerID] = [t0].[CustomerID]
AND [t11].[OrderID] = [t10].[OrderID])
AND [t6].[CustomerID] <> [t0].[CustomerID]
AND [t2].[OrderID] = [t1].[OrderID]
AND [t4].[ProductID] = [t3].[ProductID]
AND [t8].[OrderID] = [t7].[OrderID]) AS [t13]
WHERE [t0].[CustomerID] = N'ALFKI'
GROUP BY [t13].[ProductName]) AS [t14]
ORDER BY [t14].[value] DESC
g.V('customerId','ALFKI').as('customer')
.out('ordered').out('contains').out('is').as('products')
.in('is').in('contains').in('ordered').except('customer')
.out('ordered').out('contains').out('is').except('products')
.groupCount().cap().orderMap(T.decr)[0..<5].productNa
me
VS.

Cas d’utilisation et pourquoi ?
Company Confidential 16
Meilleur réponse pour les applications avec des données
hautement connectés (Réseaux électriques, réseaux sociaux …)

Multi-Modèle dans DataStax Enterprise
17
Transactions Analytics Search
Mixed Workload Needed?
Solved in DSE
Wide Row Graph JSON
Mixed Model Needed?
Solved in DSE
DSE
Analytics
Search
Transactions
DSE
Wide Row
JSON
Graph

DataStax Enterprise Graph
“DSE Graph est une solution de base de données graphe scalable pour les
applications Web et Mobiles avec des besoins de gérer des données
hautement connectés”
Origine : Projet Open Source Titan
DSE Graph est intégré dans DSE:
• Intégration forte dans Cassandra
• OLAP et analyse Graph avec Apache Spark
• OLTP avec support de Apache Solr pour la recherche
• Supervision depuis OpsCenter
• Pas de besoin de noeuds ou clusters additionnels
• Pas de processus externe, même JVM
• Utilisation et Support du framework TinkerPop

Apache TinkerPop
Company Confidential 19
Open Source Graph Computing Framework
• TinkerPop améne des briques et
capacités de calcul pour les bases de
données graphes (OLTP) et les
systèmes analytiques de graph (OLAP)
• DataStax utilise TinkerPop dans DSE
Graph
• DataStax va fortement contribuer à la
communauté TinkerPop et va investir
dans le langage Gremlin
• DataStax va fournir des ressources,
documentation, exemples, formation ...

Plus d’information
• DataStax: http://www.datastax.com
• Downloads: http://www.datastax.com/download
• Documentation: http://www.datastax.com/docs
• Developer Blog: http://www.datastax.com/dev/blog
• Academy: https://academy.datastax.com
• Community Site: http://planetcassandra.org

We power the big data apps
that transform business.
Merci

DataStax Enterprise BBL

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (20)

Similaire à DataStax Enterprise BBL

Similaire à DataStax Enterprise BBL (20)

DataStax Enterprise BBL