SlideShare une entreprise Scribd logo
Comment maîtriser le flux de données IoT avec
Cassandra et Spark ?
Petit Déjeuner IoT - 19 novembre 2015
Victor Coustenoble Ingénieur Solutions
victor.coustenoble@datastax.com
@vizanalytics
Agenda
Confidential 2
• DataStax
• Apache Cassandra
• Pourquoi Cassandra et Spark ?
• Architectures
• Bristish Gas et Cas clients
3
Un nouveau monde connecté a besoin
d’un nouveau SGBDR
©2015 DataStax. Do not distribute without consent. 4
“The Internet of Everything”
Client-Server
Isolated
SocialMobileCloud
Mainframe
1970’s
1990’s
Today
IBM
ORACLE
Semi-Connected Radically Connected
DATASTAX
Distributed
Qu’est-ce qui est différent aujourd’hui ?
©2015 DataStax. Do not distribute without consent. 5
Qu’est-ce qu’une application IoT attend
d’une base de données ?
©2015 DataStax. Do not distribute without consent. 6
Haute Disponibilité
Montée en
charge
Securité
Prédictible
Coût maîtrisé
Multiple Data Centers
Performance
7
La réponse : DataStax Enterprise (DSE)
Robustesse et Support
pour la Production
Solution d’Entreprise
Puissance pour le
Développement
Workloads différents
Une plateforme de base de données Opérationnelle
Apache Cassandra – La Base de Données Distribuée
Bordeaux
Paris
Marseille
C *
C *
C *C *
Toujours Disponible
Distribution géographique
Performance reconnue
Extensibilité prédictible
Simplicité Opérationnelle
Séries Temporelles
8
Apache Cassandra
©2015 DataStax. Do not distribute without consent. 9
Totalement Distribuée
• Données partagées et répliquées entre les noeuds
• Tous les noeuds du cluster participent
• Tous les noeuds sont égaux
• Pas de Point Unique de Défaillance (SPOF)
©2015 DataStax. Do not distribute without consent. 10
Montée en charge linéaire
• Plus de données ? Ajoutez des noeuds
• Plus de débits ? Ajoutez des noeuds
http://techblog.netflix.com/2011/11/benchmarking-cassandra-scalability-on.html
Apache Cassandra
©2015 DataStax. Do not distribute without consent. 11
Tolérant à la panne
• Noeud tombé != Base de données arrêtée
• Data Center en panne != Base de données arrêtée
• Mise à jour != Base de données arrêtée
Apache Cassandra
©2015 DataStax. Do not distribute without consent. 12
Multi Data Center
• Complétement Répliqué
• Ecriture locale des clients
• Synchronisation des données via WAN
• Facteur de Réplication par DC
Apache Cassandra
Data Model & Cassandra Query Language (CQL)
©2015 DataStax. Do not distribute without consent. 13
Un langage simple et familier avec les
commandes classiques
CREATE / DROP / ALTER TABLE
SELECT / INSERT / UPDATE
Et bien plus …
CREATE TABLE temperature (
weatherstation_id text,
event_time timestamp,
temperature text,
PRIMARY KEY(weatherstation_id,event_time)
);
INSERT INTO temperature(weatherstation_id,event_time,temperature)
VALUES ('1234ABCD','2013-04-03 07:01:00','72F');
INSERT INTO temperature(weatherstation_id,event_time,temperature)
VALUES ('1234ABCD','2013-04-03 07:02:00','73F');
SELECT temperature
FROM temperature
WHERE weatherstation_id='1234ABCD'
AND event_time > '2013-04-03 07:01:00'
Format Clé/Colonne Série Temporelle
©2015 DataStax. Do not distribute without consent. 14
Administration du Cluster - OpsCenter
• Interface Visuel avec des API REST
• Installation, configuration et administration
• Supervision et Alertes
• Support des Services d’Administration Automatiques DataStax
• Contrôle des accès
©2015 DataStax. Do not distribute without consent. 15
Recherche Intégrée
• Intégration du moteur de recherche d’entreprise Apache Solr
• Opérations de recherche distribués, scalables et
continuellement disponibles
• Recherche plein texte, multicritère et geospatiale sur des
données Cassandra
©2015 DataStax. Do not distribute without consent. 16
Analytique et Transformation de données
• Spark = Framework de calcul distribué, plus rapide que Hadoop
• Transformation et Analytique sur des données Cassandra en Temp-Réel
ou en mode Batch
• Streaming intégré
• Isolation des ressources, multi-data center
• SparkSQL, Spark Streaming, GraphX, MLlib, SparkR, Spark JDBC server
Cas d’utilisation Spark
Load data from various
sources
Analytics (join, aggregate, transform, …)
Sanitize, validate, normalize data
Schema migration,
Data conversion
©2015 DataStax. Do not distribute without consent. 18
©2015 DataStax. Do not distribute without consent. 19
©2015 DataStax. Do not distribute without consent. 20
Analytique Batch ou Temps-Réel
©2014 DataStax Confidential. Do not distribute without consent. 21
Enrichissement ou Alerte
Batch Processing
Machine Learning
Agrégats
pré-calculés Pas
d’ETL
Confidential 22
SMACK Architecture
Spark
Mesos
Akka
Cassandra
Kafka
Archivage
British Gas Tackles Internet-of-Things with DataStax
Connected Homes, a new business unit, handles IoT-based customer systems
Provides remote control over thermostats and boilers via smart phones/tablets
Delivers analytics on energy usage to customers
Will be using predictive analysis to forecast things like boiler failures
Uses DataStax Enterprise for transactional data consumption and real-time
analytics
©2015 DataStax. Do not distribute without consent. 24
©2015 DataStax. Do not distribute without consent. 25
©2015 DataStax. Do not distribute without consent. 26
©2015 DataStax. Do not distribute without consent. 27
©2015 DataStax. Do not distribute without consent. 28
©2015 DataStax. Do not distribute without consent.
British Gaz & Spark
Data Streaming
End 2015:
• Hive Home -> 200k users •~ 15000 messages / s
• Connected boilers -> 25k users •~ 2500 messages / s
• Live Energy -> 50k users •~ 8500 messages / s
Spark Use cases
Data storage : Spark Streaming from queue
Data processing : Transformations and Joins
Data analytics : Data science productionising
©2015 DataStax. Do not distribute without consent. 30
i2O Conserves 200M Liters of Water
Per Day With Cassandra
The Smart Way to Manage Sensors for Energy
and Cost Savings - Thousands of sensors on
rooftop machines in commercial buildings
Google Nest Revolutionizes the Thermostat -
DataStax chosen for ability to handle high
velocity writes in time series
From Millions to Billions of Connected
Devices, Aeris Uses Cassandra to Scale
Wattgo Engages Utility Customers with
Personalized Smart Energy Analytics
Coordination System for 1 to
millions containers
©2015 DataStax. Do not distribute without consent. 32
We power the big data apps
that transform business.
Merci

Contenu connexe

Tendances

DataStax Enterprise et Cas d'utilisation de Apache Cassandra
DataStax Enterprise et Cas d'utilisation de Apache CassandraDataStax Enterprise et Cas d'utilisation de Apache Cassandra
DataStax Enterprise et Cas d'utilisation de Apache Cassandra
Victor Coustenoble
 
Azure Data Lake, le big data 2.0 (Global Azure Bootcamp Paris 2017)
Azure Data Lake, le big data 2.0 (Global Azure Bootcamp Paris 2017)Azure Data Lake, le big data 2.0 (Global Azure Bootcamp Paris 2017)
Azure Data Lake, le big data 2.0 (Global Azure Bootcamp Paris 2017)
Jean-Pierre Riehl
 
SQL Saturday Paris 2015 - Polybase
SQL Saturday Paris 2015 - PolybaseSQL Saturday Paris 2015 - Polybase
SQL Saturday Paris 2015 - Polybase
Romain Casteres
 
Datastax Cassandra + Spark Streaming
Datastax Cassandra + Spark StreamingDatastax Cassandra + Spark Streaming
Datastax Cassandra + Spark Streaming
Victor Coustenoble
 
Webinar Degetel DataStax
Webinar Degetel DataStaxWebinar Degetel DataStax
Webinar Degetel DataStax
Victor Coustenoble
 
[JSS2015] Azure SQL Data Warehouse - Azure Data Lake
[JSS2015] Azure SQL Data Warehouse - Azure Data Lake[JSS2015] Azure SQL Data Warehouse - Azure Data Lake
[JSS2015] Azure SQL Data Warehouse - Azure Data Lake
GUSS
 
Spark tools by Jonathan Winandy
Spark tools by Jonathan WinandySpark tools by Jonathan Winandy
Spark tools by Jonathan Winandy
Paris Data Engineers !
 
[USI] Lambda-Architecture : comment réconcilier BigData et temps-réel
[USI] Lambda-Architecture : comment réconcilier BigData et temps-réel[USI] Lambda-Architecture : comment réconcilier BigData et temps-réel
[USI] Lambda-Architecture : comment réconcilier BigData et temps-réel
Mathieu DESPRIEE
 
Cartographie du big data
Cartographie du big dataCartographie du big data
Cartographie du big data
acogoluegnes
 
Apache Kafka, Un système distribué de messagerie hautement performant
Apache Kafka, Un système distribué de messagerie hautement performantApache Kafka, Un système distribué de messagerie hautement performant
Apache Kafka, Un système distribué de messagerie hautement performant
ALTIC Altic
 
DataStax Enterprise - Cas d'usage
DataStax Enterprise - Cas d'usageDataStax Enterprise - Cas d'usage
DataStax Enterprise - Cas d'usage
Claude-Alain Glauser
 
Introduction à Apache Cassandra — IppEvent chez OVH 2017-03-02
Introduction à Apache Cassandra — IppEvent chez OVH 2017-03-02Introduction à Apache Cassandra — IppEvent chez OVH 2017-03-02
Introduction à Apache Cassandra — IppEvent chez OVH 2017-03-02
Jérôme Mainaud
 
Azure Camp 9 Décembre - slides session développeurs webmedia
Azure Camp 9 Décembre - slides session développeurs webmediaAzure Camp 9 Décembre - slides session développeurs webmedia
Azure Camp 9 Décembre - slides session développeurs webmedia
Microsoft
 
Delta Lake, un vernis pour parquet
Delta Lake, un vernis pour parquetDelta Lake, un vernis pour parquet
Delta Lake, un vernis pour parquet
Alban Phélip
 
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big DataAzure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Microsoft
 
BlueData EPIC datasheet (en Français)
BlueData EPIC datasheet (en Français)BlueData EPIC datasheet (en Français)
BlueData EPIC datasheet (en Français)
BlueData, Inc.
 
HUG France - 20160114 industrialisation_process_big_data CanalPlus
HUG France -  20160114 industrialisation_process_big_data CanalPlusHUG France -  20160114 industrialisation_process_big_data CanalPlus
HUG France - 20160114 industrialisation_process_big_data CanalPlus
Modern Data Stack France
 
Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...
Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...
Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...
DataStax
 
Apache Cassandra - Concepts et fonctionnalités
Apache Cassandra - Concepts et fonctionnalitésApache Cassandra - Concepts et fonctionnalités
Apache Cassandra - Concepts et fonctionnalités
Romain Hardouin
 
Sahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStackSahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStack
ALTIC Altic
 

Tendances (20)

DataStax Enterprise et Cas d'utilisation de Apache Cassandra
DataStax Enterprise et Cas d'utilisation de Apache CassandraDataStax Enterprise et Cas d'utilisation de Apache Cassandra
DataStax Enterprise et Cas d'utilisation de Apache Cassandra
 
Azure Data Lake, le big data 2.0 (Global Azure Bootcamp Paris 2017)
Azure Data Lake, le big data 2.0 (Global Azure Bootcamp Paris 2017)Azure Data Lake, le big data 2.0 (Global Azure Bootcamp Paris 2017)
Azure Data Lake, le big data 2.0 (Global Azure Bootcamp Paris 2017)
 
SQL Saturday Paris 2015 - Polybase
SQL Saturday Paris 2015 - PolybaseSQL Saturday Paris 2015 - Polybase
SQL Saturday Paris 2015 - Polybase
 
Datastax Cassandra + Spark Streaming
Datastax Cassandra + Spark StreamingDatastax Cassandra + Spark Streaming
Datastax Cassandra + Spark Streaming
 
Webinar Degetel DataStax
Webinar Degetel DataStaxWebinar Degetel DataStax
Webinar Degetel DataStax
 
[JSS2015] Azure SQL Data Warehouse - Azure Data Lake
[JSS2015] Azure SQL Data Warehouse - Azure Data Lake[JSS2015] Azure SQL Data Warehouse - Azure Data Lake
[JSS2015] Azure SQL Data Warehouse - Azure Data Lake
 
Spark tools by Jonathan Winandy
Spark tools by Jonathan WinandySpark tools by Jonathan Winandy
Spark tools by Jonathan Winandy
 
[USI] Lambda-Architecture : comment réconcilier BigData et temps-réel
[USI] Lambda-Architecture : comment réconcilier BigData et temps-réel[USI] Lambda-Architecture : comment réconcilier BigData et temps-réel
[USI] Lambda-Architecture : comment réconcilier BigData et temps-réel
 
Cartographie du big data
Cartographie du big dataCartographie du big data
Cartographie du big data
 
Apache Kafka, Un système distribué de messagerie hautement performant
Apache Kafka, Un système distribué de messagerie hautement performantApache Kafka, Un système distribué de messagerie hautement performant
Apache Kafka, Un système distribué de messagerie hautement performant
 
DataStax Enterprise - Cas d'usage
DataStax Enterprise - Cas d'usageDataStax Enterprise - Cas d'usage
DataStax Enterprise - Cas d'usage
 
Introduction à Apache Cassandra — IppEvent chez OVH 2017-03-02
Introduction à Apache Cassandra — IppEvent chez OVH 2017-03-02Introduction à Apache Cassandra — IppEvent chez OVH 2017-03-02
Introduction à Apache Cassandra — IppEvent chez OVH 2017-03-02
 
Azure Camp 9 Décembre - slides session développeurs webmedia
Azure Camp 9 Décembre - slides session développeurs webmediaAzure Camp 9 Décembre - slides session développeurs webmedia
Azure Camp 9 Décembre - slides session développeurs webmedia
 
Delta Lake, un vernis pour parquet
Delta Lake, un vernis pour parquetDelta Lake, un vernis pour parquet
Delta Lake, un vernis pour parquet
 
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big DataAzure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
 
BlueData EPIC datasheet (en Français)
BlueData EPIC datasheet (en Français)BlueData EPIC datasheet (en Français)
BlueData EPIC datasheet (en Français)
 
HUG France - 20160114 industrialisation_process_big_data CanalPlus
HUG France -  20160114 industrialisation_process_big_data CanalPlusHUG France -  20160114 industrialisation_process_big_data CanalPlus
HUG France - 20160114 industrialisation_process_big_data CanalPlus
 
Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...
Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...
Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...
 
Apache Cassandra - Concepts et fonctionnalités
Apache Cassandra - Concepts et fonctionnalitésApache Cassandra - Concepts et fonctionnalités
Apache Cassandra - Concepts et fonctionnalités
 
Sahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStackSahara : Hadoop as Service avec OpenStack
Sahara : Hadoop as Service avec OpenStack
 

En vedette

Time Series Data with Apache Cassandra (ApacheCon EU 2014)
Time Series Data with Apache Cassandra (ApacheCon EU 2014)Time Series Data with Apache Cassandra (ApacheCon EU 2014)
Time Series Data with Apache Cassandra (ApacheCon EU 2014)Eric Evans
 
Time Series Data with Apache Cassandra
Time Series Data with Apache CassandraTime Series Data with Apache Cassandra
Time Series Data with Apache Cassandra
Eric Evans
 
Rethinking Topology In Cassandra (ApacheCon NA)
Rethinking Topology In Cassandra (ApacheCon NA)Rethinking Topology In Cassandra (ApacheCon NA)
Rethinking Topology In Cassandra (ApacheCon NA)Eric Evans
 
Time Series Data with Apache Cassandra
Time Series Data with Apache CassandraTime Series Data with Apache Cassandra
Time Series Data with Apache CassandraEric Evans
 
Building Scalable IoT Apps (QCon S-F)
Building Scalable IoT Apps (QCon S-F)Building Scalable IoT Apps (QCon S-F)
Building Scalable IoT Apps (QCon S-F)
Pavel Hardak
 
Wikimedia Content API: A Cassandra Use-case
Wikimedia Content API: A Cassandra Use-caseWikimedia Content API: A Cassandra Use-case
Wikimedia Content API: A Cassandra Use-case
Eric Evans
 
Wikimedia Content API: A Cassandra Use-case
Wikimedia Content API: A Cassandra Use-caseWikimedia Content API: A Cassandra Use-case
Wikimedia Content API: A Cassandra Use-case
Eric Evans
 
Castle enhanced Cassandra
Castle enhanced CassandraCastle enhanced Cassandra
Castle enhanced Cassandra
Eric Evans
 
Wikimedia Content API (Strangeloop)
Wikimedia Content API (Strangeloop)Wikimedia Content API (Strangeloop)
Wikimedia Content API (Strangeloop)
Eric Evans
 
Webinaire Business&Decision - Trifacta
Webinaire  Business&Decision - TrifactaWebinaire  Business&Decision - Trifacta
Webinaire Business&Decision - Trifacta
Victor Coustenoble
 
CQL In Cassandra 1.0 (and beyond)
CQL In Cassandra 1.0 (and beyond)CQL In Cassandra 1.0 (and beyond)
CQL In Cassandra 1.0 (and beyond)
Eric Evans
 
Virtual Nodes: Rethinking Topology in Cassandra
Virtual Nodes: Rethinking Topology in CassandraVirtual Nodes: Rethinking Topology in Cassandra
Virtual Nodes: Rethinking Topology in Cassandra
Eric Evans
 
Cassandra by Example: Data Modelling with CQL3
Cassandra by Example:  Data Modelling with CQL3Cassandra by Example:  Data Modelling with CQL3
Cassandra by Example: Data Modelling with CQL3Eric Evans
 
Virtual Nodes: Rethinking Topology in Cassandra
Virtual Nodes: Rethinking Topology in CassandraVirtual Nodes: Rethinking Topology in Cassandra
Virtual Nodes: Rethinking Topology in CassandraEric Evans
 
CQL: SQL In Cassandra
CQL: SQL In CassandraCQL: SQL In Cassandra
CQL: SQL In Cassandra
Eric Evans
 
It's not you, it's me: Ending a 15 year relationship with RRD
It's not you, it's me: Ending a 15 year relationship with RRDIt's not you, it's me: Ending a 15 year relationship with RRD
It's not you, it's me: Ending a 15 year relationship with RRD
Eric Evans
 
Lightning fast analytics with Cassandra and Spark
Lightning fast analytics with Cassandra and SparkLightning fast analytics with Cassandra and Spark
Lightning fast analytics with Cassandra and Spark
Victor Coustenoble
 
Time series storage in Cassandra
Time series storage in CassandraTime series storage in Cassandra
Time series storage in Cassandra
Eric Evans
 
Cassandra 2.2 & 3.0
Cassandra 2.2 & 3.0Cassandra 2.2 & 3.0
Cassandra 2.2 & 3.0
Victor Coustenoble
 
DataStax - Analytics on Apache Cassandra - Paris Tech Talks meetup
DataStax - Analytics on Apache Cassandra - Paris Tech Talks meetupDataStax - Analytics on Apache Cassandra - Paris Tech Talks meetup
DataStax - Analytics on Apache Cassandra - Paris Tech Talks meetup
Victor Coustenoble
 

En vedette (20)

Time Series Data with Apache Cassandra (ApacheCon EU 2014)
Time Series Data with Apache Cassandra (ApacheCon EU 2014)Time Series Data with Apache Cassandra (ApacheCon EU 2014)
Time Series Data with Apache Cassandra (ApacheCon EU 2014)
 
Time Series Data with Apache Cassandra
Time Series Data with Apache CassandraTime Series Data with Apache Cassandra
Time Series Data with Apache Cassandra
 
Rethinking Topology In Cassandra (ApacheCon NA)
Rethinking Topology In Cassandra (ApacheCon NA)Rethinking Topology In Cassandra (ApacheCon NA)
Rethinking Topology In Cassandra (ApacheCon NA)
 
Time Series Data with Apache Cassandra
Time Series Data with Apache CassandraTime Series Data with Apache Cassandra
Time Series Data with Apache Cassandra
 
Building Scalable IoT Apps (QCon S-F)
Building Scalable IoT Apps (QCon S-F)Building Scalable IoT Apps (QCon S-F)
Building Scalable IoT Apps (QCon S-F)
 
Wikimedia Content API: A Cassandra Use-case
Wikimedia Content API: A Cassandra Use-caseWikimedia Content API: A Cassandra Use-case
Wikimedia Content API: A Cassandra Use-case
 
Wikimedia Content API: A Cassandra Use-case
Wikimedia Content API: A Cassandra Use-caseWikimedia Content API: A Cassandra Use-case
Wikimedia Content API: A Cassandra Use-case
 
Castle enhanced Cassandra
Castle enhanced CassandraCastle enhanced Cassandra
Castle enhanced Cassandra
 
Wikimedia Content API (Strangeloop)
Wikimedia Content API (Strangeloop)Wikimedia Content API (Strangeloop)
Wikimedia Content API (Strangeloop)
 
Webinaire Business&Decision - Trifacta
Webinaire  Business&Decision - TrifactaWebinaire  Business&Decision - Trifacta
Webinaire Business&Decision - Trifacta
 
CQL In Cassandra 1.0 (and beyond)
CQL In Cassandra 1.0 (and beyond)CQL In Cassandra 1.0 (and beyond)
CQL In Cassandra 1.0 (and beyond)
 
Virtual Nodes: Rethinking Topology in Cassandra
Virtual Nodes: Rethinking Topology in CassandraVirtual Nodes: Rethinking Topology in Cassandra
Virtual Nodes: Rethinking Topology in Cassandra
 
Cassandra by Example: Data Modelling with CQL3
Cassandra by Example:  Data Modelling with CQL3Cassandra by Example:  Data Modelling with CQL3
Cassandra by Example: Data Modelling with CQL3
 
Virtual Nodes: Rethinking Topology in Cassandra
Virtual Nodes: Rethinking Topology in CassandraVirtual Nodes: Rethinking Topology in Cassandra
Virtual Nodes: Rethinking Topology in Cassandra
 
CQL: SQL In Cassandra
CQL: SQL In CassandraCQL: SQL In Cassandra
CQL: SQL In Cassandra
 
It's not you, it's me: Ending a 15 year relationship with RRD
It's not you, it's me: Ending a 15 year relationship with RRDIt's not you, it's me: Ending a 15 year relationship with RRD
It's not you, it's me: Ending a 15 year relationship with RRD
 
Lightning fast analytics with Cassandra and Spark
Lightning fast analytics with Cassandra and SparkLightning fast analytics with Cassandra and Spark
Lightning fast analytics with Cassandra and Spark
 
Time series storage in Cassandra
Time series storage in CassandraTime series storage in Cassandra
Time series storage in Cassandra
 
Cassandra 2.2 & 3.0
Cassandra 2.2 & 3.0Cassandra 2.2 & 3.0
Cassandra 2.2 & 3.0
 
DataStax - Analytics on Apache Cassandra - Paris Tech Talks meetup
DataStax - Analytics on Apache Cassandra - Paris Tech Talks meetupDataStax - Analytics on Apache Cassandra - Paris Tech Talks meetup
DataStax - Analytics on Apache Cassandra - Paris Tech Talks meetup
 

Similaire à DataStax et Apache Cassandra pour la gestion des flux IoT

Pourquoi les coûts de Windows Azure seront toujours les plus bas
Pourquoi les coûts de Windows Azure seront toujours les plus basPourquoi les coûts de Windows Azure seront toujours les plus bas
Pourquoi les coûts de Windows Azure seront toujours les plus bas
Microsoft Technet France
 
Propostion un Iaas
Propostion un IaasPropostion un Iaas
Propostion un Iaas
yacine sebihi
 
HIF Paris 2014 - BROCADE - Le Réseau de Data Center « ON-DEMAND »
HIF Paris 2014 - BROCADE - Le Réseau de Data Center « ON-DEMAND »HIF Paris 2014 - BROCADE - Le Réseau de Data Center « ON-DEMAND »
HIF Paris 2014 - BROCADE - Le Réseau de Data Center « ON-DEMAND »
Hitachi Data Systems France
 
#OSSPARIS19 - Stream processing : de la base de données classique au streamin...
#OSSPARIS19 - Stream processing : de la base de données classique au streamin...#OSSPARIS19 - Stream processing : de la base de données classique au streamin...
#OSSPARIS19 - Stream processing : de la base de données classique au streamin...
Paris Open Source Summit
 
Presentation grid cloud computing
Presentation grid cloud computingPresentation grid cloud computing
Presentation grid cloud computing
sebky adil adil
 
Alan Poe appliqué au data streaming - toutes choses sont bonnes ou mauvaises ...
Alan Poe appliqué au data streaming - toutes choses sont bonnes ou mauvaises ...Alan Poe appliqué au data streaming - toutes choses sont bonnes ou mauvaises ...
Alan Poe appliqué au data streaming - toutes choses sont bonnes ou mauvaises ...
Julien Cognet
 
Pourquoi l’automatisation est essentielle pour une virtualisation des réseaux...
Pourquoi l’automatisation est essentielle pour une virtualisation des réseaux...Pourquoi l’automatisation est essentielle pour une virtualisation des réseaux...
Pourquoi l’automatisation est essentielle pour une virtualisation des réseaux...
ITOutcomes
 
Pourquoi l'automisation est essential pour une virtualisation des resaux reussie
Pourquoi l'automisation est essential pour une virtualisation des resaux reussiePourquoi l'automisation est essential pour une virtualisation des resaux reussie
Pourquoi l'automisation est essential pour une virtualisation des resaux reussie
ITOutcomes
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
Denodo
 
J'ai déjà un ETL, pourquoi aurais-je besoin de la Data Virtualization?
J'ai déjà un ETL, pourquoi aurais-je besoin de la Data Virtualization?J'ai déjà un ETL, pourquoi aurais-je besoin de la Data Virtualization?
J'ai déjà un ETL, pourquoi aurais-je besoin de la Data Virtualization?
Denodo
 
Qu'est ce que le Cloud computing ?
Qu'est ce que le Cloud computing ?Qu'est ce que le Cloud computing ?
Qu'est ce que le Cloud computing ?
Olivier Schmitt
 
Diaporama sure les couts de l'externalisation informatique
Diaporama sure les couts de l'externalisation informatiqueDiaporama sure les couts de l'externalisation informatique
Diaporama sure les couts de l'externalisation informatique
ITOutcomes
 
Découvrez les nouvelles fonctionnalités de Talend 6
Découvrez les nouvelles fonctionnalités de Talend 6Découvrez les nouvelles fonctionnalités de Talend 6
Découvrez les nouvelles fonctionnalités de Talend 6
Jean-Michel Franco
 
Reshaping the data center v5
Reshaping the data center v5Reshaping the data center v5
MariaDB Paris Workshop 2023 - DARVA presentation
MariaDB Paris Workshop 2023 - DARVA presentationMariaDB Paris Workshop 2023 - DARVA presentation
MariaDB Paris Workshop 2023 - DARVA presentation
MariaDB plc
 
TechDays 2011 - VIR302 virtualiser vos applications métiers critiques sous hy...
TechDays 2011 - VIR302 virtualiser vos applications métiers critiques sous hy...TechDays 2011 - VIR302 virtualiser vos applications métiers critiques sous hy...
TechDays 2011 - VIR302 virtualiser vos applications métiers critiques sous hy...
Patrick Guimonet
 
Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018
Converteo
 
Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...
Petit-déjeuner OCTO Technology :  Calculez vos indicateurs en temps réel ave...Petit-déjeuner OCTO Technology :  Calculez vos indicateurs en temps réel ave...
Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...
OCTO Technology
 
5 façons de réduire les coûts tout en modernisant votre Infrastructure selon ...
5 façons de réduire les coûts tout en modernisant votre Infrastructure selon ...5 façons de réduire les coûts tout en modernisant votre Infrastructure selon ...
5 façons de réduire les coûts tout en modernisant votre Infrastructure selon ...
ITOutcomes
 

Similaire à DataStax et Apache Cassandra pour la gestion des flux IoT (20)

Pourquoi les coûts de Windows Azure seront toujours les plus bas
Pourquoi les coûts de Windows Azure seront toujours les plus basPourquoi les coûts de Windows Azure seront toujours les plus bas
Pourquoi les coûts de Windows Azure seront toujours les plus bas
 
Propostion un Iaas
Propostion un IaasPropostion un Iaas
Propostion un Iaas
 
HIF Paris 2014 - BROCADE - Le Réseau de Data Center « ON-DEMAND »
HIF Paris 2014 - BROCADE - Le Réseau de Data Center « ON-DEMAND »HIF Paris 2014 - BROCADE - Le Réseau de Data Center « ON-DEMAND »
HIF Paris 2014 - BROCADE - Le Réseau de Data Center « ON-DEMAND »
 
Adopter le cloud avec microsoft
Adopter le cloud avec microsoftAdopter le cloud avec microsoft
Adopter le cloud avec microsoft
 
#OSSPARIS19 - Stream processing : de la base de données classique au streamin...
#OSSPARIS19 - Stream processing : de la base de données classique au streamin...#OSSPARIS19 - Stream processing : de la base de données classique au streamin...
#OSSPARIS19 - Stream processing : de la base de données classique au streamin...
 
Presentation grid cloud computing
Presentation grid cloud computingPresentation grid cloud computing
Presentation grid cloud computing
 
Alan Poe appliqué au data streaming - toutes choses sont bonnes ou mauvaises ...
Alan Poe appliqué au data streaming - toutes choses sont bonnes ou mauvaises ...Alan Poe appliqué au data streaming - toutes choses sont bonnes ou mauvaises ...
Alan Poe appliqué au data streaming - toutes choses sont bonnes ou mauvaises ...
 
Pourquoi l’automatisation est essentielle pour une virtualisation des réseaux...
Pourquoi l’automatisation est essentielle pour une virtualisation des réseaux...Pourquoi l’automatisation est essentielle pour une virtualisation des réseaux...
Pourquoi l’automatisation est essentielle pour une virtualisation des réseaux...
 
Pourquoi l'automisation est essential pour une virtualisation des resaux reussie
Pourquoi l'automisation est essential pour une virtualisation des resaux reussiePourquoi l'automisation est essential pour une virtualisation des resaux reussie
Pourquoi l'automisation est essential pour une virtualisation des resaux reussie
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
 
J'ai déjà un ETL, pourquoi aurais-je besoin de la Data Virtualization?
J'ai déjà un ETL, pourquoi aurais-je besoin de la Data Virtualization?J'ai déjà un ETL, pourquoi aurais-je besoin de la Data Virtualization?
J'ai déjà un ETL, pourquoi aurais-je besoin de la Data Virtualization?
 
Qu'est ce que le Cloud computing ?
Qu'est ce que le Cloud computing ?Qu'est ce que le Cloud computing ?
Qu'est ce que le Cloud computing ?
 
Diaporama sure les couts de l'externalisation informatique
Diaporama sure les couts de l'externalisation informatiqueDiaporama sure les couts de l'externalisation informatique
Diaporama sure les couts de l'externalisation informatique
 
Découvrez les nouvelles fonctionnalités de Talend 6
Découvrez les nouvelles fonctionnalités de Talend 6Découvrez les nouvelles fonctionnalités de Talend 6
Découvrez les nouvelles fonctionnalités de Talend 6
 
Reshaping the data center v5
Reshaping the data center v5Reshaping the data center v5
Reshaping the data center v5
 
MariaDB Paris Workshop 2023 - DARVA presentation
MariaDB Paris Workshop 2023 - DARVA presentationMariaDB Paris Workshop 2023 - DARVA presentation
MariaDB Paris Workshop 2023 - DARVA presentation
 
TechDays 2011 - VIR302 virtualiser vos applications métiers critiques sous hy...
TechDays 2011 - VIR302 virtualiser vos applications métiers critiques sous hy...TechDays 2011 - VIR302 virtualiser vos applications métiers critiques sous hy...
TechDays 2011 - VIR302 virtualiser vos applications métiers critiques sous hy...
 
Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018Livre blanc data-lakes converteo 2018
Livre blanc data-lakes converteo 2018
 
Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...
Petit-déjeuner OCTO Technology :  Calculez vos indicateurs en temps réel ave...Petit-déjeuner OCTO Technology :  Calculez vos indicateurs en temps réel ave...
Petit-déjeuner OCTO Technology : Calculez vos indicateurs en temps réel ave...
 
5 façons de réduire les coûts tout en modernisant votre Infrastructure selon ...
5 façons de réduire les coûts tout en modernisant votre Infrastructure selon ...5 façons de réduire les coûts tout en modernisant votre Infrastructure selon ...
5 façons de réduire les coûts tout en modernisant votre Infrastructure selon ...
 

DataStax et Apache Cassandra pour la gestion des flux IoT

  • 1. Comment maîtriser le flux de données IoT avec Cassandra et Spark ? Petit Déjeuner IoT - 19 novembre 2015 Victor Coustenoble Ingénieur Solutions victor.coustenoble@datastax.com @vizanalytics
  • 2. Agenda Confidential 2 • DataStax • Apache Cassandra • Pourquoi Cassandra et Spark ? • Architectures • Bristish Gas et Cas clients
  • 3. 3
  • 4. Un nouveau monde connecté a besoin d’un nouveau SGBDR ©2015 DataStax. Do not distribute without consent. 4 “The Internet of Everything” Client-Server Isolated SocialMobileCloud Mainframe 1970’s 1990’s Today IBM ORACLE Semi-Connected Radically Connected DATASTAX Distributed
  • 5. Qu’est-ce qui est différent aujourd’hui ? ©2015 DataStax. Do not distribute without consent. 5
  • 6. Qu’est-ce qu’une application IoT attend d’une base de données ? ©2015 DataStax. Do not distribute without consent. 6 Haute Disponibilité Montée en charge Securité Prédictible Coût maîtrisé Multiple Data Centers Performance
  • 7. 7 La réponse : DataStax Enterprise (DSE) Robustesse et Support pour la Production Solution d’Entreprise Puissance pour le Développement Workloads différents Une plateforme de base de données Opérationnelle
  • 8. Apache Cassandra – La Base de Données Distribuée Bordeaux Paris Marseille C * C * C *C * Toujours Disponible Distribution géographique Performance reconnue Extensibilité prédictible Simplicité Opérationnelle Séries Temporelles 8
  • 9. Apache Cassandra ©2015 DataStax. Do not distribute without consent. 9 Totalement Distribuée • Données partagées et répliquées entre les noeuds • Tous les noeuds du cluster participent • Tous les noeuds sont égaux • Pas de Point Unique de Défaillance (SPOF)
  • 10. ©2015 DataStax. Do not distribute without consent. 10 Montée en charge linéaire • Plus de données ? Ajoutez des noeuds • Plus de débits ? Ajoutez des noeuds http://techblog.netflix.com/2011/11/benchmarking-cassandra-scalability-on.html Apache Cassandra
  • 11. ©2015 DataStax. Do not distribute without consent. 11 Tolérant à la panne • Noeud tombé != Base de données arrêtée • Data Center en panne != Base de données arrêtée • Mise à jour != Base de données arrêtée Apache Cassandra
  • 12. ©2015 DataStax. Do not distribute without consent. 12 Multi Data Center • Complétement Répliqué • Ecriture locale des clients • Synchronisation des données via WAN • Facteur de Réplication par DC Apache Cassandra
  • 13. Data Model & Cassandra Query Language (CQL) ©2015 DataStax. Do not distribute without consent. 13 Un langage simple et familier avec les commandes classiques CREATE / DROP / ALTER TABLE SELECT / INSERT / UPDATE Et bien plus … CREATE TABLE temperature ( weatherstation_id text, event_time timestamp, temperature text, PRIMARY KEY(weatherstation_id,event_time) ); INSERT INTO temperature(weatherstation_id,event_time,temperature) VALUES ('1234ABCD','2013-04-03 07:01:00','72F'); INSERT INTO temperature(weatherstation_id,event_time,temperature) VALUES ('1234ABCD','2013-04-03 07:02:00','73F'); SELECT temperature FROM temperature WHERE weatherstation_id='1234ABCD' AND event_time > '2013-04-03 07:01:00' Format Clé/Colonne Série Temporelle
  • 14. ©2015 DataStax. Do not distribute without consent. 14 Administration du Cluster - OpsCenter • Interface Visuel avec des API REST • Installation, configuration et administration • Supervision et Alertes • Support des Services d’Administration Automatiques DataStax • Contrôle des accès
  • 15. ©2015 DataStax. Do not distribute without consent. 15 Recherche Intégrée • Intégration du moteur de recherche d’entreprise Apache Solr • Opérations de recherche distribués, scalables et continuellement disponibles • Recherche plein texte, multicritère et geospatiale sur des données Cassandra
  • 16. ©2015 DataStax. Do not distribute without consent. 16 Analytique et Transformation de données • Spark = Framework de calcul distribué, plus rapide que Hadoop • Transformation et Analytique sur des données Cassandra en Temp-Réel ou en mode Batch • Streaming intégré • Isolation des ressources, multi-data center • SparkSQL, Spark Streaming, GraphX, MLlib, SparkR, Spark JDBC server
  • 17. Cas d’utilisation Spark Load data from various sources Analytics (join, aggregate, transform, …) Sanitize, validate, normalize data Schema migration, Data conversion
  • 18. ©2015 DataStax. Do not distribute without consent. 18
  • 19. ©2015 DataStax. Do not distribute without consent. 19
  • 20. ©2015 DataStax. Do not distribute without consent. 20
  • 21. Analytique Batch ou Temps-Réel ©2014 DataStax Confidential. Do not distribute without consent. 21 Enrichissement ou Alerte Batch Processing Machine Learning Agrégats pré-calculés Pas d’ETL
  • 23. British Gas Tackles Internet-of-Things with DataStax Connected Homes, a new business unit, handles IoT-based customer systems Provides remote control over thermostats and boilers via smart phones/tablets Delivers analytics on energy usage to customers Will be using predictive analysis to forecast things like boiler failures Uses DataStax Enterprise for transactional data consumption and real-time analytics
  • 24. ©2015 DataStax. Do not distribute without consent. 24
  • 25. ©2015 DataStax. Do not distribute without consent. 25
  • 26. ©2015 DataStax. Do not distribute without consent. 26
  • 27. ©2015 DataStax. Do not distribute without consent. 27
  • 28. ©2015 DataStax. Do not distribute without consent. 28
  • 29. ©2015 DataStax. Do not distribute without consent. British Gaz & Spark Data Streaming End 2015: • Hive Home -> 200k users •~ 15000 messages / s • Connected boilers -> 25k users •~ 2500 messages / s • Live Energy -> 50k users •~ 8500 messages / s Spark Use cases Data storage : Spark Streaming from queue Data processing : Transformations and Joins Data analytics : Data science productionising
  • 30. ©2015 DataStax. Do not distribute without consent. 30
  • 31. i2O Conserves 200M Liters of Water Per Day With Cassandra The Smart Way to Manage Sensors for Energy and Cost Savings - Thousands of sensors on rooftop machines in commercial buildings Google Nest Revolutionizes the Thermostat - DataStax chosen for ability to handle high velocity writes in time series From Millions to Billions of Connected Devices, Aeris Uses Cassandra to Scale Wattgo Engages Utility Customers with Personalized Smart Energy Analytics Coordination System for 1 to millions containers
  • 32. ©2015 DataStax. Do not distribute without consent. 32 We power the big data apps that transform business. Merci

Notes de l'éditeur

  1. Nathan Milford, formerly of OutBrain