www.octo.com - www.usievents.comPARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY 1PARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY
PETIT- DÉJEUNER
NOUVELLES
ARCHITECTURES
DE DONNÉES
www.octo.com - www.usievents.comPARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY 2
NOUVELLES ARCHITECTURES DE DONNÉES
MERIEM BERKANE - LEADER OFFRE NAD OCTO TECHNOLOGY
Agenda du petit-déjeuner
COURBO SPARK : EXEMPLE DE MACHINE LEARNING SUR DES SÉRIES
TEMPORELLES
CHRISTOPHE SALPERWYCK - INGÉNIEUR CHERCHEUR EDF R&D
SIMON MABY - DATA SCIENTIST OCTO TECHNOLOGY
SPARK + CASSANDRA POUR UNE ARCHITECTURE ÉVÉNEMENTIELLE ET
DE L'ANALYTIQUE TEMPS RÉEL
VICTOR COUSTENOBLE - SOLUTIONS ENGINEER DATASTAX
2
5
1
4
3 PAUSE
ECHANGE
www.octo.com - www.usievents.comPARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY 3
NOUVELLES ARCHITECTURES DE DONNÉES
Agenda du petit-déjeuner
COURBO SPARKSPARK : EXEMPLE DE MACHINE
LEARNING SUR DES SÉRIES TEMPORELLES
SPARK + CASSANDRA POUR UNE ARCHITECTURE
ÉVÉNEMENTIELLE ET DE L'ANALYTIQUE TEMPS RÉEL
2
5
1
4
3 PAUSE
ECHANGE
www.octo.com - www.usievents.comPARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY 4
Les SI traditionnels – les constats
www.octo.com - www.usievents.comPARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY 5
Des données non collectées et non traitées
Application
Données
transactionnelles
Données
immuables
Référentiels
Données
dérivées
SGBDR
Parcours
client
Données externes
brutes
Relevés bruts de
capteurs
www.octo.com - www.usievents.comPARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY 6
Données cloisonnées, partagées par batch à J+1
www.octo.com - www.usievents.comPARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY 7
Catalogue
produit
Analyses et
promotion
Panier
Commandes
et facturation
E-Commerce
Serveur
d’application
Base de
données
Serveur
d’application
Base de
données
Serveur
d’application
Base de
données
Serveur
d’application
Base de
données
BATCHS
SI traditionnels
www.octo.com - www.usievents.comPARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY 8
SI traditionnels
CRM Vision client 360 Sinistres
Assurance
Serveur
d’application
Base de
données
Serveur
d’application
Base de
données
Serveur
d’application
Base de
données
BATCHS
www.octo.com - www.usievents.comPARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY 9
Catalogue
d’équipements
Analyses et
promotion
Données de
signalisation
Incidents
Industrie / Telcos
Serveur
d’application
Base de
données
Serveur
d’application
Base de
données
BATCHS
SI traditionnels
Serveur
d’application
Base de
données
Serveur
d’application
Base de
données
www.octo.com - www.usievents.comPARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY 10
Des évolutions technologiques majeures
ces dernières années nous ouvrent des
nouvelles opportunités métier
www.octo.com - www.usievents.comPARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY 11
Traiter au
fil de l’eau
Le bon
stockage
pour le bon
usage
Tout
collecter
Nouvelles archi
de données
Décloisonner
la donnée
Quatre principes directeurs
www.octo.com - www.usievents.comPARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY 12
Tout
collecter
Nouvelles archi
de données
Premier principe
www.octo.com - www.usievents.comPARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY 13
Collecteur d’événements
Commandes
Sinistres
Mouvements
de stocks
Paiements par
carte, retraits
Données externes
brutes
Relevés bruts de
capteurs Mouvements de
panier
Activité client
Appels, SMS
Premier principe : tout collecter
www.octo.com - www.usievents.comPARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY 14
Traiter au
fil de l’eau
Tout
collecter
Nouvelles archi
de données
Deuxième principe
www.octo.com - www.usievents.comPARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY 15
Collecteur d’événements
Événements
& données
Processus
Processus
Router immédiatement vers les
systèmes et applications
concernées par l’événement
Détection d’abandon de panier
 Remarketing
Détection d’une panne matérielle
 Contacter le client au plus tôt
Relevé de consommation
 Optimisation de ressources
Un nouveau sinistre déclaré
 La vision 360 est à jour !
Deuxième principe : tout traiter au fil de l’eau
Processus
www.octo.com - www.usievents.comPARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY 16
Traiter au
fil de l’eau
Tout
collecter
Nouvelles archi
de données
Décloisonner
la donnée
Troisième principe
www.octo.com - www.usievents.comPARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY 17
Collecteur d’évènements
Troisième principe : décloisonner la donnée
Commandes et
facturation
Vision 360PanierAnalytique
Et promotion
Process
Donnée
enrichie
www.octo.com - www.usievents.comPARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY 18
Traiter au
fil de l’eau
Le bon
stockage
pour le bon
usage
Tout
collecter
Nouvelles archi
de données
Décloisonner
la donnée
Quatrième principe
www.octo.com - www.usievents.comPARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY 19
Persistance polyglotte
Recherche/
Vision 360
Graphe
social
des clients
Archivage
Catalogue
Produit
Session
utilisateur /
panier
Analytique
temps-réel
USAGESDonnées
transaction-
nelles
Outils de
reporting
Cassandra
HDFS
Vectorwise
Neo4J
Couchbase
/Cassandra
PostgreSQL
Elasticsearch
Couchbase
www.octo.com - www.usievents.comPARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY 20
Expertise
et
Polyvalence
Se donner les moyens d’y arriver
La donnée est :
• dupliquée,
• enrichie,
• partagée,
Elle doit donc être
gouvernée
Environnements
complexes
 Automatisation
de bout en bout
 DevOps
www.octo.com - www.usievents.comPARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY 21
Intégration/recetteStation de
développement
- 1 instance Kafka
- 1 instance Spark
- 1 instances Zookeeper
- 1 instance Cassandra
- 1 IDE
- 1 injecteur
- 1 jeu de données
Une station de développement
par développeur
- 3 nœuds Kafka
- > 4 nœuds Spark
- 1 nœuds Zookeeper
- > 4 nœuds Cassandra
- 1 nœud applicatif
- 1 jeu de données
représentatif du flux
- EDI /EAI
Nombre de plateforme
d’intégration en fonction du
nombre de développeurs
Pré-production/Production
- 3 nœuds Kafka
- > 4 nœuds Spark
- 1 nœuds Zookeeper
- > 4 nœuds Cassandra
- 2 nœuds applicatifs
- EDI/EAI
- Connection vers le
DataLake
Une plateforme de pré-
production « iso » avec une
plateforme de production
22
© OCTO 2015
À emporter !
www.octo.com - www.usievents.comPARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY 23
Le « Batch à
J+1 » n’est plus
une fatalité !
Ce qu’il faut retenir
Quatre principes
directeurs
• Tout collecter
• Traiter en
temps-réel
• Décloisonner
• Stocker
intelligemment
• Se former
• S’outiller
• POCer !
24
© OCTO 2015
Questions

Petit Déjeuner Datastax 14-04-15 : Les nouvelles architectures de stockage et de traitement de la donnée

  • 1.
    www.octo.com - www.usievents.comPARIS- SAO PAULO - RABAT – LAUSANNE - SYDNEY 1PARIS - SAO PAULO - RABAT – LAUSANNE - SYDNEY PETIT- DÉJEUNER NOUVELLES ARCHITECTURES DE DONNÉES
  • 2.
    www.octo.com - www.usievents.comPARIS- SAO PAULO - RABAT – LAUSANNE - SYDNEY 2 NOUVELLES ARCHITECTURES DE DONNÉES MERIEM BERKANE - LEADER OFFRE NAD OCTO TECHNOLOGY Agenda du petit-déjeuner COURBO SPARK : EXEMPLE DE MACHINE LEARNING SUR DES SÉRIES TEMPORELLES CHRISTOPHE SALPERWYCK - INGÉNIEUR CHERCHEUR EDF R&D SIMON MABY - DATA SCIENTIST OCTO TECHNOLOGY SPARK + CASSANDRA POUR UNE ARCHITECTURE ÉVÉNEMENTIELLE ET DE L'ANALYTIQUE TEMPS RÉEL VICTOR COUSTENOBLE - SOLUTIONS ENGINEER DATASTAX 2 5 1 4 3 PAUSE ECHANGE
  • 3.
    www.octo.com - www.usievents.comPARIS- SAO PAULO - RABAT – LAUSANNE - SYDNEY 3 NOUVELLES ARCHITECTURES DE DONNÉES Agenda du petit-déjeuner COURBO SPARKSPARK : EXEMPLE DE MACHINE LEARNING SUR DES SÉRIES TEMPORELLES SPARK + CASSANDRA POUR UNE ARCHITECTURE ÉVÉNEMENTIELLE ET DE L'ANALYTIQUE TEMPS RÉEL 2 5 1 4 3 PAUSE ECHANGE
  • 4.
    www.octo.com - www.usievents.comPARIS- SAO PAULO - RABAT – LAUSANNE - SYDNEY 4 Les SI traditionnels – les constats
  • 5.
    www.octo.com - www.usievents.comPARIS- SAO PAULO - RABAT – LAUSANNE - SYDNEY 5 Des données non collectées et non traitées Application Données transactionnelles Données immuables Référentiels Données dérivées SGBDR Parcours client Données externes brutes Relevés bruts de capteurs
  • 6.
    www.octo.com - www.usievents.comPARIS- SAO PAULO - RABAT – LAUSANNE - SYDNEY 6 Données cloisonnées, partagées par batch à J+1
  • 7.
    www.octo.com - www.usievents.comPARIS- SAO PAULO - RABAT – LAUSANNE - SYDNEY 7 Catalogue produit Analyses et promotion Panier Commandes et facturation E-Commerce Serveur d’application Base de données Serveur d’application Base de données Serveur d’application Base de données Serveur d’application Base de données BATCHS SI traditionnels
  • 8.
    www.octo.com - www.usievents.comPARIS- SAO PAULO - RABAT – LAUSANNE - SYDNEY 8 SI traditionnels CRM Vision client 360 Sinistres Assurance Serveur d’application Base de données Serveur d’application Base de données Serveur d’application Base de données BATCHS
  • 9.
    www.octo.com - www.usievents.comPARIS- SAO PAULO - RABAT – LAUSANNE - SYDNEY 9 Catalogue d’équipements Analyses et promotion Données de signalisation Incidents Industrie / Telcos Serveur d’application Base de données Serveur d’application Base de données BATCHS SI traditionnels Serveur d’application Base de données Serveur d’application Base de données
  • 10.
    www.octo.com - www.usievents.comPARIS- SAO PAULO - RABAT – LAUSANNE - SYDNEY 10 Des évolutions technologiques majeures ces dernières années nous ouvrent des nouvelles opportunités métier
  • 11.
    www.octo.com - www.usievents.comPARIS- SAO PAULO - RABAT – LAUSANNE - SYDNEY 11 Traiter au fil de l’eau Le bon stockage pour le bon usage Tout collecter Nouvelles archi de données Décloisonner la donnée Quatre principes directeurs
  • 12.
    www.octo.com - www.usievents.comPARIS- SAO PAULO - RABAT – LAUSANNE - SYDNEY 12 Tout collecter Nouvelles archi de données Premier principe
  • 13.
    www.octo.com - www.usievents.comPARIS- SAO PAULO - RABAT – LAUSANNE - SYDNEY 13 Collecteur d’événements Commandes Sinistres Mouvements de stocks Paiements par carte, retraits Données externes brutes Relevés bruts de capteurs Mouvements de panier Activité client Appels, SMS Premier principe : tout collecter
  • 14.
    www.octo.com - www.usievents.comPARIS- SAO PAULO - RABAT – LAUSANNE - SYDNEY 14 Traiter au fil de l’eau Tout collecter Nouvelles archi de données Deuxième principe
  • 15.
    www.octo.com - www.usievents.comPARIS- SAO PAULO - RABAT – LAUSANNE - SYDNEY 15 Collecteur d’événements Événements & données Processus Processus Router immédiatement vers les systèmes et applications concernées par l’événement Détection d’abandon de panier  Remarketing Détection d’une panne matérielle  Contacter le client au plus tôt Relevé de consommation  Optimisation de ressources Un nouveau sinistre déclaré  La vision 360 est à jour ! Deuxième principe : tout traiter au fil de l’eau Processus
  • 16.
    www.octo.com - www.usievents.comPARIS- SAO PAULO - RABAT – LAUSANNE - SYDNEY 16 Traiter au fil de l’eau Tout collecter Nouvelles archi de données Décloisonner la donnée Troisième principe
  • 17.
    www.octo.com - www.usievents.comPARIS- SAO PAULO - RABAT – LAUSANNE - SYDNEY 17 Collecteur d’évènements Troisième principe : décloisonner la donnée Commandes et facturation Vision 360PanierAnalytique Et promotion Process Donnée enrichie
  • 18.
    www.octo.com - www.usievents.comPARIS- SAO PAULO - RABAT – LAUSANNE - SYDNEY 18 Traiter au fil de l’eau Le bon stockage pour le bon usage Tout collecter Nouvelles archi de données Décloisonner la donnée Quatrième principe
  • 19.
    www.octo.com - www.usievents.comPARIS- SAO PAULO - RABAT – LAUSANNE - SYDNEY 19 Persistance polyglotte Recherche/ Vision 360 Graphe social des clients Archivage Catalogue Produit Session utilisateur / panier Analytique temps-réel USAGESDonnées transaction- nelles Outils de reporting Cassandra HDFS Vectorwise Neo4J Couchbase /Cassandra PostgreSQL Elasticsearch Couchbase
  • 20.
    www.octo.com - www.usievents.comPARIS- SAO PAULO - RABAT – LAUSANNE - SYDNEY 20 Expertise et Polyvalence Se donner les moyens d’y arriver La donnée est : • dupliquée, • enrichie, • partagée, Elle doit donc être gouvernée Environnements complexes  Automatisation de bout en bout  DevOps
  • 21.
    www.octo.com - www.usievents.comPARIS- SAO PAULO - RABAT – LAUSANNE - SYDNEY 21 Intégration/recetteStation de développement - 1 instance Kafka - 1 instance Spark - 1 instances Zookeeper - 1 instance Cassandra - 1 IDE - 1 injecteur - 1 jeu de données Une station de développement par développeur - 3 nœuds Kafka - > 4 nœuds Spark - 1 nœuds Zookeeper - > 4 nœuds Cassandra - 1 nœud applicatif - 1 jeu de données représentatif du flux - EDI /EAI Nombre de plateforme d’intégration en fonction du nombre de développeurs Pré-production/Production - 3 nœuds Kafka - > 4 nœuds Spark - 1 nœuds Zookeeper - > 4 nœuds Cassandra - 2 nœuds applicatifs - EDI/EAI - Connection vers le DataLake Une plateforme de pré- production « iso » avec une plateforme de production
  • 22.
  • 23.
    www.octo.com - www.usievents.comPARIS- SAO PAULO - RABAT – LAUSANNE - SYDNEY 23 Le « Batch à J+1 » n’est plus une fatalité ! Ce qu’il faut retenir Quatre principes directeurs • Tout collecter • Traiter en temps-réel • Décloisonner • Stocker intelligemment • Se former • S’outiller • POCer !
  • 24.

Notes de l'éditeur

  • #3 Questions à la fin de chaque session
  • #4 Questions à la fin de chaque session
  • #5 Eviter big data
  • #6 SI Opérationnel => Analytique : Voie sans retour Architectures des années 2000, Et je ne parle pas de main frame
  • #7 Eviter big data
  • #8 SI Opérationnel => Analytique : Voie sans retour Architectures des années 2000, Et je ne parle pas de main frame
  • #9 SI Opérationnel => Analytique : Voie sans retour Architectures des années 2000, Et je ne parle pas de main frame
  • #10 SI Opérationnel => Analytique : Voie sans retour Architectures des années 2000, Et je ne parle pas de main frame
  • #11 Eviter big data
  • #14 Collecter toutes les données en temps réel, trier et traiter dans un deuxième temps Evènements critiques : commandes, paiements, etc. Evènements autres: Clics, etc. Persistance polyglotte : Le bon stockage pour le bon usage Réduire les frontières entre les systèmes de stockage, un événement peut être retravaillé et réinjecté pour qu’il alimente d’autres systèmes de stockage création d’index dans le moteur de recherche suite à l’ajout d’un nouveau client, mise à jour du graphe social suite à l’ajout d’une relation entre deux clients, etc. Traitement sur les évènements : aggrégation, event sourcing, CQRS
  • #16 Le flux d’événement alimente des systèmes hyper-spécialisés Et d’autre processus pour produire de nouveaux flux d’événements Cassandra + Spark EDF R&D Le collecteur d’évènements doit encaisser beaucoup de volumes, et surtout savoir scaler : Outils comme Kafka (Kinesis aussi?) savent faire ça Des process dépilent les évènements, font du traitement dessus : CEP : Complex event processing, du routage, de l’event sourcing, de l’enrichissement, etc. Approfondir cette partie patterns évènementiels. Stockage adapté à l’usage (slide d’après)
  • #18 Le flux d’événement alimente des systèmes hyper-spécialisés Et d’autre processus pour produire de nouveaux flux d’événements Le collecteur d’évènements doit encaisser beaucoup de volumes, et surtout savoir scaler : Outils comme Kafka (Kinesis aussi?) savent faire ça Des process dépilent les évènements, font du traitement dessus : CEP : Complex event processing, du routage, de l’event sourcing, de l’enrichissement, etc. Approfondir cette partie patterns évènementiels. Stockage adapté à l’usage (slide d’après) => Réconciliation
  • #20 Ce n’est pas exhaustif, ça n’est pas le but, c’est un exemple Catalogue produit => Couchbase : in-memory pour une faible latence, forts accès en lecture Session utilisateur : Cache => Redis, accès en écriture et en lecture, données volatiles Panier : Riak, Cassandra ? Haute dispo, multi-site Données transactionnelles : pas mieux que les bases relationnelles, Le NoSql par définition n’est pas la meilleure techno pour, mais y a des tentatives : Cassandra tx, etc. Très complexe à mettre en place et très limité. A voir selon le besoin. Mais surtout, challenger le besoin du transactionnel. Beaucoup de uses cases sont implémentés avec des transactions alors que ce n’est pas nécessaire (trouver exemple?). Y a des uses cases où le relationnel est néanmoins très pertinent : données financières avec des données structurées figées, et des traitements hautements transactionnels (batchs du coup) Graphe social, recommandations : Neo4j, OrientDB (pertinence du sémantique)? Reporting : Beaucoup d’outils de reporting s’intègrent bien avec des bases Sql Analytics temps réel, traitement des logs : Bases colonne : besoin de scalabilité fort, clustering bien géré, multi-site : Cassandra, hadoop
  • #21 REX
  • #24 REX