Un menu copieux pour cette rentrée des petits-déjeuners OCTO avec un focus sur les architectures de données, un témoignage de BNP Paribas, un retour sur la mise en œuvre de ces nouvelles architectures de données et, cerise sur le gâteau, une mise en perspective de la tendance vers des architectures de flux à l’occasion de la publication du livre blanc Digital Studies Vol.02 : La question du temps dans les architectures digitales.
Les données sont là, initialement éclatées dans différents silos applicatifs. Mais maintenant qu’elles commencent à alimenter un Data Lake sous Hadoop, que va-t-on en faire ? Comment les valoriser ? Comment créer de nouveaux services à valeur ajoutée ?
BNP Paribas était présent pour témoigner de sa démarche avec un retour sur la mise en œuvre de ces nouvelles architectures de données.
OCTO a présenté le retour d'expérience sur la mise en œuvre de ces nouvelles architectures de données, incluant les technologies Hadoop, Spark, Cassandra, Solr ainsi que des expérimentations sur le Machine Learning, tout en soulignant les méthodes de travail utilisées avec des équipes mixtes BNP Paribas / OCTO.
Ce petit-déjeuner a aussi été l’occasion de vous présenter et de vous remettre une version imprimée du livre blanc Digital Studies Vol.02, consacré aux questions d’architecture, notamment aux nouvelles architectures de flux.
4. Le programme Data,
lancé en 2016,
regroupe 3
expérimentations
sélectionnées à la fois
par le métier et la DSI
5. 3 uses cases pour répondre à des enjeux métiers de plus
en plus ambitieux
Rebond 360 PFM / BFM Lutte contre la fraude
6. Rebond 360 PFM / BFM Lutte contre la fraude
Une démarche progressive et une prise de risque maîtrisée
T0 T1 T2
7. La vision données
Collecte des
données à la
source
Collecte massive
initiale et Restitution
Refonte de fonctionnalités
existantes
Données existantes
exposées
Intelligence sur les
données existantes
Fonctionnalités
complètement nouvelles
8. Référentiels
Référentiel personne Offres produits Nomenclatures
Autres
(pays, taux, etc.)
GRC - Gestion de la relation client
Dossier client
Relation client
Aide à la vente (OAP,
etc.)
Autres
(pilotage Marketing, etc.)
Canaux Gestion administrative client
Synthèse financière
Autres
SD - Systèmes Distributeurs
Tenue de compte /
calcul de position
Dépôts à vue Épargne Financements
Flux
Autres
(titres, placements, etc.)
Réseau
d’agences
Banque en ligne
Autres
(téléphonique, etc)
La cartographie fonctionnelle de l’existant
10. Données existantes exposées
Création d’intelligence sur les
données existantes
Collecte des
données à la source
cassandra
serveurs d’application JEE
hadoop
publication
exposition
archivage
enrichissement
Streaming
collecte
La big picture
14. Montrer de la valeur au plus vite pour gagner la confiance des utilisateurs et des sponsors
Collecte, traitement et stockage de la donnée
Rebond360
Collecte des sources
RP, RMT,
indicateurs, etc.
1
Structuration et Stockage
dans Cassandra
Structuration3
Application
R3604Archivage des
données brutes2
Historisation dans le
datalake
● Satisfaction des clients et des sponsors
(embarqués dans la démarche de construction et
impliqués dans la Vision)
● Suscité l’envie d’aller plus loin et de s’attaquer à
de nouveaux challenges
● Valider une première architecture technique
● Valider des briques nouvelles pour la BNPP :
Hadoop, Spark, Cassandra
● Se rassurer sur la capacité à délivrer en production
Objectifs Gains
Données exposées pour
les applications
18. PFM/BFM
L’application PFM est destinée aux clients
particuliers et professionnels afin de
mieux gérer leurs finances :
- Un moteur de règles et un modèle de
prédiction évolutifs viennent améliorer la
catégorisation automatique des
mouvements
- La simplification des libellés contribue à
rendre plus lisibles les mouvements sur la
nouvelle interface client
19. Apporter de la valeur en capitalisant sur les travaux précédents
Déroulé
PFM/BFM
20. Apporter de la valeur en capitalisant sur les travaux précédents
Déroulé
PFM/BFM
Collecte des sources
Exposition des
mouvements
1
● Confiance en la plateforme
● Réutiliser l’infrastructure mise en place pour Rebond
360
Objectifs Gains
21. Apporter de la valeur en capitalisant sur les travaux précédents
Déroulé
PFM/BFM
Collecte des sources
Exposition des
mouvements
1 Prototypage
Python2
Validation de l’approche
règles + ML (fail fast)
● Confiance en la plateforme
● Démonstration de la capacité à construire un modèle fondé
sur l’apprentissage automatique et à le mettre
en production
● Réutiliser l’infrastructure mise en place pour Rebond
360
● Valider une approche bipartite : règles + modèle prédictif
Objectifs Gains
22. Apporter de la valeur en capitalisant sur les travaux précédents
Déroulé
PFM/BFM
Collecte des sources
Exposition des
mouvements
1
Industrialisation
Moteur : Scala
Modèle : PMML3Prototypage
Python2
Validation de l’approche
règles + ML (fail fast)
● Confiance en la plateforme
● Démonstration de la capacité à construire un modèle fondé
sur l’apprentissage automatique et à le mettre
en production
● Mise en place d’un moteur de règles facilement
configurable par un utilisateur non technique (via Excel)
● Réutiliser l’infrastructure mise en place pour Rebond
360
● Valider une approche bipartite : règles + modèle prédictif
● Mettre en place une chaîne automatisée de mise à jour
Objectifs Gains
23. Apporter de la valeur en capitalisant sur les travaux précédents
Déroulé
PFM/BFM
Collecte des sources
Exposition des
mouvements
1
Industrialisation
Moteur : Scala
Modèle : PMML3 Application PFM4Prototypage
Python2
Validation de l’approche
règles + ML (fail fast)
● Confiance en la plateforme
● Démonstration de la capacité à construire un modèle fondé
sur l’apprentissage automatique et à le mettre
en production
● Mise en place d’un moteur de règles facilement
configurable par un utilisateur non technique (via Excel)
● Réutiliser l’infrastructure mise en place pour Rebond
360
● Valider une approche bipartite : règles + modèle prédictif
● Mettre en place une chaîne automatisée de mise à jour
Objectifs Gains
Mise en service
24. mainframe teradata
cassandra
mouvements
Serveurs web
opt-out à la catégorisation
type de compte : particuliers / pro
extraction
archivage
consommation
exposition des
données
catégorisation
simplification
intégration des
mouvements
bruts
PFM/BFM
Hadoop et Spark
25. mainframe teradata
cassandra
mouvements
Serveurs web
opt-out à la catégorisation
type de compte : particuliers / pro
machine
learning
extraction
archivage
Application de la
catégorisation et
de la
simplification sur
les mouvements
consommation
exposition des
données
règles métier
catégorisation
simplification
intégration des
mouvements
bruts
PFM/BFM
Hadoop et Spark
26. Approche par apprentissage
Approche par moteur de règles
CATEGORISATION
Le meilleur des deux mondes
Bénéfice de l’expertise métier
Certaines règles sont fiables à 100 %
Extraction de features pour l’apprentissage
Extraction de texte pour simplifier le libellé
> Volet déterministe
Règles apprises sur des exemples
Utilisables sur des cas marginaux hors règles
Utilise des features issues du moteur de règles
Exige la constitution manuelle d’exemples
> Volet statistique
27. mouvements règles métier
data lab
entraînement du modèle prédictif
sur les mouvements catégorisés
manuellement
traduction et
intégration du modèle
rédaction de règles
de classification
classification
manuelle d’un
jeu
d’entraînement
Modèle de
prédictionmoteur de règles
Python +
XgBoost
Apprentissage
Prédiction
Fichier
PMML
Mouvements catégorisés
avec libellés simplifiés
Intégration des règles
métier
PFM/BFM l’apprentissage du modèle
Hadoop et Spark
32. Elargir le champs des possibles
Collecter, Analyser, Alerter, S’adapter
Lutte contre la fraude
Collecte des
actions
1 Temporisation3 Validation4Détection2
FEEDBACK
MÉTIER
33. Elargir le champs des possibles
Collecter, Analyser, Alerter, S’adapter
Lutte contre la fraude
Collecte des
actions
1 Temporisation3 Validation4Détection2
FEEDBACK
MÉTIER
● Proposer de nouveaux type de Use Cases aux
métiers
● Introduire des techniques « temps réel »
Objectifs Gains
34. Elargir le champs des possibles
Collecter, Analyser, Alerter, S’adapter
Lutte contre la fraude
Collecte des
actions
1 Temporisation3 Validation4Détection2
FEEDBACK
MÉTIER
● Proposer de nouveaux type de Use Cases aux
métiers
● Fluidification du pipeline de la conception à la prod
● Introduire des techniques « temps réel »
● Être réactif aux évolutions de modèle jusqu’à la
Prod
Objectifs Gains
35. Elargir le champs des possibles
Collecter, Analyser, Alerter, S’adapter
Lutte contre la fraude
Collecte des
actions
1 Temporisation3 Validation4Détection2
FEEDBACK
MÉTIER
● Proposer de nouveaux type de Use Cases aux
métiers
● Fluidification du pipeline de la conception à la prod
● Force de proposition en dehors des services
existants
● Introduire des techniques « temps réel »
● Être réactif aux évolutions de modèle jusqu’à la
Prod
● Devenir fournisseur de données
Objectifs Gains
38. Itérer
Si on n’avait pas réussi à
mettre en production Rebond
360 on aurait moins réussi les
autres !
Mettre la technique au service du
métier et non l’inverse
L’essentiel n’est pas de calquer une
architecture vue quelque part mais
de la tirer par les besoins
Mettre en place une
véritable infrastructure de
production dès le début
même pour une
expérimentation
Ce que nous avons appris
39. Résister à la tentation de
lancer trop de chantiers en
même temps
Prendre le temps de valider
chacune des étapes
Industrialiser au plus tôt les
développements pour bénéficier
d’un harnais de sécurité solide
absorbant la mouvance des règles
métiers
Tracer la dette technique et
fonctionnelle et bâtir un
plan pour la nettoyer
Ce que nous avons appris
40. Les logiciels sont le reflet de l’organisation
qui les a construits
Loi de Conway
41. Repenser
l’innovation
Equipe de corsaires
Zone franche
Espaces de travail
Pour faire autrement
Alléger les contraintes
Simplifier les règles
Favoriser l’action
Se donner les moyens de
former des équipes
pluri-disciplinaires
Ailleurs
Différent
Stimulant
Créatif
Créer
Tester et apprendre
Échouer et réussir
Loi de Conway