La Banque de demain : Chapitre 4

6 448 vues

Publié le

Le Big Data : comment tirer parti de la donnée pour créer de la valeur ?

Publié dans : Économie & finance
0 commentaire
4 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
6 448
Sur SlideShare
0
Issues des intégrations
0
Intégrations
721
Actions
Partages
0
Téléchargements
123
Commentaires
0
J’aime
4
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

La Banque de demain : Chapitre 4

  1. 1. 50 AVENUE DES CHAMPS-ÉLYSÉES 75008 PARIS > FRANCE > WWW.OCTO.COM50 AVENUE DES CHAMPS-ÉLYSÉES 75008 PARIS > FRANCE > WWW.OCTO.COM LA BANQUE DE DEMAIN CHAPITRE 4 Le Big Data: comment tirer parti de la donnée pour créer de la valeur? Notice Couvertur Texte Polices : -  Titre : A -  Sous-tit SVETLANA BARANOV Digital Banking Specialist 06 82 19 23 89 sba@octo.com PIERRE FARES Directeur Banque 06 09 48 68 21 pfa@octo.com
  2. 2. LE BIG DATA: UN SUJET RÉCENT, RAPIDEMENT DEVENU INCONTOURNABLE OCTO TECHNOLOGY > THERE IS A BETTER WAY 2 Evolution de l’Intérêt pour la recherche «  Big data » sur Google (100: représente le pic maximum de recherche atteint sur tout l’historique) 2006 Hadoop devient un projet indépendant 2004 Amazon lance Dynamo 2005 Google lance Big Table 2008 Facebook publie sous forme de licence libre Cassandra 2013 90 % de la donnée mondiale est générée sur les 2 dernières années 2005 2007 2009 2011 2013 20152006 2008 2010 2012 20142004 2001: le terme Big Data est introduit par Gartner
  3. 3. LE BIG DATA: DU MYTHE À LA RÉALITÉ OCTO TECHNOLOGY > THERE IS A BETTER WAY 3 ¤  Le Big Data c’est pour analyser les réseaux sociaux ¤  Le Big Data c’est un moyen pour améliorer le BI ¤  Le Big Data c’est forcément de gros volumes de données.. Des petabytes ¤  Des données hétérogènes et difficiles à exploiter pour avoir une valeur ajoutée ¤  Actuellement la BI est utilisée pour du reporting, le Big Data c’est plutôt pour de la prédiction ¤  Quelques Mo peuvent suffire LE BIG DATA EST AVANT TOUT UNE OPPORTUNITÉ DE CRÉER DE LA VALEUR AVEC LA DONNÉE Le mythe La réalité
  4. 4. AU DELÀ DE LA TECHNOLOGIE, LE BIG DATA EST UNE RÉVOLUTION DE L’USAGE DE LA DONNÉE ¤  Optimisation des coûts et de l’infrastructure pour répondre au nombre croissant de données et de calculs ¤  Plateformes adaptables qui savent grandir en fonction de l’évolution des besoins ¤  Augmentation de la quantité de données à traiter ¤  Utilisation de sources de données externes (démographiques, financières, sociales, …). ¤  Données accessibles facilement grâce aux mouvements d’Open Data et Open API ¤  Recherche d’informations à partir des données brutes, sans passer par des panels d’analyse ¤  Utilisation de techniques statistiques avancées ¤  Dimension prédictive des analyses De nouvelles architectures Un enrichissement des données Une meilleure valorisation des données LE BIG DATA C’EST L’AMBITION DE TIRER UN AVANTAGE ÉCONOMIQUE DE L’ANALYSE QUANTITATIVE DES DONNÉES INTERNES ET EXTERNES DE L’ENTREPRISE AVEC L’AIDE DE LA TECHNOLOGIE 4 L’AVANTAGE ÉCONOMIQUE RÉSIDE DANS LA CRÉATION DE VALEUR POUR LE MÉTIER ET L’OPTIMISATION DE LA STRUCTURE DE COÛT Mots-clés: Data Science, Machine learning, Deep Learning, Traitement du langage naturel, Data visualisation Mots-clés: données non-structurées, données labélisées Mots-clés: Data Lake, Hadoop, Données non structurées, NoSQL, Fast Data …
  5. 5. 01 LE BIG DATA: UNE RÉVOLUTION DES USAGES DES DONNÉES OCTO TECHNOLOGY > THERE IS A BETTER WAY 5
  6. 6. 1. Enrichissement SMALL DATA BIG DATA + de variables: enrichissement avec de nouvelles sources + de volume: mesures non baisées sur la population totale MODÈLES TRADITIONNELS MACHINE LEARNING 2. Technologie 3. Performance algorithmique L’APPARITION DES MODÈLES BIG DATA REPOSE SUR UNE ÉVOLUTION AUTOUR DE 3 AXES OCTO TECHNOLOGY > THERE IS A BETTER WAY 6 Du modèle analytique au modèle prédictif Traiter de plus gros volumes de données, plus efficacement et à moindre coût
  7. 7. 1. ENRICHISSEMENT DE LA DONNÉE : DU SMALL AU BIG DATA Une multiplication des sources et des volumes de donnée OCTO TECHNOLOGY > THERE IS A BETTER WAY 7 LES DONNÉES INTERNES ¤  Les données traditionnellement traitées LES DONNÉES ISSUES DES « PRODUITS » ¤  Les donnés récupérées à partir de l’utilisation des produits et services offerts par l’entreprise LES DONNÉES EXTERNES ¤  Open-data: données en libre accès et réutilisables par tous sans restrictions ( INSEE, RATP, SNCF, collectivités..) ¤  Open-API: ouverture par des entreprises de ses données avec possibilité d’utilisation sous conditions (Google, Facebook, Booking…) ¤  Le web: toutes les données issues du web ( Réseaux sociaux, sites d’actualités, moteurs de recherche…) LE BIG DATA INTÉGRE DES DONNÉES EXOGÈNES À SON ENVIRONNEMENT IMMÉDIAT ET PERMET DE LIVRER DE L’ANALYSE SUR DES DONNÉES RÉELLES ET NON PLUS DES PANELS Big Data Exemple: Bank of America gère plus de 169 petabytes de données
  8. 8. 1. ENRICHISSEMENT DE LA DONNÉE: DU SMALL AU BIG DATA Les données internes restent le principal atout pour les banques OCTO TECHNOLOGY > THERE IS A BETTER WAY 8 Données identitaires: Age, CSP, famille, étudiant, nationalité, lieu de naissance, adresse.. Données transactionnelles: Virements, dépenses, prélèvements, solde … Données d’équipement: Un compte à terme , un crédit immobilier, un compte joint… Données comportementales Connexion site, appel call center, rendez vous en agence, connexion sur mobile… LES DONNÉES INTERNES CONSTITUENT UNE DIFFÉRENCIATION FACE AUX CONCURRENTS, TANDIS QUE LES DONNÉES EXTERNES SONT ACCESSIBLES PAR TOUS ¤  Les institutions financières ont plus de 100 petabytes de données ¤  Moins de 10 % sont faciles d’accès et prêtes à être analysées ¤  Moins de 1% sont utilisées pour des analyses « De nos jours, seulement 20% des données sont structurées de telle sorte qu’elles puissent être stockées et exploitées par un Système de gestion de bases de données classique (SGBD) » Une source de uses cases inépuisables Des données qu’il faut apprendre à exploiter Source: étude Tresata Abdessatar Hammedi, analyste CRM analytique chez LCL
  9. 9. Technologies ayant pour objectif de distribuer les données sur un ensemble de machines indépendantes (si une des machines tombe en panne, le système continue de répondre à la demande) Technologies dédiés à la distribution des calculs sur plusieurs machines Technologies utilisées pour gérer des flux évènementiels à fort débit Technologies visant à gérer un débit transactionnel très élevé 2. TECHNOLOGIE: PLUS DE PERFORMANCE Le Big Data: répondre à de nouveaux besoins OCTO TECHNOLOGY > THERE IS A BETTER WAY 9 Stockage distribué Programmation parallèle Event Stream Processing (ESP) eXtreme Transaction Processing (XTP) Au-delà de 10 To en ligne Au-delà de 10 threads/Core CPU (la programmation séquentielle classique atteint ses limites (I/O) ) Au-delà de 1 000 évènements par seconde Au delà de 1 000 transactions par seconde (ou 50 000 connections simultanées) Limites pour lesquelles, les architectures « conventionnelles » nécessitent des adaptations logistiques et matérielles très importantes et coûteuses
  10. 10. ¤  Limiter le déplacement des données: La distribution des données sur plusieurs serveurs permet d’augmenter le nombre de «  tuyaux » par lesquels la donnée est récupérée. Hadoop fait transiter les traitements plutôt que les données: colocalisation traitements/données. ¤  Pouvoir adapter la puissance aux besoins: un cluster Hadoop s’agrandit au fil du temps en fonction des besoins, par ajout incrémental de ressources de stockage et de calcul ( i.e des serveurs) ¤  Garantir une fiabilité de fonctionnement (design for failure): garantir la fiabilité en répliquant n fois les données, du coup on peut perdre n-1 noeuds de cluster sans perdre la donnée. Dès que Hadoop constate la perte de ces serveurs il recrée les répliques manquantes, pour arriver au n fois configuré. ¤  Une plateforme ouverte: De nombreux composants viennent se brancher au dessus d’Hadoop pour offrir des interfaces de haut vol ¤  Open source: qui vit au travers d’une communauté importante de développeurs 2. TECHNOLOGIE: PLUS DE PERFORMANCE Les points forts de Hadoop OCTO TECHNOLOGY > THERE IS A BETTER WAY 10
  11. 11. 2. TECHNOLOGIE: PLUS DE PERFORMANCE Exemples d’amélioration de performance en banque OCTO TECHNOLOGY > THERE IS A BETTER WAY 11 Objectif: ¤  Repérer pour chaque client, le moment de l'année le plus propice pour lui proposer un produit d'épargne Démarche: ¤  Analyser les données relatives aux revenus et à l’effort d’épargne de 8 millions de clients particuliers en France en s'intéressant aux dates de versement de leurs bonus, primes et 13ème mois. Résultat: ¤  "Huit millions de clients à analyser, c'est énorme. Sans la capacité de calcul du big data, nous aurions fait sauter la machine ! » Joseph-Emmanuel Trojman, directeur de la stratégie et des études, pôle banque de détail à la Société Générale ¤  Gain de temps, avec la possibilité d’analyser la masse de données disponible en trois ou quatre minutes au lieu de trois au quatre jours de décryptage. Société Générale Constat: ¤  50 To de données multi-sources intégrées chaque jour Solution: ¤  Mise en place de la plateforme « massivement parallèle » APS Résultat: ¤  Passage de 3 jours pour effectuer des requêtes simples, après la mise en place de la solution plus que quelques minutes sont nécessaires Royal Bank of Scotland Source: La Tribune Source: zdnet.fr
  12. 12. Performance P Différence entre la classe prédite par l’algorithme (domiciliation / non-domiciliation) et la réalité Tâche T Détecter les clients en baisse de relation, qui stoppent la domiciliation de leurs revenus 3. PERFORMANCE: DU BI AU MACHINE LEARNING Prédire sur la base des expérience passées « Algorithme capable d’apprendre d’une Expérience E relative à des Tâches T et une mesure de Performance P  » Expérience E Données client avec des caractéristiques identitaires, d’équipement et historique des transactions ON PARLE DE MACHINE LEARNING SI LA PERFORMANCE P DE L’EXÉCUTION DE LA TÂCHE T AUGMENTE AVEC L’EXPÉRIENCE E 1.  Il existe une corrélation entre les données traitées 2.  Pour identifier cette corrélation une simple formule mathématique ne suffit pas 3.  Il faut disposer de BEAUCOUP de données Les algorithmes de machine Learning existent depuis de nombreuses années, mais la performance des modèles élaborées avant les années 2000 a souvent été bornée par le manque de données disponibles et la puissance des calculs Tom Mitchell 1998 Exemple: « La probabilité pour un client d’arrêter la domiciliation de ses revenus dans les 5 prochains mois » Le Machine Learning Utilisation du machine learning
  13. 13. 02 LA DATA SCIENCE: CRÉER DE LA VALEUR MÉTIER
  14. 14. LA DATASCIENCE EN PRATIQUE: UN LEVIER DE CROISSANCE AU SERVICE DU MÉTIER DE LA BANQUE OCTO TECHNOLOGY > THERE IS A BETTER WAY 14 LA FINALITÉ EST DE CONVERTIR EN ACTIONS ET RENDRE LES DÉCISIONS ACTIVALBES: OFFRES, RÉDUCTIONS, PUBLICITÉ, NOTIFICATION PUSH èe Définir un objectif métier Constituer un dataset de données EVALUER ET AJUSTER LA QUALITÉ DU MODÈLE Spécification du modèle
  15. 15. DÉFINIR UN OBJECTIF MÉTIER Analyses supervisées ou non supervisées OCTO TECHNOLOGY > THERE IS A BETTER WAY 15 Volume de données Grand ( à partir de quelques dizaines de milliers de lignes) Point de départ C’est des couples entrée/sortie, on sait si l’événement s’est produit ou pas ¤  Entrée: les éléments caractéristiques d’un client, un produit, un comportement… qui peuvent être discriminants ¤  Sortie: l’événement s’est produit ou pas C’est beaucoup de données et on ne connaît pas le résultat cherché Objectif Prédire un évènement Identifier des groupes aux caractéristiques communes « Technique » Identifier la corrélation entre les données et la modéliser : représenter les associations entrée-sortie grâce à une fonction de prédiction Analyser les données et identifier des groupes avec des éléments communs Exemple d’algorithmes Régression logistique, Random Forest, Gradient Boosting La détection d’anomalies, La réduction de dimension , Le clustering Valeur métier Les meilleures analyses en terme de valeur métier, mais requièrent des hypothèses fortes sur les données et les cibles Très utile, mais plutôt à voir comme un moyen plutôt qu’une fin en soit Exemple: Je veux prédire le moment de souscription d’un produit Exemple: Je veux segmenter ma clientèle Analyses supervisées sur des objectifs métier Analyses statistiques ou non supervisées ¤  The Supervis ¤  You Unsuper ¤  You ¤  The
  16. 16. Objectifs métiers (ex. améliorer le scoring) Type de modèle/d’algorithme Données internes Données externes Données mixtes / dérivées Contexte métier (ex: système de scoring existant, limites connues…) DÉFINIR UN OBJECTIF MÉTIER Qualifier un Use Case OCTO TECHNOLOGY > THERE IS A BETTER WAY 16 1. Le contexte 2. Les objectif métiers 4. La modélisation 5. Les données d’entrée UN CAS D’USAGE VALIDÉ PAR LE MÉTIER DOIT RÉPONDRE À L’ENSEMBLE DE CES POINTS Objectifs techniques (ex. valider l’utilisation d’un produit ou d’une technique statistique) Données à acquérir pour l’étude de ce cas d’usage 3. Les objectif techniques 6. Les données à prévoir de antes anne, à la
  17. 17. Source Description Structuration Extension Profondeur Résolution Fréquence Accessibilité Exploitabilité Interne Logs web - + + 5 ans Temps réel + +++ Interne CRM +++ + + 5 ans 1 mois +++ +++ Interne Historique de vente ++ ? ? 5 ans 1 jour + ++ Forum Texte libre en base -- ? ? ? ? + - Twitter Texte libre, court + +++ -- 1 heure Temps réel + - Facebook Texte libre Graphe - + + 1 minute Temps réel + - Open data Référentiels Infos INSEE +++ -- 2014,2015 1 mois 1 an +++ +++ CONSTITUER UN DATASET DE DONNÉES Qualifier les données OCTO TECHNOLOGY > THERE IS A BETTER WAY 17 LA QUALIFICATION DES DONNÉES EST UNE ÉTAPE INDISPENSABLE. LA MAJORITÉ DE LA VALEUR SE SITUE DANS LES DONNÉES INTERNES Principaux facteurs de qualité de la donnée qui influent sur la pertinence de la démarche Le nombre d'exemples d’apprentissage (Plusieurs millions d’exemples pour des modèles les plus pertinents) Pas de « Bruit »: distribution normale des données sans valeurs aberrantes (ex: les réseaux sociaux contiennent des données avec beaucoup de « bruit ») Pourcentage de complétude des données: suffisamment de lignes sont renseignées Exemple
  18. 18. Test du meilleur modèle sur des données fraîches Itérations: Sélection du meilleur modèle CONSTITUER UN DATASET DE DONNÉES Diviser le dataset de données pour effectuer une validation croisée OCTO TECHNOLOGY > THERE IS A BETTER WAY 18 Objectif: ¤  Définir le modèle Un jeu de validation 20% des données Un jeu de test 20% des données Un jeu d’entrainement 60% des données Objectif: ¤  Tester les différents modèles paramétrés sur m entrainement Objectif: ¤  Tester le plus honnêtement possible la capacité de généralisation du modèle retenu, utilisé uniquement à la fin du process de modélisation m entrainement m validation m test e ntes anne, à la des de ndre qui de
  19. 19. SPÉCIFICATION DU MODÈLE Sélectionner une famille d’algorithmes OCTO TECHNOLOGY > THERE IS A BETTER WAY 19 Quelle est la taille du dataset? < 10 000 lignes > 10 000 lignes OBTENIR PLUS DE DONNÉES Quel objectif avez vous? Prédire une catégorie Prédire une quantité Analyse déscriptive et dataviz Vous avez des données avec des labelisées? Oui Non CLASSIFICATION CLUSTERING RÉGRESSION RÉDUCTION DE DIMENSION
  20. 20. 03 LE BIG DATA : QUELS USES CASES POUR LA BANQUE?
  21. 21. LE BIG DATA : UNE PRÉOCCUPATION CLÉ POUR LES BANQUES OCTO TECHNOLOGY > THERE IS A BETTER WAY 21 L’importances des technologies analytiques avancées pour les différents domaines 59% 57% 53% 47% 41% 31% 30% Mobile Big Data et analyses de données Open API Objets connectés Réseaux sociaux Crypto-monnaie Cloud Quelles sont les technologies les plus susceptibles de révolutionner la banque de détail? Source: Enquête EFMA Infosys-Finacle 58% 58% 54% 46% 36% 31% Customer intelligence Social intelligence Analyses temps réel Analyses de sentiments Analyse de fraude Analyse risque L’impact du Big Data est particulièrement attendu pour les applications de PFM et de scoring pour des prêts Le mobile et le Big Data vont changer la donne Les uses cases marketing privilégiés Source: Enquête EFMA Infosys-Finacle
  22. 22. LE BIG DATA : UNE PRÉOCCUPATION CLÉ POUR LES BANQUES Exemple: Incubateur BNP Paribas OCTO TECHNOLOGY > THERE IS A BETTER WAY 22 Amalfi et BNP Paribas Cardif : Amalfi est le premier courtier d'assurance peer-to-peer en France. La start-up permet à ses clients de réduire le coût de leur assurance grâce à l'analyse des données comportementales et à la gestion de communautés. Fortia, avec BNP Paribas Securities Services : Fortia Financial Solutions est une RegTech française qui apporte des technologies de rupture aux pratiques règlementaires. Basé sur l'intelligence artificielle, le machine learning et l'intelligence collaborative, les solutions Fortia impactent fortement la gestion de la conformité. Heuritech, avec BNP Paribas Personal Finance : Heuritech développe pour les entreprises, une plateforme d’Intelligence Artificielle simple d’utilisation, qui transforme automatiquement tous les contenus (textes et images multilingues) en information exploitable. KYC3 (Know Your Customer, Counterparty and Competition), avec BNP Paribas Wealth Management : Le KYC dans plusieurs dimensions : maîtriser les risques réglementaires et de réputation dans toute l'entreprise. Du business development à la conformité : obtenir, grâce au machine learning, des informations exploitables à partir de données non structurées. Twinpeek, avec BNP Paribas Wealth Management : TwinPeek est la première solution de Protection & Monétisation de Données Personnelles qui permet à chacun de prendre le contrôle de ses données en ligne et de partager uniquement l'information qu'il souhaite de manière anonyme et en toute sécurité via un Alter Ego numérique, ou 'Twin', lors de transactions, d’interactions ou de navigation sur Internet. de antes anne, à la 5 STARTUPS SUR 8 DE LA PROMOTION FINTECH DE L’INCUBATEUR BNP PARIBAS TRAITENT DE LA DATA
  23. 23. LES USES CASES SONT NOMBREUX ET IMPACTENT LE MODÈLE BANCAIRE A GRANDE ÉCHELLE OCTO TECHNOLOGY > THERE IS A BETTER WAY 23 Le Big Data offre de nouvelles opportunités: ¤  De nouvelles données à exploiter ¤  De nouveaux modèles d’analyses pour la prédiction ¤  Des technologies plus performantes et moins coûteuses Toutes les activités de la banque sont impactées: ¤  Banque de marché et d’investissement ¤  Banque de détail ¤  Assurance ¤  Crédit Tous les métiers de la banque sont concernés par la donnée: ¤  Le marketing ¤  Le risque ¤  La finance ¤  Les Ressources humaines= UN NOMBRE INFINI DE USES CASES OPPORTUNITES BIG DATA x METIERS BANQUE ACTIVITES BANQUE x
  24. 24. ¤  Risques stratégiques: risque lié aux prises de décisions des organes dirigeants ¤  Risques opérationnels: Fraude interne, Fraude externe, dysfonctionnement de l’activité, des systèmes ¤  Risques de non-conformité ¤  Risque de crédit: Risque de crédit (BDD), Risque de contrepartie (BFI), Risque de règlement (BFI) ¤  Risque de marché: Risque de taux, Risque de change, Risque de liquidité ¤  Risque de souscription: risque de pertes financières ou changement défavorable de la valeur des engagements du bancassureur PRINCIPAUX USES CASES BIG DATA EN BANQUE 1. Evaluation et gestion du risque OCTO TECHNOLOGY > THERE IS A BETTER WAY 24 ENTRE UNE FORTE PRESSION RÉGLEMENTAIRE ET UNE AUGMENTATION DES RISQUES EXTERNES, LA GESTION DU RISQUE EST UN SUJET DE PREMIÈRE IMPORTANCE POUR LES BANQUES ET DONT LE COÛT PÈSE LOURD Partage facilité des informations et désilotage des données: ¤  Restructuration et efficacité améliorée de la filière risque ¤  Amélioration de la qualité des données ¤  Partage plus simples des informations entre filiales, entités et applications (ex: dossier client, fiche KYC, analyse de crédit) ¤  Enrichissement des modèles de scoring De nouveaux formats d’analyse et de restitution ¤  Une analyse du risque plus unifiée, transversale et intégrée ¤  Utilisation de la data-visualisation ¤  Des analyses « dynamiques », adaptables en temps réel avec des capacités calculatoires plus importantes Des technologies au service du risque ¤  Performance des plateformes pour répondre plus rapidement aux exigences des régulateurs ¤  De nouveaux scénarios de requête possibles si les données sont d’abord collectées puis structurés Détection de comportements frauduleux facilités: côté clients ou en interne en repérant les comportements « anormaux » ¤ ¤ RisquesacceptésRisquessubis DE Source: Optimind Winter Le Big Data face à la gestion du risque
  25. 25. EVALUATION ET GESTION DU RISQUE Historique de la lutte contre la fraude ¤  Travail sur la détection de fraude dès le développement du digital il y a une vingtaine d’années ¤  2005: Introduction de méthodes d’authentification plus avancées ¤  2010: Début d’utilisation de Hadoop ¤  2011: Nouvel outil analytiques plus avancé Exemple de comportements significatifs détectés Pour les achats de 200$ et plus, dans 85% des cas qui se sont avérés frauduleux, les cartes prépayées ont été utilisées Exemple: Visa face à la détection de la fraude externe OCTO TECHNOLOGY > THERE IS A BETTER WAY 25 2005 2011 2% des données analysés pour les modèles les plus anciens ( depuis les années 2000) Pratiquement l’intégralité des données analysées 40 aspects de la transaction analysés en une fois 500 aspects de la transaction analysés en une fois On se base sur une moyenne On peut faire des analyses individualisées Un seul modèle analytique 16 modèles analytiques sur différents segments, marchés Temps d’ajout d’un nouvel attribut: 2 à 3 jours Temps d’ajout d’un nouvel attribut: 1h 2 milliards de $ de transactions potentiellement frauduleuse supplémentaires identifiées Réduction de la fraude de 2/3 en 20 ans, mais 6 cents sur 100 dollars de transaction seraient encore frauduleux Source: The Wall Street Journal s
  26. 26. EVALUATION ET GESTION DU RISQUE Exemple: Palantir dans la détection de la fraude et les délits d’initiés OCTO TECHNOLOGY > THERE IS A BETTER WAY 26 Un des éléments déclencheurs 2011: UBS, un des concurrents de Crédit Suisse perd 2,3 milliards dans une affaire de trading frauduleux Collaboration avec Palantir Technologies Crédit Suisse créé une joint venture nommée Signac avec Palantir technologies Objectif Détecter des comportements à risques en avance de phase, au lieu de s’intéresser aux symptômes, qui signifient qu’il est déjà trop tard Un des éléments déclencheurs Janvier 2015: la SEC accuse 2 employées de Capital One, d’avoir réalisé sur les 2 dernières années des milliers de recherches concernant les données confidentielles de marché sur plus de 170 entreprises et ainsi généré un profit autour de 3 millions de dollars Collaboration avec Palantir Technologies La SEC (Security and exchange commission) a signé un contrat de 90 millions de dollars avec Palantir technologies Objectif Créer des outils de dépistage de délits d’initités Crédit Suisse crée une joint Venture avec Palantir pour de la fraude interne La SEC collabore avec Palantir pour les délits d’initiés ¤  Palantir Technologies, basée à Palo Alto, est une entreprise de services et d'édition logicielle spécialisé dans les données ¤  Forte implication avec les organismes de renseignements américains NSA, CIA, FBI et l’armée américaine ¤  Diversification forte sur les secteurs d’activité
  27. 27. ¤  Détection des tendances positives ou négatives sur un produit, un service ou une entreprise en analysant les données des réseaux sociaux ¤  Identification des clients avec un cercle d’influence plus important que les autres ¤  Compréhension du mode de vie du client au delà de son comportement financier ¤  Enrichissement des modèles de scoring ¤  Comprendre le comportement du client et prévoir des évènements et comportements ( fermeture de compte, souscription d’un nouveau produit…) ¤  Créer une segmentation plus approfondie, plus pointue, plus rapidement ¤  Optimiser les offres de marketing, commerciales ou le prix pour chaque segment ¤  Détecter le besoin d’un nouveau produit, proposer des services dont les clients ont besoin au bon moment, détecter les produits qui sont achetés ensemble ¤  Optimisation des offres de cross sell / up sell ¤  Détecter les canaux de préférence du client et la propension d’utilisation de chaque canal dans le parcours de vente ¤  Analyser les parcours multicanaux pour détecter le parcours qui mène à la vente et détecter les points de frictions qui interrompent le processus ¤  Etre capable d’orienter les clients vers les canaux à moindre couts PRINCIPALES FAMILLES DE USES CASES 2. Amélioration de la connaissance client OCTO TECHNOLOGY > THERE IS A BETTER WAY 27 Segmentation client Connaissance client Analyse de sentiments Expérience client multicanal Vente de produits
  28. 28. AMÉLIORATION DE LA CONNAISSANCE CLIENT Exemples (1/2) OCTO TECHNOLOGY > THERE IS A BETTER WAY 28 Initiative: ¤  Aider les clients à ne pas se retrouver dans une situation de surendettement ¤  Identifier des signaux faibles permettant 6 mois avant de prédire une situation de surendettement Résultats : ¤  Avec une quinzaine de critères identifiés BPCE atteint une précision du modèle à 80Objectifs ¤  Atteindre à minima 85% et étendre au-delà de 6 mois Initiative: En 2011, BBVA a déployé la plateforme Social Media Analytics d’IBM afin de suivre sa réputation sur les réseaux sociaux et mis en place des process pour réagir à des feedbacks négatifs. Résultats: Sur les 6 premiers mois de test pilote les feedbacks positifs ont augmenté de plus de 1% et les commentaires négatifs ont été réduits de 1,5%. BBVA: analyse de sentiments BPCE: anticiper les difficultés des clients Initiative: ¤  Création d’une équipe d’analystes dédiée à l’expérience client ¤  En tout 100 millions de dollars ont été investis dans le big data depuis une dizaine d’années Résultats: ¤  Amélioration des activités de cross-sell up-sell qui ont permis de générer 30% des revenus de cartes de crédit, 25% de revenus en Wealth management et plus de 85 millions de $ en revenus annexes OCBC: amélioration du cross-selling
  29. 29. ¤  Mise en place d’une solution Smart Business: un service payant à destination des TPE ¤  L’idée est d’avoir un PFM pour les entreprises qui offre en plus des indicateurs de comparaison avec les entreprises du même secteur ( données anonymisées) ¤  L’utilisation de modèles prédictifs à permis à la banque privée Tetra Bank de réduire le churn de 30% ¤  Le client doit télécharger l’application Branch sur son Smartphone et demander un prêt ¤  L’application demande l’accès aux données du Smartphone et les utilise pour un modèle de notation ¤  La réponse à la demande de prêt est immédiate ¤  L’argent est versé sur le compte m- pesa et les remboursement y sont également prélevés ( solution au Kenya) AMÉLIORATION DE LA CONNAISSANCE CLIENT Exemples (2/2) OCTO TECHNOLOGY > THERE IS A BETTER WAY 29 Barclays: Service pour PMETetra Bank BRANCH: analyse des données du Smartphone pour un prêt
  30. 30. PRINCIPALES FAMILLES DE USES CASES 3. Vers de nouveaux usages: exemples OCTO TECHNOLOGY > THERE IS A BETTER WAY 30 ¤  Principe: sur la base de 6 questions le client peut obtenir une analyse de comparaison avec ses « pairs » ¤  Les données: utilisation de données statistiques croisées avec les informations de Ubank et Nab ¤  Exemple de critères « Les gens comme moi »… >  Ont combien d’épargne? >  Quelle est le restaurant qu’ils fréquentent le plus? >  Quelle est leur enseigne préférée? >  Quel café ils fréquentent le plus? >  Quel est leur restaurant préféré quand ils vont en voyage à new York? Principe: ¤  Concours ouvert à tous avec le principe d’utiliser les données mises à disposition via des API Données: ¤  Données de transaction anonymisées de 2012 à avril 2013: 30 millions de transactions sur la base de 2 millions de cartes utilisées dans 200 000 points de vente ¤  Des données réparties en fonction des caractéristiques démographiques des clients, du moment de la dépense et de la catégorie ¤  Pas d’accès au montant des dépenses Gagnants ¤  Qkly: app aidant les utilisateurs à planifier leur temps en estimant l’affluence en fonction de l’heure de la journée ¤  Mad4food: recommandation de cafés, bars et restaurants à Madrid, sur la base des lieux fréquentés par des gens du même profil démographique People like U Innova challenge de BBVA 2013
  31. 31. UN CADRE SOCIÉTAL COMPLEXE POUR LE BIG DATA Une réglementation qui se renforce en Europe OCTO TECHNOLOGY > THERE IS A BETTER WAY 31 La réglementation française et en particulier la CNIL impose déjà une réglementation stricte concernant l’utilisation des données personnelles en particulier en terme de recoupement de données en provenance de différentes sources, leur utilisation de façon massive et automatisée, la demande explicite de l’accord de l’utilisateur… Avril 2016: ¤  Vote par le parlement européen de nouvelles lois de protection des données personnelles. ¤  Les pays membres ont deux ans pour transposer en lois locales, avec une mise en application en 2018 Une réglementation qui se renforce Mai 2016 ( consultation en cours): ¤  EBA (European Banking Authority) lance une consultation sur l’utilisation des données des clients pour les institutions financières afin de faire évoluer la réglementation ¤  Une préoccupation particulière est portée sur les données du paiement Exemple de mesures: ¤  Renforcement des pénalités en cas de non respect des lois ¤  Nécessité de nommer un responsable de la protection des données ¤  Obligation d’informer en cas de failles de sécurité dans les 72h ¤  Enrichir « le droit à l’oubli » ¤  Renforcer le droit à la portabilité des données entre les services pour les individus
  32. 32. ¤  Exemple: Les offres promotionnelles « liées à la carte », proposées sur la base des dépenses du client et prises en compte automatiquement au moment de l’achat après activation de l’offre. ¤  Aux Etats-Unis: Le système opère depuis plusieurs années ( ex: la plateforme BankAmeriDeals proposée par Bank of America) ¤  En Europe: En 2014, ING a du s’arrêter dans leurs réflexions après que l’évocation d’une telle offre ait suscité de vives réactions de la part de la presse et des consommateurs UN CADRE SOCIÉTAL COMPLEXE POUR LE BIG DATA Des clients peu ouverts à l’utilisation de leurs données OCTO TECHNOLOGY > THERE IS A BETTER WAY 32 Une lassitude des clients face aux sollicitations sur internet de leur données Part des clients qui seraient prêts à fournir des informations personnelles pour obtenir des services plus adaptés Etablissements classiques Banques à distance 19% 16% 2013 2015 Etude Deloitte 29% 19% 2013 2015 Des « précédents » La banque mobile et les banques à distance ont elles aussi mis du temps à convaincre les clients. La tendance du Big Data est incontournable, il faut néanmoins trouver un mode d’interaction et de communication pour rassurer ¤ n à
  33. 33. 04 LE BIG DATA : UN IMPACT ORGANISATIONNEL OCTO TECHNOLOGY > THERE IS A BETTER WAY 33
  34. 34. LA STRATÉGIE DATA-DRIVEN COMPANY DOIT ÊTRE FONDÉE SUR DES SUCCÈS OPÉRATIONNELS OCTO TECHNOLOGY > THERE IS A BETTER WAY 34 ¤  Les POC sont une opportunité d’évaluer et d’interroger ces hypothèses pour gagner en maturité et ajuster la feuille de route en conséquence ¤  L’accent doit être porté sur la simplification et la vulgarisation des analyses et la visualisation des données correspondantes afin d’évangéliser un large publicProof of Concept COMPREHENSION: Identification de l’opportunité PREMIERE MISE EN ŒUVRE: Création de valeur DATA DRIVEN COMPANY: Industrialisation Données Uses cases POCs Data Lake d’entreprise Maitrise de la datascience Mise en place de principes d’infrastructure et d’architecture Evolution de l’organisation Axes d’évolution pour une entreprise data-driven LE BIG DATA: PROCEDER PAR ETAPES
  35. 35. MAITRISE DE LA DATASCIENCE Une combinaison de compétences obligatoire OCTO TECHNOLOGY > THERE IS A BETTER WAY 35 LA DATA SCIENCE DOIT S’APPUYER SUR UNE EQUIPE PLURIDISCIPLINAIRE ET AGILE CAR ON NE PEUT PAS TROUVER LE BON MODÈLE DU PREMIER COUP: IL FAUT COLLABORER SUR LA LONGUEUR DU PROJET METIER Business expert TECHNOLOGIE Python SQL java developer STATISTIQUES Machine learning expert / Statisticien STATISTIQUES MÉTIER TECHNOLOGIE DATA SCIENCES Traditionnel Machine Learning
  36. 36. Expertise métier ¤  Identifier les sources de données internes et externes à l’entreprise ¤  Définir des stratégies d’analyses qui peuvent avoir un sens physique ¤  Communiquer les résultats et les prévisions auprès des métiers Préparation de données ¤  Extraire, filtrer, trier et regrouper des données pour former des data sets : PIG, HIVE, SQL… ¤  Qualifier la distribution, la densité et la continuité des données ¤  Identifier les propriétés mathématiques des données ¤  Retraiter les données pour les rendre exploitables par des modèles mathématiques : normalisation, linéarisation, scaling, … Traitement de données non structurées ¤  Traiter le langage, les images, les vidéos et/ou les signaux physiques pour les rendre exploitables mathématiquement ¤  Maitriser les outils d’analyse des données non structurées : Text mining, reconnaissance de forme, … ¤  Maitriser les techniques d’indexation : tf-idf, FFT, … Modélisation statistiques ¤  Maitriser les démarches scientifiques de datamining ¤  Identifier les sets de données : apprentissage, cross validation, test ¤  Maitriser les algorithmes de data mining et de leurs limites ¤  Analyser les résultats d’erreur et du pouvoir prédictif : lift, MAPE, … ¤  Maitriser les techniques d’optimisation des algorithmes : grid search, k-folding, … Représentation graphique ¤  Représenter l’information avec un nombre d’occurrences élevés et de dimensions élevés ¤  Interpréter les représentations graphiques : heatmaps, graph, .. ¤  Spatialiser les graphs avec algorithmes Algorithmes parallèles ¤  Maitriser les implémentations parallelisables et la complexité (O) des algorithmes ¤  Comprendre les implications des traitements sur cluster de calculs partagés ¤  Prototyper des traitements parallèles Hadoop Streaming … MAITRISE DE LA DATASCIENCE Les compétences métier à acquérir OCTO TECHNOLOGY > THERE IS A BETTER WAY 36
  37. 37. Technologies Big Data ¤  Définir l’architecture applicative à partir de composants composites : HDFS, YARN, Cassandra, Neo4j, BI, etc ¤  Maitriser le framework MapReduce ¤  Maitriser le développement sur les technologies Big Data (compétence Java requise) ¤  Déployer sur des clusters Extraction de données ¤  Identifier les composants associés à chaque besoin : PIG, HIVE, Impala, MapReduce, Mahout, ¤  Maitriser la conception et le développement sur les différents composants ¤  Intégrer des données externes au cluster en fonction des types de flux : hadoop fs, sqoop, flume, … Traitement statistiques ¤  Maitriser les principales classes de traitements statistiques : Classification, clustering, regression, PCA… ¤  Maitriser les librairies statistiques : Mahout, Hama, Scikit learn, … ¤  Concevoir et développer des traitements de structuration du langage naturel, des images, des flux vidéos, des signaux de capteurs, … Modélisation non relationnelle ¤  Identifier les modèles adaptés aux besoins métiers et aux contraintes de performances : clef-valeur, colonne, document, graph, tabulaire, … ¤  Maitriser la conception key-valeur : index, clefs composites, embeded entity, … ¤  Concevoir et développer des traitements de manipulations de données non relationnelles Développement graphique ¤  Concevoir et développer des représentations graphiques avec les outils BI ¤  Concevoir et développer des représentations graphiques interactives avancées avec des librairies graphiques : HTML5, D3.js, Highcharts, … ¤  Concevoir et développer des traitements de spatialisation de graphs Traitement parallèle ¤  Concevoir et développer des traitements MapReduce en Java et en scritping (js, python, SAS, R, …) ¤  Concevoir des chaines de traitements en streaming ¤  Prototyper des traitements en streaming MAITRISE DE LA DATASCIENCE Les compétences IT à acquérir OCTO TECHNOLOGY > THERE IS A BETTER WAY 37
  38. 38. EVOLUTION DE L’ORGANISATION La gouvernance de la donnée OCTO TECHNOLOGY > THERE IS A BETTER WAY 38 L’approche de gouvernance « par le terrain » évite de scléroser les initiatives avec des processus de validation lourds, cependant elle demande un investissement des équipes (rôle de data steward) UNE BONNE GOUVERNANCE EST INDISPENSABLE POUR EMPÊCHER LA MULTIPLICATION DE DONNÉES OFFICIEUSES ET CONTRADICTOIRES, INCOMPATIBLE AVEC L’AMBITION D’UN ENTREPÔT FÉDÉRATEUR DE DONNÉES AUDIT ET ACCÈS Définir les droits d’accès fins, journaliser les accès, lever des alertes en cas d’accès indu, corréler autorisations et accès pour repérer les brèches TRAÇABILITÉ ET LIGNAGE Analyser l’ascendance (explication) ou la descendance (analyse d’impact) d’une donnée CATALOGAGE ET INDEXATION Pouvoir retrouver facilement une donnée, et lui attacher des métadonnées (description, classification, autorisations, donnée de référence ou non…) GESTION DU CYCLE DE VIE Automatiser les flux de données en fonction de leurs dépendances, et appliquer des stratégies de stockage (réplication, compression, chiffrement, archivage, diffusion, …)
  39. 39. EVOLUTION DE L’ORGANISATION Une entité Data comme interface entre l’entrepôt et les besoins des équipes OCTO TECHNOLOGY > THERE IS A BETTER WAY 39 EQUIPES PROJET (FEATURE TEAM) ¤  La collaboration rapprochée d’une équipe polyvalente dédiée à un projet (« feature ») offre la réactivité pour : >  Obtenir régulièrement du feedback sur les développements >  Surmonter les nombreux petits obstacles liés à la complexité d’Hadoop ¤  Une telle équipe se constitue et se dissout au gré des projets – projets de quelques jours (POCs) ou de plusieurs années Il assure l’offre de services de l’entrepôt TOP-LEVEL MANAGEMENT Contribue à la vision, stratégie, vision roadmap COMITÉ BIG DATA Assure gouvernance de l’entrepôt: Contribue à la vision stratégique et lance les chantiers d’infrastructure transverses Devops Component Team ( Plateforme) Equipe 1 Equipe 2 … Equipe n TOP-LEVEL MANAGEMENT COMITÉ BIG DATA EQUIPES PROJETS ( FEATURE TEAM) CENTRE DE COMPÉTENCES BIG DATA Une entité transverse orientée « Produits » Besoins des équipesEntité DATA Exploitation Entrepôts
  40. 40. EVOLUTION DE L’ORGANISATION Les rôles 4040 Qu’est ce qu’un Data Steward? Le data steward est un rôle à temps partiel opéré par le Centre de Compétences afin d’assurer la bonne gouvernance des données ¤  Monitorer les flux de données et vérifier leur bonne livraison, alerter en cas de problème ¤  Garantir le respect des conventions de nommage, le respect des rôles et droits d’accès aux données ¤  Mesurer la qualité de la donnée par des indicateurs et reporter son évolution dans le temps ¤  Participer à l’entretien d’une cartographie des données et à la définition d’une urbanisation de la donnée dans l’architecture ¤  Participer au développement des flux COMITÉ BIG DATA EQUIPES PROJETS ( FEATURE TEAM) CENTRE DE COMPÉTENCES BIG DATA L’architecte Big Data en charge de la plateforme Le directeur de l’exploitation liée à la plateforme Un représentant des projets métier 1 ou plusieurs architectes Big Data 2 ou plusieurs experts en développement Hadoop et Java 1 ou plusieurs exploitants (accès à la production) Des « Data Scientists »  Des « Data Stewards » par métier (gestion administrative et technique des données) 1 urbaniste des données Equipe projet Architecte Développeur Expert Technique Chef de projet Data Scientist Exploitant Expert métier/PO Equipe projet Architecte Développeur Expert Technique Chef de projet Data Scientist Exploitant Expert métier/PO
  41. 41. PRINCIPES D’INFRASTRUCTURE ET D’ARCHITECTURE L’architecture d’un Data Lake OCTO TECHNOLOGY > THERE IS A BETTER WAY 41      Stockage  non  structuré    Stockage  semi-­‐structuré   (NoSQL)    Stockage  structuré  (ex.   rela:onnel)   Requêtage  interac:f   Traitements   analy:ques   Traitements  de  flux  Machine  Learning   Base de données Fichiers bruts Logs applicatifs Données externes, OpenAPI Messages & Evénements DW d’entreprise Système opérationnel Reporting, requêtes Données externes, OpenAPI Messages & Evénements DATA  LAKE    INGESTION    PUBLICATION   LES DONNÉES VERSÉES NE SONT PAS DESITNÉES À REPOSER DANS LE LAC: TRANSFORMÉES OU NON, ELLES ONT ENSUITE VOCATION À ÊTRE UTILISÉES
  42. 42. PRINCIPES D’INFRASTRUCTURE ET D’ARCHITECTURE Dimensionnement d’un cluster Hadoop OCTO TECHNOLOGY > THERE IS A BETTER WAY 42 Les nœuds de contrôle 1 serveur primaire Master Node ¤  Mémoire ¤  Type de processeur ¤  Format et capacité de disques 1 serveur secondaire Slave Node 1 serveur Edge Node Les nœuds de traitement n serveurs Worker / Data Nodes ¤  Volumétrie utilisateur ¤  Facteur de réplication ¤  Capacité des disques ¤  Densité des serveurs TYPOLOGIE CARACTÉRISTIQUES TYPOLOGIE CARACTÉRISTIQUES Facteurs pour déterminer le nombre de machines (nœuds) nécessaires et leurs capacités mémoire / disque Le volume de données traité sur le cluster, L’estimation de son taux de croissance attendu La politique de rétention 2 grands types de serveurs
  43. 43. EVALUER LA MATURITÉ DE SON ORGANISATION OCTO TECHNOLOGY > THERE IS A BETTER WAY 43 Le Comex, les métier et l’IT comprennent les enjeux du Big Data et ses impacts organisationnels Mise en place de chantiers de transformation Communication sur les succès réalisés: Pocs, Hackatons… Mise en place de règles de gouvernance de la donnée Stratégie Big Data au sein de l’entreprise Exploitation plus poussée des données internes Intégration et utilisation de sources de données exogènes Mise en place de POCs techniques Le coût de stockage d’un To est drastiquement réduit Datalake d’entreprise Facilité d’exploration et désilotage des données Formation aux technologies issues de l’écosystème Big Data Compréhension de la différence entre BI et data science Identification de nouveaux Uses cases prédictifs Mise en production de nouveaux modèles de datascience Mise en place de modèles locaux non-linéaires ( marketing individualisé…) Activation des modèles en pratique pour le client Temps EXPLORATION PREMIERE MISE EN ŒUVRE DATA DRIVEN COMPANY Maitrise de la datascience Mise en place de principes d’infrastructure et d’architecture Evolution de l’organisation
  44. 44. NOS OUVRAGES DE RÉFÉRENCE OCTO TECHNOLOGY > THERE IS A BETTER WAY 44 http://www.octo.com/fr/livres-blancs
  45. 45. RETROUVEZ TOUS LES CHAPITRES « BANQUE DE DEMAIN » OCTO TECHNOLOGY > THERE IS A BETTER WAY 45 Chapitre 2 : Innovation Chapitre 3 : Les API SORTIE 04 AVRIL UNE ORGANISATION DATA DRIVEN Définir une gouvernance de la donnée afin de garantir à l’utilisateur la meilleure expérience et la sécurité des accès, des échanges et du stockage de données. Chapitre 4 : La data SORTIE 18 AVRIL Chapitre 1 : Le mobile CONCEVOIR UNE APP MOBILE BANCAIRE Réussir votre stratégie bancaire dans l’univers bancaire: Concevoir une vision produit, une expérience utilisateur et un socle technique adapté OUVERTURE SUR L’ECOSYSTEME : LA MISE EN PLACE DES API Accélérer l’exposition des services via des API pour s’intégrer à l’écosystème dans une logique d’open banking. UN MODÈLE D’INNOVATION EFFICACE Transformer l’organisation traditionnelle en mettant en place un cycle d’innovation dans la durée : organisation, méthodologie, UX Design. TELECHARGEZ L’INTRODUCTION: « LA BANQUE DE DEMAIN »
  46. 46. OCTO TECHNOLOGY > THERE IS A BETTER WAY 46 SORTIE 04 AVRIL
  47. 47. Cabinet de conseil IT There is a better way OCTO ACCOMPAGNE SES CLIEN+S DANS LEUR PROJET DE transformation numérique. NOUS SOMMES CONVAINCUS QUE LA +ECHNOLOGIE EST au coeur DE CETTE MUTATION. NOUS CROYONS QUE l'informatique TRANSFORME NOS SOCIÉTÉS NOUS SAVONS QUE LES réalisations marquantes SONT LE FRUIT DU partage DES SAVOIRS ET DU PLAISIR À +RAVAILLER ENSEMBLE NOUS recherchons EN PERMANENCE DE MEILLEURES façons DE FAIRE KEY FIGURES 17 years of profitable, continuous growth Listed on the Paris Stock Exchange since 2006 38 M€ in Sales 245consultants, architects, experts and methodology coaches Strategic independence and financial strength Qui sommes-nous ? 47OCTO TECHNOLOGY > THERE IS A BETTER WAY

×