SlideShare une entreprise Scribd logo
1  sur  12
Pourquoi préparer ses données avec de l’exploration et des
recommandations de transformation automatiques pour une
détection de fraudes plus efficace ?
1er Octobre 2019 - Victor Coustenoble
THE HYPE
“AI is the new electricity”
—ANDREW NG, STANFORD / BAIDU
Proprietary & Confidential.2 Andrew Ng: “Why AI Is the New Electricity”. Insights by Stanford Business. https://www.gsb.stanford.edu/insights/andrew-ng-why-ai-new-electricity
https://hbr.org/2018/04/if-your-data-is-bad-your-machine-learning-tools-are-useless
… pour lutter contre la fraude
“Machine Learning”
“Big Data”
… mais tout le monde a
accès aux mêmes
algorithmes et aux
mêmes plateformes et
puissances de calcul ...
Proprietary & Confidential.4
La différence vient des
données
“Etes-vous sûr d’exploiter le potentiel et l’ensemble des données dont dispose
votre entreprise ?”
“Vos équipes peuvent-elles travailler en mode agile pour tester de nouvelles
associations et combinaisons de données pour mieux détecter les fraudes ?”
Proprietary & Confidential.5
Orlando, Fla., October 17, 2011, Gartner Says Worldwide Enterprise IT Spending to Reach $2.7 Trillion in 2012, https://www.gartner.com/newsroom/id/1824919John Gantz and
David Reinsel, The Digital Universe in 2020: Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East (IDC, 2012) https://www.emc.com/collateral/analyst-reports/idc-
the-digital-universe-in-2020.pdf
Quality data creates a foundation; unique data creates separation
“Poor data quality is enemy number
one to the widespread, profitable use
of machine learning.”
—Harvard Business Review
“So, while there is a visible arms race as
companies bring on machine learning coders
and kick off AI initiatives, there is also a
behind-the-scenes, panicked race for new
and different data.”
—MIT Sloan Management Review
Data Platforms
Databases
Log Files
Spreadsheets
IoT Sensors
Apps
80%
Analysis
Enterprise Data Warehouse
AI
Business Intelligence
“It’s impossible to overstress this:
80% of the work in any data project
is in cleaning the data.”
— DJ Patil, Data Jujitsu, O’Reilly Media 2012
Proprietary & Confidential.7
“The hardest part of AI is the data wrangling.”
—SWAMI SIVASUBRAMANIAN, VP AWS MACHINE LEARNING
#reInvent2018
Data Platforms
Databases
Log Files
Spreadsheets
IoT Sensors
Apps
Analysis
Enterprise Data Warehouse
AI
Business Intelligence
Proprietary & Confidential.8
DATA WRANGLING
• Donnez aux experts métiers les capacités d'une
exploration visuelle et interactive avec des
recommandations de transformation automatiques
pour faciliter et accélérer la découverte et la préparation
des données.
• Permettre au service informatique de gérer et d'opérer
de manière collaborative les pipelines de
transformations des données créés par des experts
métiers.
• Plate-forme unique à l'échelle de l'entreprise accéder
à de diverses sources de données, pour un grand
nombre d'utilisateurs et de cas d'utilisation.
Predictive
Modeling
Business
Intelligence
Data
Onboarding
Risk, Fraud &
Compliance
Audit, Testing
&
Validation
Data Migration
OPERATIONAL
Data Platforms
Databases
Log Files
Spreadsheets
IoT Sensors
Apps
Proprietary & Confidential.9
ValiderDécouvrir Structurer Nettoyer Enrichir Déployer
ANALYTIC
Data Analyst Data Engineer Data Scientist
10 Proprietary & Confidential
Alliance Data
Cardano Risk Management
Alliance Data
Cardano Risk Management
Alliance Data
Cardano Risk Management
Alliance Data
Cardano Risk Management
Clients dans l’assurance
11 Proprietary & Confidential
Retour d’expérience
Pourquoi une solution de préparation de données ?
➔ Démocratiser l’accès à la donnée pour les métiers.
➔ Compléter l’architecture logicielle pour la valorisation des données.
➔ Accélérer les phases de développement des projets.
Utilisations de Trifacta:
• Cas d’utilisation “Décisionnel” : Tableaux de bord et reporting réglementaire pour ACPR.
• Cas d’utilisation “Opérationnel” :
• Surveillance IARD : Découverte + Data Prep + Flux SI Opérationnel.
• Lutte Anti-Fraude IARD : Découverte + Data Prep + Modélisation Métier
avec Transfert vers des partenaires externes.
• Segmentation Marketing : Découverte + DataPrep + Modélisation Métier.
Trop gros volumes pour traitements sur Mainframe => Solution = Hadoop + Trifacta
Merci
vcoustenoble@trifacta.com
https://www.trifacta.com/fr
Essayer gratuitement Trifacta
https://www.trifacta.com/start-wrangling

Contenu connexe

Tendances

Mastère Big Data et Assurance de l'Ecole d'Ingénieur Léonard de Vinci - ESILV
Mastère Big Data et Assurance de l'Ecole d'Ingénieur Léonard de Vinci - ESILVMastère Big Data et Assurance de l'Ecole d'Ingénieur Léonard de Vinci - ESILV
Mastère Big Data et Assurance de l'Ecole d'Ingénieur Léonard de Vinci - ESILV
Romain Jouin
 
DÉBAT SUR LA GOUVERNANCE DE DONNÈES
DÉBAT SUR LA GOUVERNANCE DE DONNÈESDÉBAT SUR LA GOUVERNANCE DE DONNÈES
DÉBAT SUR LA GOUVERNANCE DE DONNÈES
AngelaPieruccini
 

Tendances (20)

Matinée Micropole DE LA BI A LA DATA INTELLIGENCE 18-10-2016
Matinée Micropole DE LA BI A LA DATA INTELLIGENCE 18-10-2016Matinée Micropole DE LA BI A LA DATA INTELLIGENCE 18-10-2016
Matinée Micropole DE LA BI A LA DATA INTELLIGENCE 18-10-2016
 
#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big Data#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big Data
 
Keynote Big Data & Data Science - 24h pharma@dreux
Keynote Big Data & Data Science - 24h pharma@dreuxKeynote Big Data & Data Science - 24h pharma@dreux
Keynote Big Data & Data Science - 24h pharma@dreux
 
Sécurité informatique : un marché dynamisé par le Big Data @ITrustBlog
Sécurité informatique : un marché dynamisé par le Big Data @ITrustBlogSécurité informatique : un marché dynamisé par le Big Data @ITrustBlog
Sécurité informatique : un marché dynamisé par le Big Data @ITrustBlog
 
Atelier IBM Forum MDM Micropole 2014 - Part 1
Atelier IBM Forum MDM Micropole 2014 - Part 1Atelier IBM Forum MDM Micropole 2014 - Part 1
Atelier IBM Forum MDM Micropole 2014 - Part 1
 
006 maintenance
006 maintenance006 maintenance
006 maintenance
 
Le Big Data au coeur de la stratégie des PME par où commencer ?
Le Big Data au coeur de la stratégie des PME par où commencer ? Le Big Data au coeur de la stratégie des PME par où commencer ?
Le Big Data au coeur de la stratégie des PME par où commencer ?
 
Mastère Big Data et Assurance de l'Ecole d'Ingénieur Léonard de Vinci - ESILV
Mastère Big Data et Assurance de l'Ecole d'Ingénieur Léonard de Vinci - ESILVMastère Big Data et Assurance de l'Ecole d'Ingénieur Léonard de Vinci - ESILV
Mastère Big Data et Assurance de l'Ecole d'Ingénieur Léonard de Vinci - ESILV
 
Le Big Data dans la Banque et l'Assurance
Le Big Data dans la Banque et l'AssuranceLe Big Data dans la Banque et l'Assurance
Le Big Data dans la Banque et l'Assurance
 
7 points clés à retenir pour aborder le data management de données clients...
7 points clés à retenir pour aborder le data management de données clients...7 points clés à retenir pour aborder le data management de données clients...
7 points clés à retenir pour aborder le data management de données clients...
 
Talend - Collaboration IT et metiers autour de la donnee en libre-service - ...
Talend - Collaboration IT et metiers autour de la donnee en libre-service -  ...Talend - Collaboration IT et metiers autour de la donnee en libre-service -  ...
Talend - Collaboration IT et metiers autour de la donnee en libre-service - ...
 
DÉBAT SUR LA GOUVERNANCE DE DONNÈES
DÉBAT SUR LA GOUVERNANCE DE DONNÈESDÉBAT SUR LA GOUVERNANCE DE DONNÈES
DÉBAT SUR LA GOUVERNANCE DE DONNÈES
 
Reveelium Data Science as a Service - Datasheet FR
Reveelium Data Science as a Service - Datasheet FRReveelium Data Science as a Service - Datasheet FR
Reveelium Data Science as a Service - Datasheet FR
 
Machine intelligente d’analyse financiere
Machine intelligente d’analyse financiereMachine intelligente d’analyse financiere
Machine intelligente d’analyse financiere
 
Webinaire Business&Decision - Trifacta
Webinaire  Business&Decision - TrifactaWebinaire  Business&Decision - Trifacta
Webinaire Business&Decision - Trifacta
 
SEMARCHY - Transformer les défis en opportunites par le MDM - Data forum MI...
SEMARCHY -  Transformer les défis en opportunites par le MDM -  Data forum MI...SEMARCHY -  Transformer les défis en opportunites par le MDM -  Data forum MI...
SEMARCHY - Transformer les défis en opportunites par le MDM - Data forum MI...
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel business
 
Big Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendancesBig Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendances
 
Matinée Découverte Big Data & Data Science - 24012017
Matinée Découverte Big Data & Data Science - 24012017Matinée Découverte Big Data & Data Science - 24012017
Matinée Découverte Big Data & Data Science - 24012017
 
Memoire recherche
Memoire rechercheMemoire recherche
Memoire recherche
 

Similaire à Préparation de Données pour la Détection de Fraude

OpenDataGarage-Session 3A-Antidot
OpenDataGarage-Session 3A-AntidotOpenDataGarage-Session 3A-Antidot
OpenDataGarage-Session 3A-Antidot
Fing
 
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
IBM France Lab
 

Similaire à Préparation de Données pour la Détection de Fraude (20)

Préparation de Données Hadoop avec Trifacta
Préparation de Données Hadoop avec TrifactaPréparation de Données Hadoop avec Trifacta
Préparation de Données Hadoop avec Trifacta
 
HUBREPORT - Future of Data & CRM [EXTRAIT]
HUBREPORT - Future of Data & CRM [EXTRAIT]HUBREPORT - Future of Data & CRM [EXTRAIT]
HUBREPORT - Future of Data & CRM [EXTRAIT]
 
Workshop l'IA au service de l'industrie - Présentation générale - Extra 14...
Workshop l'IA au service de l'industrie - Présentation générale - Extra 14...Workshop l'IA au service de l'industrie - Présentation générale - Extra 14...
Workshop l'IA au service de l'industrie - Présentation générale - Extra 14...
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
 
Magazine HRI - Le nuage dont tout le monde parle - Alain Fortier Josianne Marsan
Magazine HRI - Le nuage dont tout le monde parle - Alain Fortier Josianne MarsanMagazine HRI - Le nuage dont tout le monde parle - Alain Fortier Josianne Marsan
Magazine HRI - Le nuage dont tout le monde parle - Alain Fortier Josianne Marsan
 
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data VirtualizationSession découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
 
IBM Data lake
IBM Data lakeIBM Data lake
IBM Data lake
 
Big Data - Quel usage au sein des projets internet
Big Data - Quel usage au sein des projets internetBig Data - Quel usage au sein des projets internet
Big Data - Quel usage au sein des projets internet
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
 
La Data levier de différenciation pour Aramis Auto
La Data levier de différenciation pour Aramis AutoLa Data levier de différenciation pour Aramis Auto
La Data levier de différenciation pour Aramis Auto
 
5 étapes pour transformer vos données en informations stratégiques
5 étapes pour transformer vos données en informations stratégiques5 étapes pour transformer vos données en informations stratégiques
5 étapes pour transformer vos données en informations stratégiques
 
Bi analytiques prédictives de sas
Bi analytiques prédictives de sasBi analytiques prédictives de sas
Bi analytiques prédictives de sas
 
Tendances en analytique 2015: Maîtres de l’exploration en profondeur
Tendances en analytique 2015: Maîtres de l’exploration en profondeurTendances en analytique 2015: Maîtres de l’exploration en profondeur
Tendances en analytique 2015: Maîtres de l’exploration en profondeur
 
OpenDataGarage-Session 3A-Antidot
OpenDataGarage-Session 3A-AntidotOpenDataGarage-Session 3A-Antidot
OpenDataGarage-Session 3A-Antidot
 
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
 
La data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeurLa data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeur
 
BigData & Cloud @ Excelerate Systems France
BigData & Cloud @ Excelerate Systems FranceBigData & Cloud @ Excelerate Systems France
BigData & Cloud @ Excelerate Systems France
 
i-expo 2013 : présentation du Linked Enterprise Data par Antidot avec témoign...
i-expo 2013 : présentation du Linked Enterprise Data par Antidot avec témoign...i-expo 2013 : présentation du Linked Enterprise Data par Antidot avec témoign...
i-expo 2013 : présentation du Linked Enterprise Data par Antidot avec témoign...
 
La Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance clientLa Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance client
 

Plus de Victor Coustenoble

Plus de Victor Coustenoble (14)

Préparation de Données dans le Cloud
Préparation de Données dans le CloudPréparation de Données dans le Cloud
Préparation de Données dans le Cloud
 
DataStax Enterprise BBL
DataStax Enterprise BBLDataStax Enterprise BBL
DataStax Enterprise BBL
 
DataStax et Apache Cassandra pour la gestion des flux IoT
DataStax et Apache Cassandra pour la gestion des flux IoTDataStax et Apache Cassandra pour la gestion des flux IoT
DataStax et Apache Cassandra pour la gestion des flux IoT
 
BI, Reporting and Analytics on Apache Cassandra
BI, Reporting and Analytics on Apache CassandraBI, Reporting and Analytics on Apache Cassandra
BI, Reporting and Analytics on Apache Cassandra
 
DataStax et Cassandra dans Azure au Microsoft Techdays
DataStax et Cassandra dans Azure au Microsoft TechdaysDataStax et Cassandra dans Azure au Microsoft Techdays
DataStax et Cassandra dans Azure au Microsoft Techdays
 
Webinar Degetel DataStax
Webinar Degetel DataStaxWebinar Degetel DataStax
Webinar Degetel DataStax
 
Quelles stratégies de Recherche avec Cassandra ?
Quelles stratégies de Recherche avec Cassandra ?Quelles stratégies de Recherche avec Cassandra ?
Quelles stratégies de Recherche avec Cassandra ?
 
Cassandra 2.2 & 3.0
Cassandra 2.2 & 3.0Cassandra 2.2 & 3.0
Cassandra 2.2 & 3.0
 
DataStax Enterprise - La plateforme de base de données pour le Cloud
DataStax Enterprise - La plateforme de base de données pour le CloudDataStax Enterprise - La plateforme de base de données pour le Cloud
DataStax Enterprise - La plateforme de base de données pour le Cloud
 
Datastax Cassandra + Spark Streaming
Datastax Cassandra + Spark StreamingDatastax Cassandra + Spark Streaming
Datastax Cassandra + Spark Streaming
 
DataStax Enterprise et Cas d'utilisation de Apache Cassandra
DataStax Enterprise et Cas d'utilisation de Apache CassandraDataStax Enterprise et Cas d'utilisation de Apache Cassandra
DataStax Enterprise et Cas d'utilisation de Apache Cassandra
 
DataStax - Analytics on Apache Cassandra - Paris Tech Talks meetup
DataStax - Analytics on Apache Cassandra - Paris Tech Talks meetupDataStax - Analytics on Apache Cassandra - Paris Tech Talks meetup
DataStax - Analytics on Apache Cassandra - Paris Tech Talks meetup
 
Spark + Cassandra = Real Time Analytics on Operational Data
Spark + Cassandra = Real Time Analytics on Operational DataSpark + Cassandra = Real Time Analytics on Operational Data
Spark + Cassandra = Real Time Analytics on Operational Data
 
Lightning fast analytics with Cassandra and Spark
Lightning fast analytics with Cassandra and SparkLightning fast analytics with Cassandra and Spark
Lightning fast analytics with Cassandra and Spark
 

Préparation de Données pour la Détection de Fraude

  • 1. Pourquoi préparer ses données avec de l’exploration et des recommandations de transformation automatiques pour une détection de fraudes plus efficace ? 1er Octobre 2019 - Victor Coustenoble
  • 2. THE HYPE “AI is the new electricity” —ANDREW NG, STANFORD / BAIDU Proprietary & Confidential.2 Andrew Ng: “Why AI Is the New Electricity”. Insights by Stanford Business. https://www.gsb.stanford.edu/insights/andrew-ng-why-ai-new-electricity https://hbr.org/2018/04/if-your-data-is-bad-your-machine-learning-tools-are-useless … pour lutter contre la fraude “Machine Learning” “Big Data”
  • 3. … mais tout le monde a accès aux mêmes algorithmes et aux mêmes plateformes et puissances de calcul ...
  • 4. Proprietary & Confidential.4 La différence vient des données
  • 5. “Etes-vous sûr d’exploiter le potentiel et l’ensemble des données dont dispose votre entreprise ?” “Vos équipes peuvent-elles travailler en mode agile pour tester de nouvelles associations et combinaisons de données pour mieux détecter les fraudes ?” Proprietary & Confidential.5 Orlando, Fla., October 17, 2011, Gartner Says Worldwide Enterprise IT Spending to Reach $2.7 Trillion in 2012, https://www.gartner.com/newsroom/id/1824919John Gantz and David Reinsel, The Digital Universe in 2020: Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East (IDC, 2012) https://www.emc.com/collateral/analyst-reports/idc- the-digital-universe-in-2020.pdf
  • 6. Quality data creates a foundation; unique data creates separation “Poor data quality is enemy number one to the widespread, profitable use of machine learning.” —Harvard Business Review “So, while there is a visible arms race as companies bring on machine learning coders and kick off AI initiatives, there is also a behind-the-scenes, panicked race for new and different data.” —MIT Sloan Management Review
  • 7. Data Platforms Databases Log Files Spreadsheets IoT Sensors Apps 80% Analysis Enterprise Data Warehouse AI Business Intelligence “It’s impossible to overstress this: 80% of the work in any data project is in cleaning the data.” — DJ Patil, Data Jujitsu, O’Reilly Media 2012 Proprietary & Confidential.7 “The hardest part of AI is the data wrangling.” —SWAMI SIVASUBRAMANIAN, VP AWS MACHINE LEARNING #reInvent2018
  • 8. Data Platforms Databases Log Files Spreadsheets IoT Sensors Apps Analysis Enterprise Data Warehouse AI Business Intelligence Proprietary & Confidential.8 DATA WRANGLING • Donnez aux experts métiers les capacités d'une exploration visuelle et interactive avec des recommandations de transformation automatiques pour faciliter et accélérer la découverte et la préparation des données. • Permettre au service informatique de gérer et d'opérer de manière collaborative les pipelines de transformations des données créés par des experts métiers. • Plate-forme unique à l'échelle de l'entreprise accéder à de diverses sources de données, pour un grand nombre d'utilisateurs et de cas d'utilisation.
  • 9. Predictive Modeling Business Intelligence Data Onboarding Risk, Fraud & Compliance Audit, Testing & Validation Data Migration OPERATIONAL Data Platforms Databases Log Files Spreadsheets IoT Sensors Apps Proprietary & Confidential.9 ValiderDécouvrir Structurer Nettoyer Enrichir Déployer ANALYTIC Data Analyst Data Engineer Data Scientist
  • 10. 10 Proprietary & Confidential Alliance Data Cardano Risk Management Alliance Data Cardano Risk Management Alliance Data Cardano Risk Management Alliance Data Cardano Risk Management Clients dans l’assurance
  • 11. 11 Proprietary & Confidential Retour d’expérience Pourquoi une solution de préparation de données ? ➔ Démocratiser l’accès à la donnée pour les métiers. ➔ Compléter l’architecture logicielle pour la valorisation des données. ➔ Accélérer les phases de développement des projets. Utilisations de Trifacta: • Cas d’utilisation “Décisionnel” : Tableaux de bord et reporting réglementaire pour ACPR. • Cas d’utilisation “Opérationnel” : • Surveillance IARD : Découverte + Data Prep + Flux SI Opérationnel. • Lutte Anti-Fraude IARD : Découverte + Data Prep + Modélisation Métier avec Transfert vers des partenaires externes. • Segmentation Marketing : Découverte + DataPrep + Modélisation Métier. Trop gros volumes pour traitements sur Mainframe => Solution = Hadoop + Trifacta