Pourquoi préparer ses données avec de l’exploration et des recommandations de transformation automatiques pour une détection de fraudes plus efficace ?
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
Préparation de Données pour la Détection de Fraude
1. Pourquoi préparer ses données avec de l’exploration et des
recommandations de transformation automatiques pour une
détection de fraudes plus efficace ?
1er Octobre 2019 - Victor Coustenoble
2. THE HYPE
“AI is the new electricity”
—ANDREW NG, STANFORD / BAIDU
Proprietary & Confidential.2 Andrew Ng: “Why AI Is the New Electricity”. Insights by Stanford Business. https://www.gsb.stanford.edu/insights/andrew-ng-why-ai-new-electricity
https://hbr.org/2018/04/if-your-data-is-bad-your-machine-learning-tools-are-useless
… pour lutter contre la fraude
“Machine Learning”
“Big Data”
3. … mais tout le monde a
accès aux mêmes
algorithmes et aux
mêmes plateformes et
puissances de calcul ...
5. “Etes-vous sûr d’exploiter le potentiel et l’ensemble des données dont dispose
votre entreprise ?”
“Vos équipes peuvent-elles travailler en mode agile pour tester de nouvelles
associations et combinaisons de données pour mieux détecter les fraudes ?”
Proprietary & Confidential.5
Orlando, Fla., October 17, 2011, Gartner Says Worldwide Enterprise IT Spending to Reach $2.7 Trillion in 2012, https://www.gartner.com/newsroom/id/1824919John Gantz and
David Reinsel, The Digital Universe in 2020: Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East (IDC, 2012) https://www.emc.com/collateral/analyst-reports/idc-
the-digital-universe-in-2020.pdf
6. Quality data creates a foundation; unique data creates separation
“Poor data quality is enemy number
one to the widespread, profitable use
of machine learning.”
—Harvard Business Review
“So, while there is a visible arms race as
companies bring on machine learning coders
and kick off AI initiatives, there is also a
behind-the-scenes, panicked race for new
and different data.”
—MIT Sloan Management Review
7. Data Platforms
Databases
Log Files
Spreadsheets
IoT Sensors
Apps
80%
Analysis
Enterprise Data Warehouse
AI
Business Intelligence
“It’s impossible to overstress this:
80% of the work in any data project
is in cleaning the data.”
— DJ Patil, Data Jujitsu, O’Reilly Media 2012
Proprietary & Confidential.7
“The hardest part of AI is the data wrangling.”
—SWAMI SIVASUBRAMANIAN, VP AWS MACHINE LEARNING
#reInvent2018
8. Data Platforms
Databases
Log Files
Spreadsheets
IoT Sensors
Apps
Analysis
Enterprise Data Warehouse
AI
Business Intelligence
Proprietary & Confidential.8
DATA WRANGLING
• Donnez aux experts métiers les capacités d'une
exploration visuelle et interactive avec des
recommandations de transformation automatiques
pour faciliter et accélérer la découverte et la préparation
des données.
• Permettre au service informatique de gérer et d'opérer
de manière collaborative les pipelines de
transformations des données créés par des experts
métiers.
• Plate-forme unique à l'échelle de l'entreprise accéder
à de diverses sources de données, pour un grand
nombre d'utilisateurs et de cas d'utilisation.
10. 10 Proprietary & Confidential
Alliance Data
Cardano Risk Management
Alliance Data
Cardano Risk Management
Alliance Data
Cardano Risk Management
Alliance Data
Cardano Risk Management
Clients dans l’assurance
11. 11 Proprietary & Confidential
Retour d’expérience
Pourquoi une solution de préparation de données ?
➔ Démocratiser l’accès à la donnée pour les métiers.
➔ Compléter l’architecture logicielle pour la valorisation des données.
➔ Accélérer les phases de développement des projets.
Utilisations de Trifacta:
• Cas d’utilisation “Décisionnel” : Tableaux de bord et reporting réglementaire pour ACPR.
• Cas d’utilisation “Opérationnel” :
• Surveillance IARD : Découverte + Data Prep + Flux SI Opérationnel.
• Lutte Anti-Fraude IARD : Découverte + Data Prep + Modélisation Métier
avec Transfert vers des partenaires externes.
• Segmentation Marketing : Découverte + DataPrep + Modélisation Métier.
Trop gros volumes pour traitements sur Mainframe => Solution = Hadoop + Trifacta