SlideShare une entreprise Scribd logo
@Madgicweb
#LaDuckConf
Initier un Datalab :
rien à voir avec ce
que j’imaginais !
La Duck Conf – 29/01
#LaDuckConf
@Madgicweb
#LaDuckConf 2
Frédéric
@Madgicweb
Responsable du département
ARCHITECTURE & DONNEES
@mutuelleMNT @Groupe_VYV
D’ENTREPRISED’ENTREPRISE
@Madgicweb
#LaDuckConf 3
Intelligence artificielle
BIG DATA
DataLake
@Madgicweb
#LaDuckConf 4
Des
indicateurs
« Rétroviseur »
au
« prédictif »
Ordonnancé (Mensuel / Hebdomadaire)
Extract-Transform-Load
Intelligence Biologique
Temps réel (Indicateur / Calcul)
Extract-Load-Transform
Intelligence Artificielle
@Madgicweb
#LaDuckConf
#OnPremise
Réponses à
l’Appel
d’offre
@Madgicweb
#LaDuckConf 6
Sponsoring
#DataLake
#Ingestion
#Cluster
#IA #DataViz
#API
#Streaming
???
MOI SPONSOR
@Madgicweb
#LaDuckConf 7
Le maillon
faible
Pourquoi ? Quoi ?
Quel but ?
Avec qui ?
Quelles données ?
Quelle valeur ?
En phase avec la
stratégie ?
Le ROI ?
…
Comment ?
@Madgicweb
#LaDuckConf 8
Back to basic
Des bases à
maitriser !
MACHINE
LEARNING
(Apprentissage)
DATA
GOUVERNANCE
Data Mining
(Corrélation)
Data Analysis
(Analyse)
Data Analyitics
(Collecte)
BIG DATA
(Passage à l’échelle)
DATA SCIENCE
@Madgicweb
#LaDuckConf 9
C’est parti !!!
Ihssane
RSA
Anne-Marie
Décisionnel
Wiame
Data Scientiste
Brieuc
Data Scientist
Patrice
Décisionnel
Philippe
RDE
DATALAB
…
@Madgicweb
#LaDuckConf 10
Définir les
fondamentaux
du Datalab
Former :
Se familiariser avec les outils de « Data
Science » proposés par la communauté
Opensource. Explorer les algorithmes. Coder.
Expérimenter :
Collecter, analyser et estimer l’effort de
traitement des données de l’entreprise (Accès,
qualité, utilité…). Evaluer leurs potentiels.
Valoriser :
Communiquer régulièrement sur la valeur
apportée par nos travaux et nos initiatives.
Développer :
Fonder une communauté pluridisciplinaire
autour de cas concrets estampillés « Data
Driven ».
1
Quel but ?
Quoi ?
Avec qui ?
Quelle valeur ?
@Madgicweb
#LaDuckConf 11
Identifier des
cas d’usage
stratégiques
Offres
MNT
Recommandation Attrition Fraude
2
@Madgicweb
#LaDuckConf 12
Obtenir
l’outillage
minimum
nécessaire
256 GO RAM
1 To Disque
32 vCPU
R Studio
Jupyter
Spark
CSV
Connecteur BDD
3
@Madgicweb
#LaDuckConf 13
Le grand
principe
GO
Sources
Big Matrice
Algorithme
Machine learning
Matrice de normalité et
détection d’atypisme
Local Outlier Factor
(Unspervised /
Dimensionality Reduction)
Variationnal Auto-Encoder
(Supervised / Regression)
Isolation Forest
(Supervised /Classification)
Spectral Ranking Anomaly
(Unsupervised / Clusturing)
@Madgicweb
#LaDuckConf 14
Premières
difficultés
• Accessibilité des données
(BASES PROGICIEL, DÉMATÉRIALISATION, RÉGLEMENTATION, …)
• Qualité des données
(GARDAGE IN – GARBAGE OUT)
• Véracité de la donnée
(NON MISE À JOUR, SYSTÈME AUTORITAIRE)
• Historiser les changements des modèles de donnée
(SAVOIR FAIRE UN LIEN D’UNE DONNÉE SUR PLUSIEURS ANNÉES D’HISTORIQUE)
• Disponibilité des intervenants
(LE DATALAB N’EST PAS UN PROJET MAIS UNE EXPÉRIMENTATION)
• Consommer des « Data Set » de plus en plus volumineux
(NOTRE SIMPLE SERVEUR N’EST PAS PÉRENNE)
@Madgicweb
#LaDuckConf 15
Premiers
échecs
enseignements
Recommandation
Attrition
Fraude
Choix des algorithmes
Qualité de la donnée
L’intelligence artificielle
ne fait pas tout
@Madgicweb
#LaDuckConf 16
• Identifier les données de chaque système applicatif.
• Corréler une même donnée présente dans plusieurs
systèmes applicatifs.
• Analyser les traitements intra-système applicatif afin
d'estimer la fraîcheur de la donnée et l’autorité du
système applicatif sur cette donnée. Lier les données
brutes aux informations générées.
• Estampiller les données (métadonnées) afin de cadrer
leurs utilisations (Ex : RGPD).
• Déterminer les règles d’accès suivant l’appelant et le
traitement.
S’appuyer
sur la
gouvernance
de donnée
Initiative 1
@Madgicweb
#LaDuckConf 17
Se focaliser
sur un seul
sujet :
LA FRAUDE
S’appuyer sur les règles de
gestion existantes
Augmenter les performances à
l’aide d’intelligence
Artificielle
Interpréter les résultats,
adapter les processus
d’investigation et améliorer le
dispositif global
1
2
3
>
>
>
Initiative 2
@Madgicweb
#LaDuckConf 18
Bilan
Former :
Lancement de la Datalab Academy et
formation des équipes aux fondamentaux de la
« Data Science ».
Expérimenter :
Identification des sources utiles, application
d’une gouvernance de la donnée. Création
d’algorithmes d’extraction, de raffinage et de
traitement de la donnée.
Valoriser :
L’outil facilite l’identification d’atypisme part la
cellule de fraude. Le taux de détection, de
comportements abusifs avérés, augmente.
Développer :
Collaboration forte avec les métiers. (Itératif)
Sensibilisation au travers de présentations.
Quel but ?
Quoi ?
Avec qui ?
Quelle valeur ?
@Madgicweb
#LaDuckConf 19
Timeline
Juin Juillet Août Septembre Octobre Novembre Décembre Janvier
< Sensibilisation au BigData
Equipe Décisionnel motivée
COMEX
Approche
#DALAKE
(Data-Platform)
Appel d’offre BigData
Projet de gouvernance de
donnée débuté
COMEX
Approche
#DATALAB
Lancement
du
DATALAB
Identification
des besoins
métiers
Livraison
du serveur
Extraction et raffinage
des données identifiées
pour les cas d’usage
POC Churn
V2
Etude d’algorithme
de Data-Science
&
Datalab Academy
Focaliser sur
la Fraude
Premier
succès.
Présentation
COMEXArrêts
Lancement de la
Data-Platform
DIVE
Gouvernance de donnée
Session
spécifique
@Madgicweb
#LaDuckConf 20
Création de la
Data
Platform
Restitution
DataMart Services
Processing Jobs
Datalake Services
Extraction
Sources
Gouvernance
DataLab
HDFS
DIVE*
* Données et indicateurs de la
vie de l’entreprise
Dictionnaire
des données
?
@Madgicweb
#LaDuckConf 21
Une approche
Data-Centric
malgré nous
Data is the center of the
universe;
applications are
ephemeral.
Réétudier la conception :
• Formaliser la structure d’un objet métier (création d’un modèle unique
partagé VERSUS un modèle spécifique à chaque système applicatif).
• Identifier chaque fonctionnalité et le système applicatif en charge du
traitement de cette règle métier.
Assurer l’intégrité :
• Gouverner des sources de données faisant autorités sur
l’information afin d’établir une source unique de vérité.
Augmenter sa part de responsabilité :
• Sécuriser l’accès à la donnée.
• Être en capacité de se justifier.
Adapter ses interfaces de restitution :
• Donner l'accès à la donnée sous plusieurs formats et méthodes (Pull,
Push, Evènementiel, Extraction par fichier)
http://datacentricmanifesto.org/
@Madgicweb
#LaDuckConf 22
Take Away
Si je pouvais conseiller le
Frédéric que j’étais !
• La plateforme n’est pas la priorité (Mais sans, ça va être compliqué)
• Fait le avec le métier
• Identifie rapidement la matière première dont tu disposes
et sa complexité de raffinage en t’appuyant sur la
gouvernance de la donnée
• Focalise-toi sur un seul sujet afin d’éviter de transformer
tes « data-set » en « data-swamp »
• Ne t’attends pas à un miracle, la data-science c’est pas
magique
• Utilise des méthodes pragmatique car par définition le
« Datalab » expérimente et se trompe@Madgicweb

Contenu connexe

Tendances

Mapping french open data actors on the web with common crawl
Mapping french open data actors on the web with common crawlMapping french open data actors on the web with common crawl
Mapping french open data actors on the web with common crawl
data publica
 
Hadoop File system (HDFS)
Hadoop File system (HDFS)Hadoop File system (HDFS)
Hadoop File system (HDFS)
Prashant Gupta
 
Real-Time Data Flows with Apache NiFi
Real-Time Data Flows with Apache NiFiReal-Time Data Flows with Apache NiFi
Real-Time Data Flows with Apache NiFi
Manish Gupta
 
Internal Hive
Internal HiveInternal Hive
Internal Hive
Recruit Technologies
 
Apache Spark Crash Course
Apache Spark Crash CourseApache Spark Crash Course
Apache Spark Crash Course
DataWorks Summit
 
Hive Training -- Motivations and Real World Use Cases
Hive Training -- Motivations and Real World Use CasesHive Training -- Motivations and Real World Use Cases
Hive Training -- Motivations and Real World Use Cases
nzhang
 
HBase in Practice
HBase in PracticeHBase in Practice
HBase in Practice
larsgeorge
 
GMOプライベートDMPの仕組み
GMOプライベートDMPの仕組みGMOプライベートDMPの仕組み
GMOプライベートDMPの仕組み
Michio Katano
 
OrientDB introduction - NoSQL
OrientDB introduction - NoSQLOrientDB introduction - NoSQL
OrientDB introduction - NoSQL
Luca Garulli
 
Distributed Tracing with Jaeger
Distributed Tracing with JaegerDistributed Tracing with Jaeger
Distributed Tracing with Jaeger
Inho Kang
 
Hadoop ppt2
Hadoop ppt2Hadoop ppt2
Hadoop ppt2
Ankit Gupta
 
Etsy Activity Feeds Architecture
Etsy Activity Feeds ArchitectureEtsy Activity Feeds Architecture
Etsy Activity Feeds Architecture
Dan McKinley
 
분산 트랜잭션 환경에서 데이터 일관성 유지 방안 업로드용
분산 트랜잭션 환경에서 데이터 일관성 유지 방안 업로드용분산 트랜잭션 환경에서 데이터 일관성 유지 방안 업로드용
분산 트랜잭션 환경에서 데이터 일관성 유지 방안 업로드용
승필 박
 
Analyzing MySQL Logs with ClickHouse, by Peter Zaitsev
Analyzing MySQL Logs with ClickHouse, by Peter ZaitsevAnalyzing MySQL Logs with ClickHouse, by Peter Zaitsev
Analyzing MySQL Logs with ClickHouse, by Peter Zaitsev
Altinity Ltd
 
AWS Real-Time Event Processing
AWS Real-Time Event ProcessingAWS Real-Time Event Processing
AWS Real-Time Event Processing
Amazon Web Services
 
Change Data Streaming Patterns for Microservices With Debezium
Change Data Streaming Patterns for Microservices With Debezium Change Data Streaming Patterns for Microservices With Debezium
Change Data Streaming Patterns for Microservices With Debezium
confluent
 
Mendix rest services
Mendix rest servicesMendix rest services
Mendix rest services
G Acellam
 
Text tagging with finite state transducers
Text tagging with finite state transducersText tagging with finite state transducers
Text tagging with finite state transducers
lucenerevolution
 
A Beginner's Guide to Building Data Pipelines with Luigi
A Beginner's Guide to Building Data Pipelines with LuigiA Beginner's Guide to Building Data Pipelines with Luigi
A Beginner's Guide to Building Data Pipelines with Luigi
Growth Intelligence
 
Java Core | Understanding the Disruptor: a Beginner's Guide to Hardcore Concu...
Java Core | Understanding the Disruptor: a Beginner's Guide to Hardcore Concu...Java Core | Understanding the Disruptor: a Beginner's Guide to Hardcore Concu...
Java Core | Understanding the Disruptor: a Beginner's Guide to Hardcore Concu...
JAX London
 

Tendances (20)

Mapping french open data actors on the web with common crawl
Mapping french open data actors on the web with common crawlMapping french open data actors on the web with common crawl
Mapping french open data actors on the web with common crawl
 
Hadoop File system (HDFS)
Hadoop File system (HDFS)Hadoop File system (HDFS)
Hadoop File system (HDFS)
 
Real-Time Data Flows with Apache NiFi
Real-Time Data Flows with Apache NiFiReal-Time Data Flows with Apache NiFi
Real-Time Data Flows with Apache NiFi
 
Internal Hive
Internal HiveInternal Hive
Internal Hive
 
Apache Spark Crash Course
Apache Spark Crash CourseApache Spark Crash Course
Apache Spark Crash Course
 
Hive Training -- Motivations and Real World Use Cases
Hive Training -- Motivations and Real World Use CasesHive Training -- Motivations and Real World Use Cases
Hive Training -- Motivations and Real World Use Cases
 
HBase in Practice
HBase in PracticeHBase in Practice
HBase in Practice
 
GMOプライベートDMPの仕組み
GMOプライベートDMPの仕組みGMOプライベートDMPの仕組み
GMOプライベートDMPの仕組み
 
OrientDB introduction - NoSQL
OrientDB introduction - NoSQLOrientDB introduction - NoSQL
OrientDB introduction - NoSQL
 
Distributed Tracing with Jaeger
Distributed Tracing with JaegerDistributed Tracing with Jaeger
Distributed Tracing with Jaeger
 
Hadoop ppt2
Hadoop ppt2Hadoop ppt2
Hadoop ppt2
 
Etsy Activity Feeds Architecture
Etsy Activity Feeds ArchitectureEtsy Activity Feeds Architecture
Etsy Activity Feeds Architecture
 
분산 트랜잭션 환경에서 데이터 일관성 유지 방안 업로드용
분산 트랜잭션 환경에서 데이터 일관성 유지 방안 업로드용분산 트랜잭션 환경에서 데이터 일관성 유지 방안 업로드용
분산 트랜잭션 환경에서 데이터 일관성 유지 방안 업로드용
 
Analyzing MySQL Logs with ClickHouse, by Peter Zaitsev
Analyzing MySQL Logs with ClickHouse, by Peter ZaitsevAnalyzing MySQL Logs with ClickHouse, by Peter Zaitsev
Analyzing MySQL Logs with ClickHouse, by Peter Zaitsev
 
AWS Real-Time Event Processing
AWS Real-Time Event ProcessingAWS Real-Time Event Processing
AWS Real-Time Event Processing
 
Change Data Streaming Patterns for Microservices With Debezium
Change Data Streaming Patterns for Microservices With Debezium Change Data Streaming Patterns for Microservices With Debezium
Change Data Streaming Patterns for Microservices With Debezium
 
Mendix rest services
Mendix rest servicesMendix rest services
Mendix rest services
 
Text tagging with finite state transducers
Text tagging with finite state transducersText tagging with finite state transducers
Text tagging with finite state transducers
 
A Beginner's Guide to Building Data Pipelines with Luigi
A Beginner's Guide to Building Data Pipelines with LuigiA Beginner's Guide to Building Data Pipelines with Luigi
A Beginner's Guide to Building Data Pipelines with Luigi
 
Java Core | Understanding the Disruptor: a Beginner's Guide to Hardcore Concu...
Java Core | Understanding the Disruptor: a Beginner's Guide to Hardcore Concu...Java Core | Understanding the Disruptor: a Beginner's Guide to Hardcore Concu...
Java Core | Understanding the Disruptor: a Beginner's Guide to Hardcore Concu...
 

Similaire à La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !

Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
Denodo
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
Denodo
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
Denodo
 
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Denodo
 
Analytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data VirtualizationAnalytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data Virtualization
Denodo
 
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Excelerate Systems
 
IODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data ScienceIODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data Science
BorderCloud
 
Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"
Philippe METAYER
 
Du Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processusDu Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processus
CHAKER ALLAOUI
 
BigDataBx #1 - Journée BigData à la CCI de Bordeaux
BigDataBx #1 - Journée BigData à la CCI de BordeauxBigDataBx #1 - Journée BigData à la CCI de Bordeaux
BigDataBx #1 - Journée BigData à la CCI de Bordeaux
Excelerate Systems
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigData
Ludovic Piot
 
Les technologies big data avec speech commentaries
Les technologies big data avec speech commentariesLes technologies big data avec speech commentaries
Les technologies big data avec speech commentaries
Rima Jamli Faidi
 
Livre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakesLivre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakes
Converteo
 
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
Micropole Group
 
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015IBM France Lab
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel business
Mouhsine LAKHDISSI
 
Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...
Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...
Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...
Jean-Michel Franco
 
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data VirtualizationSession découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
Denodo
 
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data VirtualizationSession en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
Denodo
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide Academy
Oxalide
 

Similaire à La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais ! (20)

Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
 
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
 
Analytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data VirtualizationAnalytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data Virtualization
 
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
Enterprise Data Hub - La Clé de la Transformation de la Gestion de Données d'...
 
IODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data ScienceIODS : Retour d’expériences au sein du Center for Data Science
IODS : Retour d’expériences au sein du Center for Data Science
 
Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"
 
Du Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processusDu Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processus
 
BigDataBx #1 - Journée BigData à la CCI de Bordeaux
BigDataBx #1 - Journée BigData à la CCI de BordeauxBigDataBx #1 - Journée BigData à la CCI de Bordeaux
BigDataBx #1 - Journée BigData à la CCI de Bordeaux
 
Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigData
 
Les technologies big data avec speech commentaries
Les technologies big data avec speech commentariesLes technologies big data avec speech commentaries
Les technologies big data avec speech commentaries
 
Livre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakesLivre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakes
 
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...INFORMATION BUILDERS -  Comment integrer les big data a votre SI -  Data foru...
INFORMATION BUILDERS - Comment integrer les big data a votre SI - Data foru...
 
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel business
 
Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...
Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...
Big Data : au delà du proof of concept et de l'expérimentation (Matinale busi...
 
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data VirtualizationSession découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
 
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data VirtualizationSession en ligne: Découverte du Logical Data Fabric & Data Virtualization
Session en ligne: Découverte du Logical Data Fabric & Data Virtualization
 
Morning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide AcademyMorning Tech#1 BigData - Oxalide Academy
Morning Tech#1 BigData - Oxalide Academy
 

Plus de OCTO Technology

OCTO TALKS : 4 Tech Trends du Software Engineering.pdf
OCTO TALKS : 4 Tech Trends du Software Engineering.pdfOCTO TALKS : 4 Tech Trends du Software Engineering.pdf
OCTO TALKS : 4 Tech Trends du Software Engineering.pdf
OCTO Technology
 
Le Comptoir OCTO - Équipes infra et prod, ne ratez pas l'embarquement pour l'...
Le Comptoir OCTO - Équipes infra et prod, ne ratez pas l'embarquement pour l'...Le Comptoir OCTO - Équipes infra et prod, ne ratez pas l'embarquement pour l'...
Le Comptoir OCTO - Équipes infra et prod, ne ratez pas l'embarquement pour l'...
OCTO Technology
 
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...
OCTO Technology
 
Le Comptoir OCTO - Améliorer le Time to Market grâce au Headless : la recette...
Le Comptoir OCTO - Améliorer le Time to Market grâce au Headless : la recette...Le Comptoir OCTO - Améliorer le Time to Market grâce au Headless : la recette...
Le Comptoir OCTO - Améliorer le Time to Market grâce au Headless : la recette...
OCTO Technology
 
Le Comptoir OCTO - Qu'apporte l'analyse de cycle de vie d'un audit d'éco-conc...
Le Comptoir OCTO - Qu'apporte l'analyse de cycle de vie d'un audit d'éco-conc...Le Comptoir OCTO - Qu'apporte l'analyse de cycle de vie d'un audit d'éco-conc...
Le Comptoir OCTO - Qu'apporte l'analyse de cycle de vie d'un audit d'éco-conc...
OCTO Technology
 
Le Comptoir OCTO - Se conformer à la CSRD : un levier d'action insoupçonné
Le Comptoir OCTO - Se conformer à la CSRD : un levier d'action insoupçonnéLe Comptoir OCTO - Se conformer à la CSRD : un levier d'action insoupçonné
Le Comptoir OCTO - Se conformer à la CSRD : un levier d'action insoupçonné
OCTO Technology
 
Le Comptoir OCTO - MLOps : Les patterns MLOps dans le cloud
Le Comptoir OCTO - MLOps : Les patterns MLOps dans le cloudLe Comptoir OCTO - MLOps : Les patterns MLOps dans le cloud
Le Comptoir OCTO - MLOps : Les patterns MLOps dans le cloud
OCTO Technology
 
La Grosse Conf 2024 - Philippe Stepniewski -Atelier - Live coding d'une base ...
La Grosse Conf 2024 - Philippe Stepniewski -Atelier - Live coding d'une base ...La Grosse Conf 2024 - Philippe Stepniewski -Atelier - Live coding d'une base ...
La Grosse Conf 2024 - Philippe Stepniewski -Atelier - Live coding d'une base ...
OCTO Technology
 
La Grosse Conf 2024 - Philippe Prados - Atelier - RAG : au-delà de la démonst...
La Grosse Conf 2024 - Philippe Prados - Atelier - RAG : au-delà de la démonst...La Grosse Conf 2024 - Philippe Prados - Atelier - RAG : au-delà de la démonst...
La Grosse Conf 2024 - Philippe Prados - Atelier - RAG : au-delà de la démonst...
OCTO Technology
 
Le Comptoir OCTO - Maîtriser le RAG : connecter les modèles d’IA génératives ...
Le Comptoir OCTO - Maîtriser le RAG : connecter les modèles d’IA génératives ...Le Comptoir OCTO - Maîtriser le RAG : connecter les modèles d’IA génératives ...
Le Comptoir OCTO - Maîtriser le RAG : connecter les modèles d’IA génératives ...
OCTO Technology
 
OCTO Talks - Les IA s'invitent au chevet des développeurs
OCTO Talks - Les IA s'invitent au chevet des développeursOCTO Talks - Les IA s'invitent au chevet des développeurs
OCTO Talks - Les IA s'invitent au chevet des développeurs
OCTO Technology
 
OCTO Talks - Lancement du livre Culture Test
OCTO Talks - Lancement du livre Culture TestOCTO Talks - Lancement du livre Culture Test
OCTO Talks - Lancement du livre Culture Test
OCTO Technology
 
Le Comptoir OCTO - Green AI, comment éviter que votre votre potion magique d’...
Le Comptoir OCTO - Green AI, comment éviter que votre votre potion magique d’...Le Comptoir OCTO - Green AI, comment éviter que votre votre potion magique d’...
Le Comptoir OCTO - Green AI, comment éviter que votre votre potion magique d’...
OCTO Technology
 
OCTO Talks - State of the art Architecture dans les frontend web
OCTO Talks - State of the art Architecture dans les frontend webOCTO Talks - State of the art Architecture dans les frontend web
OCTO Talks - State of the art Architecture dans les frontend web
OCTO Technology
 
Refcard GraphQL
Refcard GraphQLRefcard GraphQL
Refcard GraphQL
OCTO Technology
 
Comptoir OCTO ALD Automotive/Leaseplan
Comptoir OCTO ALD Automotive/LeaseplanComptoir OCTO ALD Automotive/Leaseplan
Comptoir OCTO ALD Automotive/Leaseplan
OCTO Technology
 
Le Comptoir OCTO - Comment optimiser les stocks en linéaire par la Data ?
Le Comptoir OCTO - Comment optimiser les stocks en linéaire par la Data ? Le Comptoir OCTO - Comment optimiser les stocks en linéaire par la Data ?
Le Comptoir OCTO - Comment optimiser les stocks en linéaire par la Data ?
OCTO Technology
 
Le Comptoir OCTO - Retour sur 5 ans de mise en oeuvre : Comment le RGPD a réi...
Le Comptoir OCTO - Retour sur 5 ans de mise en oeuvre : Comment le RGPD a réi...Le Comptoir OCTO - Retour sur 5 ans de mise en oeuvre : Comment le RGPD a réi...
Le Comptoir OCTO - Retour sur 5 ans de mise en oeuvre : Comment le RGPD a réi...
OCTO Technology
 
Le Comptoir OCTO - Affinez vos forecasts avec la planification distribuée et...
Le Comptoir OCTO -  Affinez vos forecasts avec la planification distribuée et...Le Comptoir OCTO -  Affinez vos forecasts avec la planification distribuée et...
Le Comptoir OCTO - Affinez vos forecasts avec la planification distribuée et...
OCTO Technology
 
Le Comptoir OCTO - La formation au cœur de la stratégie d’éco-conception
Le Comptoir OCTO - La formation au cœur de la stratégie d’éco-conceptionLe Comptoir OCTO - La formation au cœur de la stratégie d’éco-conception
Le Comptoir OCTO - La formation au cœur de la stratégie d’éco-conception
OCTO Technology
 

Plus de OCTO Technology (20)

OCTO TALKS : 4 Tech Trends du Software Engineering.pdf
OCTO TALKS : 4 Tech Trends du Software Engineering.pdfOCTO TALKS : 4 Tech Trends du Software Engineering.pdf
OCTO TALKS : 4 Tech Trends du Software Engineering.pdf
 
Le Comptoir OCTO - Équipes infra et prod, ne ratez pas l'embarquement pour l'...
Le Comptoir OCTO - Équipes infra et prod, ne ratez pas l'embarquement pour l'...Le Comptoir OCTO - Équipes infra et prod, ne ratez pas l'embarquement pour l'...
Le Comptoir OCTO - Équipes infra et prod, ne ratez pas l'embarquement pour l'...
 
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...
 
Le Comptoir OCTO - Améliorer le Time to Market grâce au Headless : la recette...
Le Comptoir OCTO - Améliorer le Time to Market grâce au Headless : la recette...Le Comptoir OCTO - Améliorer le Time to Market grâce au Headless : la recette...
Le Comptoir OCTO - Améliorer le Time to Market grâce au Headless : la recette...
 
Le Comptoir OCTO - Qu'apporte l'analyse de cycle de vie d'un audit d'éco-conc...
Le Comptoir OCTO - Qu'apporte l'analyse de cycle de vie d'un audit d'éco-conc...Le Comptoir OCTO - Qu'apporte l'analyse de cycle de vie d'un audit d'éco-conc...
Le Comptoir OCTO - Qu'apporte l'analyse de cycle de vie d'un audit d'éco-conc...
 
Le Comptoir OCTO - Se conformer à la CSRD : un levier d'action insoupçonné
Le Comptoir OCTO - Se conformer à la CSRD : un levier d'action insoupçonnéLe Comptoir OCTO - Se conformer à la CSRD : un levier d'action insoupçonné
Le Comptoir OCTO - Se conformer à la CSRD : un levier d'action insoupçonné
 
Le Comptoir OCTO - MLOps : Les patterns MLOps dans le cloud
Le Comptoir OCTO - MLOps : Les patterns MLOps dans le cloudLe Comptoir OCTO - MLOps : Les patterns MLOps dans le cloud
Le Comptoir OCTO - MLOps : Les patterns MLOps dans le cloud
 
La Grosse Conf 2024 - Philippe Stepniewski -Atelier - Live coding d'une base ...
La Grosse Conf 2024 - Philippe Stepniewski -Atelier - Live coding d'une base ...La Grosse Conf 2024 - Philippe Stepniewski -Atelier - Live coding d'une base ...
La Grosse Conf 2024 - Philippe Stepniewski -Atelier - Live coding d'une base ...
 
La Grosse Conf 2024 - Philippe Prados - Atelier - RAG : au-delà de la démonst...
La Grosse Conf 2024 - Philippe Prados - Atelier - RAG : au-delà de la démonst...La Grosse Conf 2024 - Philippe Prados - Atelier - RAG : au-delà de la démonst...
La Grosse Conf 2024 - Philippe Prados - Atelier - RAG : au-delà de la démonst...
 
Le Comptoir OCTO - Maîtriser le RAG : connecter les modèles d’IA génératives ...
Le Comptoir OCTO - Maîtriser le RAG : connecter les modèles d’IA génératives ...Le Comptoir OCTO - Maîtriser le RAG : connecter les modèles d’IA génératives ...
Le Comptoir OCTO - Maîtriser le RAG : connecter les modèles d’IA génératives ...
 
OCTO Talks - Les IA s'invitent au chevet des développeurs
OCTO Talks - Les IA s'invitent au chevet des développeursOCTO Talks - Les IA s'invitent au chevet des développeurs
OCTO Talks - Les IA s'invitent au chevet des développeurs
 
OCTO Talks - Lancement du livre Culture Test
OCTO Talks - Lancement du livre Culture TestOCTO Talks - Lancement du livre Culture Test
OCTO Talks - Lancement du livre Culture Test
 
Le Comptoir OCTO - Green AI, comment éviter que votre votre potion magique d’...
Le Comptoir OCTO - Green AI, comment éviter que votre votre potion magique d’...Le Comptoir OCTO - Green AI, comment éviter que votre votre potion magique d’...
Le Comptoir OCTO - Green AI, comment éviter que votre votre potion magique d’...
 
OCTO Talks - State of the art Architecture dans les frontend web
OCTO Talks - State of the art Architecture dans les frontend webOCTO Talks - State of the art Architecture dans les frontend web
OCTO Talks - State of the art Architecture dans les frontend web
 
Refcard GraphQL
Refcard GraphQLRefcard GraphQL
Refcard GraphQL
 
Comptoir OCTO ALD Automotive/Leaseplan
Comptoir OCTO ALD Automotive/LeaseplanComptoir OCTO ALD Automotive/Leaseplan
Comptoir OCTO ALD Automotive/Leaseplan
 
Le Comptoir OCTO - Comment optimiser les stocks en linéaire par la Data ?
Le Comptoir OCTO - Comment optimiser les stocks en linéaire par la Data ? Le Comptoir OCTO - Comment optimiser les stocks en linéaire par la Data ?
Le Comptoir OCTO - Comment optimiser les stocks en linéaire par la Data ?
 
Le Comptoir OCTO - Retour sur 5 ans de mise en oeuvre : Comment le RGPD a réi...
Le Comptoir OCTO - Retour sur 5 ans de mise en oeuvre : Comment le RGPD a réi...Le Comptoir OCTO - Retour sur 5 ans de mise en oeuvre : Comment le RGPD a réi...
Le Comptoir OCTO - Retour sur 5 ans de mise en oeuvre : Comment le RGPD a réi...
 
Le Comptoir OCTO - Affinez vos forecasts avec la planification distribuée et...
Le Comptoir OCTO -  Affinez vos forecasts avec la planification distribuée et...Le Comptoir OCTO -  Affinez vos forecasts avec la planification distribuée et...
Le Comptoir OCTO - Affinez vos forecasts avec la planification distribuée et...
 
Le Comptoir OCTO - La formation au cœur de la stratégie d’éco-conception
Le Comptoir OCTO - La formation au cœur de la stratégie d’éco-conceptionLe Comptoir OCTO - La formation au cœur de la stratégie d’éco-conception
Le Comptoir OCTO - La formation au cœur de la stratégie d’éco-conception
 

La Duck Conf - Initier un Datalab : rien à voir avec ce que j'imaginais !

  • 1. @Madgicweb #LaDuckConf Initier un Datalab : rien à voir avec ce que j’imaginais ! La Duck Conf – 29/01 #LaDuckConf
  • 2. @Madgicweb #LaDuckConf 2 Frédéric @Madgicweb Responsable du département ARCHITECTURE & DONNEES @mutuelleMNT @Groupe_VYV D’ENTREPRISED’ENTREPRISE
  • 4. @Madgicweb #LaDuckConf 4 Des indicateurs « Rétroviseur » au « prédictif » Ordonnancé (Mensuel / Hebdomadaire) Extract-Transform-Load Intelligence Biologique Temps réel (Indicateur / Calcul) Extract-Load-Transform Intelligence Artificielle
  • 7. @Madgicweb #LaDuckConf 7 Le maillon faible Pourquoi ? Quoi ? Quel but ? Avec qui ? Quelles données ? Quelle valeur ? En phase avec la stratégie ? Le ROI ? … Comment ?
  • 8. @Madgicweb #LaDuckConf 8 Back to basic Des bases à maitriser ! MACHINE LEARNING (Apprentissage) DATA GOUVERNANCE Data Mining (Corrélation) Data Analysis (Analyse) Data Analyitics (Collecte) BIG DATA (Passage à l’échelle) DATA SCIENCE
  • 9. @Madgicweb #LaDuckConf 9 C’est parti !!! Ihssane RSA Anne-Marie Décisionnel Wiame Data Scientiste Brieuc Data Scientist Patrice Décisionnel Philippe RDE DATALAB …
  • 10. @Madgicweb #LaDuckConf 10 Définir les fondamentaux du Datalab Former : Se familiariser avec les outils de « Data Science » proposés par la communauté Opensource. Explorer les algorithmes. Coder. Expérimenter : Collecter, analyser et estimer l’effort de traitement des données de l’entreprise (Accès, qualité, utilité…). Evaluer leurs potentiels. Valoriser : Communiquer régulièrement sur la valeur apportée par nos travaux et nos initiatives. Développer : Fonder une communauté pluridisciplinaire autour de cas concrets estampillés « Data Driven ». 1 Quel but ? Quoi ? Avec qui ? Quelle valeur ?
  • 11. @Madgicweb #LaDuckConf 11 Identifier des cas d’usage stratégiques Offres MNT Recommandation Attrition Fraude 2
  • 12. @Madgicweb #LaDuckConf 12 Obtenir l’outillage minimum nécessaire 256 GO RAM 1 To Disque 32 vCPU R Studio Jupyter Spark CSV Connecteur BDD 3
  • 13. @Madgicweb #LaDuckConf 13 Le grand principe GO Sources Big Matrice Algorithme Machine learning Matrice de normalité et détection d’atypisme Local Outlier Factor (Unspervised / Dimensionality Reduction) Variationnal Auto-Encoder (Supervised / Regression) Isolation Forest (Supervised /Classification) Spectral Ranking Anomaly (Unsupervised / Clusturing)
  • 14. @Madgicweb #LaDuckConf 14 Premières difficultés • Accessibilité des données (BASES PROGICIEL, DÉMATÉRIALISATION, RÉGLEMENTATION, …) • Qualité des données (GARDAGE IN – GARBAGE OUT) • Véracité de la donnée (NON MISE À JOUR, SYSTÈME AUTORITAIRE) • Historiser les changements des modèles de donnée (SAVOIR FAIRE UN LIEN D’UNE DONNÉE SUR PLUSIEURS ANNÉES D’HISTORIQUE) • Disponibilité des intervenants (LE DATALAB N’EST PAS UN PROJET MAIS UNE EXPÉRIMENTATION) • Consommer des « Data Set » de plus en plus volumineux (NOTRE SIMPLE SERVEUR N’EST PAS PÉRENNE)
  • 15. @Madgicweb #LaDuckConf 15 Premiers échecs enseignements Recommandation Attrition Fraude Choix des algorithmes Qualité de la donnée L’intelligence artificielle ne fait pas tout
  • 16. @Madgicweb #LaDuckConf 16 • Identifier les données de chaque système applicatif. • Corréler une même donnée présente dans plusieurs systèmes applicatifs. • Analyser les traitements intra-système applicatif afin d'estimer la fraîcheur de la donnée et l’autorité du système applicatif sur cette donnée. Lier les données brutes aux informations générées. • Estampiller les données (métadonnées) afin de cadrer leurs utilisations (Ex : RGPD). • Déterminer les règles d’accès suivant l’appelant et le traitement. S’appuyer sur la gouvernance de donnée Initiative 1
  • 17. @Madgicweb #LaDuckConf 17 Se focaliser sur un seul sujet : LA FRAUDE S’appuyer sur les règles de gestion existantes Augmenter les performances à l’aide d’intelligence Artificielle Interpréter les résultats, adapter les processus d’investigation et améliorer le dispositif global 1 2 3 > > > Initiative 2
  • 18. @Madgicweb #LaDuckConf 18 Bilan Former : Lancement de la Datalab Academy et formation des équipes aux fondamentaux de la « Data Science ». Expérimenter : Identification des sources utiles, application d’une gouvernance de la donnée. Création d’algorithmes d’extraction, de raffinage et de traitement de la donnée. Valoriser : L’outil facilite l’identification d’atypisme part la cellule de fraude. Le taux de détection, de comportements abusifs avérés, augmente. Développer : Collaboration forte avec les métiers. (Itératif) Sensibilisation au travers de présentations. Quel but ? Quoi ? Avec qui ? Quelle valeur ?
  • 19. @Madgicweb #LaDuckConf 19 Timeline Juin Juillet Août Septembre Octobre Novembre Décembre Janvier < Sensibilisation au BigData Equipe Décisionnel motivée COMEX Approche #DALAKE (Data-Platform) Appel d’offre BigData Projet de gouvernance de donnée débuté COMEX Approche #DATALAB Lancement du DATALAB Identification des besoins métiers Livraison du serveur Extraction et raffinage des données identifiées pour les cas d’usage POC Churn V2 Etude d’algorithme de Data-Science & Datalab Academy Focaliser sur la Fraude Premier succès. Présentation COMEXArrêts Lancement de la Data-Platform DIVE Gouvernance de donnée Session spécifique
  • 20. @Madgicweb #LaDuckConf 20 Création de la Data Platform Restitution DataMart Services Processing Jobs Datalake Services Extraction Sources Gouvernance DataLab HDFS DIVE* * Données et indicateurs de la vie de l’entreprise Dictionnaire des données ?
  • 21. @Madgicweb #LaDuckConf 21 Une approche Data-Centric malgré nous Data is the center of the universe; applications are ephemeral. Réétudier la conception : • Formaliser la structure d’un objet métier (création d’un modèle unique partagé VERSUS un modèle spécifique à chaque système applicatif). • Identifier chaque fonctionnalité et le système applicatif en charge du traitement de cette règle métier. Assurer l’intégrité : • Gouverner des sources de données faisant autorités sur l’information afin d’établir une source unique de vérité. Augmenter sa part de responsabilité : • Sécuriser l’accès à la donnée. • Être en capacité de se justifier. Adapter ses interfaces de restitution : • Donner l'accès à la donnée sous plusieurs formats et méthodes (Pull, Push, Evènementiel, Extraction par fichier) http://datacentricmanifesto.org/
  • 22. @Madgicweb #LaDuckConf 22 Take Away Si je pouvais conseiller le Frédéric que j’étais ! • La plateforme n’est pas la priorité (Mais sans, ça va être compliqué) • Fait le avec le métier • Identifie rapidement la matière première dont tu disposes et sa complexité de raffinage en t’appuyant sur la gouvernance de la donnée • Focalise-toi sur un seul sujet afin d’éviter de transformer tes « data-set » en « data-swamp » • Ne t’attends pas à un miracle, la data-science c’est pas magique • Utilise des méthodes pragmatique car par définition le « Datalab » expérimente et se trompe@Madgicweb