SlideShare une entreprise Scribd logo
1  sur  77
KeyNote
Big Data & Data Science
Vendredi 12 Octobre 2018
Alexia Audevart
Data & Enthusiasm
@aaudevart
President of
Toulouse Data Science meet-up
Co-organizer of
Toulouse DevFest conference
Founder of datactik
Data Scientist
Par$e 1 : Data & Big Data
Données vs Data vs Datum
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
5 exaoctets
(1 exaoctet = 1 million teraoctet)
Internet
1sec
<
Réseaux
sociaux
Internet
des objets
* Digital Universe Study by IDC, 2012.
L’évolution des données
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Datanami
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
QUIZZ
Quelle est la valeur marchande annuelle des données
personnelles laissées gratuitement par les internautes ?
1 000 milliards de dollars
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
… des nouvelles technologies
et des outils pour exploiter et
analyser ces données
Une variété de sources de
données…
… et des outils &
technologies pour les
visualiser et les utiliser
Calculators, Storage... Big Analytics
Visualisation
Interfaces
Platforms & Apps
Internal & External
Que se cache derrière le buzzword Big Data ?
Le BIG DATA n’est pas une technologie
Mais la capacité de collecter, stocker, traiter, valoriser, rapidement à moindre
coût de gros volumes de données
où la taille unitaire d’une donnée est insignifiante.
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Vers une nouvelle gestion des données
Process-centric
• Données structurées
• Données venant de sources Internes
• Données “importantes” uniquement
• Multiple copies des Données
Data-centric
• Données de tous types (structurées, semi-
structurées, non-structurées)
• Données venant de multiple sources de données
(interne & externe)
Data
App
App
App
App
App
App
Data
Data
Data
Data
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Analyzed Data
Structured Data
Unstructured Data
Reservoir data
Run Analytics
Business Insights
Data Lake
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Data Sources
Internal DataSources External DataSources
Data Usage
Access Layer
Usage
AnalyticsAPI / Drivers
Data
Exploration
Search
DataSecurity&Governance
Orchestration
Administatration
Staging Data
Unstructured DataSemi-structured DataStructured Data
Foundation Data
Processed Data
Storage
Processing
Searching Data
Crossing /
Cleaning Data
Machine
Learning
Data Acquisition
Ingestion Streaming
Event ProcessingData Loader Data Capture
Data Lake
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
L’écosystème Big Data
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
L’écosystème Big Data
Hadoop
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
L’écosystème Big Data
Bases de données NoSQL
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
L’écosystème Big Data
Moteurs de recherche &
Analyse de logs
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
L’écosystème Big Data
Data Visualisation + BI
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
L’écosystème Big Data
Data Science
Machine Learning
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Pourquoi utiliser le Big Data ?
• Archivage
• Déchargement d’entrepôt de données
• ETL (Extract-Transform-Load)
• Fail-Over
Réductions des couts
• Analyser et Irer de la valeur des
données de l’entreprise
• Analyser des données exogènes de
l’entreprise et les corréler avec des
données internes
Elargir le champ des possibles
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Quelques cas d’utilisation
Partie 2 : Valorisation des données
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Data
Mining
Base de
données
Intelligence
Artificielle
Machine Learning
Statistiques
Réaliser des machines capable
de simuler l’intelligence
Donner la possibilité à des machines
d’apprendre sans être explicitement
programmées pour.
Découvrir des structures
dans de vastes ensembles de
données (patterns).
Ensemble de méthodes permettant
de décrire et d’analyser des
observations (ou des données)
Reconnaissance
de Patterns
Deep
Learning
Data Buzz Words
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
L’expertise humaine n’existe pas L’humain n’est pas capable d’expliquer son expertise
Les solutions changent au cours du temps Les solutions doivent s’adapter à des cas particuliers
Navigation sur Mars Reconnaissance vocale
Routing dans un réseau informatique Empreinte biométrique
Machine learning : quand ?
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Le Machine Learning
Expérience Tâche Performance
Données d’entrées
• Prix de maisons
• Images
• Transaction Clients
• Clickstream data
Tâche
• Prédire les prix
• Catégoriser les images
• Segmenter les clients
• Optimiser les flux
d’utilisateurs
Performance
• Prix précis
• Images triées correctement
• Groupement cohérent
• KPI
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Un programme informatique se dit d’apprendre de l’expérience E par rapport à une catégorie
de tâches T et mesure de la performance P, si sa performance à des tâches T, telle que
mesurée par P, s’améliore avec l’expérience E.
Tom Mitchell – 1998
Le Machine Learning
Expérience Tâche Performance
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Quizz
Supposons que votre logiciel de messagerie surveille les emails que vous marquez en spam/non spam
et qu'il apprenne à mieux filtrer les spams.
Identifier la tâche T, la mesure de performance P et l’expérience E
• Classifier des emails en spam et non spam
• Emails labellisés en spam ou non spam
• Le nombre d’emails correctement classés en spam/non spam
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Définition : Modèle Machine Learning
Représentation mathématique des relations dans un ensemble de données
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Features = éléments ou dimensions d’un jeu de données
Définition
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Machine Learning – Phase d’apprentissage
Historical
Data
Compare Models
Feature
Engineering
Test
Train
Validation
Validation Results
Hyper-parameter
tuning
Build Models
MODELS
Test Results
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
InferenceLearning
Modèle Machine Learning
Expected
Label
New Input Data
Text,
Documents,
Images,
Sounds,
….
MODEL
Training Input Data
Text,
Documents,
Images,
Sounds,
….
Labels
Features
Vectors
Features
Vector
Machine Learning
Algorithm
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
3 Types d’apprentissage
Appren6ssage Supervisé Apprentissage Non Supervisé
Appren6ssage par
renforcement
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
EvolutionariesConnectionistsBayesiansSymbolists
Systematically
reduce uncertainty
Simulate evolutionEmulate the brain
Fill the gaps in
existing knowledge
Source Image : Blog PWC Pedro Domingo-The Master Algorithm
Analogizers
Notice similarities
between old and
new
Ces différents courants peuvent être combinés pour résoudre des problématiques.
Les 5 courants du Machine Learning
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Partie 3 : Data Visualisation
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Définition de la data visualisation ?
Ensemble de méthodes et techniques
de représentation
des données sous forme visuelle
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Quand utilise-t-on la data visualisation ?
La communication implique de la simplification,
L’exploration de données implique de l’exhaustivité.
Exploration des données Représenta:on des données
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
60 000 fois plus
Rapide d’analyser une image que du texte
90% de l’information transmise au
cerveau est visuelle
1 image vaut 1000 mots
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Besoin de raisonner, à un certain niveau de difficulté et pour une certaine
quantité d’informations
=> utilisation de supports externes
Ce principe est nommé la cognition externe
Le raisonnement humain
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Le raisonnement humain
2 Phases
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
La dataviz a toujours existé
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
QUIZZ
Quels sont les graphiques que vous connaissez ?
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Invention de 3 graphiques – William Playfair
« En fait de moyens et de calculs, le plus sûr moyen
de frapper l’esprit est de frapper les yeux » - William Playfair
Série statistique chronologique
sous forme de courbe
Le graphique en barre Le camembert
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Quelle est la proportion de chaque groupe ?
Ethic composition of prisoners in Jail in 2008 in the USA. (Le Monde 5/12/2014)
?
?
?37 %
16 %
44 %
QUIZZ
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Le camembert
Un pie chart ou camembert regroupent ces 3 caractéristiques :
• Angles
• Aires
• Arcs de cercle
Mauvaise appréciation par l’oeil de ces 3 caractéristiques !
Si plus de 4 catégories sont représentées :
• Trop de secteur = comparaison difficile
• Superposition des libellées
• Quasi inexistence des petits secteurs
• Nb de couleurs = affichage indigeste
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
La Time line - Joseph Priestley (1765)
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
http://www.concerthotels.com/100-years-of-rock/
Exemples
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
h4p://mbtaviz.github.io/
Exemples
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
La dataviz concerne tous les types de données
Données structurées Données semi-structurées Données non structurées
LOG
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Variables qualitatives ou catégorielles
expriment une qualité
=> Représente des catégories que l’on nomme avec
un label
Exemple :
• signe astrologique
• liste des pays
Opération : = , ≠
Variables Nominales
=> Catégories naturellement ordonnées = le rang
Exemple :
• un peu, moyen, beaucoup, à la folie
Opération : = , ≠, <, >
Variables Ordinales
Différents types de variables
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Variables quantitatives
contiennent des valeurs mesurables
Þ Variables numériques ayant des valeurs
dénombrables entre deux valeurs
Þ Variables ayant des valeurs finies
Exemple :
• Nombre de voitures dans la rue
• Nombre de personnes majeures
• Nombre de candidats à l’examen
Variables Discrètes
=> Variables numériques ayant un nombre infini de
valeurs entre deux valeurs.
Exemple :
• La vitesse d’une voiture
• La taille, le poids d’une personne
• Le temps de réalisation d’une tâche
Variables Continues
Différents types de variables
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Relation entre les données
Information qualitative
=> Pas de notion d’ordre
Information ordonnée
=> Des données numériques ou
non
Information quantitative
=> Quantités absolues
Ressemblance et Différence
= ≠
Ordre, Classement, Hiérarchie
O
Proportionnalité
Q
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
3 graphiques pour représenter les données quantitatives
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Choisir le bon graphique
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Un modèle (simple) de la perception visuelle humaine
Etape 1
Perception Pré-attentive
Etape 2
Consolidation des objets
identifiés &
représentation spatiale
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Capacités pré-attentives
• Perception inconsciente
• Mécanismes bas niveau du système visuel
• Extrêmement rapide : réaction en 200 ms
• Montée en charge : le temps de réaction
croit lentement avec le nombre d’objets
• Différents types de stimuli
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Perceptions Visuelles
Limites et freins de la nature humaine
• Physiologie de l’oeil
• Illusions graphiques
• Fausses interprétations
• Daltonisme
• Erreurs d’appréciation
• Préjugés de formes
• Charge cognitive
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Edward Tufte :
• Professeur Américain
• “Leonard de Vinci des données” par le NY Times
• Auteur de 4 livres : http://www.edwardtufte.com/tufte/
Ses travaux :
• Concept du data-ink ratio
=> Maximiser la data densité
• Intégrité : Eviter les manipulations / tordre les données
L’excellence graphique se détermine donc par la conjonction de la densité de
l’information associée à une faible densité visuelle
Les Travaux de Tufte
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Distribution d’une variable continue en 5 groupes
Les Travaux de Tufte : Data-ink ratio
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Suppression de l’encre ne représentant pas les données
Les Travaux de Tufte : Data-ink ratio
Distribution d’une variable continue en 5 groupes
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Suppression de toutes les informations redondantes
Les Travaux de Tufte : Data-ink ratio
Distribution d’une variable continue en 5 groupes
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Suppression de toutes les informations redondantes
Les Travaux de Tufte : Data-ink ratio
Distribution d’une variable continue en 5 groupes
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Mise en évidence des données
Les Travaux de Tufte : Data-ink ratio
Distribution d’une variable continue en 5 groupes
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Distribution d’une variable continue en 4 groupes
Les Travaux de Tufte : Data-ink ratio
L’excellence graphique se détermine donc par la conjonction de la densité
de l’information associée à une faible densité visuelle
Avons nous perdu des informations ?
Quelle information est mise en évidence ?
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Integrité : The lie Factor
Fuel Economy Standards – NY Times 1978
Les Travaux de Tufte : Intégrité – Lie Factor
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Integrité : The lie Factor
Les Travaux de Tufte : Intégrité – Lie Factor
Fuel Economy Standards – Revisited
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
• Salaires : 28 % représentés par... 200 %
• Heures de vol : 200 % de différence pour représenter 23 %
Le Point : https://twitter.com/lepoint/status/657611278832287744
Attention aux manipulations : Intégrité – Lie Factor
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
L’effet visuel doit être égal à l’effet dans les données
Lie Factor = 1 sinon DISTORSION
Les Travaux de Tufte : Intégrité – Lie Factor
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Expliquer Eclairer Engager / Divertir
Les clés du Data Storytelling
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Le Data Storytelling permet de démocratiser l’accès aux données
et de faciliter la prise de décision
Les clés du Data Storytelling
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Story Telling
http://histography.io/
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
• Quel est le message que vous souhaitez transmettre ?
• A quel public est-il destiné ?
• Quelles questions se pose ce public ?
• Quelles réponses lui apportez-vous?
• Les données les plus importantes sont-elles mises en valeur ?
• La compréhension de votre visualisation est-elle rapide ?
• Est-elle intelligible par elle même ?
Posez-vous les bonnes questions !
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Librairies JavaScript
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Les acteurs :
Self Service BI
Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
Les acteurs
• Kibana
• Roambi
• …
Tableaux de bords interactifs
Merci de votre attention.
A vous de jouer !

Contenu connexe

Tendances

Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Philippe METAYER
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessVincent de Stoecklin
 
Competitic big data et commerce
Competitic   big data et commerceCompetitic   big data et commerce
Competitic big data et commerceCOMPETITIC
 
Big Data... Big Analytics à travers les âges, les industries et les technologies
Big Data... Big Analytics à travers les âges, les industries et les technologiesBig Data... Big Analytics à travers les âges, les industries et les technologies
Big Data... Big Analytics à travers les âges, les industries et les technologiesHassan Lâasri
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel businessMouhsine LAKHDISSI
 
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...Jean-Pierre Riehl
 
Les enjeux du Big Data pour l'Entreprise - These professionnelle -Touria Engo...
Les enjeux du Big Data pour l'Entreprise - These professionnelle -Touria Engo...Les enjeux du Big Data pour l'Entreprise - These professionnelle -Touria Engo...
Les enjeux du Big Data pour l'Entreprise - These professionnelle -Touria Engo...Touria Engohan
 
Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013ADBS
 
Data Visualisation, Business Intelligence et Big Data
Data Visualisation, Business Intelligence et Big DataData Visualisation, Business Intelligence et Big Data
Data Visualisation, Business Intelligence et Big DataVincent Lagorce
 
La valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usagesLa valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usagesSAS FRANCE
 
BIG DATA - Cloud Computing
BIG DATA - Cloud ComputingBIG DATA - Cloud Computing
BIG DATA - Cloud Computingsenejug
 
Du Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processusDu Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processusCHAKER ALLAOUI
 
Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...
Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...
Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...Romain Fonnier
 

Tendances (20)

Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-business
 
Conférence big data
Conférence big dataConférence big data
Conférence big data
 
Etude sur le Big Data
Etude sur le Big DataEtude sur le Big Data
Etude sur le Big Data
 
Introduction au BIG DATA
Introduction au BIG DATAIntroduction au BIG DATA
Introduction au BIG DATA
 
Competitic big data et commerce
Competitic   big data et commerceCompetitic   big data et commerce
Competitic big data et commerce
 
Big Data... Big Analytics à travers les âges, les industries et les technologies
Big Data... Big Analytics à travers les âges, les industries et les technologiesBig Data... Big Analytics à travers les âges, les industries et les technologies
Big Data... Big Analytics à travers les âges, les industries et les technologies
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel business
 
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...
Data Science : Méthodologie, Outillage et Application - MS Cloud Summit Paris...
 
Big Data, kesako ?
Big Data, kesako ?Big Data, kesako ?
Big Data, kesako ?
 
I love BIG DATA
I love BIG DATAI love BIG DATA
I love BIG DATA
 
Les enjeux du Big Data pour l'Entreprise - These professionnelle -Touria Engo...
Les enjeux du Big Data pour l'Entreprise - These professionnelle -Touria Engo...Les enjeux du Big Data pour l'Entreprise - These professionnelle -Touria Engo...
Les enjeux du Big Data pour l'Entreprise - These professionnelle -Touria Engo...
 
Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013Big Data, Charles Huot, Aproged,février 2013
Big Data, Charles Huot, Aproged,février 2013
 
Data Visualisation, Business Intelligence et Big Data
Data Visualisation, Business Intelligence et Big DataData Visualisation, Business Intelligence et Big Data
Data Visualisation, Business Intelligence et Big Data
 
La valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usagesLa valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usages
 
Big data
Big dataBig data
Big data
 
BIG DATA - Cloud Computing
BIG DATA - Cloud ComputingBIG DATA - Cloud Computing
BIG DATA - Cloud Computing
 
Programme Big Data
Programme Big DataProgramme Big Data
Programme Big Data
 
Du Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processusDu Big Data vers le SMART Data : Scénario d'un processus
Du Big Data vers le SMART Data : Scénario d'un processus
 
Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...
Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...
Big data : quels enjeux et opportunités pour l'entreprise - livre blanc - Blu...
 

Similaire à Keynote Big Data & Data Science - 24h pharma@dreux

Intelligence Artificielle et le Rêve
Intelligence Artificielle et le RêveIntelligence Artificielle et le Rêve
Intelligence Artificielle et le RêveAlexia Audevart
 
Live academy #4 Comment démocratiser l’utilisation des données dans votre org...
Live academy #4 Comment démocratiser l’utilisation des données dans votre org...Live academy #4 Comment démocratiser l’utilisation des données dans votre org...
Live academy #4 Comment démocratiser l’utilisation des données dans votre org...Jerome Blanc
 
Voyage dans le monde du Deep Learning
Voyage dans le monde du Deep LearningVoyage dans le monde du Deep Learning
Voyage dans le monde du Deep LearningAlexia Audevart
 
#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big Data#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big DataNetSecure Day
 
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015IBM France Lab
 
Nuit du Big Data, 10 Décembre 2014
Nuit du Big Data, 10 Décembre 2014Nuit du Big Data, 10 Décembre 2014
Nuit du Big Data, 10 Décembre 2014Alexandre Weisz
 
Festival Online de la Data 2020 - La data devient l'affaire de tous
Festival Online de la Data 2020 - La data devient l'affaire de tousFestival Online de la Data 2020 - La data devient l'affaire de tous
Festival Online de la Data 2020 - La data devient l'affaire de tousAlexandra Loria
 
Gestion et implantation de la sécurité dans les projets d\'intelligence d\'af...
Gestion et implantation de la sécurité dans les projets d\'intelligence d\'af...Gestion et implantation de la sécurité dans les projets d\'intelligence d\'af...
Gestion et implantation de la sécurité dans les projets d\'intelligence d\'af...Youssef Loudiyi
 
Webinaire Synaltic x Trifacta 27/10/2016
Webinaire Synaltic x Trifacta 27/10/2016Webinaire Synaltic x Trifacta 27/10/2016
Webinaire Synaltic x Trifacta 27/10/2016Synaltic Group
 
BigDataBx #1 - Journée BigData à la CCI de Bordeaux
BigDataBx #1 - Journée BigData à la CCI de BordeauxBigDataBx #1 - Journée BigData à la CCI de Bordeaux
BigDataBx #1 - Journée BigData à la CCI de BordeauxExcelerate Systems
 
La détection de la fraude par la connaissance des données - Carte Blanche Par...
La détection de la fraude par la connaissance des données - Carte Blanche Par...La détection de la fraude par la connaissance des données - Carte Blanche Par...
La détection de la fraude par la connaissance des données - Carte Blanche Par...Jean-François Tripodi
 
Presentation a in ovive montpellier - 26%2 f06%2f2018 (1)
Presentation a in ovive   montpellier - 26%2 f06%2f2018 (1)Presentation a in ovive   montpellier - 26%2 f06%2f2018 (1)
Presentation a in ovive montpellier - 26%2 f06%2f2018 (1)Mathieu d'Aquin
 
[Fr] Information builders - MDM et Big Data
[Fr] Information builders - MDM et Big Data[Fr] Information builders - MDM et Big Data
[Fr] Information builders - MDM et Big DataYann Gourvennec
 
BigData & Cloud @ Excelerate Systems France
BigData & Cloud @ Excelerate Systems FranceBigData & Cloud @ Excelerate Systems France
BigData & Cloud @ Excelerate Systems FranceExcelerate Systems
 
Test slideshare
Test slideshareTest slideshare
Test slideshareAgroData
 

Similaire à Keynote Big Data & Data Science - 24h pharma@dreux (20)

Intelligence Artificielle et le Rêve
Intelligence Artificielle et le RêveIntelligence Artificielle et le Rêve
Intelligence Artificielle et le Rêve
 
Live academy #4 Comment démocratiser l’utilisation des données dans votre org...
Live academy #4 Comment démocratiser l’utilisation des données dans votre org...Live academy #4 Comment démocratiser l’utilisation des données dans votre org...
Live academy #4 Comment démocratiser l’utilisation des données dans votre org...
 
IBM Data lake
IBM Data lakeIBM Data lake
IBM Data lake
 
Voyage dans le monde du Deep Learning
Voyage dans le monde du Deep LearningVoyage dans le monde du Deep Learning
Voyage dans le monde du Deep Learning
 
#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big Data#NSD14 - La sécurité autour du Big Data
#NSD14 - La sécurité autour du Big Data
 
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
 
Nuit du Big Data, 10 Décembre 2014
Nuit du Big Data, 10 Décembre 2014Nuit du Big Data, 10 Décembre 2014
Nuit du Big Data, 10 Décembre 2014
 
Festival Online de la Data 2020 - La data devient l'affaire de tous
Festival Online de la Data 2020 - La data devient l'affaire de tousFestival Online de la Data 2020 - La data devient l'affaire de tous
Festival Online de la Data 2020 - La data devient l'affaire de tous
 
Gestion et implantation de la sécurité dans les projets d\'intelligence d\'af...
Gestion et implantation de la sécurité dans les projets d\'intelligence d\'af...Gestion et implantation de la sécurité dans les projets d\'intelligence d\'af...
Gestion et implantation de la sécurité dans les projets d\'intelligence d\'af...
 
Webinaire Synaltic x Trifacta 27/10/2016
Webinaire Synaltic x Trifacta 27/10/2016Webinaire Synaltic x Trifacta 27/10/2016
Webinaire Synaltic x Trifacta 27/10/2016
 
BigDataBx #1 - Journée BigData à la CCI de Bordeaux
BigDataBx #1 - Journée BigData à la CCI de BordeauxBigDataBx #1 - Journée BigData à la CCI de Bordeaux
BigDataBx #1 - Journée BigData à la CCI de Bordeaux
 
Big data
Big dataBig data
Big data
 
La détection de la fraude par la connaissance des données - Carte Blanche Par...
La détection de la fraude par la connaissance des données - Carte Blanche Par...La détection de la fraude par la connaissance des données - Carte Blanche Par...
La détection de la fraude par la connaissance des données - Carte Blanche Par...
 
Presentation a in ovive montpellier - 26%2 f06%2f2018 (1)
Presentation a in ovive   montpellier - 26%2 f06%2f2018 (1)Presentation a in ovive   montpellier - 26%2 f06%2f2018 (1)
Presentation a in ovive montpellier - 26%2 f06%2f2018 (1)
 
[Fr] Information builders - MDM et Big Data
[Fr] Information builders - MDM et Big Data[Fr] Information builders - MDM et Big Data
[Fr] Information builders - MDM et Big Data
 
BigData & Cloud @ Excelerate Systems France
BigData & Cloud @ Excelerate Systems FranceBigData & Cloud @ Excelerate Systems France
BigData & Cloud @ Excelerate Systems France
 
Test slideshare
Test slideshareTest slideshare
Test slideshare
 
Parcours Big Data @ Cetic (6 mai 2014)
Parcours Big Data @ Cetic (6 mai 2014)Parcours Big Data @ Cetic (6 mai 2014)
Parcours Big Data @ Cetic (6 mai 2014)
 
BigData BigBuzz @ Le Node
BigData BigBuzz @ Le Node BigData BigBuzz @ Le Node
BigData BigBuzz @ Le Node
 
Introduction au Big data
Introduction au Big data Introduction au Big data
Introduction au Big data
 

Dernier

To_understand_transformers_together presentation
To_understand_transformers_together presentationTo_understand_transformers_together presentation
To_understand_transformers_together presentationbahija babzine
 
Bidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from TransformersBidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from Transformersbahija babzine
 
Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023France Travail
 
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel AttalELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attalcontact Elabe
 
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...France Travail
 
Recurrent neural network_PresentationRNN.pptx
Recurrent neural network_PresentationRNN.pptxRecurrent neural network_PresentationRNN.pptx
Recurrent neural network_PresentationRNN.pptxbahija babzine
 

Dernier (6)

To_understand_transformers_together presentation
To_understand_transformers_together presentationTo_understand_transformers_together presentation
To_understand_transformers_together presentation
 
Bidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from TransformersBidirectional Encoder Representations from Transformers
Bidirectional Encoder Representations from Transformers
 
Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023Le contrôle de la recherche d'emploi en 2023
Le contrôle de la recherche d'emploi en 2023
 
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel AttalELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
 
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
Montant moyen du droit d'allocation chômage versé aux demandeurs d'emploi ind...
 
Recurrent neural network_PresentationRNN.pptx
Recurrent neural network_PresentationRNN.pptxRecurrent neural network_PresentationRNN.pptx
Recurrent neural network_PresentationRNN.pptx
 

Keynote Big Data & Data Science - 24h pharma@dreux

  • 1. KeyNote Big Data & Data Science Vendredi 12 Octobre 2018
  • 2. Alexia Audevart Data & Enthusiasm @aaudevart President of Toulouse Data Science meet-up Co-organizer of Toulouse DevFest conference Founder of datactik Data Scientist
  • 3. Par$e 1 : Data & Big Data
  • 4. Données vs Data vs Datum
  • 5. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 5 exaoctets (1 exaoctet = 1 million teraoctet) Internet 1sec < Réseaux sociaux Internet des objets * Digital Universe Study by IDC, 2012. L’évolution des données
  • 6. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Datanami
  • 7.
  • 8. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 QUIZZ Quelle est la valeur marchande annuelle des données personnelles laissées gratuitement par les internautes ? 1 000 milliards de dollars
  • 9.
  • 10. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 … des nouvelles technologies et des outils pour exploiter et analyser ces données Une variété de sources de données… … et des outils & technologies pour les visualiser et les utiliser Calculators, Storage... Big Analytics Visualisation Interfaces Platforms & Apps Internal & External Que se cache derrière le buzzword Big Data ?
  • 11. Le BIG DATA n’est pas une technologie Mais la capacité de collecter, stocker, traiter, valoriser, rapidement à moindre coût de gros volumes de données où la taille unitaire d’une donnée est insignifiante.
  • 12. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Vers une nouvelle gestion des données Process-centric • Données structurées • Données venant de sources Internes • Données “importantes” uniquement • Multiple copies des Données Data-centric • Données de tous types (structurées, semi- structurées, non-structurées) • Données venant de multiple sources de données (interne & externe) Data App App App App App App Data Data Data Data
  • 13. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Analyzed Data Structured Data Unstructured Data Reservoir data Run Analytics Business Insights Data Lake
  • 14. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Data Sources Internal DataSources External DataSources Data Usage Access Layer Usage AnalyticsAPI / Drivers Data Exploration Search DataSecurity&Governance Orchestration Administatration Staging Data Unstructured DataSemi-structured DataStructured Data Foundation Data Processed Data Storage Processing Searching Data Crossing / Cleaning Data Machine Learning Data Acquisition Ingestion Streaming Event ProcessingData Loader Data Capture Data Lake
  • 15. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 L’écosystème Big Data
  • 16. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 L’écosystème Big Data Hadoop
  • 17. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 L’écosystème Big Data Bases de données NoSQL
  • 18. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 L’écosystème Big Data Moteurs de recherche & Analyse de logs
  • 19. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 L’écosystème Big Data Data Visualisation + BI
  • 20. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 L’écosystème Big Data Data Science Machine Learning
  • 21. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Pourquoi utiliser le Big Data ? • Archivage • Déchargement d’entrepôt de données • ETL (Extract-Transform-Load) • Fail-Over Réductions des couts • Analyser et Irer de la valeur des données de l’entreprise • Analyser des données exogènes de l’entreprise et les corréler avec des données internes Elargir le champ des possibles
  • 22. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Quelques cas d’utilisation
  • 23. Partie 2 : Valorisation des données
  • 24. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Data Mining Base de données Intelligence Artificielle Machine Learning Statistiques Réaliser des machines capable de simuler l’intelligence Donner la possibilité à des machines d’apprendre sans être explicitement programmées pour. Découvrir des structures dans de vastes ensembles de données (patterns). Ensemble de méthodes permettant de décrire et d’analyser des observations (ou des données) Reconnaissance de Patterns Deep Learning Data Buzz Words
  • 25. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 L’expertise humaine n’existe pas L’humain n’est pas capable d’expliquer son expertise Les solutions changent au cours du temps Les solutions doivent s’adapter à des cas particuliers Navigation sur Mars Reconnaissance vocale Routing dans un réseau informatique Empreinte biométrique Machine learning : quand ?
  • 26. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Le Machine Learning Expérience Tâche Performance Données d’entrées • Prix de maisons • Images • Transaction Clients • Clickstream data Tâche • Prédire les prix • Catégoriser les images • Segmenter les clients • Optimiser les flux d’utilisateurs Performance • Prix précis • Images triées correctement • Groupement cohérent • KPI
  • 27. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Un programme informatique se dit d’apprendre de l’expérience E par rapport à une catégorie de tâches T et mesure de la performance P, si sa performance à des tâches T, telle que mesurée par P, s’améliore avec l’expérience E. Tom Mitchell – 1998 Le Machine Learning Expérience Tâche Performance
  • 28. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Quizz Supposons que votre logiciel de messagerie surveille les emails que vous marquez en spam/non spam et qu'il apprenne à mieux filtrer les spams. Identifier la tâche T, la mesure de performance P et l’expérience E • Classifier des emails en spam et non spam • Emails labellisés en spam ou non spam • Le nombre d’emails correctement classés en spam/non spam
  • 29. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Définition : Modèle Machine Learning Représentation mathématique des relations dans un ensemble de données
  • 30. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Features = éléments ou dimensions d’un jeu de données Définition
  • 31. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Machine Learning – Phase d’apprentissage Historical Data Compare Models Feature Engineering Test Train Validation Validation Results Hyper-parameter tuning Build Models MODELS Test Results
  • 32. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 InferenceLearning Modèle Machine Learning Expected Label New Input Data Text, Documents, Images, Sounds, …. MODEL Training Input Data Text, Documents, Images, Sounds, …. Labels Features Vectors Features Vector Machine Learning Algorithm
  • 33. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 3 Types d’apprentissage Appren6ssage Supervisé Apprentissage Non Supervisé Appren6ssage par renforcement
  • 34. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 EvolutionariesConnectionistsBayesiansSymbolists Systematically reduce uncertainty Simulate evolutionEmulate the brain Fill the gaps in existing knowledge Source Image : Blog PWC Pedro Domingo-The Master Algorithm Analogizers Notice similarities between old and new Ces différents courants peuvent être combinés pour résoudre des problématiques. Les 5 courants du Machine Learning
  • 35. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018
  • 36. Partie 3 : Data Visualisation
  • 37. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Définition de la data visualisation ? Ensemble de méthodes et techniques de représentation des données sous forme visuelle
  • 38. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Quand utilise-t-on la data visualisation ? La communication implique de la simplification, L’exploration de données implique de l’exhaustivité. Exploration des données Représenta:on des données
  • 39. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 60 000 fois plus Rapide d’analyser une image que du texte 90% de l’information transmise au cerveau est visuelle 1 image vaut 1000 mots
  • 40. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Besoin de raisonner, à un certain niveau de difficulté et pour une certaine quantité d’informations => utilisation de supports externes Ce principe est nommé la cognition externe Le raisonnement humain
  • 41. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Le raisonnement humain 2 Phases
  • 42. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 La dataviz a toujours existé
  • 43. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 QUIZZ Quels sont les graphiques que vous connaissez ?
  • 44. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Invention de 3 graphiques – William Playfair « En fait de moyens et de calculs, le plus sûr moyen de frapper l’esprit est de frapper les yeux » - William Playfair Série statistique chronologique sous forme de courbe Le graphique en barre Le camembert
  • 45. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Quelle est la proportion de chaque groupe ? Ethic composition of prisoners in Jail in 2008 in the USA. (Le Monde 5/12/2014) ? ? ?37 % 16 % 44 % QUIZZ
  • 46. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Le camembert Un pie chart ou camembert regroupent ces 3 caractéristiques : • Angles • Aires • Arcs de cercle Mauvaise appréciation par l’oeil de ces 3 caractéristiques ! Si plus de 4 catégories sont représentées : • Trop de secteur = comparaison difficile • Superposition des libellées • Quasi inexistence des petits secteurs • Nb de couleurs = affichage indigeste
  • 47. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 La Time line - Joseph Priestley (1765)
  • 48. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 http://www.concerthotels.com/100-years-of-rock/ Exemples
  • 49. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 h4p://mbtaviz.github.io/ Exemples
  • 50. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 La dataviz concerne tous les types de données Données structurées Données semi-structurées Données non structurées LOG
  • 51. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Variables qualitatives ou catégorielles expriment une qualité => Représente des catégories que l’on nomme avec un label Exemple : • signe astrologique • liste des pays Opération : = , ≠ Variables Nominales => Catégories naturellement ordonnées = le rang Exemple : • un peu, moyen, beaucoup, à la folie Opération : = , ≠, <, > Variables Ordinales Différents types de variables
  • 52. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Variables quantitatives contiennent des valeurs mesurables Þ Variables numériques ayant des valeurs dénombrables entre deux valeurs Þ Variables ayant des valeurs finies Exemple : • Nombre de voitures dans la rue • Nombre de personnes majeures • Nombre de candidats à l’examen Variables Discrètes => Variables numériques ayant un nombre infini de valeurs entre deux valeurs. Exemple : • La vitesse d’une voiture • La taille, le poids d’une personne • Le temps de réalisation d’une tâche Variables Continues Différents types de variables
  • 53. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Relation entre les données Information qualitative => Pas de notion d’ordre Information ordonnée => Des données numériques ou non Information quantitative => Quantités absolues Ressemblance et Différence = ≠ Ordre, Classement, Hiérarchie O Proportionnalité Q
  • 54. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 3 graphiques pour représenter les données quantitatives
  • 55. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Choisir le bon graphique
  • 56. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Un modèle (simple) de la perception visuelle humaine Etape 1 Perception Pré-attentive Etape 2 Consolidation des objets identifiés & représentation spatiale
  • 57. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Capacités pré-attentives • Perception inconsciente • Mécanismes bas niveau du système visuel • Extrêmement rapide : réaction en 200 ms • Montée en charge : le temps de réaction croit lentement avec le nombre d’objets • Différents types de stimuli
  • 58. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Perceptions Visuelles Limites et freins de la nature humaine • Physiologie de l’oeil • Illusions graphiques • Fausses interprétations • Daltonisme • Erreurs d’appréciation • Préjugés de formes • Charge cognitive
  • 59. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Edward Tufte : • Professeur Américain • “Leonard de Vinci des données” par le NY Times • Auteur de 4 livres : http://www.edwardtufte.com/tufte/ Ses travaux : • Concept du data-ink ratio => Maximiser la data densité • Intégrité : Eviter les manipulations / tordre les données L’excellence graphique se détermine donc par la conjonction de la densité de l’information associée à une faible densité visuelle Les Travaux de Tufte
  • 60. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Distribution d’une variable continue en 5 groupes Les Travaux de Tufte : Data-ink ratio
  • 61. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Suppression de l’encre ne représentant pas les données Les Travaux de Tufte : Data-ink ratio Distribution d’une variable continue en 5 groupes
  • 62. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Suppression de toutes les informations redondantes Les Travaux de Tufte : Data-ink ratio Distribution d’une variable continue en 5 groupes
  • 63. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Suppression de toutes les informations redondantes Les Travaux de Tufte : Data-ink ratio Distribution d’une variable continue en 5 groupes
  • 64. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Mise en évidence des données Les Travaux de Tufte : Data-ink ratio Distribution d’une variable continue en 5 groupes
  • 65. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Distribution d’une variable continue en 4 groupes Les Travaux de Tufte : Data-ink ratio L’excellence graphique se détermine donc par la conjonction de la densité de l’information associée à une faible densité visuelle Avons nous perdu des informations ? Quelle information est mise en évidence ?
  • 66. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Integrité : The lie Factor Fuel Economy Standards – NY Times 1978 Les Travaux de Tufte : Intégrité – Lie Factor
  • 67. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Integrité : The lie Factor Les Travaux de Tufte : Intégrité – Lie Factor Fuel Economy Standards – Revisited
  • 68. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 • Salaires : 28 % représentés par... 200 % • Heures de vol : 200 % de différence pour représenter 23 % Le Point : https://twitter.com/lepoint/status/657611278832287744 Attention aux manipulations : Intégrité – Lie Factor
  • 69. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 L’effet visuel doit être égal à l’effet dans les données Lie Factor = 1 sinon DISTORSION Les Travaux de Tufte : Intégrité – Lie Factor
  • 70. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Expliquer Eclairer Engager / Divertir Les clés du Data Storytelling
  • 71. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Le Data Storytelling permet de démocratiser l’accès aux données et de faciliter la prise de décision Les clés du Data Storytelling
  • 72. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Story Telling http://histography.io/
  • 73. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 • Quel est le message que vous souhaitez transmettre ? • A quel public est-il destiné ? • Quelles questions se pose ce public ? • Quelles réponses lui apportez-vous? • Les données les plus importantes sont-elles mises en valeur ? • La compréhension de votre visualisation est-elle rapide ? • Est-elle intelligible par elle même ? Posez-vous les bonnes questions !
  • 74. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Librairies JavaScript
  • 75. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Les acteurs : Self Service BI
  • 76. Alexia Audevart – 24H Pharma@Dreux© Tous droits réservés - 2018 Les acteurs • Kibana • Roambi • … Tableaux de bords interactifs
  • 77. Merci de votre attention. A vous de jouer !