La visualisation de données
“Une image vaut mille mots”
proverbe attribué à Confucius
La visualisation de données ou “dataviz” est essentielle si l’on
veut extraire de l’information des données
La visualisation de données
…de détecter plus facilement des tendances et des
« patterns » dans les données
…d’explorer de large quantités de données
Elle permet…
…de faciliter la prise de décisions
…de communiquer plus efficacement en tenant
compte des attentes de votre audience
Tableau vs Graphique
Tableau Graphique
Les données sont présentées
sous forme « textuelle »
Les données sont présentées
sous forme « visuelle »
Les données sont organisées en
lignes et en colonnes
Les données sont projetées sur un
ou plusieurs axes pour données
du sens à l’information
La visualisation de données
Dans le cadre d’un projet de Business Intelligence la
visualisation de données intervient lors de la mise en
place de tableaux de bord et de reporting
-> Raconter “une histoire” à partir des données
Elle est également utile lors de la phase d’exploration des
sources de données pour la préparation de l’ETL.
-> Déterminer les histoires qui pourront être racontées
grâce aux données
Pour plus d’informations sur l’exploration préparatoire : https://www.perceptualedge.com/articles/
visual_business_intelligence/exploratory_vistas.pdf
La visualisation de données
Les tableaux de bord et le reporting sont les liens d’interactions entre
les décideurs et le datawarehouse.
Savoir communiquer efficacement l’information est indispensable à
la réussite de votre projet décisionnel.
La mise en place d’un DWH aussi fiable, robuste et performant soit-il
ne sera pas un succès si il n’est pas utilisé.
Comment réussir des tableaux de bord et des
reporting efficaces?
Le choix du bon graphique
Contrairement à ce que l’on peut penser, choisir le
bon graphique (chart) pour vos données n’est pas
« intuitif ».
Il est nécessaire d’acquérir les bonnes
compétences pour exprimer de façon efficace les
informations à partir d’un graphique.
source: https://graphics.stanford.edu/wikis/cs448b-12-fall
Le choix du bon graphique
Choisir une représentation graphique
en fonction :
- du message que l’on souhaite exprimer
- des caractéristiques de son jeu de données
Le choix du bon graphique
Message
Caractéristiques
du jeu
de données
Une bibliothèque idéale de graphiques
de Stephen Few
source : Information Dashboard Design, Analytics Press, Stephen Few, 2013
• Bullet Graphs
• Bar Graphs
• Dot plots
• Line Graphs
• Sparkline
• Box Plots
• Scatter Plots
• Spatial Map
• Heat Maps
• Tree Maps
Encoder les données
Passer de la valeur textuelle d’une variable à une
représentation visuelle
source : Information Dashboard Design, Analytics Press, Stephen Few, 2013
Catégorie Attribut
Permet d’encoder une variable
qualitative
Couleur Teinte Non
Intensité Oui (La précision reste faible)
Forme Longueur des lignes Oui
Largeur des lignes Oui (La précision reste faible)
Taille Oui (La précision reste faible)
Forme Non
Marqueur Non
Position
Position dans un espace
à 2 dimensions
Oui
Différentes façon d’encoder des données
Méthodes
d’encodage
plus précises
Encoder les données
source : Information Dashboard Design, Analytics Press, Stephen Few, 2013
Encodage : Forme/Taille
Quelle est la valeur associée à ce cercle?
Encoder les données
source : Information Dashboard Design, Analytics Press, Stephen Few, 2013
Encodage : Forme/Taille
16
Connaître ses données : Types de variables
Quantitative => Mesure
Qualitative => Dimension
source : https://www.perceptualedge.com/articles/Whitepapers/Communicating_Numbers.pdf
Quantitative
Qualitative
3 type de variables qualitatives
Nominal : Différentes catégories sans relation d’ordre
Ordinal : Différentes catégories avec relation d’ordre
Interval : Différentes catégories avec relation d’ordre et la
distance entre deux valeurs est significative
Connaître ses données
3 types de variables qualitatives (Exemples)
Connaître ses données
source : https://www.perceptualedge.com/articles/Whitepapers/Communicating_Numbers.pdf
Ventes 2015
0
50
100
Avril Mai Juin Juillet
Effectifs
RH
Marketing
Production
Logistique
Comptabilité
0 23 45 68 90
% des dépenses par régions
0 %
9 %
18 %
27 %
36 %
Nord Est Sud Ouest
Variation
-12
-6
0
6
Ventes Prod.
0
Personnalisé
Relation entre les notes de math
et de physique
0
6
12
18
24
0 5 10 15 20
Vente T1 par Région
0
1 000
2 000
3 000
4 000
Nord Est Sud Ouest
Relation entre les données
Time Series
Visualiser le comportement
d’une variable quantitative au
cours d’un intervalle de
temps
“Ranking” - Classement
Comparer les valeurs d’une
variable quantitative de façon
ordonnée
“Part to whole” - Composition
Répartition du pourcentage
d’une variable par rapport au
total
“Deviation” - tendance
comparer une mesure
principale par rapport à une
mesure de référence
Ex. Différence entre les ventes et
l’objectif de vente
Distribution
Correlation
Comparaison nominal
Visualiser la distribution d’une
variable quantitative par
rapport à son domaine (qui
sera divisé en n classes)
Visualiser la correlation entre
deux variables quantitatives
Visualiser une variable
quantitative selon une
variable qualitative nominal
Line Chart
Ventes 2015
0
50
100
Avril Mai Juin Juillet
Encodage attribut Constructions possibles Type de relation
Position 2d
Teinte de couleur (si besoin) x mesures + 1 dimension (interval)
ou

1 mesure + 1 dimension (interval) [+ 1 dimension]
Time Series
Distribution
Le line chart permet de visualiser des
tendances au travers d’une dimension
de type interval.
Il est notamment utilisé pour montrer les
évolutions au cours du temps
Bar Chart
Encodage attribut Constructions possibles Type de relation
Longueur (des barres)
Teinte de couleur (si besoin) x mesures + 1 dimension
ou

1 mesure + 1 dimension [+1 dimension]
Comparaison nominal
“Ranking” - Classement
“Part to whole” - Composition
“Deviation” - tendance
Distribution
Le bar chart est le graphique le plus
versatile.
Il est utilisé pour comparer facilement
les données associées à une dimension
discrète (nominal, ordinal).
On peut également l’utiliser avec une
dimension de type interval si l’on
souhaite comparer les valeurs plutôt
que de visualiser les tendances.
Préféré un bar chart avec des lignes
horizontales lorsque les labels sont
longs.
Effectifs
RH
Marketing
Production
Logistique
Comptabilité
0 23 45 68 90
% des dépenses par régions
0 %
18 %
36 %
Nord Est Sud Ouest
% des dépenses par régions
0 %
18 %
36 %
Nord Est Sud Ouest
Stacked Bar Chart
Encodage attribut Constructions possibles Type de relation
Longueur (des barres)
Teinte de couleur (si besoin)
x mesures + 1 dimension
ou

1 mesure + 2 dimensions
Comparaison nominal
“Ranking” - Classement
“Part to whole” - Composition
C’est une variante du bar chart, qui sera
utilisé lorsque l’on souhaite à la fois
comparer les valeurs globales et
visualiser la composition des éléments.
0
50
100
150
200
Avril Mai Juin Juillet
Dot Plot
Encodage attribut Constructions possibles Type de relation
Position 2d
Teinte de couleur (si besoin)
Marque (si besoin)
x mesures + 1 dimension
ou

1 mesure + 1 dimension [+1 dimension]
Comparaison nominal
“Ranking” - Classement
“Part to whole” - Composition
“Deviation” - tendance
Distribution
L’usage du Dot Plot est le
même que celui d’un bar
chart, à la différence que
l’on peut démarrer l’échelle
quantitative à une valeur
différente de zéro (permet
de mettre en evidence les
petites variations)
Scatter Plot
Encodage attribut Constructions possibles Type de relation
Position 2d
Teinte de couleur (si besoin)
Marque (si besoin)
2 mesures [+ 1 dimension] Correlation
Relation entre les notes de math et de physique
0
6
12
18
24
0 5 10 15 20
Box Plot
Encodage attribut Constructions possibles Type de relation
Longueur (des barres)
Position 2d
1 mesures [+ 1 dimension ] Distribution
Map
Encodage attribut Constructions possibles Type de relation
Position 2d
Couleur
Forme
1 mesures + 1 dimension geospatial [+1
dimension]
Comparaison nominal
Heat Map
Encodage attribut Constructions possibles Type de relation
Couleur 1 mesures + 2 dimension Comparaison
Treemap
Encodage attribut Constructions possibles Type de relation
Position 2d
Couleur
Forme
1 mesures + 1 dimension geospatial Comparaison nominal
Sparkline
Encodage attribut Constructions possibles Type de relation
Position 2d 1 mesures +1 dimension Comparaison
Bullet chart
Encodage attribut Constructions possibles Type de relation
Longueur
Position 2d
Couleur
1 mesures [+1 dimension] Objectif
Bonnes pratiques pour la conception de vos graphiques
Le choix du graphique est une étape importante, mais il
faut aussi savoir mettre en valeur les données par les
éléments périphériques de votre graphique (titre,
légende, grilles…) tout en évitant de polluer la
compréhension des données avec des éléments
superflus.
Bonnes pratiques pour la conception de vos graphiques
Chartjunk
Edward Tufte
Data Ink Ratio
Bonnes pratiques pour la conception de vos graphiques
0
25
50
75
100
Avril Mai Juin Juillet
Non data ink
data ink
Bonnes pratiques pour la conception de vos graphiques
- Ne pas utiliser les effets superflus (ombre, 3D,
remplissage du fond du graphique)
- Utiliser des polices sans serif (arial, helvetica)
- Si les couleurs ne servent pas à encoder les données,
utiliser une teinte unie
Bonnes pratiques pour la conception de vos graphiques
- Utiliser une grille lorsque cela facilite la lecture
Bonnes pratiques pour la conception de vos graphiques
- Utiliser une grille lorsque cela facilite la lecture: aussi
valable pour les tableaux
Bonnes pratiques pour la conception de vos graphiques
- Encadrer la zone du graphique que si cela est
essentiel
Bonnes pratiques pour la conception de vos graphiques
- Pour les « non data ink » restant, jouer sur les
épaisseurs et la couleur pour ne pas distraire vos
utilisateurs
Bonnes pratiques pour la conception de vos graphiques
- Pour les « non data ink » restant, jouer sur les
épaisseurs et la couleur pour ne pas distraire vos
utilisateurs
Bonnes pratiques pour la conception de vos graphiques
- Pour les « non data ink » restant, jouer sur les
épaisseurs et la couleur pour ne pas distraire vos
utilisateurs
Bonnes pratiques pour la conception de vos graphiques
- Pour les « non data ink » restant, jouer sur les
épaisseurs et la couleur pour ne pas distraire vos
utilisateurs
contact@datarocks.io

La visualisation de données

  • 1.
    La visualisation dedonnées “Une image vaut mille mots” proverbe attribué à Confucius La visualisation de données ou “dataviz” est essentielle si l’on veut extraire de l’information des données
  • 2.
    La visualisation dedonnées …de détecter plus facilement des tendances et des « patterns » dans les données …d’explorer de large quantités de données Elle permet… …de faciliter la prise de décisions …de communiquer plus efficacement en tenant compte des attentes de votre audience
  • 3.
    Tableau vs Graphique TableauGraphique Les données sont présentées sous forme « textuelle » Les données sont présentées sous forme « visuelle » Les données sont organisées en lignes et en colonnes Les données sont projetées sur un ou plusieurs axes pour données du sens à l’information
  • 4.
    La visualisation dedonnées Dans le cadre d’un projet de Business Intelligence la visualisation de données intervient lors de la mise en place de tableaux de bord et de reporting -> Raconter “une histoire” à partir des données Elle est également utile lors de la phase d’exploration des sources de données pour la préparation de l’ETL. -> Déterminer les histoires qui pourront être racontées grâce aux données Pour plus d’informations sur l’exploration préparatoire : https://www.perceptualedge.com/articles/ visual_business_intelligence/exploratory_vistas.pdf
  • 5.
    La visualisation dedonnées Les tableaux de bord et le reporting sont les liens d’interactions entre les décideurs et le datawarehouse. Savoir communiquer efficacement l’information est indispensable à la réussite de votre projet décisionnel. La mise en place d’un DWH aussi fiable, robuste et performant soit-il ne sera pas un succès si il n’est pas utilisé. Comment réussir des tableaux de bord et des reporting efficaces?
  • 6.
    Le choix dubon graphique Contrairement à ce que l’on peut penser, choisir le bon graphique (chart) pour vos données n’est pas « intuitif ». Il est nécessaire d’acquérir les bonnes compétences pour exprimer de façon efficace les informations à partir d’un graphique.
  • 7.
  • 8.
    Le choix dubon graphique Choisir une représentation graphique en fonction : - du message que l’on souhaite exprimer - des caractéristiques de son jeu de données
  • 9.
    Le choix dubon graphique Message Caractéristiques du jeu de données
  • 10.
    Une bibliothèque idéalede graphiques de Stephen Few source : Information Dashboard Design, Analytics Press, Stephen Few, 2013 • Bullet Graphs • Bar Graphs • Dot plots • Line Graphs • Sparkline • Box Plots • Scatter Plots • Spatial Map • Heat Maps • Tree Maps
  • 11.
    Encoder les données Passerde la valeur textuelle d’une variable à une représentation visuelle source : Information Dashboard Design, Analytics Press, Stephen Few, 2013 Catégorie Attribut Permet d’encoder une variable qualitative Couleur Teinte Non Intensité Oui (La précision reste faible) Forme Longueur des lignes Oui Largeur des lignes Oui (La précision reste faible) Taille Oui (La précision reste faible) Forme Non Marqueur Non Position Position dans un espace à 2 dimensions Oui Différentes façon d’encoder des données Méthodes d’encodage plus précises
  • 12.
    Encoder les données source: Information Dashboard Design, Analytics Press, Stephen Few, 2013 Encodage : Forme/Taille Quelle est la valeur associée à ce cercle?
  • 13.
    Encoder les données source: Information Dashboard Design, Analytics Press, Stephen Few, 2013 Encodage : Forme/Taille 16
  • 14.
    Connaître ses données: Types de variables Quantitative => Mesure Qualitative => Dimension source : https://www.perceptualedge.com/articles/Whitepapers/Communicating_Numbers.pdf Quantitative Qualitative
  • 15.
    3 type devariables qualitatives Nominal : Différentes catégories sans relation d’ordre Ordinal : Différentes catégories avec relation d’ordre Interval : Différentes catégories avec relation d’ordre et la distance entre deux valeurs est significative Connaître ses données
  • 16.
    3 types devariables qualitatives (Exemples) Connaître ses données source : https://www.perceptualedge.com/articles/Whitepapers/Communicating_Numbers.pdf
  • 17.
    Ventes 2015 0 50 100 Avril MaiJuin Juillet Effectifs RH Marketing Production Logistique Comptabilité 0 23 45 68 90 % des dépenses par régions 0 % 9 % 18 % 27 % 36 % Nord Est Sud Ouest Variation -12 -6 0 6 Ventes Prod. 0 Personnalisé Relation entre les notes de math et de physique 0 6 12 18 24 0 5 10 15 20 Vente T1 par Région 0 1 000 2 000 3 000 4 000 Nord Est Sud Ouest Relation entre les données Time Series Visualiser le comportement d’une variable quantitative au cours d’un intervalle de temps “Ranking” - Classement Comparer les valeurs d’une variable quantitative de façon ordonnée “Part to whole” - Composition Répartition du pourcentage d’une variable par rapport au total “Deviation” - tendance comparer une mesure principale par rapport à une mesure de référence Ex. Différence entre les ventes et l’objectif de vente Distribution Correlation Comparaison nominal Visualiser la distribution d’une variable quantitative par rapport à son domaine (qui sera divisé en n classes) Visualiser la correlation entre deux variables quantitatives Visualiser une variable quantitative selon une variable qualitative nominal
  • 18.
    Line Chart Ventes 2015 0 50 100 AvrilMai Juin Juillet Encodage attribut Constructions possibles Type de relation Position 2d Teinte de couleur (si besoin) x mesures + 1 dimension (interval) ou
 1 mesure + 1 dimension (interval) [+ 1 dimension] Time Series Distribution Le line chart permet de visualiser des tendances au travers d’une dimension de type interval. Il est notamment utilisé pour montrer les évolutions au cours du temps
  • 19.
    Bar Chart Encodage attributConstructions possibles Type de relation Longueur (des barres) Teinte de couleur (si besoin) x mesures + 1 dimension ou
 1 mesure + 1 dimension [+1 dimension] Comparaison nominal “Ranking” - Classement “Part to whole” - Composition “Deviation” - tendance Distribution Le bar chart est le graphique le plus versatile. Il est utilisé pour comparer facilement les données associées à une dimension discrète (nominal, ordinal). On peut également l’utiliser avec une dimension de type interval si l’on souhaite comparer les valeurs plutôt que de visualiser les tendances. Préféré un bar chart avec des lignes horizontales lorsque les labels sont longs. Effectifs RH Marketing Production Logistique Comptabilité 0 23 45 68 90 % des dépenses par régions 0 % 18 % 36 % Nord Est Sud Ouest % des dépenses par régions 0 % 18 % 36 % Nord Est Sud Ouest
  • 20.
    Stacked Bar Chart Encodageattribut Constructions possibles Type de relation Longueur (des barres) Teinte de couleur (si besoin) x mesures + 1 dimension ou
 1 mesure + 2 dimensions Comparaison nominal “Ranking” - Classement “Part to whole” - Composition C’est une variante du bar chart, qui sera utilisé lorsque l’on souhaite à la fois comparer les valeurs globales et visualiser la composition des éléments. 0 50 100 150 200 Avril Mai Juin Juillet
  • 21.
    Dot Plot Encodage attributConstructions possibles Type de relation Position 2d Teinte de couleur (si besoin) Marque (si besoin) x mesures + 1 dimension ou
 1 mesure + 1 dimension [+1 dimension] Comparaison nominal “Ranking” - Classement “Part to whole” - Composition “Deviation” - tendance Distribution L’usage du Dot Plot est le même que celui d’un bar chart, à la différence que l’on peut démarrer l’échelle quantitative à une valeur différente de zéro (permet de mettre en evidence les petites variations)
  • 22.
    Scatter Plot Encodage attributConstructions possibles Type de relation Position 2d Teinte de couleur (si besoin) Marque (si besoin) 2 mesures [+ 1 dimension] Correlation Relation entre les notes de math et de physique 0 6 12 18 24 0 5 10 15 20
  • 23.
    Box Plot Encodage attributConstructions possibles Type de relation Longueur (des barres) Position 2d 1 mesures [+ 1 dimension ] Distribution
  • 24.
    Map Encodage attribut Constructionspossibles Type de relation Position 2d Couleur Forme 1 mesures + 1 dimension geospatial [+1 dimension] Comparaison nominal
  • 25.
    Heat Map Encodage attributConstructions possibles Type de relation Couleur 1 mesures + 2 dimension Comparaison
  • 26.
    Treemap Encodage attribut Constructionspossibles Type de relation Position 2d Couleur Forme 1 mesures + 1 dimension geospatial Comparaison nominal
  • 27.
    Sparkline Encodage attribut Constructionspossibles Type de relation Position 2d 1 mesures +1 dimension Comparaison
  • 28.
    Bullet chart Encodage attributConstructions possibles Type de relation Longueur Position 2d Couleur 1 mesures [+1 dimension] Objectif
  • 29.
    Bonnes pratiques pourla conception de vos graphiques Le choix du graphique est une étape importante, mais il faut aussi savoir mettre en valeur les données par les éléments périphériques de votre graphique (titre, légende, grilles…) tout en évitant de polluer la compréhension des données avec des éléments superflus.
  • 30.
    Bonnes pratiques pourla conception de vos graphiques Chartjunk Edward Tufte Data Ink Ratio
  • 31.
    Bonnes pratiques pourla conception de vos graphiques 0 25 50 75 100 Avril Mai Juin Juillet Non data ink data ink
  • 32.
    Bonnes pratiques pourla conception de vos graphiques - Ne pas utiliser les effets superflus (ombre, 3D, remplissage du fond du graphique) - Utiliser des polices sans serif (arial, helvetica) - Si les couleurs ne servent pas à encoder les données, utiliser une teinte unie
  • 33.
    Bonnes pratiques pourla conception de vos graphiques - Utiliser une grille lorsque cela facilite la lecture
  • 34.
    Bonnes pratiques pourla conception de vos graphiques - Utiliser une grille lorsque cela facilite la lecture: aussi valable pour les tableaux
  • 35.
    Bonnes pratiques pourla conception de vos graphiques - Encadrer la zone du graphique que si cela est essentiel
  • 36.
    Bonnes pratiques pourla conception de vos graphiques - Pour les « non data ink » restant, jouer sur les épaisseurs et la couleur pour ne pas distraire vos utilisateurs
  • 37.
    Bonnes pratiques pourla conception de vos graphiques - Pour les « non data ink » restant, jouer sur les épaisseurs et la couleur pour ne pas distraire vos utilisateurs
  • 38.
    Bonnes pratiques pourla conception de vos graphiques - Pour les « non data ink » restant, jouer sur les épaisseurs et la couleur pour ne pas distraire vos utilisateurs
  • 39.
    Bonnes pratiques pourla conception de vos graphiques - Pour les « non data ink » restant, jouer sur les épaisseurs et la couleur pour ne pas distraire vos utilisateurs
  • 40.