Véronique Mesguich
DATAVISUALISATION :
FAITES PARLER LA DATA !
21 janvier 2020
UFTV } Développer les Compétences Numériques en Documentation (DCND)Webinar #6
21 janvier 2020
EEIE
SommaireSOMMAIRE
• Pourquoi faire parler la donnée ?
• Trouver et préparer les données
• Bien choisir le type de représentation, bonnes pratiques
• Tendances d’évolution
• Les outils de la dataviz
NB : Toutes les datavisualisations présentées dans ce
support sont cliquables, le lien renvoie vers la source
primaire
POURQUOI FAIRE PARLER LA
DONNEE ?
Le Brexit vu par la Datavisualisation
Aux origines de la datavisualisation
La carte du
tendre, 1654
Charles Joseph Minard,
Carte des flux de la
campagne napoléonienne
de Russie, 1869
Jacques Bertin, Sémiologie
graphique, 1973
Ce qui est nouveau
• La diversité et la volumétrie des données
• L’hétérogénéité des données (structurées et non structurées)
• L’ouverture des données (open data)
• La puissance de calcul
• De nouveaux outils et modes de communication
• L’économie de l’attention
• De nouveaux usages : personnalisation, interactivité, temps réel,
collaboratif, utilisation de l’intelligence artificielle, datastorytelling,
accès via mobiles
• Le caractère transmedia : mix avec la photo (« photoviz »), la vidéo…
La data visualisation, c’est l’art de raconter des chiffres de
manière créative et ludique, là où les tableaux Excel échouent.
C’est en quelque sorte mettre en musique l’information
chiffrée » (Charles Miglietti, co-fondateur de Toucan Toco)
Découvrir, explorer
(logique « datadriven »)
Aide à la décision à partir de volumes
d’information (plus ou moins grands)
Simplifier et non complexifier !
Identifier
des
facteurs,
des
corrélations
Trouver
des KPI
Anticiper
des crises
Distinguer
les
éléments
d’une
controverse
Mettre en
évidence des
liens, des
communautés
Comprendre et faire comprendre,
expliquer, communiquer
(logique conceptuelle)
Comparer
des
données
factuelles
Détecter des
tendances,
signaux
faibles,
anomalies…
Identifier
des
influenceurs
Présenter les
résultats
d’une
analyse,
d’une
enquête
Tester des
hypothèses
Représenter des liens, distinguer des
communautés
Liens entre
des personnes
Co-occurrence
de termes
Réseaux de
collaboration
Détection de
communautés
Graphes de
relations dans
Twitter
Représenter l’évolution chronologique
Frises
chronologiques
Spirale des temps
géologiques
United States
Geological Survey,
1975
History of life,
graphique circulaire,
Juan David Martinez,
2014
Filer la métaphore
La polémique Black
Rock expliqués avec
des Smarties, Les
Echos, 3 janvier 2020
Le corps humain vu
comme un plan de
métro, Sam Loman,
2010
Dans le domaine de la veille et de l’IE/1
Cartographie des risques/menaces
(heat map) voir ici ou ici
Etude de la
polarisation de
l’opinion
(étude de la
polarisation du
discours politique
aux Etats-Unis)
Anticipation de crises le projet White Collar Crime
Risk Zone de New Enquiry crée des cartes avec des
modèles de prédiction indiquant les lieux les plus
probables de crimes en col blanc sur la base des données
de la SEC, 2017
Dans le domaine de la veille et de l’IE/2
Cartographie des parties prenantes
)
Détection d’influenceurs : cas du CES 2018, par
Kernix. A partir d'un flux de données filtrées
récupérées sur Twitter, un graphe de relations (des
retweets) entre utilisateurs est construit et analysé
à partir d’un algorithme
Infographie des parties prenantes EDF,
2011
Visualisation des 42 principaux acteurs
alsaciens de l’énergie, réalisé avec Gephi,
Sophie Buessler, 2017
De nombreux sites offrent des
datavisualisations
• The Atlas of Economic Complexity (Harvard)
• Service infographie des Echos
• Beautiful News Daily
• Virtual capitalist (infographies marchés)
• Kontinentalist Stories (spécialisé Asie)
• Datagueule
• Dataminr (carte du monde interactive
, détection des risques )
Infographie « Bienvenue en Macronie » Les Echos,
2018
Beautiful News Daily, infographies « positives »
et data associées, renouvelées quotidiennement
Questions à se poser….
• Qu’est ce que je veux représenter ?
• Quelle est la nature des données ?
• Quels sont les usages de mon public ? (la datavisualisation ne s’adresse pas qu’aux
experts de l’analyse, mais aussi aux experts métiers, au « grand public »….)
• Quel est mon support d’affichage (écran, imprimé, possibilités de zoomer, d’interagir… )
• La représentation doit rester interprétable ! Et il est parfois compliqué de faire simple…
• La forme ne doit pas primer sur le fond !
• Pas de datavisualisation dans l’absolu : utiliser les outils, méthodes et sources adaptées
aux besoins
Les 7 C (source : Accidental Analyst, Ellen et Stephen McDaniel)
•Collect data
•Check data
•Clean data
•Chart the data
•Customize the analyses
•Collaborate
•Communicate the results
TROUVER ET PREPARER
LES DONNEES
Des données…mais de quelle nature ?
• Données quantitatives, statistiques ou financières
• Données multidimensionnelles (bases multidimensionnelles,
tableaux à plusieurs dimensions)
• Données issues des réseaux sociaux
• Données géographiques
• Données textuelles (corpus de textes)
• Données de connexion à un site web
….
Ou trouve t-on les données ?
• En ligne : pages web, bases de données accessibles via le web
• Auprès des sources officielles : en application des lois sur le droit
d’accès et de réutilisation des données publiques
• Dans l’entreprise: dans les stocks de données (bases de données
internes, ERP, CRM…)
• Création de jeux de données à partir d’un corpus de documents (lors
d’un hackaton par exemple)
• Référentiels de données (Geonames, Wikidata…)
Le moteur Google Dataset Search
• Lancé en fin 2018, possibilité de
recherche dans des jeux de
données publiques
• Efficacité parfois limitée…
• Attention à l’indexation et aux
méta-données
• Attention aux dates des données
Astuces Google Web pour la recherche de
données
• Limitation par url ou site, ou par formats
• Exemples de requetes
sujet inurl:downloads OR inurl:telechargement filetype:xls
OR filetype:xlsx OR filetype:csv
sujet filetype:xls OR filetype:xlsx OR filetype:csv
site:.gouv.fr
• Essayer de repérer les gisements de données en saisissant
des termes comme «directory listing» ou «bases de
données», ou autres synonymes, associés à des sites de
producteurs de données spécifiques
Sources utiles pour la recherche de données
publiques
• Opendatanetwork
• Public Open datasoft
• US Census Bureau Data
• EU open data portal
• Opencorporates
• Kaggle
• Datainfogreffe (chiffres clés
entreprises françaises)
• Datahub :plateforme de la Open
KnowledgeFoundation
• Liste des portails d’open data
dans le monde
Mais aussi, apparition de portails de données
d’origine privée : par exemple Euler Hermes
Open Data
Les grands référentiel de données
• Wikidata : stockage des données
structurées de Wikipedia et ses
produits frères
• Geonames : base de données de
noms géographiques géolocalisés
Sources utiles pour la recherche de données
scientifiques
• Entrepôts de données brutes associées aux articles de recherche
Exemple : Dryaddigital repository
• «Data journals» : publications dont le but est d’exposer des jeux de
données brutes produits par des chercheurs
Exemple : Nature Scientific Data
• Bases de données scientifiques associées à des bases d’articles
Exemple : Elsevier Datasearch
• «Data citation index» : équivalent du Web of science pour les articles
classiques
« Nettoyer » les données
• Open refine : outil libre d'extraction
de données qui peut être utilisé pour
nettoyer des tableaux, et les
connecter à des bases de
connaissances, dont Wikidata
• Nettoyer, transformer, regrouper,
fusionner des données, créer des
liens entre des jeux de données…
• « Réconciliation » : processus
d'alignement de données textuelles
brutes avec des identifiants de bases
de connaissances (Wikidata,
Geonames…)
Voir aussi: Tableau Prep
BIEN CHOISIR LE TYPE DE
REPRESENTATION
Une datavisualisation des méthodes de
datavisualisation
Les classiques
Diagramme à
barres
Histogramme
Comparer des
valeurs
Suivre la valeur au
fil du temps (séries
chronologiques)
Graphique en
courbes
Afficher
l’interaction
entre deux
valeurs
Représenter des
pourcentages,
proportions
Pie
Nuage de points
Quadrant magique
Camembert (pie
chart)
Donut chart
Diagramme rayon de soleil (Sunburst)
• Permet de visualiser le nombre
de niveaux hiérarchiques et la
proportion que chaque
segments représentent
• Application : organigrammes,
les données économiques…
• A réaliser avec : Excel, Tableau
Software, Infogram, D3js…
Diagramme de Sankey
• Le Diagramme de Sankey permet de
représenter des données de flux. la
largeur des flèches est proportionnelle
au flux représenté.
• Applications : énergie, processus
industriels, flux financiers…
« A Sankey diagram says more than 1000
pie charts”
• A réaliser avec : Excel, R, D3js…
Treemap (ou carte proportionnelle, carte à
cases)
• Vue hiérarchique de données.
Chaque case correspond à une
entité dans une arborescence. La
taille et la couleur correspondent à
des attributs de l’entité
• Applications : données financières,
extraction de tendances dans
documents textuels…
• A réaliser avec : Excel, Tableau
Software, Infogram, Power
Bi,D3js…
Cartographie des données de Google News
Représentation
des
thématiques
issues des
réponses au
Grand Débat
National, après
traitement
sémantique
(logiciel
Proxem)
Chord diagram
• Permet de représenter les relations
entre les données d’un tableau
croisé
• Applications : données financières,
marketing, géopolitiques,
démographiques…
• A réaliser avec : Excel, Tableau
Software, Infogram, Power
Bi,D3js…
Représentation des liens entre 78 ascensions du Tour de
France et les 6 meilleurs « grimpeurs » cyclistes
Représentations géolocalisées
• Permet de géolocaliser sur une carte
géographique des lieux, événements,
photos, publications…
• Applications : géolocalisation de
phénomènes, corrélation de données
• A réaliser avec :
Excel, Umap/Open Streetmap, Google
My Maps, Batchgeo, Flourish Studio…
Carte de France interactive de
la pollution des sols
Données concernant la pollution
au plomb à proximité de Notre
Dame s
Carte de France interactive de
la pollution des sols
Nuages de mots et
text mining
• Extraction des mots à forte occurrence
ou co-occurrence à l’intérieur d’un texte
• Analyse statistique de textes
• Applications : extraire les concepts clés
d’un texte, faciliter la compréhension
• Nuages de mots: Wordle, Tagul,
Tagcrowd…
• Analyse statistique de textes : Text
Analyzer
• Solutions de text mining : Voyant Tools,
Tropes…
Analyse discours politique
Graphes
• Permet de matérialiser des liens
entre des personnes, des
entités, des cooccurences de
termes dans un texte
• Applications : identifications de
communautés, d’influenceurs,
analyse de réseaux, création de
posters scientifiques…
• A réaliser avec : Gephi, Yed
Graph Editor, NodeXL, Socioviz…
Guides de choix de représentation
• Datavizproject Ferdio : guide de choix des
formats, en fonction de différents critères
• Dataviz Catalogue : indique quels outils
correspondent à quel modèle
• Chartmaker directory : matrice reliant les
types de modèle et les outils
• Visual vocabulary : définitions et exemples
de représentations
•
Voir aussi Guide pratique de la
visualisation analytique
Attention aux effets induits par l’échelle, la
3 D, la perspective…
Effet d’anamorphose : la taille des pays sur la
carte est fonction de la population Voir iciDans le camembert à gauche, l’élément C apparait
aussi grand que l’élément A, alors qu’en réalité il est
plus petit Voir ici
Dans la figure de gauche, on a l’impression qu’il y
a plus de bananes que d’autres fruits car l’icone
est plus grande
Quelques points de vigilance
• Dans un diagramme à barres, les échelles de valeur commencent à
zéro
Dans un graphique en courbes, l’amplitude des
courbes prend les ⅔de l’espace
Attention aux échelles de couleur dans les
cartes choroplèthes ou les cartes de chaleur
Sur les bonnes pratiques, voir aussi ici
« Data looks better naked » (source : Darkhorsanalytics)
• Lie factor : ratio entre la taille de l’information et la réelle taille de
l’info
• Data ink ratio : se débarrasser du superflu et des effets inutiles
AVANT APRES
Ne pas confondre corrélation et causalité
• Faire parler les données…mais ne pas les faire mentir !
• «Je ne crois jamais une statistique à moins de l'avoir moi-même
falsifiée». (Winston Churchill)
• Ne pas confondre corrélation et causalité (exemple : la pointure des
chaussures corrélée avec le niveau de compétences en
mathématiques)
• Attention aux biais : en cartographie, les choix de fond de carte, de
couleurs, des données, de projection, de sélection, les choix
statistiques ont un impact sur le rendu final de la carte
TENDANCES D’EVOLUTION
Raconter des histoires, visualisation narrative
• Scrollytelling: forme de narration
immersive, article long mélangeant
différents types de contenus (textes,
images, vidéos, infographies, etc.).
• Logique de narration (storytelling)
combinée avec une descente dans la
page avec la souris (scrolling)
Photoviz : la fusion entre infographie et photo
Infographie « La tomate, un concentré
de mondialisation » Les Echos, 19
août 2019
Lille, Pont Napoleon, France3 Hauts de
France via Flourish, 2019
Interactivité/personnalisation
• Les utilisateurs souhaitent pouvoir manipuler les données, interagir…
Wind and words : datavisualisation interactive
de données concernant la série Game of
Thrones (occurrence de termes, échanges entre
les personnages…)
Le Pariteur : application en ligne qui indique, à partir des
données renseignées, la différence de salaire avec une
personne du sexe opposé à un poste équivalent.
Animation sous forme de vidéo
• Animation créée par The Next
Web
• Compilation de données
provenant des rapports annuels,
articles depuis 2003
• Diagramme à barres (bar chart
race) animé par Flourish Studio
Poster scientifique
interactif
Garbage Dump in the ocean
La pollution au plastique dans les
océans,oLaureat Information is
beautiful Awards 2019
LES OUTILS DE LA DATAVIZ
Guide de choix :
https://gallery.keshif.me/VisTools 90 outils classés selon plusieurs
critères
« Clés en
mains » Expertise
Gratuit
Payant
Génération de
graphes
Bibliothèques
Javascript
Tableaux de bord
dynamiques
Solutions de veille et
social media listening
Frises
chronologiques
Géolocalisation
de points
Infographies
Data Storytelling
Plusieurs familles de solutions
Tableaux de bord dynamiques
• Tableau Software : à télécharger, permet de créer des datavisualisations
interactives et personnalisables
Exemples d’utilisations ici
• Slemma
• Infogr.am (racheté par Prezi)
• Datawrapper
• Chartblocks
• Et aussi DataHero, Looker…
• Et aussi Google Data Studio, en ligne, gratuit
Tableau Software
• Exemple d’utilisation de Tableau Software :
tableau comparatif des solutions de veille, 2017
Tableau Public : application gratuite à télécharger
Accès à une bibliothèque de visualisation de
données
Licence Tableau Software (payant) inclut Tableau Destkop et Tableau
Prep
Datavisualisation intégrée dans les solutions
de veille
• Tableaux de bord des solutions de veille
classiques : Digimind, Bertin IT, KBCrawl,
Geotrend, Qwam/Asknread, Iscope…
• Solutions de social media listening :
Visibrain, Alerti, Socioviz…
• Nombre de mentions, nuages de mots,
représentations de liens, analyse du
sentiment…
Bibliothèques javascript
Bibliothèques de codes informatiques permettant l’affichage de
données numériques sous une forme graphique
• D3js (Data-driven documents)
• Chartjs
• Canvasjs
• AmCharts
Open source mais nécessite manipulation de code
Géolocalisation et SIG
Systèmes d’informations géographiques
• Carto (version gratuite pour les étudiants)
• ArcGIS (SIG, système d’information géographique)
Systèmes permettant de géolocaliser des points sur une carte géographique
• Umap OpenStreetmap
• Google My Maps
• Flourish Studio
• Map in seconds
Solutions de BI
• Qlik
• Microsoft Power BI
• Sisense
Notion de « Modern BI » : plus agile,
interactive, collaborative, plus prédictive
et moins centralisée
Graphes et réseaux
• Gephi
• NodeXL
• Maltego
Gephi et NodeXL
sont open source
Infographies
• Piktochart
• Canva
• Easel.ly
• Visme
« Templates » à compléter avec
les données de l’utilisateur
Accès gratuit en ligne limité en
fonctionnalités, versions premium
• Solutions (payantes) de
professionnels de l’infographie : Indesign…
Timelines et frises chronologiques
Solutions en ligne permettant de créer des frises chronologiques à partir de données
• Timeline storyteller
• Tikitoki
• Timeline js
• Genially
• Preceden (permet
de créer des diagrammes
de Gantt)
« Templates » à compléter avec
les données de l’utilisateur
Accès gratuit en ligne limité en fonctionnalités, versions premium
Data Story telling
• « Démocratisation » des tableaux de bord (indicateurs de
performances, etc), visualisation responsive sur mobile
• Toucan Toko tableau de bord plus destinés aux néophytes
• Datatelling.eu
• Tidemark
• Flourish Studio
Storymaps
Editorialisation de contenus (texte, graphiques, vidéo, cartes
géographiques…), intéressant pour des livrables de veille
• Story maps (ESRI)
• StoryMaps.js
• Tour Builder (Google)
• Timemapper
• Voir exemples ici
Merci de votre attention!

Webinar EEIE #06 : Datavisualisation, faites parler la data

  • 1.
    Véronique Mesguich DATAVISUALISATION : FAITESPARLER LA DATA ! 21 janvier 2020 UFTV } Développer les Compétences Numériques en Documentation (DCND)Webinar #6 21 janvier 2020 EEIE
  • 2.
    SommaireSOMMAIRE • Pourquoi faireparler la donnée ? • Trouver et préparer les données • Bien choisir le type de représentation, bonnes pratiques • Tendances d’évolution • Les outils de la dataviz NB : Toutes les datavisualisations présentées dans ce support sont cliquables, le lien renvoie vers la source primaire
  • 3.
  • 4.
    Le Brexit vupar la Datavisualisation
  • 5.
    Aux origines dela datavisualisation La carte du tendre, 1654 Charles Joseph Minard, Carte des flux de la campagne napoléonienne de Russie, 1869 Jacques Bertin, Sémiologie graphique, 1973
  • 6.
    Ce qui estnouveau • La diversité et la volumétrie des données • L’hétérogénéité des données (structurées et non structurées) • L’ouverture des données (open data) • La puissance de calcul • De nouveaux outils et modes de communication • L’économie de l’attention • De nouveaux usages : personnalisation, interactivité, temps réel, collaboratif, utilisation de l’intelligence artificielle, datastorytelling, accès via mobiles • Le caractère transmedia : mix avec la photo (« photoviz »), la vidéo… La data visualisation, c’est l’art de raconter des chiffres de manière créative et ludique, là où les tableaux Excel échouent. C’est en quelque sorte mettre en musique l’information chiffrée » (Charles Miglietti, co-fondateur de Toucan Toco)
  • 7.
    Découvrir, explorer (logique «datadriven ») Aide à la décision à partir de volumes d’information (plus ou moins grands) Simplifier et non complexifier ! Identifier des facteurs, des corrélations Trouver des KPI Anticiper des crises Distinguer les éléments d’une controverse Mettre en évidence des liens, des communautés Comprendre et faire comprendre, expliquer, communiquer (logique conceptuelle) Comparer des données factuelles Détecter des tendances, signaux faibles, anomalies… Identifier des influenceurs Présenter les résultats d’une analyse, d’une enquête Tester des hypothèses
  • 8.
    Représenter des liens,distinguer des communautés Liens entre des personnes Co-occurrence de termes Réseaux de collaboration Détection de communautés Graphes de relations dans Twitter
  • 9.
    Représenter l’évolution chronologique Frises chronologiques Spiraledes temps géologiques United States Geological Survey, 1975 History of life, graphique circulaire, Juan David Martinez, 2014
  • 10.
    Filer la métaphore Lapolémique Black Rock expliqués avec des Smarties, Les Echos, 3 janvier 2020 Le corps humain vu comme un plan de métro, Sam Loman, 2010
  • 11.
    Dans le domainede la veille et de l’IE/1 Cartographie des risques/menaces (heat map) voir ici ou ici Etude de la polarisation de l’opinion (étude de la polarisation du discours politique aux Etats-Unis) Anticipation de crises le projet White Collar Crime Risk Zone de New Enquiry crée des cartes avec des modèles de prédiction indiquant les lieux les plus probables de crimes en col blanc sur la base des données de la SEC, 2017
  • 12.
    Dans le domainede la veille et de l’IE/2 Cartographie des parties prenantes ) Détection d’influenceurs : cas du CES 2018, par Kernix. A partir d'un flux de données filtrées récupérées sur Twitter, un graphe de relations (des retweets) entre utilisateurs est construit et analysé à partir d’un algorithme Infographie des parties prenantes EDF, 2011 Visualisation des 42 principaux acteurs alsaciens de l’énergie, réalisé avec Gephi, Sophie Buessler, 2017
  • 13.
    De nombreux sitesoffrent des datavisualisations • The Atlas of Economic Complexity (Harvard) • Service infographie des Echos • Beautiful News Daily • Virtual capitalist (infographies marchés) • Kontinentalist Stories (spécialisé Asie) • Datagueule • Dataminr (carte du monde interactive , détection des risques ) Infographie « Bienvenue en Macronie » Les Echos, 2018 Beautiful News Daily, infographies « positives » et data associées, renouvelées quotidiennement
  • 14.
    Questions à seposer…. • Qu’est ce que je veux représenter ? • Quelle est la nature des données ? • Quels sont les usages de mon public ? (la datavisualisation ne s’adresse pas qu’aux experts de l’analyse, mais aussi aux experts métiers, au « grand public »….) • Quel est mon support d’affichage (écran, imprimé, possibilités de zoomer, d’interagir… ) • La représentation doit rester interprétable ! Et il est parfois compliqué de faire simple… • La forme ne doit pas primer sur le fond ! • Pas de datavisualisation dans l’absolu : utiliser les outils, méthodes et sources adaptées aux besoins
  • 15.
    Les 7 C(source : Accidental Analyst, Ellen et Stephen McDaniel) •Collect data •Check data •Clean data •Chart the data •Customize the analyses •Collaborate •Communicate the results
  • 16.
  • 17.
    Des données…mais dequelle nature ? • Données quantitatives, statistiques ou financières • Données multidimensionnelles (bases multidimensionnelles, tableaux à plusieurs dimensions) • Données issues des réseaux sociaux • Données géographiques • Données textuelles (corpus de textes) • Données de connexion à un site web ….
  • 18.
    Ou trouve t-onles données ? • En ligne : pages web, bases de données accessibles via le web • Auprès des sources officielles : en application des lois sur le droit d’accès et de réutilisation des données publiques • Dans l’entreprise: dans les stocks de données (bases de données internes, ERP, CRM…) • Création de jeux de données à partir d’un corpus de documents (lors d’un hackaton par exemple) • Référentiels de données (Geonames, Wikidata…)
  • 19.
    Le moteur GoogleDataset Search • Lancé en fin 2018, possibilité de recherche dans des jeux de données publiques • Efficacité parfois limitée… • Attention à l’indexation et aux méta-données • Attention aux dates des données
  • 20.
    Astuces Google Webpour la recherche de données • Limitation par url ou site, ou par formats • Exemples de requetes sujet inurl:downloads OR inurl:telechargement filetype:xls OR filetype:xlsx OR filetype:csv sujet filetype:xls OR filetype:xlsx OR filetype:csv site:.gouv.fr • Essayer de repérer les gisements de données en saisissant des termes comme «directory listing» ou «bases de données», ou autres synonymes, associés à des sites de producteurs de données spécifiques
  • 21.
    Sources utiles pourla recherche de données publiques • Opendatanetwork • Public Open datasoft • US Census Bureau Data • EU open data portal • Opencorporates • Kaggle • Datainfogreffe (chiffres clés entreprises françaises) • Datahub :plateforme de la Open KnowledgeFoundation • Liste des portails d’open data dans le monde Mais aussi, apparition de portails de données d’origine privée : par exemple Euler Hermes Open Data
  • 22.
    Les grands référentielde données • Wikidata : stockage des données structurées de Wikipedia et ses produits frères • Geonames : base de données de noms géographiques géolocalisés
  • 23.
    Sources utiles pourla recherche de données scientifiques • Entrepôts de données brutes associées aux articles de recherche Exemple : Dryaddigital repository • «Data journals» : publications dont le but est d’exposer des jeux de données brutes produits par des chercheurs Exemple : Nature Scientific Data • Bases de données scientifiques associées à des bases d’articles Exemple : Elsevier Datasearch • «Data citation index» : équivalent du Web of science pour les articles classiques
  • 24.
    « Nettoyer »les données • Open refine : outil libre d'extraction de données qui peut être utilisé pour nettoyer des tableaux, et les connecter à des bases de connaissances, dont Wikidata • Nettoyer, transformer, regrouper, fusionner des données, créer des liens entre des jeux de données… • « Réconciliation » : processus d'alignement de données textuelles brutes avec des identifiants de bases de connaissances (Wikidata, Geonames…) Voir aussi: Tableau Prep
  • 25.
    BIEN CHOISIR LETYPE DE REPRESENTATION
  • 26.
    Une datavisualisation desméthodes de datavisualisation
  • 27.
    Les classiques Diagramme à barres Histogramme Comparerdes valeurs Suivre la valeur au fil du temps (séries chronologiques) Graphique en courbes Afficher l’interaction entre deux valeurs Représenter des pourcentages, proportions Pie Nuage de points Quadrant magique Camembert (pie chart) Donut chart
  • 28.
    Diagramme rayon desoleil (Sunburst) • Permet de visualiser le nombre de niveaux hiérarchiques et la proportion que chaque segments représentent • Application : organigrammes, les données économiques… • A réaliser avec : Excel, Tableau Software, Infogram, D3js…
  • 29.
    Diagramme de Sankey •Le Diagramme de Sankey permet de représenter des données de flux. la largeur des flèches est proportionnelle au flux représenté. • Applications : énergie, processus industriels, flux financiers… « A Sankey diagram says more than 1000 pie charts” • A réaliser avec : Excel, R, D3js…
  • 30.
    Treemap (ou carteproportionnelle, carte à cases) • Vue hiérarchique de données. Chaque case correspond à une entité dans une arborescence. La taille et la couleur correspondent à des attributs de l’entité • Applications : données financières, extraction de tendances dans documents textuels… • A réaliser avec : Excel, Tableau Software, Infogram, Power Bi,D3js… Cartographie des données de Google News Représentation des thématiques issues des réponses au Grand Débat National, après traitement sémantique (logiciel Proxem)
  • 31.
    Chord diagram • Permetde représenter les relations entre les données d’un tableau croisé • Applications : données financières, marketing, géopolitiques, démographiques… • A réaliser avec : Excel, Tableau Software, Infogram, Power Bi,D3js… Représentation des liens entre 78 ascensions du Tour de France et les 6 meilleurs « grimpeurs » cyclistes
  • 32.
    Représentations géolocalisées • Permetde géolocaliser sur une carte géographique des lieux, événements, photos, publications… • Applications : géolocalisation de phénomènes, corrélation de données • A réaliser avec : Excel, Umap/Open Streetmap, Google My Maps, Batchgeo, Flourish Studio… Carte de France interactive de la pollution des sols Données concernant la pollution au plomb à proximité de Notre Dame s Carte de France interactive de la pollution des sols
  • 33.
    Nuages de motset text mining • Extraction des mots à forte occurrence ou co-occurrence à l’intérieur d’un texte • Analyse statistique de textes • Applications : extraire les concepts clés d’un texte, faciliter la compréhension • Nuages de mots: Wordle, Tagul, Tagcrowd… • Analyse statistique de textes : Text Analyzer • Solutions de text mining : Voyant Tools, Tropes… Analyse discours politique
  • 34.
    Graphes • Permet dematérialiser des liens entre des personnes, des entités, des cooccurences de termes dans un texte • Applications : identifications de communautés, d’influenceurs, analyse de réseaux, création de posters scientifiques… • A réaliser avec : Gephi, Yed Graph Editor, NodeXL, Socioviz…
  • 35.
    Guides de choixde représentation • Datavizproject Ferdio : guide de choix des formats, en fonction de différents critères • Dataviz Catalogue : indique quels outils correspondent à quel modèle • Chartmaker directory : matrice reliant les types de modèle et les outils • Visual vocabulary : définitions et exemples de représentations • Voir aussi Guide pratique de la visualisation analytique
  • 36.
    Attention aux effetsinduits par l’échelle, la 3 D, la perspective… Effet d’anamorphose : la taille des pays sur la carte est fonction de la population Voir iciDans le camembert à gauche, l’élément C apparait aussi grand que l’élément A, alors qu’en réalité il est plus petit Voir ici Dans la figure de gauche, on a l’impression qu’il y a plus de bananes que d’autres fruits car l’icone est plus grande
  • 37.
    Quelques points devigilance • Dans un diagramme à barres, les échelles de valeur commencent à zéro Dans un graphique en courbes, l’amplitude des courbes prend les ⅔de l’espace Attention aux échelles de couleur dans les cartes choroplèthes ou les cartes de chaleur Sur les bonnes pratiques, voir aussi ici
  • 38.
    « Data looksbetter naked » (source : Darkhorsanalytics) • Lie factor : ratio entre la taille de l’information et la réelle taille de l’info • Data ink ratio : se débarrasser du superflu et des effets inutiles AVANT APRES
  • 39.
    Ne pas confondrecorrélation et causalité • Faire parler les données…mais ne pas les faire mentir ! • «Je ne crois jamais une statistique à moins de l'avoir moi-même falsifiée». (Winston Churchill) • Ne pas confondre corrélation et causalité (exemple : la pointure des chaussures corrélée avec le niveau de compétences en mathématiques) • Attention aux biais : en cartographie, les choix de fond de carte, de couleurs, des données, de projection, de sélection, les choix statistiques ont un impact sur le rendu final de la carte
  • 40.
  • 41.
    Raconter des histoires,visualisation narrative • Scrollytelling: forme de narration immersive, article long mélangeant différents types de contenus (textes, images, vidéos, infographies, etc.). • Logique de narration (storytelling) combinée avec une descente dans la page avec la souris (scrolling)
  • 42.
    Photoviz : lafusion entre infographie et photo Infographie « La tomate, un concentré de mondialisation » Les Echos, 19 août 2019 Lille, Pont Napoleon, France3 Hauts de France via Flourish, 2019
  • 43.
    Interactivité/personnalisation • Les utilisateurssouhaitent pouvoir manipuler les données, interagir… Wind and words : datavisualisation interactive de données concernant la série Game of Thrones (occurrence de termes, échanges entre les personnages…) Le Pariteur : application en ligne qui indique, à partir des données renseignées, la différence de salaire avec une personne du sexe opposé à un poste équivalent.
  • 44.
    Animation sous formede vidéo • Animation créée par The Next Web • Compilation de données provenant des rapports annuels, articles depuis 2003 • Diagramme à barres (bar chart race) animé par Flourish Studio
  • 45.
    Poster scientifique interactif Garbage Dumpin the ocean La pollution au plastique dans les océans,oLaureat Information is beautiful Awards 2019
  • 46.
    LES OUTILS DELA DATAVIZ
  • 47.
    Guide de choix: https://gallery.keshif.me/VisTools 90 outils classés selon plusieurs critères
  • 48.
    « Clés en mains» Expertise Gratuit Payant Génération de graphes Bibliothèques Javascript Tableaux de bord dynamiques Solutions de veille et social media listening Frises chronologiques Géolocalisation de points Infographies Data Storytelling Plusieurs familles de solutions
  • 49.
    Tableaux de borddynamiques • Tableau Software : à télécharger, permet de créer des datavisualisations interactives et personnalisables Exemples d’utilisations ici • Slemma • Infogr.am (racheté par Prezi) • Datawrapper • Chartblocks • Et aussi DataHero, Looker… • Et aussi Google Data Studio, en ligne, gratuit
  • 50.
    Tableau Software • Exempled’utilisation de Tableau Software : tableau comparatif des solutions de veille, 2017 Tableau Public : application gratuite à télécharger Accès à une bibliothèque de visualisation de données Licence Tableau Software (payant) inclut Tableau Destkop et Tableau Prep
  • 51.
    Datavisualisation intégrée dansles solutions de veille • Tableaux de bord des solutions de veille classiques : Digimind, Bertin IT, KBCrawl, Geotrend, Qwam/Asknread, Iscope… • Solutions de social media listening : Visibrain, Alerti, Socioviz… • Nombre de mentions, nuages de mots, représentations de liens, analyse du sentiment…
  • 52.
    Bibliothèques javascript Bibliothèques decodes informatiques permettant l’affichage de données numériques sous une forme graphique • D3js (Data-driven documents) • Chartjs • Canvasjs • AmCharts Open source mais nécessite manipulation de code
  • 53.
    Géolocalisation et SIG Systèmesd’informations géographiques • Carto (version gratuite pour les étudiants) • ArcGIS (SIG, système d’information géographique) Systèmes permettant de géolocaliser des points sur une carte géographique • Umap OpenStreetmap • Google My Maps • Flourish Studio • Map in seconds
  • 54.
    Solutions de BI •Qlik • Microsoft Power BI • Sisense Notion de « Modern BI » : plus agile, interactive, collaborative, plus prédictive et moins centralisée
  • 55.
    Graphes et réseaux •Gephi • NodeXL • Maltego Gephi et NodeXL sont open source
  • 56.
    Infographies • Piktochart • Canva •Easel.ly • Visme « Templates » à compléter avec les données de l’utilisateur Accès gratuit en ligne limité en fonctionnalités, versions premium • Solutions (payantes) de professionnels de l’infographie : Indesign…
  • 57.
    Timelines et friseschronologiques Solutions en ligne permettant de créer des frises chronologiques à partir de données • Timeline storyteller • Tikitoki • Timeline js • Genially • Preceden (permet de créer des diagrammes de Gantt) « Templates » à compléter avec les données de l’utilisateur Accès gratuit en ligne limité en fonctionnalités, versions premium
  • 58.
    Data Story telling •« Démocratisation » des tableaux de bord (indicateurs de performances, etc), visualisation responsive sur mobile • Toucan Toko tableau de bord plus destinés aux néophytes • Datatelling.eu • Tidemark • Flourish Studio
  • 59.
    Storymaps Editorialisation de contenus(texte, graphiques, vidéo, cartes géographiques…), intéressant pour des livrables de veille • Story maps (ESRI) • StoryMaps.js • Tour Builder (Google) • Timemapper • Voir exemples ici
  • 60.
    Merci de votreattention!