ELABE BFMTV L'Opinion en direct - Les Français et les 100 jours de Gabriel Attal
Introduction au Data Marketing
1. +
TD – Veille et Big Data
Manipulation de données et Intelligence
stratégique en communication
2. +Objectifs de ce cours
➢ Comprendre le monde des données et leur usage pour
des prises de décision stratégique
3. +Objectifs de ce cours
➢ Comprendre le monde des données et leur usage pour
des prises de décision stratégique
➢ Utiliser un tableau comme introduction aux bases de
données (Google Spreadsheet)
4. +Objectifs de ce cours
➢ Comprendre le monde des données et leur usage pour
des prises de décision stratégique en communication
➢ Utiliser un tableau comme introduction aux bases de
données (Google Spreadsheet)
➢ Utiliser un outil de data visualisation pour concevoir des
tableaux de bord interactifs d’aide à la décision
(https://public.tableau.com/en-us/s/).
5. +Objectifs de ce cours
➢ Comprendre le monde des données et leur usage pour
des prises de décision stratégique
➢ Utiliser un tableau comme introduction aux bases de
données (Google Spreadsheet)
➢ Utiliser un outil de data visualisation pour concevoir des
tableaux de bord interactifs d’aide à la décision
(https://public.tableau.com/en-us/s/).
Pour une Introduction :
Avoir un compte google et partager le répertoire
Installer Tableau : https://www.youtube.com/watch?v=uLj2EJwhPRQ
6. +Data et prise de décision
Avant de prendre une décision,
➢ il est important d’avoir une connaissance la plus objective
de la situation préalable.
7. +Data et prise de décision
Avant de prendre une décision,
➢ il est important d’avoir une connaissance la plus objective
de la situation préalable.
➢ Il est important d’avoir une connaissance de la situation
conséquente à votre décision pour en évaluer l’efficacité.
8. +Data et prise de décision
Avant de prendre une décision,
➢ il est important d’avoir une connaissance la plus objective
de la situation préalable.
➢ Il est important d’avoir une connaissance de la situation
conséquente à votre décision pour en évaluer l’efficacité.
Pour avoir cette connaissance, il est nécessaire de mettre en
place une démarche rationnelle d’analyse de la situation
sur les bases de données de qualités (Data Analysis) afin
9. +Data et prise de décision
Avant de prendre une décision,
➢ il est important d’avoir une connaissance la plus objective
de la situation préalable.
➢ Il est important d’avoir une connaissance de la situation
conséquente à votre décision pour en évaluer l’efficacité.
Pour avoir cette connaissance, il est nécessaire de mettre en
place une démarche rationnelle d’analyse de la situation
sur les bases de données de qualités (Data Analysis) afin
➢ de décrire la situation
10. +Data et prise de décision
Avant de prendre une décision,
➢ il est important d’avoir une connaissance la plus objective
de la situation préalable.
➢ Il est important d’avoir une connaissance de la situation
conséquente à votre décision pour en évaluer l’efficacité.
Pour avoir cette connaissance, il est nécessaire de mettre en
place une démarche rationnelle d’analyse de la situation
sur les bases de données de qualités (Data Analysis) afin
➢ de décrire la situation
➢ de comparer la situation à d’autres situations de référence
11. +Data et prise de décision
Avant de prendre une décision,
➢ il est important d’avoir une connaissance la plus objective
de la situation préalable.
➢ Il est important d’avoir une connaissance de la situation
conséquente à votre décision pour en évaluer l’efficacité.
Pour avoir cette connaissance, il est nécessaire de mettre en
place une démarche rationnelle d’analyse de la situation
sur les bases de données de qualités (Data Analysis) afin
➢ de décrire la situation
➢ de comparer la situation à d’autres situations de référence
➢ d’expliquer la situation au regard d’une autre situation
12. +Data et prise de décision
Avant de prendre une décision,
➢ il est important d’avoir une connaissance la plus objective
de la situation préalable.
➢ Il est important d’avoir une connaissance de la situation
conséquente à votre décision pour en évaluer l’efficacité.
Pour avoir cette connaissance, il est nécessaire de mettre en
place une démarche rationnelle d’analyse de la situation
sur les bases de données de qualités (Data Analysis) afin
➢ de décrire la situation
➢ de comparer la situation à d’autres situations de référence
➢ d’expliquer la situation au regard d’une autre situation
➢ de projeter la situation au regard d’une situation futur
13. +Data et prise de décision
Avant de prendre une décision,
➢ il est important d’avoir une connaissance la plus objective
de la situation préalable.
➢ Il est important d’avoir une connaissance de la situation
conséquente à votre décision pour en évaluer l’efficacité.
Pour avoir cette connaissance, il est nécessaire de mettre en
place une démarche rationnelle d’analyse de la situation
sur les bases de données de qualités (Data Analysis) afin
➢ de décrire la situation
➢ de comparer la situation à d’autres situations de référence
➢ d’expliquer la situation au regard d’une autre situation
➢ de projeter la situation au regard d’une situation futur
Pour mettre en place cette démarche, il faut
Poser un problème(0) > construire le modèle de donnée(1) >
collecter les données(2) > analyser les données(3) >
interpréter les données(4) > répondre au problème(5)
15. +Individus, Groupe et Échantillon
Chaque analyse s'appuie sur un ou plusieurs individus (Évaluation,
Observation, Appel) qui peuvent être regroupés en un groupe d'individu (élève
ou "année scolaire") en synthétisant les données grâce à une fonction
mathématique(moyenne, max, dernière, etc).
16. +Individus, Groupe et Échantillon
Chaque analyse s'appuie sur un ou plusieurs individus (Évaluation,
Observation, Appel) qui peuvent être regroupés en un groupe d'individu (élève
ou "année scolaire") en synthétisant les données grâce à une fonction
mathématique(moyenne, max, dernière, etc).
L'étude est soit quasi exhaustive (plus de 80% de la population) soit
échantillonnée, c.-à-d. basée sur une petite partie de la population. Mais dans
ce cas se pose la question de la représentativité de l'échantillon.
17. +Individus, Groupe et Échantillon
Chaque analyse s'appuie sur un ou plusieurs individus (Évaluation,
Observation, Appel) qui peuvent être regroupés en un groupe d'individu (élève
ou "année scolaire") en synthétisant les données grâce à une fonction
mathématique(moyenne, max, dernière, etc).
L'étude est soit quasi exhaustive (plus de 80% de la population) soit
échantillonnée, c.-à-d. basée sur une petite partie de la population. Mais dans
ce cas se pose la question de la représentativité de l'échantillon.
Il existe plusieurs méthodes d'échantillonnage qui sont très discutées en
sciences des données :
⮚Méthodes probabilistes ou aléatoires
⮚Méthodes des strates ou des grappes
⮚Méthodes des quotas
⮚Méthodes « proche en proche » ou boule de neige jusqu’à épuisement
18. +Individus, Groupe et Échantillon
Chaque analyse s'appuie sur un ou plusieurs individus (Évaluation,
Observation, Appel) qui peuvent être regroupés en un groupe d'individu (élève
ou "année scolaire") en synthétisant les données grâce à une fonction
mathématique(moyenne, max, dernière, etc).
L'étude est soit quasi exhaustive (plus de 80% de la population) soit
échantillonnée, c.-à-d. basée sur une petite partie de la population. Mais dans
ce cas se pose la question de la représentativité de l'échantillon.
Il existe plusieurs méthodes d'échantillonnage qui sont très discutées en
sciences des données :
⮚Méthodes probabilistes ou aléatoires
⮚Méthodes des strates ou des grappes
⮚Méthodes des quotas
⮚Méthodes « proche en proche » ou boule de neige jusqu’à épuisement
S'il n'est pas possible de s'assurer de la représentativité d'un échantillon, on
dira que la méthode est exploratoire. Les conclusions ne sont donc pas
généralisables à l'ensemble de la population. Sachant qu'un ensemble
concordant d'étude exploratoire fait avancer la science ou à l'inverse crée
de lourdes controverses (Voir Pr. Raoult et le COVID 19).
19. +Structure logique des données
Chaque objet étudié est un fait de concepts, objet de l’esprit
construit, que l’on appelle parfois facteur que l’on appréhende
à partir de nombreux indicateurs
20. +Structure logique des données
Données
Indices
Concept
Problème
Elève en Décrochage
scolaire
Niveau
Moyennes de math
Note DM
Notes DS
Moyenne français
...
Absences
nb abscences
Justifié ?
durée
date
Troubles
entre élèves Type de
trouble
violence
avec l'autorité
21. +Type de données
Il existe 3 types de données dans les approches quantitativistes
Données binaires : c'est l'échelle primitive en analyse de donnée (0/1)
Données qualitatives : Toute variable qualitative est un ensemble de
variables binaires liées entre elles logiquement. Cet ensemble est soit
⮚ à choix exclusif : le choix d'une qualité exclut nécessairement les autres
⮚ à choix multiple : on peut choisir plusieurs qualités d'un même
ensemble.
Données quantitatives : Toute variable mesurable par une quantité. On
distingue les variables
⮚ discrètes (bien souvent des entiers) : qui sont aussi des variables
qualitatives ordonnées quantitativement avec un nombre de valeurs finies
⮚ continues : qui sont véritablement des nombres avec un nombre de
valeurs infinies (souvent à faible proportion)
⮚ Le Temps est une donnée quantitative particulière
Les indices : qui sont des variables produit par des fonctions mathématiques
à partir de données élémentaires.
Pour des besoins pratiques d'analyse, on doit bien souvent recoder des
variables en des variables de nature différente
22. +Base de données
Une base de données est un ensemble d'objets étudiés (Table) pour qui
chaque individu est unique, décrit par des données brutes (aucun indice ni
champ calculés)
C'est à partir des bases de données que l'on forme des vues (souvent une
table unique) qui sont des regroupements synthétiques des données à partir
de fonction mathématiques.
24. + TP 1 – Préparer et Recoder ses
données dans Tableau
25. +Importer ses données dans tableau
1. Les fichiers texte
Importer un fichier texte simple (.csv ou .txt) : le simple (une table) et le plus
universel
2. Les fichiers de logiciel statistiques
Importer un fichier Excel
3. Nettoyer les données à l'aide des fonctions
- Trier les données
- Filtrer les données
- Rechercher/Remplacer
- Convertir les formats de données
- Différencier les Valeurs manquantes (NA), null ou 0 ?
26. +Recoder ses données dans tableau
Recoder avec les fonctions logiques
- Quali vers binaire
La variable binaire sert souvent à répondre à une question précise et élémentaire oui/non. ex dans la variable classe de l’élève
(6ème/5ème/4ème/3ème), sont-ce des classes européennes (oui/non) ?
- quali vers quali
On peut vouloir aussi réduire le nombre de valeurs qualitatives en les fusionnant
- quanti vers binaire
Avec la variable nombre d’absence(n), cet élève est-il au-dessus de la moyenne des absences par élève de l’établissement (oui/non)
- quanti vers quali
La variable quanti peut être simplifiée avec une échelle qualitative plus simple mais aussi (et/ou) plus informative. Nombre d’observation
de comportement (n) devient (“En dessous de la moyenne”, “Au-dessus de la moyenne” “Très au-dessus de la moyenne”)
- quali vers quanti
Une variable qualitative qui s’appuie sur une échelle implicite peut devenir une variable quantitative discrète. Par exemple Niveau de
diplôme des parents (“Sans”, “Bep/3ème”, “Bac”, “Supérieur”) devient (0, 1, 2, 3).
- Recoder les dates en quali ou quanti
Changer les dates en formats utiles pour l’analyse. Jours de la semaine, moi de l’année, durée en heures etc
27. +Normaliser les données
1. Les Rangs
En transformant des valeurs quantitatives en Rang (1ère valeur, seconde, etc…) on peut mieux les
comparer car il n’y a plus d’unité ni d’étendues différentes qui fausseraient les comparaisons : comparer le
poids de l’éléphant et la dose en médicament.
2. Centrer et réduire une variable
On peut faire la même pratique en calculant à quel point la valeur s’éloigne (en écart type) de sa moyenne
(même unité et à peu près même étendue)
Centrée = Différence à la moyenne
Réduite = Centrée/L'ecart-type
3. Les quantiles
- Quantiles 25, 50 (médiane), 75
- min et max
4. Les outliers
Il y a toujours des individus “extraordinaire” par rapport à la normale (en trop ou en pas assez). Il est bien
de pouvoir les repérer pour les étudier à part en les retirant du groupe, car il déforme les données
(discussion sur moyenne et médiane)
- IQR = Q3-Q1
- Outsup = Q3 + 1.5*IQR
- Outinf = Q1 – 1.5*IQR
- Ou +/- 3*SD
28. +Importer ses données dans tableau
1. Les fichiers texte
Fichier texte simple (.csv ou .txt) : le simple (une table) et le plus universel
Fichier texte complexe (.Json ou .xml) : plusieurs tables imbriquées dans une
table élémentaire grâce à un codage hiérarchique
2. Les fichiers de logiciel statistiques
Excel
R
SAS
SPSS
3. La connection au serveur de base de données
Connecteur spécifique ou Connecteur Base de données
4. Les serveurs web de données
Google Spreadsheet
Serveur web data connecteur par API
30. +Analyser les données
1. Analyse monovariée
- Qualitative (Répartition décroissante)
- Quantitative discrète
- Constante ou linéaire
- Géométrique
- Binomiale et/ou de Poisson
- Quantative continue
- Boite à moustache
- Loi normale
- Loi de Pareto
2. Analyse Bi Variée
- Quali/Quali (dénombrement double)
- Quali/Quanti (Analyse de la variation)
- Quanti/Quanti (Corrélation)
- Temporel
31. +
Principes de data visualisation multiples
■ Les éléments signifiants quantitatifs
■ 2 axes
■ Une aire
■ Un trait
■ Couleur dégradée
■ Les éléments signifiants
qualitatifs/discrets
■ Couleur
■ forme
■ Les indicateurs globaux
■ Moyenne, total etc
■ Le choix des données
■ Transformation (logistique)
■ Les axes (origine <>0, ordre des
catégories)
■ Les grilles
■ Les fonds
■ Les titres et légendes (situées)
■ Les filtres
Les unités Le fond
32. +
Grouper, filtrer et set dynamique
Grouper des données
Établir des filtres interactifs
Repérer des ensembles de données
Manuel
Dynamique
Animation
Annotation et infobulles