SlideShare une entreprise Scribd logo
1  sur  8
Télécharger pour lire hors ligne
Chapitre
zéro
:
Décrire
les
données
Pr.
BOULAHOUAL
Adil
1
Chapitre 0 : Décrire les données
La description des données est une étape importante de la démarche d'analyse. Beaucoup d'enquêtes se limitent à cette étape, qui donne un premier
niveau de lecture des résultats ou l'identification de certaines relations entre des variables de l'étude. Cette étape peut servir de fondement, d'une part, à
des analyses plus poussées, dont l'objectif est de simplifier les données (analyses factorielles par exemple), de les classer (typologies), d'autre part, à des
méthodes plus sophistiquées, de nature explicative (régressions, analyses de variance, analyse conjointe, etc.). Ce chapitre a pour objectif de présenter les
principales méthodes de description des données afin de produire une première analyse de ces données collectées lors d'une enquête.
1. LA NOTION DE VARIABLE
Le principe de modélisation est entendu ici comme la représentation simplifiée d'un phénomène observé dans la réalité. La variable est l'expression des
différents états ou valeurs observés dans la population pour désigner ce phénomène.
Les variables sont de deux types:
1.1. QUALITATIVES:
Leurs modalités, c'est-à-dire les valeurs qu'elles peuvent prendre, ne peuvent être qualifiées par une quantité mesurable. Nous pouvons
distinguer les variables qualitatives ordinales, celles dont les modalités peuvent être ordonnées (par exemple la mention obtenue en master), des
variables nominales, celles pour lesquelles les modalités ne peuvent être rangées (par exemple la couleur des cheveux).
1.2. QUANTITATIVES OU METRIQUES: Les occurrences qu'elles prennent sont des quantités mesurables. Elles peuvent être continues si elles
peuvent prendre n'importe quelle valeur à l'intérieur d'un ensemble (par exemple, la surface de l'appartement) ou discrètes si seules certaines
valeurs sont possibles (par exemple, le nombre de pièces de l'appartement est forcément un nombre entier).
Le marketing et plus largement les sciences sociales s'intéressent également à la mesure de phénomènes mentaux, telles les opinions, les attitudes
ou encore les préférences, au travers d'indicateurs: Les échelles de mesure. Ces dernières ont pour objet de fournir au répondant un support
d'expression de ces phénomènes abstraits, complexes à observer, le plus souvent sous la forme d'échelles de notation:
 L'échelle nominale a pour principe d'utiliser les nombres comme des étiquettes pour coder les modalités d'une variable qualitative nominale.
Dans l'échelle nominale, par définition, chacune des modalités de la variable est équivalente aux autres.
 Exemple : Êtes-vous 1. Un homme 2. Une femme ?
 L'échelle ordinale est une échelle de classement. Elle a pour principe d'affecter des nombres aux modalités dans le but de refléter un ordre sous-
jacent. nous pouvons, par exemple, utiliser une échelle ordinale pour classer des préférences de marques.
 Exemple: Notez de 1 à 5 la qualité gustative du chocolat X (l : Très mauvais; 2 : Mauvais; 3 : Moyen; 4: Bon; 5: Très bon).
 L'échelle métrique possède les propriétés des échelles nominale et ordinale, mais elle permet également de comparer les distances entre les objets,
les modalités étant séparées par des espaces équidistants. L'exemple le plus courant est celui du thermomètre, la différence entre 0 °C et 1 °C étant la
Chapitre
zéro
:
Décrire
les
données
Pr.
BOULAHOUAL
Adil
2
même qu'entre 1 °C et 2 °C, etc. L'échelle métrique est la plus couramment utilisée en marketing. Pour les mesures d'attitudes, nous supposons que
les intervalles sont équidistants.
 Exemples d’échelles :
Échelle d'Osgood Avez-vous trouvé que le goût
du produit X était ?
Mauvais 1 2 3 4 5 Bon
Échelle de Likert
Le chocolat X a bon goût
Pas tout d’accord 1 2 3 4 5 Tout à fait d’accord
Échelle d'intention Si la marque M lançait ce
type de produit: Je n’achèterai certainement
pas ce produit
1 2 3 4 5 J’achèterai certainement
ce produit
En général, les variables sont utilisées dans la formulation de modèles. Dans sa forme la plus simple, un modèle vise à définir une relation de cause
à effet entre une variable indépendante et une autre dépendante.
Relation causale simple :
D'autres variables peuvent intervenir dans cette relation directe entre la (ou les) variable(s) indépendante(s) et la (ou les) variable(s)
dépendante(s).1
Dans le premier cas, l'effet de la variable indépendante X sur la variable dépendante Y se mesure par l'intermédiaire d'une troisième variable dite «
médiatrice ». L'association ou la causalité observée entre X et Y résulte du fait que X influence Z qui à son tour influence Y. Cette variable Z -le
goût pour les aliments sucrés par exemple - peut intervenir dans la relation entre la gourmandise et le montant d'achat annuel de friandises. Dans
le second cas, l'intensité et/ou le signe de la relation entre la variable indépendante et la variable dépendante peut être influencé par une variable
modératrice. Si cette variable modératrice est le sexe, on peut par exemple chercher à vérifier que l'effet de la gourmandise sur le montant d'achat
annuel de friandises est plus fort chez les femmes que chez les hommes. Dans ce cas, cet effet peut être mis en évidence en décomposant la
population en sous-populations (les hommes d'un côté, les femmes de l'autre) et en testant la relation dans les sous-groupes.
Effet médiateur Effet modérateur
1
Théâtre et al. 1999, p. 339.
X Y
X Y
Z
X Y
Z
Chapitre
zéro
:
Décrire
les
données
Pr.
BOULAHOUAL
Adil
3
2. DESCRIPTION D'UNE VARIABLE
Nous appelons « variable » l'ensemble des valeurs observées sur les différents individus pour une caractéristique donnée (Tenenhaus, 1996). Dans le
chapitre l, nous avons vu qu'une variable est qualitative dès lors qu'elle a pour valeur des modalités; elle peut être nominale (lorsque l'ensemble des
modalités ne possède pas de structure particulière) ou ordinale (lorsque l'ensemble des modalités est ordonné). Une variable est considérée comme
quantitative ou métrique lorsque ses occurrences peuvent être mesurées (par exemple, l'âge, la valeur d'une action, etc.).
2.1. DECRIRE UNE VARIABLE QUALITATIVE
La description d'une variable qualitative consiste à présenter les effectifs, c'est-à-dire le nombre d'individus de l'échantillon pour chaque modalité de la
variable, et les fréquences, c'est-à-dire la proportion des réponses associées à chaque modalité de la variable étudiée. Dans le langage des études de
marché, nous parlons de tri à plat.
L'intérêt du tri à plat est de fournir une description rapide de la variable étudiée.
Ces descriptions peuvent également être visualisées sous forme de graphiques (diagrammes en bâtons, en secteurs, etc.), dans lesquels les surfaces
associées aux différentes modalités sont proportionnelles à leur fréquence, exprimée en valeur ou en pourcentage.
2.2. DECRIRE UNE VARIABLE QUANTITATIVE
Plusieurs indicateurs permettent de décrire une variable quantitative:
 Les indicateurs de tendance centrale: moyenne, médiane, mode.
 Les indicateurs de dispersion: étendue, variance, écart type, coefficient de variation.
 Les indicateurs de forme de la distribution: asymétrie, aplatissement.
 Des représentations graphiques : histogrammes ou boîtes à moustaches, par exemple, qui permettent une description simple des variables
quantitatives.
 Mesures de la tendance centrale
Les mesures de la tendance centrale ont pour objet de résumer la série d'observations par une valeur considérée comme représentative. La plus
fréquemment employée est la moyenne, ou somme des valeurs de toutes les observations divisées par l'effectif; celle que l'on utilise le plus souvent est la
moyenne arithmétique. La moyenne révèle la tendance centrale en ce sens que les réponses se trouvent réparties de part et d'autre de la moyenne. Mais
la moyenne est sensible aux valeurs extrêmes ou atypiques, et ce d'autant plus que le nombre d'observations est petit. Exemple : Considérons le service
marketing d’une entreprise A, composé de 5 personnes de 34, 35, 37, 39 et 57 ans. On observe que ce service est composé essentiellement de
trentenaires. Or la moyenne d'âge, de 40,4 ans, en donne une image trompeuse car elle est lourdement influencée par le salarié âge 57 ans. Il est alors
utile de compléter l'analyse par le calcul de la médiane, qui n'est pas sensible aux valeurs aberrantes ou extrêmes. La médiane représente la valeur de la
variable qui partage les observations en deux groupes de taille égale, 50 % au-dessus de la médiane, 50 % au-dessus. La médiane n'est qu'un cas
particulier de frac. Le mode représente la valeur présentant la plus grande fréquence d’apparition. Si plusieurs valeurs à la fois présentent la plus
Chapitre
zéro
:
Décrire
les
données
Pr.
BOULAHOUAL
Adil
4
grande fréquence d'apparition chacune d'entre elles est un mode. Nous disons que la distribution est plurimodale ou multimodale.
 Mesures de La dispersion
Les mesures de la dispersion reposent sur l'étendu, la variance, l'écart type et le coefficient de variation.
L'étendue (ou intervalle) est la différence entre la plus grande et la plus petite des valeurs observées, soit entre le maximum et le minimum de la
distribution. La variance est une mesure, sans unité de mesure, de la dispersion autour de la moyenne, elle est égale, pour un échantillon, à la
somme des carrés des écarts par rapport à la moyenne divisé par le nombre d'observations moins un. Lorsque les données sont très dispersées autour
de la moyenne la variance est élevée. Il s'agit d'une mesure plus fine de la dispersion, au sens où toutes les données sont prises en compte. En
revanche, elle est, comme la moyenne, sensible valeurs extrêmes. L'écart type est la mesure de la dispersion autour de la moyenne exprimée dans la
même unité que la variable. L'écart type de la variable x est la racine carrée de la variance. Le coefficient de variation est le rapport de l'écart type à
la moyenne de la distribution, exprimé en pourcentage. C'est donc un indicateur approprié pour comparer plusieurs sous-échantillons.
 Mesures de la distribution
Le coefficient de symétrie (Skewness) mesure l'asymétrie d'une distribution. Une distribution normale est symétrique (voir figure 1), c'est-à-dire que
les valeurs sont les mêmes de part et d'autre du centre de la distribution, et possède une valeur de Skewness de 0. Une distribution avec un Skewness
positif significatif est une distribution asymétrique à droite (la distribution prend la forme d'une longue queue à droite) et une distribution avec un
Skewness négatif significatif est une distribution asymétrique à gauche (la distribution prend la forme d'une longue queue à gauche). Cette
asymétrie s'explique par le fait que les écarts sont plus importants dans une direction que dans l'autre.
Focus : Les fractiles
Les fractiles sont les valeurs d'une variable quantitative qui partitionnent les données triées en classes de taille égale. Les quartiles, par exemple,
divisent les données en quatre classes de même taille. Le premier quartile sépare les observations en deux parties, l'une contenant les 25 %
d'observations de la variable aux valeurs les basses, l'autre contenant les 75 % d'observations présentant les valeurs les plus élevées de la variable. Le
deuxième quartile est la médiane. Le troisième quartile répartie la distribution entre une classe contenant les 75 % d'observations aux valeurs le plus
basses de la variable et une autre contenant les 25 % d'observations aux valeur plus élevées. Il est fréquent d'utiliser les centiles, chaque centile
contenant 1 % d’observations.
Chapitre
zéro
:
Décrire
les
données
Pr.
BOULAHOUAL
Adil
5
Les coefficients de Kurtosis et de Skewness peuvent être utilisés pour s'assurer que les variables suivent une distribution normale, condition nécessaire
pour de nombreux tests statistiques. Le coefficient d'aplatissement (Kurtosis) permet de mesurer le relief ou la platitude d'une courbe issue d'une
distribution de fréquences. En d'autres termes, le coefficient d'aplatissement permet de mesurer le degré de concentration des observations dans les
queues de la courbe. Le coefficient de Kurtosis est de 0 pour une distribution normale (gaussienne). Un Kurtosis négatif indique donc que les queues
comptent un plus grand nombre d'observations que dans une distribution gaussienne. Nous estimons que le coefficient de symétrie ou Skewness doit
être inférieur à 1 et le coefficient d'aplatissement ou Kurtosis doit être inférieur à 1,5 pour considérer que la variable suit bien une loi normale.
3. DES DONNEES AUX VARIABLES
La plupart des entreprises sont aujourd'hui noyées sous l'information mais elles ont soif de connaissance. C'est la capacité de l'analyste à mettre en
œuvre une démarche analytique qui permet de créer, de gérer et de diffuser cette connaissance dans l'organisation. Ce processus repose sur trois
concepts : Les données, l'échantillon et les variables.
3.1 TYPES DE DONNEES
Les types de données sont en général identifiés en fonction de leur source. Ainsi, on distingue les données secondaires et les données primaires.
 Les données secondaires sont des données qui ont été réunies préalablement à l'étude pour répondre à d'autres problèmes, ce qui peut fortement
en limiter la pertinence et la précision. En revanche, d'accès facile et peu coûteux, elles restent prisées par les entreprises, même si elles sont
souvent perçues comme des données à faible valeur ajoutée. Les sources d'information de cette nature sont aujourd'hui abondantes et méritent
d'être considérées avant toute collecte de données primaires. On distingue les données secondaires internes, issues de l'entreprise (reporting,
intranet, données comptables, informations émanant des salariés ...) et les données secondaires externes, issues de l'environnement de
l'entreprise, parmi lesquelles on peut distinguer :
 Les données issues d'Internet: données structurées (fichiers logs, cookies, etc.) et, surtout, données non structurées (blogs, forums,
interactions sociales, etc.) qui commencent aujourd'hui à être analysées.
 Les données gouvernementales : données de recensement, données macroéconomiques, etc.
 Les données de panels (consommateurs, distributeurs, audience).
 Les études de marchés publiées de nature commerciale ou les études sectorielles.
 Les interactions avec les consommateurs ou points de contacts: lettres de réclamations, call-centres, e-mails reçus, etc.
 Les données primaires sont des données qui ont été collectées dans le but de résoudre le problème managérial propre à l'étude. Il s'agit de données
brutes, qui doivent être préparées, analysées puis interprétées. Dans ce cas, les cinq étapes de la démarche d'étude doivent être respectées. Ce
chapitre est consacré à l'étape de la collecte des données, les chapitres suivants abordent l'analyse et l'interprétation des résultats pour une série
de tests pouvant être mis en œuvre dans une démarche d'étude ou de recherche marketing.
Chapitre
zéro
:
Décrire
les
données
Pr.
BOULAHOUAL
Adil
6
4. L'ECHANTILLONNAGE
Se référer au cours de statistique inférentielle.
A mentionner que la précision statistique d'un test s'exprime en calculant l'intervalle de confiance, qui indique la marge d'erreur lorsqu'on généralise
une estimation obtenue sur un échantillon à l'ensemble de la population représentée. La longueur de l'intervalle diminue lorsque la taille de
l'échantillon augmente.
5. MESURER A L'AIDE D'UN QUESTIONNAIRE
Construire un questionnaire amène à s'interroger sur la mesure des concepts. Comment mesurer, par exemple, la qualité du service ? Même en cas
d'études se fondant sur une seule question pour mesurer un concept, il est recommandé d'avoir recours à des échelles de mesure. L'objectif d'une échelle
est d'éviter d'avoir à représenter un phénomène abstrait - un construit - par le biais d'une seule et unique variable, en privilégiant l'utilisation
d'indicateurs qui permettent de représenter les différentes facettes de ce construit et se rapprocher de la vraie valeur en éliminant l’effet humeur au
moins.
5.1.LE DEVELOPPEMENT DES OUTILS DE MESURE2
Churchill, souvent pris comme référence dans la construction d'échelles de mesure, précise que, pour remplir son véritable rôle, « le questionnaire doit
susciter et maintenir l'intérêt du répondant ». Pour ce faire, le chargé d'étude doit se poser un certain nombre de questions afin de limiter divers biais.
 Le concept de mesure
L'acte de mesurer un phénomène est l'opération par laquelle on fait correspondre à une donnée collectée une grandeur censée représenter le phénomène.
Cette opération est perturbée par des éléments qui éloignent la mesure idéale, qui représenterait exactement le phénomène, de la mesure obtenue. Le
modèle de la vraie valeur (Evrard et al. 2009) consiste à décomposer le résultat d'une mesure en ses différents éléments: la vraie valeur (censée
représenter la mesure parfaite) et les termes d'erreur (erreur aléatoire et erreur systématique), comme le montre l'équation suivante:
M (mesure obtenue) = V (vraie valeur) + Es (erreur systématique) + Ea (erreur aléatoire).
La vraie valeur est la mesure « idéale », c'est-à-dire celle qui correspondrait parfaitement au phénomène étudié. Elle est le plus souvent impossible à
atteindre. L'erreur systématique (ou biais) provient du fait que l'instrument de mesure peut présenter un écart systématique avec le phénomène étudié
(par exemple, un biais lié au manque de clarté de l'échelle, à la longueur excessive du questionnaire, etc.). L'erreur aléatoire provient du fait que le
phénomène mesuré par l'instrument peut être affecté par des aléas tels que la fatigue du répondant, l'humeur, etc. Ces termes d'erreur ajoutent du « bruit
» aux variables observées; la mesure obtenue contient donc à la fois la « vraie valeur » de la mesure et le « bruit ». Par exemple, une corrélation ou une
moyenne peuvent être artificiellement renforcées ou diminuées par l'erreur de mesure.
2
Voir le chapitre : Construction d’une échelle de mesure en étude de marché ; semestre six.
Chapitre
zéro
:
Décrire
les
données
Pr.
BOULAHOUAL
Adil
7
L'analyste doit donc s'interroger sur la qualité de l'instrument de mesure qu'il construit et met en œuvre. La validation d'un questionnaire, par
exemple, consistera donc à tester les instruments de mesure utilisés. Ces outils de mesure doivent répondre à deux critères principaux: la fiabilité et la
validité. La fiabilité renvoie à la cohérence entre les indicateurs censés mesurer le même concept, alors que la validité désigne la capacité d'un
instrument de mesure à appréhender un phénomène.
 La validité: Les instruments de mesure choisis doivent permettre d'appréhender le mieux possible le phénomène à mesurer. Il s'agit de répondre à
la question suivante: « Mesure-t-on bien ce que l'on cherche à mesurer? »
 La fiabilité: De façon générale, elle fait référence à la régularité de la mesure. Si l'on mesure un même phénomène plusieurs fois avec le même
instrument, on doit obtenir le même résultat. Ce problème est concerné par l'erreur aléatoire. On parle aussi de fiabilité de cohérence interne pour
des mesures qui comportent plusieurs items. Il s'agit alors de s'assurer, grâce à des indicateurs comme le coefficient alpha de Cronbach, que les
items sont suffisamment homogènes entre eux, c'est-à-dire qu'ils partagent assez de Variance.
6. STRATEGIES D'ANALYSE
L'analyse des données n'est pas une fin en soi; elle doit aider à prendre des décisions à partir d'informations disponibles, si possible fiables et valides.
C'est la décision à prendre qui guide la stratégie d'analyse et la modélisation.
La stratégie d'analyse peut ainsi amener à l'utilisation de techniques variées. Certaines techniques sont utiles pour étudier les différences entre
variables, d'autres pour mettre en évidence leur dépendance, d'autres encore visent à classer les individus, etc. La plupart de ces analyses reposent sur
des hypothèses qu'il convient de tester. Nous y reviendrons en détail dans les chapitres suivants.
Ensuite, la stratégie d'analyse est en partie contrainte par le type de variables à disposition, qualitatives ou quantitatives. D'une manière générale, il
est possible de représenter l'ensemble de ces techniques d'analyse en trois phases successives :
 L'analyse univariée consiste à examiner la distribution les modalités ou les occurrences d’une variable. Voir le point plus haut ( 2.DESCRIPTION
D’UNE VARIABLE) ;
 L'analyse bivariée consiste à étudier les relations entre deux variables. Dans le cas de variables qualitatives, il s'agira d'un tableau croisé
dénombrant les nombres d'observations correspondant à chaque combinaison possible des deux variables ou de tests d’association confirmant ou
infirmant cette dernière ou encore mesurer la force de l'association entre les deux variables. Pour les variables à caractère quantitatif nous
parlons d’analyse de régression (Chapitre 1 : analyse de le régression simple).
 L'analyse multivariée permet de dépasser les techniques précédentes. Elle laisse notamment de côté la parcellisation de l'information induite par
l'analyse bivariée. En effet, en se focalisant sur la relation entre deux variables, on néglige le fait que cette relation peut être influencée par la
présence d'autres variables. En outre, lorsque le nombre de variables est important, il est difficile de prendre en compte l'ensemble des
combinaisons possibles deux à deux. L'analyse multivariée permet donc le traitement simultané de plus de deux variables à la fois. L'ambition
du chargé d'étude qui utilise des analyses multivariées peut se situer à deux niveaux: décrire les données à sa disposition ou expliquer des
Chapitre
zéro
:
Décrire
les
données
Pr.
BOULAHOUAL
Adil
8
phénomènes grâce aux données à sa disposition. On peut chercher à expliquer soit des différences (par exemple, entre les hommes et les femmes,
les clients et les non-clients d'un magasin), soit des relations entre variables.
La fameuse stratégie d’des &équations structurelles est née dans certaines branches de la sociologie, en particulier de la sociologie américaine, et
rapidement diffusées dans de nombreuses autres disciplines, dont les sciences de gestion, les méthodes d’équations structurelles (MES), ou Structural
Equation Modeling en anglais (SEM), sont considérées par certains comme une méthode « magique », qui « marchent » quand les modèles de
régression traditionnels ne marchent pas.
L’objectif des MES, est de proposer une modélisation des relations causales entre de nombreuses variables explicatives et plusieurs variables expliquées
avec des échelles multi-items, et des variables latentes… De façon très classique, les MES servent à calculer la force des relations entre des items et les
variables latentes qu’ils mesurent, et entre ces variables latentes, comme dans le graphique ci-dessous. Dans cet exemple classique, le sociologue
Kenneth Bollen, pionnier des MES, modélise ainsi les relations entre une mesure du développement en 1960 (ind60), et de la démocratie en 1960 et
1965 (dem60 et dem65), ces trois variables latentes étant estimées chacune par des échelles de trois indicateurs différents.

Contenu connexe

Similaire à décrire les données (1).pdf

Chap2_preprocessing.ppt preprocessing 00
Chap2_preprocessing.ppt preprocessing 00Chap2_preprocessing.ppt preprocessing 00
Chap2_preprocessing.ppt preprocessing 00ssuser4028c8
 
Cou rs de methodologie
Cou rs de methodologieCou rs de methodologie
Cou rs de methodologieTelelaz Galaa
 
Azizi glossaire statistique
Azizi glossaire statistiqueAzizi glossaire statistique
Azizi glossaire statistiqueSouad Azizi
 
Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique
Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique
Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique Adad Med Chérif
 
Chapitre 1 et 2 [Enregistrement automatique].pptx
Chapitre 1 et 2 [Enregistrement automatique].pptxChapitre 1 et 2 [Enregistrement automatique].pptx
Chapitre 1 et 2 [Enregistrement automatique].pptxdalaamaima
 
Spss les premieres notions 1
Spss les premieres notions 1Spss les premieres notions 1
Spss les premieres notions 1Adad Med Chérif
 
Data Analysis pas à pas avec R
Data Analysis pas à pas avec RData Analysis pas à pas avec R
Data Analysis pas à pas avec RAmar LAKEL, PhD
 
Chapitre1:Introduction aux méthodes de sondage
Chapitre1:Introduction aux méthodes de sondageChapitre1:Introduction aux méthodes de sondage
Chapitre1:Introduction aux méthodes de sondageMahamadou Haro
 
Stat2 Statistiques Descriptives
Stat2  Statistiques DescriptivesStat2  Statistiques Descriptives
Stat2 Statistiques DescriptivesJean-Louis ESTRADE
 
0234567778999876554345678898765566.15.ppt
0234567778999876554345678898765566.15.ppt0234567778999876554345678898765566.15.ppt
0234567778999876554345678898765566.15.pptessiben
 

Similaire à décrire les données (1).pdf (20)

Spss 3 master comrce copy
Spss 3  master comrce   copySpss 3  master comrce   copy
Spss 3 master comrce copy
 
Chap2_preprocessing.ppt preprocessing 00
Chap2_preprocessing.ppt preprocessing 00Chap2_preprocessing.ppt preprocessing 00
Chap2_preprocessing.ppt preprocessing 00
 
pmi définition variance
pmi définition variancepmi définition variance
pmi définition variance
 
Cou rs de methodologie
Cou rs de methodologieCou rs de methodologie
Cou rs de methodologie
 
Questionnaire sous spss
Questionnaire sous spssQuestionnaire sous spss
Questionnaire sous spss
 
Intro
IntroIntro
Intro
 
Stat8 Anova
Stat8  AnovaStat8  Anova
Stat8 Anova
 
Azizi glossaire statistique
Azizi glossaire statistiqueAzizi glossaire statistique
Azizi glossaire statistique
 
Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique
Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique
Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique
 
Le questionnaire
Le questionnaireLe questionnaire
Le questionnaire
 
0 p eintro_diapo
0 p eintro_diapo0 p eintro_diapo
0 p eintro_diapo
 
Chapitre 1 et 2 [Enregistrement automatique].pptx
Chapitre 1 et 2 [Enregistrement automatique].pptxChapitre 1 et 2 [Enregistrement automatique].pptx
Chapitre 1 et 2 [Enregistrement automatique].pptx
 
Wp bon
Wp bonWp bon
Wp bon
 
Stat3 Intervalle De Confiance
Stat3  Intervalle De ConfianceStat3  Intervalle De Confiance
Stat3 Intervalle De Confiance
 
Spss les premieres notions 1
Spss les premieres notions 1Spss les premieres notions 1
Spss les premieres notions 1
 
Data Analysis pas à pas avec R
Data Analysis pas à pas avec RData Analysis pas à pas avec R
Data Analysis pas à pas avec R
 
Chapitre1:Introduction aux méthodes de sondage
Chapitre1:Introduction aux méthodes de sondageChapitre1:Introduction aux méthodes de sondage
Chapitre1:Introduction aux méthodes de sondage
 
Stat5 Student
Stat5 StudentStat5 Student
Stat5 Student
 
Stat2 Statistiques Descriptives
Stat2  Statistiques DescriptivesStat2  Statistiques Descriptives
Stat2 Statistiques Descriptives
 
0234567778999876554345678898765566.15.ppt
0234567778999876554345678898765566.15.ppt0234567778999876554345678898765566.15.ppt
0234567778999876554345678898765566.15.ppt
 

décrire les données (1).pdf

  • 1. Chapitre zéro : Décrire les données Pr. BOULAHOUAL Adil 1 Chapitre 0 : Décrire les données La description des données est une étape importante de la démarche d'analyse. Beaucoup d'enquêtes se limitent à cette étape, qui donne un premier niveau de lecture des résultats ou l'identification de certaines relations entre des variables de l'étude. Cette étape peut servir de fondement, d'une part, à des analyses plus poussées, dont l'objectif est de simplifier les données (analyses factorielles par exemple), de les classer (typologies), d'autre part, à des méthodes plus sophistiquées, de nature explicative (régressions, analyses de variance, analyse conjointe, etc.). Ce chapitre a pour objectif de présenter les principales méthodes de description des données afin de produire une première analyse de ces données collectées lors d'une enquête. 1. LA NOTION DE VARIABLE Le principe de modélisation est entendu ici comme la représentation simplifiée d'un phénomène observé dans la réalité. La variable est l'expression des différents états ou valeurs observés dans la population pour désigner ce phénomène. Les variables sont de deux types: 1.1. QUALITATIVES: Leurs modalités, c'est-à-dire les valeurs qu'elles peuvent prendre, ne peuvent être qualifiées par une quantité mesurable. Nous pouvons distinguer les variables qualitatives ordinales, celles dont les modalités peuvent être ordonnées (par exemple la mention obtenue en master), des variables nominales, celles pour lesquelles les modalités ne peuvent être rangées (par exemple la couleur des cheveux). 1.2. QUANTITATIVES OU METRIQUES: Les occurrences qu'elles prennent sont des quantités mesurables. Elles peuvent être continues si elles peuvent prendre n'importe quelle valeur à l'intérieur d'un ensemble (par exemple, la surface de l'appartement) ou discrètes si seules certaines valeurs sont possibles (par exemple, le nombre de pièces de l'appartement est forcément un nombre entier). Le marketing et plus largement les sciences sociales s'intéressent également à la mesure de phénomènes mentaux, telles les opinions, les attitudes ou encore les préférences, au travers d'indicateurs: Les échelles de mesure. Ces dernières ont pour objet de fournir au répondant un support d'expression de ces phénomènes abstraits, complexes à observer, le plus souvent sous la forme d'échelles de notation:  L'échelle nominale a pour principe d'utiliser les nombres comme des étiquettes pour coder les modalités d'une variable qualitative nominale. Dans l'échelle nominale, par définition, chacune des modalités de la variable est équivalente aux autres.  Exemple : Êtes-vous 1. Un homme 2. Une femme ?  L'échelle ordinale est une échelle de classement. Elle a pour principe d'affecter des nombres aux modalités dans le but de refléter un ordre sous- jacent. nous pouvons, par exemple, utiliser une échelle ordinale pour classer des préférences de marques.  Exemple: Notez de 1 à 5 la qualité gustative du chocolat X (l : Très mauvais; 2 : Mauvais; 3 : Moyen; 4: Bon; 5: Très bon).  L'échelle métrique possède les propriétés des échelles nominale et ordinale, mais elle permet également de comparer les distances entre les objets, les modalités étant séparées par des espaces équidistants. L'exemple le plus courant est celui du thermomètre, la différence entre 0 °C et 1 °C étant la
  • 2. Chapitre zéro : Décrire les données Pr. BOULAHOUAL Adil 2 même qu'entre 1 °C et 2 °C, etc. L'échelle métrique est la plus couramment utilisée en marketing. Pour les mesures d'attitudes, nous supposons que les intervalles sont équidistants.  Exemples d’échelles : Échelle d'Osgood Avez-vous trouvé que le goût du produit X était ? Mauvais 1 2 3 4 5 Bon Échelle de Likert Le chocolat X a bon goût Pas tout d’accord 1 2 3 4 5 Tout à fait d’accord Échelle d'intention Si la marque M lançait ce type de produit: Je n’achèterai certainement pas ce produit 1 2 3 4 5 J’achèterai certainement ce produit En général, les variables sont utilisées dans la formulation de modèles. Dans sa forme la plus simple, un modèle vise à définir une relation de cause à effet entre une variable indépendante et une autre dépendante. Relation causale simple : D'autres variables peuvent intervenir dans cette relation directe entre la (ou les) variable(s) indépendante(s) et la (ou les) variable(s) dépendante(s).1 Dans le premier cas, l'effet de la variable indépendante X sur la variable dépendante Y se mesure par l'intermédiaire d'une troisième variable dite « médiatrice ». L'association ou la causalité observée entre X et Y résulte du fait que X influence Z qui à son tour influence Y. Cette variable Z -le goût pour les aliments sucrés par exemple - peut intervenir dans la relation entre la gourmandise et le montant d'achat annuel de friandises. Dans le second cas, l'intensité et/ou le signe de la relation entre la variable indépendante et la variable dépendante peut être influencé par une variable modératrice. Si cette variable modératrice est le sexe, on peut par exemple chercher à vérifier que l'effet de la gourmandise sur le montant d'achat annuel de friandises est plus fort chez les femmes que chez les hommes. Dans ce cas, cet effet peut être mis en évidence en décomposant la population en sous-populations (les hommes d'un côté, les femmes de l'autre) et en testant la relation dans les sous-groupes. Effet médiateur Effet modérateur 1 Théâtre et al. 1999, p. 339. X Y X Y Z X Y Z
  • 3. Chapitre zéro : Décrire les données Pr. BOULAHOUAL Adil 3 2. DESCRIPTION D'UNE VARIABLE Nous appelons « variable » l'ensemble des valeurs observées sur les différents individus pour une caractéristique donnée (Tenenhaus, 1996). Dans le chapitre l, nous avons vu qu'une variable est qualitative dès lors qu'elle a pour valeur des modalités; elle peut être nominale (lorsque l'ensemble des modalités ne possède pas de structure particulière) ou ordinale (lorsque l'ensemble des modalités est ordonné). Une variable est considérée comme quantitative ou métrique lorsque ses occurrences peuvent être mesurées (par exemple, l'âge, la valeur d'une action, etc.). 2.1. DECRIRE UNE VARIABLE QUALITATIVE La description d'une variable qualitative consiste à présenter les effectifs, c'est-à-dire le nombre d'individus de l'échantillon pour chaque modalité de la variable, et les fréquences, c'est-à-dire la proportion des réponses associées à chaque modalité de la variable étudiée. Dans le langage des études de marché, nous parlons de tri à plat. L'intérêt du tri à plat est de fournir une description rapide de la variable étudiée. Ces descriptions peuvent également être visualisées sous forme de graphiques (diagrammes en bâtons, en secteurs, etc.), dans lesquels les surfaces associées aux différentes modalités sont proportionnelles à leur fréquence, exprimée en valeur ou en pourcentage. 2.2. DECRIRE UNE VARIABLE QUANTITATIVE Plusieurs indicateurs permettent de décrire une variable quantitative:  Les indicateurs de tendance centrale: moyenne, médiane, mode.  Les indicateurs de dispersion: étendue, variance, écart type, coefficient de variation.  Les indicateurs de forme de la distribution: asymétrie, aplatissement.  Des représentations graphiques : histogrammes ou boîtes à moustaches, par exemple, qui permettent une description simple des variables quantitatives.  Mesures de la tendance centrale Les mesures de la tendance centrale ont pour objet de résumer la série d'observations par une valeur considérée comme représentative. La plus fréquemment employée est la moyenne, ou somme des valeurs de toutes les observations divisées par l'effectif; celle que l'on utilise le plus souvent est la moyenne arithmétique. La moyenne révèle la tendance centrale en ce sens que les réponses se trouvent réparties de part et d'autre de la moyenne. Mais la moyenne est sensible aux valeurs extrêmes ou atypiques, et ce d'autant plus que le nombre d'observations est petit. Exemple : Considérons le service marketing d’une entreprise A, composé de 5 personnes de 34, 35, 37, 39 et 57 ans. On observe que ce service est composé essentiellement de trentenaires. Or la moyenne d'âge, de 40,4 ans, en donne une image trompeuse car elle est lourdement influencée par le salarié âge 57 ans. Il est alors utile de compléter l'analyse par le calcul de la médiane, qui n'est pas sensible aux valeurs aberrantes ou extrêmes. La médiane représente la valeur de la variable qui partage les observations en deux groupes de taille égale, 50 % au-dessus de la médiane, 50 % au-dessus. La médiane n'est qu'un cas particulier de frac. Le mode représente la valeur présentant la plus grande fréquence d’apparition. Si plusieurs valeurs à la fois présentent la plus
  • 4. Chapitre zéro : Décrire les données Pr. BOULAHOUAL Adil 4 grande fréquence d'apparition chacune d'entre elles est un mode. Nous disons que la distribution est plurimodale ou multimodale.  Mesures de La dispersion Les mesures de la dispersion reposent sur l'étendu, la variance, l'écart type et le coefficient de variation. L'étendue (ou intervalle) est la différence entre la plus grande et la plus petite des valeurs observées, soit entre le maximum et le minimum de la distribution. La variance est une mesure, sans unité de mesure, de la dispersion autour de la moyenne, elle est égale, pour un échantillon, à la somme des carrés des écarts par rapport à la moyenne divisé par le nombre d'observations moins un. Lorsque les données sont très dispersées autour de la moyenne la variance est élevée. Il s'agit d'une mesure plus fine de la dispersion, au sens où toutes les données sont prises en compte. En revanche, elle est, comme la moyenne, sensible valeurs extrêmes. L'écart type est la mesure de la dispersion autour de la moyenne exprimée dans la même unité que la variable. L'écart type de la variable x est la racine carrée de la variance. Le coefficient de variation est le rapport de l'écart type à la moyenne de la distribution, exprimé en pourcentage. C'est donc un indicateur approprié pour comparer plusieurs sous-échantillons.  Mesures de la distribution Le coefficient de symétrie (Skewness) mesure l'asymétrie d'une distribution. Une distribution normale est symétrique (voir figure 1), c'est-à-dire que les valeurs sont les mêmes de part et d'autre du centre de la distribution, et possède une valeur de Skewness de 0. Une distribution avec un Skewness positif significatif est une distribution asymétrique à droite (la distribution prend la forme d'une longue queue à droite) et une distribution avec un Skewness négatif significatif est une distribution asymétrique à gauche (la distribution prend la forme d'une longue queue à gauche). Cette asymétrie s'explique par le fait que les écarts sont plus importants dans une direction que dans l'autre. Focus : Les fractiles Les fractiles sont les valeurs d'une variable quantitative qui partitionnent les données triées en classes de taille égale. Les quartiles, par exemple, divisent les données en quatre classes de même taille. Le premier quartile sépare les observations en deux parties, l'une contenant les 25 % d'observations de la variable aux valeurs les basses, l'autre contenant les 75 % d'observations présentant les valeurs les plus élevées de la variable. Le deuxième quartile est la médiane. Le troisième quartile répartie la distribution entre une classe contenant les 75 % d'observations aux valeurs le plus basses de la variable et une autre contenant les 25 % d'observations aux valeur plus élevées. Il est fréquent d'utiliser les centiles, chaque centile contenant 1 % d’observations.
  • 5. Chapitre zéro : Décrire les données Pr. BOULAHOUAL Adil 5 Les coefficients de Kurtosis et de Skewness peuvent être utilisés pour s'assurer que les variables suivent une distribution normale, condition nécessaire pour de nombreux tests statistiques. Le coefficient d'aplatissement (Kurtosis) permet de mesurer le relief ou la platitude d'une courbe issue d'une distribution de fréquences. En d'autres termes, le coefficient d'aplatissement permet de mesurer le degré de concentration des observations dans les queues de la courbe. Le coefficient de Kurtosis est de 0 pour une distribution normale (gaussienne). Un Kurtosis négatif indique donc que les queues comptent un plus grand nombre d'observations que dans une distribution gaussienne. Nous estimons que le coefficient de symétrie ou Skewness doit être inférieur à 1 et le coefficient d'aplatissement ou Kurtosis doit être inférieur à 1,5 pour considérer que la variable suit bien une loi normale. 3. DES DONNEES AUX VARIABLES La plupart des entreprises sont aujourd'hui noyées sous l'information mais elles ont soif de connaissance. C'est la capacité de l'analyste à mettre en œuvre une démarche analytique qui permet de créer, de gérer et de diffuser cette connaissance dans l'organisation. Ce processus repose sur trois concepts : Les données, l'échantillon et les variables. 3.1 TYPES DE DONNEES Les types de données sont en général identifiés en fonction de leur source. Ainsi, on distingue les données secondaires et les données primaires.  Les données secondaires sont des données qui ont été réunies préalablement à l'étude pour répondre à d'autres problèmes, ce qui peut fortement en limiter la pertinence et la précision. En revanche, d'accès facile et peu coûteux, elles restent prisées par les entreprises, même si elles sont souvent perçues comme des données à faible valeur ajoutée. Les sources d'information de cette nature sont aujourd'hui abondantes et méritent d'être considérées avant toute collecte de données primaires. On distingue les données secondaires internes, issues de l'entreprise (reporting, intranet, données comptables, informations émanant des salariés ...) et les données secondaires externes, issues de l'environnement de l'entreprise, parmi lesquelles on peut distinguer :  Les données issues d'Internet: données structurées (fichiers logs, cookies, etc.) et, surtout, données non structurées (blogs, forums, interactions sociales, etc.) qui commencent aujourd'hui à être analysées.  Les données gouvernementales : données de recensement, données macroéconomiques, etc.  Les données de panels (consommateurs, distributeurs, audience).  Les études de marchés publiées de nature commerciale ou les études sectorielles.  Les interactions avec les consommateurs ou points de contacts: lettres de réclamations, call-centres, e-mails reçus, etc.  Les données primaires sont des données qui ont été collectées dans le but de résoudre le problème managérial propre à l'étude. Il s'agit de données brutes, qui doivent être préparées, analysées puis interprétées. Dans ce cas, les cinq étapes de la démarche d'étude doivent être respectées. Ce chapitre est consacré à l'étape de la collecte des données, les chapitres suivants abordent l'analyse et l'interprétation des résultats pour une série de tests pouvant être mis en œuvre dans une démarche d'étude ou de recherche marketing.
  • 6. Chapitre zéro : Décrire les données Pr. BOULAHOUAL Adil 6 4. L'ECHANTILLONNAGE Se référer au cours de statistique inférentielle. A mentionner que la précision statistique d'un test s'exprime en calculant l'intervalle de confiance, qui indique la marge d'erreur lorsqu'on généralise une estimation obtenue sur un échantillon à l'ensemble de la population représentée. La longueur de l'intervalle diminue lorsque la taille de l'échantillon augmente. 5. MESURER A L'AIDE D'UN QUESTIONNAIRE Construire un questionnaire amène à s'interroger sur la mesure des concepts. Comment mesurer, par exemple, la qualité du service ? Même en cas d'études se fondant sur une seule question pour mesurer un concept, il est recommandé d'avoir recours à des échelles de mesure. L'objectif d'une échelle est d'éviter d'avoir à représenter un phénomène abstrait - un construit - par le biais d'une seule et unique variable, en privilégiant l'utilisation d'indicateurs qui permettent de représenter les différentes facettes de ce construit et se rapprocher de la vraie valeur en éliminant l’effet humeur au moins. 5.1.LE DEVELOPPEMENT DES OUTILS DE MESURE2 Churchill, souvent pris comme référence dans la construction d'échelles de mesure, précise que, pour remplir son véritable rôle, « le questionnaire doit susciter et maintenir l'intérêt du répondant ». Pour ce faire, le chargé d'étude doit se poser un certain nombre de questions afin de limiter divers biais.  Le concept de mesure L'acte de mesurer un phénomène est l'opération par laquelle on fait correspondre à une donnée collectée une grandeur censée représenter le phénomène. Cette opération est perturbée par des éléments qui éloignent la mesure idéale, qui représenterait exactement le phénomène, de la mesure obtenue. Le modèle de la vraie valeur (Evrard et al. 2009) consiste à décomposer le résultat d'une mesure en ses différents éléments: la vraie valeur (censée représenter la mesure parfaite) et les termes d'erreur (erreur aléatoire et erreur systématique), comme le montre l'équation suivante: M (mesure obtenue) = V (vraie valeur) + Es (erreur systématique) + Ea (erreur aléatoire). La vraie valeur est la mesure « idéale », c'est-à-dire celle qui correspondrait parfaitement au phénomène étudié. Elle est le plus souvent impossible à atteindre. L'erreur systématique (ou biais) provient du fait que l'instrument de mesure peut présenter un écart systématique avec le phénomène étudié (par exemple, un biais lié au manque de clarté de l'échelle, à la longueur excessive du questionnaire, etc.). L'erreur aléatoire provient du fait que le phénomène mesuré par l'instrument peut être affecté par des aléas tels que la fatigue du répondant, l'humeur, etc. Ces termes d'erreur ajoutent du « bruit » aux variables observées; la mesure obtenue contient donc à la fois la « vraie valeur » de la mesure et le « bruit ». Par exemple, une corrélation ou une moyenne peuvent être artificiellement renforcées ou diminuées par l'erreur de mesure. 2 Voir le chapitre : Construction d’une échelle de mesure en étude de marché ; semestre six.
  • 7. Chapitre zéro : Décrire les données Pr. BOULAHOUAL Adil 7 L'analyste doit donc s'interroger sur la qualité de l'instrument de mesure qu'il construit et met en œuvre. La validation d'un questionnaire, par exemple, consistera donc à tester les instruments de mesure utilisés. Ces outils de mesure doivent répondre à deux critères principaux: la fiabilité et la validité. La fiabilité renvoie à la cohérence entre les indicateurs censés mesurer le même concept, alors que la validité désigne la capacité d'un instrument de mesure à appréhender un phénomène.  La validité: Les instruments de mesure choisis doivent permettre d'appréhender le mieux possible le phénomène à mesurer. Il s'agit de répondre à la question suivante: « Mesure-t-on bien ce que l'on cherche à mesurer? »  La fiabilité: De façon générale, elle fait référence à la régularité de la mesure. Si l'on mesure un même phénomène plusieurs fois avec le même instrument, on doit obtenir le même résultat. Ce problème est concerné par l'erreur aléatoire. On parle aussi de fiabilité de cohérence interne pour des mesures qui comportent plusieurs items. Il s'agit alors de s'assurer, grâce à des indicateurs comme le coefficient alpha de Cronbach, que les items sont suffisamment homogènes entre eux, c'est-à-dire qu'ils partagent assez de Variance. 6. STRATEGIES D'ANALYSE L'analyse des données n'est pas une fin en soi; elle doit aider à prendre des décisions à partir d'informations disponibles, si possible fiables et valides. C'est la décision à prendre qui guide la stratégie d'analyse et la modélisation. La stratégie d'analyse peut ainsi amener à l'utilisation de techniques variées. Certaines techniques sont utiles pour étudier les différences entre variables, d'autres pour mettre en évidence leur dépendance, d'autres encore visent à classer les individus, etc. La plupart de ces analyses reposent sur des hypothèses qu'il convient de tester. Nous y reviendrons en détail dans les chapitres suivants. Ensuite, la stratégie d'analyse est en partie contrainte par le type de variables à disposition, qualitatives ou quantitatives. D'une manière générale, il est possible de représenter l'ensemble de ces techniques d'analyse en trois phases successives :  L'analyse univariée consiste à examiner la distribution les modalités ou les occurrences d’une variable. Voir le point plus haut ( 2.DESCRIPTION D’UNE VARIABLE) ;  L'analyse bivariée consiste à étudier les relations entre deux variables. Dans le cas de variables qualitatives, il s'agira d'un tableau croisé dénombrant les nombres d'observations correspondant à chaque combinaison possible des deux variables ou de tests d’association confirmant ou infirmant cette dernière ou encore mesurer la force de l'association entre les deux variables. Pour les variables à caractère quantitatif nous parlons d’analyse de régression (Chapitre 1 : analyse de le régression simple).  L'analyse multivariée permet de dépasser les techniques précédentes. Elle laisse notamment de côté la parcellisation de l'information induite par l'analyse bivariée. En effet, en se focalisant sur la relation entre deux variables, on néglige le fait que cette relation peut être influencée par la présence d'autres variables. En outre, lorsque le nombre de variables est important, il est difficile de prendre en compte l'ensemble des combinaisons possibles deux à deux. L'analyse multivariée permet donc le traitement simultané de plus de deux variables à la fois. L'ambition du chargé d'étude qui utilise des analyses multivariées peut se situer à deux niveaux: décrire les données à sa disposition ou expliquer des
  • 8. Chapitre zéro : Décrire les données Pr. BOULAHOUAL Adil 8 phénomènes grâce aux données à sa disposition. On peut chercher à expliquer soit des différences (par exemple, entre les hommes et les femmes, les clients et les non-clients d'un magasin), soit des relations entre variables. La fameuse stratégie d’des &équations structurelles est née dans certaines branches de la sociologie, en particulier de la sociologie américaine, et rapidement diffusées dans de nombreuses autres disciplines, dont les sciences de gestion, les méthodes d’équations structurelles (MES), ou Structural Equation Modeling en anglais (SEM), sont considérées par certains comme une méthode « magique », qui « marchent » quand les modèles de régression traditionnels ne marchent pas. L’objectif des MES, est de proposer une modélisation des relations causales entre de nombreuses variables explicatives et plusieurs variables expliquées avec des échelles multi-items, et des variables latentes… De façon très classique, les MES servent à calculer la force des relations entre des items et les variables latentes qu’ils mesurent, et entre ces variables latentes, comme dans le graphique ci-dessous. Dans cet exemple classique, le sociologue Kenneth Bollen, pionnier des MES, modélise ainsi les relations entre une mesure du développement en 1960 (ind60), et de la démocratie en 1960 et 1965 (dem60 et dem65), ces trois variables latentes étant estimées chacune par des échelles de trois indicateurs différents.