SlideShare une entreprise Scribd logo
1  sur  29
Table des matières
Chapitre 1  Analyse descriptive des données 1
1.1 Quelques notions fondamentales . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Analyse descriptive (variables catégoriques) . . . . . . . . . . . . . . . . 11
1.3 Analyse descriptive (variable numérique) . . . . . . . . . . . . . . . . . . 17
Chapitre 2  Variables aléatoires 28
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2 Loi de probabilité, espérance et variance . . . . . . . . . . . . . . . . . . 31
2.3 Lois de probabilités bivariées (discrètes) . . . . . . . . . . . . . . . . . . 41
2.4 Principales lois de probabilités . . . . . . . . . . . . . . . . . . . . . . . . 55
Chapitre 3  Échantillonnage et estimation de paramètres 88
3.1 Distribution d'échantillonnage de X̄ . . . . . . . . . . . . . . . . . . . . . 88
3.2 Intervalle de conance pour une moyenne . . . . . . . . . . . . . . . . . . 101
3.3 Intervalle de conance pour une proportion . . . . . . . . . . . . . . . . . 110
Chapitre 4  Tests d'hypothèses 114
4.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
4.2 Résolution d'un test d'hypothèses . . . . . . . . . . . . . . . . . . . . . . 121
i
4.3 Test sur une moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
4.4 Test sur une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
4.5 Comparaison de deux moyennes . . . . . . . . . . . . . . . . . . . . . . . 130
Chapitre 5  Corrélation linéaire 137
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
5.2 Examen graphique de la relation . . . . . . . . . . . . . . . . . . . . . . . 140
5.3 Limites du coecient de corrélation . . . . . . . . . . . . . . . . . . . . . 142
5.4 Inférence sur le coecient de corrélation ρ . . . . . . . . . . . . . . . . . 143
Chapitre 6  Régression linéaire simple 149
6.1 Dénition du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
6.2 Principe des moindres carrés ordinaire (MCO) . . . . . . . . . . . . . . . 153
6.3 Propriétés des estimateurs MCO (b
β0 et b
β1) . . . . . . . . . . . . . . . . . 158
6.4 Inférence sur les paramètres β0 et β1 . . . . . . . . . . . . . . . . . . . . 171
6.5 Inférence sur σ2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
6.6 Analyse de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
6.7 Utilisation de la droite de régression . . . . . . . . . . . . . . . . . . . . . 181
6.8 Exemples avec SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
6.9 Approche matricielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
Chapitre 7  Régression linéaire multiple 202
7.1 Dénition du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
7.2 Qualité et interprétation du modèle . . . . . . . . . . . . . . . . . . . . . 205
7.3 Vérication des hypothèses de validité . . . . . . . . . . . . . . . . . . . 211
7.4 Exemple complet avec SPSS . . . . . . . . . . . . . . . . . . . . . . . . . 259
7.5 Variables explicatives catégoriques . . . . . . . . . . . . . . . . . . . . . . 274
7.6 Comparaison et choix d'un modèle . . . . . . . . . . . . . . . . . . . . . 296
ii
Chapitre 1
Analyse descriptive des données
1.1 Quelques notions fondamentales
1.1.1 Population vs échantillon
Dénitions 1.1.1. La totalité des observations qui concernent l'objet de l'étude consti-
tue la population (gens, animaux, objets, ...). Chaque élément de la population est
appelée une unité statistique ou un individu.
La population est ainsi constituée d'un ensemble d'individus satisfaisant à une dénition
commune et constituant la collectivité à laquelle on s'intéresse.
Un échantillon est un sous-ensemble de la population. Nous le voulons le plus repré-
sentatif possible. Un échantillon représentatif agit à titre de  photo-réduction  de la
population.
1
1.1. QUELQUES NOTIONS FONDAMENTALES CHAPITRE 1
Exemples 1.1.2. Si on s'intéresse au prol type des clients d'une boutique, alors la
population sera constituée de tous les clients de cette boutique.
Si on s'intéresse aux employés d'une entreprise, alors la population sera constituée de
tous les employés de cette entreprise.
On peut aussi s'intéresser à une pièce en particulier produite par une usine. La population
est alors constituée de toutes les pièces de ce type qui sont produites par l'usine.
Si on veut étudier le marché immobilier de la région de Sherbrooke, la population est
alors constituée de toutes les propriétés à vendre dans la région de Sherbrooke.
1.1.2 Types de données
Dénitions 1.1.3. Les données expérimentales proviennent d'expérimentations contrô-
lées permettant d'évaluer un eet causal. Les données observationnelles proviennent
d'observations dans un contexte non expérimental.
Dénitions 1.1.4. Les données transversales sont prélevées sur un ensemble d'unités
statistiques à une période de temps xée. Les données temporelles sont prélevées sur
une unité statistique unique à plusieurs périodes. Les données de panel (ou données
longitudinales) sont prélevées sur un ensemble d'unités statistiques à plusieurs périodes.
MQG804 2 ©Turcotte-Cadieux-Bélanger-Lévesque
1.1. QUELQUES NOTIONS FONDAMENTALES CHAPITRE 1
1.1.3 Types de variables
Dénition 1.1.5. Une population présente des particularités propres qui se retrouvent
chez tous les individus qui la composent. On appelle ces particularités des variables (ou
caractères).
Exemples 1.1.6. Les variables à l'étude pour les employés d'une entreprise peuvent être
le type de poste occupé, le niveau de scolarité, le salaire, etc...
Pour l'étude du marché immobilier à Sherbrooke, les variables à l'étude peuvent être le
nombre de chambres, le prix, l'emplacement, etc...
Dénition 1.1.7. Une variable est dite catégorique si les valeurs qu'elle peut prendre
sont représentés par des catégories mutuellement exclusives et exhaustives. Elle est dite
numérique si elle peut être mesurée de façon quantiable. De plus, une variable nu-
mérique est dite discrète si elle ne peut prendre qu'un nombre limité ou dénombrable
de valeurs (souvent des valeurs entières). Elle est dite continue lorsqu'elle peut prendre
toutes les valeurs d'un intervalle ni ou inni.
Exemple 1.1.8. Dites si les variables suivantes sont catégoriques ou numériques, et dans
ce dernier cas, dites si elle est discrète ou continue.
(a) Taille d'un individu :
(b) Type d'emploi occupé :
(c) Sexe d'un individu :
(d) Âge d'un individu :
(e) Nombre d'employés dans l'entreprise :
(f) Niveau d'appréciation du service reçu :
(g) Nombre de cartes de crédit possédées :
(h) Revenu familial :
MQG804 3 ©Turcotte-Cadieux-Bélanger-Lévesque
1.1. QUELQUES NOTIONS FONDAMENTALES CHAPITRE 1
1.1.4 Échelles de mesure
Poser une question, c'est mesurer la profondeur ou l'intensité d'une variable chez les
individus. Pour y arriver, on associe des nombres à des événements. Cette association
est construite logiquement de manière à quantier l'intensité d'une variable (l'événement
étudié) chez un individu.
Les propriétés des nombres
En somme, mesurer c'est attribuer des nombres à des événements. Parmi l'ensemble des
propriétés des nombres, quatre grandes propriétés nous intéressent plus particulièrement.
Elles sont présentées de la plus faible à la plus puissante :
L'identication : 0, 1 et 2 sont des nombres bien diérents.
L'ordonnancement : 3 est plus petit que 4.
L'égalité d'intervalle : La longueur de l'intervalle entre les nombres 1 et 3 est la
même qu'entre les nombres 98 et 100. La  largeur  de
l'intervalle est de 2.
L'égalité des ratios : Le ratio 24/8 est le même que le ratio 15/5.
Ces quatre propriétés dénissent complètement les quatre types d'échelles de mesure.
Dans l'optique de l'analyse de données, il est important de signaler qu'une propriété
supérieure hérite automatiquement des propriétés inférieures.
Les quatre échelles de mesure
Cette sous-section présente les quatre échelles de mesure sur lesquelles se base la science
de la statistique. Rappelons que les échelles associent des nombres aux événements. Les
échelles nominales, ordinales, d'intervalles et de ratios sont présentées dans l'ordre, de la
moins puissante à la plus puissante. La puissance pour un statisticien est décrite comme
étant le potentiel d'une échelle à détecter, comprendre et exploiter la variabilité d'un
phénomène.
MQG804 4 ©Turcotte-Cadieux-Bélanger-Lévesque
1.1. QUELQUES NOTIONS FONDAMENTALES CHAPITRE 1
Exemple 1.1.9. À titre d'illustration, supposons qu'une étude de marché est menée
auprès d'un certain nombre de clients d'une boutique de jeux. L'objectif est de savoir
si un nouveau pub ludique (où il est possible de prendre un verre en jouant à des jeux
de société) au centre-ville pourrait générer assez d'achalandage et de mieux cerner la
clientèle qu'on pourrait rejoindre avec ce type d'établissement. Il est probable de trouver
les questions suivantes dans un questionnaire :
Q1 : À quel genre vous identiez-vous?
Homme0 □
Femme1 □
Q2 : Quelle est votre année de naissance?
Q3 : Quel est votre niveau de scolarité?
Primaire1 □ Collégial3 □
Secondaire2 □ Universitaire4 □
Q4 : Quel est votre revenu annuel?
Moins de 25 000 $1 □ De 50 000 $ à moins de 75 000 $3 □
De 25 000 $ à moins de 50 000 $2 □ 75 000 $ et plus4 □
Q5 : Combien de fois par mois jouez-vous à des jeux de société?
Q6 : Quel montant avez-vous dépensé au cours de la dernière année pour l'achat de
jeux de société? $
Q7 : Quelle catégorie de jeux de société préférez-vous?
Q8 : Quel serait votre niveau d'intérêt pour l'ouverture d'un pub ludique?
Peu intéressé(e)1 □ Intéressé(e)3 □
Indiérent(e)2 □ Très intéressé(e)4 □
MQG804 5 ©Turcotte-Cadieux-Bélanger-Lévesque
1.1. QUELQUES NOTIONS FONDAMENTALES CHAPITRE 1
L'échelle nominale :
L'échelle nominale n'utilise les nombres que pour diérencier et identier les modalités
de réponses d'une variable. Cette échelle est discrète au sens où il n'y a rien  entre  les
modalités. Par exemple :
Q1 : À quel genre vous identiez-vous?
Homme0 □
Femme1 □
Une des codications possibles est la suivante : 0 = Homme et 1 = Femme. Il faut
comprendre que les nombres 0 et 1 ne servent qu'à diérencier les deux modalités au
même titre que 1 est diérent de 0. De plus, il n'existe pas de catégorie d'individu  0,5 .
Toute autre association entre les réponses et les nombres aurait aussi été correcte, par
exemple 1 = Homme et 0 = Femme, au même titre que 12 = Homme et 64,2 = Femme.
Cependant, dans le cadre de ce cours, lorsque la question présente seulement deux
modalités de réponses, il est préférable d'utiliser les nombres 0 et 1 dans
la codication. En eet, d'un point de vue mathématique, cette codication de type
 on/o  (binaire) est très utile dans certaines analyses statistiques, le groupe  0 
agissant mathématiquement à titre de groupe de référence.
Lorsque la question présente trois modalités de réponses ou plus, la codication de type
 on/o  perd toute son utilité mathématique et le praticien peut utiliser les nombres
0, 1, 2, 3, ... pour codier les modalités de la question, et ce, sans regard à un groupe de
référence.
La question Q7 est elle aussi de type nominal :
Q7 : Quelle catégorie de jeux de société préférez-vous?
Le praticien peut associer 1 = Stratégie, 2 = Coopératif, et 3 = Hasard, etc. L'association
des codes (1, 2, 3, ...) est arbitraire et aurait pu être xée tout autrement par un autre
analyste.
MQG804 6 ©Turcotte-Cadieux-Bélanger-Lévesque
1.1. QUELQUES NOTIONS FONDAMENTALES CHAPITRE 1
L'échelle nominale est la plus faible des quatre et elle ne sert essentiellement qu'à identier
les groupes. Cette responsabilité est cependant très importante puisqu'il est courant de
comparer deux ou plus de deux groupes les uns par rapport aux autres.
L'échelle ordinale :
L'échelle ordinale possède la propriété d'identication à laquelle s'ajoute la propriété d'or-
donnancement. Cette échelle est discrète. Ici, l'ordonnancement des nombres de l'associa-
tion a une importance logique et sera exploité. La question suivante en est un exemple.
Q3 : Quel est votre niveau de scolarité?
Primaire1 □
Secondaire2 □
Collégial3 □
Universitaire4 □
En suivant l'association des codes écrits en indice, plus le code est petit, plus le niveau de
scolarité est bas. Cependant, les codes n'informent pas exactement sur le nombre d'années
de scolarité qui diérencient vraiment deux personnes. Par exemple, une personne ayant
un baccalauréat et une autre ayant un doctorat obtiennent toutes deux un code 4.
Aussi, un autre analyste aurait pu associer logiquement un ordonnancement inverse dans
sa codication, par exemple :
Q3 : Quel est votre niveau de scolarité?
Primaire4 □
Secondaire3 □
Collégial2 □
Universitaire1 □
MQG804 7 ©Turcotte-Cadieux-Bélanger-Lévesque
1.1. QUELQUES NOTIONS FONDAMENTALES CHAPITRE 1
An de mieux comprendre la portée restreinte de ce type d'échelle, voyons un exemple
supplémentaire.
Q8 : Quel serait votre niveau d'intérêt pour l'ouverture d'un pub ludique?
Peu intéressé(e)1 □
Indiérent(e)2 □
Intéressé(e)3 □
Très intéressé(e)4 □
Ce type d'échelle porte le nom d'échelle de Likert en quatre points illustrant diérents
 niveaux d'intérêt . De façon semblable, il existe aussi des échelles de style Likert en 5
ou 7 points par exemple. En suivant les codications écrites en indice, il est possible de
voir que plus la réponse d'un individu est associée à un code élevé, plus il est intéressé
par l'ouverture d'un pub ludique. Il faut comprendre la limite de cette mesure puisque
le code n'informe en rien sur la puissance de la diérence qui existe entre l'opinion d'un
individu  Intéressé  par rapport à un autre  Très intéressé .
Il est à noter qu'une variable quantitative dont les valeurs ont été regroupées en intervalle
a ainsi été mesurée avec une échelle ordinale.
Q4 : Quel est votre revenu annuel?
Moins de 25 000 $1 □
De 25 000 $ à moins de 50 000 $2 □
De 50 000 $ à moins de 75 000 $3 □
75 000 $ et plus4 □
Lorsqu'un individu qui répond  75 000 $ et plus , il est impossible de connaître le revenu
réel. Il y a un ordre logique des catégories, mais il est impossible de calculer le revenu
annuel moyen des répondants sans la valeur numérique exacte. De plus, il est impossible
d'évaluer la  distance  entre les revenus de 2 individus, puisqu'on ne connait que la
classe de revenu. C'est pourquoi les valeurs 1, 2, 3 et 4 ne servent qu'à diérencier et
ordonner les choix de réponses.
MQG804 8 ©Turcotte-Cadieux-Bélanger-Lévesque
1.1. QUELQUES NOTIONS FONDAMENTALES CHAPITRE 1
L'échelle d'intervalle :
Cette échelle cumule les propriétés d'identication, d'ordonnancement et d'égalité d'in-
tervalles, et nous informe de façon précise de l'écart entre deux modalités (réponses).
Q2 : Quelle est votre année de naissance?
La réponse des individus est un nombre correspondant à l'année de naissance. À partir
de cette valeur numérique, il est possible de calculer et interpréter la diérence entre
l'année de naissance de 2 individus. Une personne née en 1992 et une personne née en
1987 ont 5 ans de diérence au niveau de leur âge. Mais, la valeur  0  ne représente
pas une absence de vécu ou une absence d'années. Le zéro d'une échelle d'intervalle n'est
pas absolu, il est relatif. Aussi, les réponses  2000  et  1000  ne signient pas qu'un
des deux individus a vécu 2 fois plus de temps que l'autre. Le ratio 
2000
1000
 n'a aucune
signication.
Cette échelle peut mesurer des variables discrètes ou continues. De plus, la moyenne a
un sens bien concret, c'est là une grande particularité de ce type d'échelle.
L'échelle de ratio :
L'échelle de ratio cumule toutes les propriétés des échelles précédentes. Elle s'apparente
énormément à l'échelle d'intervalle mais possède la propriété d'avoir un zéro absolu. De
plus, l'égalité des ratios est respectée, ce qui n'est pas le cas pour une échelle d'intervalles.
Q5 : Combien de fois par mois jouez-vous à des jeux de société?
Q6 : Quel montant avez-vous dépensé au cours de la dernière année pour l'achat de
jeux de société? $
La réponse  0 fois  à la question Q5 illustre simplement une absence du nombre de
fois par mois où il joue à un jeu de société. La réponse  0 $  illustre une absence de
montant dépensé. En somme, le zéro possède ici un caractère absolu. Tout comme pour
MQG804 9 ©Turcotte-Cadieux-Bélanger-Lévesque
1.1. QUELQUES NOTIONS FONDAMENTALES CHAPITRE 1
l'échelle d'intervalles, la notion de moyenne (ici le montant moyen dépensé) a un sens
concret. Et un individu peut dépenser deux fois plus qu'un autre (égalité des ratios).
Cette échelle peut mesurer des variables discrètes et continues, de la même façon que
l'échelle d'intervalles (c'est-à-dire qu'avant de mesurer une variable discrète avec cette
échelle il faut s'assurer qu'elle possède toutes les propriétés mentionnées ci-dessus).
Dans la pratique, les échelles nominales et ordinales sont regroupées dans la famille des
variables catégoriques tandis que les échelles d'intervalles et de ratios sont regroupées
dans la famille des variables numériques.
Bien qu'il existe quelques diérences entre les analyses des variables d'échelle nominale et
ordinale, il en existe peu pour les analyses des variables d'échelle intervalle et ratio. Dans
le cadre de ce cours, nous présenterons les analyses de base de la famille des variables
catégoriques (nominales/ordinales) et, lorsque nécessaire, nous mettrons en évidence les
diérences entre les analyses des échelles nominale et ordinale. Nous traiterons sans dis-
tinction les analyses statistiques des variables numériques (intervalles et ratio).
Résumé
Type de variable Échelle de mesure Propriétés des nombres
Variables catégoriques
Nominale Identication
Ordinale Identication
Ordonnancement
variables numériques
Intervalle Identication
Ordonnancement
Égalité des intervalles
Ratio Identication
Ordonnancement
Égalité des intervalles
Égalité des ratios (zéro absolu)
MQG804 10 ©Turcotte-Cadieux-Bélanger-Lévesque
1.2. ANALYSE DESCRIPTIVE (V
ARIABLES CATÉGORIQUES) CHAPITRE 1
1.2 Analyse descriptive (variables catégoriques)
Dénition 1.2.1. Toutes les valeurs numériques calculées à partir d'une population sont
appelées des paramètres. On les note avec des lettres grecques (µ, π, σ, β, ...).
Dénition 1.2.2. Toutes les valeurs numériques calculées à partir d'un échantillon sont
appelées des statistiques. Ces statistiques estimeront les paramètres de la population.
On les note avec des lettres latines (x̄, p, s, b, ...).
Pour décrire et résumer l'ensemble des valeurs d'une variable d'échelle nominale ou or-
dinale, le praticien utilise le dénombrement, le mode, les tableaux de distribution de
fréquences et les graphiques (diagrammes à barres, diagrammes circulaires, ...).
Dénitions 1.2.3. La fréquence absolue (ou eectif) associée à une valeur d'une
variable statistique est le nombre de fois où cette valeur est rencontrée dans la population
(ou l'échantillon).
La fréquence relative associée à une valeur d'une variable statistique est le rapport
entre la fréquence absolue correspondant à cette valeur et le nombre total des observations
(on peut donc l'interpréter comme étant un %).
Dénition 1.2.4. Le mode (ou la classe modale) d'un échantillon ou d'une population
est la modalité dont la fréquence absolue est la plus élevée. Il se peut qu'il y ait plusieurs
modes.
MQG804 11 ©Turcotte-Cadieux-Bélanger-Lévesque
1.2. ANALYSE DESCRIPTIVE (V
ARIABLES CATÉGORIQUES) CHAPITRE 1
Exemple 1.2.5. Une entreprise familiale vend des produits à l'érable. Les produits sont
vendus en ligne, en épicerie et directement à leur érablière. Jusqu'à maintenant, aucune
publicité en ligne n'était faite. Les ventes se répartissaient de la façon suivante : 10 %
en ligne, 50 % de l'érablière et 40 % en épicerie. Cette année, on a investi une somme
importante pour augmenter la visibilité des produits sur les réseaux sociaux. On a étudié
les 30 dernières ventes. Voici ce qu'on a obtenu :
Identication Provenance Identication Provenance Identication Provenance
1 En ligne 11 En ligne 21 En ligne
2 En ligne 12 Érablière 22 Érablière
3 Érablière 13 Épicerie 23 Érablière
4 Érablière 14 Épicerie 24 Épicerie
5 En ligne 15 Épicerie 25 En ligne
6 Épicerie 16 Érablière 26 Érablière
7 En ligne 17 En ligne 27 En ligne
8 Érablière 18 Épicerie 28 Épicerie
9 Érablière 19 Érablière 29 Épicerie
10 Épicerie 20 Érablière 30 Érablière
On aura alors le tableau des fréquences suivant :
Provenance Fréquence absolue Fréquence relative
En ligne 9 0,30
Érablière 12 0,40
Épicerie 9 0,30
MQG804 12 ©Turcotte-Cadieux-Bélanger-Lévesque
1.2. ANALYSE DESCRIPTIVE (V
ARIABLES CATÉGORIQUES) CHAPITRE 1
Cette distribution de fréquences peut être illustrée sous forme d'un diagramme en bâtons :
Analyse descriptive : À partir de cet échantillon, on constate que les ventes directement
à l'érablière semblent encore les plus populaires (40 %). Il s'agit du mode. Toutefois, il
semble aussi y avoir une hausse des ventes en ligne par rapport aux anciennes données
colligées. On estime qu'elles s'élèvent maintenant à 30 % des ventes totales.
MQG804 13 ©Turcotte-Cadieux-Bélanger-Lévesque
1.2. ANALYSE DESCRIPTIVE (V
ARIABLES CATÉGORIQUES) CHAPITRE 1
Exemple 1.2.6. Un théâtre d'été en Chaudière-Appalaches a voulu augmenter sa visibi-
lité dans les régions avoisinantes. En 2016, on a posé des aches et diusé une publicité
à la radio dans les régions de la Capitale-Nationale et de l'Estrie. En analysant la pro-
venance des spectateurs de l'été 2015 et de ceux de l'été 2016, on a obtenu les résultats
suivants :
En analysant ces résultats, on remarque que la proportion de spectateurs provenant de
l'Estrie est passée de 8,8 % à 19,8 %. La proportion de spectateurs provenant de la
Capitale-Nationale est passée de 9,4 % à 16,3 %. La publicité semble avoir eu un impact
pour ces régions. La majorité de la clientèle provient toujours de la région de Chaudière-
Appalaches (56 %). Mais, est-ce que cette diminution (en fréquence relative) indique une
baisse d'achalandage dans cette région ? En se ant aux fréquences absolues, il semble
que non, puisqu'on observait 1 421 spectateurs en 2015 et 1 400 en 2016. Si la fréquence
relative a diminué, c'est simplement à cause d'une augmentation du nombre total de
spectateurs en 2016.
MQG804 14 ©Turcotte-Cadieux-Bélanger-Lévesque
1.2. ANALYSE DESCRIPTIVE (V
ARIABLES CATÉGORIQUES) CHAPITRE 1
1.2.1 Regrouper les données en classes
L'analyse descriptive des variables numériques peut également comprendre l'analyse des
fréquences absolues et relatives s'il s'agit d'une variable numérique discrète à peu de va-
leurs ou d'une variable numérique dont les valeurs ont été regroupées en classes. Voici une
façon de découper une plage de valeurs en intervalles (classes) pour en faire la description
statistique.
Nombre de classes. En général, le nombre de classes ne devrait être ni inférieur à 5 ni
supérieur à 20. De préférence, ce devrait être entre 6 et 12 classes.
On peut utiliser la règle de  2 à la k  pour déterminer le nombre de classes souhai-
tables. Si n est le nombre de données, alors le nombre k de classes à utiliser est le plus
petit k tel que 2k
 n. Par exemple, si n = 60, alors 25
= 32, ce qui est inférieur à 60,
donc 5 classes ne susent pas. Avec k = 6, on obtient 26
= 64, ce qui est supérieur à 60.
Donc le nombre de classes recommandé est ici de 6.
Amplitude des classes (largeur). Dans la mesure du possible, on essaie de donner la
même amplitude à chaque classe. Pour trouver cette amplitude, on prend l'étendue des
données (xmax − xmin) et on la divise par le nombre k de classes souhaitables trouvé
à l'étape précédente. Le nombre obtenu est alors l'amplitude minimale qui peut être
utilisée, et souvent, on arrondit ce nombre (à la hausse) pour travailler avec une quantité
pratique.
Supposons que l'on a 60 données représentant des salaires, et que le plus petit a une
valeur de 35 800 $, tandis que le plus grand est de 71 190 $. Puisque n = 60, on a vu
qu'il est recommandé de prendre 6 classes. On a donc
amplitude ≥
71 190 $ − 35 800 $
6
= 5 898,33 $,
ce qui pourrait être arrondi à 5 900 $.
MQG804 15 ©Turcotte-Cadieux-Bélanger-Lévesque
1.2. ANALYSE DESCRIPTIVE (V
ARIABLES CATÉGORIQUES) CHAPITRE 1
Limites des classes. Il faut avant tout que la borne inférieure de la première classe
soit légèrement inférieure ou égale à la plus petite donnée, et que la borne supérieure
de la dernière classe soit légèrement supérieure ou égale à la plus grande donnée, ceci
simplement pour s'assurer que toutes les données se retrouvent dans les classes dénies.
Dans l'exemple précédent, la première classe pourrait être de 35 800 $ à moins de 41 700 $,
puis de 41 700 $ à moins de 47 600 $, et ainsi de suite.
MQG804 16 ©Turcotte-Cadieux-Bélanger-Lévesque
1.3. ANALYSE DESCRIPTIVE (V
ARIABLE NUMÉRIQUE) CHAPITRE 1
1.3 Analyse descriptive (variable numérique)
Lorsqu'on veut décrire et résumer une variable intervalle ou ratio, on utilise un ensemble
de statistiques qui mesurent trois grandes caractéristiques :
- Les statistiques mesurant la tendance centrale;
- Les statistiques mesurant la dispersion;
- Les statistiques mesurant la forme.
Le tableau 1.1 contient quelques statistiques servant à la description. Comme les statis-
tiques varient d'un échantillon à l'autre, il est pertinent que le praticien considère à la
fois plusieurs statistiques qui estiment un même paramètre. Le praticien peut alors les
comparer et voir si elles semblent être de bons estimateurs ou non (on espère qu'elles
soient semblables).
Mesures de Mesures de Mesures de la forme
tendance centrale dispersion de la distribution
Moyenne (x̄, µ) Variance (s2
, σ2
) Asymétrie
Médiane (Md) Écart-type (s, σ) Aplatissement (Kurtosis)
Moyenne tronquée 5 % Intervalle interquartile (IIQ)
Mode / Classe modale Étendue
Coecient de variation (CV)
Figure 1.1  Statistiques descriptives
MQG804 17 ©Turcotte-Cadieux-Bélanger-Lévesque
1.3. ANALYSE DESCRIPTIVE (V
ARIABLE NUMÉRIQUE) CHAPITRE 1
1.3.1 Mesures de tendance centrale
Les mesures de tendance centrale tentent d'estimer le centre de la distribution. Certaines
sont plus approximatives, d'autres sont inuencées par les valeurs extrêmes. Il faudra
choisir judicieusement laquelle est la plus pertinente selon le contexte.
Dénition 1.3.1. La moyenne d'un échantillon ou d'une population peut être considé-
rée comme le centre d'équilibre d'un ensemble de données. Elle est dénie par le calcul
suivant :
Population Échantillon
µ =
N
P
i=1
xi
N
x =
n
P
i=1
xi
n
Dénition 1.3.2. La médiane (Md) d'un échantillon ou d'une population est la valeur
centrale lorsque les observations sont classées en ordre non décroissant. Si le nombre
d'observations est pair, on calculera la moyenne des deux valeurs centrales. Elle peut être
considérée comme le centre de position d'un ensemble de données.
Dénition 1.3.3. Le mode d'un échantillon ou d'une population est la valeur dont la
fréquence absolue est la plus élevée. Il se peut qu'il y ait plusieurs modes. Le mode peut
être considéré comme le centre de concentration d'un ensemble de données.
Exemple 1.3.4. On aimerait étudier le nombre d'employés dans les petites entreprises
du Québec. On a sélectionné au hasard 10 petites entreprises. Les résultats sont les
suivants :
Numéro d'identication 1 2 3 4 5 6 7 8 9 10
Nombre d'employés 10 21 10 6 10 24 6 13 21 49
MQG804 18 ©Turcotte-Cadieux-Bélanger-Lévesque
1.3. ANALYSE DESCRIPTIVE (V
ARIABLE NUMÉRIQUE) CHAPITRE 1
Une fois les observations classées en ordre non décroissant, on obtient :
6 6 10 10 10 13 21 21 24 49
La moyenne de cet échantillon est :
x =
10
P
i=1
xi
10
=
6 + 6 + 10 + 10 + 10 + 13 + 21 + 21 + 24 + 49
10
= 17 employés.
La médiane de cet échantillon est la moyenne de la 5e
et de la 6e
valeur :
Md=
10 + 13
2
= 11,5 employés.
Le mode de cet échantillon est 10, car cette valeur apparaît trois fois. C'est celle qu'on
retrouve le plus souvent.
Remarque : La moyenne est souvent un bon indicateur d'une valeur typique, du centre
de la distribution. Mais, elle peut être inuencée par les valeurs extrêmes. La médiane
est alors suggérée pour représenter une valeur typique. On peut aussi retirer les valeurs
les plus élevées et les plus faibles lors du calcul de la moyenne pour atténuer cet inconvé-
nient. Cette statistique est appelée moyenne tronquée. Lorsque la médiane ou la moyenne
tronquée dière de plus de 10 % de la valeur de la moyenne, on peut croire que ces deux
statistiques sont de meilleurs choix pour estimer la valeur centrale de la distribution.
Cela suggère que des valeurs élevées ou très faibles ont eu un impact sur le calcul de la
moyenne.
Dans l'exemple précédent, la médiane dière de
17 − 11,5
17
= 0,3235 = 32,35 % de la
valeur de la moyenne. Cette grande diérence est probablement due à l'entreprise de 49
employés qui a fait augmenter considérablement la moyenne.
MQG804 19 ©Turcotte-Cadieux-Bélanger-Lévesque
1.3. ANALYSE DESCRIPTIVE (V
ARIABLE NUMÉRIQUE) CHAPITRE 1
1.3.2 Mesures de dispersion
Dénition 1.3.5. La variance correspond à la moyenne des distances carrées entre
chaque observation et la moyenne du groupe. Elle se calcule comme suit :
Population Échantillon
σ2
=
N
P
i=1
(xi − µ)2
N
s2
=
n
P
i=1
(xi − x)2
n − 1
Calcul simplié de la variance d'un échantillon : s2
=
n
X
i=1
x2
i
!
− nx̄2
n − 1
Remarque : La variance échantillonnale s2
est divisée par n−1 au lieu de n. Il s'agit d'une
correction au fait que dans cette formule, µ (le paramètre qui ne varie pas) est remplacé
par une statistique x̄ qui n'est qu'une estimation de µ, et n'est donc pas parfaite. En
d'autres termes, puisque x̄ n'est qu'une estimation, elle injecte une variation additionnelle
dans la valeur de s2
. Pour tenir compte de cette variation induite, le praticien prend la
 liberté  de diviser la somme par n − 1 au lieu de n. Cette stratégie est toujours vraie :
pour chaque paramètre remplacé par sa statistique dans la formule d'une variance, une
unité est enlevée à son dénominateur à titre de correction. C'est là le principe des degrés
de liberté.
La variance est donc une mesure de la variation. Plus le nombre d'employés d'une entre-
prise est loin de la moyenne, plus la variance augmente. Cependant, l'unité de mesure de
la variance est le carré de celle de la moyenne, ce qui est dicile à interpréter. En eet,
qui sait ce que veut dire des employés2
?
MQG804 20 ©Turcotte-Cadieux-Bélanger-Lévesque
1.3. ANALYSE DESCRIPTIVE (V
ARIABLE NUMÉRIQUE) CHAPITRE 1
C'est pourquoi les praticiens utilisent plutôt l'écart-type (σ ou s) qui est non seulement
une mesure de la variation, mais qui s'exprime dans les mêmes unités que la moyenne.
Dans le domaine de la bourse, σ porte le nom de  volatilité des marchés . Plus la
volatilité est grande, plus il y a de risques, plus il y a de variation (à la hausse ou la
baisse) dans les titres sur le parquet de la bourse.
Dénition 1.3.6. L'écart-type d'une distribution correspond à la racine carrée de la
variance.
Population Échantillon
σ =
√
σ2 s =
√
s2
Un écart-type élevé signie que les données sont dispersées, loin de la moyenne. Ainsi,
la moyenne ne représente pas bien ce qu'on retrouve au niveau de l'échantillon (ou de la
population). Un petit écart-type nous indique que les données sont regroupées près de
la moyenne. Par conséquent, la moyenne est une bonne mesure synthétique représentant
bien l'ensemble des observations. Des estimations ables pourront être générées à partir
de la moyenne. Pour évaluer l'ampleur d'un écart-type, on calculera le coecient de
variation.
MQG804 21 ©Turcotte-Cadieux-Bélanger-Lévesque
1.3. ANALYSE DESCRIPTIVE (V
ARIABLE NUMÉRIQUE) CHAPITRE 1
Dénition 1.3.7. Le coecient de variation correspond au rapport entre l'écart-type
et la moyenne. Il se calcule comme suit :
Population Échantillon
CV =
σ
µ
CV =
s
x
Le tableau suivant est une bonne référence pour interpréter le résultat :
0 ≤ CV  0,15 La moyenne est représentative de l'ensemble des observations.
0,15 ≤ CV  0,30 La prudence est de mise lors de l'utilisation de la moyenne
dans le but de résumer les observations.
CV ≥ 0,30 La moyenne n'est pas représentative de l'ensemble des observations.
Exemple 1.3.8. Reprenons l'exemple du nombre d'employés dans 10 petites entreprises
québécoises.
La variance du nombre d'employés est :
s2
=
(6 − 17)2
+ (6 − 17)2
+ (10 − 17)2
+ ... + (49 − 17)2
10 − 1
= 167,7778 employés2
.
L'écart-type du nombre d'employés est : s =
√
167,7778 = 12,9529 employés.
Avec un coecient de variation égal à CV=
12,9529
17
= 0,7619  0,30, on peut conclure
que la moyenne n'est pas représentative de l'ensemble des observations. La variation est
très élevée.
Dénition 1.3.9. L'étendue d'une distribution correspond à l'écart entre la plus grande
valeur et la plus petite valeur de la variable.
E = xmax − xmin
MQG804 22 ©Turcotte-Cadieux-Bélanger-Lévesque
1.3. ANALYSE DESCRIPTIVE (V
ARIABLE NUMÉRIQUE) CHAPITRE 1
Dénition 1.3.10. L'intervalle interquartile d'une distribution correspond à l'écart
entre la plus grande valeur et la plus petite valeur de la variable du 50 % des données
centrales. Ce 50 % des données est borné par le premier et le troisième quartile.
IIQ = Q3 − Q1
Remarque : Une fois les données classées en ordre non décroissant, le premier quartile
(Q1) se situe après le premier quart des données (25 %) et le troisième quartile (Q3) se
situe après le troisième quart des données (75 %). Il existe plusieurs méthodes évaluant
ces deux quartiles si le nombre d'observations ne se divise pas en quatre parties égales. Le
logiciel SPSS fait de l'intrapolation entre deux valeurs. Dans le cadre du cours, considérez
Q1 et Q3 comme la médiane des sous-groupes séparés par la médiane du groupe complet.
Exemple 1.3.11. Reprenons l'exemple du nombre d'employés dans 10 petites entreprises
québécoises.
L'étendue est de E = 49 − 6 = 43 employés.
Pour calculer l'intervalle interquartile, il faut d'abord repérer les quartiles Q1 et Q3. Dans
notre exemple, il s'agit respectivement de la 3e
et de la 8e
donnée.
6 6 10
|{z} 10 10 13 21 21
|{z} 24 49
Q1 Q3
Ainsi, l'intervalle interquartile est de IIQ = 21 − 10 = 11 employés.
Remarque : L'écart-type est souvent un bon indicateur de la dispersion des données. Par
contre, il est inuencé par les valeurs extrêmes, contrairement à l'intervalle interquartile
qui sera alors préférable.
MQG804 23 ©Turcotte-Cadieux-Bélanger-Lévesque
1.3. ANALYSE DESCRIPTIVE (V
ARIABLE NUMÉRIQUE) CHAPITRE 1
1.3.3 Propriétés mathématiques de la moyenne, de la variance
et de l'écart-type
1. On a toujours
X
i
(xi − x̄) = 0.
2. Changement d'origine. Pour une variable X, si on ajoute une constante c à
toutes ses valeurs xi, alors la moyenne de X +c est la moyenne de X à laquelle on
ajoute c : x̄+c. (Si plutôt on retranche c, on obtient x̄−c.) Le changement d'origine
n'a aucune inuence sur la variance ou l'écart-type : s2
X+c = s2
X, sX+c = sX.
3. Changement d'échelle. Pour une variable X, si on multiplie toutes ses valeurs
xi par une constante a, alors la moyenne de aX est la moyenne de X multipliée par
a : ax̄. Un changement d'échelle modie la variance et l'écart-type : s2
aX = a2
· s2
X,
saX = |a| · sX.
MQG804 24 ©Turcotte-Cadieux-Bélanger-Lévesque
1.3. ANALYSE DESCRIPTIVE (V
ARIABLE NUMÉRIQUE) CHAPITRE 1
1.3.4 Mesures de forme
Les statistiques traitant la forme sont utiles pour vérier si les données de la population
se distribuent suivant la cloche de la loi normale ou non. Ce type de vérication est
nécessaire dans plusieurs contextes où il est présupposé que les données de la population
se distribuent suivant une loi normale.
Figure 1.2  La forme en cloche de la loi normale
La cloche de la loi normale est centrée et parfaitement symétrique par rapport à la
moyenne µ. Le coecient d'asymétrie vérie si la distribution des données de l'échantillon
n'est pas trop asymétrique par rapport à la moyenne. Cette statistique est centrée à 0;
ainsi, une grande valeur positive pour la statistique d'asymétrie indique une asymétrie
prononcée vers la droite. Inversement, une grande valeur négative indique une asymétrie
prononcée vers la gauche.
Population Échantillon
γ1 =
1
N
N
P
i=1

xi − µ
σ
3
G1 =
n
(n − 1)(n − 2)
n
P
i=1

xi − x
s
3
MQG804 25 ©Turcotte-Cadieux-Bélanger-Lévesque
1.3. ANALYSE DESCRIPTIVE (V
ARIABLE NUMÉRIQUE) CHAPITRE 1
Aussi, la cloche normale n'est ni trop aplatie ni trop pointue. Le coecient d'aplatisse-
ment (kurtosis) vérie si l'aplatissement des données ressemble à celui d'une distribution
normale. Pour une loi normale, le coecient d'aplatissement est de 3. SPSS calcule plu-
tôt un estimateur du kurtosis centré à 0 (appelé l'excès de kurtosis). Une grande valeur
négative pour la statistique kurtosis indique que la distribution est platykurtique, c'est-
à-dire qu'elle présente un aplatissement hors du commun (forme de plateau). Une forte
valeur positive indique que la distribution est leptokurtique, c'est-à-dire qu'elle présente
un sommet trop pointu (pentes abruptes, sommet pointu et extrémités épaisses).
Population Échantillon
γ2 =
1
N
N
P
i=1

xi − µ
σ
4
− 3 G2 =
n(n + 1)
(n − 1)(n − 2)(n − 3)
n
P
i=1

xi − x
s
4
−
3(n − 1)2
(n − 2)(n − 3)
Plus les statistiques d'asymétrie et d'aplatissement sont près de 0, plus la distribution
des données ressemble à la distribution d'une loi normale. À titre de règle du pouce, pour
être en mesure de juger si ces statistiques sont loin ou près de 0, il est possible d'utiliser le
quotient de ces statistiques sur leur écart type (Erreur Std., dans la colonne de droite).
À titre d'ordre de grandeur, on tend à rejeter la normalité des données de la population
lorsque
Asymétrie − E(Asymétrie)
p
Var(Asymétrie)
=
Asymétrie − 0
Erreur Std.Asymétrie
 2
ou
Kurtosis − E(Kurtosis)
p
Var(Kurtosis)
=
Kurtosis − 0
Erreur Std.Kurtosis
 2.
MQG804 26 ©Turcotte-Cadieux-Bélanger-Lévesque
1.3. ANALYSE DESCRIPTIVE (V
ARIABLE NUMÉRIQUE) CHAPITRE 1
Exemple 1.3.12. Reprenons l'exemple des 10 petites entreprises québécoises. Le logi-
ciel SPSS peut nous fournir toutes les informations concernant les mesures de tendance
centrale, les mesures de dispersion et les mesures de forme. Voici ce qu'on obtient :
Au niveau de l'asymétrie, on obtient un quotient de
1,884
0,687
= 2,7424  2. Ainsi, on peut
conclure que la distribution des nombres d'employés présente une asymétrie prononcée
vers la droite (coecient d'asymétrie positif). L'histogramme illustre bien cette asymé-
trie.
Au niveau de l'aplatissement, on obtient un quotient de
4,098
1,334
= 3,0712  2. Ainsi,
on peut conclure que la distribution des nombres d'employés présente un sommet plus
pointu (coecient d'aplatissement positif) que celui d'une distribution normale.
MQG804 27 ©Turcotte-Cadieux-Bélanger-Lévesque

Contenu connexe

Similaire à 1_PDFsam_MQG804_NotesDeCours_A23_1.pdf

Analyses factorielles.pdf
Analyses factorielles.pdfAnalyses factorielles.pdf
Analyses factorielles.pdfahmed92358
 
Theorie des poutres_resistance_des_mater (1)
Theorie des poutres_resistance_des_mater (1)Theorie des poutres_resistance_des_mater (1)
Theorie des poutres_resistance_des_mater (1)YoussefTrimech
 
Maaouia Hamza Rapport de stage
Maaouia Hamza Rapport de stageMaaouia Hamza Rapport de stage
Maaouia Hamza Rapport de stageMaaouia Hamza
 
recherche operationnelle
recherche operationnelle recherche operationnelle
recherche operationnelle mohamednacim
 
Conception bd 2
Conception bd 2Conception bd 2
Conception bd 2hassan1488
 
Deep Learning : Application à la reconnaissance d’objets de classes multiples...
Deep Learning : Application à la reconnaissance d’objets de classes multiples...Deep Learning : Application à la reconnaissance d’objets de classes multiples...
Deep Learning : Application à la reconnaissance d’objets de classes multiples...Haytam EL YOUSSFI
 
Calibration de modèles d'agents de marchés financiers par une démarche d'infé...
Calibration de modèles d'agents de marchés financiers par une démarche d'infé...Calibration de modèles d'agents de marchés financiers par une démarche d'infé...
Calibration de modèles d'agents de marchés financiers par une démarche d'infé...MohamedAmineHACHICHA1
 
notes-de-cours-de-fouille-de-donnees.pdf
notes-de-cours-de-fouille-de-donnees.pdfnotes-de-cours-de-fouille-de-donnees.pdf
notes-de-cours-de-fouille-de-donnees.pdfCoulibalyYoussoufngo
 
Projet_Monte_Carlo_Dauphine
Projet_Monte_Carlo_DauphineProjet_Monte_Carlo_Dauphine
Projet_Monte_Carlo_DauphineAli Sana
 
Cours mass pascalllllllllllle
Cours mass pascalllllllllllleCours mass pascalllllllllllle
Cours mass pascalllllllllllleChawki Riadh
 
Analyse des sentiments cas twitter - univ ghardaia algerie
Analyse des sentiments  cas twitter - univ ghardaia algerieAnalyse des sentiments  cas twitter - univ ghardaia algerie
Analyse des sentiments cas twitter - univ ghardaia algerieSoumia Elyakote HERMA
 
D’égale à égal ? Un portrait statistique des femmes et des hommes au Québec
D’égale à égal ? Un portrait statistique des femmes et des hommes au QuébecD’égale à égal ? Un portrait statistique des femmes et des hommes au Québec
D’égale à égal ? Un portrait statistique des femmes et des hommes au QuébecProspection
 

Similaire à 1_PDFsam_MQG804_NotesDeCours_A23_1.pdf (20)

Analyses factorielles.pdf
Analyses factorielles.pdfAnalyses factorielles.pdf
Analyses factorielles.pdf
 
Theorie des poutres_resistance_des_mater (1)
Theorie des poutres_resistance_des_mater (1)Theorie des poutres_resistance_des_mater (1)
Theorie des poutres_resistance_des_mater (1)
 
Maaouia Hamza Rapport de stage
Maaouia Hamza Rapport de stageMaaouia Hamza Rapport de stage
Maaouia Hamza Rapport de stage
 
recherche operationnelle
recherche operationnelle recherche operationnelle
recherche operationnelle
 
Krigeage
KrigeageKrigeage
Krigeage
 
Conception bd 2
Conception bd 2Conception bd 2
Conception bd 2
 
Deep Learning : Application à la reconnaissance d’objets de classes multiples...
Deep Learning : Application à la reconnaissance d’objets de classes multiples...Deep Learning : Application à la reconnaissance d’objets de classes multiples...
Deep Learning : Application à la reconnaissance d’objets de classes multiples...
 
Calibration de modèles d'agents de marchés financiers par une démarche d'infé...
Calibration de modèles d'agents de marchés financiers par une démarche d'infé...Calibration de modèles d'agents de marchés financiers par une démarche d'infé...
Calibration de modèles d'agents de marchés financiers par une démarche d'infé...
 
dugas-phd
dugas-phddugas-phd
dugas-phd
 
notes-de-cours-de-fouille-de-donnees.pdf
notes-de-cours-de-fouille-de-donnees.pdfnotes-de-cours-de-fouille-de-donnees.pdf
notes-de-cours-de-fouille-de-donnees.pdf
 
LIPADE_Report
LIPADE_ReportLIPADE_Report
LIPADE_Report
 
Projet_Monte_Carlo_Dauphine
Projet_Monte_Carlo_DauphineProjet_Monte_Carlo_Dauphine
Projet_Monte_Carlo_Dauphine
 
Regsimple
RegsimpleRegsimple
Regsimple
 
statistique descriptive
statistique descriptivestatistique descriptive
statistique descriptive
 
Cours mass pascalllllllllllle
Cours mass pascalllllllllllleCours mass pascalllllllllllle
Cours mass pascalllllllllllle
 
Analyse des sentiments cas twitter - univ ghardaia algerie
Analyse des sentiments  cas twitter - univ ghardaia algerieAnalyse des sentiments  cas twitter - univ ghardaia algerie
Analyse des sentiments cas twitter - univ ghardaia algerie
 
D’égale à égal ? Un portrait statistique des femmes et des hommes au Québec
D’égale à égal ? Un portrait statistique des femmes et des hommes au QuébecD’égale à égal ? Un portrait statistique des femmes et des hommes au Québec
D’égale à égal ? Un portrait statistique des femmes et des hommes au Québec
 
Resolution de F(X) = 0 SIDIBE Ali
Resolution de F(X) = 0 SIDIBE AliResolution de F(X) = 0 SIDIBE Ali
Resolution de F(X) = 0 SIDIBE Ali
 
Mémoire.pdf
Mémoire.pdfMémoire.pdf
Mémoire.pdf
 
Bourguet2
Bourguet2Bourguet2
Bourguet2
 

1_PDFsam_MQG804_NotesDeCours_A23_1.pdf

  • 1. Table des matières Chapitre 1 Analyse descriptive des données 1 1.1 Quelques notions fondamentales . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Analyse descriptive (variables catégoriques) . . . . . . . . . . . . . . . . 11 1.3 Analyse descriptive (variable numérique) . . . . . . . . . . . . . . . . . . 17 Chapitre 2 Variables aléatoires 28 2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.2 Loi de probabilité, espérance et variance . . . . . . . . . . . . . . . . . . 31 2.3 Lois de probabilités bivariées (discrètes) . . . . . . . . . . . . . . . . . . 41 2.4 Principales lois de probabilités . . . . . . . . . . . . . . . . . . . . . . . . 55 Chapitre 3 Échantillonnage et estimation de paramètres 88 3.1 Distribution d'échantillonnage de X̄ . . . . . . . . . . . . . . . . . . . . . 88 3.2 Intervalle de conance pour une moyenne . . . . . . . . . . . . . . . . . . 101 3.3 Intervalle de conance pour une proportion . . . . . . . . . . . . . . . . . 110 Chapitre 4 Tests d'hypothèses 114 4.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 4.2 Résolution d'un test d'hypothèses . . . . . . . . . . . . . . . . . . . . . . 121 i
  • 2. 4.3 Test sur une moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 4.4 Test sur une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 4.5 Comparaison de deux moyennes . . . . . . . . . . . . . . . . . . . . . . . 130 Chapitre 5 Corrélation linéaire 137 5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 5.2 Examen graphique de la relation . . . . . . . . . . . . . . . . . . . . . . . 140 5.3 Limites du coecient de corrélation . . . . . . . . . . . . . . . . . . . . . 142 5.4 Inférence sur le coecient de corrélation ρ . . . . . . . . . . . . . . . . . 143 Chapitre 6 Régression linéaire simple 149 6.1 Dénition du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 6.2 Principe des moindres carrés ordinaire (MCO) . . . . . . . . . . . . . . . 153 6.3 Propriétés des estimateurs MCO (b β0 et b β1) . . . . . . . . . . . . . . . . . 158 6.4 Inférence sur les paramètres β0 et β1 . . . . . . . . . . . . . . . . . . . . 171 6.5 Inférence sur σ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 6.6 Analyse de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 6.7 Utilisation de la droite de régression . . . . . . . . . . . . . . . . . . . . . 181 6.8 Exemples avec SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 6.9 Approche matricielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 Chapitre 7 Régression linéaire multiple 202 7.1 Dénition du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 7.2 Qualité et interprétation du modèle . . . . . . . . . . . . . . . . . . . . . 205 7.3 Vérication des hypothèses de validité . . . . . . . . . . . . . . . . . . . 211 7.4 Exemple complet avec SPSS . . . . . . . . . . . . . . . . . . . . . . . . . 259 7.5 Variables explicatives catégoriques . . . . . . . . . . . . . . . . . . . . . . 274 7.6 Comparaison et choix d'un modèle . . . . . . . . . . . . . . . . . . . . . 296 ii
  • 3. Chapitre 1 Analyse descriptive des données 1.1 Quelques notions fondamentales 1.1.1 Population vs échantillon Dénitions 1.1.1. La totalité des observations qui concernent l'objet de l'étude consti- tue la population (gens, animaux, objets, ...). Chaque élément de la population est appelée une unité statistique ou un individu. La population est ainsi constituée d'un ensemble d'individus satisfaisant à une dénition commune et constituant la collectivité à laquelle on s'intéresse. Un échantillon est un sous-ensemble de la population. Nous le voulons le plus repré- sentatif possible. Un échantillon représentatif agit à titre de photo-réduction de la population. 1
  • 4. 1.1. QUELQUES NOTIONS FONDAMENTALES CHAPITRE 1 Exemples 1.1.2. Si on s'intéresse au prol type des clients d'une boutique, alors la population sera constituée de tous les clients de cette boutique. Si on s'intéresse aux employés d'une entreprise, alors la population sera constituée de tous les employés de cette entreprise. On peut aussi s'intéresser à une pièce en particulier produite par une usine. La population est alors constituée de toutes les pièces de ce type qui sont produites par l'usine. Si on veut étudier le marché immobilier de la région de Sherbrooke, la population est alors constituée de toutes les propriétés à vendre dans la région de Sherbrooke. 1.1.2 Types de données Dénitions 1.1.3. Les données expérimentales proviennent d'expérimentations contrô- lées permettant d'évaluer un eet causal. Les données observationnelles proviennent d'observations dans un contexte non expérimental. Dénitions 1.1.4. Les données transversales sont prélevées sur un ensemble d'unités statistiques à une période de temps xée. Les données temporelles sont prélevées sur une unité statistique unique à plusieurs périodes. Les données de panel (ou données longitudinales) sont prélevées sur un ensemble d'unités statistiques à plusieurs périodes. MQG804 2 ©Turcotte-Cadieux-Bélanger-Lévesque
  • 5. 1.1. QUELQUES NOTIONS FONDAMENTALES CHAPITRE 1 1.1.3 Types de variables Dénition 1.1.5. Une population présente des particularités propres qui se retrouvent chez tous les individus qui la composent. On appelle ces particularités des variables (ou caractères). Exemples 1.1.6. Les variables à l'étude pour les employés d'une entreprise peuvent être le type de poste occupé, le niveau de scolarité, le salaire, etc... Pour l'étude du marché immobilier à Sherbrooke, les variables à l'étude peuvent être le nombre de chambres, le prix, l'emplacement, etc... Dénition 1.1.7. Une variable est dite catégorique si les valeurs qu'elle peut prendre sont représentés par des catégories mutuellement exclusives et exhaustives. Elle est dite numérique si elle peut être mesurée de façon quantiable. De plus, une variable nu- mérique est dite discrète si elle ne peut prendre qu'un nombre limité ou dénombrable de valeurs (souvent des valeurs entières). Elle est dite continue lorsqu'elle peut prendre toutes les valeurs d'un intervalle ni ou inni. Exemple 1.1.8. Dites si les variables suivantes sont catégoriques ou numériques, et dans ce dernier cas, dites si elle est discrète ou continue. (a) Taille d'un individu : (b) Type d'emploi occupé : (c) Sexe d'un individu : (d) Âge d'un individu : (e) Nombre d'employés dans l'entreprise : (f) Niveau d'appréciation du service reçu : (g) Nombre de cartes de crédit possédées : (h) Revenu familial : MQG804 3 ©Turcotte-Cadieux-Bélanger-Lévesque
  • 6. 1.1. QUELQUES NOTIONS FONDAMENTALES CHAPITRE 1 1.1.4 Échelles de mesure Poser une question, c'est mesurer la profondeur ou l'intensité d'une variable chez les individus. Pour y arriver, on associe des nombres à des événements. Cette association est construite logiquement de manière à quantier l'intensité d'une variable (l'événement étudié) chez un individu. Les propriétés des nombres En somme, mesurer c'est attribuer des nombres à des événements. Parmi l'ensemble des propriétés des nombres, quatre grandes propriétés nous intéressent plus particulièrement. Elles sont présentées de la plus faible à la plus puissante : L'identication : 0, 1 et 2 sont des nombres bien diérents. L'ordonnancement : 3 est plus petit que 4. L'égalité d'intervalle : La longueur de l'intervalle entre les nombres 1 et 3 est la même qu'entre les nombres 98 et 100. La largeur de l'intervalle est de 2. L'égalité des ratios : Le ratio 24/8 est le même que le ratio 15/5. Ces quatre propriétés dénissent complètement les quatre types d'échelles de mesure. Dans l'optique de l'analyse de données, il est important de signaler qu'une propriété supérieure hérite automatiquement des propriétés inférieures. Les quatre échelles de mesure Cette sous-section présente les quatre échelles de mesure sur lesquelles se base la science de la statistique. Rappelons que les échelles associent des nombres aux événements. Les échelles nominales, ordinales, d'intervalles et de ratios sont présentées dans l'ordre, de la moins puissante à la plus puissante. La puissance pour un statisticien est décrite comme étant le potentiel d'une échelle à détecter, comprendre et exploiter la variabilité d'un phénomène. MQG804 4 ©Turcotte-Cadieux-Bélanger-Lévesque
  • 7. 1.1. QUELQUES NOTIONS FONDAMENTALES CHAPITRE 1 Exemple 1.1.9. À titre d'illustration, supposons qu'une étude de marché est menée auprès d'un certain nombre de clients d'une boutique de jeux. L'objectif est de savoir si un nouveau pub ludique (où il est possible de prendre un verre en jouant à des jeux de société) au centre-ville pourrait générer assez d'achalandage et de mieux cerner la clientèle qu'on pourrait rejoindre avec ce type d'établissement. Il est probable de trouver les questions suivantes dans un questionnaire : Q1 : À quel genre vous identiez-vous? Homme0 □ Femme1 □ Q2 : Quelle est votre année de naissance? Q3 : Quel est votre niveau de scolarité? Primaire1 □ Collégial3 □ Secondaire2 □ Universitaire4 □ Q4 : Quel est votre revenu annuel? Moins de 25 000 $1 □ De 50 000 $ à moins de 75 000 $3 □ De 25 000 $ à moins de 50 000 $2 □ 75 000 $ et plus4 □ Q5 : Combien de fois par mois jouez-vous à des jeux de société? Q6 : Quel montant avez-vous dépensé au cours de la dernière année pour l'achat de jeux de société? $ Q7 : Quelle catégorie de jeux de société préférez-vous? Q8 : Quel serait votre niveau d'intérêt pour l'ouverture d'un pub ludique? Peu intéressé(e)1 □ Intéressé(e)3 □ Indiérent(e)2 □ Très intéressé(e)4 □ MQG804 5 ©Turcotte-Cadieux-Bélanger-Lévesque
  • 8. 1.1. QUELQUES NOTIONS FONDAMENTALES CHAPITRE 1 L'échelle nominale : L'échelle nominale n'utilise les nombres que pour diérencier et identier les modalités de réponses d'une variable. Cette échelle est discrète au sens où il n'y a rien entre les modalités. Par exemple : Q1 : À quel genre vous identiez-vous? Homme0 □ Femme1 □ Une des codications possibles est la suivante : 0 = Homme et 1 = Femme. Il faut comprendre que les nombres 0 et 1 ne servent qu'à diérencier les deux modalités au même titre que 1 est diérent de 0. De plus, il n'existe pas de catégorie d'individu 0,5 . Toute autre association entre les réponses et les nombres aurait aussi été correcte, par exemple 1 = Homme et 0 = Femme, au même titre que 12 = Homme et 64,2 = Femme. Cependant, dans le cadre de ce cours, lorsque la question présente seulement deux modalités de réponses, il est préférable d'utiliser les nombres 0 et 1 dans la codication. En eet, d'un point de vue mathématique, cette codication de type on/o (binaire) est très utile dans certaines analyses statistiques, le groupe 0 agissant mathématiquement à titre de groupe de référence. Lorsque la question présente trois modalités de réponses ou plus, la codication de type on/o perd toute son utilité mathématique et le praticien peut utiliser les nombres 0, 1, 2, 3, ... pour codier les modalités de la question, et ce, sans regard à un groupe de référence. La question Q7 est elle aussi de type nominal : Q7 : Quelle catégorie de jeux de société préférez-vous? Le praticien peut associer 1 = Stratégie, 2 = Coopératif, et 3 = Hasard, etc. L'association des codes (1, 2, 3, ...) est arbitraire et aurait pu être xée tout autrement par un autre analyste. MQG804 6 ©Turcotte-Cadieux-Bélanger-Lévesque
  • 9. 1.1. QUELQUES NOTIONS FONDAMENTALES CHAPITRE 1 L'échelle nominale est la plus faible des quatre et elle ne sert essentiellement qu'à identier les groupes. Cette responsabilité est cependant très importante puisqu'il est courant de comparer deux ou plus de deux groupes les uns par rapport aux autres. L'échelle ordinale : L'échelle ordinale possède la propriété d'identication à laquelle s'ajoute la propriété d'or- donnancement. Cette échelle est discrète. Ici, l'ordonnancement des nombres de l'associa- tion a une importance logique et sera exploité. La question suivante en est un exemple. Q3 : Quel est votre niveau de scolarité? Primaire1 □ Secondaire2 □ Collégial3 □ Universitaire4 □ En suivant l'association des codes écrits en indice, plus le code est petit, plus le niveau de scolarité est bas. Cependant, les codes n'informent pas exactement sur le nombre d'années de scolarité qui diérencient vraiment deux personnes. Par exemple, une personne ayant un baccalauréat et une autre ayant un doctorat obtiennent toutes deux un code 4. Aussi, un autre analyste aurait pu associer logiquement un ordonnancement inverse dans sa codication, par exemple : Q3 : Quel est votre niveau de scolarité? Primaire4 □ Secondaire3 □ Collégial2 □ Universitaire1 □ MQG804 7 ©Turcotte-Cadieux-Bélanger-Lévesque
  • 10. 1.1. QUELQUES NOTIONS FONDAMENTALES CHAPITRE 1 An de mieux comprendre la portée restreinte de ce type d'échelle, voyons un exemple supplémentaire. Q8 : Quel serait votre niveau d'intérêt pour l'ouverture d'un pub ludique? Peu intéressé(e)1 □ Indiérent(e)2 □ Intéressé(e)3 □ Très intéressé(e)4 □ Ce type d'échelle porte le nom d'échelle de Likert en quatre points illustrant diérents niveaux d'intérêt . De façon semblable, il existe aussi des échelles de style Likert en 5 ou 7 points par exemple. En suivant les codications écrites en indice, il est possible de voir que plus la réponse d'un individu est associée à un code élevé, plus il est intéressé par l'ouverture d'un pub ludique. Il faut comprendre la limite de cette mesure puisque le code n'informe en rien sur la puissance de la diérence qui existe entre l'opinion d'un individu Intéressé par rapport à un autre Très intéressé . Il est à noter qu'une variable quantitative dont les valeurs ont été regroupées en intervalle a ainsi été mesurée avec une échelle ordinale. Q4 : Quel est votre revenu annuel? Moins de 25 000 $1 □ De 25 000 $ à moins de 50 000 $2 □ De 50 000 $ à moins de 75 000 $3 □ 75 000 $ et plus4 □ Lorsqu'un individu qui répond 75 000 $ et plus , il est impossible de connaître le revenu réel. Il y a un ordre logique des catégories, mais il est impossible de calculer le revenu annuel moyen des répondants sans la valeur numérique exacte. De plus, il est impossible d'évaluer la distance entre les revenus de 2 individus, puisqu'on ne connait que la classe de revenu. C'est pourquoi les valeurs 1, 2, 3 et 4 ne servent qu'à diérencier et ordonner les choix de réponses. MQG804 8 ©Turcotte-Cadieux-Bélanger-Lévesque
  • 11. 1.1. QUELQUES NOTIONS FONDAMENTALES CHAPITRE 1 L'échelle d'intervalle : Cette échelle cumule les propriétés d'identication, d'ordonnancement et d'égalité d'in- tervalles, et nous informe de façon précise de l'écart entre deux modalités (réponses). Q2 : Quelle est votre année de naissance? La réponse des individus est un nombre correspondant à l'année de naissance. À partir de cette valeur numérique, il est possible de calculer et interpréter la diérence entre l'année de naissance de 2 individus. Une personne née en 1992 et une personne née en 1987 ont 5 ans de diérence au niveau de leur âge. Mais, la valeur 0 ne représente pas une absence de vécu ou une absence d'années. Le zéro d'une échelle d'intervalle n'est pas absolu, il est relatif. Aussi, les réponses 2000 et 1000 ne signient pas qu'un des deux individus a vécu 2 fois plus de temps que l'autre. Le ratio 2000 1000 n'a aucune signication. Cette échelle peut mesurer des variables discrètes ou continues. De plus, la moyenne a un sens bien concret, c'est là une grande particularité de ce type d'échelle. L'échelle de ratio : L'échelle de ratio cumule toutes les propriétés des échelles précédentes. Elle s'apparente énormément à l'échelle d'intervalle mais possède la propriété d'avoir un zéro absolu. De plus, l'égalité des ratios est respectée, ce qui n'est pas le cas pour une échelle d'intervalles. Q5 : Combien de fois par mois jouez-vous à des jeux de société? Q6 : Quel montant avez-vous dépensé au cours de la dernière année pour l'achat de jeux de société? $ La réponse 0 fois à la question Q5 illustre simplement une absence du nombre de fois par mois où il joue à un jeu de société. La réponse 0 $ illustre une absence de montant dépensé. En somme, le zéro possède ici un caractère absolu. Tout comme pour MQG804 9 ©Turcotte-Cadieux-Bélanger-Lévesque
  • 12. 1.1. QUELQUES NOTIONS FONDAMENTALES CHAPITRE 1 l'échelle d'intervalles, la notion de moyenne (ici le montant moyen dépensé) a un sens concret. Et un individu peut dépenser deux fois plus qu'un autre (égalité des ratios). Cette échelle peut mesurer des variables discrètes et continues, de la même façon que l'échelle d'intervalles (c'est-à-dire qu'avant de mesurer une variable discrète avec cette échelle il faut s'assurer qu'elle possède toutes les propriétés mentionnées ci-dessus). Dans la pratique, les échelles nominales et ordinales sont regroupées dans la famille des variables catégoriques tandis que les échelles d'intervalles et de ratios sont regroupées dans la famille des variables numériques. Bien qu'il existe quelques diérences entre les analyses des variables d'échelle nominale et ordinale, il en existe peu pour les analyses des variables d'échelle intervalle et ratio. Dans le cadre de ce cours, nous présenterons les analyses de base de la famille des variables catégoriques (nominales/ordinales) et, lorsque nécessaire, nous mettrons en évidence les diérences entre les analyses des échelles nominale et ordinale. Nous traiterons sans dis- tinction les analyses statistiques des variables numériques (intervalles et ratio). Résumé Type de variable Échelle de mesure Propriétés des nombres Variables catégoriques Nominale Identication Ordinale Identication Ordonnancement variables numériques Intervalle Identication Ordonnancement Égalité des intervalles Ratio Identication Ordonnancement Égalité des intervalles Égalité des ratios (zéro absolu) MQG804 10 ©Turcotte-Cadieux-Bélanger-Lévesque
  • 13. 1.2. ANALYSE DESCRIPTIVE (V ARIABLES CATÉGORIQUES) CHAPITRE 1 1.2 Analyse descriptive (variables catégoriques) Dénition 1.2.1. Toutes les valeurs numériques calculées à partir d'une population sont appelées des paramètres. On les note avec des lettres grecques (µ, π, σ, β, ...). Dénition 1.2.2. Toutes les valeurs numériques calculées à partir d'un échantillon sont appelées des statistiques. Ces statistiques estimeront les paramètres de la population. On les note avec des lettres latines (x̄, p, s, b, ...). Pour décrire et résumer l'ensemble des valeurs d'une variable d'échelle nominale ou or- dinale, le praticien utilise le dénombrement, le mode, les tableaux de distribution de fréquences et les graphiques (diagrammes à barres, diagrammes circulaires, ...). Dénitions 1.2.3. La fréquence absolue (ou eectif) associée à une valeur d'une variable statistique est le nombre de fois où cette valeur est rencontrée dans la population (ou l'échantillon). La fréquence relative associée à une valeur d'une variable statistique est le rapport entre la fréquence absolue correspondant à cette valeur et le nombre total des observations (on peut donc l'interpréter comme étant un %). Dénition 1.2.4. Le mode (ou la classe modale) d'un échantillon ou d'une population est la modalité dont la fréquence absolue est la plus élevée. Il se peut qu'il y ait plusieurs modes. MQG804 11 ©Turcotte-Cadieux-Bélanger-Lévesque
  • 14. 1.2. ANALYSE DESCRIPTIVE (V ARIABLES CATÉGORIQUES) CHAPITRE 1 Exemple 1.2.5. Une entreprise familiale vend des produits à l'érable. Les produits sont vendus en ligne, en épicerie et directement à leur érablière. Jusqu'à maintenant, aucune publicité en ligne n'était faite. Les ventes se répartissaient de la façon suivante : 10 % en ligne, 50 % de l'érablière et 40 % en épicerie. Cette année, on a investi une somme importante pour augmenter la visibilité des produits sur les réseaux sociaux. On a étudié les 30 dernières ventes. Voici ce qu'on a obtenu : Identication Provenance Identication Provenance Identication Provenance 1 En ligne 11 En ligne 21 En ligne 2 En ligne 12 Érablière 22 Érablière 3 Érablière 13 Épicerie 23 Érablière 4 Érablière 14 Épicerie 24 Épicerie 5 En ligne 15 Épicerie 25 En ligne 6 Épicerie 16 Érablière 26 Érablière 7 En ligne 17 En ligne 27 En ligne 8 Érablière 18 Épicerie 28 Épicerie 9 Érablière 19 Érablière 29 Épicerie 10 Épicerie 20 Érablière 30 Érablière On aura alors le tableau des fréquences suivant : Provenance Fréquence absolue Fréquence relative En ligne 9 0,30 Érablière 12 0,40 Épicerie 9 0,30 MQG804 12 ©Turcotte-Cadieux-Bélanger-Lévesque
  • 15. 1.2. ANALYSE DESCRIPTIVE (V ARIABLES CATÉGORIQUES) CHAPITRE 1 Cette distribution de fréquences peut être illustrée sous forme d'un diagramme en bâtons : Analyse descriptive : À partir de cet échantillon, on constate que les ventes directement à l'érablière semblent encore les plus populaires (40 %). Il s'agit du mode. Toutefois, il semble aussi y avoir une hausse des ventes en ligne par rapport aux anciennes données colligées. On estime qu'elles s'élèvent maintenant à 30 % des ventes totales. MQG804 13 ©Turcotte-Cadieux-Bélanger-Lévesque
  • 16. 1.2. ANALYSE DESCRIPTIVE (V ARIABLES CATÉGORIQUES) CHAPITRE 1 Exemple 1.2.6. Un théâtre d'été en Chaudière-Appalaches a voulu augmenter sa visibi- lité dans les régions avoisinantes. En 2016, on a posé des aches et diusé une publicité à la radio dans les régions de la Capitale-Nationale et de l'Estrie. En analysant la pro- venance des spectateurs de l'été 2015 et de ceux de l'été 2016, on a obtenu les résultats suivants : En analysant ces résultats, on remarque que la proportion de spectateurs provenant de l'Estrie est passée de 8,8 % à 19,8 %. La proportion de spectateurs provenant de la Capitale-Nationale est passée de 9,4 % à 16,3 %. La publicité semble avoir eu un impact pour ces régions. La majorité de la clientèle provient toujours de la région de Chaudière- Appalaches (56 %). Mais, est-ce que cette diminution (en fréquence relative) indique une baisse d'achalandage dans cette région ? En se ant aux fréquences absolues, il semble que non, puisqu'on observait 1 421 spectateurs en 2015 et 1 400 en 2016. Si la fréquence relative a diminué, c'est simplement à cause d'une augmentation du nombre total de spectateurs en 2016. MQG804 14 ©Turcotte-Cadieux-Bélanger-Lévesque
  • 17. 1.2. ANALYSE DESCRIPTIVE (V ARIABLES CATÉGORIQUES) CHAPITRE 1 1.2.1 Regrouper les données en classes L'analyse descriptive des variables numériques peut également comprendre l'analyse des fréquences absolues et relatives s'il s'agit d'une variable numérique discrète à peu de va- leurs ou d'une variable numérique dont les valeurs ont été regroupées en classes. Voici une façon de découper une plage de valeurs en intervalles (classes) pour en faire la description statistique. Nombre de classes. En général, le nombre de classes ne devrait être ni inférieur à 5 ni supérieur à 20. De préférence, ce devrait être entre 6 et 12 classes. On peut utiliser la règle de 2 à la k pour déterminer le nombre de classes souhai- tables. Si n est le nombre de données, alors le nombre k de classes à utiliser est le plus petit k tel que 2k n. Par exemple, si n = 60, alors 25 = 32, ce qui est inférieur à 60, donc 5 classes ne susent pas. Avec k = 6, on obtient 26 = 64, ce qui est supérieur à 60. Donc le nombre de classes recommandé est ici de 6. Amplitude des classes (largeur). Dans la mesure du possible, on essaie de donner la même amplitude à chaque classe. Pour trouver cette amplitude, on prend l'étendue des données (xmax − xmin) et on la divise par le nombre k de classes souhaitables trouvé à l'étape précédente. Le nombre obtenu est alors l'amplitude minimale qui peut être utilisée, et souvent, on arrondit ce nombre (à la hausse) pour travailler avec une quantité pratique. Supposons que l'on a 60 données représentant des salaires, et que le plus petit a une valeur de 35 800 $, tandis que le plus grand est de 71 190 $. Puisque n = 60, on a vu qu'il est recommandé de prendre 6 classes. On a donc amplitude ≥ 71 190 $ − 35 800 $ 6 = 5 898,33 $, ce qui pourrait être arrondi à 5 900 $. MQG804 15 ©Turcotte-Cadieux-Bélanger-Lévesque
  • 18. 1.2. ANALYSE DESCRIPTIVE (V ARIABLES CATÉGORIQUES) CHAPITRE 1 Limites des classes. Il faut avant tout que la borne inférieure de la première classe soit légèrement inférieure ou égale à la plus petite donnée, et que la borne supérieure de la dernière classe soit légèrement supérieure ou égale à la plus grande donnée, ceci simplement pour s'assurer que toutes les données se retrouvent dans les classes dénies. Dans l'exemple précédent, la première classe pourrait être de 35 800 $ à moins de 41 700 $, puis de 41 700 $ à moins de 47 600 $, et ainsi de suite. MQG804 16 ©Turcotte-Cadieux-Bélanger-Lévesque
  • 19. 1.3. ANALYSE DESCRIPTIVE (V ARIABLE NUMÉRIQUE) CHAPITRE 1 1.3 Analyse descriptive (variable numérique) Lorsqu'on veut décrire et résumer une variable intervalle ou ratio, on utilise un ensemble de statistiques qui mesurent trois grandes caractéristiques : - Les statistiques mesurant la tendance centrale; - Les statistiques mesurant la dispersion; - Les statistiques mesurant la forme. Le tableau 1.1 contient quelques statistiques servant à la description. Comme les statis- tiques varient d'un échantillon à l'autre, il est pertinent que le praticien considère à la fois plusieurs statistiques qui estiment un même paramètre. Le praticien peut alors les comparer et voir si elles semblent être de bons estimateurs ou non (on espère qu'elles soient semblables). Mesures de Mesures de Mesures de la forme tendance centrale dispersion de la distribution Moyenne (x̄, µ) Variance (s2 , σ2 ) Asymétrie Médiane (Md) Écart-type (s, σ) Aplatissement (Kurtosis) Moyenne tronquée 5 % Intervalle interquartile (IIQ) Mode / Classe modale Étendue Coecient de variation (CV) Figure 1.1 Statistiques descriptives MQG804 17 ©Turcotte-Cadieux-Bélanger-Lévesque
  • 20. 1.3. ANALYSE DESCRIPTIVE (V ARIABLE NUMÉRIQUE) CHAPITRE 1 1.3.1 Mesures de tendance centrale Les mesures de tendance centrale tentent d'estimer le centre de la distribution. Certaines sont plus approximatives, d'autres sont inuencées par les valeurs extrêmes. Il faudra choisir judicieusement laquelle est la plus pertinente selon le contexte. Dénition 1.3.1. La moyenne d'un échantillon ou d'une population peut être considé- rée comme le centre d'équilibre d'un ensemble de données. Elle est dénie par le calcul suivant : Population Échantillon µ = N P i=1 xi N x = n P i=1 xi n Dénition 1.3.2. La médiane (Md) d'un échantillon ou d'une population est la valeur centrale lorsque les observations sont classées en ordre non décroissant. Si le nombre d'observations est pair, on calculera la moyenne des deux valeurs centrales. Elle peut être considérée comme le centre de position d'un ensemble de données. Dénition 1.3.3. Le mode d'un échantillon ou d'une population est la valeur dont la fréquence absolue est la plus élevée. Il se peut qu'il y ait plusieurs modes. Le mode peut être considéré comme le centre de concentration d'un ensemble de données. Exemple 1.3.4. On aimerait étudier le nombre d'employés dans les petites entreprises du Québec. On a sélectionné au hasard 10 petites entreprises. Les résultats sont les suivants : Numéro d'identication 1 2 3 4 5 6 7 8 9 10 Nombre d'employés 10 21 10 6 10 24 6 13 21 49 MQG804 18 ©Turcotte-Cadieux-Bélanger-Lévesque
  • 21. 1.3. ANALYSE DESCRIPTIVE (V ARIABLE NUMÉRIQUE) CHAPITRE 1 Une fois les observations classées en ordre non décroissant, on obtient : 6 6 10 10 10 13 21 21 24 49 La moyenne de cet échantillon est : x = 10 P i=1 xi 10 = 6 + 6 + 10 + 10 + 10 + 13 + 21 + 21 + 24 + 49 10 = 17 employés. La médiane de cet échantillon est la moyenne de la 5e et de la 6e valeur : Md= 10 + 13 2 = 11,5 employés. Le mode de cet échantillon est 10, car cette valeur apparaît trois fois. C'est celle qu'on retrouve le plus souvent. Remarque : La moyenne est souvent un bon indicateur d'une valeur typique, du centre de la distribution. Mais, elle peut être inuencée par les valeurs extrêmes. La médiane est alors suggérée pour représenter une valeur typique. On peut aussi retirer les valeurs les plus élevées et les plus faibles lors du calcul de la moyenne pour atténuer cet inconvé- nient. Cette statistique est appelée moyenne tronquée. Lorsque la médiane ou la moyenne tronquée dière de plus de 10 % de la valeur de la moyenne, on peut croire que ces deux statistiques sont de meilleurs choix pour estimer la valeur centrale de la distribution. Cela suggère que des valeurs élevées ou très faibles ont eu un impact sur le calcul de la moyenne. Dans l'exemple précédent, la médiane dière de 17 − 11,5 17 = 0,3235 = 32,35 % de la valeur de la moyenne. Cette grande diérence est probablement due à l'entreprise de 49 employés qui a fait augmenter considérablement la moyenne. MQG804 19 ©Turcotte-Cadieux-Bélanger-Lévesque
  • 22. 1.3. ANALYSE DESCRIPTIVE (V ARIABLE NUMÉRIQUE) CHAPITRE 1 1.3.2 Mesures de dispersion Dénition 1.3.5. La variance correspond à la moyenne des distances carrées entre chaque observation et la moyenne du groupe. Elle se calcule comme suit : Population Échantillon σ2 = N P i=1 (xi − µ)2 N s2 = n P i=1 (xi − x)2 n − 1 Calcul simplié de la variance d'un échantillon : s2 = n X i=1 x2 i ! − nx̄2 n − 1 Remarque : La variance échantillonnale s2 est divisée par n−1 au lieu de n. Il s'agit d'une correction au fait que dans cette formule, µ (le paramètre qui ne varie pas) est remplacé par une statistique x̄ qui n'est qu'une estimation de µ, et n'est donc pas parfaite. En d'autres termes, puisque x̄ n'est qu'une estimation, elle injecte une variation additionnelle dans la valeur de s2 . Pour tenir compte de cette variation induite, le praticien prend la liberté de diviser la somme par n − 1 au lieu de n. Cette stratégie est toujours vraie : pour chaque paramètre remplacé par sa statistique dans la formule d'une variance, une unité est enlevée à son dénominateur à titre de correction. C'est là le principe des degrés de liberté. La variance est donc une mesure de la variation. Plus le nombre d'employés d'une entre- prise est loin de la moyenne, plus la variance augmente. Cependant, l'unité de mesure de la variance est le carré de celle de la moyenne, ce qui est dicile à interpréter. En eet, qui sait ce que veut dire des employés2 ? MQG804 20 ©Turcotte-Cadieux-Bélanger-Lévesque
  • 23. 1.3. ANALYSE DESCRIPTIVE (V ARIABLE NUMÉRIQUE) CHAPITRE 1 C'est pourquoi les praticiens utilisent plutôt l'écart-type (σ ou s) qui est non seulement une mesure de la variation, mais qui s'exprime dans les mêmes unités que la moyenne. Dans le domaine de la bourse, σ porte le nom de volatilité des marchés . Plus la volatilité est grande, plus il y a de risques, plus il y a de variation (à la hausse ou la baisse) dans les titres sur le parquet de la bourse. Dénition 1.3.6. L'écart-type d'une distribution correspond à la racine carrée de la variance. Population Échantillon σ = √ σ2 s = √ s2 Un écart-type élevé signie que les données sont dispersées, loin de la moyenne. Ainsi, la moyenne ne représente pas bien ce qu'on retrouve au niveau de l'échantillon (ou de la population). Un petit écart-type nous indique que les données sont regroupées près de la moyenne. Par conséquent, la moyenne est une bonne mesure synthétique représentant bien l'ensemble des observations. Des estimations ables pourront être générées à partir de la moyenne. Pour évaluer l'ampleur d'un écart-type, on calculera le coecient de variation. MQG804 21 ©Turcotte-Cadieux-Bélanger-Lévesque
  • 24. 1.3. ANALYSE DESCRIPTIVE (V ARIABLE NUMÉRIQUE) CHAPITRE 1 Dénition 1.3.7. Le coecient de variation correspond au rapport entre l'écart-type et la moyenne. Il se calcule comme suit : Population Échantillon CV = σ µ CV = s x Le tableau suivant est une bonne référence pour interpréter le résultat : 0 ≤ CV 0,15 La moyenne est représentative de l'ensemble des observations. 0,15 ≤ CV 0,30 La prudence est de mise lors de l'utilisation de la moyenne dans le but de résumer les observations. CV ≥ 0,30 La moyenne n'est pas représentative de l'ensemble des observations. Exemple 1.3.8. Reprenons l'exemple du nombre d'employés dans 10 petites entreprises québécoises. La variance du nombre d'employés est : s2 = (6 − 17)2 + (6 − 17)2 + (10 − 17)2 + ... + (49 − 17)2 10 − 1 = 167,7778 employés2 . L'écart-type du nombre d'employés est : s = √ 167,7778 = 12,9529 employés. Avec un coecient de variation égal à CV= 12,9529 17 = 0,7619 0,30, on peut conclure que la moyenne n'est pas représentative de l'ensemble des observations. La variation est très élevée. Dénition 1.3.9. L'étendue d'une distribution correspond à l'écart entre la plus grande valeur et la plus petite valeur de la variable. E = xmax − xmin MQG804 22 ©Turcotte-Cadieux-Bélanger-Lévesque
  • 25. 1.3. ANALYSE DESCRIPTIVE (V ARIABLE NUMÉRIQUE) CHAPITRE 1 Dénition 1.3.10. L'intervalle interquartile d'une distribution correspond à l'écart entre la plus grande valeur et la plus petite valeur de la variable du 50 % des données centrales. Ce 50 % des données est borné par le premier et le troisième quartile. IIQ = Q3 − Q1 Remarque : Une fois les données classées en ordre non décroissant, le premier quartile (Q1) se situe après le premier quart des données (25 %) et le troisième quartile (Q3) se situe après le troisième quart des données (75 %). Il existe plusieurs méthodes évaluant ces deux quartiles si le nombre d'observations ne se divise pas en quatre parties égales. Le logiciel SPSS fait de l'intrapolation entre deux valeurs. Dans le cadre du cours, considérez Q1 et Q3 comme la médiane des sous-groupes séparés par la médiane du groupe complet. Exemple 1.3.11. Reprenons l'exemple du nombre d'employés dans 10 petites entreprises québécoises. L'étendue est de E = 49 − 6 = 43 employés. Pour calculer l'intervalle interquartile, il faut d'abord repérer les quartiles Q1 et Q3. Dans notre exemple, il s'agit respectivement de la 3e et de la 8e donnée. 6 6 10 |{z} 10 10 13 21 21 |{z} 24 49 Q1 Q3 Ainsi, l'intervalle interquartile est de IIQ = 21 − 10 = 11 employés. Remarque : L'écart-type est souvent un bon indicateur de la dispersion des données. Par contre, il est inuencé par les valeurs extrêmes, contrairement à l'intervalle interquartile qui sera alors préférable. MQG804 23 ©Turcotte-Cadieux-Bélanger-Lévesque
  • 26. 1.3. ANALYSE DESCRIPTIVE (V ARIABLE NUMÉRIQUE) CHAPITRE 1 1.3.3 Propriétés mathématiques de la moyenne, de la variance et de l'écart-type 1. On a toujours X i (xi − x̄) = 0. 2. Changement d'origine. Pour une variable X, si on ajoute une constante c à toutes ses valeurs xi, alors la moyenne de X +c est la moyenne de X à laquelle on ajoute c : x̄+c. (Si plutôt on retranche c, on obtient x̄−c.) Le changement d'origine n'a aucune inuence sur la variance ou l'écart-type : s2 X+c = s2 X, sX+c = sX. 3. Changement d'échelle. Pour une variable X, si on multiplie toutes ses valeurs xi par une constante a, alors la moyenne de aX est la moyenne de X multipliée par a : ax̄. Un changement d'échelle modie la variance et l'écart-type : s2 aX = a2 · s2 X, saX = |a| · sX. MQG804 24 ©Turcotte-Cadieux-Bélanger-Lévesque
  • 27. 1.3. ANALYSE DESCRIPTIVE (V ARIABLE NUMÉRIQUE) CHAPITRE 1 1.3.4 Mesures de forme Les statistiques traitant la forme sont utiles pour vérier si les données de la population se distribuent suivant la cloche de la loi normale ou non. Ce type de vérication est nécessaire dans plusieurs contextes où il est présupposé que les données de la population se distribuent suivant une loi normale. Figure 1.2 La forme en cloche de la loi normale La cloche de la loi normale est centrée et parfaitement symétrique par rapport à la moyenne µ. Le coecient d'asymétrie vérie si la distribution des données de l'échantillon n'est pas trop asymétrique par rapport à la moyenne. Cette statistique est centrée à 0; ainsi, une grande valeur positive pour la statistique d'asymétrie indique une asymétrie prononcée vers la droite. Inversement, une grande valeur négative indique une asymétrie prononcée vers la gauche. Population Échantillon γ1 = 1 N N P i=1 xi − µ σ 3 G1 = n (n − 1)(n − 2) n P i=1 xi − x s 3 MQG804 25 ©Turcotte-Cadieux-Bélanger-Lévesque
  • 28. 1.3. ANALYSE DESCRIPTIVE (V ARIABLE NUMÉRIQUE) CHAPITRE 1 Aussi, la cloche normale n'est ni trop aplatie ni trop pointue. Le coecient d'aplatisse- ment (kurtosis) vérie si l'aplatissement des données ressemble à celui d'une distribution normale. Pour une loi normale, le coecient d'aplatissement est de 3. SPSS calcule plu- tôt un estimateur du kurtosis centré à 0 (appelé l'excès de kurtosis). Une grande valeur négative pour la statistique kurtosis indique que la distribution est platykurtique, c'est- à-dire qu'elle présente un aplatissement hors du commun (forme de plateau). Une forte valeur positive indique que la distribution est leptokurtique, c'est-à-dire qu'elle présente un sommet trop pointu (pentes abruptes, sommet pointu et extrémités épaisses). Population Échantillon γ2 = 1 N N P i=1 xi − µ σ 4 − 3 G2 = n(n + 1) (n − 1)(n − 2)(n − 3) n P i=1 xi − x s 4 − 3(n − 1)2 (n − 2)(n − 3) Plus les statistiques d'asymétrie et d'aplatissement sont près de 0, plus la distribution des données ressemble à la distribution d'une loi normale. À titre de règle du pouce, pour être en mesure de juger si ces statistiques sont loin ou près de 0, il est possible d'utiliser le quotient de ces statistiques sur leur écart type (Erreur Std., dans la colonne de droite). À titre d'ordre de grandeur, on tend à rejeter la normalité des données de la population lorsque Asymétrie − E(Asymétrie) p Var(Asymétrie) = Asymétrie − 0 Erreur Std.Asymétrie 2 ou Kurtosis − E(Kurtosis) p Var(Kurtosis) = Kurtosis − 0 Erreur Std.Kurtosis 2. MQG804 26 ©Turcotte-Cadieux-Bélanger-Lévesque
  • 29. 1.3. ANALYSE DESCRIPTIVE (V ARIABLE NUMÉRIQUE) CHAPITRE 1 Exemple 1.3.12. Reprenons l'exemple des 10 petites entreprises québécoises. Le logi- ciel SPSS peut nous fournir toutes les informations concernant les mesures de tendance centrale, les mesures de dispersion et les mesures de forme. Voici ce qu'on obtient : Au niveau de l'asymétrie, on obtient un quotient de 1,884 0,687 = 2,7424 2. Ainsi, on peut conclure que la distribution des nombres d'employés présente une asymétrie prononcée vers la droite (coecient d'asymétrie positif). L'histogramme illustre bien cette asymé- trie. Au niveau de l'aplatissement, on obtient un quotient de 4,098 1,334 = 3,0712 2. Ainsi, on peut conclure que la distribution des nombres d'employés présente un sommet plus pointu (coecient d'aplatissement positif) que celui d'une distribution normale. MQG804 27 ©Turcotte-Cadieux-Bélanger-Lévesque