SlideShare une entreprise Scribd logo
Table des matières
1 Introduction à R 1
2 Recoder une variable 10
3 Création de variable par calculs 12
4 Analyse descriptive (variable catégorique) 13
5 Analyse descriptive (variable numérique) 16
6 Intervalles de conance 23
7 Test sur une moyenne 27
8 Test sur une proportion 32
9 Test sur deux moyennes (échantillons indépendants) 35
10 Test sur deux moyennes (échantillons appariés) 41
11 Test sur plusieurs moyennes (ANOVA) 44
12 Test d'ajustement 53
13 Test d'indépendance (tableau croisé) 56
14 Test de corrélation linéaire 62
15 Régression linéaire 66
i
1 INTRODUCTION À R
1 Introduction à R
1.1 Jeu de données R
R un logiciel gratuit d'analyse statistique fonctionnant par lignes de commandes. On peut le télécharger
à l'adresse suivante : https ://www.r-project.org/. Une fois le logiciel ouvert, il est possible d'importer
un jeu de données (*.csv, *.txt, etc.) ou de créer votre propre jeu de données. La gure 1 illustre la
fenêtre à l'ouverture du logiciel.
Figure 1  Fenêtre d'ouverture
MQG222 1 ©Lévesque-Bélanger-Turcotte-Chabot
1.1 Jeu de données R 1 INTRODUCTION À R
Pour installer un  Package  manquant qui donnerait accès à une ou plusieurs commandes, il
est possible de cliquer sur Packages et sur Installer le(s) package(s), ou d'utiliser la commande
install.packages() en y inscrivant le nom du  Package  à installe entre guillemets.
Pour lire un jeu de données, il faut utiliser la commande read.table() dans laquelle on doit inscrire,
entre guillemets, le chemin menant à ce jeu de données sur l'ordinateur. Cependant, cette commande
ne fait que lire le chier. Il est important de donner un nom à ce jeu de données maintenant ouvert à
partir de l'opérateur -. Par exemple, si on souhaite lire le chier immobilier.txt contenant une liste
de propriétés à vendre et leurs caractéristiques, on aurait la ligne de code suivante :
immobilier - read.table(C:/.../immobilier.txt)
Dépendamment de la façon dont les données sont présentées dans le chier, il sera peut-être per-
tinent d'indiquer quelques informations pertinentes dans la commande. En eet, si on ouvre le chier
immobilier.txt dans Bloc-notes, on remarque que les séparateurs de données sont des points-virgules,
(sep= ;), que le chier contient une entête (header=TRUE), que le symbole indiquant des chaînes de
caractères est autre que le guillemet double (quote=') et que la virgule est utilisée (au lieu du point)
pour les nombres décimaux (dec=,). Il faudrait alors produire la commande suivante :
immobilier - read.table(C:/.../immobilier.txt, sep=;, header=TRUE, quote=',
dec=,)
MQG222 2 ©Lévesque-Bélanger-Turcotte-Chabot
1.1 Jeu de données R 1 INTRODUCTION À R
Remarque : L'opérateur - est important, puisqu'il permet de nommer les résultats d'une
commande et de s'y référer facilement et rapidement par la suite. N'hésitez pas à en abuser!
Il est même possible de lister l'ensemble des variables ainsi créées par cet opérateur à partir
de la commande ls() (rien à inscrire dans les parenthèses).
Remarque : Si une erreur a été produite dans une commande, mais que vous ne souhaitez
pas devoir tout réécrire, il sut d'appuyer sur la èche d'en haut à une ou plusieurs reprises
pour retrouver une ancienne commande.
Pour déterminer les dimensions d'un jeu de données, il sut d'utiliser la commande dim() en y
insérant le jeu de données :
MQG222 3 ©Lévesque-Bélanger-Turcotte-Chabot
1.1 Jeu de données R 1 INTRODUCTION À R
Pour connaître le nom des variables d'un jeu de données, il sut d'utiliser la commande names() en
y insérant le jeu de données :
Si vous souhaitez modier le nom d'une variable, il faut insérer le nouveau nom (à l'aide de l'opérateur
-) à l'emplacement de l'ancien nom dans le vecteur donné par la commande names(). Par exemple :
MQG222 4 ©Lévesque-Bélanger-Turcotte-Chabot
1.1 Jeu de données R 1 INTRODUCTION À R
Pour obtenir les données d'une colonne en particulier, il faut utiliser le symbole $ entre le nom du
jeu de données et le nom de la colonne :
Pour connaître les modalités d'une variable catégorique, la commande à utiliser est levels(). On
doit y insérer la variable étudiée. Par exemple :
MQG222 5 ©Lévesque-Bélanger-Turcotte-Chabot
1.1 Jeu de données R 1 INTRODUCTION À R
Pour obtenir les résultats d'une ligne ou d'un ensemble de lignes, il faut utiliser les crochets ([])
à l'intérieur desquels on doit spécier la (ou les) ligne(s) souhaitées ainsi que la (ou les) colonne(s)
souhaitées, séparées d'une virgule. Par exemple, si on souhaite obtenir le prix de la 90e
propriété, on
aurait :
Et si on souhaite obtenir le prix et la supercie des propriétés 10 à 20, on aurait :
Si on souhaite l'ensemble des informations d'une propriété, il sut de ne rien inscrire après la virgule.
MQG222 6 ©Lévesque-Bélanger-Turcotte-Chabot
1.1 Jeu de données R 1 INTRODUCTION À R
Pour sélectionner un sous-ensemble d'observations, il sut d'utiliser la commande subset() dans
laquelle on insère le jeu de données utilisé et une condition logique. Les conditions logiques retournent
un vrai ou un faux. On peut utiliser une liste de symboles telles que  (inférieur),  (supérieur), =
(plus petit ou égal), = (plus grand ou égal), == (est égal à),!= (n'est pas égal à), | (ou),  (et), etc.
Par exemple, si on prend le jeu de données Hotel.csv et qu'on souhaite étudier les hôtels économiques,
il faudrait inscrire la condition Type==Economique :
Si on souhaite étudier les hôtels économiques et de luxe, il faudrait inscrire la condition Type==Economique
| Type==Luxe :
MQG222 7 ©Lévesque-Bélanger-Turcotte-Chabot
1.1 Jeu de données R 1 INTRODUCTION À R
Il est aussi possible de créer son propre jeu de données à partir de la commande data.frame(), en
y insérant des vecteurs de données qu'on peut nommer. Un vecteur (commande c()) est une liste de
données présentée en une seule ligne ou en une seule colonne. Par exemple :
On peut aussi ajouter de nouvelles données (commande rbind()) ou des nouvelles variables (com-
mande cbind()) à un jeu de données. Par exemple :
MQG222 8 ©Lévesque-Bélanger-Turcotte-Chabot
1.1 Jeu de données R 1 INTRODUCTION À R
On peut retirer des données ou des variables à l'aide des crochets ([]) permettant d'acher une
ligne ou une colonne précise. En inscrivant un nombre négatif, le logiciel achera l'ensemble des données
exceptée la ligne ou la colonne mentionnée.
MQG222 9 ©Lévesque-Bélanger-Turcotte-Chabot
2 RECODER UNE VARIABLE
2 Recoder une variable
Dans le cadre d'une analyse de données, il est parfois utile que l'analyste recodie une variable
existante en une nouvelle variable. Les codes associés aux modalités existantes d'une variable catégorique
(nominale ou ordinale) peuvent être modiés. On pourrait aussi créer des classes à partir d'une variable
numérique comme le revenu annuel. Pour eectuer un recodage, nous aurons besoin de la commande
recode() de la librairie car. Dans cette commande, on doit y inscrire le nom de la variable et les
modications proposées entre guillemets simples, séparées par des points-virgules.
Exemple 2.1 Une étude de marché est menée auprès d'un certain nombre de clients d'une boutique
de jeux. L'objectif est de savoir si un nouveau pub ludique (où il est possible de prendre un verre en
jouant à des jeux de société) au centre-ville pourrait générer assez d'achalandage et de mieux cerner la
clientèle qu'on pourrait rejoindre avec ce type d'établissement. La jeu de données Ludique.csv contient
les résultats de cette étude. On pourrait par exemple vouloir grouper les quatre niveaux de scolarité en
deux groupes seulement : primaire et secondaire ensemble et collégial et université ensemble. La gure 2
illustre le recodage. La nouvelle variable scolarite2 est créée.
Figure 2  Recodage d'une variable catégorique
MQG222 10 ©Lévesque-Bélanger-Turcotte-Chabot
2 RECODER UNE VARIABLE
On pourrait aussi vouloir transformer la variable Revenu en une variable ordinale. Pour ce faire il
faudra faire des classes de salaires. Ici on a 20 données, et donc d'après la règle du 2 à la k, il est
suggéré de faire 5 classes. Par contre, ici nous ne ferons que 4 classes. En eet, pour bien des analyses
statistiques, il est préférable de ne pas avoir des variables avec trop de modalités. Ainsi, bien souvent,
ce sont le contexte et le bon jugement qui décident du nombre de classes...
Ici le minimum des salaires est 0 $ et le maximum est 100 000 $. Ainsi la largeur des classes devrait
être d'environ 25 000 $, ce qui donnerait les classes de moins de 25 000 $, de 25 000 $ à moins de 50 000 $,
de 50 000 $ à moins de 75 000 $ et de 75 000 $ et plus. On peut aussi laisser la première et la dernière
classe  ouvertes , c'est ce que nous ferons.
Ce type de recodage peut s'eectuer à partir de la commande cut() dans laquelle on insère la variable
numérique à recoder suivie des valeurs séparant les intervalles. Il est suggéré d'ajouter include.lowest=TRUE
pour s'assurer que la borne inférieure du premier intervalle contienne la valeur minimale du jeu de don-
nées.
Figure 3  Recodage d'une variable numérique
MQG222 11 ©Lévesque-Bélanger-Turcotte-Chabot
3 CRÉATION DE V
ARIABLE PAR CALCULS
3 Création de variable par calculs
Les variables à analyser ne sont pas toujours présentes dans la jeu de données. Il faut parfois les
obtenir à partir d'un calcul. Par exemple, pour obtenir la variable Prot, on pourrait soustraire les
coûts des revenus.
Exemple 3.1 La jeu de données Café.csv contient des données provenant d'un café géré par des étu-
diants de premier cycle dans une université canadienne. Elles ont été recueillies sur une période de dix
semaines de janvier à mars 2017. Les variables comprennent le nombre d'articles vendus et jetés. On
aimerait analyser le nombre d'articles jetés par jour. Pour ce faire, on doit créer une nouvelle variable
Pertes dont le calcul se ferait comme suit : Pertes = SandwichsJ + WrapsJ + MunsJ + Ca-
fesJ. Il sut alors d'utiliser l'opérateur - pour associer le résultat de ce calcul à une nouvelle variable.
MQG222 12 ©Lévesque-Bélanger-Turcotte-Chabot
4 ANALYSE DESCRIPTIVE (V
ARIABLE CATÉGORIQUE)
4 Analyse descriptive (variable catégorique)
Pour une variable d'échelle de mesure nominale ou ordinale, on aimerait obtenir les fréquences abso-
lues et relatives ainsi que des diagrammes tels que le diagramme en bâtons ou le diagramme circulaire.
Pour obtenir le tableau des fréquences absolues, il faut utiliser la commande table(). Pour les fréquences
relatives, il s'agit de la commande prop.table() dans laquelle on fournit un tableau de fréquence ab-
solues. Le diagramme en bâtons peut être obtenu à partir de la commande barplot() dans laquelle on
fournit un tableau de fréquence. Le diagramme circulaire peut quant à lui être obtenu à partir de la
commande pie() dans laquelle on fournit un tableau de fréquence.
Exemple 4.1 Considérons un exemple d'une course au leadership pour un nouveau parti politique. Une
étude est commandée an de savoir quel candidat, parmi les quatre candidats en lice, a le plus grand po-
tentiel d'impact sur la population. Une rme de consultants mène donc une étude auprès de 400 électeurs
répartis un peu partout en province. Une question possible dans ce sondage pourrait bien être la suivante :
- Parmi les candidats suivants, lequel voudriez-vous élire comme chef du parti?
Candidat 1 □ (158 votes)
Candidat 2 □ (175 votes)
Candidat 3 □ (51 votes)
Candidat 4 □ (16 votes)
Les nombres entre parenthèses illustrent la répartition nale des réponses des électeurs questionnés.
Le chier candidat.csv traitant cette étude contient deux colonnes. Plus précisément, une colonne
d'identication ident (inutile aux traitements statistiques mais nécessaire pour retracer les erreurs de
saisie) et une colonne représentant la variable à l'étude pouvant être appelée candidat.
MQG222 13 ©Lévesque-Bélanger-Turcotte-Chabot
4 ANALYSE DESCRIPTIVE (V
ARIABLE CATÉGORIQUE)
Pour être en mesure de connaître la compilation des votes pour chacun des candidats, il faut déga-
ger un tableau de répartition des fréquences. Pour obtenir la gure 4, il faut eectuer les commandes
mentionnées au début de cette section. Voici ce qu'on obtient :
Figure 4  Distribution des fréquences
Le tableau de la distribution des fréquences (gure 4) met en évidence la popularité de chacun des
candidats. On remarque facilement que deux candidats se démarquent des autres : le candidat 1 avec 158
votes sur 400, représentant 39,5 % des votes, et le candidat 2 avec 175 votes sur 400, représentant 43,8 %
des votes. Ainsi, en se basant sur l'échantillon, l'analyste est en droit de dire que ponctuellement, on
peut estimer la proportion de la population en faveur du candidat 2 (le paramètre πcandidat 2) à 43,8 %.
MQG222 14 ©Lévesque-Bélanger-Turcotte-Chabot
4 ANALYSE DESCRIPTIVE (V
ARIABLE CATÉGORIQUE)
Exemple 4.2 L'exemple qui suit se base sur une véritable enquête qui a été menée sur le stress au
travail d'un échantillon représentatif des employés dans une entreprise internationale. Le questionnaire
a été passé en France et au Canada. La jeu de données SPSS se nomme Stress.csv. Faites l'analyse
descriptive de la variable statut.
La gure 5 présente les sorties qui décrivent la variable statut.
Figure 5  Les fréquences et le diagramme en bâtons
Le tableau de distribution des fréquences illustre que 52,8 % sont des employés de production et
que 85,1 % des employés ne sont pas cadres. (Est-ce que le ratio employé/cadre est bon pour ce type
d'entreprise qui est une entreprise de production? À voir dans vos autres cours, la réponse à cette
question pourrait vous orienter vers une restructuration...). Le diagramme circulaire illustre la dispersion
des diérents statuts professionnels dans l'entreprise.
MQG222 15 ©Lévesque-Bélanger-Turcotte-Chabot
5 ANALYSE DESCRIPTIVE (V
ARIABLE NUMÉRIQUE)
5 Analyse descriptive (variable numérique)
Pour une variable d'échelle de mesure intervalle ou ratio, on aimerait obtenir les statistiques de
tendance centrale, de dispersion et de forme ainsi que des diagrammes tels que l'histogramme ou le dia-
gramme à moustache. Pour ce faire, on aura besoin des commandes boxplot(), summary(), mean(),
median(), min(), max(), range(), quantile(), IQR(), Sd(), Var() ainsi que des commandes
skewness(), kurtosis(), agostino.test() et anscombe.test() de la bibliothèque moments.
Remarques :
1. La commande mean() permet de calculer des moyennes tronquées en spéciant par exemple :
trim=0.05.
2. L'histogramme peut être personnalisé en spéciant le nom de l'histogramme (main=Histogramme)
ou le nom des axes (xlab=variable).
3. Si le jeu de données contient des valeurs manquantes, il faut spécier qu'on ne souhaite pas en
tenir compte lors des calculs (commande na.rm=TRUE)
Exemple 5.1 Un franchisé aimerait avoir droit à plus d'employés sur le plancher de son magasin. Selon
les normes de la compagnie, pour qu'un magasin passe de la classe A à la classe B et ainsi avoir droit à
plus d'employés, il faut que les ventes quotidiennes dépassent 5 000 $ la plupart du temps. Ainsi, on a
étudié les ventes de 50 jours. Les résultats se retrouvent dans la jeu de données franchisé.csv.
MQG222 16 ©Lévesque-Bélanger-Turcotte-Chabot
5 ANALYSE DESCRIPTIVE (V
ARIABLE NUMÉRIQUE)
À l'aide de R, on obtient la gure 6, la gure 7 et la gure 8 :
Figure 6  Les statistiques descriptives
Figure 7  Diagramme à moustaches
MQG222 17 ©Lévesque-Bélanger-Turcotte-Chabot
5 ANALYSE DESCRIPTIVE (V
ARIABLE NUMÉRIQUE)
Figure 8  L'histogramme
Figure 9  Tests de normalité
MQG222 18 ©Lévesque-Bélanger-Turcotte-Chabot
5 ANALYSE DESCRIPTIVE (V
ARIABLE NUMÉRIQUE)
Ponctuellement, on estime les ventes moyennes à x = 6 811, 31 $. La médiane est de 6 637,01 $.
Comme la diérence entre la médiane et la moyenne échantillonnale ne représente que 2,55 %

6 811, 31 − 6 637, 01
6 811, 31

de la valeur de la moyenne, la moyenne semble une valeur able pour représenter
les ventes typiques, la valeur centrale.
Cependant, il semble y avoir de la volatilité au niveau des ventes. L'écart-type est de 1 789,02 $, ce
qui représente un coecient de variation de CV =
1 789, 02
6 811, 31
= 0, 2627. Donc, même si la moyenne semble
correspondre à la valeur centrale, elle est plus ou moins représentative de l'ensemble des données. Il serait
donc imprudent d'armer que les ventes se situent habituellement près de 6 811,31 $. En eet, la valeur
de la moyenne n'indique en rien la dispersion des données. Elle n'est pas en mesure de tenir compte
d'autres facteurs comme le moment de l'année. Mais, ceci n'invalide en rien la moyenne en elle-même.
Les ventes les moins élevées sont de 4 002,70 $. À l'opposé, les ventes les plus élevées sont de
9 987,96 $ à la compagnie. L'étendue est donc de 5 985,26 $. L'intervalle interquartile se chire quant à
lui à 3 154,09 $. Il s'agit de l'étendue de l'intervalle borné par 50 % des données centrales.
Le coecient d'asymétrie est de 0,0969, ce qui est près de 0. Le test de D'Agostino indique une
valeur-z de 0, 3114 ( 2). Ainsi, nous ne rejetons pas la normalité de la courbe. La distribution semble
symétrique. Du côté de l'aplatissement, on a un coecient de 1,6769, ce qui semble relativement éloigné
de 3. Comme la valeur-z du test d'Anscombe-Glynn est de −4, 3921 ( −2), nous rejetons la normalité
de la courbe. Il semble y avoir un aplatissement signicatif pour conclure à la non-normalité.
En somme, la valeur centrale des ventes est de près de 7 000 $, ce qui est plus élevé que la valeur
de 5 000 $ exigée pour passer à la classe B. Même si la variation des ventes est grande (écart-type de
1 789,02 $), ça ne sut pas pour croire qu'une bonne partie des ventes se trouve sous la barre des 5 000 $.
Les ventes les moins élevées sont de 4 002,70 $. Un passage à la classe B semble donc envisageable.
Remarque : Lorsque les coecients d'asymétrie et d'aplatissement nous indiquent que la distribution
semble symétrique et aplatie comme une courbe normale, cela n'assure pas la normalité pour autant; elle
n'est simplement pas rejetée. En eet, il faut comprendre que ces statistiques mesurent respectivement
l'asymétrie et l'aplatissement de façon indépendante et non conjointe. Elles ne sont que des règles du
pouce.
MQG222 19 ©Lévesque-Bélanger-Turcotte-Chabot
5 ANALYSE DESCRIPTIVE (V
ARIABLE NUMÉRIQUE)
Exemple 5.2 Reprenons l'exemple de la jeu de données Stress.csv (exemple 4 p.15) qui se base sur
une véritable enquête qui a été menée sur le stress au travail. La gure 10 donne un aperçu des variables
qui étaient à l'étude, grâce à la commande names().
Figure 10  Les variables à l'étude
Il est à noter que les questions peur_sup, accs_sup et stress ont été mesurées à l'aide d'une échelle
qui est constituée d'une ligne de 15 cm de long et sur laquelle l'individu est invité à apposer un  X  sur
la partie de la droite qui correspond à son opinion. Avec cette droite, toutes les valeurs sont possibles.
Voici un exemple lié à la variable peur_sup du chier :
Q2 : J'ai peur d'exprimer mon désaccord à mon supérieur immédiat. (Mettre un X sur la partie de la
droite qui correspond le mieux à votre opinion, en sachant que le 0 correspond à  tout à fait en
désaccord , et le 15 à  tout à fait en accord .)
| × |
0 15
Comme illustré sur cet exemple, l'individu positionne un  X  sur la droite représentant ainsi son
opinion. Une fois le X inscrit par le répondant, le praticien mesure, à l'aide d'une règle, la distance en
cm entre le niveau de  Tout à fait en désaccord  (0cm) jusqu'au premier endroit où le  X  coupe
la droite. C'est justement cette valeur (en cm) qui sera inscrite dans le chier de données SPSS à titre
de réponse de l'individu. En somme, plus la valeur en cm est élevée, plus l'individu est en accord avec
l'armation.
Faites l'analyse descriptive de la variable stress.
MQG222 20 ©Lévesque-Bélanger-Turcotte-Chabot
5 ANALYSE DESCRIPTIVE (V
ARIABLE NUMÉRIQUE)
Figure 11  Les statistiques
L'analyse de la sortie 11 illustre que, ponctuellement, la mesure du niveau de stress moyen s'estime
à 4,8037 points sur une possibilité de 15 points. La moyenne tronquée de 5 % est de 4,5180 points et
la médiane est de 5 points. Ces deux statistiques sont près de la moyenne échantillonnale. En eet,
la diérence entre la moyenne tronquée et la moyenne représente seulement 5,95 % de la valeur de la
moyenne, ce qui est inférieur à 10 %. L'analyste est conant que le niveau de stress typique est bien
estimé et tourne vraisemblablement autour de 4,8 points.
MQG222 21 ©Lévesque-Bélanger-Turcotte-Chabot
5 ANALYSE DESCRIPTIVE (V
ARIABLE NUMÉRIQUE)
Figure 12  Le diagramme à moustaches et l'histogramme
Cependant, l'écart-type échantillonnal de 3,55354 points illustre qu'il y a beaucoup de variation
parmi l'ensemble des employés. Même si le niveau de stress typique est bien estimé, avec un coecient
de variation nettement supérieur à 0,30 (il a une valeur de CV = 3,55354
4,8037 = 0, 7398 !), la moyenne n'est
pas représentative des données (ne résume pas bien les données). À cet eet, les valeurs minimum et
maximum sont de 0 et 15 points respectivement illustrant qu'au moins deux individus vivent des stress
diamétralement opposés. L'étendue est donc de 15 points, tandis que l'étendue de l'intervalle interquartile
est de 5 points. L'histogramme démontre qu'un groupe d'individus particulièrement stressés se détache
des autres (Est-ce les cadres ? À voir en analyse bivariée plus tard).
Le coecient d'asymétrie est de 1,0217, ce qui est assez loin de 0. Le test de D'Agostino indique une
valeur-z de 4, 6977 ( 2). Ainsi, nous rejetons la normalité de la courbe. Il semble y avoir une asymétrie
prononcée vers la droite. Du côté de l'aplatissement, on a un coecient de 4,174, ce qui semble loin
de 3. Comme la valeur-z du test d'Anscombe-Glynn est de 2, 426 ( 2), nous rejetons la normalité de
la courbe. Par rapport à la distribution normale, la distribution des données illustre un sommet plus
pointu.
MQG222 22 ©Lévesque-Bélanger-Turcotte-Chabot
6 INTER
V
ALLES DE CONFIANCE
6 Intervalles de conance
L'intervalle de conance estimant la moyenne d'une population est donné par la commande R sui-
vante : t.test(). Pour estimer une proportion dans la population, il faudra d'abord calculer le nombre
de succès et le nombre de tentatives avec les commandes sum() ou length() pour ensuite obtenir l'inter-
valle de conance à l'aide de la commande prop.test(). Il est possible de spécier le niveau de conance
en ajoutant par exemple conf.level=0.95.
Exemple 6.1 Poursuivons l'exemple 5 (p.16) avec la jeu de données Franchisé.csv.
Dans R, c'est la loi de Student qui est utilisée pour calculer les intervalles de conance sur une
moyenne. Comme s2
est utilisée pour estimer σ2
qui est inconnue, il faudrait s'assurer que la population
d'origine suive une loi normale. L'histogramme de la gure 8 ne semble pas conrmer cette hypothèse,
puisque la distribution est aplatie. Mais, comme le nombre d'observation est grand (n = 50 ≥ 30), le
résultat de l'intervalle de conance est assez able. On verra plus tard comment vérier formellement la
normalité d'une population.
Figure 13  L'intervalle de conance de niveau 95 %
On voit donc qu'au niveau de la population, les ventes moyennes se situent entre 6 302,88 $ et
7 319,75 $, et ce 19 fois sur 20. De façon équivalente, les ventes moyennes s'estiment à 6 811,31 $ avec
une marge d'erreur de ±508,44 $, et ce, 19 fois sur 20.
MQG222 23 ©Lévesque-Bélanger-Turcotte-Chabot
6 INTER
V
ALLES DE CONFIANCE
Si on modie le niveau de conance à 90 %, on obtient la sortie 14 :
Figure 14  L'intervalle de conance de niveau 90 %
On voit donc qu'au niveau de la population, les ventes moyennes ont une probabilité de 90 % de se
situer entre 6 387,14 $ et 7 235,49 $.
MQG222 24 ©Lévesque-Bélanger-Turcotte-Chabot
6 INTER
V
ALLES DE CONFIANCE
Exemple 6.2 Un agent immobilier de Sherbrooke aimerait mieux cerner le marché des propriétés à
vendre dans cette ville. Il a recueilli un échantillon de 100 propriétés et voudrait analyser les résultats
qu'on retrouve dans la jeu de données Immobilier.csv.
Supposons que l'on désire un intervalle de conance pour la proportion de condos à vendre dans cette
population. Voici les fréquences des types de propriétés (voir section 4 p.13 pour les manipulations) :
Figure 15  Les fréquences et le diagramme en bâtons
MQG222 25 ©Lévesque-Bélanger-Turcotte-Chabot
6 INTER
V
ALLES DE CONFIANCE
De façon ponctuelle, on voit que la proportion de condos est estimée à 29 %. Ainsi, puisque n =
100  30, np = 100 · 0, 29 = 29  5 et n(1 − p) = 100 · (1 − 0, 29) = 71  5, l'intervalle de conance pour
cette proportion sera valide.
Pour obtenir l'intervalle de conance de niveau 95 % pour πCondo, il faut utiliser la commande
prop.test() dans laquelle on doit inscrire le nombre de condos (appelés ici les succès) et le nombre
total d'observations (appelés ici les tentatives). La commande sum() dans laquelle on inscrit une condition
logique (Type==Condo) permettra de dénombrer les condos de l'échantillon. La commande length()
retournera le nombre d'observations dans l'échantillon. Voici ce qu'on obtient :
Figure 16  Intervalle de conance pour une proportion
Par défaut, la fonction prop.test() applique une correction à la continuité. Cette correction n'est
pas nécessaire lorsque l'échantillon est grand (ici, n = 100 ≥ 30). C'est pourquoi on a ajouté l'argument
correct=FALSE. La gure 16 nous indique que ponctuellement, la proportion de condos est de 29 %.
Dans la population, la proportion de condos est comprise entre 21,01 % et 38,54 %, et ce, 19 fois sur 20
(ou avec 95 % des chances d'avoir raison).
MQG222 26 ©Lévesque-Bélanger-Turcotte-Chabot
7 TEST SUR UNE MOYENNE
7 Test sur une moyenne
(a) Mentionner le seuil de signication (α).
(b) Test de normalité :
(b1) Formuler les hypothèses de normalité de la population.
(b2) Prendre une décision compte tenu des résultats obtenus.
(b3) Donner une conclusion.
Remarque : Si l'un des deux tests rejette la normalité, on mettra un bémol sur la validité des
résultats associés à cette population. Si les deux tests (Kolmogorov-Smirnov et Shapiro-Wilk)
rejettent la normalité, le test principal et l'intervalle de conance ne seront théoriquement
pas valide. Toutefois, le test étant robuste à la violation de cette condition, une grande taille
d'échantillon donnera tout de même d'assez bons résultats.
(c) Test principal :
(c1) Formuler les hypothèses du test sur une moyenne en relation avec le contexte.
(c2) Prendre une décision compte tenu des résultats obtenus.
(c3) Donner une conclusion.
(d) Si H0 est rejetée, donner un intervalle de conance estimant la moyenne au niveau de la population.
MQG222 27 ©Lévesque-Bélanger-Turcotte-Chabot
7 TEST SUR UNE MOYENNE
Exemple 7.1 Reprenons le contexte de la jeu de données Immobilier.csv (Exemple 6 p.25). Pour
inciter les gens de Montréal à considérer à acheter une propriété dans la région de Sherbrooke, on af-
rme que les propriétés coûtent en moyenne moins de 225 000 $. Avec l'échantillon dont nous disposons,
avons-nous assez de preuves pour appuyer cette armation au seuil α = 0, 05 ?
On désire donc tester les hypothèses suivantes :
H0 : µprix = 225 000
H1 : µprix  225 000
On utilisera le seuil de signication α = 0, 05 lors de cette analyse. On rejette H0 si la
valeur-p est inférieure à ce seuil.
Comme l'intervalle de conance avec σ2
inconnue, le test sur une moyenne avec Student exige que
la population soit distribuée selon une loi normale. Nous ferons donc d'abord un test de normalité.
Cependant, le test de Student est robuste, c'est-à-dire qu'il réagit bien à la violation de la condition
de normalité. Ainsi, même si la population n'est pas tout à fait d'origine normale, le test d'hypothèses
donnera d'assez bons résultats si la taille de l'échantillon est grande, ce qui est le cas ici : n = 100 ≥ 30.
Pour vérier la normalité de la population, on peut observer la forme de l'histogramme, se servir des
statistiques d'asymétrie et d'aplatissement (kurtosis) tel que vu dans un chapitre 1, et/ou tester formel-
lement la normalité en traitant le test d'hypothèses suivant pour le stress des employés de cette entreprise.
H0 : Les données de la population se répartissent selon une loi normale.
H1 : Les données de la population ne se répartissent pas selon une loi normale.
MQG222 28 ©Lévesque-Bélanger-Turcotte-Chabot
7 TEST SUR UNE MOYENNE
Pour résoudre ce test, il faut d'abord eectuer les commandes shapiro.test() et lillie.test()
(librairie nortest). On obtient les sorties suivantes :
Figure 17  Vérication de la normalité des données
Figure 18  Histogramme
MQG222 29 ©Lévesque-Bélanger-Turcotte-Chabot
7 TEST SUR UNE MOYENNE
On y retrouve les valeurs-p associées aux statistiques de Shapiro-Wilk et Kolmogorov-Smirnov qui
nous permettent de résoudre le test d'hypothèses. La littérature ne s'entend pas sur lequel des deux tests
est le plus performant. On considérera donc les deux valeurs-p en même temps. Ainsi, lorsque les deux
tests fournissent la même conclusion, on est conant du résultat. Il peut par contre arriver qu'un seul des
deux tests rejette la normalité (zone grise). Étant donné que la procédure statistique que nous verrons
est assez robuste à la violation de la normalité, nous poursuivrons parfois l'analyse même si l'une des
deux statistiques (ou les deux) rejette la normalité, si la taille d'échantillon est très grande.
On note ici que la valeur-pS−W = 0, 000  0, 05 et la valeur-pK−S = 0, 000  0, 05.
On rejette donc H0. Au risque de se tromper une fois sur 20, les données de cette po-
pulation (le prix des propriétés) ne se distribuent pas selon une loi normale. La forme de
l'histogramme semble conrmer cette conclusion. On peut remarquer une asymétrie vers la
droite. La normalité de la population d'origine n'est pas respectée, mais avec un échantillon
de taille n = 100 ≥ 30, nous sommes conants que le test d'hypothèses donnera d'assez
bons résultats.
Pour obtenir la valeur-p qui nous permettra de résoudre le test principal, il sut d'utiliser la com-
mande t.test() en y inscrivant le nom de la variable à tester ainsi que la valeur hypothétique de µ.
Il est même possible de spécier le type de test (unilatéral à gauche, unilatéral à droite ou bilatéral)
en ajoutant alternative=less, greater ou two.sided. Par défaut, le test sera bilatéral. On
obtient les sorties suivantes :
Figure 19  Test sur une moyenne
MQG222 30 ©Lévesque-Bélanger-Turcotte-Chabot
7 TEST SUR UNE MOYENNE
La sortie 19 contient quelques statistiques, dont la moyenne. On voit donc que le prix moyen d'une
propriété de l'échantillon est de 203 805 $. Cela semble être inférieur à 225 000 $ de façon signicative,
on s'attend donc à rejeter H0. On désire donc tester les hypothèses suivantes :
H0 : µprix = 225 000
H1 : µprix  225 000
Ici, puisque valeur-p = 0, 022  0, 05, on rejette H0. Au risque de se tromper une fois
sur 20, on peut armer que le prix moyen des propriétés est inférieur à 225 000 $ dans la
population.
La cote-t est de -2,04 (loin de 0), ce qui nous indique à quel point il est peu probable qu'un échantillon
produise une moyenne de 203,805 si celle de la population est censée être 225.
Nous venons d'armer que le prix moyen des propriétés est inférieur à 225 000 $. Un intervalle
de conance pourrait nous informer plus précisément où se situe ce prix moyen. Pour l'obtenir, il faut
eectuer un test bilatéral avec la commande t.test().
Figure 20  Intervalle de conance
Au niveau de la population, le prix moyen des propriétés se situe entre 183 190 $ et
224 420 $ et ce, 19 fois sur 20.
MQG222 31 ©Lévesque-Bélanger-Turcotte-Chabot
8 TEST SUR UNE PROPORTION
8 Test sur une proportion
(a) Mentionner le seuil de signication (α).
(b) Vérier les conditions de validité du test d'hypothèses :
n ≥ 30, nπ0 ≥ 5 et n(1 − π0) ≥ 5.
(c) Test principal :
(c1) Formuler les hypothèses du test sur une proportion en relation avec le contexte.
(c2) Prendre une décision compte tenu des résultats obtenus.
(c3) Donner une conclusion.
(d) Si H0 est rejetée, donner un intervalle de conance estimant la proportion au niveau de la popu-
lation.
MQG222 32 ©Lévesque-Bélanger-Turcotte-Chabot
8 TEST SUR UNE PROPORTION
Exemple 8.1 Kickstarter est une communauté de plus de 10 millions de personnes composée d'ama-
teurs créatifs et technologiques qui contribuent à la réalisation d'un projet créatif. Jusqu'à présent, plus
de 3 milliards de dollars ont été apportés par les membres pour alimenter des projets créatifs. Les projets
peuvent être littéralement n'importe quoi : un appareil, un jeu, une application, un lm, etc. Kickstarter
fonctionne sur le principe du tout ou rien, c'est-à-dire que si un projet ne répond pas à son objectif, le
propriétaire du projet ne reçoit rien.
Récemment, Kickstarter a publié son dépôt de données publiques pour permettre aux chercheurs et
aux passionnés comme nous de les aider à résoudre un problème. Un projet sera-t-il entièrement nancé?
Un échantillon de 500 projets a été prélevé (kickstarter.csv). Au seuil α = 0, 01, peut-on croire que
plus de 25 % des projets résultent en un succès ?
H0 : π = 0, 25
H1 : π  0, 25
On utilisera le seuil de signication α = 0, 01 lors de cette analyse. On rejette H0 si la
valeur-p est inférieure à ce seuil.
Or, pour eectuer ce test, on doit s'assurer que certaines conditions sont respectées.
Comme le démontre la gure ci-bas, on a n = 500 ≥ 30, nπ0 = 500 · 0, 25 = 125 ≥ 5 et
n(1 − π0) = 500 · (1 − 0, 25) = 375 ≥ 5. On pourra donc poursuivre le test.
Pour obtenir la valeur-p pour ce test il faut utiliser la commande prop.test() en y inscrivant le
nombre de succès, le nombre d'observations ainsi que la valeur hypothétique de π. Il est suggéré de
retirer la correction à la continuité (correct=FALSE). On peut aussi spécier le type de test (unilatéral à
gauche, unilatéral à droite ou bilatéral) en ajoutant alternative=less, greater ou two.sided.
Par défaut, le test sera bilatéral. On obtient alors les sorties suivantes :
MQG222 33 ©Lévesque-Bélanger-Turcotte-Chabot
8 TEST SUR UNE PROPORTION
On note ici que valeur-p = 0, 0019  0, 01. Donc, on rejette H0. Au risque de se tromper
1 fois sur 100, plus de 25 % des projets résultent en un succès dans la population.
On estime cette proportion à 30,60 % avec une marge d'erreur de 5,53 % et ce, 99 fois
sur 100 (I.C.(π) = [0, 2557; 0, 3613]).
Il est à noter que bien que p = 0, 3060  0, 25, ce n'est pas susant pour armer que π  0, 25.
C'est la valeur-p qui prouvera que la diérence entre la proportion de notre échantillon p et la proportion
hypothétique π0 est assez grande pour qu'on soit sûr que ce n'est pas dû aux uctuations échantillonnales.
MQG222 34 ©Lévesque-Bélanger-Turcotte-Chabot
9 TEST SUR DEUX MOYENNES (ÉCHANTILLONS INDÉPENDANTS)
9 Test sur deux moyennes (échantillons indépendants)
(a) Mentionner le seuil de signication (α).
(b) Test de normalité :
(b1) Formuler les hypothèses de normalité de la population.
(b2) Prendre une décision compte tenu des résultats obtenus.
(b3) Donner une conclusion.
Remarque : Si l'un des deux tests rejette la normalité, on mettra un bémol sur la validité des
résultats associés à cette population. Si les deux tests (Kolmogorov-Smirnov et Shapiro-Wilk)
rejettent la normalité, le test principal et l'intervalle de conance ne seront théoriquement
pas valide. Toutefois, le test étant robuste à la violation de cette condition, de grandes tailles
d'échantillons donneront tout de même d'assez bons résultats.
(c) Test d'égalité des variances :
(c1) Formuler les hypothèses d'égalité des variances des populations.
(c2) Prendre une décision compte tenu des résultats obtenus.
(c3) Donner une conclusion.
(d) Test principal :
(d1) Formuler les hypothèses sur les moyennes des deux populations.
(d2) Lire la ligne du tableau correspondant à la conclusion du test d'égalité des variances et
prendre une décision compte tenu des résultats obtenus.
(d3) Donner une conclusion.
(e) Si H0 est rejetée, donner une estimation ponctuelle et un intervalle de conance estimant la
diérence entre les deux moyennes au niveau de la population.
MQG222 35 ©Lévesque-Bélanger-Turcotte-Chabot
9 TEST SUR DEUX MOYENNES (ÉCHANTILLONS INDÉPENDANTS)
Exemple 9.1 Récemment, les dirigeants d'une compagnie remarquent un nombre de démissions impor-
tant. On se demande ce qui provoque cette masse de départ. La jeu de données Employés.csv contient
des informations d'un échantillon de 200 employés. Plusieurs variables pourraient être en cause (salaire,
accidents de travail, nombre d'heures travaillées, etc.).
Au seuil α = 0, 05, pourrait-on croire que les employés qui ont quitté se trouvaient surchargés par le
nombre d'heures de travail? Les hypothèses à tester sont les suivantes :
H0 : µNon = µOui
H1 : µNon  µOui
On utilisera le seuil de signication α = 0, 05 lors de cette analyse. On rejette H0 si la
valeur-p est inférieure à ce seuil.
Il faut d'abord vérier si les populations d'origine se distribuent selon une loi normale. Plus préci-
sément, on désire tester les hypothèses suivantes pour chacun des deux groupes (ceux qui ont quitté la
compagnie et ceux qui sont restés) :
H0 : Les données de la population se répartissent selon une loi normale.
H1 : Les données de la population ne se répartissent pas selon une loi normale.
Pour résoudre ce test, il faut d'abord eectuer les commandes présentées dans la sortie 22 :
Figure 21  Histogrammes
MQG222 36 ©Lévesque-Bélanger-Turcotte-Chabot
9 TEST SUR DEUX MOYENNES (ÉCHANTILLONS INDÉPENDANTS)
Figure 22  Tests de normalité
Pour les employés qui n'ont pas quitté, la valeur-pS−W = 0, 0017  0, 05 et la valeur-
pK−S = 0, 0024  0, 05 et donc on rejette H0. Ainsi, au risque de se tromper une fois sur
20, les données de cette population ne se distribuent pas selon une loi normale. Pour les
employés qui ont quitté, la valeur−pS−W = 0, 0038  0, 05 et la valeur-pK−S = 0, 0010 
0, 05 et donc on rejette H0. Ainsi, au risque de se tromper une fois sur 20, les données
de cette population ne se distribuent pas selon une loi normale. Les populations ne sont
pas d'origines normales, ce qui n'est pas idéal. Un test non paramétrique serait peut-
être envisageable. Toutefois, avec n1 = 165 ≥ 30 et n2 = 35 ≥ 30, le test d'hypothèses
devrait donner d'assez bons résultats, puisqu'il est robuste à la violation de la condition
de normalité.
MQG222 37 ©Lévesque-Bélanger-Turcotte-Chabot
9 TEST SUR DEUX MOYENNES (ÉCHANTILLONS INDÉPENDANTS)
On doit ensuite faire le test de Levene pour vérier si l'hypothèse des variances égales est plausible.
Pour ce faire, on doit utiliser la commande leveneTest() de la librairie car. En arguments, on inscrit
la variable numérique, la variable catégorique et le centre de la distribution à utiliser (ici, la moyenne).
On obtient les sorties suivantes :
Figure 23  Test d'égalité des variances
Le test de Levene permet en fait de résoudre le test d'hypothèses suivant :
H0 : σ2
Oui = σ2
Non
H1 : σ2
Oui ̸= σ2
Non
Ici, puisque la valeur-pLEV ENE = 0, 8871 ≮ 0, 05, on ne rejette pas H0. Au seuil
α = 0, 05, l'hypothèse d'égalité des variances est vraisemblable.
On peut donc revenir au test principal :
H0 : µNon = µOui
H1 : µNon  µOui
MQG222 38 ©Lévesque-Bélanger-Turcotte-Chabot
9 TEST SUR DEUX MOYENNES (ÉCHANTILLONS INDÉPENDANTS)
On utilisera ici la commande t.test() dans laquelle on inscrit la variable numérique étudiée suivie
de la variable catégorique (séparés par le symbole  ∼ ). On spéciera aussi que les variances sont
considérées égales dans la population (argument var.equal=TRUE). On obtient ce qui suit :
Figure 24  Test-t sur 2 moyennes
La sortie 24 contient quelques statistiques descriptives. Ainsi, on voit que le nombre moyen d'heures
travaillées par mois est de 208,18 heures pour les employés qui n'ont pas quitté, alors qu'il est de 230,80
heures pour ceux qui ont quitté. Cette diérence entre les moyennes est-elle signicative ou n'est-elle
due qu'à la uctuation échantillonnale? Puisque la valeur-p = 0, 0023  0, 05, on rejette H0.
Au risque de se tromper 1 fois sur 20, nous rejetons la nullité de la diérence et admet-
tons qu'il y a une diérence signicative entre le nombre moyen d'heures travaillées des
employés qui ont quitté la compagnie et de ceux qui sont restés, au niveau de la population.
MQG222 39 ©Lévesque-Bélanger-Turcotte-Chabot
9 TEST SUR DEUX MOYENNES (ÉCHANTILLONS INDÉPENDANTS)
Lorsqu'on admet qu'il y a une diérence signicative entre les deux moyennes, l'étape suivante est
de voir comment s'exprime cette diérence. On retrouve un intervalle de conance estimant la diérence
des moyennes au niveau de la population si on répète la commande t.test() pour un test bilatéral.
Figure 25  Intervalle de conance
Ponctuellement, il y a une diérence de 22,6242 heures entre le nombre moyen d'heures
travaillées des employés qui ont quitté la compagnie et de ceux qui sont restés, en faveur
de ceux qui ont quitté. Au niveau de la population, cette diérence se situe entre 7,0295
heures et 38,2190 heures et ce, 19 fois sur 20.
Remarque : On pourrait aussi interpréter l'intervalle de conance à partir de la marge d'erreur.
Dans le calcul d'un intervalle de conance, on ajoute et on soustrait une quantité E, appelée la marge
d'erreur. Ainsi, un intervalle de conance contient deux fois cette marge d'erreur. Dans notre exemple,
puisque IC=[7,0295 ;38,2190], on trouve E de la façon suivante :
38, 2190 − 7, 0295
2
= 15, 5948. On peut
donc dire qu'au niveau de la population, la diérence des moyennes s'estime à 22,6242 heures avec une
marge d'erreur de 15,5948 heures et ce, 19 fois sur 20.
MQG222 40 ©Lévesque-Bélanger-Turcotte-Chabot
10 TEST SUR DEUX MOYENNES (ÉCHANTILLONS APPARIÉS)
10 Test sur deux moyennes (échantillons appariés)
Dans le cas des échantillons appariés, il est possible de suivre la procédure du test sur une moyenne
vue au chapitre précédent (voir section 7 p.27). Il sut d'utiliser la commande t.test() en inscrivant
les deux variables numériques étudiées et en spéciant qu'il s'agit d'un test avec échantillons appariés
(paired=TRUE).
Exemple 10.1 La jeu de données Café.sav contient des données provenant d'un café géré par des
étudiants de premier cycle dans une université canadienne. Elles ont été recueillies sur une période de
dix semaines de janvier à mars 2017. Les variables comprennent le nombre d'articles vendus et jetés.
Il semble que les wraps se vendent plus que les sandwichs. Peut-on conrmer cette hypothèse au seuil
α = 0, 05 ?
On utilisera le seuil de signication α = 0, 05 lors de cette analyse. On rejette H0 si la
valeur-p est inférieure à ce seuil. Le prérequis pour que ce test soit valide est que les diérences se
distribuent selon une loi normale. On eectue donc un test de normalité pour la variable Diff,
et on obtient les sorties suivantes :
Figure 26  Test de normalité des diérences
MQG222 41 ©Lévesque-Bélanger-Turcotte-Chabot
10 TEST SUR DEUX MOYENNES (ÉCHANTILLONS APPARIÉS)
Figure 27  Histogramme
On doit maintenant résoudre le test d'hypothèses suivant :
H0 : Les données de la population se répartissent selon une loi normale.
H1 : Les données de la population ne se répartissent pas selon une loi normale.
Pour la population de la diérence entre les ventes des deux articles, la valeur-pS−W =
0, 7402 ≮ 0, 05 et la valeur-pK−S = 0, 7035 ≮ 0, 05 et donc on ne rejette pas H0. Ainsi, au
seuil α = 0, 05, il est plausible d'admettre que les données de cette population se distribuent
selon une loi normale.
On peut donc poursuivre l'analyse avec conance. On eectue donc les commandes mentionnées à la
section précédente (test sur une moyenne) pour tester les hypothèses :
H0 : µD = 0
H1 : µD  0
MQG222 42 ©Lévesque-Bélanger-Turcotte-Chabot
10 TEST SUR DEUX MOYENNES (ÉCHANTILLONS APPARIÉS)
On obtient alors la gure 28.
Figure 28  Test échantillons appariés
La gure 28 nous indique que la moyenne de la variable Diff est de 8,4468. Puisque valeur-
p = 0, 0000  0, 05, on rejette H0. Donc, au risque de se tromper 1 fois sur 20, le nombre de
wraps vendus est supérieur au nombre de sandwichs vendus en moyenne dans la population.
Figure 29  Intervalle de conance
L'écart moyen réel se situe entre 6,9944 et 9,8992 unités, et ce, 19 fois sur 20.
MQG222 43 ©Lévesque-Bélanger-Turcotte-Chabot
11 TEST SUR PLUSIEURS MOYENNES (ANOV
A)
11 Test sur plusieurs moyennes (ANOVA)
(a) Mentionner le seuil de signication (α).
(b) Test de normalité :
(b1) Formuler les hypothèses de normalité de la population.
(b2) Prendre une décision compte tenu des résultats obtenus.
(b3) Donner une conclusion.
Remarque : Si l'un des deux tests rejette la normalité, on mettra un bémol sur la validité des
résultats associés à cette population. Si les deux tests (Kolmogorov-Smirnov et Shapiro-Wilk)
rejettent la normalité, le test principal et l'intervalle de conance ne seront théoriquement
pas valide. Toutefois, le test étant robuste à la violation de cette condition, de grandes tailles
d'échantillons donneront tout de même d'assez bons résultats.
(c) Test d'égalité des variances :
(c1) Formuler les hypothèses d'égalité des variances des populations.
(c2) Prendre une décision compte tenu des résultats obtenus.
(c3) Donner une conclusion.
Remarque : Si l'hypothèse d'égalité des variances est rejetée, le test principal ne sera pas
valide.
(d) Test principal :
(d1) Formuler les hypothèses d'égalité des moyennes des populations.
(d2) Prendre une décision compte tenu des résultats obtenus.
(d3) Donner une conclusion.
(e) Si H0 a été rejetée, quantier et interpréter les valeurs de η2
et η.
(f) Si H0 a été rejetée, expliquer comment s'exprime cette diérence en faisant l'analyse Post Hoc.
Eectuer les étapes suivantes pour tous les couples de moyennes.
(f1) Formuler les hypothèses d'égalité des moyennes des populations.
(f2) Prendre une décision compte tenu des résultats obtenus.
(f3) Donner une conclusion.
(f4) Si H0 est rejetée, donner une estimation ponctuelle et un intervalle de conance estimant la
diérence des moyennes de ces deux populations.
(g) Résumer l'ordre des moyennes en lien avec les conclusions obtenues dans l'analyse Post Hoc.
MQG222 44 ©Lévesque-Bélanger-Turcotte-Chabot
11 TEST SUR PLUSIEURS MOYENNES (ANOV
A)
Exemple 11.1 Une compagnie de cartes de crédit canadienne ore trois types de cartes de crédit à ses
clients : la carte de base qui ne donne aucune remise en argent ; la carte Remise qui coûte 60 $ par année,
mais qui donne une remise de 2 % sur tous les achats; la carte Remise Plus qui coûte 120 $ par année,
mais qui donne une remise de 4 % sur tous les achats. On aimerait mieux cerner le type de clientèle
qui se procure la carte Remise Plus. Ces clients sont-ils plus âgés ? Sont-ils plus fortunés ? Habitent-ils
une province en particulier? On a répertorié les données de 1 000 clients prélevés de façon aléatoire et
indépendante. La jeu de données se nomme Crédit.csv. Parmi les détenteurs des trois types de cartes,
remarque-t-on une diérence au niveau des soldes moyens ? Utilisez le seuil α = 0, 01.
On désire traiter le test d'hypothèses suivant :
H0 : µBase = µRemise = µRemisePlus
H1 : Au moins une des moyennes est diérente.
Fixons le seuil de signication à α = 0, 01. On rejettera H0 si la valeur-p est inférieure
à ce seuil.
Vérions d'abord les conditions d'application du test. On sait déjà que les échantillons ont été préle-
vés de façon aléatoire et indépendante. Il reste à vérier que les échantillons proviennent de populations
normales et que les variances des populations sont égales.
La vérication de la normalité se fait de la même façon que celle décrite dans la section 7. On doit
traiter le test suivant pour chacune des trois populations.
H0 : Les données de la population se répartissent selon une loi normale.
H1 : Les données de la population ne se répartissent pas selon une loi normale.
MQG222 45 ©Lévesque-Bélanger-Turcotte-Chabot
11 TEST SUR PLUSIEURS MOYENNES (ANOV
A)
À l'aide de R, on obtient les sorties suivantes :
Figure 30  Vérication de la normalité des données
MQG222 46 ©Lévesque-Bélanger-Turcotte-Chabot
11 TEST SUR PLUSIEURS MOYENNES (ANOV
A)
Figure 31  Vérication de la normalité des données
MQG222 47 ©Lévesque-Bélanger-Turcotte-Chabot
11 TEST SUR PLUSIEURS MOYENNES (ANOV
A)
Pour la population des détenteurs d'une carte de base, on a valeur-pK−S = 0, 6431 ≮ 0, 01
et valeur-pS−W = 0, 0528 ≮ 0, 01. Ainsi, on ne rejette pas H0. Au seuil α = 0, 01, on admet
que les données de la population se répartissent selon une loi normale.
Pour la population des détenteurs d'une carte Remise, on a valeur-pK−S = 0, 8088 ≮
0, 01 et valeur-pS−W = 0, 8481 ≮ 0, 01. Ainsi, on ne rejette pas H0. Au seuil α = 0, 01, on
admet que les données de la population se répartissent selon une loi normale.
Pour la population des détenteurs d'une carte Remise Plus, on a valeur-pK−S = 0, 0943 ≮
0, 01 et valeur-pS−W = 0, 2239 ≮ 0, 01. Ainsi, on ne rejette pas H0. Au seuil α = 0, 01, on
admet que les données de la population se répartissent selon une loi normale.
Pour vérier si l'hypothèse de l'égalité des variances dans les populations est respectée, il faut utiliser
la statistique de Levene. Celle-ci permet de résoudre le test d'hypothèses suivant :
H0 : σ2
Base = σ2
Remise = σ2
RemisePlus
H1 : Au moins une des variances est diérente.
Les commandes pour obtenir la sortie 32 qui contient la statistique de Levene et la valeur-p associée
(dernière colonne du tableau) sont résumées au début de cette section.
Figure 32  Vérication de l'égalité des variances
Puisque valeur-pLEV ENE = 0, 4623 ≮ 0, 01, nous ne rejetons pas H0. Ainsi, au seuil
α = 0, 01, l'hypothèse d'égalité des variances dans les populations est vraisemblable.
MQG222 48 ©Lévesque-Bélanger-Turcotte-Chabot
11 TEST SUR PLUSIEURS MOYENNES (ANOV
A)
En somme, l'analyse de la variance que nous allons obtenir sera valide puisque les hypothèses de
normalité et d'égalité des variances sont vériées. On peut maintenant passer à la décomposition de la
variance.
Pour obtenir la sortie 33, il sut d'utiliser la commande aov() en y inscrivant la variable numérique,
suivie de la variable catégorique, séparés par le symbole  ∼ . La commande summary() permettra
ensuite d'obtenir les informations nécessaires à l'analyse. Voici ce qu'on obtient :
Figure 33  Table ANOVA
On veut résoudre le test suivant :
H0 : µBase = µRemise = µRemisePlus
H1 : Au moins une des moyennes est diérente.
Puisque la valeur-p est égale à 0,000, ce qui évidemment plus petit que α = 0, 01, nous
rejetons H0. Ainsi, au risque de se tromper 1 fois sur 100, nous pouvons armer qu'au
moins un des soldes moyens est signicativement diérente des autres.
La gure 33 nous permet de calculer η2
= 81 017 364
81 017 364+470 548 047
= 0, 1469. Ainsi, 14,69 %
de la variabilité des soldes est expliquée lorsqu'on prend en considération le type de carte
possédé. La statistique η, quant à elle, se quantie à
√
0, 1469 = 0, 3833. La relation entre
les deux variables peut être qualiée de modérée (voir tableau ci-dessous).
MQG222 49 ©Lévesque-Bélanger-Turcotte-Chabot
11 TEST SUR PLUSIEURS MOYENNES (ANOV
A)
0, 7 ≤ η ≤ 1 relation très forte
0, 5 ≤ η  0, 7 relation forte
0, 3 ≤ η  0, 5 relation modérée
0, 1 ≤ η  0, 3 relation faible
0 ≤ η  0, 1 relation négligeable
Table 1  Interprétation du η
Puisqu'on a rejeté H0, on a admis qu'au moins une des moyennes est diérente des autres. Mais de
quelle façon s'exprime cette diérence ? C'est ce que nous saurons en utilisant la méthode de Tukey.
Dans le cadre de ce cours, nous nous contenterons d'appliquer cette méthode avec R, car elle devient
vite fastidieuse à la main.
Cette analyse permet de dire quelles sont les moyennes qui se distinguent des autres et quelles sont
celles qui sont considérées égales. Il y a près d'une quinzaine d'analyses Post Hoc disponibles sur R,
mais nous n'en présenterons qu'une seule, celle de Tukey.
Pour obtenir la sortie 34, il faut utiliser la commande TukeyHSD().
Figure 34  Analyse Post Hoc : Tukey
MQG222 50 ©Lévesque-Bélanger-Turcotte-Chabot
11 TEST SUR PLUSIEURS MOYENNES (ANOV
A)
Voici comment interpréter la sortie 34. Tout d'abord, il faut comparer les groupes de détenteurs de carte
deux-à-deux, en parcourant toutes les paires possibles : il y a en fait k(k−1)
2 paires à observer, où k est
le nombre de modalités de la variable nominale/ordinale. Ainsi, dans notre exemple, il y a 3(3−1)
2 = 3
paires à considérer.
On fera des tests bilatéraux sur deux moyennes. Comme nous avons obtenu précédemment qu'au
seuil α = 0, 01, les soldes des trois populations se distribuent selon une loi normale et que
les variances des soldes dans les trois groupes sont égales, tous les tests sur deux moyennes
seront valides. Voici donc comment on fait ces comparaisons.
µBase et µRemise : On doit faire le test d'hypothèses suivant :
H0 : µBase = µRemise
H1 : µBase ̸= µRemise
Puisque la valeur-p associée à la diérence de ces moyennes est de 0,0000,01, on rejette
H0. Donc, au risque de se tromper une fois sur 100, on conclut que la diérence entre ces
deux moyennes est signicative. La diérence des soldes moyens s'estime ponctuellement à
545,82 $ en faveur des détenteurs de la carte Remise. De plus, au niveau de la population,
cette diérence entre ces soldes moyens s'estime à 545,82 $ avec une marge d'erreur de
±150, 63 $ (rappel : E = 696, 45 − 545, 82), et ce, 99 fois sur 100.
µBase et µRemisePlus : On doit faire le test d'hypothèses suivant :
H0 : µBase = µRemisePlus
H1 : µBase ̸= µRemisePlus
Puisque la valeur-p associée à la diérence de ces moyennes est de 0, 000  0, 01, on rejette
H0. Donc, au risque de se tromper une fois sur 100, on conclut que la diérence entre ces
deux moyennes est signicative. La diérence des soldes moyens s'estime ponctuellement
à 624,84 $ en faveur des détenteurs de la carte Remise Plus. De plus, au niveau de la
population, cette diérence entre ces soldes moyens s'estime à 624,84 $ avec une marge
d'erreur de ±179, 77 $ et ce, 99 fois sur 100.
MQG222 51 ©Lévesque-Bélanger-Turcotte-Chabot
11 TEST SUR PLUSIEURS MOYENNES (ANOV
A)
µRemise et µRemisePlus : On doit faire le test d'hypothèses suivant :
H0 : µRemise = µRemisePlus
H1 : µRemise ̸= µRemisePlus
Puisque la valeur-p associée à la diérence de ces moyennes est de 0, 4925 ≮ 0, 01, on ne
rejette pas H0. Donc, au seuil α = 0, 01, nous n'avons pas assez de preuves pour armer
que la diérence entre ces deux moyennes est signicative.
[Note : On ne doit pas décrire comment s'exprime la diérence entre les deux moyennes, puisqu'on conclut
qu'il n'existe pas de telle diérence. Ces diérences ne sont dues qu'aux uctuations échantillonnales.]
On peut résumer la situation de la façon suivante : (µRemise = µRemisePlus)  µBase.
[Note : On a fait des tests bilatéraux an de comparer les soldes selon les types de cartes, mais il nous
est également permis de faire des tests unilatéraux. Par exemple, on aurait pu tester les hypothèses
suivantes :
H0 : µBase = µRemise
H1 : µBase  µRemise
En eet, puisque xRemise  xBase, on peut même armer que µRemise  µBase, car si une valeur-p est
plus petite que α = 0, 01, alors
valeur-p
2
sera aussi plus petit que 0, 01.]
MQG222 52 ©Lévesque-Bélanger-Turcotte-Chabot
12 TEST D'AJUSTEMENT
12 Test d'ajustement
(a) Mentionner le seuil de signication (α).
(b) Vérier les conditions d'applications du test au sujet des fréquences théoriques. Si au moins une
des conditions n'est pas satisfaite, le test ne sera pas valide. Il faudrait augmenter la taille de
l'échantillon ou regrouper des catégories lorsque le contexte le permet.
(c) Test principal :
(c1) Formuler les hypothèses sur la distribution de la variable nominale/ordinale.
(c2) Prendre une décision compte tenu des résultats obtenus.
(c3) Donner une conclusion.
MQG222 53 ©Lévesque-Bélanger-Turcotte-Chabot
12 TEST D'AJUSTEMENT
Exemple 12.1 Une Université voudrait revoir les types d'assurances collectives oertes à ses employés.
On a sondé 180 de ces employés pour mieux comprendre ce qui les incite à choisir une option plutôt
qu'une autre et pour étudier les montants totaux réclamés. Les données recueillies se retrouvent dans la
jeu de données Assurances.csv. Il y a quelques années, l'option de base était la plus populaire : 50 % des
employés y adhéraient. L'option intermédiaire était préférée par 40 % des employés. L'option avancée
n'étaient choisie que par 10 % des employés. On se demandait alors si on ne devait pas retirer cette
option. Est-ce que l'échantillon présenté dans la jeu de données nous permet de croire que la répartition
des options a changé depuis au seuil α = 0, 05 ?
Pour eectuer ce test, nous aurons besoin de la commande chisq.test() dans laquelle on doit
insérer la table des fréquences observées (x) et le vecteur des proportions espérées (p). Mais, d'abord, il
faut porter une attention particulière à l'ordre d'apparition des modalités de la variable catégorique. Le
vecteur des proportions espérées devra acher le même ordre. Au besoin, modier l'ordre à partir de la
commande ordered(), comme suit :
Figure 35  Modier l'ordre d'apparition des modalités
MQG222 54 ©Lévesque-Bélanger-Turcotte-Chabot
12 TEST D'AJUSTEMENT
Pour vérier les conditions d'applications du test, on peut ensuite demander à R de nous fournir les
fréquences espérées en ajoutant $expected au bout de la commande. On obtient la sortie 36.
Figure 36  Test d'ajustement du Khi-deux
Aucune cellule n'a un eectif théorique inférieur à 5 (0 % ≤ 20 %). En particulier,
toutes les fréquences théoriques sont supérieures ou égales à 1. Le test d'hypothèse qui
suit sera donc valide.
H0 : Dans la population, la répartition des options est la
même que celle indiquée.
H1 : Dans la population, la répartition des options a changé.
Le seuil de signication est xé à α = 0, 05. On rejettera H0 si la valeur-p est inférieure
à ce seuil. Ici, comme valeur-p = 0, 6057 ≮ 0, 05, on ne rejette pas H0. Au seuil α = 0, 05,
rien n'indique que la répartition des options a changé au niveau de la population.
MQG222 55 ©Lévesque-Bélanger-Turcotte-Chabot
13 TEST D'INDÉPENDANCE (TABLEAU CROISÉ)
13 Test d'indépendance (tableau croisé)
(a) Mentionner le seuil de signication (α).
(b) Vérier les conditions d'applications du test au sujet des fréquences théoriques. Si une des condi-
tions n'est pas satisfaite, augmenter la taille de l'échantillon ou regrouper des modalités.
(c) Test principal :
(c1) Formuler les hypothèses d'indépendance des variables.
(c2) Prendre une décision compte tenu des résultats obtenus.
(c3) Donner une conclusion.
(d) Si H0 est rejetée, quantier et interpréter le V de Cramer.
(e) Si H0 est rejetée et que les deux variables sont de type ordinal, quantier et interpréter la statis-
tique Gamma.
(f) Si H0 est rejetée, interpréter les cellules du tableau croisé à partir des résidus standardisés et des
pourcentages.
MQG222 56 ©Lévesque-Bélanger-Turcotte-Chabot
13 TEST D'INDÉPENDANCE (TABLEAU CROISÉ)
Exemple 13.1 Choisir le fonds de placements correspondant le mieux à ses besoins n'est certes pas
toujours une tâche facile. La tolérance au risque constitue certainement un aspect à ne pas négliger par
les conseillers nanciers lorsque vient le temps de conseiller leurs clients. An de mieux comprendre
la relation entre la tolérance au risque et les connaissances en matière de placements, on a sondé 200
personnes. Vous trouverez les résultats du sondage dans la jeu de données Placements.csv. On tente
de comprendre la relation entre la tolérance au risque et les connaissances en matière de placements au
seuil α = 0, 01. On s'intéresse donc à résoudre le test d'hypothèses suivant :
H0 : Dans la population, le niveau de connaissances en matière de placements
et la tolérance au risque sont indépendants.
H1 : Dans la population, le niveau de connaissances en matière de placements
et la tolérance au risque sont liés.
Le seuil de signication est xé à α = 0, 01. On rejettera H0 si la valeur-p est inférieure
à ce seuil. D'abord, comme les variables étudiées sont ordinales, on recodera l'ordre d'apparition des
modalités dans R à l'aide de la commande ordered() :
Figure 37  Ordonnancement des modalités
MQG222 57 ©Lévesque-Bélanger-Turcotte-Chabot
13 TEST D'INDÉPENDANCE (TABLEAU CROISÉ)
Pour eectuer le test d'indépendance, on utilisera la commande chisq.test() dans laquelle on
insérera le tableau croisé (commande table()). On devra ensuite vérier si la condition sur les fréquences
théoriques est respectée.
Figure 38  Fréquences théoriques
Or, si on jette un coup d'oeil aux fréquences théoriques, on remarque que l'on a 3 cellules qui
ont une fréquence théorique inférieure à 5, ce qui représente 3/12=25 % des cellules qui
est supérieur à 20 %. Le nombre d'observations est donc trop petit pour le nombre de modalités des
variables. Pour remédier à la situation, on pourrait regrouper les modalités Nulles et Élémentaires ainsi
que les modalités Bonnes et Excellentes :
Figure 39  Recodage des modalités
MQG222 58 ©Lévesque-Bélanger-Turcotte-Chabot
13 TEST D'INDÉPENDANCE (TABLEAU CROISÉ)
Si on reprend le test d'indépendance avec cette nouvelle variable, on obtient :
Figure 40  Test d'indépendance
On remarque cette fois que l'on a 0 cellule qui ont une fréquence théorique inférieure à
5, ce qui représente 0/6=0 % des cellules, ce qui est inférieur à 20 %. Donc, en particulier
les fréquences théoriques sont toutes supérieures à 1. On peut donc poursuivre l'analyse sans
problème et utiliser le khi-deux pour résoudre le test d'hypothèses.
Puisque la valeur-p du test est de 0, 000  0, 01 = α, on rejette H0. Ainsi, au risque
de se tromper une fois sur 100, nous sommes en mesure de dire que le niveau de connais-
sances en matière de placements et la tolérance au risque sont signicativement liés dans
la population.
La force de la relation nous est donnée par la statistique du V de Cramer. La valeur du V de
Cramer est ici de V =
s
χ2
(k − 1) · n
=
s
19, 007
(2 − 1) · 200
= 0, 3083. Ainsi on peut armer que
nous sommes en présence d'une relation modérée, et ce, malgré le fait que la valeur-p associée au
khi-deux était de 0,000. Le V de Cramer nous permet de relativiser la force du rejet de H0. Le tableau
suivant résume les valeurs possiblesdu V de Cramer et leur interprétation.
MQG222 59 ©Lévesque-Bélanger-Turcotte-Chabot
13 TEST D'INDÉPENDANCE (TABLEAU CROISÉ)
0, 7 ≤ V ≤ 1 relation très forte
0, 5 ≤ V  0, 7 relation forte
0, 3 ≤ V  0, 5 relation modérée
0, 1 ≤ V  0, 3 relation faible
0 ≤ V  0, 1 relation négligeable
Table 2  Interprétation du V de Cramer
Lorsque nous admettons qu'il y a un lien entre les variables, on peut procéder à l'analyse du tableau
croisé pour voir comment s'exprime cette dépendance. L'interprétation du tableau s'appuiera sur deux
éléments : les pourcentages et les résidus standardisés. Pour obtenir les résidus standardisés, il sut
d'ajouter $res au bout de la commande chisq.test(). Pour obtenir les pourcentages en colonnes, il
faut utiliser la commande prop.table() dans laquelle on insère le tableau croisé (commande table())
suivi d'une virgule, suivie du nombre 2 (indiquant que les pourcentages devront être calculés en colonnes).
Figure 41  Résidus standardisés
MQG222 60 ©Lévesque-Bélanger-Turcotte-Chabot
13 TEST D'INDÉPENDANCE (TABLEAU CROISÉ)
On interprétera les résultats selon le tableau suivant :
Résidu standardisé  −3 Absence marquée du phénomène
−3 ≤ Résidu standardisé  −2 Absence signicative du phénomène
−2 ≤ Résidu standardisé  −1, 5 Absence visible (tendance) du phénomène
−1, 5 ≤ Résidu standardisé ≤ 1, 5 Phénomène normal
1, 5  Résidu standardisé ≤ 2 Présence visible (tendance) du phénomène
2  Résidu standardisé ≤ 3 Présence signicative du phénomène
3  Résidu standardisé Présence marquée du phénomène
Table 3  Interprétation des résidus standardisés
De façon globale, 32,5 % des personnes ont une faible tolérance au risque. Les personnes
dont les connaissances en matière de placements se situent de nulles à élémentaires
ont tendance à être peu tolérantes au risque. On retrouve 41,4 % d'entre elles dans
cette catégorie. Quant à elles, les personnes dont les connaissances en matière de
placements se situent de bonnes à excellentes ne sont que 16,7 % à être peu tolérantes
au risque, ce qui représente une diérence signicative par rapport à la proportion globale.
Il en va de même avec la tolérance élevée au risque. Globalement, 23 % des personnes
sondées se situent dans cette catégorie. Les personnes dont les connaissances en matière de
placements se situent de nulles à élémentaires sont visiblement absentes de cette catégorie,
puisque cette proportion n'est que de 14,8 %. Les personnes dont les connaissances en
matière de placements se situent de bonnes à excellentes sont au contraire signicativement
présentes : 37,5 % d'entre elles ont une tolérance élevée au risque.
MQG222 61 ©Lévesque-Bélanger-Turcotte-Chabot
14 TEST DE CORRÉLATION LINÉAIRE
14 Test de corrélation linéaire
(a) Mentionner le seuil de signication (α).
(b) Vérier la linéarité de la relation à partir du nuage de points.
(c) Quantier et qualier le coecient de corrélation linéaire (r).
(d) Test principal :
(d1) Formuler les hypothèses du test de corrélation linéaire en relation avec le contexte.
(d2) Prendre une décision compte tenu des résultats obtenus.
(d3) Donner une conclusion.
MQG222 62 ©Lévesque-Bélanger-Turcotte-Chabot
14 TEST DE CORRÉLATION LINÉAIRE
Exemple 14.1 Les indices SP500 et Nasdaq sont deux des principaux critères utilisés par les inves-
tisseurs lors de l'analyse du marché boursier américain. Il est conseillé de diversier les investissements,
car cela contribue à réduire les risques en investissant dans de nombreux secteurs du marché. L'objectif
est de ne pas avoir tous vos oeufs dans le même panier, car de nombreux secteurs réagiront diéremment
aux conditions économiques changeantes. Or, pour faire un choix éclairé, il est important d'analyser le
lien qui unit les indices boursiers entre eux pour comprendre l'évolution conjointe de leur valeur.
La jeu de données Bourse.csv comprend les valeurs et les variations des indices boursiers SP500
et Nasdaq à l'ouverture des marchés du 3 janvier 2017 au 2 juin 2017. Eectuez un test de corrélation
linéaire au seuil α = 0, 05 pour mieux cerner comment les variations des indices SP500 et Nasdaq
évoluent de façon conjointe.
Il faut d'abord observer le graphe de la relation pour voir si elle est bien linéaire avec la commande
plot() dans laquelle on insère les deux variables numériques séparées du symbole  ∼ .
Figure 42  Commande plot()
MQG222 63 ©Lévesque-Bélanger-Turcotte-Chabot
14 TEST DE CORRÉLATION LINÉAIRE
Figure 43  Le graphe de la relation
On voit que les points semblent se regrouper de façon assez uniforme autour d'une droite
imaginaire, donc la relation semble bel et bien linéaire. Il est donc sensé de poursuivre
l'analyse.
Le schéma de Davis ci-dessous nous aidera maintenant à quantier et qualier la force de la relation
linéaire, à l'aide du coecient de corrélation r :
0, 7 ≤ |r| ≤ 1 Interrelation linéaire très forte
0, 5 ≤ |r|  0, 7 Interrelation linéaire forte
0, 3 ≤ |r|  0, 5 Interrelation linéaire modérée
0, 1 ≤ |r|  0, 3 Interrelation linéaire faible
0 ≤ |r|  0, 1 Interrelation linéaire négligeable
Table 4  Interprétation du coecient de corrélation
MQG222 64 ©Lévesque-Bélanger-Turcotte-Chabot
14 TEST DE CORRÉLATION LINÉAIRE
Il est fastidieux de calculer r à la main. Avec la commande cor.test() dans laquelle on insère les deux
variables numériques, on obtient la gure 44.
Figure 44  Le coecient de corrélation r
Le coecient de corrélation est de r = 0, 9128, ce qui d'après le schéma de Davis indique
une interrelation linéaire très forte.
On peut maintenant traiter le test d'hypothèses pour savoir si cette corrélation est signicative au niveau
de la population. Les hypothèses sont les suivantes :
H0 : ρ = 0
H1 : ρ ̸= 0
Nous pouvons traiter ce test avec la valeur-p de la gure 44. Le seuil de signication est xé à
α = 0, 05. On rejettera H0 si la valeur-p est inférieure à ce seuil.
Comme la valeur-p = 0, 000  0, 05, on rejette H0. Au risque de se tromper une fois sur 20,
la corrélation linéaire entre les variations des indices SP500 et Nasdaq est signicative.
MQG222 65 ©Lévesque-Bélanger-Turcotte-Chabot
15 RÉGRESSION LINÉAIRE
15 Régression linéaire
(a) Mentionner le seuil de signication (α).
(b) Vérier si la relation semble linéaire et homoscédastique à partir du nuage de points.
(c) Quantier et interpréter les statistiques r et r2
.
(d) Vérier la normalité de la population des résidus.
(d1) Formuler les hypothèses de normalité de la population.
(d2) Prendre une décision compte tenu des résultats obtenus.
(d3) Donner une conclusion.
Remarque : Si les deux tests (Kolmogorov-Smirnov et Shapiro-Wilk) rejettent la normalité,
le test principal et les intervalles de conance ne seront pas valides. Si l'un des deux tests
rejette la normalité, on mettra un bémol sur la validité des résultats.
(e) Vérier si la régression est signicative dans la population.
(e1) Formuler les hypothèses sur la régression.
(e2) Prendre une décision compte tenu des résultats obtenus.
(e3) Donner une conclusion.
(f) Écrire l'équation de la droite de régression obtenue.
(g) Interpréter les coecients b0 et b1 associés à la droite de régression.
(h) Eectuer, s'il y a lieu, les estimations/prévisions demandées.
MQG222 66 ©Lévesque-Bélanger-Turcotte-Chabot
15 RÉGRESSION LINÉAIRE
Exemple 15.1 Les avis en ligne constituent un facteur important pour l'image de tout commerçant en
ligne, notamment dans le secteur de l'hôtellerie. On a mené une étude sur 100 hôtels de la province. Cette
étude tente d'analyser les eets de corrélation entre la note moyenne des avis et le revenu mensuel moyen
par chambre disponible. Avec la jeu de données hôtel.csv, on tentera d'éclaircir le lien entre l'avis des
internautes et le revenu des hôtels. Eectuez une analyse en régression linéaire au seuil α = 0, 05 pour
mieux cerner comment les notes moyennes des avis expliquent le revenu mensuel moyen par chambre
disponible.
L'analyse en régression permettra de modéliser le lien entre les variables X (Avis) et Y (Revenu).
Plus précisément, nous voulons obtenir une équation du type ŷRevenu = b0 + b1xAvis.
On utilisera le seuil de signication α = 0, 05 lors de cette analyse. On rejette H0 si la
valeur-p est inférieure à ce seuil.
La première étape consiste à faire l'analyse graphique de la relation. Pour obtenir le graphe 46, il faut
utiliser la commande plot() dans laquelle on insère les deux variables numériques séparées du symbole
 ∼ . Pour ajouter la droite, il faut d'abord créer le modèle linéaire à partir de la commande lm()
dans laquelle on insère les deux variables numériques séparées du symbole  ∼ . Ensuite, on utilise la
commande abline() dans laquelle on insère le modèle linéaire.
Figure 45  Commandes pour obtenir la droite de régression
MQG222 67 ©Lévesque-Bélanger-Turcotte-Chabot
15 RÉGRESSION LINÉAIRE
Figure 46  Droite de régression
On obtient alors la sortie 46, qui est le graphe de la relation. Puisque les points semblent être
répartis de façon uniforme autour de la droite, il est plausible d'armer que la relation
entre XAvis et YRevenu est linéaire. On voit de plus que la relation est positive : plus la
note moyenne est élevée, plus le revenu par chambre disponible l'est aussi. Ensuite, vérions
l'hypothèse d'homogénéité de la variance (homoscédasticité). On dit que la variance des résidus est
homogène si la dispersion des résidus semble constante peu importe la valeur de la variable indépendante
X. Ici, il semble que la dispersion des résidus semble constante. L'homoscédasticité est donc
plausible. Pour corriger une violation à l'homoscédasticité, il est possible d'eectuer une opération sur
la variable indépendante X avant l'analyse en régression linéaire. On pourrait penser à une racine carrée
ou à un logarithme.
MQG222 68 ©Lévesque-Bélanger-Turcotte-Chabot
15 RÉGRESSION LINÉAIRE
Analysons maintenant la force de relation entre les deux variables numériques. Pour obtenir la 47,
nous aurons besoin de la commande cor() dans laquelle on insère les deux variables numériques étudiées.
Figure 47  Coecients de corrélation et de détermination
An de mesurer l'apport d'information qu'amène X sur la prédiction Y , nous utilisons le coecient
de détermination r2
, qui représente le % de la variation totale de Y expliquée par la présence de la
variable X. Ici on a r2
= 0, 2849, ce qui nous indique que 28,49 % de la variation du revenu
par chambre disponible (Y ) est expliquée lorsque la note moyenne (X) est prise en consi-
dération.
Ensuite, à l'aide du coecient de corrélation linéaire, on décrit la force du lien linéaire entre les deux
variables. Ici on a r =
√
0, 2849 = 0, 5338, ce qui nous indique que nous sommes en présence
d'une relation linéaire forte.
La prochaine étape consiste à vérier si l'hypothèse de normalité des résidus est vraisemblable à
partir du test d'hypothèses suivant :
H0 : Les données de la population se répartissent selon une loi normale.
H1 : Les données de la population ne se répartissent pas selon une loi normale.
MQG222 69 ©Lévesque-Bélanger-Turcotte-Chabot
15 RÉGRESSION LINÉAIRE
Figure 48  Test de normalité des résidus
Pour la population des résidus, la valeur-pK−S = 0, 200 ≮ 0, 05 et la valeur-pS−W =
0, 1667 ≮ 0, 05 et donc on ne rejette pas H0. Ainsi, au seuil α = 0, 05, il est plausible
d'admettre que les données de cette population se distribuent selon une loi normale.
MQG222 70 ©Lévesque-Bélanger-Turcotte-Chabot
15 RÉGRESSION LINÉAIRE
Passons au test d'hypothèses principal. Nous devons traiter le test d'hypothèses suivant :
H0 : La régression est non signicative dans la population (β1 = 0).
H1 : La régression est signicative dans la population (β1 ̸= 0).
On utilisera la sortie 49 (table ANOVA).
Figure 49  Table ANOVA de la régression
Une analyse en régression linéaire décompose la variation totale de Y en deux sources :
Variation totale = Variation expliquée par la droite + Variation résiduelle
294 118 = 83 808 + 210 310
Plus la variation expliquée par la droite sera grande, plus la régression risque d'être signicative.
Pour résoudre le test d'hypothèses, on utilise la valeur-p de la dernière colonne.
d'hypothèses, on utilise la valeur-p de la dernière colonne.
Ici, puisque la valeur-p est égale à 0,000, ce qui est plus petit que α = 0, 05, on rejette
H0. Ainsi, au risque de se tromper une fois sur 20, on peut armer que la régression est
signicative.
MQG222 71 ©Lévesque-Bélanger-Turcotte-Chabot
15 RÉGRESSION LINÉAIRE
Finalement, puisque la régression est signicative, on peut passer à l'étape suivante qui consiste
à écrire la droite de régression. On retrouve les coecients de la droite dans la sortie 50 grâce aux
commandes summary() et confint() dans lesquelles on insère le modèle linéaire créé plus tôt.
Figure 50  Sortie qui contient les coecients de la droite
Le coecient b0 est la constante de la droite et se retrouve dans la première colonne du tableau
vis-à-vis (Intercept). Ici on a b0 = 30, 563. Le coecient b1 est lui aussi dans la première colonne,
vis-à-vis la variable indépendante qui ici est Note. On a b1 = 37, 091. L'équation de la droite est
donc
ŷRevenu = 30, 563 + 37, 091xNote.
L'interprétation de la constante b0 (l'ordonnée à l'origine, c'est-à-dire la valeur de y lorsque x = 0)
est souvent dénuée de sens et dicile à interpréter. Cependant, lorsqu'elle est interprétable, elle repré-
sente souvent des frais ou des dépenses xes. Ici, on pourrait dire que le coecient b0 = 30, 563
représente le revenu mensuel moyen par chambre disponible (30,563 $) lorsque la note
moyenne des internautes est de 0 étoile.
MQG222 72 ©Lévesque-Bélanger-Turcotte-Chabot
15 RÉGRESSION LINÉAIRE
Le coecient b1 représente l'augmentation marginale moyenne du revenu mensuel moyen par chambre
disponible lorsque la note moyenne des internautes augmente d'une unité. Ici, lorsque la note moyenne
des internautes augmente d'une étoile, le revenu mensuel moyen par chambre disponible
augmente d'environ 37,091 $. On a aussi l'intervalle de conance de niveau 95 % pour ce coecient :
ainsi le véritable coecient β1 a une probabilité de 95 % de se retrouver entre 25,3128 et 48,8696. Donc
au niveau de la population, l'augmentation marginale moyenne du revenu mensuel moyen
par chambre disponible lorsque la note moyenne des internautes augmente d'une étoile
devrait se retrouver entre 25,3128 $ et 48,8696 $, et ce 19 fois sur 20.
Une fois l'interprétation eectuée, l'analyste est en mesure d'utiliser la droite pour faire des estima-
tions sur des valeurs moyennes de y, compte tenu de la connaissance de x. Par exemple, pour obtenir
une estimation du revenu mensuel moyen par chambre disponible d'un hôtel dont la note
moyenne est de 3 étoiles, il sut de remplacer xAvis par 3 :
ŷRevenu = b0 + b1xAvis = 30, 563 + 37, 091 · 3 = 141, 836.
Il faudrait donc prévoir un revenu mensuel moyen par chambre disponible d'environ
141,84 $. Cette estimation ne tient cependant pas compte de l'erreur induite par l'échantillon. Il serait
donc plus approprié de construire un intervalle de conance pour cette prédiction à l'aide de la commande
predict() dans laquelle on insère le modèle de régression linéaire, une nouvelle donnée et le type
d'intervalle souhaité.
Figure 51  Les estimations
MQG222 73 ©Lévesque-Bélanger-Turcotte-Chabot
15 RÉGRESSION LINÉAIRE
La première valeur retournée se trouve à être la prévision ponctuelle de 141,836 $. On retrouve ensuite
l'intervalle de conance et l'intervalle de prévision de niveau 95 %. Le revenu moyen réel pour un
hôtel dont la note moyenne est de 3 étoiles devrait être compris entre 49,31 $ et 234,36 $
par chambre disponible, et ce 19 fois sur 20. La moyenne des revenus moyens pour des
hôtels dont la note moyenne s'élève à 3 étoiles se situe entre 131,35 $ et 151,32 $ par
chambre disponible, et ce 19 fois sur 20.
Comme l'échantillon contenait des notes moyennes allant de 1,5 à 5 étoiles environ, cette estimation
est able, car il s'agit d'une intrapolation.
MQG222 74 ©Lévesque-Bélanger-Turcotte-Chabot
15 RÉGRESSION LINÉAIRE
Lexique
abline() Permet d'ajouter une droite de régression linéaire dans un nuage de points
agostino.test() Test d'hypothèses sur la symétrie d'une distribution
anscombe.test() Test d'hypothèses sur l'aplatissement d'une distribution
aov() Analyse de la variance
barplot() Diagramme en bâtons
boxplot() Boîte à moustaches
c() Création d'un vecteur (liste de données)
cbind() Permet d'ajouter un vecteur colonne à un jeu de données
chisq.test() Test du khi-deux
connt() Intervalles de conances pour les paramètres d'un modèle
cor() Coecient de corrélation
cor.test() Test de corrélation linéaire
cut() Permet de créer des classes d'intervalles à partir d'une variable numérique
data.frame() Permet de créer un jeu de données
dim() Dimensions d'une matrice ou d'un jeu de données
install.packages() Permet d'installer des  Packages  pour accéder à certaines commandes
IQR() Intervalle interquartile
kurtosis() Statistique d'aplatissement
length() Nombre d'éléments dans un vecteur
levels() Modalités de réponses d'une variable catégoriques
leveneTest() Test de Levene (égalité des variances)
lillie.test() Test de normalité (Kolmogorov-Smirnov)
lm() Modèle de régression linéaire
ls() Liste des variables enregistrées grâce à l'opérateur -
max() Valeur maximale d'une liste de données
mean() Moyenne d'une liste de données
median() Médiane d'une liste de données
min() Valeur minimale d'une liste de données
names() Noms des variables d'un jeu de données
ordered() Permet de recoder l'ordre d'apparition des modalités d'une variable catégorique
pie() Diagramme circulaire
MQG222 75 ©Lévesque-Bélanger-Turcotte-Chabot
15 RÉGRESSION LINÉAIRE
plot() Nuage de points
predict() Prévision et intervalle de conance ou de prévision (régression linéaire)
prop.table() Tableau des fréquences relatives
prop.test() Test sur une proportion et intervalle de conance
quantile() Quantiles
range() Étendue
rbind() Permet d'ajouter une ligne à un jeu de données
read.table() Permet de lire un jeu de données externe
recode() Recodage d'une variable catégorique
Sd() Écart-type d'une liste de données
shapiro.test() Test de normalité (Shapiro-Wilk)
skewness() Statistique d'asymétrie
subset() Permet de sélectionner un sous-ensemble de données
sum() Somme d'une liste de données
summary() Résumé des statistiques d'un modèle
t.test() Test sur une moyenne et intervalle de conance
table() Tableau des fréquences absolues
TukeyHSD() Analyse Post-Hoc de Tukey
Var() Variance d'une liste de données
$ Permet de sélectionner une colonne ou une statistique en particulier
[] Permet de spécier un emplacement dans une matrice ou une condition logique
== Est égal à (condition logique)
!= N'est pas égal à (condition logique)
 Est plus petit que (condition logique)
= Est plus petit ou égal à (condition logique)
 Est plus grand que (condition logique)
= Est plus grand ou égal à (condition logique)
| Ou (condition logique)
 Et (condition logique)
MQG222 76 ©Lévesque-Bélanger-Turcotte-Chabot

Contenu connexe

Similaire à Introduction_R.pdf

Conception de base_de_l_algorithme
Conception de base_de_l_algorithmeConception de base_de_l_algorithme
Conception de base_de_l_algorithmemustapha4
 
syntax-matlab.pdf
syntax-matlab.pdfsyntax-matlab.pdf
syntax-matlab.pdf
YasmineChihab
 
Support_Cours_SQL.ppt
Support_Cours_SQL.pptSupport_Cours_SQL.ppt
Support_Cours_SQL.ppt
SiwarAbbes1
 
La 2ème partie de la présentation PHP
La 2ème partie de la présentation PHPLa 2ème partie de la présentation PHP
La 2ème partie de la présentation PHP
Club Scientifique de l'ESI - CSE
 
presentationatelierphpprt2-140314143938-phpapp02.pdf
presentationatelierphpprt2-140314143938-phpapp02.pdfpresentationatelierphpprt2-140314143938-phpapp02.pdf
presentationatelierphpprt2-140314143938-phpapp02.pdf
RihabBENLAMINE
 
Benharratharijtp2 classification
Benharratharijtp2 classificationBenharratharijtp2 classification
Benharratharijtp2 classification
ARIJ BenHarrath
 
Jet Reports Pour Microsoft Dynamics NAV
Jet Reports Pour Microsoft Dynamics NAVJet Reports Pour Microsoft Dynamics NAV
Jet Reports Pour Microsoft Dynamics NAVMaroua Bouhachem
 
SQL.pdf
SQL.pdfSQL.pdf
Excel : Les fonctions mathématiques
Excel : Les fonctions mathématiquesExcel : Les fonctions mathématiques
Excel : Les fonctions mathématiques
Zakariyaa AIT ELMOUDEN
 
TP Fouille de données (Data Mining) et Apprentissage Machine
TP Fouille de données (Data Mining) et Apprentissage MachineTP Fouille de données (Data Mining) et Apprentissage Machine
TP Fouille de données (Data Mining) et Apprentissage Machine
Boubaker KHMILI
 
Theme 9(bis)
Theme 9(bis)Theme 9(bis)
Theme 9(bis)salmazen
 
ch7_les chaines de caractères.pdf
ch7_les chaines de caractères.pdfch7_les chaines de caractères.pdf
ch7_les chaines de caractères.pdf
FadouaBouafifSamoud
 
Manipulation des Données , cours sql oracle
Manipulation des Données , cours sql oracleManipulation des Données , cours sql oracle
Manipulation des Données , cours sql oracle
webreaker
 
Scbd cg conception
Scbd cg conceptionScbd cg conception
Scbd cg conception
vangogue
 
Algorithmique&Langage C-Partie1 BTS.pptx
Algorithmique&Langage C-Partie1 BTS.pptxAlgorithmique&Langage C-Partie1 BTS.pptx
Algorithmique&Langage C-Partie1 BTS.pptx
Facebokma
 
Chapitre3TableauxEnCppV2019
Chapitre3TableauxEnCppV2019Chapitre3TableauxEnCppV2019
Chapitre3TableauxEnCppV2019
Aziz Darouichi
 

Similaire à Introduction_R.pdf (20)

Conception de base_de_l_algorithme
Conception de base_de_l_algorithmeConception de base_de_l_algorithme
Conception de base_de_l_algorithme
 
Cours3 gdm sql
Cours3 gdm sqlCours3 gdm sql
Cours3 gdm sql
 
syntax-matlab.pdf
syntax-matlab.pdfsyntax-matlab.pdf
syntax-matlab.pdf
 
Support_Cours_SQL.ppt
Support_Cours_SQL.pptSupport_Cours_SQL.ppt
Support_Cours_SQL.ppt
 
La 2ème partie de la présentation PHP
La 2ème partie de la présentation PHPLa 2ème partie de la présentation PHP
La 2ème partie de la présentation PHP
 
presentationatelierphpprt2-140314143938-phpapp02.pdf
presentationatelierphpprt2-140314143938-phpapp02.pdfpresentationatelierphpprt2-140314143938-phpapp02.pdf
presentationatelierphpprt2-140314143938-phpapp02.pdf
 
Benharratharijtp2 classification
Benharratharijtp2 classificationBenharratharijtp2 classification
Benharratharijtp2 classification
 
Jet Reports Pour Microsoft Dynamics NAV
Jet Reports Pour Microsoft Dynamics NAVJet Reports Pour Microsoft Dynamics NAV
Jet Reports Pour Microsoft Dynamics NAV
 
Guidetalendd
GuidetalenddGuidetalendd
Guidetalendd
 
SQL.pdf
SQL.pdfSQL.pdf
SQL.pdf
 
SQL partie III
SQL partie IIISQL partie III
SQL partie III
 
Excel : Les fonctions mathématiques
Excel : Les fonctions mathématiquesExcel : Les fonctions mathématiques
Excel : Les fonctions mathématiques
 
TP Fouille de données (Data Mining) et Apprentissage Machine
TP Fouille de données (Data Mining) et Apprentissage MachineTP Fouille de données (Data Mining) et Apprentissage Machine
TP Fouille de données (Data Mining) et Apprentissage Machine
 
Theme 9(bis)
Theme 9(bis)Theme 9(bis)
Theme 9(bis)
 
Theme 6
Theme 6Theme 6
Theme 6
 
ch7_les chaines de caractères.pdf
ch7_les chaines de caractères.pdfch7_les chaines de caractères.pdf
ch7_les chaines de caractères.pdf
 
Manipulation des Données , cours sql oracle
Manipulation des Données , cours sql oracleManipulation des Données , cours sql oracle
Manipulation des Données , cours sql oracle
 
Scbd cg conception
Scbd cg conceptionScbd cg conception
Scbd cg conception
 
Algorithmique&Langage C-Partie1 BTS.pptx
Algorithmique&Langage C-Partie1 BTS.pptxAlgorithmique&Langage C-Partie1 BTS.pptx
Algorithmique&Langage C-Partie1 BTS.pptx
 
Chapitre3TableauxEnCppV2019
Chapitre3TableauxEnCppV2019Chapitre3TableauxEnCppV2019
Chapitre3TableauxEnCppV2019
 

Dernier

Proyecto Erasmus Jardineros y jardineras de paz
Proyecto Erasmus Jardineros y jardineras de pazProyecto Erasmus Jardineros y jardineras de paz
Proyecto Erasmus Jardineros y jardineras de paz
Morzadec Cécile
 
Bibliothèque de L'Union - Bilan de l'année 2023
Bibliothèque de L'Union - Bilan de l'année 2023Bibliothèque de L'Union - Bilan de l'année 2023
Bibliothèque de L'Union - Bilan de l'année 2023
Bibliothèque de L'Union
 
cours-LasergrammetrieLe « LiDAR», de l’anglais « Light.pptx
cours-LasergrammetrieLe « LiDAR», de l’anglais « Light.pptxcours-LasergrammetrieLe « LiDAR», de l’anglais « Light.pptx
cours-LasergrammetrieLe « LiDAR», de l’anglais « Light.pptx
AbdessamadAmimi1
 
Veille Audocdi 90 - mois de juin 2024.pdf
Veille Audocdi 90 - mois de juin 2024.pdfVeille Audocdi 90 - mois de juin 2024.pdf
Veille Audocdi 90 - mois de juin 2024.pdf
frizzole
 
Presentation powerpoint sur la filiere electrotechnique
Presentation powerpoint sur la filiere electrotechniquePresentation powerpoint sur la filiere electrotechnique
Presentation powerpoint sur la filiere electrotechnique
mohammadaminejouini
 
Textes de famille concernant les guerres V2.pdf
Textes de famille concernant les guerres V2.pdfTextes de famille concernant les guerres V2.pdf
Textes de famille concernant les guerres V2.pdf
Michel Bruley
 
BATIMENT 5.pptx. Fil français tourné en France
BATIMENT 5.pptx. Fil français tourné en FranceBATIMENT 5.pptx. Fil français tourné en France
BATIMENT 5.pptx. Fil français tourné en France
Txaruka
 

Dernier (7)

Proyecto Erasmus Jardineros y jardineras de paz
Proyecto Erasmus Jardineros y jardineras de pazProyecto Erasmus Jardineros y jardineras de paz
Proyecto Erasmus Jardineros y jardineras de paz
 
Bibliothèque de L'Union - Bilan de l'année 2023
Bibliothèque de L'Union - Bilan de l'année 2023Bibliothèque de L'Union - Bilan de l'année 2023
Bibliothèque de L'Union - Bilan de l'année 2023
 
cours-LasergrammetrieLe « LiDAR», de l’anglais « Light.pptx
cours-LasergrammetrieLe « LiDAR», de l’anglais « Light.pptxcours-LasergrammetrieLe « LiDAR», de l’anglais « Light.pptx
cours-LasergrammetrieLe « LiDAR», de l’anglais « Light.pptx
 
Veille Audocdi 90 - mois de juin 2024.pdf
Veille Audocdi 90 - mois de juin 2024.pdfVeille Audocdi 90 - mois de juin 2024.pdf
Veille Audocdi 90 - mois de juin 2024.pdf
 
Presentation powerpoint sur la filiere electrotechnique
Presentation powerpoint sur la filiere electrotechniquePresentation powerpoint sur la filiere electrotechnique
Presentation powerpoint sur la filiere electrotechnique
 
Textes de famille concernant les guerres V2.pdf
Textes de famille concernant les guerres V2.pdfTextes de famille concernant les guerres V2.pdf
Textes de famille concernant les guerres V2.pdf
 
BATIMENT 5.pptx. Fil français tourné en France
BATIMENT 5.pptx. Fil français tourné en FranceBATIMENT 5.pptx. Fil français tourné en France
BATIMENT 5.pptx. Fil français tourné en France
 

Introduction_R.pdf

  • 1. Table des matières 1 Introduction à R 1 2 Recoder une variable 10 3 Création de variable par calculs 12 4 Analyse descriptive (variable catégorique) 13 5 Analyse descriptive (variable numérique) 16 6 Intervalles de conance 23 7 Test sur une moyenne 27 8 Test sur une proportion 32 9 Test sur deux moyennes (échantillons indépendants) 35 10 Test sur deux moyennes (échantillons appariés) 41 11 Test sur plusieurs moyennes (ANOVA) 44 12 Test d'ajustement 53 13 Test d'indépendance (tableau croisé) 56 14 Test de corrélation linéaire 62 15 Régression linéaire 66 i
  • 2. 1 INTRODUCTION À R 1 Introduction à R 1.1 Jeu de données R R un logiciel gratuit d'analyse statistique fonctionnant par lignes de commandes. On peut le télécharger à l'adresse suivante : https ://www.r-project.org/. Une fois le logiciel ouvert, il est possible d'importer un jeu de données (*.csv, *.txt, etc.) ou de créer votre propre jeu de données. La gure 1 illustre la fenêtre à l'ouverture du logiciel. Figure 1 Fenêtre d'ouverture MQG222 1 ©Lévesque-Bélanger-Turcotte-Chabot
  • 3. 1.1 Jeu de données R 1 INTRODUCTION À R Pour installer un Package manquant qui donnerait accès à une ou plusieurs commandes, il est possible de cliquer sur Packages et sur Installer le(s) package(s), ou d'utiliser la commande install.packages() en y inscrivant le nom du Package à installe entre guillemets. Pour lire un jeu de données, il faut utiliser la commande read.table() dans laquelle on doit inscrire, entre guillemets, le chemin menant à ce jeu de données sur l'ordinateur. Cependant, cette commande ne fait que lire le chier. Il est important de donner un nom à ce jeu de données maintenant ouvert à partir de l'opérateur -. Par exemple, si on souhaite lire le chier immobilier.txt contenant une liste de propriétés à vendre et leurs caractéristiques, on aurait la ligne de code suivante : immobilier - read.table(C:/.../immobilier.txt) Dépendamment de la façon dont les données sont présentées dans le chier, il sera peut-être per- tinent d'indiquer quelques informations pertinentes dans la commande. En eet, si on ouvre le chier immobilier.txt dans Bloc-notes, on remarque que les séparateurs de données sont des points-virgules, (sep= ;), que le chier contient une entête (header=TRUE), que le symbole indiquant des chaînes de caractères est autre que le guillemet double (quote=') et que la virgule est utilisée (au lieu du point) pour les nombres décimaux (dec=,). Il faudrait alors produire la commande suivante : immobilier - read.table(C:/.../immobilier.txt, sep=;, header=TRUE, quote=', dec=,) MQG222 2 ©Lévesque-Bélanger-Turcotte-Chabot
  • 4. 1.1 Jeu de données R 1 INTRODUCTION À R Remarque : L'opérateur - est important, puisqu'il permet de nommer les résultats d'une commande et de s'y référer facilement et rapidement par la suite. N'hésitez pas à en abuser! Il est même possible de lister l'ensemble des variables ainsi créées par cet opérateur à partir de la commande ls() (rien à inscrire dans les parenthèses). Remarque : Si une erreur a été produite dans une commande, mais que vous ne souhaitez pas devoir tout réécrire, il sut d'appuyer sur la èche d'en haut à une ou plusieurs reprises pour retrouver une ancienne commande. Pour déterminer les dimensions d'un jeu de données, il sut d'utiliser la commande dim() en y insérant le jeu de données : MQG222 3 ©Lévesque-Bélanger-Turcotte-Chabot
  • 5. 1.1 Jeu de données R 1 INTRODUCTION À R Pour connaître le nom des variables d'un jeu de données, il sut d'utiliser la commande names() en y insérant le jeu de données : Si vous souhaitez modier le nom d'une variable, il faut insérer le nouveau nom (à l'aide de l'opérateur -) à l'emplacement de l'ancien nom dans le vecteur donné par la commande names(). Par exemple : MQG222 4 ©Lévesque-Bélanger-Turcotte-Chabot
  • 6. 1.1 Jeu de données R 1 INTRODUCTION À R Pour obtenir les données d'une colonne en particulier, il faut utiliser le symbole $ entre le nom du jeu de données et le nom de la colonne : Pour connaître les modalités d'une variable catégorique, la commande à utiliser est levels(). On doit y insérer la variable étudiée. Par exemple : MQG222 5 ©Lévesque-Bélanger-Turcotte-Chabot
  • 7. 1.1 Jeu de données R 1 INTRODUCTION À R Pour obtenir les résultats d'une ligne ou d'un ensemble de lignes, il faut utiliser les crochets ([]) à l'intérieur desquels on doit spécier la (ou les) ligne(s) souhaitées ainsi que la (ou les) colonne(s) souhaitées, séparées d'une virgule. Par exemple, si on souhaite obtenir le prix de la 90e propriété, on aurait : Et si on souhaite obtenir le prix et la supercie des propriétés 10 à 20, on aurait : Si on souhaite l'ensemble des informations d'une propriété, il sut de ne rien inscrire après la virgule. MQG222 6 ©Lévesque-Bélanger-Turcotte-Chabot
  • 8. 1.1 Jeu de données R 1 INTRODUCTION À R Pour sélectionner un sous-ensemble d'observations, il sut d'utiliser la commande subset() dans laquelle on insère le jeu de données utilisé et une condition logique. Les conditions logiques retournent un vrai ou un faux. On peut utiliser une liste de symboles telles que (inférieur), (supérieur), = (plus petit ou égal), = (plus grand ou égal), == (est égal à),!= (n'est pas égal à), | (ou), (et), etc. Par exemple, si on prend le jeu de données Hotel.csv et qu'on souhaite étudier les hôtels économiques, il faudrait inscrire la condition Type==Economique : Si on souhaite étudier les hôtels économiques et de luxe, il faudrait inscrire la condition Type==Economique | Type==Luxe : MQG222 7 ©Lévesque-Bélanger-Turcotte-Chabot
  • 9. 1.1 Jeu de données R 1 INTRODUCTION À R Il est aussi possible de créer son propre jeu de données à partir de la commande data.frame(), en y insérant des vecteurs de données qu'on peut nommer. Un vecteur (commande c()) est une liste de données présentée en une seule ligne ou en une seule colonne. Par exemple : On peut aussi ajouter de nouvelles données (commande rbind()) ou des nouvelles variables (com- mande cbind()) à un jeu de données. Par exemple : MQG222 8 ©Lévesque-Bélanger-Turcotte-Chabot
  • 10. 1.1 Jeu de données R 1 INTRODUCTION À R On peut retirer des données ou des variables à l'aide des crochets ([]) permettant d'acher une ligne ou une colonne précise. En inscrivant un nombre négatif, le logiciel achera l'ensemble des données exceptée la ligne ou la colonne mentionnée. MQG222 9 ©Lévesque-Bélanger-Turcotte-Chabot
  • 11. 2 RECODER UNE VARIABLE 2 Recoder une variable Dans le cadre d'une analyse de données, il est parfois utile que l'analyste recodie une variable existante en une nouvelle variable. Les codes associés aux modalités existantes d'une variable catégorique (nominale ou ordinale) peuvent être modiés. On pourrait aussi créer des classes à partir d'une variable numérique comme le revenu annuel. Pour eectuer un recodage, nous aurons besoin de la commande recode() de la librairie car. Dans cette commande, on doit y inscrire le nom de la variable et les modications proposées entre guillemets simples, séparées par des points-virgules. Exemple 2.1 Une étude de marché est menée auprès d'un certain nombre de clients d'une boutique de jeux. L'objectif est de savoir si un nouveau pub ludique (où il est possible de prendre un verre en jouant à des jeux de société) au centre-ville pourrait générer assez d'achalandage et de mieux cerner la clientèle qu'on pourrait rejoindre avec ce type d'établissement. La jeu de données Ludique.csv contient les résultats de cette étude. On pourrait par exemple vouloir grouper les quatre niveaux de scolarité en deux groupes seulement : primaire et secondaire ensemble et collégial et université ensemble. La gure 2 illustre le recodage. La nouvelle variable scolarite2 est créée. Figure 2 Recodage d'une variable catégorique MQG222 10 ©Lévesque-Bélanger-Turcotte-Chabot
  • 12. 2 RECODER UNE VARIABLE On pourrait aussi vouloir transformer la variable Revenu en une variable ordinale. Pour ce faire il faudra faire des classes de salaires. Ici on a 20 données, et donc d'après la règle du 2 à la k, il est suggéré de faire 5 classes. Par contre, ici nous ne ferons que 4 classes. En eet, pour bien des analyses statistiques, il est préférable de ne pas avoir des variables avec trop de modalités. Ainsi, bien souvent, ce sont le contexte et le bon jugement qui décident du nombre de classes... Ici le minimum des salaires est 0 $ et le maximum est 100 000 $. Ainsi la largeur des classes devrait être d'environ 25 000 $, ce qui donnerait les classes de moins de 25 000 $, de 25 000 $ à moins de 50 000 $, de 50 000 $ à moins de 75 000 $ et de 75 000 $ et plus. On peut aussi laisser la première et la dernière classe ouvertes , c'est ce que nous ferons. Ce type de recodage peut s'eectuer à partir de la commande cut() dans laquelle on insère la variable numérique à recoder suivie des valeurs séparant les intervalles. Il est suggéré d'ajouter include.lowest=TRUE pour s'assurer que la borne inférieure du premier intervalle contienne la valeur minimale du jeu de don- nées. Figure 3 Recodage d'une variable numérique MQG222 11 ©Lévesque-Bélanger-Turcotte-Chabot
  • 13. 3 CRÉATION DE V ARIABLE PAR CALCULS 3 Création de variable par calculs Les variables à analyser ne sont pas toujours présentes dans la jeu de données. Il faut parfois les obtenir à partir d'un calcul. Par exemple, pour obtenir la variable Prot, on pourrait soustraire les coûts des revenus. Exemple 3.1 La jeu de données Café.csv contient des données provenant d'un café géré par des étu- diants de premier cycle dans une université canadienne. Elles ont été recueillies sur une période de dix semaines de janvier à mars 2017. Les variables comprennent le nombre d'articles vendus et jetés. On aimerait analyser le nombre d'articles jetés par jour. Pour ce faire, on doit créer une nouvelle variable Pertes dont le calcul se ferait comme suit : Pertes = SandwichsJ + WrapsJ + MunsJ + Ca- fesJ. Il sut alors d'utiliser l'opérateur - pour associer le résultat de ce calcul à une nouvelle variable. MQG222 12 ©Lévesque-Bélanger-Turcotte-Chabot
  • 14. 4 ANALYSE DESCRIPTIVE (V ARIABLE CATÉGORIQUE) 4 Analyse descriptive (variable catégorique) Pour une variable d'échelle de mesure nominale ou ordinale, on aimerait obtenir les fréquences abso- lues et relatives ainsi que des diagrammes tels que le diagramme en bâtons ou le diagramme circulaire. Pour obtenir le tableau des fréquences absolues, il faut utiliser la commande table(). Pour les fréquences relatives, il s'agit de la commande prop.table() dans laquelle on fournit un tableau de fréquence ab- solues. Le diagramme en bâtons peut être obtenu à partir de la commande barplot() dans laquelle on fournit un tableau de fréquence. Le diagramme circulaire peut quant à lui être obtenu à partir de la commande pie() dans laquelle on fournit un tableau de fréquence. Exemple 4.1 Considérons un exemple d'une course au leadership pour un nouveau parti politique. Une étude est commandée an de savoir quel candidat, parmi les quatre candidats en lice, a le plus grand po- tentiel d'impact sur la population. Une rme de consultants mène donc une étude auprès de 400 électeurs répartis un peu partout en province. Une question possible dans ce sondage pourrait bien être la suivante : - Parmi les candidats suivants, lequel voudriez-vous élire comme chef du parti? Candidat 1 □ (158 votes) Candidat 2 □ (175 votes) Candidat 3 □ (51 votes) Candidat 4 □ (16 votes) Les nombres entre parenthèses illustrent la répartition nale des réponses des électeurs questionnés. Le chier candidat.csv traitant cette étude contient deux colonnes. Plus précisément, une colonne d'identication ident (inutile aux traitements statistiques mais nécessaire pour retracer les erreurs de saisie) et une colonne représentant la variable à l'étude pouvant être appelée candidat. MQG222 13 ©Lévesque-Bélanger-Turcotte-Chabot
  • 15. 4 ANALYSE DESCRIPTIVE (V ARIABLE CATÉGORIQUE) Pour être en mesure de connaître la compilation des votes pour chacun des candidats, il faut déga- ger un tableau de répartition des fréquences. Pour obtenir la gure 4, il faut eectuer les commandes mentionnées au début de cette section. Voici ce qu'on obtient : Figure 4 Distribution des fréquences Le tableau de la distribution des fréquences (gure 4) met en évidence la popularité de chacun des candidats. On remarque facilement que deux candidats se démarquent des autres : le candidat 1 avec 158 votes sur 400, représentant 39,5 % des votes, et le candidat 2 avec 175 votes sur 400, représentant 43,8 % des votes. Ainsi, en se basant sur l'échantillon, l'analyste est en droit de dire que ponctuellement, on peut estimer la proportion de la population en faveur du candidat 2 (le paramètre πcandidat 2) à 43,8 %. MQG222 14 ©Lévesque-Bélanger-Turcotte-Chabot
  • 16. 4 ANALYSE DESCRIPTIVE (V ARIABLE CATÉGORIQUE) Exemple 4.2 L'exemple qui suit se base sur une véritable enquête qui a été menée sur le stress au travail d'un échantillon représentatif des employés dans une entreprise internationale. Le questionnaire a été passé en France et au Canada. La jeu de données SPSS se nomme Stress.csv. Faites l'analyse descriptive de la variable statut. La gure 5 présente les sorties qui décrivent la variable statut. Figure 5 Les fréquences et le diagramme en bâtons Le tableau de distribution des fréquences illustre que 52,8 % sont des employés de production et que 85,1 % des employés ne sont pas cadres. (Est-ce que le ratio employé/cadre est bon pour ce type d'entreprise qui est une entreprise de production? À voir dans vos autres cours, la réponse à cette question pourrait vous orienter vers une restructuration...). Le diagramme circulaire illustre la dispersion des diérents statuts professionnels dans l'entreprise. MQG222 15 ©Lévesque-Bélanger-Turcotte-Chabot
  • 17. 5 ANALYSE DESCRIPTIVE (V ARIABLE NUMÉRIQUE) 5 Analyse descriptive (variable numérique) Pour une variable d'échelle de mesure intervalle ou ratio, on aimerait obtenir les statistiques de tendance centrale, de dispersion et de forme ainsi que des diagrammes tels que l'histogramme ou le dia- gramme à moustache. Pour ce faire, on aura besoin des commandes boxplot(), summary(), mean(), median(), min(), max(), range(), quantile(), IQR(), Sd(), Var() ainsi que des commandes skewness(), kurtosis(), agostino.test() et anscombe.test() de la bibliothèque moments. Remarques : 1. La commande mean() permet de calculer des moyennes tronquées en spéciant par exemple : trim=0.05. 2. L'histogramme peut être personnalisé en spéciant le nom de l'histogramme (main=Histogramme) ou le nom des axes (xlab=variable). 3. Si le jeu de données contient des valeurs manquantes, il faut spécier qu'on ne souhaite pas en tenir compte lors des calculs (commande na.rm=TRUE) Exemple 5.1 Un franchisé aimerait avoir droit à plus d'employés sur le plancher de son magasin. Selon les normes de la compagnie, pour qu'un magasin passe de la classe A à la classe B et ainsi avoir droit à plus d'employés, il faut que les ventes quotidiennes dépassent 5 000 $ la plupart du temps. Ainsi, on a étudié les ventes de 50 jours. Les résultats se retrouvent dans la jeu de données franchisé.csv. MQG222 16 ©Lévesque-Bélanger-Turcotte-Chabot
  • 18. 5 ANALYSE DESCRIPTIVE (V ARIABLE NUMÉRIQUE) À l'aide de R, on obtient la gure 6, la gure 7 et la gure 8 : Figure 6 Les statistiques descriptives Figure 7 Diagramme à moustaches MQG222 17 ©Lévesque-Bélanger-Turcotte-Chabot
  • 19. 5 ANALYSE DESCRIPTIVE (V ARIABLE NUMÉRIQUE) Figure 8 L'histogramme Figure 9 Tests de normalité MQG222 18 ©Lévesque-Bélanger-Turcotte-Chabot
  • 20. 5 ANALYSE DESCRIPTIVE (V ARIABLE NUMÉRIQUE) Ponctuellement, on estime les ventes moyennes à x = 6 811, 31 $. La médiane est de 6 637,01 $. Comme la diérence entre la médiane et la moyenne échantillonnale ne représente que 2,55 % 6 811, 31 − 6 637, 01 6 811, 31 de la valeur de la moyenne, la moyenne semble une valeur able pour représenter les ventes typiques, la valeur centrale. Cependant, il semble y avoir de la volatilité au niveau des ventes. L'écart-type est de 1 789,02 $, ce qui représente un coecient de variation de CV = 1 789, 02 6 811, 31 = 0, 2627. Donc, même si la moyenne semble correspondre à la valeur centrale, elle est plus ou moins représentative de l'ensemble des données. Il serait donc imprudent d'armer que les ventes se situent habituellement près de 6 811,31 $. En eet, la valeur de la moyenne n'indique en rien la dispersion des données. Elle n'est pas en mesure de tenir compte d'autres facteurs comme le moment de l'année. Mais, ceci n'invalide en rien la moyenne en elle-même. Les ventes les moins élevées sont de 4 002,70 $. À l'opposé, les ventes les plus élevées sont de 9 987,96 $ à la compagnie. L'étendue est donc de 5 985,26 $. L'intervalle interquartile se chire quant à lui à 3 154,09 $. Il s'agit de l'étendue de l'intervalle borné par 50 % des données centrales. Le coecient d'asymétrie est de 0,0969, ce qui est près de 0. Le test de D'Agostino indique une valeur-z de 0, 3114 ( 2). Ainsi, nous ne rejetons pas la normalité de la courbe. La distribution semble symétrique. Du côté de l'aplatissement, on a un coecient de 1,6769, ce qui semble relativement éloigné de 3. Comme la valeur-z du test d'Anscombe-Glynn est de −4, 3921 ( −2), nous rejetons la normalité de la courbe. Il semble y avoir un aplatissement signicatif pour conclure à la non-normalité. En somme, la valeur centrale des ventes est de près de 7 000 $, ce qui est plus élevé que la valeur de 5 000 $ exigée pour passer à la classe B. Même si la variation des ventes est grande (écart-type de 1 789,02 $), ça ne sut pas pour croire qu'une bonne partie des ventes se trouve sous la barre des 5 000 $. Les ventes les moins élevées sont de 4 002,70 $. Un passage à la classe B semble donc envisageable. Remarque : Lorsque les coecients d'asymétrie et d'aplatissement nous indiquent que la distribution semble symétrique et aplatie comme une courbe normale, cela n'assure pas la normalité pour autant; elle n'est simplement pas rejetée. En eet, il faut comprendre que ces statistiques mesurent respectivement l'asymétrie et l'aplatissement de façon indépendante et non conjointe. Elles ne sont que des règles du pouce. MQG222 19 ©Lévesque-Bélanger-Turcotte-Chabot
  • 21. 5 ANALYSE DESCRIPTIVE (V ARIABLE NUMÉRIQUE) Exemple 5.2 Reprenons l'exemple de la jeu de données Stress.csv (exemple 4 p.15) qui se base sur une véritable enquête qui a été menée sur le stress au travail. La gure 10 donne un aperçu des variables qui étaient à l'étude, grâce à la commande names(). Figure 10 Les variables à l'étude Il est à noter que les questions peur_sup, accs_sup et stress ont été mesurées à l'aide d'une échelle qui est constituée d'une ligne de 15 cm de long et sur laquelle l'individu est invité à apposer un X sur la partie de la droite qui correspond à son opinion. Avec cette droite, toutes les valeurs sont possibles. Voici un exemple lié à la variable peur_sup du chier : Q2 : J'ai peur d'exprimer mon désaccord à mon supérieur immédiat. (Mettre un X sur la partie de la droite qui correspond le mieux à votre opinion, en sachant que le 0 correspond à tout à fait en désaccord , et le 15 à tout à fait en accord .) | × | 0 15 Comme illustré sur cet exemple, l'individu positionne un X sur la droite représentant ainsi son opinion. Une fois le X inscrit par le répondant, le praticien mesure, à l'aide d'une règle, la distance en cm entre le niveau de Tout à fait en désaccord (0cm) jusqu'au premier endroit où le X coupe la droite. C'est justement cette valeur (en cm) qui sera inscrite dans le chier de données SPSS à titre de réponse de l'individu. En somme, plus la valeur en cm est élevée, plus l'individu est en accord avec l'armation. Faites l'analyse descriptive de la variable stress. MQG222 20 ©Lévesque-Bélanger-Turcotte-Chabot
  • 22. 5 ANALYSE DESCRIPTIVE (V ARIABLE NUMÉRIQUE) Figure 11 Les statistiques L'analyse de la sortie 11 illustre que, ponctuellement, la mesure du niveau de stress moyen s'estime à 4,8037 points sur une possibilité de 15 points. La moyenne tronquée de 5 % est de 4,5180 points et la médiane est de 5 points. Ces deux statistiques sont près de la moyenne échantillonnale. En eet, la diérence entre la moyenne tronquée et la moyenne représente seulement 5,95 % de la valeur de la moyenne, ce qui est inférieur à 10 %. L'analyste est conant que le niveau de stress typique est bien estimé et tourne vraisemblablement autour de 4,8 points. MQG222 21 ©Lévesque-Bélanger-Turcotte-Chabot
  • 23. 5 ANALYSE DESCRIPTIVE (V ARIABLE NUMÉRIQUE) Figure 12 Le diagramme à moustaches et l'histogramme Cependant, l'écart-type échantillonnal de 3,55354 points illustre qu'il y a beaucoup de variation parmi l'ensemble des employés. Même si le niveau de stress typique est bien estimé, avec un coecient de variation nettement supérieur à 0,30 (il a une valeur de CV = 3,55354 4,8037 = 0, 7398 !), la moyenne n'est pas représentative des données (ne résume pas bien les données). À cet eet, les valeurs minimum et maximum sont de 0 et 15 points respectivement illustrant qu'au moins deux individus vivent des stress diamétralement opposés. L'étendue est donc de 15 points, tandis que l'étendue de l'intervalle interquartile est de 5 points. L'histogramme démontre qu'un groupe d'individus particulièrement stressés se détache des autres (Est-ce les cadres ? À voir en analyse bivariée plus tard). Le coecient d'asymétrie est de 1,0217, ce qui est assez loin de 0. Le test de D'Agostino indique une valeur-z de 4, 6977 ( 2). Ainsi, nous rejetons la normalité de la courbe. Il semble y avoir une asymétrie prononcée vers la droite. Du côté de l'aplatissement, on a un coecient de 4,174, ce qui semble loin de 3. Comme la valeur-z du test d'Anscombe-Glynn est de 2, 426 ( 2), nous rejetons la normalité de la courbe. Par rapport à la distribution normale, la distribution des données illustre un sommet plus pointu. MQG222 22 ©Lévesque-Bélanger-Turcotte-Chabot
  • 24. 6 INTER V ALLES DE CONFIANCE 6 Intervalles de conance L'intervalle de conance estimant la moyenne d'une population est donné par la commande R sui- vante : t.test(). Pour estimer une proportion dans la population, il faudra d'abord calculer le nombre de succès et le nombre de tentatives avec les commandes sum() ou length() pour ensuite obtenir l'inter- valle de conance à l'aide de la commande prop.test(). Il est possible de spécier le niveau de conance en ajoutant par exemple conf.level=0.95. Exemple 6.1 Poursuivons l'exemple 5 (p.16) avec la jeu de données Franchisé.csv. Dans R, c'est la loi de Student qui est utilisée pour calculer les intervalles de conance sur une moyenne. Comme s2 est utilisée pour estimer σ2 qui est inconnue, il faudrait s'assurer que la population d'origine suive une loi normale. L'histogramme de la gure 8 ne semble pas conrmer cette hypothèse, puisque la distribution est aplatie. Mais, comme le nombre d'observation est grand (n = 50 ≥ 30), le résultat de l'intervalle de conance est assez able. On verra plus tard comment vérier formellement la normalité d'une population. Figure 13 L'intervalle de conance de niveau 95 % On voit donc qu'au niveau de la population, les ventes moyennes se situent entre 6 302,88 $ et 7 319,75 $, et ce 19 fois sur 20. De façon équivalente, les ventes moyennes s'estiment à 6 811,31 $ avec une marge d'erreur de ±508,44 $, et ce, 19 fois sur 20. MQG222 23 ©Lévesque-Bélanger-Turcotte-Chabot
  • 25. 6 INTER V ALLES DE CONFIANCE Si on modie le niveau de conance à 90 %, on obtient la sortie 14 : Figure 14 L'intervalle de conance de niveau 90 % On voit donc qu'au niveau de la population, les ventes moyennes ont une probabilité de 90 % de se situer entre 6 387,14 $ et 7 235,49 $. MQG222 24 ©Lévesque-Bélanger-Turcotte-Chabot
  • 26. 6 INTER V ALLES DE CONFIANCE Exemple 6.2 Un agent immobilier de Sherbrooke aimerait mieux cerner le marché des propriétés à vendre dans cette ville. Il a recueilli un échantillon de 100 propriétés et voudrait analyser les résultats qu'on retrouve dans la jeu de données Immobilier.csv. Supposons que l'on désire un intervalle de conance pour la proportion de condos à vendre dans cette population. Voici les fréquences des types de propriétés (voir section 4 p.13 pour les manipulations) : Figure 15 Les fréquences et le diagramme en bâtons MQG222 25 ©Lévesque-Bélanger-Turcotte-Chabot
  • 27. 6 INTER V ALLES DE CONFIANCE De façon ponctuelle, on voit que la proportion de condos est estimée à 29 %. Ainsi, puisque n = 100 30, np = 100 · 0, 29 = 29 5 et n(1 − p) = 100 · (1 − 0, 29) = 71 5, l'intervalle de conance pour cette proportion sera valide. Pour obtenir l'intervalle de conance de niveau 95 % pour πCondo, il faut utiliser la commande prop.test() dans laquelle on doit inscrire le nombre de condos (appelés ici les succès) et le nombre total d'observations (appelés ici les tentatives). La commande sum() dans laquelle on inscrit une condition logique (Type==Condo) permettra de dénombrer les condos de l'échantillon. La commande length() retournera le nombre d'observations dans l'échantillon. Voici ce qu'on obtient : Figure 16 Intervalle de conance pour une proportion Par défaut, la fonction prop.test() applique une correction à la continuité. Cette correction n'est pas nécessaire lorsque l'échantillon est grand (ici, n = 100 ≥ 30). C'est pourquoi on a ajouté l'argument correct=FALSE. La gure 16 nous indique que ponctuellement, la proportion de condos est de 29 %. Dans la population, la proportion de condos est comprise entre 21,01 % et 38,54 %, et ce, 19 fois sur 20 (ou avec 95 % des chances d'avoir raison). MQG222 26 ©Lévesque-Bélanger-Turcotte-Chabot
  • 28. 7 TEST SUR UNE MOYENNE 7 Test sur une moyenne (a) Mentionner le seuil de signication (α). (b) Test de normalité : (b1) Formuler les hypothèses de normalité de la population. (b2) Prendre une décision compte tenu des résultats obtenus. (b3) Donner une conclusion. Remarque : Si l'un des deux tests rejette la normalité, on mettra un bémol sur la validité des résultats associés à cette population. Si les deux tests (Kolmogorov-Smirnov et Shapiro-Wilk) rejettent la normalité, le test principal et l'intervalle de conance ne seront théoriquement pas valide. Toutefois, le test étant robuste à la violation de cette condition, une grande taille d'échantillon donnera tout de même d'assez bons résultats. (c) Test principal : (c1) Formuler les hypothèses du test sur une moyenne en relation avec le contexte. (c2) Prendre une décision compte tenu des résultats obtenus. (c3) Donner une conclusion. (d) Si H0 est rejetée, donner un intervalle de conance estimant la moyenne au niveau de la population. MQG222 27 ©Lévesque-Bélanger-Turcotte-Chabot
  • 29. 7 TEST SUR UNE MOYENNE Exemple 7.1 Reprenons le contexte de la jeu de données Immobilier.csv (Exemple 6 p.25). Pour inciter les gens de Montréal à considérer à acheter une propriété dans la région de Sherbrooke, on af- rme que les propriétés coûtent en moyenne moins de 225 000 $. Avec l'échantillon dont nous disposons, avons-nous assez de preuves pour appuyer cette armation au seuil α = 0, 05 ? On désire donc tester les hypothèses suivantes : H0 : µprix = 225 000 H1 : µprix 225 000 On utilisera le seuil de signication α = 0, 05 lors de cette analyse. On rejette H0 si la valeur-p est inférieure à ce seuil. Comme l'intervalle de conance avec σ2 inconnue, le test sur une moyenne avec Student exige que la population soit distribuée selon une loi normale. Nous ferons donc d'abord un test de normalité. Cependant, le test de Student est robuste, c'est-à-dire qu'il réagit bien à la violation de la condition de normalité. Ainsi, même si la population n'est pas tout à fait d'origine normale, le test d'hypothèses donnera d'assez bons résultats si la taille de l'échantillon est grande, ce qui est le cas ici : n = 100 ≥ 30. Pour vérier la normalité de la population, on peut observer la forme de l'histogramme, se servir des statistiques d'asymétrie et d'aplatissement (kurtosis) tel que vu dans un chapitre 1, et/ou tester formel- lement la normalité en traitant le test d'hypothèses suivant pour le stress des employés de cette entreprise. H0 : Les données de la population se répartissent selon une loi normale. H1 : Les données de la population ne se répartissent pas selon une loi normale. MQG222 28 ©Lévesque-Bélanger-Turcotte-Chabot
  • 30. 7 TEST SUR UNE MOYENNE Pour résoudre ce test, il faut d'abord eectuer les commandes shapiro.test() et lillie.test() (librairie nortest). On obtient les sorties suivantes : Figure 17 Vérication de la normalité des données Figure 18 Histogramme MQG222 29 ©Lévesque-Bélanger-Turcotte-Chabot
  • 31. 7 TEST SUR UNE MOYENNE On y retrouve les valeurs-p associées aux statistiques de Shapiro-Wilk et Kolmogorov-Smirnov qui nous permettent de résoudre le test d'hypothèses. La littérature ne s'entend pas sur lequel des deux tests est le plus performant. On considérera donc les deux valeurs-p en même temps. Ainsi, lorsque les deux tests fournissent la même conclusion, on est conant du résultat. Il peut par contre arriver qu'un seul des deux tests rejette la normalité (zone grise). Étant donné que la procédure statistique que nous verrons est assez robuste à la violation de la normalité, nous poursuivrons parfois l'analyse même si l'une des deux statistiques (ou les deux) rejette la normalité, si la taille d'échantillon est très grande. On note ici que la valeur-pS−W = 0, 000 0, 05 et la valeur-pK−S = 0, 000 0, 05. On rejette donc H0. Au risque de se tromper une fois sur 20, les données de cette po- pulation (le prix des propriétés) ne se distribuent pas selon une loi normale. La forme de l'histogramme semble conrmer cette conclusion. On peut remarquer une asymétrie vers la droite. La normalité de la population d'origine n'est pas respectée, mais avec un échantillon de taille n = 100 ≥ 30, nous sommes conants que le test d'hypothèses donnera d'assez bons résultats. Pour obtenir la valeur-p qui nous permettra de résoudre le test principal, il sut d'utiliser la com- mande t.test() en y inscrivant le nom de la variable à tester ainsi que la valeur hypothétique de µ. Il est même possible de spécier le type de test (unilatéral à gauche, unilatéral à droite ou bilatéral) en ajoutant alternative=less, greater ou two.sided. Par défaut, le test sera bilatéral. On obtient les sorties suivantes : Figure 19 Test sur une moyenne MQG222 30 ©Lévesque-Bélanger-Turcotte-Chabot
  • 32. 7 TEST SUR UNE MOYENNE La sortie 19 contient quelques statistiques, dont la moyenne. On voit donc que le prix moyen d'une propriété de l'échantillon est de 203 805 $. Cela semble être inférieur à 225 000 $ de façon signicative, on s'attend donc à rejeter H0. On désire donc tester les hypothèses suivantes : H0 : µprix = 225 000 H1 : µprix 225 000 Ici, puisque valeur-p = 0, 022 0, 05, on rejette H0. Au risque de se tromper une fois sur 20, on peut armer que le prix moyen des propriétés est inférieur à 225 000 $ dans la population. La cote-t est de -2,04 (loin de 0), ce qui nous indique à quel point il est peu probable qu'un échantillon produise une moyenne de 203,805 si celle de la population est censée être 225. Nous venons d'armer que le prix moyen des propriétés est inférieur à 225 000 $. Un intervalle de conance pourrait nous informer plus précisément où se situe ce prix moyen. Pour l'obtenir, il faut eectuer un test bilatéral avec la commande t.test(). Figure 20 Intervalle de conance Au niveau de la population, le prix moyen des propriétés se situe entre 183 190 $ et 224 420 $ et ce, 19 fois sur 20. MQG222 31 ©Lévesque-Bélanger-Turcotte-Chabot
  • 33. 8 TEST SUR UNE PROPORTION 8 Test sur une proportion (a) Mentionner le seuil de signication (α). (b) Vérier les conditions de validité du test d'hypothèses : n ≥ 30, nπ0 ≥ 5 et n(1 − π0) ≥ 5. (c) Test principal : (c1) Formuler les hypothèses du test sur une proportion en relation avec le contexte. (c2) Prendre une décision compte tenu des résultats obtenus. (c3) Donner une conclusion. (d) Si H0 est rejetée, donner un intervalle de conance estimant la proportion au niveau de la popu- lation. MQG222 32 ©Lévesque-Bélanger-Turcotte-Chabot
  • 34. 8 TEST SUR UNE PROPORTION Exemple 8.1 Kickstarter est une communauté de plus de 10 millions de personnes composée d'ama- teurs créatifs et technologiques qui contribuent à la réalisation d'un projet créatif. Jusqu'à présent, plus de 3 milliards de dollars ont été apportés par les membres pour alimenter des projets créatifs. Les projets peuvent être littéralement n'importe quoi : un appareil, un jeu, une application, un lm, etc. Kickstarter fonctionne sur le principe du tout ou rien, c'est-à-dire que si un projet ne répond pas à son objectif, le propriétaire du projet ne reçoit rien. Récemment, Kickstarter a publié son dépôt de données publiques pour permettre aux chercheurs et aux passionnés comme nous de les aider à résoudre un problème. Un projet sera-t-il entièrement nancé? Un échantillon de 500 projets a été prélevé (kickstarter.csv). Au seuil α = 0, 01, peut-on croire que plus de 25 % des projets résultent en un succès ? H0 : π = 0, 25 H1 : π 0, 25 On utilisera le seuil de signication α = 0, 01 lors de cette analyse. On rejette H0 si la valeur-p est inférieure à ce seuil. Or, pour eectuer ce test, on doit s'assurer que certaines conditions sont respectées. Comme le démontre la gure ci-bas, on a n = 500 ≥ 30, nπ0 = 500 · 0, 25 = 125 ≥ 5 et n(1 − π0) = 500 · (1 − 0, 25) = 375 ≥ 5. On pourra donc poursuivre le test. Pour obtenir la valeur-p pour ce test il faut utiliser la commande prop.test() en y inscrivant le nombre de succès, le nombre d'observations ainsi que la valeur hypothétique de π. Il est suggéré de retirer la correction à la continuité (correct=FALSE). On peut aussi spécier le type de test (unilatéral à gauche, unilatéral à droite ou bilatéral) en ajoutant alternative=less, greater ou two.sided. Par défaut, le test sera bilatéral. On obtient alors les sorties suivantes : MQG222 33 ©Lévesque-Bélanger-Turcotte-Chabot
  • 35. 8 TEST SUR UNE PROPORTION On note ici que valeur-p = 0, 0019 0, 01. Donc, on rejette H0. Au risque de se tromper 1 fois sur 100, plus de 25 % des projets résultent en un succès dans la population. On estime cette proportion à 30,60 % avec une marge d'erreur de 5,53 % et ce, 99 fois sur 100 (I.C.(π) = [0, 2557; 0, 3613]). Il est à noter que bien que p = 0, 3060 0, 25, ce n'est pas susant pour armer que π 0, 25. C'est la valeur-p qui prouvera que la diérence entre la proportion de notre échantillon p et la proportion hypothétique π0 est assez grande pour qu'on soit sûr que ce n'est pas dû aux uctuations échantillonnales. MQG222 34 ©Lévesque-Bélanger-Turcotte-Chabot
  • 36. 9 TEST SUR DEUX MOYENNES (ÉCHANTILLONS INDÉPENDANTS) 9 Test sur deux moyennes (échantillons indépendants) (a) Mentionner le seuil de signication (α). (b) Test de normalité : (b1) Formuler les hypothèses de normalité de la population. (b2) Prendre une décision compte tenu des résultats obtenus. (b3) Donner une conclusion. Remarque : Si l'un des deux tests rejette la normalité, on mettra un bémol sur la validité des résultats associés à cette population. Si les deux tests (Kolmogorov-Smirnov et Shapiro-Wilk) rejettent la normalité, le test principal et l'intervalle de conance ne seront théoriquement pas valide. Toutefois, le test étant robuste à la violation de cette condition, de grandes tailles d'échantillons donneront tout de même d'assez bons résultats. (c) Test d'égalité des variances : (c1) Formuler les hypothèses d'égalité des variances des populations. (c2) Prendre une décision compte tenu des résultats obtenus. (c3) Donner une conclusion. (d) Test principal : (d1) Formuler les hypothèses sur les moyennes des deux populations. (d2) Lire la ligne du tableau correspondant à la conclusion du test d'égalité des variances et prendre une décision compte tenu des résultats obtenus. (d3) Donner une conclusion. (e) Si H0 est rejetée, donner une estimation ponctuelle et un intervalle de conance estimant la diérence entre les deux moyennes au niveau de la population. MQG222 35 ©Lévesque-Bélanger-Turcotte-Chabot
  • 37. 9 TEST SUR DEUX MOYENNES (ÉCHANTILLONS INDÉPENDANTS) Exemple 9.1 Récemment, les dirigeants d'une compagnie remarquent un nombre de démissions impor- tant. On se demande ce qui provoque cette masse de départ. La jeu de données Employés.csv contient des informations d'un échantillon de 200 employés. Plusieurs variables pourraient être en cause (salaire, accidents de travail, nombre d'heures travaillées, etc.). Au seuil α = 0, 05, pourrait-on croire que les employés qui ont quitté se trouvaient surchargés par le nombre d'heures de travail? Les hypothèses à tester sont les suivantes : H0 : µNon = µOui H1 : µNon µOui On utilisera le seuil de signication α = 0, 05 lors de cette analyse. On rejette H0 si la valeur-p est inférieure à ce seuil. Il faut d'abord vérier si les populations d'origine se distribuent selon une loi normale. Plus préci- sément, on désire tester les hypothèses suivantes pour chacun des deux groupes (ceux qui ont quitté la compagnie et ceux qui sont restés) : H0 : Les données de la population se répartissent selon une loi normale. H1 : Les données de la population ne se répartissent pas selon une loi normale. Pour résoudre ce test, il faut d'abord eectuer les commandes présentées dans la sortie 22 : Figure 21 Histogrammes MQG222 36 ©Lévesque-Bélanger-Turcotte-Chabot
  • 38. 9 TEST SUR DEUX MOYENNES (ÉCHANTILLONS INDÉPENDANTS) Figure 22 Tests de normalité Pour les employés qui n'ont pas quitté, la valeur-pS−W = 0, 0017 0, 05 et la valeur- pK−S = 0, 0024 0, 05 et donc on rejette H0. Ainsi, au risque de se tromper une fois sur 20, les données de cette population ne se distribuent pas selon une loi normale. Pour les employés qui ont quitté, la valeur−pS−W = 0, 0038 0, 05 et la valeur-pK−S = 0, 0010 0, 05 et donc on rejette H0. Ainsi, au risque de se tromper une fois sur 20, les données de cette population ne se distribuent pas selon une loi normale. Les populations ne sont pas d'origines normales, ce qui n'est pas idéal. Un test non paramétrique serait peut- être envisageable. Toutefois, avec n1 = 165 ≥ 30 et n2 = 35 ≥ 30, le test d'hypothèses devrait donner d'assez bons résultats, puisqu'il est robuste à la violation de la condition de normalité. MQG222 37 ©Lévesque-Bélanger-Turcotte-Chabot
  • 39. 9 TEST SUR DEUX MOYENNES (ÉCHANTILLONS INDÉPENDANTS) On doit ensuite faire le test de Levene pour vérier si l'hypothèse des variances égales est plausible. Pour ce faire, on doit utiliser la commande leveneTest() de la librairie car. En arguments, on inscrit la variable numérique, la variable catégorique et le centre de la distribution à utiliser (ici, la moyenne). On obtient les sorties suivantes : Figure 23 Test d'égalité des variances Le test de Levene permet en fait de résoudre le test d'hypothèses suivant : H0 : σ2 Oui = σ2 Non H1 : σ2 Oui ̸= σ2 Non Ici, puisque la valeur-pLEV ENE = 0, 8871 ≮ 0, 05, on ne rejette pas H0. Au seuil α = 0, 05, l'hypothèse d'égalité des variances est vraisemblable. On peut donc revenir au test principal : H0 : µNon = µOui H1 : µNon µOui MQG222 38 ©Lévesque-Bélanger-Turcotte-Chabot
  • 40. 9 TEST SUR DEUX MOYENNES (ÉCHANTILLONS INDÉPENDANTS) On utilisera ici la commande t.test() dans laquelle on inscrit la variable numérique étudiée suivie de la variable catégorique (séparés par le symbole ∼ ). On spéciera aussi que les variances sont considérées égales dans la population (argument var.equal=TRUE). On obtient ce qui suit : Figure 24 Test-t sur 2 moyennes La sortie 24 contient quelques statistiques descriptives. Ainsi, on voit que le nombre moyen d'heures travaillées par mois est de 208,18 heures pour les employés qui n'ont pas quitté, alors qu'il est de 230,80 heures pour ceux qui ont quitté. Cette diérence entre les moyennes est-elle signicative ou n'est-elle due qu'à la uctuation échantillonnale? Puisque la valeur-p = 0, 0023 0, 05, on rejette H0. Au risque de se tromper 1 fois sur 20, nous rejetons la nullité de la diérence et admet- tons qu'il y a une diérence signicative entre le nombre moyen d'heures travaillées des employés qui ont quitté la compagnie et de ceux qui sont restés, au niveau de la population. MQG222 39 ©Lévesque-Bélanger-Turcotte-Chabot
  • 41. 9 TEST SUR DEUX MOYENNES (ÉCHANTILLONS INDÉPENDANTS) Lorsqu'on admet qu'il y a une diérence signicative entre les deux moyennes, l'étape suivante est de voir comment s'exprime cette diérence. On retrouve un intervalle de conance estimant la diérence des moyennes au niveau de la population si on répète la commande t.test() pour un test bilatéral. Figure 25 Intervalle de conance Ponctuellement, il y a une diérence de 22,6242 heures entre le nombre moyen d'heures travaillées des employés qui ont quitté la compagnie et de ceux qui sont restés, en faveur de ceux qui ont quitté. Au niveau de la population, cette diérence se situe entre 7,0295 heures et 38,2190 heures et ce, 19 fois sur 20. Remarque : On pourrait aussi interpréter l'intervalle de conance à partir de la marge d'erreur. Dans le calcul d'un intervalle de conance, on ajoute et on soustrait une quantité E, appelée la marge d'erreur. Ainsi, un intervalle de conance contient deux fois cette marge d'erreur. Dans notre exemple, puisque IC=[7,0295 ;38,2190], on trouve E de la façon suivante : 38, 2190 − 7, 0295 2 = 15, 5948. On peut donc dire qu'au niveau de la population, la diérence des moyennes s'estime à 22,6242 heures avec une marge d'erreur de 15,5948 heures et ce, 19 fois sur 20. MQG222 40 ©Lévesque-Bélanger-Turcotte-Chabot
  • 42. 10 TEST SUR DEUX MOYENNES (ÉCHANTILLONS APPARIÉS) 10 Test sur deux moyennes (échantillons appariés) Dans le cas des échantillons appariés, il est possible de suivre la procédure du test sur une moyenne vue au chapitre précédent (voir section 7 p.27). Il sut d'utiliser la commande t.test() en inscrivant les deux variables numériques étudiées et en spéciant qu'il s'agit d'un test avec échantillons appariés (paired=TRUE). Exemple 10.1 La jeu de données Café.sav contient des données provenant d'un café géré par des étudiants de premier cycle dans une université canadienne. Elles ont été recueillies sur une période de dix semaines de janvier à mars 2017. Les variables comprennent le nombre d'articles vendus et jetés. Il semble que les wraps se vendent plus que les sandwichs. Peut-on conrmer cette hypothèse au seuil α = 0, 05 ? On utilisera le seuil de signication α = 0, 05 lors de cette analyse. On rejette H0 si la valeur-p est inférieure à ce seuil. Le prérequis pour que ce test soit valide est que les diérences se distribuent selon une loi normale. On eectue donc un test de normalité pour la variable Diff, et on obtient les sorties suivantes : Figure 26 Test de normalité des diérences MQG222 41 ©Lévesque-Bélanger-Turcotte-Chabot
  • 43. 10 TEST SUR DEUX MOYENNES (ÉCHANTILLONS APPARIÉS) Figure 27 Histogramme On doit maintenant résoudre le test d'hypothèses suivant : H0 : Les données de la population se répartissent selon une loi normale. H1 : Les données de la population ne se répartissent pas selon une loi normale. Pour la population de la diérence entre les ventes des deux articles, la valeur-pS−W = 0, 7402 ≮ 0, 05 et la valeur-pK−S = 0, 7035 ≮ 0, 05 et donc on ne rejette pas H0. Ainsi, au seuil α = 0, 05, il est plausible d'admettre que les données de cette population se distribuent selon une loi normale. On peut donc poursuivre l'analyse avec conance. On eectue donc les commandes mentionnées à la section précédente (test sur une moyenne) pour tester les hypothèses : H0 : µD = 0 H1 : µD 0 MQG222 42 ©Lévesque-Bélanger-Turcotte-Chabot
  • 44. 10 TEST SUR DEUX MOYENNES (ÉCHANTILLONS APPARIÉS) On obtient alors la gure 28. Figure 28 Test échantillons appariés La gure 28 nous indique que la moyenne de la variable Diff est de 8,4468. Puisque valeur- p = 0, 0000 0, 05, on rejette H0. Donc, au risque de se tromper 1 fois sur 20, le nombre de wraps vendus est supérieur au nombre de sandwichs vendus en moyenne dans la population. Figure 29 Intervalle de conance L'écart moyen réel se situe entre 6,9944 et 9,8992 unités, et ce, 19 fois sur 20. MQG222 43 ©Lévesque-Bélanger-Turcotte-Chabot
  • 45. 11 TEST SUR PLUSIEURS MOYENNES (ANOV A) 11 Test sur plusieurs moyennes (ANOVA) (a) Mentionner le seuil de signication (α). (b) Test de normalité : (b1) Formuler les hypothèses de normalité de la population. (b2) Prendre une décision compte tenu des résultats obtenus. (b3) Donner une conclusion. Remarque : Si l'un des deux tests rejette la normalité, on mettra un bémol sur la validité des résultats associés à cette population. Si les deux tests (Kolmogorov-Smirnov et Shapiro-Wilk) rejettent la normalité, le test principal et l'intervalle de conance ne seront théoriquement pas valide. Toutefois, le test étant robuste à la violation de cette condition, de grandes tailles d'échantillons donneront tout de même d'assez bons résultats. (c) Test d'égalité des variances : (c1) Formuler les hypothèses d'égalité des variances des populations. (c2) Prendre une décision compte tenu des résultats obtenus. (c3) Donner une conclusion. Remarque : Si l'hypothèse d'égalité des variances est rejetée, le test principal ne sera pas valide. (d) Test principal : (d1) Formuler les hypothèses d'égalité des moyennes des populations. (d2) Prendre une décision compte tenu des résultats obtenus. (d3) Donner une conclusion. (e) Si H0 a été rejetée, quantier et interpréter les valeurs de η2 et η. (f) Si H0 a été rejetée, expliquer comment s'exprime cette diérence en faisant l'analyse Post Hoc. Eectuer les étapes suivantes pour tous les couples de moyennes. (f1) Formuler les hypothèses d'égalité des moyennes des populations. (f2) Prendre une décision compte tenu des résultats obtenus. (f3) Donner une conclusion. (f4) Si H0 est rejetée, donner une estimation ponctuelle et un intervalle de conance estimant la diérence des moyennes de ces deux populations. (g) Résumer l'ordre des moyennes en lien avec les conclusions obtenues dans l'analyse Post Hoc. MQG222 44 ©Lévesque-Bélanger-Turcotte-Chabot
  • 46. 11 TEST SUR PLUSIEURS MOYENNES (ANOV A) Exemple 11.1 Une compagnie de cartes de crédit canadienne ore trois types de cartes de crédit à ses clients : la carte de base qui ne donne aucune remise en argent ; la carte Remise qui coûte 60 $ par année, mais qui donne une remise de 2 % sur tous les achats; la carte Remise Plus qui coûte 120 $ par année, mais qui donne une remise de 4 % sur tous les achats. On aimerait mieux cerner le type de clientèle qui se procure la carte Remise Plus. Ces clients sont-ils plus âgés ? Sont-ils plus fortunés ? Habitent-ils une province en particulier? On a répertorié les données de 1 000 clients prélevés de façon aléatoire et indépendante. La jeu de données se nomme Crédit.csv. Parmi les détenteurs des trois types de cartes, remarque-t-on une diérence au niveau des soldes moyens ? Utilisez le seuil α = 0, 01. On désire traiter le test d'hypothèses suivant : H0 : µBase = µRemise = µRemisePlus H1 : Au moins une des moyennes est diérente. Fixons le seuil de signication à α = 0, 01. On rejettera H0 si la valeur-p est inférieure à ce seuil. Vérions d'abord les conditions d'application du test. On sait déjà que les échantillons ont été préle- vés de façon aléatoire et indépendante. Il reste à vérier que les échantillons proviennent de populations normales et que les variances des populations sont égales. La vérication de la normalité se fait de la même façon que celle décrite dans la section 7. On doit traiter le test suivant pour chacune des trois populations. H0 : Les données de la population se répartissent selon une loi normale. H1 : Les données de la population ne se répartissent pas selon une loi normale. MQG222 45 ©Lévesque-Bélanger-Turcotte-Chabot
  • 47. 11 TEST SUR PLUSIEURS MOYENNES (ANOV A) À l'aide de R, on obtient les sorties suivantes : Figure 30 Vérication de la normalité des données MQG222 46 ©Lévesque-Bélanger-Turcotte-Chabot
  • 48. 11 TEST SUR PLUSIEURS MOYENNES (ANOV A) Figure 31 Vérication de la normalité des données MQG222 47 ©Lévesque-Bélanger-Turcotte-Chabot
  • 49. 11 TEST SUR PLUSIEURS MOYENNES (ANOV A) Pour la population des détenteurs d'une carte de base, on a valeur-pK−S = 0, 6431 ≮ 0, 01 et valeur-pS−W = 0, 0528 ≮ 0, 01. Ainsi, on ne rejette pas H0. Au seuil α = 0, 01, on admet que les données de la population se répartissent selon une loi normale. Pour la population des détenteurs d'une carte Remise, on a valeur-pK−S = 0, 8088 ≮ 0, 01 et valeur-pS−W = 0, 8481 ≮ 0, 01. Ainsi, on ne rejette pas H0. Au seuil α = 0, 01, on admet que les données de la population se répartissent selon une loi normale. Pour la population des détenteurs d'une carte Remise Plus, on a valeur-pK−S = 0, 0943 ≮ 0, 01 et valeur-pS−W = 0, 2239 ≮ 0, 01. Ainsi, on ne rejette pas H0. Au seuil α = 0, 01, on admet que les données de la population se répartissent selon une loi normale. Pour vérier si l'hypothèse de l'égalité des variances dans les populations est respectée, il faut utiliser la statistique de Levene. Celle-ci permet de résoudre le test d'hypothèses suivant : H0 : σ2 Base = σ2 Remise = σ2 RemisePlus H1 : Au moins une des variances est diérente. Les commandes pour obtenir la sortie 32 qui contient la statistique de Levene et la valeur-p associée (dernière colonne du tableau) sont résumées au début de cette section. Figure 32 Vérication de l'égalité des variances Puisque valeur-pLEV ENE = 0, 4623 ≮ 0, 01, nous ne rejetons pas H0. Ainsi, au seuil α = 0, 01, l'hypothèse d'égalité des variances dans les populations est vraisemblable. MQG222 48 ©Lévesque-Bélanger-Turcotte-Chabot
  • 50. 11 TEST SUR PLUSIEURS MOYENNES (ANOV A) En somme, l'analyse de la variance que nous allons obtenir sera valide puisque les hypothèses de normalité et d'égalité des variances sont vériées. On peut maintenant passer à la décomposition de la variance. Pour obtenir la sortie 33, il sut d'utiliser la commande aov() en y inscrivant la variable numérique, suivie de la variable catégorique, séparés par le symbole ∼ . La commande summary() permettra ensuite d'obtenir les informations nécessaires à l'analyse. Voici ce qu'on obtient : Figure 33 Table ANOVA On veut résoudre le test suivant : H0 : µBase = µRemise = µRemisePlus H1 : Au moins une des moyennes est diérente. Puisque la valeur-p est égale à 0,000, ce qui évidemment plus petit que α = 0, 01, nous rejetons H0. Ainsi, au risque de se tromper 1 fois sur 100, nous pouvons armer qu'au moins un des soldes moyens est signicativement diérente des autres. La gure 33 nous permet de calculer η2 = 81 017 364 81 017 364+470 548 047 = 0, 1469. Ainsi, 14,69 % de la variabilité des soldes est expliquée lorsqu'on prend en considération le type de carte possédé. La statistique η, quant à elle, se quantie à √ 0, 1469 = 0, 3833. La relation entre les deux variables peut être qualiée de modérée (voir tableau ci-dessous). MQG222 49 ©Lévesque-Bélanger-Turcotte-Chabot
  • 51. 11 TEST SUR PLUSIEURS MOYENNES (ANOV A) 0, 7 ≤ η ≤ 1 relation très forte 0, 5 ≤ η 0, 7 relation forte 0, 3 ≤ η 0, 5 relation modérée 0, 1 ≤ η 0, 3 relation faible 0 ≤ η 0, 1 relation négligeable Table 1 Interprétation du η Puisqu'on a rejeté H0, on a admis qu'au moins une des moyennes est diérente des autres. Mais de quelle façon s'exprime cette diérence ? C'est ce que nous saurons en utilisant la méthode de Tukey. Dans le cadre de ce cours, nous nous contenterons d'appliquer cette méthode avec R, car elle devient vite fastidieuse à la main. Cette analyse permet de dire quelles sont les moyennes qui se distinguent des autres et quelles sont celles qui sont considérées égales. Il y a près d'une quinzaine d'analyses Post Hoc disponibles sur R, mais nous n'en présenterons qu'une seule, celle de Tukey. Pour obtenir la sortie 34, il faut utiliser la commande TukeyHSD(). Figure 34 Analyse Post Hoc : Tukey MQG222 50 ©Lévesque-Bélanger-Turcotte-Chabot
  • 52. 11 TEST SUR PLUSIEURS MOYENNES (ANOV A) Voici comment interpréter la sortie 34. Tout d'abord, il faut comparer les groupes de détenteurs de carte deux-à-deux, en parcourant toutes les paires possibles : il y a en fait k(k−1) 2 paires à observer, où k est le nombre de modalités de la variable nominale/ordinale. Ainsi, dans notre exemple, il y a 3(3−1) 2 = 3 paires à considérer. On fera des tests bilatéraux sur deux moyennes. Comme nous avons obtenu précédemment qu'au seuil α = 0, 01, les soldes des trois populations se distribuent selon une loi normale et que les variances des soldes dans les trois groupes sont égales, tous les tests sur deux moyennes seront valides. Voici donc comment on fait ces comparaisons. µBase et µRemise : On doit faire le test d'hypothèses suivant : H0 : µBase = µRemise H1 : µBase ̸= µRemise Puisque la valeur-p associée à la diérence de ces moyennes est de 0,0000,01, on rejette H0. Donc, au risque de se tromper une fois sur 100, on conclut que la diérence entre ces deux moyennes est signicative. La diérence des soldes moyens s'estime ponctuellement à 545,82 $ en faveur des détenteurs de la carte Remise. De plus, au niveau de la population, cette diérence entre ces soldes moyens s'estime à 545,82 $ avec une marge d'erreur de ±150, 63 $ (rappel : E = 696, 45 − 545, 82), et ce, 99 fois sur 100. µBase et µRemisePlus : On doit faire le test d'hypothèses suivant : H0 : µBase = µRemisePlus H1 : µBase ̸= µRemisePlus Puisque la valeur-p associée à la diérence de ces moyennes est de 0, 000 0, 01, on rejette H0. Donc, au risque de se tromper une fois sur 100, on conclut que la diérence entre ces deux moyennes est signicative. La diérence des soldes moyens s'estime ponctuellement à 624,84 $ en faveur des détenteurs de la carte Remise Plus. De plus, au niveau de la population, cette diérence entre ces soldes moyens s'estime à 624,84 $ avec une marge d'erreur de ±179, 77 $ et ce, 99 fois sur 100. MQG222 51 ©Lévesque-Bélanger-Turcotte-Chabot
  • 53. 11 TEST SUR PLUSIEURS MOYENNES (ANOV A) µRemise et µRemisePlus : On doit faire le test d'hypothèses suivant : H0 : µRemise = µRemisePlus H1 : µRemise ̸= µRemisePlus Puisque la valeur-p associée à la diérence de ces moyennes est de 0, 4925 ≮ 0, 01, on ne rejette pas H0. Donc, au seuil α = 0, 01, nous n'avons pas assez de preuves pour armer que la diérence entre ces deux moyennes est signicative. [Note : On ne doit pas décrire comment s'exprime la diérence entre les deux moyennes, puisqu'on conclut qu'il n'existe pas de telle diérence. Ces diérences ne sont dues qu'aux uctuations échantillonnales.] On peut résumer la situation de la façon suivante : (µRemise = µRemisePlus) µBase. [Note : On a fait des tests bilatéraux an de comparer les soldes selon les types de cartes, mais il nous est également permis de faire des tests unilatéraux. Par exemple, on aurait pu tester les hypothèses suivantes : H0 : µBase = µRemise H1 : µBase µRemise En eet, puisque xRemise xBase, on peut même armer que µRemise µBase, car si une valeur-p est plus petite que α = 0, 01, alors valeur-p 2 sera aussi plus petit que 0, 01.] MQG222 52 ©Lévesque-Bélanger-Turcotte-Chabot
  • 54. 12 TEST D'AJUSTEMENT 12 Test d'ajustement (a) Mentionner le seuil de signication (α). (b) Vérier les conditions d'applications du test au sujet des fréquences théoriques. Si au moins une des conditions n'est pas satisfaite, le test ne sera pas valide. Il faudrait augmenter la taille de l'échantillon ou regrouper des catégories lorsque le contexte le permet. (c) Test principal : (c1) Formuler les hypothèses sur la distribution de la variable nominale/ordinale. (c2) Prendre une décision compte tenu des résultats obtenus. (c3) Donner une conclusion. MQG222 53 ©Lévesque-Bélanger-Turcotte-Chabot
  • 55. 12 TEST D'AJUSTEMENT Exemple 12.1 Une Université voudrait revoir les types d'assurances collectives oertes à ses employés. On a sondé 180 de ces employés pour mieux comprendre ce qui les incite à choisir une option plutôt qu'une autre et pour étudier les montants totaux réclamés. Les données recueillies se retrouvent dans la jeu de données Assurances.csv. Il y a quelques années, l'option de base était la plus populaire : 50 % des employés y adhéraient. L'option intermédiaire était préférée par 40 % des employés. L'option avancée n'étaient choisie que par 10 % des employés. On se demandait alors si on ne devait pas retirer cette option. Est-ce que l'échantillon présenté dans la jeu de données nous permet de croire que la répartition des options a changé depuis au seuil α = 0, 05 ? Pour eectuer ce test, nous aurons besoin de la commande chisq.test() dans laquelle on doit insérer la table des fréquences observées (x) et le vecteur des proportions espérées (p). Mais, d'abord, il faut porter une attention particulière à l'ordre d'apparition des modalités de la variable catégorique. Le vecteur des proportions espérées devra acher le même ordre. Au besoin, modier l'ordre à partir de la commande ordered(), comme suit : Figure 35 Modier l'ordre d'apparition des modalités MQG222 54 ©Lévesque-Bélanger-Turcotte-Chabot
  • 56. 12 TEST D'AJUSTEMENT Pour vérier les conditions d'applications du test, on peut ensuite demander à R de nous fournir les fréquences espérées en ajoutant $expected au bout de la commande. On obtient la sortie 36. Figure 36 Test d'ajustement du Khi-deux Aucune cellule n'a un eectif théorique inférieur à 5 (0 % ≤ 20 %). En particulier, toutes les fréquences théoriques sont supérieures ou égales à 1. Le test d'hypothèse qui suit sera donc valide. H0 : Dans la population, la répartition des options est la même que celle indiquée. H1 : Dans la population, la répartition des options a changé. Le seuil de signication est xé à α = 0, 05. On rejettera H0 si la valeur-p est inférieure à ce seuil. Ici, comme valeur-p = 0, 6057 ≮ 0, 05, on ne rejette pas H0. Au seuil α = 0, 05, rien n'indique que la répartition des options a changé au niveau de la population. MQG222 55 ©Lévesque-Bélanger-Turcotte-Chabot
  • 57. 13 TEST D'INDÉPENDANCE (TABLEAU CROISÉ) 13 Test d'indépendance (tableau croisé) (a) Mentionner le seuil de signication (α). (b) Vérier les conditions d'applications du test au sujet des fréquences théoriques. Si une des condi- tions n'est pas satisfaite, augmenter la taille de l'échantillon ou regrouper des modalités. (c) Test principal : (c1) Formuler les hypothèses d'indépendance des variables. (c2) Prendre une décision compte tenu des résultats obtenus. (c3) Donner une conclusion. (d) Si H0 est rejetée, quantier et interpréter le V de Cramer. (e) Si H0 est rejetée et que les deux variables sont de type ordinal, quantier et interpréter la statis- tique Gamma. (f) Si H0 est rejetée, interpréter les cellules du tableau croisé à partir des résidus standardisés et des pourcentages. MQG222 56 ©Lévesque-Bélanger-Turcotte-Chabot
  • 58. 13 TEST D'INDÉPENDANCE (TABLEAU CROISÉ) Exemple 13.1 Choisir le fonds de placements correspondant le mieux à ses besoins n'est certes pas toujours une tâche facile. La tolérance au risque constitue certainement un aspect à ne pas négliger par les conseillers nanciers lorsque vient le temps de conseiller leurs clients. An de mieux comprendre la relation entre la tolérance au risque et les connaissances en matière de placements, on a sondé 200 personnes. Vous trouverez les résultats du sondage dans la jeu de données Placements.csv. On tente de comprendre la relation entre la tolérance au risque et les connaissances en matière de placements au seuil α = 0, 01. On s'intéresse donc à résoudre le test d'hypothèses suivant : H0 : Dans la population, le niveau de connaissances en matière de placements et la tolérance au risque sont indépendants. H1 : Dans la population, le niveau de connaissances en matière de placements et la tolérance au risque sont liés. Le seuil de signication est xé à α = 0, 01. On rejettera H0 si la valeur-p est inférieure à ce seuil. D'abord, comme les variables étudiées sont ordinales, on recodera l'ordre d'apparition des modalités dans R à l'aide de la commande ordered() : Figure 37 Ordonnancement des modalités MQG222 57 ©Lévesque-Bélanger-Turcotte-Chabot
  • 59. 13 TEST D'INDÉPENDANCE (TABLEAU CROISÉ) Pour eectuer le test d'indépendance, on utilisera la commande chisq.test() dans laquelle on insérera le tableau croisé (commande table()). On devra ensuite vérier si la condition sur les fréquences théoriques est respectée. Figure 38 Fréquences théoriques Or, si on jette un coup d'oeil aux fréquences théoriques, on remarque que l'on a 3 cellules qui ont une fréquence théorique inférieure à 5, ce qui représente 3/12=25 % des cellules qui est supérieur à 20 %. Le nombre d'observations est donc trop petit pour le nombre de modalités des variables. Pour remédier à la situation, on pourrait regrouper les modalités Nulles et Élémentaires ainsi que les modalités Bonnes et Excellentes : Figure 39 Recodage des modalités MQG222 58 ©Lévesque-Bélanger-Turcotte-Chabot
  • 60. 13 TEST D'INDÉPENDANCE (TABLEAU CROISÉ) Si on reprend le test d'indépendance avec cette nouvelle variable, on obtient : Figure 40 Test d'indépendance On remarque cette fois que l'on a 0 cellule qui ont une fréquence théorique inférieure à 5, ce qui représente 0/6=0 % des cellules, ce qui est inférieur à 20 %. Donc, en particulier les fréquences théoriques sont toutes supérieures à 1. On peut donc poursuivre l'analyse sans problème et utiliser le khi-deux pour résoudre le test d'hypothèses. Puisque la valeur-p du test est de 0, 000 0, 01 = α, on rejette H0. Ainsi, au risque de se tromper une fois sur 100, nous sommes en mesure de dire que le niveau de connais- sances en matière de placements et la tolérance au risque sont signicativement liés dans la population. La force de la relation nous est donnée par la statistique du V de Cramer. La valeur du V de Cramer est ici de V = s χ2 (k − 1) · n = s 19, 007 (2 − 1) · 200 = 0, 3083. Ainsi on peut armer que nous sommes en présence d'une relation modérée, et ce, malgré le fait que la valeur-p associée au khi-deux était de 0,000. Le V de Cramer nous permet de relativiser la force du rejet de H0. Le tableau suivant résume les valeurs possiblesdu V de Cramer et leur interprétation. MQG222 59 ©Lévesque-Bélanger-Turcotte-Chabot
  • 61. 13 TEST D'INDÉPENDANCE (TABLEAU CROISÉ) 0, 7 ≤ V ≤ 1 relation très forte 0, 5 ≤ V 0, 7 relation forte 0, 3 ≤ V 0, 5 relation modérée 0, 1 ≤ V 0, 3 relation faible 0 ≤ V 0, 1 relation négligeable Table 2 Interprétation du V de Cramer Lorsque nous admettons qu'il y a un lien entre les variables, on peut procéder à l'analyse du tableau croisé pour voir comment s'exprime cette dépendance. L'interprétation du tableau s'appuiera sur deux éléments : les pourcentages et les résidus standardisés. Pour obtenir les résidus standardisés, il sut d'ajouter $res au bout de la commande chisq.test(). Pour obtenir les pourcentages en colonnes, il faut utiliser la commande prop.table() dans laquelle on insère le tableau croisé (commande table()) suivi d'une virgule, suivie du nombre 2 (indiquant que les pourcentages devront être calculés en colonnes). Figure 41 Résidus standardisés MQG222 60 ©Lévesque-Bélanger-Turcotte-Chabot
  • 62. 13 TEST D'INDÉPENDANCE (TABLEAU CROISÉ) On interprétera les résultats selon le tableau suivant : Résidu standardisé −3 Absence marquée du phénomène −3 ≤ Résidu standardisé −2 Absence signicative du phénomène −2 ≤ Résidu standardisé −1, 5 Absence visible (tendance) du phénomène −1, 5 ≤ Résidu standardisé ≤ 1, 5 Phénomène normal 1, 5 Résidu standardisé ≤ 2 Présence visible (tendance) du phénomène 2 Résidu standardisé ≤ 3 Présence signicative du phénomène 3 Résidu standardisé Présence marquée du phénomène Table 3 Interprétation des résidus standardisés De façon globale, 32,5 % des personnes ont une faible tolérance au risque. Les personnes dont les connaissances en matière de placements se situent de nulles à élémentaires ont tendance à être peu tolérantes au risque. On retrouve 41,4 % d'entre elles dans cette catégorie. Quant à elles, les personnes dont les connaissances en matière de placements se situent de bonnes à excellentes ne sont que 16,7 % à être peu tolérantes au risque, ce qui représente une diérence signicative par rapport à la proportion globale. Il en va de même avec la tolérance élevée au risque. Globalement, 23 % des personnes sondées se situent dans cette catégorie. Les personnes dont les connaissances en matière de placements se situent de nulles à élémentaires sont visiblement absentes de cette catégorie, puisque cette proportion n'est que de 14,8 %. Les personnes dont les connaissances en matière de placements se situent de bonnes à excellentes sont au contraire signicativement présentes : 37,5 % d'entre elles ont une tolérance élevée au risque. MQG222 61 ©Lévesque-Bélanger-Turcotte-Chabot
  • 63. 14 TEST DE CORRÉLATION LINÉAIRE 14 Test de corrélation linéaire (a) Mentionner le seuil de signication (α). (b) Vérier la linéarité de la relation à partir du nuage de points. (c) Quantier et qualier le coecient de corrélation linéaire (r). (d) Test principal : (d1) Formuler les hypothèses du test de corrélation linéaire en relation avec le contexte. (d2) Prendre une décision compte tenu des résultats obtenus. (d3) Donner une conclusion. MQG222 62 ©Lévesque-Bélanger-Turcotte-Chabot
  • 64. 14 TEST DE CORRÉLATION LINÉAIRE Exemple 14.1 Les indices SP500 et Nasdaq sont deux des principaux critères utilisés par les inves- tisseurs lors de l'analyse du marché boursier américain. Il est conseillé de diversier les investissements, car cela contribue à réduire les risques en investissant dans de nombreux secteurs du marché. L'objectif est de ne pas avoir tous vos oeufs dans le même panier, car de nombreux secteurs réagiront diéremment aux conditions économiques changeantes. Or, pour faire un choix éclairé, il est important d'analyser le lien qui unit les indices boursiers entre eux pour comprendre l'évolution conjointe de leur valeur. La jeu de données Bourse.csv comprend les valeurs et les variations des indices boursiers SP500 et Nasdaq à l'ouverture des marchés du 3 janvier 2017 au 2 juin 2017. Eectuez un test de corrélation linéaire au seuil α = 0, 05 pour mieux cerner comment les variations des indices SP500 et Nasdaq évoluent de façon conjointe. Il faut d'abord observer le graphe de la relation pour voir si elle est bien linéaire avec la commande plot() dans laquelle on insère les deux variables numériques séparées du symbole ∼ . Figure 42 Commande plot() MQG222 63 ©Lévesque-Bélanger-Turcotte-Chabot
  • 65. 14 TEST DE CORRÉLATION LINÉAIRE Figure 43 Le graphe de la relation On voit que les points semblent se regrouper de façon assez uniforme autour d'une droite imaginaire, donc la relation semble bel et bien linéaire. Il est donc sensé de poursuivre l'analyse. Le schéma de Davis ci-dessous nous aidera maintenant à quantier et qualier la force de la relation linéaire, à l'aide du coecient de corrélation r : 0, 7 ≤ |r| ≤ 1 Interrelation linéaire très forte 0, 5 ≤ |r| 0, 7 Interrelation linéaire forte 0, 3 ≤ |r| 0, 5 Interrelation linéaire modérée 0, 1 ≤ |r| 0, 3 Interrelation linéaire faible 0 ≤ |r| 0, 1 Interrelation linéaire négligeable Table 4 Interprétation du coecient de corrélation MQG222 64 ©Lévesque-Bélanger-Turcotte-Chabot
  • 66. 14 TEST DE CORRÉLATION LINÉAIRE Il est fastidieux de calculer r à la main. Avec la commande cor.test() dans laquelle on insère les deux variables numériques, on obtient la gure 44. Figure 44 Le coecient de corrélation r Le coecient de corrélation est de r = 0, 9128, ce qui d'après le schéma de Davis indique une interrelation linéaire très forte. On peut maintenant traiter le test d'hypothèses pour savoir si cette corrélation est signicative au niveau de la population. Les hypothèses sont les suivantes : H0 : ρ = 0 H1 : ρ ̸= 0 Nous pouvons traiter ce test avec la valeur-p de la gure 44. Le seuil de signication est xé à α = 0, 05. On rejettera H0 si la valeur-p est inférieure à ce seuil. Comme la valeur-p = 0, 000 0, 05, on rejette H0. Au risque de se tromper une fois sur 20, la corrélation linéaire entre les variations des indices SP500 et Nasdaq est signicative. MQG222 65 ©Lévesque-Bélanger-Turcotte-Chabot
  • 67. 15 RÉGRESSION LINÉAIRE 15 Régression linéaire (a) Mentionner le seuil de signication (α). (b) Vérier si la relation semble linéaire et homoscédastique à partir du nuage de points. (c) Quantier et interpréter les statistiques r et r2 . (d) Vérier la normalité de la population des résidus. (d1) Formuler les hypothèses de normalité de la population. (d2) Prendre une décision compte tenu des résultats obtenus. (d3) Donner une conclusion. Remarque : Si les deux tests (Kolmogorov-Smirnov et Shapiro-Wilk) rejettent la normalité, le test principal et les intervalles de conance ne seront pas valides. Si l'un des deux tests rejette la normalité, on mettra un bémol sur la validité des résultats. (e) Vérier si la régression est signicative dans la population. (e1) Formuler les hypothèses sur la régression. (e2) Prendre une décision compte tenu des résultats obtenus. (e3) Donner une conclusion. (f) Écrire l'équation de la droite de régression obtenue. (g) Interpréter les coecients b0 et b1 associés à la droite de régression. (h) Eectuer, s'il y a lieu, les estimations/prévisions demandées. MQG222 66 ©Lévesque-Bélanger-Turcotte-Chabot
  • 68. 15 RÉGRESSION LINÉAIRE Exemple 15.1 Les avis en ligne constituent un facteur important pour l'image de tout commerçant en ligne, notamment dans le secteur de l'hôtellerie. On a mené une étude sur 100 hôtels de la province. Cette étude tente d'analyser les eets de corrélation entre la note moyenne des avis et le revenu mensuel moyen par chambre disponible. Avec la jeu de données hôtel.csv, on tentera d'éclaircir le lien entre l'avis des internautes et le revenu des hôtels. Eectuez une analyse en régression linéaire au seuil α = 0, 05 pour mieux cerner comment les notes moyennes des avis expliquent le revenu mensuel moyen par chambre disponible. L'analyse en régression permettra de modéliser le lien entre les variables X (Avis) et Y (Revenu). Plus précisément, nous voulons obtenir une équation du type ŷRevenu = b0 + b1xAvis. On utilisera le seuil de signication α = 0, 05 lors de cette analyse. On rejette H0 si la valeur-p est inférieure à ce seuil. La première étape consiste à faire l'analyse graphique de la relation. Pour obtenir le graphe 46, il faut utiliser la commande plot() dans laquelle on insère les deux variables numériques séparées du symbole ∼ . Pour ajouter la droite, il faut d'abord créer le modèle linéaire à partir de la commande lm() dans laquelle on insère les deux variables numériques séparées du symbole ∼ . Ensuite, on utilise la commande abline() dans laquelle on insère le modèle linéaire. Figure 45 Commandes pour obtenir la droite de régression MQG222 67 ©Lévesque-Bélanger-Turcotte-Chabot
  • 69. 15 RÉGRESSION LINÉAIRE Figure 46 Droite de régression On obtient alors la sortie 46, qui est le graphe de la relation. Puisque les points semblent être répartis de façon uniforme autour de la droite, il est plausible d'armer que la relation entre XAvis et YRevenu est linéaire. On voit de plus que la relation est positive : plus la note moyenne est élevée, plus le revenu par chambre disponible l'est aussi. Ensuite, vérions l'hypothèse d'homogénéité de la variance (homoscédasticité). On dit que la variance des résidus est homogène si la dispersion des résidus semble constante peu importe la valeur de la variable indépendante X. Ici, il semble que la dispersion des résidus semble constante. L'homoscédasticité est donc plausible. Pour corriger une violation à l'homoscédasticité, il est possible d'eectuer une opération sur la variable indépendante X avant l'analyse en régression linéaire. On pourrait penser à une racine carrée ou à un logarithme. MQG222 68 ©Lévesque-Bélanger-Turcotte-Chabot
  • 70. 15 RÉGRESSION LINÉAIRE Analysons maintenant la force de relation entre les deux variables numériques. Pour obtenir la 47, nous aurons besoin de la commande cor() dans laquelle on insère les deux variables numériques étudiées. Figure 47 Coecients de corrélation et de détermination An de mesurer l'apport d'information qu'amène X sur la prédiction Y , nous utilisons le coecient de détermination r2 , qui représente le % de la variation totale de Y expliquée par la présence de la variable X. Ici on a r2 = 0, 2849, ce qui nous indique que 28,49 % de la variation du revenu par chambre disponible (Y ) est expliquée lorsque la note moyenne (X) est prise en consi- dération. Ensuite, à l'aide du coecient de corrélation linéaire, on décrit la force du lien linéaire entre les deux variables. Ici on a r = √ 0, 2849 = 0, 5338, ce qui nous indique que nous sommes en présence d'une relation linéaire forte. La prochaine étape consiste à vérier si l'hypothèse de normalité des résidus est vraisemblable à partir du test d'hypothèses suivant : H0 : Les données de la population se répartissent selon une loi normale. H1 : Les données de la population ne se répartissent pas selon une loi normale. MQG222 69 ©Lévesque-Bélanger-Turcotte-Chabot
  • 71. 15 RÉGRESSION LINÉAIRE Figure 48 Test de normalité des résidus Pour la population des résidus, la valeur-pK−S = 0, 200 ≮ 0, 05 et la valeur-pS−W = 0, 1667 ≮ 0, 05 et donc on ne rejette pas H0. Ainsi, au seuil α = 0, 05, il est plausible d'admettre que les données de cette population se distribuent selon une loi normale. MQG222 70 ©Lévesque-Bélanger-Turcotte-Chabot
  • 72. 15 RÉGRESSION LINÉAIRE Passons au test d'hypothèses principal. Nous devons traiter le test d'hypothèses suivant : H0 : La régression est non signicative dans la population (β1 = 0). H1 : La régression est signicative dans la population (β1 ̸= 0). On utilisera la sortie 49 (table ANOVA). Figure 49 Table ANOVA de la régression Une analyse en régression linéaire décompose la variation totale de Y en deux sources : Variation totale = Variation expliquée par la droite + Variation résiduelle 294 118 = 83 808 + 210 310 Plus la variation expliquée par la droite sera grande, plus la régression risque d'être signicative. Pour résoudre le test d'hypothèses, on utilise la valeur-p de la dernière colonne. d'hypothèses, on utilise la valeur-p de la dernière colonne. Ici, puisque la valeur-p est égale à 0,000, ce qui est plus petit que α = 0, 05, on rejette H0. Ainsi, au risque de se tromper une fois sur 20, on peut armer que la régression est signicative. MQG222 71 ©Lévesque-Bélanger-Turcotte-Chabot
  • 73. 15 RÉGRESSION LINÉAIRE Finalement, puisque la régression est signicative, on peut passer à l'étape suivante qui consiste à écrire la droite de régression. On retrouve les coecients de la droite dans la sortie 50 grâce aux commandes summary() et confint() dans lesquelles on insère le modèle linéaire créé plus tôt. Figure 50 Sortie qui contient les coecients de la droite Le coecient b0 est la constante de la droite et se retrouve dans la première colonne du tableau vis-à-vis (Intercept). Ici on a b0 = 30, 563. Le coecient b1 est lui aussi dans la première colonne, vis-à-vis la variable indépendante qui ici est Note. On a b1 = 37, 091. L'équation de la droite est donc ŷRevenu = 30, 563 + 37, 091xNote. L'interprétation de la constante b0 (l'ordonnée à l'origine, c'est-à-dire la valeur de y lorsque x = 0) est souvent dénuée de sens et dicile à interpréter. Cependant, lorsqu'elle est interprétable, elle repré- sente souvent des frais ou des dépenses xes. Ici, on pourrait dire que le coecient b0 = 30, 563 représente le revenu mensuel moyen par chambre disponible (30,563 $) lorsque la note moyenne des internautes est de 0 étoile. MQG222 72 ©Lévesque-Bélanger-Turcotte-Chabot
  • 74. 15 RÉGRESSION LINÉAIRE Le coecient b1 représente l'augmentation marginale moyenne du revenu mensuel moyen par chambre disponible lorsque la note moyenne des internautes augmente d'une unité. Ici, lorsque la note moyenne des internautes augmente d'une étoile, le revenu mensuel moyen par chambre disponible augmente d'environ 37,091 $. On a aussi l'intervalle de conance de niveau 95 % pour ce coecient : ainsi le véritable coecient β1 a une probabilité de 95 % de se retrouver entre 25,3128 et 48,8696. Donc au niveau de la population, l'augmentation marginale moyenne du revenu mensuel moyen par chambre disponible lorsque la note moyenne des internautes augmente d'une étoile devrait se retrouver entre 25,3128 $ et 48,8696 $, et ce 19 fois sur 20. Une fois l'interprétation eectuée, l'analyste est en mesure d'utiliser la droite pour faire des estima- tions sur des valeurs moyennes de y, compte tenu de la connaissance de x. Par exemple, pour obtenir une estimation du revenu mensuel moyen par chambre disponible d'un hôtel dont la note moyenne est de 3 étoiles, il sut de remplacer xAvis par 3 : ŷRevenu = b0 + b1xAvis = 30, 563 + 37, 091 · 3 = 141, 836. Il faudrait donc prévoir un revenu mensuel moyen par chambre disponible d'environ 141,84 $. Cette estimation ne tient cependant pas compte de l'erreur induite par l'échantillon. Il serait donc plus approprié de construire un intervalle de conance pour cette prédiction à l'aide de la commande predict() dans laquelle on insère le modèle de régression linéaire, une nouvelle donnée et le type d'intervalle souhaité. Figure 51 Les estimations MQG222 73 ©Lévesque-Bélanger-Turcotte-Chabot
  • 75. 15 RÉGRESSION LINÉAIRE La première valeur retournée se trouve à être la prévision ponctuelle de 141,836 $. On retrouve ensuite l'intervalle de conance et l'intervalle de prévision de niveau 95 %. Le revenu moyen réel pour un hôtel dont la note moyenne est de 3 étoiles devrait être compris entre 49,31 $ et 234,36 $ par chambre disponible, et ce 19 fois sur 20. La moyenne des revenus moyens pour des hôtels dont la note moyenne s'élève à 3 étoiles se situe entre 131,35 $ et 151,32 $ par chambre disponible, et ce 19 fois sur 20. Comme l'échantillon contenait des notes moyennes allant de 1,5 à 5 étoiles environ, cette estimation est able, car il s'agit d'une intrapolation. MQG222 74 ©Lévesque-Bélanger-Turcotte-Chabot
  • 76. 15 RÉGRESSION LINÉAIRE Lexique abline() Permet d'ajouter une droite de régression linéaire dans un nuage de points agostino.test() Test d'hypothèses sur la symétrie d'une distribution anscombe.test() Test d'hypothèses sur l'aplatissement d'une distribution aov() Analyse de la variance barplot() Diagramme en bâtons boxplot() Boîte à moustaches c() Création d'un vecteur (liste de données) cbind() Permet d'ajouter un vecteur colonne à un jeu de données chisq.test() Test du khi-deux connt() Intervalles de conances pour les paramètres d'un modèle cor() Coecient de corrélation cor.test() Test de corrélation linéaire cut() Permet de créer des classes d'intervalles à partir d'une variable numérique data.frame() Permet de créer un jeu de données dim() Dimensions d'une matrice ou d'un jeu de données install.packages() Permet d'installer des Packages pour accéder à certaines commandes IQR() Intervalle interquartile kurtosis() Statistique d'aplatissement length() Nombre d'éléments dans un vecteur levels() Modalités de réponses d'une variable catégoriques leveneTest() Test de Levene (égalité des variances) lillie.test() Test de normalité (Kolmogorov-Smirnov) lm() Modèle de régression linéaire ls() Liste des variables enregistrées grâce à l'opérateur - max() Valeur maximale d'une liste de données mean() Moyenne d'une liste de données median() Médiane d'une liste de données min() Valeur minimale d'une liste de données names() Noms des variables d'un jeu de données ordered() Permet de recoder l'ordre d'apparition des modalités d'une variable catégorique pie() Diagramme circulaire MQG222 75 ©Lévesque-Bélanger-Turcotte-Chabot
  • 77. 15 RÉGRESSION LINÉAIRE plot() Nuage de points predict() Prévision et intervalle de conance ou de prévision (régression linéaire) prop.table() Tableau des fréquences relatives prop.test() Test sur une proportion et intervalle de conance quantile() Quantiles range() Étendue rbind() Permet d'ajouter une ligne à un jeu de données read.table() Permet de lire un jeu de données externe recode() Recodage d'une variable catégorique Sd() Écart-type d'une liste de données shapiro.test() Test de normalité (Shapiro-Wilk) skewness() Statistique d'asymétrie subset() Permet de sélectionner un sous-ensemble de données sum() Somme d'une liste de données summary() Résumé des statistiques d'un modèle t.test() Test sur une moyenne et intervalle de conance table() Tableau des fréquences absolues TukeyHSD() Analyse Post-Hoc de Tukey Var() Variance d'une liste de données $ Permet de sélectionner une colonne ou une statistique en particulier [] Permet de spécier un emplacement dans une matrice ou une condition logique == Est égal à (condition logique) != N'est pas égal à (condition logique) Est plus petit que (condition logique) = Est plus petit ou égal à (condition logique) Est plus grand que (condition logique) = Est plus grand ou égal à (condition logique) | Ou (condition logique) Et (condition logique) MQG222 76 ©Lévesque-Bélanger-Turcotte-Chabot