Introduction_R.pdf

Table des matières
1 Introduction à R 1
2 Recoder une variable 10
3 Création de variable par calculs 12
4 Analyse descriptive (variable catégorique) 13
5 Analyse descriptive (variable numérique) 16
6 Intervalles de conance 23
7 Test sur une moyenne 27
8 Test sur une proportion 32
9 Test sur deux moyennes (échantillons indépendants) 35
10 Test sur deux moyennes (échantillons appariés) 41
11 Test sur plusieurs moyennes (ANOVA) 44
12 Test d'ajustement 53
13 Test d'indépendance (tableau croisé) 56
14 Test de corrélation linéaire 62
15 Régression linéaire 66
i

1 INTRODUCTION À R
1 Introduction à R
1.1 Jeu de données R
R un logiciel gratuit d'analyse statistique fonctionnant par lignes de commandes. On peut le télécharger
à l'adresse suivante : https ://www.r-project.org/. Une fois le logiciel ouvert, il est possible d'importer
un jeu de données (*.csv, *.txt, etc.) ou de créer votre propre jeu de données. La gure 1 illustre la
fenêtre à l'ouverture du logiciel.
Figure 1 Fenêtre d'ouverture
MQG222 1 ©Lévesque-Bélanger-Turcotte-Chabot

1.1 Jeu de données R 1 INTRODUCTION À R
Pour installer un Package manquant qui donnerait accès à une ou plusieurs commandes, il
est possible de cliquer sur Packages et sur Installer le(s) package(s), ou d'utiliser la commande
install.packages() en y inscrivant le nom du Package à installe entre guillemets.
Pour lire un jeu de données, il faut utiliser la commande read.table() dans laquelle on doit inscrire,
entre guillemets, le chemin menant à ce jeu de données sur l'ordinateur. Cependant, cette commande
ne fait que lire le chier. Il est important de donner un nom à ce jeu de données maintenant ouvert à
partir de l'opérateur -. Par exemple, si on souhaite lire le chier immobilier.txt contenant une liste
de propriétés à vendre et leurs caractéristiques, on aurait la ligne de code suivante :
immobilier - read.table(C:/.../immobilier.txt)
Dépendamment de la façon dont les données sont présentées dans le chier, il sera peut-être per-
tinent d'indiquer quelques informations pertinentes dans la commande. En eet, si on ouvre le chier
immobilier.txt dans Bloc-notes, on remarque que les séparateurs de données sont des points-virgules,
(sep= ;), que le chier contient une entête (header=TRUE), que le symbole indiquant des chaînes de
caractères est autre que le guillemet double (quote=') et que la virgule est utilisée (au lieu du point)
pour les nombres décimaux (dec=,). Il faudrait alors produire la commande suivante :
immobilier - read.table(C:/.../immobilier.txt, sep=;, header=TRUE, quote=',
dec=,)

Remarque : L'opérateur - est important, puisqu'il permet de nommer les résultats d'une
commande et de s'y référer facilement et rapidement par la suite. N'hésitez pas à en abuser!
Il est même possible de lister l'ensemble des variables ainsi créées par cet opérateur à partir
de la commande ls() (rien à inscrire dans les parenthèses).
Remarque : Si une erreur a été produite dans une commande, mais que vous ne souhaitez
pas devoir tout réécrire, il sut d'appuyer sur la èche d'en haut à une ou plusieurs reprises
pour retrouver une ancienne commande.
Pour déterminer les dimensions d'un jeu de données, il sut d'utiliser la commande dim() en y
insérant le jeu de données :

Pour connaître le nom des variables d'un jeu de données, il sut d'utiliser la commande names() en
y insérant le jeu de données :
Si vous souhaitez modier le nom d'une variable, il faut insérer le nouveau nom (à l'aide de l'opérateur
-) à l'emplacement de l'ancien nom dans le vecteur donné par la commande names(). Par exemple :

Pour obtenir les données d'une colonne en particulier, il faut utiliser le symbole $ entre le nom du
jeu de données et le nom de la colonne :
Pour connaître les modalités d'une variable catégorique, la commande à utiliser est levels(). On
doit y insérer la variable étudiée. Par exemple :

Pour obtenir les résultats d'une ligne ou d'un ensemble de lignes, il faut utiliser les crochets ([])
à l'intérieur desquels on doit spécier la (ou les) ligne(s) souhaitées ainsi que la (ou les) colonne(s)
souhaitées, séparées d'une virgule. Par exemple, si on souhaite obtenir le prix de la 90e
propriété, on
aurait :
Et si on souhaite obtenir le prix et la supercie des propriétés 10 à 20, on aurait :
Si on souhaite l'ensemble des informations d'une propriété, il sut de ne rien inscrire après la virgule.

Pour sélectionner un sous-ensemble d'observations, il sut d'utiliser la commande subset() dans
laquelle on insère le jeu de données utilisé et une condition logique. Les conditions logiques retournent
un vrai ou un faux. On peut utiliser une liste de symboles telles que (inférieur), (supérieur), =
(plus petit ou égal), = (plus grand ou égal), == (est égal à),!= (n'est pas égal à), | (ou), (et), etc.
Par exemple, si on prend le jeu de données Hotel.csv et qu'on souhaite étudier les hôtels économiques,
il faudrait inscrire la condition Type==Economique :
Si on souhaite étudier les hôtels économiques et de luxe, il faudrait inscrire la condition Type==Economique
| Type==Luxe :

Il est aussi possible de créer son propre jeu de données à partir de la commande data.frame(), en
y insérant des vecteurs de données qu'on peut nommer. Un vecteur (commande c()) est une liste de
données présentée en une seule ligne ou en une seule colonne. Par exemple :
On peut aussi ajouter de nouvelles données (commande rbind()) ou des nouvelles variables (com-
mande cbind()) à un jeu de données. Par exemple :

On peut retirer des données ou des variables à l'aide des crochets ([]) permettant d'acher une
ligne ou une colonne précise. En inscrivant un nombre négatif, le logiciel achera l'ensemble des données
exceptée la ligne ou la colonne mentionnée.

2 RECODER UNE VARIABLE
2 Recoder une variable
Dans le cadre d'une analyse de données, il est parfois utile que l'analyste recodie une variable
existante en une nouvelle variable. Les codes associés aux modalités existantes d'une variable catégorique
(nominale ou ordinale) peuvent être modiés. On pourrait aussi créer des classes à partir d'une variable
numérique comme le revenu annuel. Pour eectuer un recodage, nous aurons besoin de la commande
recode() de la librairie car. Dans cette commande, on doit y inscrire le nom de la variable et les
modications proposées entre guillemets simples, séparées par des points-virgules.
Exemple 2.1 Une étude de marché est menée auprès d'un certain nombre de clients d'une boutique
de jeux. L'objectif est de savoir si un nouveau pub ludique (où il est possible de prendre un verre en
jouant à des jeux de société) au centre-ville pourrait générer assez d'achalandage et de mieux cerner la
clientèle qu'on pourrait rejoindre avec ce type d'établissement. La jeu de données Ludique.csv contient
les résultats de cette étude. On pourrait par exemple vouloir grouper les quatre niveaux de scolarité en
deux groupes seulement : primaire et secondaire ensemble et collégial et université ensemble. La gure 2
illustre le recodage. La nouvelle variable scolarite2 est créée.
Figure 2 Recodage d'une variable catégorique

2 RECODER UNE VARIABLE
On pourrait aussi vouloir transformer la variable Revenu en une variable ordinale. Pour ce faire il
faudra faire des classes de salaires. Ici on a 20 données, et donc d'après la règle du 2 à la k, il est
suggéré de faire 5 classes. Par contre, ici nous ne ferons que 4 classes. En eet, pour bien des analyses
statistiques, il est préférable de ne pas avoir des variables avec trop de modalités. Ainsi, bien souvent,
ce sont le contexte et le bon jugement qui décident du nombre de classes...
Ici le minimum des salaires est 0 $ et le maximum est 100 000 $. Ainsi la largeur des classes devrait
être d'environ 25 000 $, ce qui donnerait les classes de moins de 25 000 $, de 25 000 $ à moins de 50 000 $,
de 50 000 $ à moins de 75 000 $ et de 75 000 $ et plus. On peut aussi laisser la première et la dernière
classe ouvertes , c'est ce que nous ferons.
Ce type de recodage peut s'eectuer à partir de la commande cut() dans laquelle on insère la variable
numérique à recoder suivie des valeurs séparant les intervalles. Il est suggéré d'ajouter include.lowest=TRUE
pour s'assurer que la borne inférieure du premier intervalle contienne la valeur minimale du jeu de don-
nées.
Figure 3 Recodage d'une variable numérique

3 CRÉATION DE V
ARIABLE PAR CALCULS
3 Création de variable par calculs
Les variables à analyser ne sont pas toujours présentes dans la jeu de données. Il faut parfois les
obtenir à partir d'un calcul. Par exemple, pour obtenir la variable Prot, on pourrait soustraire les
coûts des revenus.
Exemple 3.1 La jeu de données Café.csv contient des données provenant d'un café géré par des étu-
diants de premier cycle dans une université canadienne. Elles ont été recueillies sur une période de dix
semaines de janvier à mars 2017. Les variables comprennent le nombre d'articles vendus et jetés. On
aimerait analyser le nombre d'articles jetés par jour. Pour ce faire, on doit créer une nouvelle variable
Pertes dont le calcul se ferait comme suit : Pertes = SandwichsJ + WrapsJ + MunsJ + Ca-
fesJ. Il sut alors d'utiliser l'opérateur - pour associer le résultat de ce calcul à une nouvelle variable.

4 ANALYSE DESCRIPTIVE (V
ARIABLE CATÉGORIQUE)
4 Analyse descriptive (variable catégorique)
Pour une variable d'échelle de mesure nominale ou ordinale, on aimerait obtenir les fréquences abso-
lues et relatives ainsi que des diagrammes tels que le diagramme en bâtons ou le diagramme circulaire.
Pour obtenir le tableau des fréquences absolues, il faut utiliser la commande table(). Pour les fréquences
relatives, il s'agit de la commande prop.table() dans laquelle on fournit un tableau de fréquence ab-
solues. Le diagramme en bâtons peut être obtenu à partir de la commande barplot() dans laquelle on
fournit un tableau de fréquence. Le diagramme circulaire peut quant à lui être obtenu à partir de la
commande pie() dans laquelle on fournit un tableau de fréquence.
Exemple 4.1 Considérons un exemple d'une course au leadership pour un nouveau parti politique. Une
étude est commandée an de savoir quel candidat, parmi les quatre candidats en lice, a le plus grand po-
tentiel d'impact sur la population. Une rme de consultants mène donc une étude auprès de 400 électeurs
répartis un peu partout en province. Une question possible dans ce sondage pourrait bien être la suivante :
- Parmi les candidats suivants, lequel voudriez-vous élire comme chef du parti?
Candidat 1 □ (158 votes)
Les nombres entre parenthèses illustrent la répartition nale des réponses des électeurs questionnés.
Le chier candidat.csv traitant cette étude contient deux colonnes. Plus précisément, une colonne
d'identication ident (inutile aux traitements statistiques mais nécessaire pour retracer les erreurs de
saisie) et une colonne représentant la variable à l'étude pouvant être appelée candidat.

Pour être en mesure de connaître la compilation des votes pour chacun des candidats, il faut déga-
ger un tableau de répartition des fréquences. Pour obtenir la gure 4, il faut eectuer les commandes
mentionnées au début de cette section. Voici ce qu'on obtient :
Figure 4 Distribution des fréquences
Le tableau de la distribution des fréquences (gure 4) met en évidence la popularité de chacun des
candidats. On remarque facilement que deux candidats se démarquent des autres : le candidat 1 avec 158
votes sur 400, représentant 39,5 % des votes, et le candidat 2 avec 175 votes sur 400, représentant 43,8 %
des votes. Ainsi, en se basant sur l'échantillon, l'analyste est en droit de dire que ponctuellement, on
peut estimer la proportion de la population en faveur du candidat 2 (le paramètre πcandidat 2) à 43,8 %.

Exemple 4.2 L'exemple qui suit se base sur une véritable enquête qui a été menée sur le stress au
travail d'un échantillon représentatif des employés dans une entreprise internationale. Le questionnaire
a été passé en France et au Canada. La jeu de données SPSS se nomme Stress.csv. Faites l'analyse
descriptive de la variable statut.
La gure 5 présente les sorties qui décrivent la variable statut.
Figure 5 Les fréquences et le diagramme en bâtons
Le tableau de distribution des fréquences illustre que 52,8 % sont des employés de production et
que 85,1 % des employés ne sont pas cadres. (Est-ce que le ratio employé/cadre est bon pour ce type
d'entreprise qui est une entreprise de production? À voir dans vos autres cours, la réponse à cette
question pourrait vous orienter vers une restructuration...). Le diagramme circulaire illustre la dispersion
des diérents statuts professionnels dans l'entreprise.

ARIABLE NUMÉRIQUE)
5 Analyse descriptive (variable numérique)
Pour une variable d'échelle de mesure intervalle ou ratio, on aimerait obtenir les statistiques de
tendance centrale, de dispersion et de forme ainsi que des diagrammes tels que l'histogramme ou le dia-
gramme à moustache. Pour ce faire, on aura besoin des commandes boxplot(), summary(), mean(),
median(), min(), max(), range(), quantile(), IQR(), Sd(), Var() ainsi que des commandes
skewness(), kurtosis(), agostino.test() et anscombe.test() de la bibliothèque moments.
Remarques :
1. La commande mean() permet de calculer des moyennes tronquées en spéciant par exemple :
trim=0.05.
2. L'histogramme peut être personnalisé en spéciant le nom de l'histogramme (main=Histogramme)
ou le nom des axes (xlab=variable).
3. Si le jeu de données contient des valeurs manquantes, il faut spécier qu'on ne souhaite pas en
tenir compte lors des calculs (commande na.rm=TRUE)
Exemple 5.1 Un franchisé aimerait avoir droit à plus d'employés sur le plancher de son magasin. Selon
les normes de la compagnie, pour qu'un magasin passe de la classe A à la classe B et ainsi avoir droit à
plus d'employés, il faut que les ventes quotidiennes dépassent 5 000 $ la plupart du temps. Ainsi, on a
étudié les ventes de 50 jours. Les résultats se retrouvent dans la jeu de données franchisé.csv.

ARIABLE NUMÉRIQUE)
À l'aide de R, on obtient la gure 6, la gure 7 et la gure 8 :
Figure 6 Les statistiques descriptives
Figure 7 Diagramme à moustaches

ARIABLE NUMÉRIQUE)
Figure 8 L'histogramme
Figure 9 Tests de normalité

ARIABLE NUMÉRIQUE)
Ponctuellement, on estime les ventes moyennes à x = 6 811, 31 $. La médiane est de 6 637,01 $.
Comme la diérence entre la médiane et la moyenne échantillonnale ne représente que 2,55 %

6 811, 31 − 6 637, 01
6 811, 31

de la valeur de la moyenne, la moyenne semble une valeur able pour représenter
les ventes typiques, la valeur centrale.
Cependant, il semble y avoir de la volatilité au niveau des ventes. L'écart-type est de 1 789,02 $, ce
qui représente un coecient de variation de CV =
1 789, 02
6 811, 31
= 0, 2627. Donc, même si la moyenne semble
correspondre à la valeur centrale, elle est plus ou moins représentative de l'ensemble des données. Il serait
donc imprudent d'armer que les ventes se situent habituellement près de 6 811,31 $. En eet, la valeur
de la moyenne n'indique en rien la dispersion des données. Elle n'est pas en mesure de tenir compte
d'autres facteurs comme le moment de l'année. Mais, ceci n'invalide en rien la moyenne en elle-même.
Les ventes les moins élevées sont de 4 002,70 $. À l'opposé, les ventes les plus élevées sont de
9 987,96 $ à la compagnie. L'étendue est donc de 5 985,26 $. L'intervalle interquartile se chire quant à
lui à 3 154,09 $. Il s'agit de l'étendue de l'intervalle borné par 50 % des données centrales.
Le coecient d'asymétrie est de 0,0969, ce qui est près de 0. Le test de D'Agostino indique une
valeur-z de 0, 3114 ( 2). Ainsi, nous ne rejetons pas la normalité de la courbe. La distribution semble
symétrique. Du côté de l'aplatissement, on a un coecient de 1,6769, ce qui semble relativement éloigné
de 3. Comme la valeur-z du test d'Anscombe-Glynn est de −4, 3921 ( −2), nous rejetons la normalité
de la courbe. Il semble y avoir un aplatissement signicatif pour conclure à la non-normalité.
En somme, la valeur centrale des ventes est de près de 7 000 $, ce qui est plus élevé que la valeur
de 5 000 $ exigée pour passer à la classe B. Même si la variation des ventes est grande (écart-type de
1 789,02 $), ça ne sut pas pour croire qu'une bonne partie des ventes se trouve sous la barre des 5 000 $.
Les ventes les moins élevées sont de 4 002,70 $. Un passage à la classe B semble donc envisageable.
Remarque : Lorsque les coecients d'asymétrie et d'aplatissement nous indiquent que la distribution
semble symétrique et aplatie comme une courbe normale, cela n'assure pas la normalité pour autant; elle
n'est simplement pas rejetée. En eet, il faut comprendre que ces statistiques mesurent respectivement
l'asymétrie et l'aplatissement de façon indépendante et non conjointe. Elles ne sont que des règles du
pouce.

ARIABLE NUMÉRIQUE)
Exemple 5.2 Reprenons l'exemple de la jeu de données Stress.csv (exemple 4 p.15) qui se base sur
une véritable enquête qui a été menée sur le stress au travail. La gure 10 donne un aperçu des variables
qui étaient à l'étude, grâce à la commande names().
Figure 10 Les variables à l'étude
Il est à noter que les questions peur_sup, accs_sup et stress ont été mesurées à l'aide d'une échelle
qui est constituée d'une ligne de 15 cm de long et sur laquelle l'individu est invité à apposer un X sur
la partie de la droite qui correspond à son opinion. Avec cette droite, toutes les valeurs sont possibles.
Voici un exemple lié à la variable peur_sup du chier :
Q2 : J'ai peur d'exprimer mon désaccord à mon supérieur immédiat. (Mettre un X sur la partie de la
droite qui correspond le mieux à votre opinion, en sachant que le 0 correspond à tout à fait en
désaccord , et le 15 à tout à fait en accord .)
| × |
0 15
Comme illustré sur cet exemple, l'individu positionne un X sur la droite représentant ainsi son
opinion. Une fois le X inscrit par le répondant, le praticien mesure, à l'aide d'une règle, la distance en
cm entre le niveau de Tout à fait en désaccord (0cm) jusqu'au premier endroit où le X coupe
la droite. C'est justement cette valeur (en cm) qui sera inscrite dans le chier de données SPSS à titre
de réponse de l'individu. En somme, plus la valeur en cm est élevée, plus l'individu est en accord avec
l'armation.
Faites l'analyse descriptive de la variable stress.

ARIABLE NUMÉRIQUE)
Figure 11 Les statistiques
L'analyse de la sortie 11 illustre que, ponctuellement, la mesure du niveau de stress moyen s'estime
à 4,8037 points sur une possibilité de 15 points. La moyenne tronquée de 5 % est de 4,5180 points et
la médiane est de 5 points. Ces deux statistiques sont près de la moyenne échantillonnale. En eet,
la diérence entre la moyenne tronquée et la moyenne représente seulement 5,95 % de la valeur de la
moyenne, ce qui est inférieur à 10 %. L'analyste est conant que le niveau de stress typique est bien
estimé et tourne vraisemblablement autour de 4,8 points.

ARIABLE NUMÉRIQUE)
Figure 12 Le diagramme à moustaches et l'histogramme
Cependant, l'écart-type échantillonnal de 3,55354 points illustre qu'il y a beaucoup de variation
parmi l'ensemble des employés. Même si le niveau de stress typique est bien estimé, avec un coecient
de variation nettement supérieur à 0,30 (il a une valeur de CV = 3,55354
4,8037 = 0, 7398 !), la moyenne n'est
pas représentative des données (ne résume pas bien les données). À cet eet, les valeurs minimum et
maximum sont de 0 et 15 points respectivement illustrant qu'au moins deux individus vivent des stress
diamétralement opposés. L'étendue est donc de 15 points, tandis que l'étendue de l'intervalle interquartile
est de 5 points. L'histogramme démontre qu'un groupe d'individus particulièrement stressés se détache
des autres (Est-ce les cadres ? À voir en analyse bivariée plus tard).
Le coecient d'asymétrie est de 1,0217, ce qui est assez loin de 0. Le test de D'Agostino indique une
valeur-z de 4, 6977 ( 2). Ainsi, nous rejetons la normalité de la courbe. Il semble y avoir une asymétrie
prononcée vers la droite. Du côté de l'aplatissement, on a un coecient de 4,174, ce qui semble loin
de 3. Comme la valeur-z du test d'Anscombe-Glynn est de 2, 426 ( 2), nous rejetons la normalité de
la courbe. Par rapport à la distribution normale, la distribution des données illustre un sommet plus
pointu.

6 INTER
V
ALLES DE CONFIANCE
6 Intervalles de conance
L'intervalle de conance estimant la moyenne d'une population est donné par la commande R sui-
vante : t.test(). Pour estimer une proportion dans la population, il faudra d'abord calculer le nombre
de succès et le nombre de tentatives avec les commandes sum() ou length() pour ensuite obtenir l'inter-
valle de conance à l'aide de la commande prop.test(). Il est possible de spécier le niveau de conance
en ajoutant par exemple conf.level=0.95.
Exemple 6.1 Poursuivons l'exemple 5 (p.16) avec la jeu de données Franchisé.csv.
Dans R, c'est la loi de Student qui est utilisée pour calculer les intervalles de conance sur une
moyenne. Comme s2
est utilisée pour estimer σ2
qui est inconnue, il faudrait s'assurer que la population
d'origine suive une loi normale. L'histogramme de la gure 8 ne semble pas conrmer cette hypothèse,
puisque la distribution est aplatie. Mais, comme le nombre d'observation est grand (n = 50 ≥ 30), le
résultat de l'intervalle de conance est assez able. On verra plus tard comment vérier formellement la
normalité d'une population.
Figure 13 L'intervalle de conance de niveau 95 %
On voit donc qu'au niveau de la population, les ventes moyennes se situent entre 6 302,88 $ et
7 319,75 $, et ce 19 fois sur 20. De façon équivalente, les ventes moyennes s'estiment à 6 811,31 $ avec
une marge d'erreur de ±508,44 $, et ce, 19 fois sur 20.

6 INTER
V
ALLES DE CONFIANCE
Si on modie le niveau de conance à 90 %, on obtient la sortie 14 :
Figure 14 L'intervalle de conance de niveau 90 %
On voit donc qu'au niveau de la population, les ventes moyennes ont une probabilité de 90 % de se
situer entre 6 387,14 $ et 7 235,49 $.

6 INTER
V
ALLES DE CONFIANCE
Exemple 6.2 Un agent immobilier de Sherbrooke aimerait mieux cerner le marché des propriétés à
vendre dans cette ville. Il a recueilli un échantillon de 100 propriétés et voudrait analyser les résultats
qu'on retrouve dans la jeu de données Immobilier.csv.
Supposons que l'on désire un intervalle de conance pour la proportion de condos à vendre dans cette
population. Voici les fréquences des types de propriétés (voir section 4 p.13 pour les manipulations) :
Figure 15 Les fréquences et le diagramme en bâtons

6 INTER
V
ALLES DE CONFIANCE
De façon ponctuelle, on voit que la proportion de condos est estimée à 29 %. Ainsi, puisque n =
100 30, np = 100 · 0, 29 = 29 5 et n(1 − p) = 100 · (1 − 0, 29) = 71 5, l'intervalle de conance pour
cette proportion sera valide.
Pour obtenir l'intervalle de conance de niveau 95 % pour πCondo, il faut utiliser la commande
prop.test() dans laquelle on doit inscrire le nombre de condos (appelés ici les succès) et le nombre
total d'observations (appelés ici les tentatives). La commande sum() dans laquelle on inscrit une condition
logique (Type==Condo) permettra de dénombrer les condos de l'échantillon. La commande length()
retournera le nombre d'observations dans l'échantillon. Voici ce qu'on obtient :
Figure 16 Intervalle de conance pour une proportion
Par défaut, la fonction prop.test() applique une correction à la continuité. Cette correction n'est
pas nécessaire lorsque l'échantillon est grand (ici, n = 100 ≥ 30). C'est pourquoi on a ajouté l'argument
correct=FALSE. La gure 16 nous indique que ponctuellement, la proportion de condos est de 29 %.
Dans la population, la proportion de condos est comprise entre 21,01 % et 38,54 %, et ce, 19 fois sur 20
(ou avec 95 % des chances d'avoir raison).

7 TEST SUR UNE MOYENNE
7 Test sur une moyenne
(a) Mentionner le seuil de signication (α).
(b) Test de normalité :
(b1) Formuler les hypothèses de normalité de la population.
(b2) Prendre une décision compte tenu des résultats obtenus.
(b3) Donner une conclusion.
Remarque : Si l'un des deux tests rejette la normalité, on mettra un bémol sur la validité des
résultats associés à cette population. Si les deux tests (Kolmogorov-Smirnov et Shapiro-Wilk)
rejettent la normalité, le test principal et l'intervalle de conance ne seront théoriquement
pas valide. Toutefois, le test étant robuste à la violation de cette condition, une grande taille
d'échantillon donnera tout de même d'assez bons résultats.
(c) Test principal :
(c1) Formuler les hypothèses du test sur une moyenne en relation avec le contexte.
(c2) Prendre une décision compte tenu des résultats obtenus.
(c3) Donner une conclusion.
(d) Si H0 est rejetée, donner un intervalle de conance estimant la moyenne au niveau de la population.

Exemple 7.1 Reprenons le contexte de la jeu de données Immobilier.csv (Exemple 6 p.25). Pour
inciter les gens de Montréal à considérer à acheter une propriété dans la région de Sherbrooke, on af-
rme que les propriétés coûtent en moyenne moins de 225 000 $. Avec l'échantillon dont nous disposons,
avons-nous assez de preuves pour appuyer cette armation au seuil α = 0, 05 ?
On désire donc tester les hypothèses suivantes :
H0 : µprix = 225 000
H1 : µprix 225 000
On utilisera le seuil de signication α = 0, 05 lors de cette analyse. On rejette H0 si la
valeur-p est inférieure à ce seuil.
Comme l'intervalle de conance avec σ2
inconnue, le test sur une moyenne avec Student exige que
la population soit distribuée selon une loi normale. Nous ferons donc d'abord un test de normalité.
Cependant, le test de Student est robuste, c'est-à-dire qu'il réagit bien à la violation de la condition
de normalité. Ainsi, même si la population n'est pas tout à fait d'origine normale, le test d'hypothèses
donnera d'assez bons résultats si la taille de l'échantillon est grande, ce qui est le cas ici : n = 100 ≥ 30.
Pour vérier la normalité de la population, on peut observer la forme de l'histogramme, se servir des
statistiques d'asymétrie et d'aplatissement (kurtosis) tel que vu dans un chapitre 1, et/ou tester formel-
lement la normalité en traitant le test d'hypothèses suivant pour le stress des employés de cette entreprise.
H0 : Les données de la population se répartissent selon une loi normale.
H1 : Les données de la population ne se répartissent pas selon une loi normale.

Pour résoudre ce test, il faut d'abord eectuer les commandes shapiro.test() et lillie.test()
(librairie nortest). On obtient les sorties suivantes :
Figure 17 Vérication de la normalité des données
Figure 18 Histogramme

On y retrouve les valeurs-p associées aux statistiques de Shapiro-Wilk et Kolmogorov-Smirnov qui
nous permettent de résoudre le test d'hypothèses. La littérature ne s'entend pas sur lequel des deux tests
est le plus performant. On considérera donc les deux valeurs-p en même temps. Ainsi, lorsque les deux
tests fournissent la même conclusion, on est conant du résultat. Il peut par contre arriver qu'un seul des
deux tests rejette la normalité (zone grise). Étant donné que la procédure statistique que nous verrons
est assez robuste à la violation de la normalité, nous poursuivrons parfois l'analyse même si l'une des
deux statistiques (ou les deux) rejette la normalité, si la taille d'échantillon est très grande.
On note ici que la valeur-pS−W = 0, 000 0, 05 et la valeur-pK−S = 0, 000 0, 05.
On rejette donc H0. Au risque de se tromper une fois sur 20, les données de cette po-
pulation (le prix des propriétés) ne se distribuent pas selon une loi normale. La forme de
l'histogramme semble conrmer cette conclusion. On peut remarquer une asymétrie vers la
droite. La normalité de la population d'origine n'est pas respectée, mais avec un échantillon
de taille n = 100 ≥ 30, nous sommes conants que le test d'hypothèses donnera d'assez
bons résultats.
Pour obtenir la valeur-p qui nous permettra de résoudre le test principal, il sut d'utiliser la com-
mande t.test() en y inscrivant le nom de la variable à tester ainsi que la valeur hypothétique de µ.
Il est même possible de spécier le type de test (unilatéral à gauche, unilatéral à droite ou bilatéral)
en ajoutant alternative=less, greater ou two.sided. Par défaut, le test sera bilatéral. On
obtient les sorties suivantes :
Figure 19 Test sur une moyenne

La sortie 19 contient quelques statistiques, dont la moyenne. On voit donc que le prix moyen d'une
propriété de l'échantillon est de 203 805 $. Cela semble être inférieur à 225 000 $ de façon signicative,
on s'attend donc à rejeter H0. On désire donc tester les hypothèses suivantes :
H0 : µprix = 225 000
H1 : µprix 225 000
Ici, puisque valeur-p = 0, 022 0, 05, on rejette H0. Au risque de se tromper une fois
sur 20, on peut armer que le prix moyen des propriétés est inférieur à 225 000 $ dans la
population.
La cote-t est de -2,04 (loin de 0), ce qui nous indique à quel point il est peu probable qu'un échantillon
produise une moyenne de 203,805 si celle de la population est censée être 225.
Nous venons d'armer que le prix moyen des propriétés est inférieur à 225 000 $. Un intervalle
de conance pourrait nous informer plus précisément où se situe ce prix moyen. Pour l'obtenir, il faut
eectuer un test bilatéral avec la commande t.test().
Figure 20 Intervalle de conance
Au niveau de la population, le prix moyen des propriétés se situe entre 183 190 $ et
224 420 $ et ce, 19 fois sur 20.

8 TEST SUR UNE PROPORTION
8 Test sur une proportion
(b) Vérier les conditions de validité du test d'hypothèses :
n ≥ 30, nπ0 ≥ 5 et n(1 − π0) ≥ 5.
(c1) Formuler les hypothèses du test sur une proportion en relation avec le contexte.
(d) Si H0 est rejetée, donner un intervalle de conance estimant la proportion au niveau de la popu-
lation.

Exemple 8.1 Kickstarter est une communauté de plus de 10 millions de personnes composée d'ama-
teurs créatifs et technologiques qui contribuent à la réalisation d'un projet créatif. Jusqu'à présent, plus
de 3 milliards de dollars ont été apportés par les membres pour alimenter des projets créatifs. Les projets
peuvent être littéralement n'importe quoi : un appareil, un jeu, une application, un lm, etc. Kickstarter
fonctionne sur le principe du tout ou rien, c'est-à-dire que si un projet ne répond pas à son objectif, le
propriétaire du projet ne reçoit rien.
Récemment, Kickstarter a publié son dépôt de données publiques pour permettre aux chercheurs et
aux passionnés comme nous de les aider à résoudre un problème. Un projet sera-t-il entièrement nancé?
Un échantillon de 500 projets a été prélevé (kickstarter.csv). Au seuil α = 0, 01, peut-on croire que
plus de 25 % des projets résultent en un succès ?
H0 : π = 0, 25
H1 : π 0, 25
Or, pour eectuer ce test, on doit s'assurer que certaines conditions sont respectées.
Comme le démontre la gure ci-bas, on a n = 500 ≥ 30, nπ0 = 500 · 0, 25 = 125 ≥ 5 et
n(1 − π0) = 500 · (1 − 0, 25) = 375 ≥ 5. On pourra donc poursuivre le test.
Pour obtenir la valeur-p pour ce test il faut utiliser la commande prop.test() en y inscrivant le
nombre de succès, le nombre d'observations ainsi que la valeur hypothétique de π. Il est suggéré de
retirer la correction à la continuité (correct=FALSE). On peut aussi spécier le type de test (unilatéral à
gauche, unilatéral à droite ou bilatéral) en ajoutant alternative=less, greater ou two.sided.
Par défaut, le test sera bilatéral. On obtient alors les sorties suivantes :

On note ici que valeur-p = 0, 0019 0, 01. Donc, on rejette H0. Au risque de se tromper
1 fois sur 100, plus de 25 % des projets résultent en un succès dans la population.
On estime cette proportion à 30,60 % avec une marge d'erreur de 5,53 % et ce, 99 fois
sur 100 (I.C.(π) = [0, 2557; 0, 3613]).
Il est à noter que bien que p = 0, 3060 0, 25, ce n'est pas susant pour armer que π 0, 25.
C'est la valeur-p qui prouvera que la diérence entre la proportion de notre échantillon p et la proportion
hypothétique π0 est assez grande pour qu'on soit sûr que ce n'est pas dû aux uctuations échantillonnales.

9 TEST SUR DEUX MOYENNES (ÉCHANTILLONS INDÉPENDANTS)
9 Test sur deux moyennes (échantillons indépendants)
pas valide. Toutefois, le test étant robuste à la violation de cette condition, de grandes tailles
d'échantillons donneront tout de même d'assez bons résultats.
(c) Test d'égalité des variances :
(c1) Formuler les hypothèses d'égalité des variances des populations.
(d) Test principal :
(d1) Formuler les hypothèses sur les moyennes des deux populations.
(d2) Lire la ligne du tableau correspondant à la conclusion du test d'égalité des variances et
prendre une décision compte tenu des résultats obtenus.
(d3) Donner une conclusion.
(e) Si H0 est rejetée, donner une estimation ponctuelle et un intervalle de conance estimant la
diérence entre les deux moyennes au niveau de la population.

Exemple 9.1 Récemment, les dirigeants d'une compagnie remarquent un nombre de démissions impor-
tant. On se demande ce qui provoque cette masse de départ. La jeu de données Employés.csv contient
des informations d'un échantillon de 200 employés. Plusieurs variables pourraient être en cause (salaire,
accidents de travail, nombre d'heures travaillées, etc.).
Au seuil α = 0, 05, pourrait-on croire que les employés qui ont quitté se trouvaient surchargés par le
nombre d'heures de travail? Les hypothèses à tester sont les suivantes :
H0 : µNon = µOui
H1 : µNon µOui
Il faut d'abord vérier si les populations d'origine se distribuent selon une loi normale. Plus préci-
sément, on désire tester les hypothèses suivantes pour chacun des deux groupes (ceux qui ont quitté la
compagnie et ceux qui sont restés) :
Pour résoudre ce test, il faut d'abord eectuer les commandes présentées dans la sortie 22 :
Figure 21 Histogrammes

Figure 22 Tests de normalité
Pour les employés qui n'ont pas quitté, la valeur-pS−W = 0, 0017 0, 05 et la valeur-
pK−S = 0, 0024 0, 05 et donc on rejette H0. Ainsi, au risque de se tromper une fois sur
20, les données de cette population ne se distribuent pas selon une loi normale. Pour les
employés qui ont quitté, la valeur−pS−W = 0, 0038 0, 05 et la valeur-pK−S = 0, 0010
0, 05 et donc on rejette H0. Ainsi, au risque de se tromper une fois sur 20, les données
de cette population ne se distribuent pas selon une loi normale. Les populations ne sont
pas d'origines normales, ce qui n'est pas idéal. Un test non paramétrique serait peut-
être envisageable. Toutefois, avec n1 = 165 ≥ 30 et n2 = 35 ≥ 30, le test d'hypothèses
devrait donner d'assez bons résultats, puisqu'il est robuste à la violation de la condition
de normalité.

On doit ensuite faire le test de Levene pour vérier si l'hypothèse des variances égales est plausible.
Pour ce faire, on doit utiliser la commande leveneTest() de la librairie car. En arguments, on inscrit
la variable numérique, la variable catégorique et le centre de la distribution à utiliser (ici, la moyenne).
On obtient les sorties suivantes :
Figure 23 Test d'égalité des variances
Le test de Levene permet en fait de résoudre le test d'hypothèses suivant :
H0 : σ2
Oui = σ2
Non
H1 : σ2
Oui ̸= σ2
Non
Ici, puisque la valeur-pLEV ENE = 0, 8871 ≮ 0, 05, on ne rejette pas H0. Au seuil
α = 0, 05, l'hypothèse d'égalité des variances est vraisemblable.
On peut donc revenir au test principal :
H0 : µNon = µOui
H1 : µNon µOui

On utilisera ici la commande t.test() dans laquelle on inscrit la variable numérique étudiée suivie
de la variable catégorique (séparés par le symbole ∼ ). On spéciera aussi que les variances sont
considérées égales dans la population (argument var.equal=TRUE). On obtient ce qui suit :
Figure 24 Test-t sur 2 moyennes
La sortie 24 contient quelques statistiques descriptives. Ainsi, on voit que le nombre moyen d'heures
travaillées par mois est de 208,18 heures pour les employés qui n'ont pas quitté, alors qu'il est de 230,80
heures pour ceux qui ont quitté. Cette diérence entre les moyennes est-elle signicative ou n'est-elle
due qu'à la uctuation échantillonnale? Puisque la valeur-p = 0, 0023 0, 05, on rejette H0.
Au risque de se tromper 1 fois sur 20, nous rejetons la nullité de la diérence et admet-
tons qu'il y a une diérence signicative entre le nombre moyen d'heures travaillées des
employés qui ont quitté la compagnie et de ceux qui sont restés, au niveau de la population.

Lorsqu'on admet qu'il y a une diérence signicative entre les deux moyennes, l'étape suivante est
de voir comment s'exprime cette diérence. On retrouve un intervalle de conance estimant la diérence
des moyennes au niveau de la population si on répète la commande t.test() pour un test bilatéral.
Ponctuellement, il y a une diérence de 22,6242 heures entre le nombre moyen d'heures
travaillées des employés qui ont quitté la compagnie et de ceux qui sont restés, en faveur
de ceux qui ont quitté. Au niveau de la population, cette diérence se situe entre 7,0295
heures et 38,2190 heures et ce, 19 fois sur 20.
Remarque : On pourrait aussi interpréter l'intervalle de conance à partir de la marge d'erreur.
Dans le calcul d'un intervalle de conance, on ajoute et on soustrait une quantité E, appelée la marge
d'erreur. Ainsi, un intervalle de conance contient deux fois cette marge d'erreur. Dans notre exemple,
puisque IC=[7,0295 ;38,2190], on trouve E de la façon suivante :
38, 2190 − 7, 0295
2
= 15, 5948. On peut
donc dire qu'au niveau de la population, la diérence des moyennes s'estime à 22,6242 heures avec une
marge d'erreur de 15,5948 heures et ce, 19 fois sur 20.

10 TEST SUR DEUX MOYENNES (ÉCHANTILLONS APPARIÉS)
10 Test sur deux moyennes (échantillons appariés)
Dans le cas des échantillons appariés, il est possible de suivre la procédure du test sur une moyenne
vue au chapitre précédent (voir section 7 p.27). Il sut d'utiliser la commande t.test() en inscrivant
les deux variables numériques étudiées et en spéciant qu'il s'agit d'un test avec échantillons appariés
(paired=TRUE).
Exemple 10.1 La jeu de données Café.sav contient des données provenant d'un café géré par des
étudiants de premier cycle dans une université canadienne. Elles ont été recueillies sur une période de
dix semaines de janvier à mars 2017. Les variables comprennent le nombre d'articles vendus et jetés.
Il semble que les wraps se vendent plus que les sandwichs. Peut-on conrmer cette hypothèse au seuil
α = 0, 05 ?
valeur-p est inférieure à ce seuil. Le prérequis pour que ce test soit valide est que les diérences se
distribuent selon une loi normale. On eectue donc un test de normalité pour la variable Diff,
et on obtient les sorties suivantes :
Figure 26 Test de normalité des diérences

Figure 27 Histogramme
On doit maintenant résoudre le test d'hypothèses suivant :
Pour la population de la diérence entre les ventes des deux articles, la valeur-pS−W =
0, 7402 ≮ 0, 05 et la valeur-pK−S = 0, 7035 ≮ 0, 05 et donc on ne rejette pas H0. Ainsi, au
seuil α = 0, 05, il est plausible d'admettre que les données de cette population se distribuent
selon une loi normale.
On peut donc poursuivre l'analyse avec conance. On eectue donc les commandes mentionnées à la
section précédente (test sur une moyenne) pour tester les hypothèses :
H0 : µD = 0
H1 : µD 0

On obtient alors la gure 28.
Figure 28 Test échantillons appariés
La gure 28 nous indique que la moyenne de la variable Diff est de 8,4468. Puisque valeur-
p = 0, 0000 0, 05, on rejette H0. Donc, au risque de se tromper 1 fois sur 20, le nombre de
wraps vendus est supérieur au nombre de sandwichs vendus en moyenne dans la population.
L'écart moyen réel se situe entre 6,9944 et 9,8992 unités, et ce, 19 fois sur 20.

11 TEST SUR PLUSIEURS MOYENNES (ANOV
A)
11 Test sur plusieurs moyennes (ANOVA)
pas valide. Toutefois, le test étant robuste à la violation de cette condition, de grandes tailles
d'échantillons donneront tout de même d'assez bons résultats.
(c) Test d'égalité des variances :
(c1) Formuler les hypothèses d'égalité des variances des populations.
Remarque : Si l'hypothèse d'égalité des variances est rejetée, le test principal ne sera pas
valide.
(d1) Formuler les hypothèses d'égalité des moyennes des populations.
(d2) Prendre une décision compte tenu des résultats obtenus.
(e) Si H0 a été rejetée, quantier et interpréter les valeurs de η2
et η.
(f) Si H0 a été rejetée, expliquer comment s'exprime cette diérence en faisant l'analyse Post Hoc.
Eectuer les étapes suivantes pour tous les couples de moyennes.
(f1) Formuler les hypothèses d'égalité des moyennes des populations.
(f2) Prendre une décision compte tenu des résultats obtenus.
(f3) Donner une conclusion.
(f4) Si H0 est rejetée, donner une estimation ponctuelle et un intervalle de conance estimant la
diérence des moyennes de ces deux populations.
(g) Résumer l'ordre des moyennes en lien avec les conclusions obtenues dans l'analyse Post Hoc.

A)
Exemple 11.1 Une compagnie de cartes de crédit canadienne ore trois types de cartes de crédit à ses
clients : la carte de base qui ne donne aucune remise en argent ; la carte Remise qui coûte 60 $ par année,
mais qui donne une remise de 2 % sur tous les achats; la carte Remise Plus qui coûte 120 $ par année,
mais qui donne une remise de 4 % sur tous les achats. On aimerait mieux cerner le type de clientèle
qui se procure la carte Remise Plus. Ces clients sont-ils plus âgés ? Sont-ils plus fortunés ? Habitent-ils
une province en particulier? On a répertorié les données de 1 000 clients prélevés de façon aléatoire et
indépendante. La jeu de données se nomme Crédit.csv. Parmi les détenteurs des trois types de cartes,
remarque-t-on une diérence au niveau des soldes moyens ? Utilisez le seuil α = 0, 01.
On désire traiter le test d'hypothèses suivant :
H0 : µBase = µRemise = µRemisePlus
H1 : Au moins une des moyennes est diérente.
Fixons le seuil de signication à α = 0, 01. On rejettera H0 si la valeur-p est inférieure
à ce seuil.
Vérions d'abord les conditions d'application du test. On sait déjà que les échantillons ont été préle-
vés de façon aléatoire et indépendante. Il reste à vérier que les échantillons proviennent de populations
normales et que les variances des populations sont égales.
La vérication de la normalité se fait de la même façon que celle décrite dans la section 7. On doit
traiter le test suivant pour chacune des trois populations.

A)
À l'aide de R, on obtient les sorties suivantes :

A)

A)
Pour la population des détenteurs d'une carte de base, on a valeur-pK−S = 0, 6431 ≮ 0, 01
et valeur-pS−W = 0, 0528 ≮ 0, 01. Ainsi, on ne rejette pas H0. Au seuil α = 0, 01, on admet
que les données de la population se répartissent selon une loi normale.
Pour la population des détenteurs d'une carte Remise, on a valeur-pK−S = 0, 8088 ≮
0, 01 et valeur-pS−W = 0, 8481 ≮ 0, 01. Ainsi, on ne rejette pas H0. Au seuil α = 0, 01, on
admet que les données de la population se répartissent selon une loi normale.
Pour la population des détenteurs d'une carte Remise Plus, on a valeur-pK−S = 0, 0943 ≮
0, 01 et valeur-pS−W = 0, 2239 ≮ 0, 01. Ainsi, on ne rejette pas H0. Au seuil α = 0, 01, on
admet que les données de la population se répartissent selon une loi normale.
Pour vérier si l'hypothèse de l'égalité des variances dans les populations est respectée, il faut utiliser
la statistique de Levene. Celle-ci permet de résoudre le test d'hypothèses suivant :
H0 : σ2
Base = σ2
Remise = σ2
RemisePlus
H1 : Au moins une des variances est diérente.
Les commandes pour obtenir la sortie 32 qui contient la statistique de Levene et la valeur-p associée
(dernière colonne du tableau) sont résumées au début de cette section.
Figure 32 Vérication de l'égalité des variances
Puisque valeur-pLEV ENE = 0, 4623 ≮ 0, 01, nous ne rejetons pas H0. Ainsi, au seuil
α = 0, 01, l'hypothèse d'égalité des variances dans les populations est vraisemblable.

A)
En somme, l'analyse de la variance que nous allons obtenir sera valide puisque les hypothèses de
normalité et d'égalité des variances sont vériées. On peut maintenant passer à la décomposition de la
variance.
Pour obtenir la sortie 33, il sut d'utiliser la commande aov() en y inscrivant la variable numérique,
suivie de la variable catégorique, séparés par le symbole ∼ . La commande summary() permettra
ensuite d'obtenir les informations nécessaires à l'analyse. Voici ce qu'on obtient :
Figure 33 Table ANOVA
On veut résoudre le test suivant :
H0 : µBase = µRemise = µRemisePlus
H1 : Au moins une des moyennes est diérente.
Puisque la valeur-p est égale à 0,000, ce qui évidemment plus petit que α = 0, 01, nous
rejetons H0. Ainsi, au risque de se tromper 1 fois sur 100, nous pouvons armer qu'au
moins un des soldes moyens est signicativement diérente des autres.
La gure 33 nous permet de calculer η2
= 81 017 364
81 017 364+470 548 047
= 0, 1469. Ainsi, 14,69 %
de la variabilité des soldes est expliquée lorsqu'on prend en considération le type de carte
possédé. La statistique η, quant à elle, se quantie à
√
0, 1469 = 0, 3833. La relation entre
les deux variables peut être qualiée de modérée (voir tableau ci-dessous).

A)
0, 7 ≤ η ≤ 1 relation très forte
0, 5 ≤ η 0, 7 relation forte
0, 3 ≤ η 0, 5 relation modérée
0, 1 ≤ η 0, 3 relation faible
0 ≤ η 0, 1 relation négligeable
Table 1 Interprétation du η
Puisqu'on a rejeté H0, on a admis qu'au moins une des moyennes est diérente des autres. Mais de
quelle façon s'exprime cette diérence ? C'est ce que nous saurons en utilisant la méthode de Tukey.
Dans le cadre de ce cours, nous nous contenterons d'appliquer cette méthode avec R, car elle devient
vite fastidieuse à la main.
Cette analyse permet de dire quelles sont les moyennes qui se distinguent des autres et quelles sont
celles qui sont considérées égales. Il y a près d'une quinzaine d'analyses Post Hoc disponibles sur R,
mais nous n'en présenterons qu'une seule, celle de Tukey.
Pour obtenir la sortie 34, il faut utiliser la commande TukeyHSD().
Figure 34 Analyse Post Hoc : Tukey

A)
Voici comment interpréter la sortie 34. Tout d'abord, il faut comparer les groupes de détenteurs de carte
deux-à-deux, en parcourant toutes les paires possibles : il y a en fait k(k−1)
2 paires à observer, où k est
le nombre de modalités de la variable nominale/ordinale. Ainsi, dans notre exemple, il y a 3(3−1)
2 = 3
paires à considérer.
On fera des tests bilatéraux sur deux moyennes. Comme nous avons obtenu précédemment qu'au
seuil α = 0, 01, les soldes des trois populations se distribuent selon une loi normale et que
les variances des soldes dans les trois groupes sont égales, tous les tests sur deux moyennes
seront valides. Voici donc comment on fait ces comparaisons.
µBase et µRemise : On doit faire le test d'hypothèses suivant :
H0 : µBase = µRemise
H1 : µBase ̸= µRemise
Puisque la valeur-p associée à la diérence de ces moyennes est de 0,0000,01, on rejette
H0. Donc, au risque de se tromper une fois sur 100, on conclut que la diérence entre ces
deux moyennes est signicative. La diérence des soldes moyens s'estime ponctuellement à
545,82 $ en faveur des détenteurs de la carte Remise. De plus, au niveau de la population,
cette diérence entre ces soldes moyens s'estime à 545,82 $ avec une marge d'erreur de
±150, 63 $ (rappel : E = 696, 45 − 545, 82), et ce, 99 fois sur 100.
µBase et µRemisePlus : On doit faire le test d'hypothèses suivant :
H0 : µBase = µRemisePlus
H1 : µBase ̸= µRemisePlus
Puisque la valeur-p associée à la diérence de ces moyennes est de 0, 000 0, 01, on rejette
H0. Donc, au risque de se tromper une fois sur 100, on conclut que la diérence entre ces
deux moyennes est signicative. La diérence des soldes moyens s'estime ponctuellement
à 624,84 $ en faveur des détenteurs de la carte Remise Plus. De plus, au niveau de la
population, cette diérence entre ces soldes moyens s'estime à 624,84 $ avec une marge
d'erreur de ±179, 77 $ et ce, 99 fois sur 100.

A)
µRemise et µRemisePlus : On doit faire le test d'hypothèses suivant :
H0 : µRemise = µRemisePlus
H1 : µRemise ̸= µRemisePlus
Puisque la valeur-p associée à la diérence de ces moyennes est de 0, 4925 ≮ 0, 01, on ne
rejette pas H0. Donc, au seuil α = 0, 01, nous n'avons pas assez de preuves pour armer
que la diérence entre ces deux moyennes est signicative.
[Note : On ne doit pas décrire comment s'exprime la diérence entre les deux moyennes, puisqu'on conclut
qu'il n'existe pas de telle diérence. Ces diérences ne sont dues qu'aux uctuations échantillonnales.]
On peut résumer la situation de la façon suivante : (µRemise = µRemisePlus) µBase.
[Note : On a fait des tests bilatéraux an de comparer les soldes selon les types de cartes, mais il nous
est également permis de faire des tests unilatéraux. Par exemple, on aurait pu tester les hypothèses
suivantes :
H0 : µBase = µRemise
H1 : µBase µRemise
En eet, puisque xRemise xBase, on peut même armer que µRemise µBase, car si une valeur-p est
plus petite que α = 0, 01, alors
valeur-p
2
sera aussi plus petit que 0, 01.]

12 TEST D'AJUSTEMENT
12 Test d'ajustement
(b) Vérier les conditions d'applications du test au sujet des fréquences théoriques. Si au moins une
des conditions n'est pas satisfaite, le test ne sera pas valide. Il faudrait augmenter la taille de
l'échantillon ou regrouper des catégories lorsque le contexte le permet.
(c1) Formuler les hypothèses sur la distribution de la variable nominale/ordinale.

Exemple 12.1 Une Université voudrait revoir les types d'assurances collectives oertes à ses employés.
On a sondé 180 de ces employés pour mieux comprendre ce qui les incite à choisir une option plutôt
qu'une autre et pour étudier les montants totaux réclamés. Les données recueillies se retrouvent dans la
jeu de données Assurances.csv. Il y a quelques années, l'option de base était la plus populaire : 50 % des
employés y adhéraient. L'option intermédiaire était préférée par 40 % des employés. L'option avancée
n'étaient choisie que par 10 % des employés. On se demandait alors si on ne devait pas retirer cette
option. Est-ce que l'échantillon présenté dans la jeu de données nous permet de croire que la répartition
des options a changé depuis au seuil α = 0, 05 ?
Pour eectuer ce test, nous aurons besoin de la commande chisq.test() dans laquelle on doit
insérer la table des fréquences observées (x) et le vecteur des proportions espérées (p). Mais, d'abord, il
faut porter une attention particulière à l'ordre d'apparition des modalités de la variable catégorique. Le
vecteur des proportions espérées devra acher le même ordre. Au besoin, modier l'ordre à partir de la
commande ordered(), comme suit :
Figure 35 Modier l'ordre d'apparition des modalités

Pour vérier les conditions d'applications du test, on peut ensuite demander à R de nous fournir les
fréquences espérées en ajoutant $expected au bout de la commande. On obtient la sortie 36.
Figure 36 Test d'ajustement du Khi-deux
Aucune cellule n'a un eectif théorique inférieur à 5 (0 % ≤ 20 %). En particulier,
toutes les fréquences théoriques sont supérieures ou égales à 1. Le test d'hypothèse qui
suit sera donc valide.
H0 : Dans la population, la répartition des options est la
même que celle indiquée.
H1 : Dans la population, la répartition des options a changé.
Le seuil de signication est xé à α = 0, 05. On rejettera H0 si la valeur-p est inférieure
à ce seuil. Ici, comme valeur-p = 0, 6057 ≮ 0, 05, on ne rejette pas H0. Au seuil α = 0, 05,
rien n'indique que la répartition des options a changé au niveau de la population.

13 TEST D'INDÉPENDANCE (TABLEAU CROISÉ)
13 Test d'indépendance (tableau croisé)
(b) Vérier les conditions d'applications du test au sujet des fréquences théoriques. Si une des condi-
tions n'est pas satisfaite, augmenter la taille de l'échantillon ou regrouper des modalités.
(c1) Formuler les hypothèses d'indépendance des variables.
(d) Si H0 est rejetée, quantier et interpréter le V de Cramer.
(e) Si H0 est rejetée et que les deux variables sont de type ordinal, quantier et interpréter la statis-
tique Gamma.
(f) Si H0 est rejetée, interpréter les cellules du tableau croisé à partir des résidus standardisés et des
pourcentages.

Exemple 13.1 Choisir le fonds de placements correspondant le mieux à ses besoins n'est certes pas
toujours une tâche facile. La tolérance au risque constitue certainement un aspect à ne pas négliger par
les conseillers nanciers lorsque vient le temps de conseiller leurs clients. An de mieux comprendre
la relation entre la tolérance au risque et les connaissances en matière de placements, on a sondé 200
personnes. Vous trouverez les résultats du sondage dans la jeu de données Placements.csv. On tente
de comprendre la relation entre la tolérance au risque et les connaissances en matière de placements au
seuil α = 0, 01. On s'intéresse donc à résoudre le test d'hypothèses suivant :
H0 : Dans la population, le niveau de connaissances en matière de placements
et la tolérance au risque sont indépendants.
H1 : Dans la population, le niveau de connaissances en matière de placements
et la tolérance au risque sont liés.
Le seuil de signication est xé à α = 0, 01. On rejettera H0 si la valeur-p est inférieure
à ce seuil. D'abord, comme les variables étudiées sont ordinales, on recodera l'ordre d'apparition des
modalités dans R à l'aide de la commande ordered() :
Figure 37 Ordonnancement des modalités

Pour eectuer le test d'indépendance, on utilisera la commande chisq.test() dans laquelle on
insérera le tableau croisé (commande table()). On devra ensuite vérier si la condition sur les fréquences
théoriques est respectée.
Figure 38 Fréquences théoriques
Or, si on jette un coup d'oeil aux fréquences théoriques, on remarque que l'on a 3 cellules qui
ont une fréquence théorique inférieure à 5, ce qui représente 3/12=25 % des cellules qui
est supérieur à 20 %. Le nombre d'observations est donc trop petit pour le nombre de modalités des
variables. Pour remédier à la situation, on pourrait regrouper les modalités Nulles et Élémentaires ainsi
que les modalités Bonnes et Excellentes :
Figure 39 Recodage des modalités

Si on reprend le test d'indépendance avec cette nouvelle variable, on obtient :
Figure 40 Test d'indépendance
On remarque cette fois que l'on a 0 cellule qui ont une fréquence théorique inférieure à
5, ce qui représente 0/6=0 % des cellules, ce qui est inférieur à 20 %. Donc, en particulier
les fréquences théoriques sont toutes supérieures à 1. On peut donc poursuivre l'analyse sans
problème et utiliser le khi-deux pour résoudre le test d'hypothèses.
Puisque la valeur-p du test est de 0, 000 0, 01 = α, on rejette H0. Ainsi, au risque
de se tromper une fois sur 100, nous sommes en mesure de dire que le niveau de connais-
sances en matière de placements et la tolérance au risque sont signicativement liés dans
la population.
La force de la relation nous est donnée par la statistique du V de Cramer. La valeur du V de
Cramer est ici de V =
s
χ2
(k − 1) · n
=
s
19, 007
(2 − 1) · 200
= 0, 3083. Ainsi on peut armer que
nous sommes en présence d'une relation modérée, et ce, malgré le fait que la valeur-p associée au
khi-deux était de 0,000. Le V de Cramer nous permet de relativiser la force du rejet de H0. Le tableau
suivant résume les valeurs possiblesdu V de Cramer et leur interprétation.

0, 7 ≤ V ≤ 1 relation très forte
0, 5 ≤ V 0, 7 relation forte
0, 3 ≤ V 0, 5 relation modérée
0, 1 ≤ V 0, 3 relation faible
0 ≤ V 0, 1 relation négligeable
Table 2 Interprétation du V de Cramer
Lorsque nous admettons qu'il y a un lien entre les variables, on peut procéder à l'analyse du tableau
croisé pour voir comment s'exprime cette dépendance. L'interprétation du tableau s'appuiera sur deux
éléments : les pourcentages et les résidus standardisés. Pour obtenir les résidus standardisés, il sut
d'ajouter $res au bout de la commande chisq.test(). Pour obtenir les pourcentages en colonnes, il
faut utiliser la commande prop.table() dans laquelle on insère le tableau croisé (commande table())
suivi d'une virgule, suivie du nombre 2 (indiquant que les pourcentages devront être calculés en colonnes).
Figure 41 Résidus standardisés

On interprétera les résultats selon le tableau suivant :
Résidu standardisé −3 Absence marquée du phénomène
−3 ≤ Résidu standardisé −2 Absence signicative du phénomène
−2 ≤ Résidu standardisé −1, 5 Absence visible (tendance) du phénomène
−1, 5 ≤ Résidu standardisé ≤ 1, 5 Phénomène normal
1, 5 Résidu standardisé ≤ 2 Présence visible (tendance) du phénomène
2 Résidu standardisé ≤ 3 Présence signicative du phénomène
3 Résidu standardisé Présence marquée du phénomène
Table 3 Interprétation des résidus standardisés
De façon globale, 32,5 % des personnes ont une faible tolérance au risque. Les personnes
dont les connaissances en matière de placements se situent de nulles à élémentaires
ont tendance à être peu tolérantes au risque. On retrouve 41,4 % d'entre elles dans
cette catégorie. Quant à elles, les personnes dont les connaissances en matière de
placements se situent de bonnes à excellentes ne sont que 16,7 % à être peu tolérantes
au risque, ce qui représente une diérence signicative par rapport à la proportion globale.
Il en va de même avec la tolérance élevée au risque. Globalement, 23 % des personnes
sondées se situent dans cette catégorie. Les personnes dont les connaissances en matière de
placements se situent de nulles à élémentaires sont visiblement absentes de cette catégorie,
puisque cette proportion n'est que de 14,8 %. Les personnes dont les connaissances en
matière de placements se situent de bonnes à excellentes sont au contraire signicativement
présentes : 37,5 % d'entre elles ont une tolérance élevée au risque.

14 TEST DE CORRÉLATION LINÉAIRE
14 Test de corrélation linéaire
(b) Vérier la linéarité de la relation à partir du nuage de points.
(c) Quantier et qualier le coecient de corrélation linéaire (r).
(d1) Formuler les hypothèses du test de corrélation linéaire en relation avec le contexte.

Exemple 14.1 Les indices SP500 et Nasdaq sont deux des principaux critères utilisés par les inves-
tisseurs lors de l'analyse du marché boursier américain. Il est conseillé de diversier les investissements,
car cela contribue à réduire les risques en investissant dans de nombreux secteurs du marché. L'objectif
est de ne pas avoir tous vos oeufs dans le même panier, car de nombreux secteurs réagiront diéremment
aux conditions économiques changeantes. Or, pour faire un choix éclairé, il est important d'analyser le
lien qui unit les indices boursiers entre eux pour comprendre l'évolution conjointe de leur valeur.
La jeu de données Bourse.csv comprend les valeurs et les variations des indices boursiers SP500
et Nasdaq à l'ouverture des marchés du 3 janvier 2017 au 2 juin 2017. Eectuez un test de corrélation
linéaire au seuil α = 0, 05 pour mieux cerner comment les variations des indices SP500 et Nasdaq
évoluent de façon conjointe.
Il faut d'abord observer le graphe de la relation pour voir si elle est bien linéaire avec la commande
plot() dans laquelle on insère les deux variables numériques séparées du symbole ∼ .
Figure 42 Commande plot()

Figure 43 Le graphe de la relation
On voit que les points semblent se regrouper de façon assez uniforme autour d'une droite
imaginaire, donc la relation semble bel et bien linéaire. Il est donc sensé de poursuivre
l'analyse.
Le schéma de Davis ci-dessous nous aidera maintenant à quantier et qualier la force de la relation
linéaire, à l'aide du coecient de corrélation r :
0, 7 ≤ |r| ≤ 1 Interrelation linéaire très forte
0, 5 ≤ |r| 0, 7 Interrelation linéaire forte
0, 3 ≤ |r| 0, 5 Interrelation linéaire modérée
0, 1 ≤ |r| 0, 3 Interrelation linéaire faible
0 ≤ |r| 0, 1 Interrelation linéaire négligeable
Table 4 Interprétation du coecient de corrélation

Il est fastidieux de calculer r à la main. Avec la commande cor.test() dans laquelle on insère les deux
variables numériques, on obtient la gure 44.
Figure 44 Le coecient de corrélation r
Le coecient de corrélation est de r = 0, 9128, ce qui d'après le schéma de Davis indique
une interrelation linéaire très forte.
On peut maintenant traiter le test d'hypothèses pour savoir si cette corrélation est signicative au niveau
de la population. Les hypothèses sont les suivantes :
H0 : ρ = 0
H1 : ρ ̸= 0
Nous pouvons traiter ce test avec la valeur-p de la gure 44. Le seuil de signication est xé à
α = 0, 05. On rejettera H0 si la valeur-p est inférieure à ce seuil.
Comme la valeur-p = 0, 000 0, 05, on rejette H0. Au risque de se tromper une fois sur 20,
la corrélation linéaire entre les variations des indices SP500 et Nasdaq est signicative.

15 RÉGRESSION LINÉAIRE
15 Régression linéaire
(b) Vérier si la relation semble linéaire et homoscédastique à partir du nuage de points.
(c) Quantier et interpréter les statistiques r et r2
.
(d) Vérier la normalité de la population des résidus.
(d1) Formuler les hypothèses de normalité de la population.
Remarque : Si les deux tests (Kolmogorov-Smirnov et Shapiro-Wilk) rejettent la normalité,
le test principal et les intervalles de conance ne seront pas valides. Si l'un des deux tests
rejette la normalité, on mettra un bémol sur la validité des résultats.
(e) Vérier si la régression est signicative dans la population.
(e1) Formuler les hypothèses sur la régression.
(e2) Prendre une décision compte tenu des résultats obtenus.
(e3) Donner une conclusion.
(f) Écrire l'équation de la droite de régression obtenue.
(g) Interpréter les coecients b0 et b1 associés à la droite de régression.
(h) Eectuer, s'il y a lieu, les estimations/prévisions demandées.

Exemple 15.1 Les avis en ligne constituent un facteur important pour l'image de tout commerçant en
ligne, notamment dans le secteur de l'hôtellerie. On a mené une étude sur 100 hôtels de la province. Cette
étude tente d'analyser les eets de corrélation entre la note moyenne des avis et le revenu mensuel moyen
par chambre disponible. Avec la jeu de données hôtel.csv, on tentera d'éclaircir le lien entre l'avis des
internautes et le revenu des hôtels. Eectuez une analyse en régression linéaire au seuil α = 0, 05 pour
mieux cerner comment les notes moyennes des avis expliquent le revenu mensuel moyen par chambre
disponible.
L'analyse en régression permettra de modéliser le lien entre les variables X (Avis) et Y (Revenu).
Plus précisément, nous voulons obtenir une équation du type ŷRevenu = b0 + b1xAvis.
La première étape consiste à faire l'analyse graphique de la relation. Pour obtenir le graphe 46, il faut
utiliser la commande plot() dans laquelle on insère les deux variables numériques séparées du symbole
∼ . Pour ajouter la droite, il faut d'abord créer le modèle linéaire à partir de la commande lm()
dans laquelle on insère les deux variables numériques séparées du symbole ∼ . Ensuite, on utilise la
commande abline() dans laquelle on insère le modèle linéaire.
Figure 45 Commandes pour obtenir la droite de régression

Figure 46 Droite de régression
On obtient alors la sortie 46, qui est le graphe de la relation. Puisque les points semblent être
répartis de façon uniforme autour de la droite, il est plausible d'armer que la relation
entre XAvis et YRevenu est linéaire. On voit de plus que la relation est positive : plus la
note moyenne est élevée, plus le revenu par chambre disponible l'est aussi. Ensuite, vérions
l'hypothèse d'homogénéité de la variance (homoscédasticité). On dit que la variance des résidus est
homogène si la dispersion des résidus semble constante peu importe la valeur de la variable indépendante
X. Ici, il semble que la dispersion des résidus semble constante. L'homoscédasticité est donc
plausible. Pour corriger une violation à l'homoscédasticité, il est possible d'eectuer une opération sur
la variable indépendante X avant l'analyse en régression linéaire. On pourrait penser à une racine carrée
ou à un logarithme.

Analysons maintenant la force de relation entre les deux variables numériques. Pour obtenir la 47,
nous aurons besoin de la commande cor() dans laquelle on insère les deux variables numériques étudiées.
Figure 47 Coecients de corrélation et de détermination
An de mesurer l'apport d'information qu'amène X sur la prédiction Y , nous utilisons le coecient
de détermination r2
, qui représente le % de la variation totale de Y expliquée par la présence de la
variable X. Ici on a r2
= 0, 2849, ce qui nous indique que 28,49 % de la variation du revenu
par chambre disponible (Y ) est expliquée lorsque la note moyenne (X) est prise en consi-
dération.
Ensuite, à l'aide du coecient de corrélation linéaire, on décrit la force du lien linéaire entre les deux
variables. Ici on a r =
√
0, 2849 = 0, 5338, ce qui nous indique que nous sommes en présence
d'une relation linéaire forte.
La prochaine étape consiste à vérier si l'hypothèse de normalité des résidus est vraisemblable à
partir du test d'hypothèses suivant :

Figure 48 Test de normalité des résidus
Pour la population des résidus, la valeur-pK−S = 0, 200 ≮ 0, 05 et la valeur-pS−W =
0, 1667 ≮ 0, 05 et donc on ne rejette pas H0. Ainsi, au seuil α = 0, 05, il est plausible
d'admettre que les données de cette population se distribuent selon une loi normale.

Passons au test d'hypothèses principal. Nous devons traiter le test d'hypothèses suivant :
H0 : La régression est non signicative dans la population (β1 = 0).
H1 : La régression est signicative dans la population (β1 ̸= 0).
On utilisera la sortie 49 (table ANOVA).
Figure 49 Table ANOVA de la régression
Une analyse en régression linéaire décompose la variation totale de Y en deux sources :
Variation totale = Variation expliquée par la droite + Variation résiduelle
294 118 = 83 808 + 210 310
Plus la variation expliquée par la droite sera grande, plus la régression risque d'être signicative.
Pour résoudre le test d'hypothèses, on utilise la valeur-p de la dernière colonne.
d'hypothèses, on utilise la valeur-p de la dernière colonne.
Ici, puisque la valeur-p est égale à 0,000, ce qui est plus petit que α = 0, 05, on rejette
H0. Ainsi, au risque de se tromper une fois sur 20, on peut armer que la régression est
signicative.

Finalement, puisque la régression est signicative, on peut passer à l'étape suivante qui consiste
à écrire la droite de régression. On retrouve les coecients de la droite dans la sortie 50 grâce aux
commandes summary() et confint() dans lesquelles on insère le modèle linéaire créé plus tôt.
Figure 50 Sortie qui contient les coecients de la droite
Le coecient b0 est la constante de la droite et se retrouve dans la première colonne du tableau
vis-à-vis (Intercept). Ici on a b0 = 30, 563. Le coecient b1 est lui aussi dans la première colonne,
vis-à-vis la variable indépendante qui ici est Note. On a b1 = 37, 091. L'équation de la droite est
donc
ŷRevenu = 30, 563 + 37, 091xNote.
L'interprétation de la constante b0 (l'ordonnée à l'origine, c'est-à-dire la valeur de y lorsque x = 0)
est souvent dénuée de sens et dicile à interpréter. Cependant, lorsqu'elle est interprétable, elle repré-
sente souvent des frais ou des dépenses xes. Ici, on pourrait dire que le coecient b0 = 30, 563
représente le revenu mensuel moyen par chambre disponible (30,563 $) lorsque la note
moyenne des internautes est de 0 étoile.

Le coecient b1 représente l'augmentation marginale moyenne du revenu mensuel moyen par chambre
disponible lorsque la note moyenne des internautes augmente d'une unité. Ici, lorsque la note moyenne
des internautes augmente d'une étoile, le revenu mensuel moyen par chambre disponible
augmente d'environ 37,091 $. On a aussi l'intervalle de conance de niveau 95 % pour ce coecient :
ainsi le véritable coecient β1 a une probabilité de 95 % de se retrouver entre 25,3128 et 48,8696. Donc
au niveau de la population, l'augmentation marginale moyenne du revenu mensuel moyen
par chambre disponible lorsque la note moyenne des internautes augmente d'une étoile
devrait se retrouver entre 25,3128 $ et 48,8696 $, et ce 19 fois sur 20.
Une fois l'interprétation eectuée, l'analyste est en mesure d'utiliser la droite pour faire des estima-
tions sur des valeurs moyennes de y, compte tenu de la connaissance de x. Par exemple, pour obtenir
une estimation du revenu mensuel moyen par chambre disponible d'un hôtel dont la note
moyenne est de 3 étoiles, il sut de remplacer xAvis par 3 :
ŷRevenu = b0 + b1xAvis = 30, 563 + 37, 091 · 3 = 141, 836.
Il faudrait donc prévoir un revenu mensuel moyen par chambre disponible d'environ
141,84 $. Cette estimation ne tient cependant pas compte de l'erreur induite par l'échantillon. Il serait
donc plus approprié de construire un intervalle de conance pour cette prédiction à l'aide de la commande
predict() dans laquelle on insère le modèle de régression linéaire, une nouvelle donnée et le type
d'intervalle souhaité.
Figure 51 Les estimations

La première valeur retournée se trouve à être la prévision ponctuelle de 141,836 $. On retrouve ensuite
l'intervalle de conance et l'intervalle de prévision de niveau 95 %. Le revenu moyen réel pour un
hôtel dont la note moyenne est de 3 étoiles devrait être compris entre 49,31 $ et 234,36 $
par chambre disponible, et ce 19 fois sur 20. La moyenne des revenus moyens pour des
hôtels dont la note moyenne s'élève à 3 étoiles se situe entre 131,35 $ et 151,32 $ par
chambre disponible, et ce 19 fois sur 20.
Comme l'échantillon contenait des notes moyennes allant de 1,5 à 5 étoiles environ, cette estimation
est able, car il s'agit d'une intrapolation.

Lexique
abline() Permet d'ajouter une droite de régression linéaire dans un nuage de points
agostino.test() Test d'hypothèses sur la symétrie d'une distribution
anscombe.test() Test d'hypothèses sur l'aplatissement d'une distribution
aov() Analyse de la variance
barplot() Diagramme en bâtons
boxplot() Boîte à moustaches
c() Création d'un vecteur (liste de données)
cbind() Permet d'ajouter un vecteur colonne à un jeu de données
chisq.test() Test du khi-deux
connt() Intervalles de conances pour les paramètres d'un modèle
cor() Coecient de corrélation
cor.test() Test de corrélation linéaire
cut() Permet de créer des classes d'intervalles à partir d'une variable numérique
data.frame() Permet de créer un jeu de données
dim() Dimensions d'une matrice ou d'un jeu de données
install.packages() Permet d'installer des Packages pour accéder à certaines commandes
IQR() Intervalle interquartile
kurtosis() Statistique d'aplatissement
length() Nombre d'éléments dans un vecteur
levels() Modalités de réponses d'une variable catégoriques
leveneTest() Test de Levene (égalité des variances)
lillie.test() Test de normalité (Kolmogorov-Smirnov)
lm() Modèle de régression linéaire
ls() Liste des variables enregistrées grâce à l'opérateur -
max() Valeur maximale d'une liste de données
mean() Moyenne d'une liste de données
median() Médiane d'une liste de données
min() Valeur minimale d'une liste de données
names() Noms des variables d'un jeu de données
ordered() Permet de recoder l'ordre d'apparition des modalités d'une variable catégorique
pie() Diagramme circulaire

plot() Nuage de points
predict() Prévision et intervalle de conance ou de prévision (régression linéaire)
prop.table() Tableau des fréquences relatives
prop.test() Test sur une proportion et intervalle de conance
quantile() Quantiles
range() Étendue
rbind() Permet d'ajouter une ligne à un jeu de données
read.table() Permet de lire un jeu de données externe
recode() Recodage d'une variable catégorique
Sd() Écart-type d'une liste de données
shapiro.test() Test de normalité (Shapiro-Wilk)
skewness() Statistique d'asymétrie
subset() Permet de sélectionner un sous-ensemble de données
sum() Somme d'une liste de données
summary() Résumé des statistiques d'un modèle
t.test() Test sur une moyenne et intervalle de conance
table() Tableau des fréquences absolues
TukeyHSD() Analyse Post-Hoc de Tukey
Var() Variance d'une liste de données
$ Permet de sélectionner une colonne ou une statistique en particulier
[] Permet de spécier un emplacement dans une matrice ou une condition logique
== Est égal à (condition logique)
!= N'est pas égal à (condition logique)
Est plus petit que (condition logique)
= Est plus petit ou égal à (condition logique)
Est plus grand que (condition logique)
= Est plus grand ou égal à (condition logique)
| Ou (condition logique)
Et (condition logique)

Introduction_R.pdf

Recommandé

Recommandé

Contenu connexe

Similaire à Introduction_R.pdf

Similaire à Introduction_R.pdf (20)

Dernier

Dernier (20)

Introduction_R.pdf