Chapitre Introductif

Le modélisateur dispose de son expérience et peut effectuer des
études statistiques pour répondre à ces questions. C'est
l'ingénieur lui seul qui connait le terrain, qui peut répondre à ces
questions, avec le bon sens "probabiliste".

Quelle est la nature d'un modèle statistique? A partir d'une connaissance
quelconque où il y a des mécanismes physiques en jeu, de sa propre expérience,
le statisticien postule un modèle probabiliste pour le système considéré. Il
anticipe la similitude du comportement probabiliste des caractéristiques d'intérêt
du système et du modèle.

• A partir des données expérimentales, est-ce qu'un certain modèle semble
raisonnable ou au moins pas particulièrement déraisonnable? il s'agit du
domaine du "test de signification". Dans ce genre de test, le statisticien spécule
sur la probabilité que de données similaires à celles observées puissent être
générées par des expériences hypothétiques faites avec le modèle

• A partir des données expérimentales, comment exprimer une préférence entre
plusieurs modèles postulés? Quand on fait le choix entre plusieurs modèles
hypothétiques, il s'agit d'un test d'hypothèse.

• A partir des données expérimentales, comment exprimer une préférence entre
plusieurs modèles postulés? Quand on fait le choix entre plusieurs modèles
hypothétiques, il s'agit d'un test d'hypothèse.
• Etant donné la forme d'un modèle postulé pour un système physique et de
données expérimentales, comment employer les données pour établir les
valeurs les plus souhaitables des paramètres du modèle?

Statistique
Probabilité
• Espace fondamental
• Epreuve
• Evènement élémentaire
• Variable aléatoire
• Epreuves répétées
• Nombre de répétitions d’une épreuve
• Probabilité
• Loi de probabilité
• Espérance mathématique
• Variance mathématique

Statistique
Probabilité
• Espace fondamental
• Epreuve
• Evènement élémentaire
• Variable aléatoire
• Epreuves répétées
• Nombre de répétitions d’une épreuve
• Probabilité
• Loi de probabilité
• Espérance mathématique
• Variance mathématique
• Population
• Tirage (d’un individu), expérimentation
• Individu, observation
• Variable, caractère
• Echantillonnage
• Taille de l’échantillon, effectif total
• Fréquence observée
• Distribution observée ou loi empirique
• Moyenne observée
• Variance observée

1. Introduction
• Définitions
• Vocabulaire
• Type de variables
• Liens avec les concepts probabilistes
Plan

1. Introduction
• Définitions
• Vocabulaire
2. Recueil des données
Plan

1. Introduction
• Définitions
• Vocabulaire
3. Statistique descriptive univariée
• Organiser les données
• Présenter les données
• Résumer les données
Plan

1. Introduction
• Définitions
• Vocabulaire
3. Statistique descriptive univariée
• Organiser les données
• Présenter les données
• Résumer les données
4. Statistique descriptive bivariée
• Deux variables qualitatives
• Variable quantitative / Variable qualitative
• Deux variables quantitatives
Plan

Introductions
Définition générale de la statistique
• Science qui a pour objectif le recueil, l’analyse et l’interprétation des données
observées
• Distinction importante entre LA statistique et LES statistiqueS
§ La statistique fait référence à la science
§ Les statistiques font référence aux résultats chiffrés (ex : les statistiques du
chômage)

Introductions
• Science qui a pour objectif le recueil, l’analyse et l’interprétation des données
observées
• Distinction importante entre LA statistique et LES statistiqueS
§ La statistique fait référence à la science
§ Les statistiques font référence aux résultats chiffrés (ex : les statistiques du
chômage)
Démarche générale : 2 étapes consécutives
• Le recueil des données
• L’analyse et l’interprétation des données
§ Statistique descriptive : résumer et présenter les données observées de la
manière la plus pertinente possible: Indicateurs statistiques, Représentations
graphiques
§ Statistique inférentielle: extrapoler les résultats liés à un échantillon à un
population sous-jacente

Introductions
Statistique descriptive
Organisation, présentation
et analyse des données
relatives à une population,
un échantillon, en mettant
les points importants en
évidence.
Statistique inférentielle
Elle permet de généraliser à de
grands ensembles d'éléments les
conclusions tirées des résultats
obtenus avec des ensembles
beaucoup plus restreints appelés
échantillons.
Echantillon Inférence Population ?
La statistique au sens large comprend deux branches.

Vocabulaire
§ Lorsqu’une étude est réalisée sur l’ensemble d’une population, on parle de recensement
(ex : recensement ENSMR)
§ Lorsqu'une étude est réalisée sur une sous-population plus petite, on parle d’échantillon
(ex : échantillon de 100 étudiants de ENSMR)
§ Cet échantillon est extrait de la population par le biais d’uneméthode d’échantillonnage
• Echantillonnage aléatoire simple : tirer au hasard et manière indépendante n
individus d’unepopulation de N individus.
§ Un échantillon est constitué d’individus statistiques (ou observationsstatistiques)
§ Sur ces individus sont mesurés des caractères (âge, poids, couleurs des yeux. . . ) appelés
également variables
§ Deux types de variables : les variables quantitatives et les variables qualitatives
constituées de plusieurs modalités

Vocabulaire
Remarquons qu'un échantillon peut être considéré comme une
population en elle-même, quoique beaucoup plus petite que la
population dont il est extrait. En tant que population, il peut faire
l'objet d'une étude statistique dont les conclusions, sous certaines
conditions, sont susceptibles d’être étendues à la population toute
entière. (C'est l'objet de la statistique inférentielle.)
x
x
x
x
x x
x
x
x
x
x
x
x
x
x
x
x
x x x
x x
x
x
x x
x
x x
x
x
x
x
x x
x
x x
x
x x
x
x
x x
x x
x
x
Population
Ensemble de référence
x
Individu
Elément de la population
Echantillon
Sous-ensemble de la population.

Types des variables
Variables Quantitatives (quantiﬁables)
• Variables quantitatives discrètes (ne peuvent prendre qu’un nombre limité de
valeurs. ex : nombre de personnes dans un foyer)
• Variables quantitatives continues (âge, poids, taille,. . . )

Types des variables
Variables Quantitatives (quantiﬁables)
• Variables quantitatives discrètes (ne peuvent prendre qu’un nombre limité de
valeurs. ex : nombre de personnes dans un foyer)
• Variables quantitatives continues (âge, poids, taille,. . . )
Variables Qualitatives (non quantiﬁables)
• Variables qualitatives nominales (Couleurs des yeux : marrons, bleus, verts, gris)
• Variables qualitatives ordinales (Appréciation : Mauvais, Passable, Bien, Très
bien, Excellent)

Types des variables
Remarque
• En réalité, le nombre de mesures possibles pour une variable dépend de la précision
de la mesure.
• On peut considérer comme continue une variable qui peut prendre un grand nombre
de valeurs.
• Exemple : Poids, Taille.

Liens avec les concepts probabilistes
Espace fondamental ≡ Population
Statistique
Population (ex : 6 millions de Marocain)

Liens avec les concepts probabilistes

• Recueil des observations du phénomène étudié
• A travers de déférentes variables (âge du client, Sexe, niveau de satisfaction...)
• Données nombreuses ou difficiles à obtenir :
§ Mise en place de méthodes rationnelles de recueil
§ Méthodes d’échantillonnage (construire un échantillon représentatif de la population)
§ Plan d’expérience (comment construire l’expérimentation en vue de répondre
correctement à l’objectif de l’étude)

Exemple : questionnaire soumis à un échantillon de patients dans un service de radiologie
Objectif : Evaluer la satisfaction des patients et mettre en évidence les problèmes pour améliorer
les pratiques

Variables Quantitatives
Variables Qualitatives

Recueil des données dans un tableur
• 1 individu par ligne
• Variables en colonnes
• Variables quantitatives : attention aux unités !!
• Variables qualitatives : utilise des codages chiffrés plutôt que du texte
§ 1 = Excellent
§ 2 = Bon = Passable
§ 3 = Mauvais
• Minimisation des erreurs de codage (Mauvais ≠ mauvais)

Num.
Patient
Nom Prénom DDN
Taille
(cm)
Poids
(Kg)
Sexe
Accueil_
télépho
nique
Accueil_
manip
1 Dupont Pierre 10/07/56 171 76 1 2 3
2 Durand Jean 23/09/78 185 83 1 1 1
…
Données formatées pour la plupart des logiciels
d’analyse statistique

• Question : Qu’est-ce qu’on fait de ces données ?
• Analyse et interprétation des données :
§ Statistique descriptive
§ Statistique inférentielle
Important : toute analyse statistique doit répondre à un ou plusieurs objectifs (obj. ppal
/ objssecondaires). Il est essentiel de construire un plan d’analyse statistique afin de
poser les questions relatives à l’étude.

Organiser les données : Tableau de distribution
Tableau de distribution –
Pour chaque modalité, on définit l’effectif 𝒏𝒊 c’est à dire le nombre d’observations
présentant la modalité 𝒙𝒊. Les modalités doivent être mutuellement exclusives ⇒ l’effectif
total de l’échantillon étudié est égale à la somme des effectifs de chaque modalité :
𝑛 = '𝑛(
)
(*+
avec p le nombre de modalités et n l’effectif total (taille de l’échantillon). Représentation
sous forme d’un tableau de distribution de fréquences.

Niveau (𝑥() Effectifs (𝑛() fréquences (𝑓()
A 13 0,5
B 11 0,42
C 2 0,08
total 26 1
Exemple : tableau de répartition des groupes selon les niveau de formation
• On appelle fréquence de la modalité 𝑥(, 𝑓( =
12
1
• Un pourcentage est une fréquence exprimée en %, c.à.d 100𝒇𝒊 .

Fréquences cumulées croissantes :
𝐹( = '𝑓
5
(
5*+
Cet indicateur a un sens pour les variables qualitatives ordinales et les
quantitatives discrètes car on peut ordonner les modalités.
On appelle 𝑥+, 𝑥6, …, 𝑥5,…, 𝑥) x 1 , . . . ,x i , . . . , x p les p valeurs ordonnées de x
(l’indice i correspond alors au rang).

Tableau de distribution des effectifs et fréquences cumulés

Exemple : Nombre d’enfants dans les familles

Tableau de distribution - Var. quantitatives regroupées en classes
Il est nécessaire de regrouper en classes les valeurs prises par la variable.
Ex : taille (en cm) [150-160[ ,[160-170[, [170-180[
L’intervalle de classe, également appelé amplitude, est la différence entre la borne
supérieure et la borne inférieure.
En règle générale, on choisit des classes de même amplitude.
Si l’amplitude n’est pas constante, il faut calculer la densité de fréquence :
𝑑( =
𝑓(
𝑎(
La densité de fréquence permet de comparer les fréquences d’une classe à l’autre.

Exemple : Tailles des individus en cm

Présenter: Représentation graphique
Variables qualitatives:
Diagramme en barre;
• Représente la distribution d’une variable à modalités
• Les effectifs/pourcentages sont calculés par modalités
• Un exemple avec la variable Appréciation constituée de 4 modalités
:Mauvais - Passable - Bon - Excellent

Diagramme circulaire;
• Permet de visualiser la répartition des modalités de la variable
• Chaque modalité est représentée par une "part"
• La surface de chaque "part" est proportionnelle au pourcentage associé
à la modalité ou, l’angle α i de la ième modalité :
𝛼( =
:;
:
360 = 𝑓(360
Exemple avec la variable Appréciation

Histogramme en fréquence

Boite à moustache

Résumer: Les indicateurs de position
Le mode
Définition
• Le mode d’une distribution est la valeur la plus fréquente de celle-ci.
• Modalité d’effectif maximal,donc représentée parune barre de hauteurmaximale
Exemple : Soit la série {12, 14, 12, 15, 12, 17, 18}. Déterminer le mode de la série.

Le mode
Définition
• Le mode d’une distribution est la valeur la plus fréquente de celle-ci.
• Modalité d’effectif maximal,donc représentée parune barre de hauteurmaximale
Remarque
• Si les données sont regroupées par classe, on définit la classe modale comme la classe
dont la densité d’effectif est la plus élevée et on attribue (arbitrairement) au mode la
valeur centrale de cette classe.
• Une distribution peut être polymodale

Classe Modale, Le mode: cas d’une variable continue
Une classe modale est donc une classe pour laquelle le quotient (effectif/amplitude)
est maximal alors que pour des classes d’amplitudes égales ou pour les variables
discrètes, les classes modales ou les modes correspondent aux effectifs maxima.
Remarque : le quotient effectif/amplitude s’appelle la densité d’effectif de la classe.
• Il peut existerplusieurs modesou plusieursclasses modales.
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
+
×
+
=
Δs
Δi
Δi
ai
l
M o

• L: borne inférieure de la classe modale
• ai : amplitude de la classe modale
∆i : différence entre le nombre d’observations (ou la fréquence) de la classe
modale et de la classe pré-modale (si les amplitudes sont différentes on prend
la densité de fréquence)
• ∆s : différence entre le nombre d’observations (ou la fréquence) de la classe
modale et de la classe post-modale (si les amplitudes sont différentes on
prend la densité de fréquence)

Déterminerla classe modale et Calculerle mode
Distribution de l’âge des clients rentrant dans un magasin
Exemple:

Exemple:
Classes Effectifs Fréquence%
[10;15[ 10 12.5
[15;25[ 18 22.5
[25;30[ 15 18.75
[30;50[ 30 0,37.5
[50;55[ 7 8.75
Total 80 100

Exemple:
Classes Effectifs fréquence Amplitude
densité
d'effectif
[10;15[ 10 12.5 5 2
[15;25[ 18 22.5 10 1,8
[25;30[ 15 18.75 5 3
[30;50[ 30 37.5 20 1,5
7 8.75 5 1,4
Total 80 100

Moyenne
Moyenne arithmétique
Moyenne arithmétique pondérée
Attention : la moyenne arithmétique est sensible aux valeurs extrêmes dans le cadre de petits
échantillons (n < 30).
Soient {𝑤+, 𝑤6, . . . , 𝑤:} un ensemble de poids ∈ R+
𝑋
A =
∑ 𝑥(
:
(*+
𝑛
𝑋
A =
∑ 𝑤(𝑥(
:
(*+
∑ 𝑤(
:
(*+

Moyenne
Exemple de moyenne arithmétique :Soient {12, 13, 18, 9, 4, 13, 7, 12, 10, 19} les
notes de n = 10 étudiants
𝑋
A =

Moyenne
Exemple de moyenne arithmétique :Soient {12, 13, 18, 9, 4, 13, 7, 12, 10, 19} les
notes de n = 10 étudiants

Moyenne
Exemple : Dans une entreprise de 100 salariés, le salaire moyen est égal à 8 400 Dh.
Supposons qu'une erreur se soit glissée lors de la transcription des salaires.
Monsieur Dahbi est crédité d'un salaire de 108 000 DH au lieu de 8 000 Dh.
De combien augmenterait la moyenne ?

Moyenne
Exemple : On a demandé à un groupe de 220 élèves de 18 à 22
ans combien d'heures ils passent devant Facebook chaque
semaine pendant les vacances. Leurs réponses ont été
consignées dans le tableau suivant. À l'aide de cette
information, calculez la moyenne et l'écart-type des heures
pendant lesquellesles 220 élèves passent devant Facebook.
Nombre d'heures
passées devant
Facebook
Heures Effectif
(ni)
[10,14[ 2
[14,20[ 12
[20,24[ 23
[24,30[ 60
[30,34[ 77
[34,40[ 38
[40,44[ 8
220

Moyenne
Nombre d'heures passées devant Facebook
Heures Point milieu
(ci)
Effectif (ni) Ni x ci
[10,14[ 12 2 24
[14,20[ 17 12 204
[20,24[ 22 23 506
[24,30[ 27 60 1 620
[30,34[ 32 77 2 464
[34,40[ 37 38 1 406
[40,44[ 42 8 336
220 6 560
𝑋
A = 29.82

Médiane
Définition
• Indicateur insensible aux valeurs extrêmes (utilisation dans le cas de petits
échantillons n < 30)
• Idée maîtresse : 50% des observations ont une valeur inférieure ou égale à la
médiane et 50% des observations ont une valeur supérieure ou égale à la médiane
• Le calcul de la médiane est fonction de la parité du nombre d’observations
Remarque : la médiane est insensible aux valeurs extrêmes.

Médiane
La médiane estla valeurdu caractère étudié qui partage en deux parties égales
l’effectif total
50 % de l’effectif total 50 % de l’effectif total
Effectif correspondant
à la médiane de la
série

Médiane
Calcul de la médiane dans le cas impair
Exemple: Soit la série statistique : {3, 2, 6, 5, 4}. Calculer la médiane de la série.
𝑛 + 1
2
1. On ordonne de manière croissante la série de données
2. La médiane est égale à la valeur du rang ou n est le nombre d’observations 2

Médiane
Exemple: Soit la série statistique :
𝑛 + 1
2
13 - 15 - 12 - 9 - 7 - 17 - 18
Calculer la médiane de la série.

Médiane
Exemple: Soit la série statistique :
𝑛 + 1
2
On ordonne la série de manière croissante :
13 - 15 - 12 - 9 - 7 - 17 - 18
7 - 9 - 12 - 13 - 15 - 17 - 18
Valeurs
Rangs 1 2 3 4 5 6 7
Calculer la médiane de la série.

Médiane
Exemple: Soit la série statistique : {13, 15, 12, 9, 7,17,18}. Calculer la médiane de la série.
𝑛 + 1
2
Valeur 7 9 12 13 15 17 18
rang 1 2 3 4 5 6 7
La médiane correspond à la valeur de rang
IJ+
6
= 4
Médiane = 13

Médiane
Calcul de la médiane dans le cas pair
Exemple: Soit la série statistique : {13, 15, 12, 9, 7,17,18,20}. Calculer la médiane de la série.
2. La médiane est égale à la moyenne de la valeur au rang et de la valeur au rang
𝑛
2
𝑛 + 2
2

Médiane
2. La médiane est égale à la moyenne de la valeur au rang et de la valeur au rang 𝑛 + 2
2
𝑛
2
La médiane correspond à la valeur de rang
K
6
et de la valeur de rang
KJ6
6
= 5
Médiane Me=
+LJ+M
6
= 𝟏𝟒
Exemple: Soit la série statistique : {13, 15, 12, 9, 7,17,18,20}. Calculer la médiane de la série.
Valeur 7 9 12 13 15 17 18 20
rang 1 2 3 4 5 6 7 8

Médiane
Remarque
Quand la série est regroupée par classes,
on détermine la médiane par interpolation linéaire à partir de la courbe des effectifs
ou des fréquencescumulées.
a
Eff
Effcum
N
L
Md
médiane
classe
prcdt
×
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛ −
+
=
−
2

Médiane
Durée
en h
Nombre
d'élèvesECC ECD FréquencesFCC FCD
[0,4[ 40 40 620 0,065 0,065 1
[4;8[ 80 120 580 0,129 0,194 0,935
[8;12[ 160 280 500 0,258 0,452 0,806
[12;20[ 200 480 340 0,323 0,774 0,548
[20;28[ 140 620 140 0,226 1,000 0,226
620 1
Exemple: Déterminer la médiane

Médiane
Exemple: Déterminer la médiane
x i
Effectifs ( n i )
Simples Cumulées
Croissantes
Cumulées
décroissantes
] 1000 -1500 ] 6 6 65
] 1500 - 2000 ] 12 18 59
] 2000 - 2500 ] 25 43 47
] 2 500 - 3000] 17 60 22
] 3000 - 3500 ] 5 65 5
65

Médiane
Exemple: Déterminer graphiquement la médiane

Quartiles
• Les quartiles sont les valeurs qui partagent la série ordonnée en 4 groupes de même
effectif
• 1er quartile (Q1) : 25% des observations ont une valeur inférieure ou égale à Q1.
Réciproquement, 75% des observations ont une valeur supérieure ou égale à Q1.
• 3ème quartile (Q3) 75% des observations ont une valeur inférieure ou égale à Q3.
Réciproquement, 25% des observations ont une valeur supérieure ou égale à Q3.

Indicateurs de position - Récapitulatif
Mode
• Avantages
§ Bon indicateur dans le cas de distributions asymétriques
§ Bon indicateur de population hétérogène
§ Insensible aux valeurs extrêmes
• Inconvénients
§ se prête mal aux calculs statistiques
§ Sensible aux variations d’amplitude de classes
Moyenne
• Avantages
§ Se prête facilement aux calculs et tests statistiques
§ Bon indicateur si distribution symétrique et dispersion faible
• Inconvénients
§ Sensible aux valeurs extrêmes
§ Représente mal une population hétérogène (polymodale)

Médiane
• Avantages
§ Moins sensible aux valeurs extrêmes que la moyenne
§ Bon indicateur si distribution asymétrique
• Inconvénients
§ se prête mal aux calculs statistiques
§ Classement peut être long si les valeurs sont nombreuse

Résumer: Les indicateurs de dispersion
Voici les scores sur 20 (échelles d’intervalles) de deux groupes A et B
Groupe A : 10 - 12 - 8 - 9 - 11
Groupe B : 3 - 17 - 2 - 18 - 19 - 1
Ces deux groupes ont
pour moyenne : 10
10 11 12
9
8
Groupe A
1 2 3 17 18 19
Dispersion
D i s p e r s i o n
Groupe B
LA MOYENNE (indice de tendance centrale)
NE DIT RIEN DE LA DISPERSION DES VALEURS
Deux outils vont être associés à la moyenne pour donner à voir la dispersion des
données : La variance et l’écart type.

Ecart-type
Variance
Ecart-type
Remarque : La dimension de la variance est le carré de celle de la variable ⇒ difficile d’utiliser
la variance comme norme de dispersion car changement d’unité.
𝑆QRS
6 =
∑ (𝑥(−𝑋
A)6
:
(*+
𝑛
𝑆QRS = 𝑆QRS
6

Ecart-type
Théorème de Koening-Huygen
Exemple: Soit la série statistique : {13, 12, 16, 15, 14}. Calculer la variance de la série.
𝑆QRS
6 =
∑ 𝑥(
6
:
(*+
𝑛
− 𝑋
A6

Ecart-type
Nombre d'heures passées devant Facebook
Heures Point
milieu (ci)
Effectif (ni) Ni x ci (x -m )2
ni(x - m)2
[10,14[ 12 2 24 317,6 635,2
[14,20[ 17 12 204 164,4 1 972,8
[20,24[ 22 23 506 61,2 1 407,6
[24,30[ 27 60 1 620 8,0 480,0
[30,34[ 32 77 2 464 4,8 369,6
[34,40[ 37 38 1 406 51,6 1 960,8
[40,44[ 42 8 336 148,4 1 187,2
220 6 560 8 013,2
𝑋
A = 29.82
𝑆QRS = 6.035

Comment résumer une variable quantitative ?
• Si la taille de l’échantillon est ⩾ 30 : moyenne ± écart-type
• Si la taille de l’échantillon est < 30 : médiane - (Q1-Q3)

Motivation
• Pour approfondir l’analyse, il est souvent utile de croiser certaines variables entre elles :
§ Croiser le niveau de satisfaction avec le sexe (les femmes sont-elles plus satisfaites que
les hommes par rapport à ce produit ?)
§ Croiser l’âge avec le sexe (quelle est la moyenne d’âge chez les hommes ? Chez les
femmes ?)
§ Croiser l’âge avec le poids (l’âge est-il corrélé au poids ? )
• Les représentations statistiques diffèrent en fonction du type de variables croisées :
§ qualitative/qualitative
§ qualitative/quantitative
§ quantitative/quantitative
• L’analyse descriptive bivariée prépare l’inférence statistique :
§ Liaison entre variables
§ Corrélation entre variables

Motivation :
Afin d'étudier la répartition des terres agricoles d'une région, on a noté un
certain nombre de renseignements sur chaque exploitation, notamment :
• la taille (surface, en hectares),
• l'âge du chef d'exploitation,
• le type de culture pratiquée,
• le nombre de personnes employées à temps plein sur l'exploitation
Exemple Introductif

Motivation :
Exemple Introductif
N°
Exploitation
Taille
(ha)
Age du chef
d'exploitation
(années)
Culture
dominante
Nombre de
personnes
employées
1 50 50 blé 2
2 50.5 45 vigne 4
3 35 38 orge 3
4 62.1 25 blé 6
5 20 65 vigne 1
6 10 57 vigne 1
... ... ... ... ...
198 56 45 blé 2

Motivation :
Exemple Introductif
Nous pouvons maintenant décrire chacun des caractères, un par un :
• Taille
• Age
• Culture
• Employés

Motivation :
Exemple Introductif
Mais ceci ne nous permet pas de mettre en évidence les liens existant peut être
entre la taille et l'âge : les jeunes exploitants ont-ils des surfaces comparables,
inférieures, supérieures à celles de leurs aînés ?
De même, le type de culture pratiqué est-il le même quelle que soit la surface ?
Le nombre d'employés est-il fonction du type de culture, etc...

Deux variables qualitatives :
Présentation des données
Considérons
• X = {x1 , x2 , . . . , xl }
• Y = {y1 , y2 , . . . , ym }
deux variables qualitatives ayant respectivement l et m modalités.
Exemple:
- Niveau de satisfaction : Mauvais, Passable, Bon, Excellent.
- Sexe : Masculin, Féminin
Tableau de contingence
• Basé sur l’effectif et la fréquence de chaque croisement de modalité
• Notions supplémentaires : fréquences lignes et fréquences colonnes (conditionnelles)
• Permet, d’une manière descriptive, d’étudier le "lien" entre deux variables
qualitatives

Présentation des données - Effectifs joints / Effectifs marginaux
Deux variables qualitatives

Présentation des données - Fréquences conditionnelles lignes
Fréquence conditionnelle ligne : Fréquence de la modalité yj parmi les individus présentant la
modalité xi
𝑓
5/( =
𝑛(5
𝑛(.

Présentation des données - Fréquences conditionnelles lignes
Fréquence conditionnelle colonne : Fréquence de la modalité xi parmi les individus présentant la
modalité yj
𝑓(/5 =
𝑛(5
𝑛.5

Présentation des données - Exemple
Croisement du niveau de satisfaction et du sexe

• Effectifs : Parmi 280 individus, 30 hommes ont
noté « mauvais »

noté « mauvais »
• % : Parmi 280 individus, 11% sont des hommes
qui ont noté « mauvais »

noté « mauvais »
• %ligne : Parmi 40 individus qui ont noté «
mauvais », 75% étaient des hommes (30/40)
Mauvais

noté « mauvais »
• %ligne : Parmi 40 individus qui ont noté «
mauvais », 75% étaient des hommes (30/40)
Mauvais
• %colonne : Parmi 150 hommes, 20% ont noté «
mauvais » (30/150)

Représentations graphiques - Diagramme en barre groupé (Juxtaposé)

Représentations graphiques - Diagramme en barre empilé

Variable quantitative / Variable qualitative
Considérons :

Exemple : croisement de l’âge en fonction du sexe

114
Représentations graphiques - Boîtes à moustaches
Croisement de l’âge et du sexe

115
Considérons:
• Variables quantitatives : X ∈ R et Y ∈ R
Deux variables quantitatives

116
Covariance
Pour avoir une idée sur la variation simultanée de X et Y on peut utiliser la covariance :
𝐶𝑜𝑣 𝑋, 𝑌 =
1
𝑛
'(𝑥( − 𝑋
A)(𝑦( − 𝑌
A)
:
(*+
y
x
xiyi
n
y
x −
= ∑
1
)
,
cov(
Equivalent à écrire :
La covariance est :
• Positive signifie que X et Y ont tendance à varier dans le même sens,
• Négative signifie que X et Y ont tendance à varier en sens contraire.

117
158
6
948=
=
x
28
6
168=
=
y
Nombre de visites
de prospection xi
Nombre de
commandes yi
𝒙𝒊 − 𝑿
] 𝒚𝒊 − 𝒀
]
152
155
160
155
162
164
26
27
28
28
29
30
-6
-3
2
3
4
6
-2
-1
0
0
1
2
33
.
18
6
110
)²
(
1
)
( =
=
−
= ∑
i
x
xi
N
x
V
∑ =
=
−
=
i
y
yi
N
y
V 67
.
1
6
10
)²
(
1
)
(
Y-a-t-il une liaison entre les deux le nombrede Visites de prospection et le nombre
de commandes?

118
Nombre de visites
de prospection xi
Nombre de
commandes yi
𝒙𝒊 − 𝑿
] 𝒚𝒊 − 𝒀
]
152
155
160
155
162
164
26
27
28
28
29
30
-6
-3
2
3
4
6
-2
-1
0
0
1
2
25,5
26
26,5
27
27,5
28
28,5
29
29,5
30
30,5
1 5 0 1 5 2 1 5 4 1 5 6 1 5 8 1 6 0 1 6 2 1 6 4 1 6 6
NOMBRE
DE
COMMANDES
YI
NOMBRE DE VISITES DE PROSPECTION XI
NOMBRE DE COMMANDES EN FONCTION
DU NOMBRE DE VISITES DE
PROSPECTION
de commandes?

119
Nombre de visites
de prospection xi
Nombre de
commandes yi
𝒙𝒊 − 𝑿
] 𝒚𝒊 − 𝒀
]
152
155
160
155
162
164
26
27
28
28
29
30
-6
-3
2
3
4
6
-2
-1
0
0
1
2
158
6
948=
=
x
28
6
168=
=
y
𝑪𝒐𝒗 𝑿, 𝒀 =5,166666667
33
.
18
6
110
)²
(
1
)
( =
=
−
= ∑
i
x
xi
N
x
V
∑ =
=
−
=
i
y
yi
N
y
V 67
.
1
6
10
)²
(
1
)
(
de commandes?

120
• Dans le cas où les points du nuage se situent tous sur une droite, on dit que la relation entre x
et y représente une dépendance fonctionnelle linéaire .
• Si les points du nuage de points ne sont pas tous alignés sur une même droite, on peut mesurer
le degré de dépendance linéaire entre les deux variables X et Y .
Comment ?

121
• Le coefficient de corrélation linéaire a pour objet de mesurer l'intensité de la
liaison linéaire entre les deux variables X et Y :
)
(
)
(
)
,
cov(
y
x
y
x
r
σ
σ
=
• Cette définition montre quele coefficient de corrélation possédé le même signe que
la covariance sa valeur est comprise entre -1 et 1
Coefficient de corrélation linéaire :
Pour pouvoir parler de forte liaison entre x et y il faut que la valeur absolue
de r atteigne au moins 0.87
Remarque

122
• Le coefficient de corrélation linéaire a pour objet de mesurer l'intensité de la
liaison linéaire entre les deux variables X et Y :
)
(
)
(
)
,
cov(
y
x
y
x
r
σ
σ
=
• Cette définition montre quele coefficient de corrélation possédé le même signe que
la covariance sa valeur est comprise entre -1 et 1
Coefficient de corrélation linéaire :
Pour pouvoir parler de forte liaison entre x et y il faut que la valeur absolue
de r atteigne au moins 0.87
Remarque
Attention : l’absence de relation linéaire entre deux variables ne permet de
conclure à l’absence de relation ⇒ (exponentiel, puissance, . . . ) ⇒ Coefficient
de corrélation de Spearman.

123
Nombre de visites
de prospection xi
Nombre de
commandes yi
𝒙𝒊 − 𝑿
] 𝒚𝒊 − 𝒀
]
152
155
160
155
162
164
26
27
28
28
29
30
-6
-3
2
3
4
6
-2
-1
0
0
1
2
158
6
948=
=
x
28
6
168=
=
y
𝑪𝒐𝒗 𝑿, 𝒀 =5,166666667
33
.
18
6
110
)²
(
1
)
( =
=
−
= ∑
i
x
xi
N
x
V
∑ =
=
−
=
i
y
yi
N
y
V 67
.
1
6
10
)²
(
1
)
(
de commandes?
Calculer le coefficient de corrélation:

124
Nombre de visites
de prospection xi
Nombre de
commandes yi
𝒙𝒊 − 𝑿
] 𝒚𝒊 − 𝒀
]
152
155
160
155
162
164
26
27
28
28
29
30
-6
-3
2
3
4
6
-2
-1
0
0
1
2
158
6
948=
=
x
28
6
168=
=
y
𝑪𝒐𝒗 𝑿, 𝒀 =5,166666667
33
.
18
6
110
)²
(
1
)
( =
=
−
= ∑
i
x
xi
N
x
V
∑ =
=
−
=
i
y
yi
N
y
V 67
.
1
6
10
)²
(
1
)
(
de commandes?
r = 0.93
doncx et y sontfortement corrélés, ainsi plus le nombrede
visites augmente, plus le nombrede commandes augmente

Démarche générale de la statistique
• Recueil des données
• Statistique descriptive
§ Indicateurs statistiques
§ Représentations graphiques
§ Choisis en fonction du type de variables
• Statistique inférentielle
• Extrapolation de résultats calculés sur un échantillon à une population sous-jacente
(estimation, tests statistiques, modélisations)
• Basée sur le calcul de probabilités
125
Conclusion

Chapitre Introductif

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à Chapitre Introductif

Similaire à Chapitre Introductif (20)

Plus de Ibtissam medarhri

Plus de Ibtissam medarhri (7)

Chapitre Introductif