2. Le modélisateur dispose de son expérience et peut effectuer des
études statistiques pour répondre à ces questions. C'est
l'ingénieur lui seul qui connait le terrain, qui peut répondre à ces
questions, avec le bon sens "probabiliste".
3. Quelle est la nature d'un modèle statistique? A partir d'une connaissance
quelconque où il y a des mécanismes physiques en jeu, de sa propre expérience,
le statisticien postule un modèle probabiliste pour le système considéré. Il
anticipe la similitude du comportement probabiliste des caractéristiques d'intérêt
du système et du modèle.
4. • A partir des données expérimentales, est-ce qu'un certain modèle semble
raisonnable ou au moins pas particulièrement déraisonnable? il s'agit du
domaine du "test de signification". Dans ce genre de test, le statisticien spécule
sur la probabilité que de données similaires à celles observées puissent être
générées par des expériences hypothétiques faites avec le modèle
5. • A partir des données expérimentales, est-ce qu'un certain modèle semble
raisonnable ou au moins pas particulièrement déraisonnable? il s'agit du
domaine du "test de signification". Dans ce genre de test, le statisticien spécule
sur la probabilité que de données similaires à celles observées puissent être
générées par des expériences hypothétiques faites avec le modèle
• A partir des données expérimentales, comment exprimer une préférence entre
plusieurs modèles postulés? Quand on fait le choix entre plusieurs modèles
hypothétiques, il s'agit d'un test d'hypothèse.
6. • A partir des données expérimentales, est-ce qu'un certain modèle semble
raisonnable ou au moins pas particulièrement déraisonnable? il s'agit du
domaine du "test de signification". Dans ce genre de test, le statisticien spécule
sur la probabilité que de données similaires à celles observées puissent être
générées par des expériences hypothétiques faites avec le modèle
• A partir des données expérimentales, comment exprimer une préférence entre
plusieurs modèles postulés? Quand on fait le choix entre plusieurs modèles
hypothétiques, il s'agit d'un test d'hypothèse.
• Etant donné la forme d'un modèle postulé pour un système physique et de
données expérimentales, comment employer les données pour établir les
valeurs les plus souhaitables des paramètres du modèle?
11. 1. Introduction
• Définitions
• Vocabulaire
• Type de variables
• Liens avec les concepts probabilistes
2. Recueil des données
Plan
12. 1. Introduction
• Définitions
• Vocabulaire
• Type de variables
• Liens avec les concepts probabilistes
2. Recueil des données
3. Statistique descriptive univariée
• Organiser les données
• Présenter les données
• Résumer les données
Plan
13. 1. Introduction
• Définitions
• Vocabulaire
• Type de variables
• Liens avec les concepts probabilistes
2. Recueil des données
3. Statistique descriptive univariée
• Organiser les données
• Présenter les données
• Résumer les données
4. Statistique descriptive bivariée
• Deux variables qualitatives
• Variable quantitative / Variable qualitative
• Deux variables quantitatives
Plan
16. Introductions
Statistique descriptive
Organisation, présentation
et analyse des données
relatives à une population,
un échantillon, en mettant
les points importants en
évidence.
Statistique inférentielle
Elle permet de généraliser à de
grands ensembles d'éléments les
conclusions tirées des résultats
obtenus avec des ensembles
beaucoup plus restreints appelés
échantillons.
Echantillon Inférence Population ?
La statistique au sens large comprend deux branches.
17. Vocabulaire
Définition générale de la statistique
§ Lorsqu’une étude est réalisée sur l’ensemble d’une population, on parle de recensement
(ex : recensement ENSMR)
§ Lorsqu'une étude est réalisée sur une sous-population plus petite, on parle d’échantillon
(ex : échantillon de 100 étudiants de ENSMR)
§ Cet échantillon est extrait de la population par le biais d’uneméthode d’échantillonnage
• Echantillonnage aléatoire simple : tirer au hasard et manière indépendante n
individus d’unepopulation de N individus.
§ Un échantillon est constitué d’individus statistiques (ou observationsstatistiques)
§ Sur ces individus sont mesurés des caractères (âge, poids, couleurs des yeux. . . ) appelés
également variables
§ Deux types de variables : les variables quantitatives et les variables qualitatives
constituées de plusieurs modalités
18. Vocabulaire
Définition générale de la statistique
Remarquons qu'un échantillon peut être considéré comme une
population en elle-même, quoique beaucoup plus petite que la
population dont il est extrait. En tant que population, il peut faire
l'objet d'une étude statistique dont les conclusions, sous certaines
conditions, sont susceptibles d’être étendues à la population toute
entière. (C'est l'objet de la statistique inférentielle.)
x
x
x
x
x x
x
x
x
x
x
x
x
x
x
x
x
x x x
x x
x
x
x x
x
x x
x
x
x
x
x x
x
x x
x
x x
x
x
x x
x x
x
x
Population
Ensemble de référence
x
Individu
Elément de la population
Echantillon
Sous-ensemble de la population.
29. 1. Introduction
• Définitions
• Vocabulaire
• Type de variables
• Liens avec les concepts probabilistes
2. Recueil des données
3. Statistique descriptive univariée
• Organiser les données
• Présenter les données
• Résumer les données
4. Statistique descriptive bivariée
• Deux variables qualitatives
• Variable quantitative / Variable qualitative
• Deux variables quantitatives
Plan
38. 1. Introduction
• Définitions
• Vocabulaire
• Type de variables
• Liens avec les concepts probabilistes
2. Recueil des données
3. Statistique descriptive univariée
• Organiser les données
• Présenter les données
• Résumer les données
4. Statistique descriptive bivariée
• Deux variables qualitatives
• Variable quantitative / Variable qualitative
• Deux variables quantitatives
Plan
40. Organiser les données : Tableau de distribution
Niveau (𝑥() Effectifs (𝑛() fréquences (𝑓()
A 13 0,5
B 11 0,42
C 2 0,08
total 26 1
Exemple : tableau de répartition des groupes selon les niveau de formation
• On appelle fréquence de la modalité 𝑥(, 𝑓( =
12
1
• Un pourcentage est une fréquence exprimée en %, c.à.d 100𝒇𝒊 .
59. Résumer: Les indicateurs de position
Classe Modale, Le mode: cas d’une variable continue
Une classe modale est donc une classe pour laquelle le quotient (effectif/amplitude)
est maximal alors que pour des classes d’amplitudes égales ou pour les variables
discrètes, les classes modales ou les modes correspondent aux effectifs maxima.
Remarque : le quotient effectif/amplitude s’appelle la densité d’effectif de la classe.
• Il peut existerplusieurs modesou plusieursclasses modales.
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
+
×
+
=
Δs
Δi
Δi
ai
l
M o
70. Résumer: Les indicateurs de position
Moyenne
Exemple : On a demandé à un groupe de 220 élèves de 18 à 22
ans combien d'heures ils passent devant Facebook chaque
semaine pendant les vacances. Leurs réponses ont été
consignées dans le tableau suivant. À l'aide de cette
information, calculez la moyenne et l'écart-type des heures
pendant lesquellesles 220 élèves passent devant Facebook.
Nombre d'heures
passées devant
Facebook
Heures Effectif
(ni)
[10,14[ 2
[14,20[ 12
[20,24[ 23
[24,30[ 60
[30,34[ 77
[34,40[ 38
[40,44[ 8
220
71. Résumer: Les indicateurs de position
Moyenne
Nombre d'heures passées devant Facebook
Heures Point milieu
(ci)
Effectif (ni) Ni x ci
[10,14[ 12 2 24
[14,20[ 17 12 204
[20,24[ 22 23 506
[24,30[ 27 60 1 620
[30,34[ 32 77 2 464
[34,40[ 37 38 1 406
[40,44[ 42 8 336
220 6 560
𝑋
A = 29.82
80. Résumer: Les indicateurs de position
Médiane
Remarque
Quand la série est regroupée par classes,
on détermine la médiane par interpolation linéaire à partir de la courbe des effectifs
ou des fréquencescumulées.
a
Eff
Effcum
N
L
Md
médiane
classe
prcdt
×
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛ −
+
=
−
2
85. Résumer: Les indicateurs de position
Indicateurs de position - Récapitulatif
Mode
• Avantages
§ Bon indicateur dans le cas de distributions asymétriques
§ Bon indicateur de population hétérogène
§ Insensible aux valeurs extrêmes
• Inconvénients
§ se prête mal aux calculs statistiques
§ Sensible aux variations d’amplitude de classes
Moyenne
• Avantages
§ Se prête facilement aux calculs et tests statistiques
§ Bon indicateur si distribution symétrique et dispersion faible
• Inconvénients
§ Sensible aux valeurs extrêmes
§ Représente mal une population hétérogène (polymodale)
94. 1. Introduction
• Définitions
• Vocabulaire
• Type de variables
• Liens avec les concepts probabilistes
2. Recueil des données
3. Statistique descriptive univariée
• Organiser les données
• Présenter les données
• Résumer les données
4. Statistique descriptive bivariée
• Deux variables qualitatives
• Variable quantitative / Variable qualitative
• Deux variables quantitatives
Plan
100. Deux variables qualitatives :
Présentation des données
Considérons
• X = {x1 , x2 , . . . , xl }
• Y = {y1 , y2 , . . . , ym }
deux variables qualitatives ayant respectivement l et m modalités.
Exemple:
- Niveau de satisfaction : Mauvais, Passable, Bon, Excellent.
- Sexe : Masculin, Féminin
Tableau de contingence
• Basé sur l’effectif et la fréquence de chaque croisement de modalité
• Notions supplémentaires : fréquences lignes et fréquences colonnes (conditionnelles)
• Permet, d’une manière descriptive, d’étudier le "lien" entre deux variables
qualitatives
118. 118
Deux variables quantitatives
Présentation des données - Exemple
Nombre de visites
de prospection xi
Nombre de
commandes yi
𝒙𝒊 − 𝑿
] 𝒚𝒊 − 𝒀
]
152
155
160
155
162
164
26
27
28
28
29
30
-6
-3
2
3
4
6
-2
-1
0
0
1
2
25,5
26
26,5
27
27,5
28
28,5
29
29,5
30
30,5
1 5 0 1 5 2 1 5 4 1 5 6 1 5 8 1 6 0 1 6 2 1 6 4 1 6 6
NOMBRE
DE
COMMANDES
YI
NOMBRE DE VISITES DE PROSPECTION XI
NOMBRE DE COMMANDES EN FONCTION
DU NOMBRE DE VISITES DE
PROSPECTION
Y-a-t-il une liaison entre les deux le nombrede Visites de prospection et le nombre
de commandes?
121. 121
Deux variables quantitatives
• Le coefficient de corrélation linéaire a pour objet de mesurer l'intensité de la
liaison linéaire entre les deux variables X et Y :
)
(
)
(
)
,
cov(
y
x
y
x
r
σ
σ
=
• Cette définition montre quele coefficient de corrélation possédé le même signe que
la covariance sa valeur est comprise entre -1 et 1
Coefficient de corrélation linéaire :
Pour pouvoir parler de forte liaison entre x et y il faut que la valeur absolue
de r atteigne au moins 0.87
Remarque
122. 122
Deux variables quantitatives
• Le coefficient de corrélation linéaire a pour objet de mesurer l'intensité de la
liaison linéaire entre les deux variables X et Y :
)
(
)
(
)
,
cov(
y
x
y
x
r
σ
σ
=
• Cette définition montre quele coefficient de corrélation possédé le même signe que
la covariance sa valeur est comprise entre -1 et 1
Coefficient de corrélation linéaire :
Pour pouvoir parler de forte liaison entre x et y il faut que la valeur absolue
de r atteigne au moins 0.87
Remarque
Attention : l’absence de relation linéaire entre deux variables ne permet de
conclure à l’absence de relation ⇒ (exponentiel, puissance, . . . ) ⇒ Coefficient
de corrélation de Spearman.
124. 124
Deux variables quantitatives
Présentation des données - Exemple
Nombre de visites
de prospection xi
Nombre de
commandes yi
𝒙𝒊 − 𝑿
] 𝒚𝒊 − 𝒀
]
152
155
160
155
162
164
26
27
28
28
29
30
-6
-3
2
3
4
6
-2
-1
0
0
1
2
158
6
948=
=
x
28
6
168=
=
y
𝑪𝒐𝒗 𝑿, 𝒀 =5,166666667
33
.
18
6
110
)²
(
1
)
( =
=
−
= ∑
i
x
xi
N
x
V
∑ =
=
−
=
i
y
yi
N
y
V 67
.
1
6
10
)²
(
1
)
(
Y-a-t-il une liaison entre les deux le nombrede Visites de prospection et le nombre
de commandes?
r = 0.93
doncx et y sontfortement corrélés, ainsi plus le nombrede
visites augmente, plus le nombrede commandes augmente
125. Démarche générale de la statistique
• Recueil des données
• Statistique descriptive
§ Indicateurs statistiques
§ Représentations graphiques
§ Choisis en fonction du type de variables
• Statistique inférentielle
• Extrapolation de résultats calculés sur un échantillon à une population sous-jacente
(estimation, tests statistiques, modélisations)
• Basée sur le calcul de probabilités
125
Conclusion