1. Introduction à la Statistique:
Professeur Ahmed Rebaï
Centre de Biotechnologie de Sfax, Tunisie
ahmed.rebai@cbs.rnrt.tn
2. Brève histoire de la statistique
On retrouve trace de la statistique dans les
recensements depuis 2200 avant JC
Les principes fondamentaux de la
statistique ont été introduits dans le cadre
de la recherche sur l’Homme (Biométrie)
dans les années 1900-1940:
par exemple la corrélation/régression, les
plans d’expériences, l’analyse de la
variance, les analyses factorielles
6. L’analyse de données
L’analyse des données est un processus qui
permet de transformer une masse de
données en information structurée permettant
la prise de décision.
Elle peut se faire de deux manières:
Descriptive ou on synthétise l’information
Inférentielle où l’on estime des modèles et on
teste des hypothèse
7. Pourquoi la statistique?
L’analyse statistique des données est
une étape nécessaire pour tirer des
conclusions scientifiquement valides
Le chercheur/doit savoir bien mener et
interpréter des analyses des données
pour mieux valoriser le travail et de
connaitre au moins un logiciel (SPSS,
SAS, Statistica) ou un langage de
programmation (R, Matlab).
8. Les concepts fondamentaux
S’il n’y pas de variation, si toute
observation est prédictible avec
exactitude, il n’y aurait aucunement
besoin de la statistique
9. La Variation
Deux mesures ou observations d’un
phénomène naturel ou une propriété ne sont
jamais identiques
Même si tous les facteurs qu’il est possible de
contrôler sont contrôlés il y a de la variabilité
La variabilité est inhérente aux phénomènes,
et ne provient pas uniquement de l’instrument
de mesure ou de l’observateur
La variation est la matière première de la
statistique
10. Population
On appelle population statistique tout ensemble
de référence que l’on se propose d’étudier
statistiquement: collection d’éléments ayant
des caractéristiques communes
Les éléments d’une population sont appelés
individus
En statistique on suppose que les populations
sont de taille infinie.
La population d’intérêt doit être clairement
définie avant de commencer la collecte des
données
11. L’échantillon
C’est tout sous-ensemble (approprié) de la
population sur lequel porte l’analyse
L’échantillon est choisi selon certaines
règles (au hasard, représentatif, de
convenance..)
Représentatif: reflète fidèlement la
composition de la population
Plus l’échantillon est grand mieux c’est
Souvent il y a des critères d’inclusion ou
d’exclusion
Si l’échantillon = population on parle de
recensement
12. Echantillon aléatoire
Chaque élément de la population a une
probabilité connue d’appartenir à
l’échantillon.
Aléatoire simple, stratifiée, systématique..
EAS
Choix au hasard des individus (tirage aléatoire)
Choix indépendant des individus
Startifiée: on échantillonne des strates
puis des individus dans les strates
Systématique: selon un pas donné.
Ex: Hopital: dans tous les services ou
dans un seul service?
13. Echantillon
Choisir un groupe d’individus qui vivent
ensemble dans le même espace ou à la
même période peut introduire un biais car ces
individus sont exposés au même
environnement physique et « social ».
Pour éviter les biais d’échantillonnage lister au
préalable les facteurs qui peuvent influencer
l’étude (sexe, mode de vie,..) et
éventuellement stratifier la population
14. Les choix
Choix du type d’étude
Choix de la population
Choix du schéma de l’étude
Choix des variables et des facteurs
Choix de la méthode d’échantillonnage
Choix du plan d’expérience
Choix du dispositif de mesure et de
classification
15. Types d’études
Selon la finalité: Descriptive/explicative
Selon l’approche: exploratoire/confirmative
Selon l’intervention: observation/expérience
Selon la période du temps: transversale,
longitudinale (prospective/réstrospective)
16.
17.
18.
19. Les variables
Une variable est une caractéristique qui
peut prendre différentes valeurs pour
différents ‘individus’
Le choix des variables est dicté par le problème
posé.
Parfois il s’agit de savoir comment plusieurs
variables sont liées entre elles ou comment une
variable d’intérêt (dite variable dépendante) est
affectée par une ou plusieurs variables que l’on peut
contrôler.
20. Deux grands types de variables
Variables Qualitatives
Catégories: de deux classes (binaire) ou plus (nominale)
Ex: réponse: oui/non, traitement: prep1/prep2/prep3
Attention: on peut les représenter par des chiffres (0:
absent, 1: présent) ; cela ne fait pas d’eux des variables
numériques.
Variables Quantitatives
Continue: Prend des valeurs réelles
Ex: taille, poids, concentration, ..
Discrète: Prend des valeurs entières
Ex: nombre de cellules dans un tissu, de colonies, de
souris par portée, etc.
24. Les hypothèses: le pourquoi du travail
Fixer vos objectifs et le but de votre étude
avant de faire une expérience, un essai
biologique ou une enquête et avant
d’analyser des données existantes
25. Comment préciser une hypothèse?
Si on veut arriver à une conclusion il faut
préciser au moins deux hypothèses:
Un hypothèse nulle H0, souvent du type «pas
de relation ou pas d‘effet du traitement»
Une hypothèse alternative H1 « il y a un effet »
ou « il y a une relation »
Pour savoir laquelle accepter à partir d’un
ensemble de données on calcule la
probabilité d’obtenir les données qu’on a si
l’on suppose que H1 vraie
26. Sig: P-value= Prob(rejeter H0/H0 vraie)
Definir un seuil pour cette probabilite pour
decider
Seuil de alpha=5%: 0.05
Si p-value >= 0.05 je commet plu d’erreur en
rejetant H0 que le seuil fixé donc je doit
accepter H0
Si p-value<0.05 l’erreur que je commet en
rejetant H0 est plus faible que le seuil donc je
peux rejeter H0
32. Analyse bivarié
Une variable quantitative mesurée sur deux ou
plusieurs groupes « d’individus »; l’identifiant
de groupe est une variable qualitative (facteur)
Donc en fait on étudie la relation entre une
variable quantitative et une variable qualitative
Deux groupes: on compare 2 moyennes->test de
Student : indépendants/appariés
3 groupes et plus : test anova de Fisher (global)
puis post-hoc (2 à 2)
Si non normalité tests non parametriques (Mann-
whitney 2 groupes, Kruskal-Wallis, >2 groupes)
33.
34. Analyse bivariée
Deux variables quantitatives:
Corrélation, coefficient de Pearson/Spearman
Graphique: diagramme de dispersion ; voir la
nature de la relation (linéaire/non-linéaire)
Régression linéaire/non linéaire
Deux variables qualitatives:
Tableaux croisés (table de contingence); test chi-
deux, coefficient de contingence
Test exact de Fisher (si effectifs faibles dans
certaines cases) du tableau
35.
36.
37.
38. Analyses multivariées: modèles
Une variable quantitative, deux ou plusieurs
qualitatives (facteurs):
Analyse de variance à 2 facteurs ou plus:
croisés ou hierarchique
Une variable quantitative: deux ou plusieurs
quantitatives:
Régression multiple linéaire ou non linéaire
Une variable qualitative en relation avec
plusieurs variables qualitatives et/ou
quantitatives
Régression logistique binaire ou multinomiale
39. Analyses multivariés
Grand nombre de variables quantitatives:
on cherche à voir les variables qui vont
ensemble et identifier de groupes
d’observations (individus) : Analyse en
Composantes Principales (ACP)
On cherche à identifier des groupes de
variables et/ou les observations:
classification hiérarchique, k-means
Classification non supersvisée
40. Analyses multivariées
On a déjà des groupes prédéfinis et on
cherche à identifier les variables qui
discriminent le plus entre les groupes :
classification supervisée: Analyse
discriminante linéaire (ou quadratique)
41.
42. Règle universelle de décision
p-value >0.05 pas de
différence ou de relation
Moyennes ou proportions égales
Même distribution
Pas de corrélation entre variables
Pas d’association
Pas d’effet d’une variable sur une autre