Intro

Introduction à la Statistique:
Professeur Ahmed Rebaï
Centre de Biotechnologie de Sfax, Tunisie
ahmed.rebai@cbs.rnrt.tn

Brève histoire de la statistique
 On retrouve trace de la statistique dans les
recensements depuis 2200 avant JC
 Les principes fondamentaux de la
statistique ont été introduits dans le cadre
de la recherche sur l’Homme (Biométrie)
dans les années 1900-1940:
par exemple la corrélation/régression, les
plans d’expériences, l’analyse de la
variance, les analyses factorielles

L’analyse de données
 L’analyse des données est un processus qui
permet de transformer une masse de
données en information structurée permettant
la prise de décision.
 Elle peut se faire de deux manières:
 Descriptive ou on synthétise l’information
 Inférentielle où l’on estime des modèles et on
teste des hypothèse

Pourquoi la statistique?
 L’analyse statistique des données est
une étape nécessaire pour tirer des
conclusions scientifiquement valides
 Le chercheur/doit savoir bien mener et
interpréter des analyses des données
pour mieux valoriser le travail et de
connaitre au moins un logiciel (SPSS,
SAS, Statistica) ou un langage de
programmation (R, Matlab).

Les concepts fondamentaux
S’il n’y pas de variation, si toute
observation est prédictible avec
exactitude, il n’y aurait aucunement
besoin de la statistique

La Variation
 Deux mesures ou observations d’un
phénomène naturel ou une propriété ne sont
jamais identiques
 Même si tous les facteurs qu’il est possible de
contrôler sont contrôlés il y a de la variabilité
 La variabilité est inhérente aux phénomènes,
et ne provient pas uniquement de l’instrument
de mesure ou de l’observateur
 La variation est la matière première de la
statistique

Population
 On appelle population statistique tout ensemble
de référence que l’on se propose d’étudier
statistiquement: collection d’éléments ayant
des caractéristiques communes
 Les éléments d’une population sont appelés
individus
 En statistique on suppose que les populations
sont de taille infinie.
 La population d’intérêt doit être clairement
définie avant de commencer la collecte des
données

L’échantillon
 C’est tout sous-ensemble (approprié) de la
population sur lequel porte l’analyse
 L’échantillon est choisi selon certaines
règles (au hasard, représentatif, de
convenance..)
 Représentatif: reflète fidèlement la
composition de la population
 Plus l’échantillon est grand mieux c’est
 Souvent il y a des critères d’inclusion ou
d’exclusion
 Si l’échantillon = population on parle de
recensement

Echantillon aléatoire
 Chaque élément de la population a une
probabilité connue d’appartenir à
l’échantillon.
 Aléatoire simple, stratifiée, systématique..
 EAS
 Choix au hasard des individus (tirage aléatoire)
 Choix indépendant des individus
 Startifiée: on échantillonne des strates
puis des individus dans les strates
 Systématique: selon un pas donné.
 Ex: Hopital: dans tous les services ou
dans un seul service?

Echantillon
 Choisir un groupe d’individus qui vivent
ensemble dans le même espace ou à la
même période peut introduire un biais car ces
individus sont exposés au même
environnement physique et « social ».
 Pour éviter les biais d’échantillonnage lister au
préalable les facteurs qui peuvent influencer
l’étude (sexe, mode de vie,..) et
éventuellement stratifier la population

Les choix
 Choix du type d’étude
 Choix de la population
 Choix du schéma de l’étude
 Choix des variables et des facteurs
 Choix de la méthode d’échantillonnage
 Choix du plan d’expérience
 Choix du dispositif de mesure et de
classification

Types d’études
 Selon la finalité: Descriptive/explicative
 Selon l’approche: exploratoire/confirmative
 Selon l’intervention: observation/expérience
 Selon la période du temps: transversale,
longitudinale (prospective/réstrospective)

Les variables
Une variable est une caractéristique qui
peut prendre différentes valeurs pour
différents ‘individus’
 Le choix des variables est dicté par le problème
posé.
 Parfois il s’agit de savoir comment plusieurs
variables sont liées entre elles ou comment une
variable d’intérêt (dite variable dépendante) est
affectée par une ou plusieurs variables que l’on peut
contrôler.

Deux grands types de variables
 Variables Qualitatives
 Catégories: de deux classes (binaire) ou plus (nominale)
Ex: réponse: oui/non, traitement: prep1/prep2/prep3
 Attention: on peut les représenter par des chiffres (0:
absent, 1: présent) ; cela ne fait pas d’eux des variables
numériques.
 Variables Quantitatives
 Continue: Prend des valeurs réelles
Ex: taille, poids, concentration, ..
 Discrète: Prend des valeurs entières
Ex: nombre de cellules dans un tissu, de colonies, de
souris par portée, etc.

Comment s’assurer?
 Est-ce que calculer une
moyenne a un sens?

Les hypothèses: le pourquoi du travail
 Fixer vos objectifs et le but de votre étude
avant de faire une expérience, un essai
biologique ou une enquête et avant
d’analyser des données existantes

Comment préciser une hypothèse?
 Si on veut arriver à une conclusion il faut
préciser au moins deux hypothèses:
 Un hypothèse nulle H0, souvent du type «pas
de relation ou pas d‘effet du traitement»
 Une hypothèse alternative H1 « il y a un effet »
ou « il y a une relation »
 Pour savoir laquelle accepter à partir d’un
ensemble de données on calcule la
probabilité d’obtenir les données qu’on a si
l’on suppose que H1 vraie

 Sig: P-value= Prob(rejeter H0/H0 vraie)
 Definir un seuil pour cette probabilite pour
decider
 Seuil de alpha=5%: 0.05
 Si p-value >= 0.05 je commet plu d’erreur en
rejetant H0 que le seuil fixé donc je doit
accepter H0
 Si p-value<0.05 l’erreur que je commet en
rejetant H0 est plus faible que le seuil donc je
peux rejeter H0

Carré de l’analyse statistique

Analyse d’une variable quantitative
 Calcul: moyenne, variance, écart-type,
coefficient de variation
 Graphiques:
 Histogramme: symétrie
 Boxplot: symétrie, observations extrêmes
 Possible recodage en classe->qualitative
 Calcul de proportion (fréquence)
 Graphiques:
 barplot, pie chart

Analyse bivarié
 Une variable quantitative mesurée sur deux ou
plusieurs groupes « d’individus »; l’identifiant
de groupe est une variable qualitative (facteur)
 Donc en fait on étudie la relation entre une
variable quantitative et une variable qualitative
 Deux groupes: on compare 2 moyennes->test de
Student : indépendants/appariés
 3 groupes et plus : test anova de Fisher (global)
puis post-hoc (2 à 2)
 Si non normalité tests non parametriques (Mann-
whitney 2 groupes, Kruskal-Wallis, >2 groupes)

Analyse bivariée
 Deux variables quantitatives:
 Corrélation, coefficient de Pearson/Spearman
 Graphique: diagramme de dispersion ; voir la
nature de la relation (linéaire/non-linéaire)
 Régression linéaire/non linéaire
 Deux variables qualitatives:
 Tableaux croisés (table de contingence); test chi-
deux, coefficient de contingence
 Test exact de Fisher (si effectifs faibles dans
certaines cases) du tableau

Analyses multivariées: modèles
 Une variable quantitative, deux ou plusieurs
qualitatives (facteurs):
 Analyse de variance à 2 facteurs ou plus:
croisés ou hierarchique
 Une variable quantitative: deux ou plusieurs
quantitatives:
 Régression multiple linéaire ou non linéaire
 Une variable qualitative en relation avec
plusieurs variables qualitatives et/ou
quantitatives
 Régression logistique binaire ou multinomiale

Analyses multivariés
 Grand nombre de variables quantitatives:
 on cherche à voir les variables qui vont
ensemble et identifier de groupes
d’observations (individus) : Analyse en
Composantes Principales (ACP)
 On cherche à identifier des groupes de
variables et/ou les observations:
classification hiérarchique, k-means
 Classification non supersvisée

Analyses multivariées
 On a déjà des groupes prédéfinis et on
cherche à identifier les variables qui
discriminent le plus entre les groupes :
classification supervisée: Analyse
discriminante linéaire (ou quadratique)

Règle universelle de décision
p-value >0.05  pas de
différence ou de relation
 Moyennes ou proportions égales
 Même distribution
 Pas de corrélation entre variables
 Pas d’association
 Pas d’effet d’une variable sur une autre

Intro

Recommandé

Recommandé

Contenu connexe

Similaire à Intro

Similaire à Intro (20)

Intro