SlideShare une entreprise Scribd logo
1  sur  42
Introduction à la Statistique:
Professeur Ahmed Rebaï
Centre de Biotechnologie de Sfax, Tunisie
ahmed.rebai@cbs.rnrt.tn
Brève histoire de la statistique
 On retrouve trace de la statistique dans les
recensements depuis 2200 avant JC
 Les principes fondamentaux de la
statistique ont été introduits dans le cadre
de la recherche sur l’Homme (Biométrie)
dans les années 1900-1940:
par exemple la corrélation/régression, les
plans d’expériences, l’analyse de la
variance, les analyses factorielles
Francis Galton (1822-1911)
Karl Pearson (1857-1936)
RA Fisher (1890-1962)
L’analyse de données
 L’analyse des données est un processus qui
permet de transformer une masse de
données en information structurée permettant
la prise de décision.
 Elle peut se faire de deux manières:
 Descriptive ou on synthétise l’information
 Inférentielle où l’on estime des modèles et on
teste des hypothèse
Pourquoi la statistique?
 L’analyse statistique des données est
une étape nécessaire pour tirer des
conclusions scientifiquement valides
 Le chercheur/doit savoir bien mener et
interpréter des analyses des données
pour mieux valoriser le travail et de
connaitre au moins un logiciel (SPSS,
SAS, Statistica) ou un langage de
programmation (R, Matlab).
Les concepts fondamentaux
S’il n’y pas de variation, si toute
observation est prédictible avec
exactitude, il n’y aurait aucunement
besoin de la statistique
La Variation
 Deux mesures ou observations d’un
phénomène naturel ou une propriété ne sont
jamais identiques
 Même si tous les facteurs qu’il est possible de
contrôler sont contrôlés il y a de la variabilité
 La variabilité est inhérente aux phénomènes,
et ne provient pas uniquement de l’instrument
de mesure ou de l’observateur
 La variation est la matière première de la
statistique
Population
 On appelle population statistique tout ensemble
de référence que l’on se propose d’étudier
statistiquement: collection d’éléments ayant
des caractéristiques communes
 Les éléments d’une population sont appelés
individus
 En statistique on suppose que les populations
sont de taille infinie.
 La population d’intérêt doit être clairement
définie avant de commencer la collecte des
données
L’échantillon
 C’est tout sous-ensemble (approprié) de la
population sur lequel porte l’analyse
 L’échantillon est choisi selon certaines
règles (au hasard, représentatif, de
convenance..)
 Représentatif: reflète fidèlement la
composition de la population
 Plus l’échantillon est grand mieux c’est
 Souvent il y a des critères d’inclusion ou
d’exclusion
 Si l’échantillon = population on parle de
recensement
Echantillon aléatoire
 Chaque élément de la population a une
probabilité connue d’appartenir à
l’échantillon.
 Aléatoire simple, stratifiée, systématique..
 EAS
 Choix au hasard des individus (tirage aléatoire)
 Choix indépendant des individus
 Startifiée: on échantillonne des strates
puis des individus dans les strates
 Systématique: selon un pas donné.
 Ex: Hopital: dans tous les services ou
dans un seul service?
Echantillon
 Choisir un groupe d’individus qui vivent
ensemble dans le même espace ou à la
même période peut introduire un biais car ces
individus sont exposés au même
environnement physique et « social ».
 Pour éviter les biais d’échantillonnage lister au
préalable les facteurs qui peuvent influencer
l’étude (sexe, mode de vie,..) et
éventuellement stratifier la population
Les choix
 Choix du type d’étude
 Choix de la population
 Choix du schéma de l’étude
 Choix des variables et des facteurs
 Choix de la méthode d’échantillonnage
 Choix du plan d’expérience
 Choix du dispositif de mesure et de
classification
Types d’études
 Selon la finalité: Descriptive/explicative
 Selon l’approche: exploratoire/confirmative
 Selon l’intervention: observation/expérience
 Selon la période du temps: transversale,
longitudinale (prospective/réstrospective)
Les variables
Une variable est une caractéristique qui
peut prendre différentes valeurs pour
différents ‘individus’
 Le choix des variables est dicté par le problème
posé.
 Parfois il s’agit de savoir comment plusieurs
variables sont liées entre elles ou comment une
variable d’intérêt (dite variable dépendante) est
affectée par une ou plusieurs variables que l’on peut
contrôler.
Deux grands types de variables
 Variables Qualitatives
 Catégories: de deux classes (binaire) ou plus (nominale)
Ex: réponse: oui/non, traitement: prep1/prep2/prep3
 Attention: on peut les représenter par des chiffres (0:
absent, 1: présent) ; cela ne fait pas d’eux des variables
numériques.
 Variables Quantitatives
 Continue: Prend des valeurs réelles
Ex: taille, poids, concentration, ..
 Discrète: Prend des valeurs entières
Ex: nombre de cellules dans un tissu, de colonies, de
souris par portée, etc.
Comment s’assurer?
 Est-ce que calculer une
moyenne a un sens?
Les hypothèses: le pourquoi du travail
 Fixer vos objectifs et le but de votre étude
avant de faire une expérience, un essai
biologique ou une enquête et avant
d’analyser des données existantes
Comment préciser une hypothèse?
 Si on veut arriver à une conclusion il faut
préciser au moins deux hypothèses:
 Un hypothèse nulle H0, souvent du type «pas
de relation ou pas d‘effet du traitement»
 Une hypothèse alternative H1 « il y a un effet »
ou « il y a une relation »
 Pour savoir laquelle accepter à partir d’un
ensemble de données on calcule la
probabilité d’obtenir les données qu’on a si
l’on suppose que H1 vraie
 Sig: P-value= Prob(rejeter H0/H0 vraie)
 Definir un seuil pour cette probabilite pour
decider
 Seuil de alpha=5%: 0.05
 Si p-value >= 0.05 je commet plu d’erreur en
rejetant H0 que le seuil fixé donc je doit
accepter H0
 Si p-value<0.05 l’erreur que je commet en
rejetant H0 est plus faible que le seuil donc je
peux rejeter H0
Carré de l’analyse statistique
Analyse d’une variable quantitative
 Calcul: moyenne, variance, écart-type,
coefficient de variation
 Graphiques:
 Histogramme: symétrie
 Boxplot: symétrie, observations extrêmes
 Possible recodage en classe->qualitative
 Calcul de proportion (fréquence)
 Graphiques:
 barplot, pie chart
La Normalité!
Analyse bivarié
 Une variable quantitative mesurée sur deux ou
plusieurs groupes « d’individus »; l’identifiant
de groupe est une variable qualitative (facteur)
 Donc en fait on étudie la relation entre une
variable quantitative et une variable qualitative
 Deux groupes: on compare 2 moyennes->test de
Student : indépendants/appariés
 3 groupes et plus : test anova de Fisher (global)
puis post-hoc (2 à 2)
 Si non normalité tests non parametriques (Mann-
whitney 2 groupes, Kruskal-Wallis, >2 groupes)
Analyse bivariée
 Deux variables quantitatives:
 Corrélation, coefficient de Pearson/Spearman
 Graphique: diagramme de dispersion ; voir la
nature de la relation (linéaire/non-linéaire)
 Régression linéaire/non linéaire
 Deux variables qualitatives:
 Tableaux croisés (table de contingence); test chi-
deux, coefficient de contingence
 Test exact de Fisher (si effectifs faibles dans
certaines cases) du tableau
Analyses multivariées: modèles
 Une variable quantitative, deux ou plusieurs
qualitatives (facteurs):
 Analyse de variance à 2 facteurs ou plus:
croisés ou hierarchique
 Une variable quantitative: deux ou plusieurs
quantitatives:
 Régression multiple linéaire ou non linéaire
 Une variable qualitative en relation avec
plusieurs variables qualitatives et/ou
quantitatives
 Régression logistique binaire ou multinomiale
Analyses multivariés
 Grand nombre de variables quantitatives:
 on cherche à voir les variables qui vont
ensemble et identifier de groupes
d’observations (individus) : Analyse en
Composantes Principales (ACP)
 On cherche à identifier des groupes de
variables et/ou les observations:
classification hiérarchique, k-means
 Classification non supersvisée
Analyses multivariées
 On a déjà des groupes prédéfinis et on
cherche à identifier les variables qui
discriminent le plus entre les groupes :
classification supervisée: Analyse
discriminante linéaire (ou quadratique)
Règle universelle de décision
p-value >0.05  pas de
différence ou de relation
 Moyennes ou proportions égales
 Même distribution
 Pas de corrélation entre variables
 Pas d’association
 Pas d’effet d’une variable sur une autre

Contenu connexe

Similaire à Intro

Cou rs de methodologie
Cou rs de methodologieCou rs de methodologie
Cou rs de methodologieTelelaz Galaa
 
étude d'une série statistiquebiostat.pdf
étude d'une série statistiquebiostat.pdfétude d'une série statistiquebiostat.pdf
étude d'une série statistiquebiostat.pdfHimaWari26
 
Stat2 Statistiques Descriptives
Stat2  Statistiques DescriptivesStat2  Statistiques Descriptives
Stat2 Statistiques DescriptivesJean-Louis ESTRADE
 
Terminologies en statistique - Copy.docx
Terminologies en statistique  - Copy.docxTerminologies en statistique  - Copy.docx
Terminologies en statistique - Copy.docxsafaebelkyr
 
Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique
Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique
Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique Adad Med Chérif
 
Nsg 5592 module 1
Nsg 5592 module 1Nsg 5592 module 1
Nsg 5592 module 1aduboi4
 
7490_chap02.pdf
7490_chap02.pdf7490_chap02.pdf
7490_chap02.pdfSaidSousdi
 
L1 TD Numérique et Société
L1 TD Numérique et SociétéL1 TD Numérique et Société
L1 TD Numérique et SociétéAmar LAKEL, PhD
 
Stat4 Principes Des Tests Statistiques
Stat4  Principes Des Tests StatistiquesStat4  Principes Des Tests Statistiques
Stat4 Principes Des Tests StatistiquesJean-Louis ESTRADE
 
Methodologie Validite et Fiabilite
Methodologie Validite et FiabiliteMethodologie Validite et Fiabilite
Methodologie Validite et FiabiliteRémi Bachelet
 

Similaire à Intro (20)

Cou rs de methodologie
Cou rs de methodologieCou rs de methodologie
Cou rs de methodologie
 
étude d'une série statistiquebiostat.pdf
étude d'une série statistiquebiostat.pdfétude d'une série statistiquebiostat.pdf
étude d'une série statistiquebiostat.pdf
 
Stat2 Statistiques Descriptives
Stat2  Statistiques DescriptivesStat2  Statistiques Descriptives
Stat2 Statistiques Descriptives
 
Statistique descriptive ch1
Statistique descriptive ch1Statistique descriptive ch1
Statistique descriptive ch1
 
Terminologies en statistique - Copy.docx
Terminologies en statistique  - Copy.docxTerminologies en statistique  - Copy.docx
Terminologies en statistique - Copy.docx
 
Stat6 Chideux
Stat6   ChideuxStat6   Chideux
Stat6 Chideux
 
Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique
Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique
Test de wilcoxon mann-whitney (SPSS), Test non-paramétrique
 
Nsg 5592 module 1
Nsg 5592 module 1Nsg 5592 module 1
Nsg 5592 module 1
 
Chapitre Introductif
Chapitre IntroductifChapitre Introductif
Chapitre Introductif
 
Echantillonnage
EchantillonnageEchantillonnage
Echantillonnage
 
Stat8 Anova
Stat8  AnovaStat8  Anova
Stat8 Anova
 
décrire les données (1).pdf
décrire les données (1).pdfdécrire les données (1).pdf
décrire les données (1).pdf
 
7490_chap02.pdf
7490_chap02.pdf7490_chap02.pdf
7490_chap02.pdf
 
L1 TD Numérique et Société
L1 TD Numérique et SociétéL1 TD Numérique et Société
L1 TD Numérique et Société
 
Propensity score matching
Propensity score matchingPropensity score matching
Propensity score matching
 
Questionnaire sous spss
Questionnaire sous spssQuestionnaire sous spss
Questionnaire sous spss
 
0 p eintro_diapo
0 p eintro_diapo0 p eintro_diapo
0 p eintro_diapo
 
Stat4 Principes Des Tests Statistiques
Stat4  Principes Des Tests StatistiquesStat4  Principes Des Tests Statistiques
Stat4 Principes Des Tests Statistiques
 
Methodologie des enquete
Methodologie des enqueteMethodologie des enquete
Methodologie des enquete
 
Methodologie Validite et Fiabilite
Methodologie Validite et FiabiliteMethodologie Validite et Fiabilite
Methodologie Validite et Fiabilite
 

Intro

  • 1. Introduction à la Statistique: Professeur Ahmed Rebaï Centre de Biotechnologie de Sfax, Tunisie ahmed.rebai@cbs.rnrt.tn
  • 2. Brève histoire de la statistique  On retrouve trace de la statistique dans les recensements depuis 2200 avant JC  Les principes fondamentaux de la statistique ont été introduits dans le cadre de la recherche sur l’Homme (Biométrie) dans les années 1900-1940: par exemple la corrélation/régression, les plans d’expériences, l’analyse de la variance, les analyses factorielles
  • 6. L’analyse de données  L’analyse des données est un processus qui permet de transformer une masse de données en information structurée permettant la prise de décision.  Elle peut se faire de deux manières:  Descriptive ou on synthétise l’information  Inférentielle où l’on estime des modèles et on teste des hypothèse
  • 7. Pourquoi la statistique?  L’analyse statistique des données est une étape nécessaire pour tirer des conclusions scientifiquement valides  Le chercheur/doit savoir bien mener et interpréter des analyses des données pour mieux valoriser le travail et de connaitre au moins un logiciel (SPSS, SAS, Statistica) ou un langage de programmation (R, Matlab).
  • 8. Les concepts fondamentaux S’il n’y pas de variation, si toute observation est prédictible avec exactitude, il n’y aurait aucunement besoin de la statistique
  • 9. La Variation  Deux mesures ou observations d’un phénomène naturel ou une propriété ne sont jamais identiques  Même si tous les facteurs qu’il est possible de contrôler sont contrôlés il y a de la variabilité  La variabilité est inhérente aux phénomènes, et ne provient pas uniquement de l’instrument de mesure ou de l’observateur  La variation est la matière première de la statistique
  • 10. Population  On appelle population statistique tout ensemble de référence que l’on se propose d’étudier statistiquement: collection d’éléments ayant des caractéristiques communes  Les éléments d’une population sont appelés individus  En statistique on suppose que les populations sont de taille infinie.  La population d’intérêt doit être clairement définie avant de commencer la collecte des données
  • 11. L’échantillon  C’est tout sous-ensemble (approprié) de la population sur lequel porte l’analyse  L’échantillon est choisi selon certaines règles (au hasard, représentatif, de convenance..)  Représentatif: reflète fidèlement la composition de la population  Plus l’échantillon est grand mieux c’est  Souvent il y a des critères d’inclusion ou d’exclusion  Si l’échantillon = population on parle de recensement
  • 12. Echantillon aléatoire  Chaque élément de la population a une probabilité connue d’appartenir à l’échantillon.  Aléatoire simple, stratifiée, systématique..  EAS  Choix au hasard des individus (tirage aléatoire)  Choix indépendant des individus  Startifiée: on échantillonne des strates puis des individus dans les strates  Systématique: selon un pas donné.  Ex: Hopital: dans tous les services ou dans un seul service?
  • 13. Echantillon  Choisir un groupe d’individus qui vivent ensemble dans le même espace ou à la même période peut introduire un biais car ces individus sont exposés au même environnement physique et « social ».  Pour éviter les biais d’échantillonnage lister au préalable les facteurs qui peuvent influencer l’étude (sexe, mode de vie,..) et éventuellement stratifier la population
  • 14. Les choix  Choix du type d’étude  Choix de la population  Choix du schéma de l’étude  Choix des variables et des facteurs  Choix de la méthode d’échantillonnage  Choix du plan d’expérience  Choix du dispositif de mesure et de classification
  • 15. Types d’études  Selon la finalité: Descriptive/explicative  Selon l’approche: exploratoire/confirmative  Selon l’intervention: observation/expérience  Selon la période du temps: transversale, longitudinale (prospective/réstrospective)
  • 16.
  • 17.
  • 18.
  • 19. Les variables Une variable est une caractéristique qui peut prendre différentes valeurs pour différents ‘individus’  Le choix des variables est dicté par le problème posé.  Parfois il s’agit de savoir comment plusieurs variables sont liées entre elles ou comment une variable d’intérêt (dite variable dépendante) est affectée par une ou plusieurs variables que l’on peut contrôler.
  • 20. Deux grands types de variables  Variables Qualitatives  Catégories: de deux classes (binaire) ou plus (nominale) Ex: réponse: oui/non, traitement: prep1/prep2/prep3  Attention: on peut les représenter par des chiffres (0: absent, 1: présent) ; cela ne fait pas d’eux des variables numériques.  Variables Quantitatives  Continue: Prend des valeurs réelles Ex: taille, poids, concentration, ..  Discrète: Prend des valeurs entières Ex: nombre de cellules dans un tissu, de colonies, de souris par portée, etc.
  • 21.
  • 22. Comment s’assurer?  Est-ce que calculer une moyenne a un sens?
  • 23.
  • 24. Les hypothèses: le pourquoi du travail  Fixer vos objectifs et le but de votre étude avant de faire une expérience, un essai biologique ou une enquête et avant d’analyser des données existantes
  • 25. Comment préciser une hypothèse?  Si on veut arriver à une conclusion il faut préciser au moins deux hypothèses:  Un hypothèse nulle H0, souvent du type «pas de relation ou pas d‘effet du traitement»  Une hypothèse alternative H1 « il y a un effet » ou « il y a une relation »  Pour savoir laquelle accepter à partir d’un ensemble de données on calcule la probabilité d’obtenir les données qu’on a si l’on suppose que H1 vraie
  • 26.  Sig: P-value= Prob(rejeter H0/H0 vraie)  Definir un seuil pour cette probabilite pour decider  Seuil de alpha=5%: 0.05  Si p-value >= 0.05 je commet plu d’erreur en rejetant H0 que le seuil fixé donc je doit accepter H0  Si p-value<0.05 l’erreur que je commet en rejetant H0 est plus faible que le seuil donc je peux rejeter H0
  • 27.
  • 28. Carré de l’analyse statistique
  • 29. Analyse d’une variable quantitative  Calcul: moyenne, variance, écart-type, coefficient de variation  Graphiques:  Histogramme: symétrie  Boxplot: symétrie, observations extrêmes  Possible recodage en classe->qualitative  Calcul de proportion (fréquence)  Graphiques:  barplot, pie chart
  • 30.
  • 32. Analyse bivarié  Une variable quantitative mesurée sur deux ou plusieurs groupes « d’individus »; l’identifiant de groupe est une variable qualitative (facteur)  Donc en fait on étudie la relation entre une variable quantitative et une variable qualitative  Deux groupes: on compare 2 moyennes->test de Student : indépendants/appariés  3 groupes et plus : test anova de Fisher (global) puis post-hoc (2 à 2)  Si non normalité tests non parametriques (Mann- whitney 2 groupes, Kruskal-Wallis, >2 groupes)
  • 33.
  • 34. Analyse bivariée  Deux variables quantitatives:  Corrélation, coefficient de Pearson/Spearman  Graphique: diagramme de dispersion ; voir la nature de la relation (linéaire/non-linéaire)  Régression linéaire/non linéaire  Deux variables qualitatives:  Tableaux croisés (table de contingence); test chi- deux, coefficient de contingence  Test exact de Fisher (si effectifs faibles dans certaines cases) du tableau
  • 35.
  • 36.
  • 37.
  • 38. Analyses multivariées: modèles  Une variable quantitative, deux ou plusieurs qualitatives (facteurs):  Analyse de variance à 2 facteurs ou plus: croisés ou hierarchique  Une variable quantitative: deux ou plusieurs quantitatives:  Régression multiple linéaire ou non linéaire  Une variable qualitative en relation avec plusieurs variables qualitatives et/ou quantitatives  Régression logistique binaire ou multinomiale
  • 39. Analyses multivariés  Grand nombre de variables quantitatives:  on cherche à voir les variables qui vont ensemble et identifier de groupes d’observations (individus) : Analyse en Composantes Principales (ACP)  On cherche à identifier des groupes de variables et/ou les observations: classification hiérarchique, k-means  Classification non supersvisée
  • 40. Analyses multivariées  On a déjà des groupes prédéfinis et on cherche à identifier les variables qui discriminent le plus entre les groupes : classification supervisée: Analyse discriminante linéaire (ou quadratique)
  • 41.
  • 42. Règle universelle de décision p-value >0.05  pas de différence ou de relation  Moyennes ou proportions égales  Même distribution  Pas de corrélation entre variables  Pas d’association  Pas d’effet d’une variable sur une autre