2-  Statistiques descriptives d’une variable / Histogramme Kinésithérapie et Biostatistiques avec Excel ® Jean-Louis Estrade Enseignant IFMK Orléans La Source  Enkre
Ces diaporamas ne sauraient remplacer un cours de biostatistiques. Ils n’ont pour but que de permettre à des étudiants K1 de faire un premier abord objectif de l’évaluation de la posture et du mouvement, en application des connaissances biostatistiques théoriques acquises lors de l’année universitaire d’orientation. Des notions abordées dans l’un des chapitres sont parfois utiles à la compréhension des chapitres suivants. En conséquence, ils sont à consulter  dans l’ordre, avec le fichier Excel STAT.XLS joint qui reprend les illustrations du diaporama. Il faut avoir à leur lecture la seule attitude compatible avec l’esprit du domaine étudié, à savoir le fait que  nous ne pouvons pas rejeter l’hypothèse d’erreurs multiples, diverses et variées   dans ces diaporamas. Je suis à l’écoute de toutes vos remarques, annotations, critiques. N’hésitez pas à me les faire parvenir. Nécessaires préambules…
L’utilitaire d’analyse Excel ® Dans le menu « Outils » d’Excel, rechercher l’utilitaire d’analyse. Beaucoup de macros statistiques s’y trouvent, en sus des fonctions habituelles.  Il n’est pas nécessairement installé par défaut sur votre disque dur. Il peut être nécessaire d’installer la version complète.
2.1 Obtenir les statistiques descriptives d’une variable
Sous Excel Il est possible, à partir de l’outil « statistiques descriptives » du menu « utilitaires d’analyse » d’Excel, d’obtenir le descriptif des caractéristiques d’une variable.
Sous Excel Résultat
Notions expliquées L’erreur-type :   C’est le rapport de l’écart-type sur la racine carrée du nombre de sujets. Elle ne doit pas être confondue avec l’écart-type. La dénomination habituelle est l’ erreur-standard  (abréviation e.s. en français, s.e. en anglais). Cette erreur-standard est utilisée pour dessiner les barres d’erreurs des graphiques. Le kurstosis :   Appelé aussi coefficient d’aplatissement, il permet de comparer la distribution verticale de la variable avec une distribution normale. S’il est proche de 0, la distribution est normale, s’il est négatif, la distribution est en moyenne au dessus d’une distribution normale, s’il est positif, la distribution est en moyenne au dessous d’une distribution normale.
Notions expliquées Le coefficient d’asymétrie :   Il permet de comparer la distribution gauche / droite de la variable avec une distribution normale.  S’il est proche de 0, la distribution est normale.  S’il est négatif la distribution est asymétrique à droite ; la queue de la distribution est plus grande à gauche.  S’il est positif, la distribution est asymétrique à gauche ; la queue de la distribution est plus grande à droite (cas de notre histogramme)  La plage :   Étendue, appelée aussi amplitude.  La somme :   Somme des valeurs de la liste étudiée.
Notions expliquées Nombre d’échantillons :   De façon impropre, le nombre de sujets présents dans l’échantillon décrit est appelé par Excel ou son traducteur « nombre d’échantillons ». Niveau de confiance :   Demi-longueur de l’intervalle de confiance.  C’est une a pproximation de l’intervalle de confiance (notion abordée au cours suivant). La valeur est discutée par certains auteurs, donc à ne pas utiliser.
2.2 L’histogramme
Définition  Définition  Représentation graphique d’une variable C’est le mode de représentation d’une distribution de fréquences, pour une variable discrète ou continue.  Il est constitué d’un ensemble de rectangles adjacents construits dans un système de deux axes perpendiculaires dont l’un représente les fréquences et l’autre les classes.
Utilité  Utilité de l’histogramme Il permet, à travers les données de l’échantillon, de se faire une idée de la distribution de la variable quantitative étudiée et notamment d’évaluer : Le caractère symétrique ou asymétrique de la courbe L’homogénéité des variables étudiées par le nombre de pics de la courbe (modes).
Classes La notion de classes Les variables quantitatives doivent pouvoir être mises en classes.  Pour une variable donnée, l’ensemble des classes ou catégories définit une échelle de classification.  Les classes doivent être : Mutuellement exclusives  : un individu ne peut pas faire partie de deux classes à la fois Collectivement exhaustives  : tous les individus doivent pouvoir être classés Un élève ne peut pas faire à la fois 145 et 201 cm, une toise permet de tous les mesurer.
Principe Principe de l’histogramme Chaque classe est représentée par un rectangle dont  l’aire  (et non la hauteur +++) est proportionnelle à l’effectif ou à la fréquence relative de la classe. Remarque : Certains logiciels ou utilisateurs décrivent abusivement l’histogramme par sa hauteur, ce qui est théoriquement faux si les classes ne sont pas d’amplitudes égales.
Réalisation 1- Créer une colonne « classe », regroupant l’étendue complète des variables, incrémentée de cm en cm
Réalisation Cocher toutes les cases permettant de confectionner l’histogramme
Réalisation Résultat
Interprétation visuelle Les classes sont d’amplitude égale (1 cm ici). Intuitivement, il apparaît multimodal, donc d’une homogénéité relative. On a mesuré des individus de sexe différent et on sait que le facteur genre est un  facteur d’interaction  (pouvant agir) sur la taille de l’individu.  L’histogramme représente ainsi graphiquement l’ensemble des probabilités des différentes catégories de la variable. On dit encore la  distribution de la probabilité de la variable .
Fréquences relatives et absolues Pourquoi les fréquences sont représentées par des entiers ou par des nombres décimaux ? L’effectif d’une classe se nomme la  fréquence absolue  ( 6 élèves ont une taille de 168 cm ).  La proportion correspondant à cet effectif dans l’échantillon se nomme la  fréquence relative  (6/53 = 0.11 dans la classe des 168 m).  L’ensemble des classes avec leur effectif ou leur fréquence relative s’appelle la  distribution de fréquence .
Quelle classe choisir ? La détermination de la grandeur de la classe revêt une importance : l’allure du graphique aurait été différente avec des classes plus étendues, au détriment de la précision. Ici, classes de 1 cm vs classes de 10 cm N.B. Pour accoler les classes sous Excel, utiliser dans « format de la série de données » le menu « options » la valeur « 0 » dans la case « largeur de l’intervalle ».
Où est la cloche ? Obtenir une courbe en « cloche » Dans l’absolu, la variable est quantitative ET continue. À l’aide d’une toise d’extr ême  précision, la mesure d’une infinité de décimales après la virgule sur de très grands échantillons homogènes permettrait d’approcher une courbe de Laplace-Gauss.  Il aurait été alors difficile voire impossible de faire des classes : plus le nombre de classes est grand, plus chacune d’elle est étroite, plus l’histogramme se rapproche d’une courbe continue qui correspond mieux à la nature de la variable à laquelle on s’intéresse.  La courbe obtenue à la limite s’appelle la  densité de probabilité de la variable.
Bibliographie  Livres : Bouyer J. Méthodes statistiques.  Médecine – Biologie. Estem. Editions Inserm. 2004 Georgin JP.  Gouet M. Statistiques avec Excel. Presses Universitaires de Rennes. 2005 Huguier M. Flahault A. Biostatistiques au quotidien. Elsevier. 2003 Sites : Cours de Denis Poinsot, maître de conférence à la Faculté de Rennes :  http://perso.univ-rennes1.fr/denis.poinsot/Statistiques%20pour%20statophobes/ Biostatistique clinique - épidemiologie et essais cliniques de la Faculté de Médecine Necker-Enfants Malades (Dr Landais & Jais) :  http://www.educ.necker.fr/cours/poly/biostatistique/biostat.htm# Cours : Méthodologie de Base en Statistique et Epidémiologie. École d’été de santé publique et d’épidémiologie. Faculté de Médecine Paris-Sud, 63 rue Gabriel Péri, 94276 Le Kremlin Bicêtre.  http://u569.kb.inserm.fr/ecolete/index.htm Centre d’Enseignement de la Statistique Appliquée à la Médecine et à la Biologie Médicale (CESAM)  http://cesam.vjf.inserm.fr/ Articles : Estrade JL. Statistiques appliquées à la kinésithérapie : Les différentes variables. Kinésithérapie, la Revue, Volume 8, Issue 78, June 2008, Pages 48-52  Estrade JL. Statistiques appliquées à la kinésithérapie : Les indices de dispersions et la représentation graphique des variables. Kinésithérapie, la Revue, Volume 8, Issues 80-81, September 2008, Pages 63-67  Estrade JL. Statistiques appliquées à la kinésithérapie : Intervalles de confiance avec Excel® Kinésithérapie, la Revue, Volume 9, Issue 89, May 2009, Pages 29-35

Stat2 Statistiques Descriptives

  • 1.
    2- Statistiquesdescriptives d’une variable / Histogramme Kinésithérapie et Biostatistiques avec Excel ® Jean-Louis Estrade Enseignant IFMK Orléans La Source Enkre
  • 2.
    Ces diaporamas nesauraient remplacer un cours de biostatistiques. Ils n’ont pour but que de permettre à des étudiants K1 de faire un premier abord objectif de l’évaluation de la posture et du mouvement, en application des connaissances biostatistiques théoriques acquises lors de l’année universitaire d’orientation. Des notions abordées dans l’un des chapitres sont parfois utiles à la compréhension des chapitres suivants. En conséquence, ils sont à consulter dans l’ordre, avec le fichier Excel STAT.XLS joint qui reprend les illustrations du diaporama. Il faut avoir à leur lecture la seule attitude compatible avec l’esprit du domaine étudié, à savoir le fait que nous ne pouvons pas rejeter l’hypothèse d’erreurs multiples, diverses et variées dans ces diaporamas. Je suis à l’écoute de toutes vos remarques, annotations, critiques. N’hésitez pas à me les faire parvenir. Nécessaires préambules…
  • 3.
    L’utilitaire d’analyse Excel® Dans le menu « Outils » d’Excel, rechercher l’utilitaire d’analyse. Beaucoup de macros statistiques s’y trouvent, en sus des fonctions habituelles. Il n’est pas nécessairement installé par défaut sur votre disque dur. Il peut être nécessaire d’installer la version complète.
  • 4.
    2.1 Obtenir lesstatistiques descriptives d’une variable
  • 5.
    Sous Excel Ilest possible, à partir de l’outil « statistiques descriptives » du menu « utilitaires d’analyse » d’Excel, d’obtenir le descriptif des caractéristiques d’une variable.
  • 6.
  • 7.
    Notions expliquées L’erreur-type : C’est le rapport de l’écart-type sur la racine carrée du nombre de sujets. Elle ne doit pas être confondue avec l’écart-type. La dénomination habituelle est l’ erreur-standard (abréviation e.s. en français, s.e. en anglais). Cette erreur-standard est utilisée pour dessiner les barres d’erreurs des graphiques. Le kurstosis : Appelé aussi coefficient d’aplatissement, il permet de comparer la distribution verticale de la variable avec une distribution normale. S’il est proche de 0, la distribution est normale, s’il est négatif, la distribution est en moyenne au dessus d’une distribution normale, s’il est positif, la distribution est en moyenne au dessous d’une distribution normale.
  • 8.
    Notions expliquées Lecoefficient d’asymétrie : Il permet de comparer la distribution gauche / droite de la variable avec une distribution normale. S’il est proche de 0, la distribution est normale. S’il est négatif la distribution est asymétrique à droite ; la queue de la distribution est plus grande à gauche. S’il est positif, la distribution est asymétrique à gauche ; la queue de la distribution est plus grande à droite (cas de notre histogramme) La plage : Étendue, appelée aussi amplitude. La somme : Somme des valeurs de la liste étudiée.
  • 9.
    Notions expliquées Nombred’échantillons : De façon impropre, le nombre de sujets présents dans l’échantillon décrit est appelé par Excel ou son traducteur « nombre d’échantillons ». Niveau de confiance : Demi-longueur de l’intervalle de confiance. C’est une a pproximation de l’intervalle de confiance (notion abordée au cours suivant). La valeur est discutée par certains auteurs, donc à ne pas utiliser.
  • 10.
  • 11.
    Définition Définition Représentation graphique d’une variable C’est le mode de représentation d’une distribution de fréquences, pour une variable discrète ou continue. Il est constitué d’un ensemble de rectangles adjacents construits dans un système de deux axes perpendiculaires dont l’un représente les fréquences et l’autre les classes.
  • 12.
    Utilité Utilitéde l’histogramme Il permet, à travers les données de l’échantillon, de se faire une idée de la distribution de la variable quantitative étudiée et notamment d’évaluer : Le caractère symétrique ou asymétrique de la courbe L’homogénéité des variables étudiées par le nombre de pics de la courbe (modes).
  • 13.
    Classes La notionde classes Les variables quantitatives doivent pouvoir être mises en classes. Pour une variable donnée, l’ensemble des classes ou catégories définit une échelle de classification. Les classes doivent être : Mutuellement exclusives  : un individu ne peut pas faire partie de deux classes à la fois Collectivement exhaustives  : tous les individus doivent pouvoir être classés Un élève ne peut pas faire à la fois 145 et 201 cm, une toise permet de tous les mesurer.
  • 14.
    Principe Principe del’histogramme Chaque classe est représentée par un rectangle dont l’aire (et non la hauteur +++) est proportionnelle à l’effectif ou à la fréquence relative de la classe. Remarque : Certains logiciels ou utilisateurs décrivent abusivement l’histogramme par sa hauteur, ce qui est théoriquement faux si les classes ne sont pas d’amplitudes égales.
  • 15.
    Réalisation 1- Créerune colonne « classe », regroupant l’étendue complète des variables, incrémentée de cm en cm
  • 16.
    Réalisation Cocher toutesles cases permettant de confectionner l’histogramme
  • 17.
  • 18.
    Interprétation visuelle Lesclasses sont d’amplitude égale (1 cm ici). Intuitivement, il apparaît multimodal, donc d’une homogénéité relative. On a mesuré des individus de sexe différent et on sait que le facteur genre est un facteur d’interaction (pouvant agir) sur la taille de l’individu. L’histogramme représente ainsi graphiquement l’ensemble des probabilités des différentes catégories de la variable. On dit encore la distribution de la probabilité de la variable .
  • 19.
    Fréquences relatives etabsolues Pourquoi les fréquences sont représentées par des entiers ou par des nombres décimaux ? L’effectif d’une classe se nomme la fréquence absolue ( 6 élèves ont une taille de 168 cm ). La proportion correspondant à cet effectif dans l’échantillon se nomme la fréquence relative (6/53 = 0.11 dans la classe des 168 m). L’ensemble des classes avec leur effectif ou leur fréquence relative s’appelle la distribution de fréquence .
  • 20.
    Quelle classe choisir? La détermination de la grandeur de la classe revêt une importance : l’allure du graphique aurait été différente avec des classes plus étendues, au détriment de la précision. Ici, classes de 1 cm vs classes de 10 cm N.B. Pour accoler les classes sous Excel, utiliser dans « format de la série de données » le menu « options » la valeur « 0 » dans la case « largeur de l’intervalle ».
  • 21.
    Où est lacloche ? Obtenir une courbe en « cloche » Dans l’absolu, la variable est quantitative ET continue. À l’aide d’une toise d’extr ême précision, la mesure d’une infinité de décimales après la virgule sur de très grands échantillons homogènes permettrait d’approcher une courbe de Laplace-Gauss. Il aurait été alors difficile voire impossible de faire des classes : plus le nombre de classes est grand, plus chacune d’elle est étroite, plus l’histogramme se rapproche d’une courbe continue qui correspond mieux à la nature de la variable à laquelle on s’intéresse. La courbe obtenue à la limite s’appelle la densité de probabilité de la variable.
  • 22.
    Bibliographie Livres: Bouyer J. Méthodes statistiques. Médecine – Biologie. Estem. Editions Inserm. 2004 Georgin JP. Gouet M. Statistiques avec Excel. Presses Universitaires de Rennes. 2005 Huguier M. Flahault A. Biostatistiques au quotidien. Elsevier. 2003 Sites : Cours de Denis Poinsot, maître de conférence à la Faculté de Rennes : http://perso.univ-rennes1.fr/denis.poinsot/Statistiques%20pour%20statophobes/ Biostatistique clinique - épidemiologie et essais cliniques de la Faculté de Médecine Necker-Enfants Malades (Dr Landais & Jais) : http://www.educ.necker.fr/cours/poly/biostatistique/biostat.htm# Cours : Méthodologie de Base en Statistique et Epidémiologie. École d’été de santé publique et d’épidémiologie. Faculté de Médecine Paris-Sud, 63 rue Gabriel Péri, 94276 Le Kremlin Bicêtre. http://u569.kb.inserm.fr/ecolete/index.htm Centre d’Enseignement de la Statistique Appliquée à la Médecine et à la Biologie Médicale (CESAM) http://cesam.vjf.inserm.fr/ Articles : Estrade JL. Statistiques appliquées à la kinésithérapie : Les différentes variables. Kinésithérapie, la Revue, Volume 8, Issue 78, June 2008, Pages 48-52 Estrade JL. Statistiques appliquées à la kinésithérapie : Les indices de dispersions et la représentation graphique des variables. Kinésithérapie, la Revue, Volume 8, Issues 80-81, September 2008, Pages 63-67 Estrade JL. Statistiques appliquées à la kinésithérapie : Intervalles de confiance avec Excel® Kinésithérapie, la Revue, Volume 9, Issue 89, May 2009, Pages 29-35