SlideShare une entreprise Scribd logo
1  sur  30
Télécharger pour lire hors ligne
See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/339875302
Calcul des moyennes en statistique descriptive : des erreurs sont commises
Preprint · March 2020
DOI: 10.13140/RG.2.2.22049.56161/2
CITATIONS
0
READS
6,398
1 author:
Some of the authors of this publication are also working on these related projects:
Amélioration de l’accès à l'eau potable, à l’assainissement et aux pratiques d’hygiène en milieu rural View project
Plans Fonciers Ruraux View project
Sylvain Kpenavoun Chogou
University of Abomey-Calavi
65 PUBLICATIONS   105 CITATIONS   
SEE PROFILE
All content following this page was uploaded by Sylvain Kpenavoun Chogou on 20 February 2021.
The user has requested enhancement of the downloaded file.
-
EESAC/FSA/UAC; BP 1471 Abomey-Calavi, Bénin
Email: leppadesac@yahoo.fr
REPUBLIQUE DU BENIN
¤¤¤¤
UNIVERSITE D’ABOMEY-CALAVI
¤¤¤¤¤
FACULTE DES SCIENCES AGRONOMIQUES
¤¤¤¤¤¤
ECOLE D’ECONOMIE, DE SOCIO- ANTHROPOLOGIE ET DE
COMMUNICATION POUR LE DEVELOPPEMENT RURAL
Laboratoire d’Etudes sur la Pauvreté et la Performance de l’Agriculture
Working Paper N°01/2020/UAC/FSA/EESAC/LEPPA
Calcul des moyennes en statistique descriptive : des erreurs sont commises
KPENAVOUN CHOGOU Sylvain, PhD
Agro-économiste, Maître de Conférences
Laboratoire d’Etude de la Pauvreté et de la Performance de l’Agriculture (LEPPA)
Faculté des Sciences Agronomiques
Université d'Abomey-Calavi (Bénin)
Email : kpenavoun@yahoo.fr
.
1
Résumé
Le calcul de la moyenne d’une variable quantitative requiert une attention particulière du fait
de la variété des types de moyenne existants. La plupart des documents de statistique
descriptive insistent plus sur la moyenne arithmétique, donnant ainsi peu d'attention aux
autres types de moyennes. En conséquence, la moyenne qui semble assez familière peut être
mal calculée ou mal interprétée dans certaines situations. Le présent document aborde les
différents types de moyenne tout en mettant en lumière les pièges souvent méconnus des
utilisateurs. Il propose également une définition opérationnelle de la moyenne et sa mise en
application avec des exemples pratiques. Avec cette définition, les utilisateurs pourront
calculer la moyenne de toute variable quantitative sans connaître préalablement le type de
moyenne adéquat. Ils pourront désormais faire attention au concept de la moyenne d’une
variable quantitative et minimiseront les erreurs dans son calcul.
Mots clés : Moyenne, définition opérationnelle, statistique descriptive, erreur.
Abstract
Mean values are mistakenly calculated: some guidelines to avoid pitfalls
Calculating the mean of a quantitative variable requires special attention due to the variety of
of types of averages that exist. Most descriptive statistical documents place more emphasis on
the arithmetic mean, thus giving little attention to other types of means. As a result, the mean
that seems fairly simple and familiar may be miscalculated or misinterpreted in some
situations.
This paper addresses the different types of means while highlighting the often unrecognized
pitfalls of users. It also proposes an operational definition of the mean and its application with
practical examples. This definition will allow users to calculate the mean of any quantitative
variable without necessarily knowing its nature. Users will now be able to pay more attention
to the concept of the mean of a quantitative variable and avoid mistake while calculating it.
Keywords : Mean, operational definition, descriptive statistics; error.
2
1. Introduction
Cette note s'intéresse à une méthodologie d'estimation des moyennes de variables
quantitatives sans erreur de calcul. Il ne s'agit pas de l'estimation d'une moyenne de la
population sans une marge d'erreur d'échantillonnage ; cela n'est pas possible mais il s'agit ici
d'éviter des erreurs liées à la démarche d'estimation de la moyenne elle-même
indépendamment des erreurs d'échantillonnage. Le document est donc orienté vers le choix
approprié du type de moyenne à appliquer à une série de données statistiques provenant d'une
population de faible taille ou d'un échantillon aléatoire.
L'objectif de la statistique descriptive est de résumer et synthétiser l'information contenue
dans les données étudiées afin d'en déduire un certain nombre de propriétés (Hurlin et
Mignon, 2015). A cet effet, la moyenne est le paramètre statistique le plus utilisé aussi bien
par les statisticiens que par les non spécialistes dans une première étape de caractérisation
d'un ensemble de données. La moyenne arithmétique semble assez simple et familière de sorte
qu’elle est souvent abusivement choisie, mal utilisée ; ce qui engendre des erreurs
d’interprétations et de prises de mauvaises décisions.
Lorsqu’on parle de moyenne, la plupart des utilisateurs pensent immédiatement à la moyenne
arithmétique simple même s'ils savent qu'il existe plusieurs types de moyennes (Spiegel et
Stephens, 2008 ; Goos et Meintrup, 2015).
Dans beaucoup de livres et documents scientifiques, les auteurs, par soucis de rigueur
mathématique, préfèrent se passer de la définition littérale de la moyenne pour donner les
fondements théoriques aboutissant aux formules de ces moyennes et de tels documents
deviennent ainsi peu exploitables par les utilisateurs. Ces auteurs n'ont pas tord parce que
lorsqu'on quitte le formalisme mathématique pour rentrer dans un processus de vulgarisation
des notions statistiques, on devient forcément moins rigoureux.
Ainsi, dans le livre de Leboucher et Voisin (2011) intitulé "Introduction à la statistique
descriptive : cours et exercices avec tableur", le livre "Statistique descriptive : séries
statistiques à une ou deux variables, séries chronologiques, indices" de Mazerolle (2006), ou
le livre "Statistique et probabilité en économie-gestion" de Hurlin et Mignon (2015), le
concept de moyenne a été utilisé sans une définition préalable. Ils ont seulement exposé dans
ces documents les formules de calcul des différents types de moyennes en commençant par
celui de la moyenne arithmétique.
Toutefois, certains auteurs ont tenté de donner une définition littérale de la moyenne dans une
démarche pédagogique. Selon l'INSEE (2016), " La moyenne est l'indicateur le plus simple
pour résumer l'information fournie par un ensemble de données statistiques : elle est égale à
la somme de ces données divisée par leur nombre. Elle peut donc être calculée en ne
connaissant que ces deux éléments, sans connaître toute la distribution ".
La moyenne est " Une grandeur de tendance centrale calculée. La moyenne arithmétique
(notée ) est de loin la caractéristique de tendance centrale la plus usitée, celle dont on use et
abuse sans toujours bien la comprendre. La moyenne arithmétique d’une variable statistique
est la somme, pondérée par les fréquences, des valeurs " (Bailly et Carrère, 2015 : p. 81). De
même, Calot (1965) a défini la moyenne d'une variable statistique comme étant la somme
pondérée des valeurs possibles par les fréquences.
Bernstein et Bernstein (1999 : p. 139) sont restés dans la généralité en ce qui concerne la
moyenne : "The average value in a data set is the most typical, frequent, or representative
measurement in the set. Because of the usual concentration of measurements in the center of a
3
distribution, the various measures of central tendency are generally also called measures of
average value (or averages)".
Spiegel et Stephens (2008 : p. 62), en revanche, sont relativement plus précis : "an average is
a value that is typical, or representative, of a set of data. Since such typical values tend to lie
centrally within a set of data arranged according to magnitude, averages are also called
measures of central tendency. Several types of averages can be defined, the most common
being the arithmetic mean, the median, the mode, the geometric mean, and the harmonic
mean. Each has advantages and disadvantages, depending on the data and the intended
purpose".
Dans le dictionnaire en ligne, mis à jour le 3 mai 2018 Techopedia (2018), la définition de la
moyenne est la suivante : "The statistical mean refers to the mean or average that is used to
derive the central tendency of the data in question. It is determined by adding all the data
points in a population and then dividing the total by the number of points. The resulting
number is known as the mean or the average".
Les propositions des auteurs cités ci-dessus ne sont pas de nature à aider le lecteur à
déterminer le type de moyenne en fonction des observations faites sur la variable analysée. En
regardant de plus près les écrits des auteurs comme Gissane (1998 : p. 270), "The mean is
calculated by adding together each of the scores, and then dividing them by the total number
of observations" et Goos et Meintrup (2015: p. 55), "Location statistics are values that best
describe the central tendency of data. The most commonly used statistics are the arithmetic
mean, the median, and the mode. Sometimes, the geometric mean makes more sense than the
arithmetic mean", il en découle que la plupart des auteurs abordent la notion de la moyenne
d'une variable quantitative par la définition de la moyenne arithmétique simple. Par ailleurs, la
définition de la moyenne arithmétique fournie n'est que sa formule de calcul.
Dans certains polycopiés de cours de statistique descriptive, la moyenne est définie comme un
paramètre statistique qui donne une position centrale d'un caractère ou d'une variable dans une
population ; elle est calculée en utilisant toutes les valeurs observées du caractère et prend
différentes expressions suivant la nature du caractère considéré. Cette définition demeure très
générale et n'est pas opérationnelle, car ne permettant pas d'identifier le type de moyenne à
déterminer devant une série de données statistiques. La définition de Dagnelie (1973) est aussi
générale. Selon cet auteur, les moyennes sont des paramètres de position, aussi appelées
valeurs centrales, qui servent à caractériser l'ordre de grandeur des observations.
Ces définitions ne facilitent pas la tâche aux apprenants et à certains utilisateurs dans le
processus de calcul de la moyenne. Au démarrage des cours que nous dispensons depuis
plusieurs années sur la conception et la gestion des bases de données aux étudiants de Master
en sciences agronomiques et en biostatistique, une révision sur quelques notions de base de la
statistique descriptive est toujours réalisée. En effet, sans ce pré-requis, aucune base de
données ne serait judicieusement construite. Il est toujours demandé aux étudiants de donner
la définition de la moyenne d’une variable quantitative. Pour toutes les promotions encadrées
jusque-là, les apprenants ne donnent que la définition de la moyenne arithmétique simple.
C'est ainsi qu'une enquête faite auprès de certains diplômés en Statistique de l’Ecole
Nationale d’Economie Appliquée et de Management ou de la Faculté des Sciences
Economiques et de Gestion a abouti au même constat : les étudiants ne connaissent que le
mode de calcul de la moyenne arithmétique simple. Des entretiens informels avec des
collègues ont aussi montré que le mal est profond.
En conséquence, lorsqu’on demande aux apprenants de déterminer la moyenne de la variable
rendement du soja du tableau 1, les plus éclairés estiment qu’il suffit de faire le rapport de la
somme des rendements sur les dix (10) ans bien qu'ils aient reçu toutes les formes de calcul
4
des moyennes au cours de leur formation universitaire. Cette proposition des étudiants,
évidemment, aboutit à une estimation très imprécise de la moyenne. La méthode appropriée
du calcul de rendement moyen est présentée plus tard dans le document.
Dans des documents officiels, des moyennes sont aussi mal calculées. Le tableau 2 à la page 6
du Plan Stratégique de Développement du Secteur Agricole (PSDSA), publié par le Ministère
de l'Agriculture, de l'Elevage et de la Pêche (MAEP) de la République du Bénin en mai 2017,
présente des moyennes erronées des rendements des différentes cultures. En effet, les
moyennes des rendements calculées sont des moyennes arithmétiques simples. Ces valeurs
moyennes seraient précises si les superficies emblavées par an pour chacune de ces cultures
ne variaient pas d'une année à une autre. Ce qui ne serait pas plausible dans le cas du Bénin.
Tableau 1 : Production et superficie de soja au Bénin entre 2002 et 2011
Année Production (tonne) Superficie (ha) Rendement (kg/ha)
2002 3678 5499 668,8
2003 5556 6940 800,6
2004 5536 10173 544,2
2005 14687 18990 773,4
2006 10323 15021 687,2
2007 12433 17195 723,1
2008 31110 37042 839,9
2009 55259 58225 949,1
2010 62987 70934 888,0
2011 67154 74650 899,6
Source : MAEP (2017)
Avec les données statistiques disponibles, les superficies de chacune de ces cultures ont varié
d'une année à une autre. Il sera présenté plus tard dans le document, les moyennes des
rendements des différentes cultures calculées avec la méthode appropriée.
Tableau 2 : Rendements de certaines spéculations produites au Bénin (en kg/ha)
Spéculations Référence 2008 2011 2012 2013 2014 2015 Moyenne
Maïs 1088 1422 1251 1383 1399 1281 1347
Riz 3128 3924 3333 3032 3139 3129 3311
Sorgho 991 1191 1010 1046 988 986 1044
Igname 14484 16982 13669 15073 15046 13082 14770
Manioc 12602 17377 13303 13221 13709 12043 13931
Tomate 5386 5821 6446 8326 8779 7786 7432
Piment 2014 1954 2783 2651 2706 2928 2604
Palmier à huile 8512 ND 10700 5950 ND ND 5129
Anacarde ND ND ND ND 325 ND 325
Coton 1046 961 716 886 970 ND 883
Ananas 56193 79555 57361 53413 57459 47459 59049
Source : MAEP (2017).
Dans de nombreux articles scientifiques, des moyennes arithmétiques simples sont calculées
alors que l'échantillon utilisé n'est pas auto-pondéré ou que certains articles n'apportent
aucune information pour éclairer le lecteur sur le caractère auto-pondéré ou non de
l'échantillon réalisé. Les auteurs de ces articles se limitent souvent à l'annonce du caractère
aléatoire de l'échantillon utilisé dans le cadre de leur étude. Un échantillon est dit auto-
pondéré lorsque chaque individu de la population étudiée a la même chance ou la même
probabilité de faire partie de cet échantillon. En pratique, dans le cas des enquêtes sur des
échantillons de grande taille auprès des ménages, il est rare que l'échantillon soit auto-
pondéré.
5
Il est donc clair que des erreurs sont commises dans le calcul de la moyenne des variables
quantitatives avec la fâcheuse tendance des utilisateurs à se précipiter et à utiliser
systématiquement la moyenne arithmétique simple ; ce qui conduit à de graves erreurs de
prises de décisions.
Lorsqu'on présente, les données du tableau 3 à un professionnel, comment peut-il savoir que
la moyenne du taux de change sur l'ensemble des cinq versements n'est pas une moyenne
arithmétique simple ou une moyenne arithmétique pondérée définie de façon classique en
statistique ou une moyenne géométrique mais plutôt une moyenne harmonique ? La
démonstration sera faite dans le document par la suite.
Avec la même variable « taux de change » présentée dans le tableau 4, les apprenants
proposent souvent une moyenne géométrique. Or, il s’agit bien d’une moyenne arithmétique
pondérée par le montant en francs Suisse.
Tableau 3 : Taux de change des différents versements réalisés par Coopération Suisse à
un laboratoire
Versement Montant (en FCFA) Taux de change (1 Franc Suisse en FCFA)
1 5.000.000 590,6
2 5.000.000 550,3
3 5.000.000 554,5
4 5.000.000 565,2
5 5.000.000 593,4
Source : Données propres de l'auteur
Il faut bien noter que les deux tableaux 3 et 4 n'ont pas de lien; les deux laboratoires et ne
se connaissent pas. Donc, pour la même variable, deux types différents de moyennes sont
calculés. Comment déterminer alors avec une meilleure précision le type de moyenne à
calculer en face des observations faites sur une variable quantitative ?
Tableau 4 : Montants reçus des différents versements réalisés par la Coopération Suisse
à un laboratoire
Versement Montant (en Francs Suisse) Taux de change (1 Franc Suisse en FCFA)
1 7.992 590,6
2 3.242 550,3
3 3.246 554,5
4 4.429 565,2
5 2.237 593,4
Source : Données propres de l'auteur
L'absence de précision dans la définition de la moyenne statistique et donc du calcul et de
l'interprétation des moyennes n'induit-elle pas les chercheurs et praticiens de terrain à prendre
des décisions erronées ?
Comment identifier sans se tromper le type de moyenne à calculer quand on sait qu'on a les
moyennes harmoniques, arithmétiques, géométriques, etc ? Cette question a déjà été la
préoccupation de plusieurs auteurs. C'est le cas de Rao et al. (2014) qui ont fait le constat
selon lequel bien que la moyenne harmonique soit mentionnée dans les livres académiques
avec la moyenne arithmétique et la moyenne géométrique comme trois façons possibles de
résumer l’information dans un ensemble d’observations, sa pertinence dans certaines
applications statistiques n’est pas mentionnée dans ces documents. De même, de Carvalho
(2016) s'est préoccupé de cette question dans son article "Mean, What do You Mean?". Mais,
6
tous ces auteurs n'ont pas proposé une définition opérationnelle de la moyenne afin de faciliter
sa compréhension par la majorité et de réduire des erreurs de son calcul. Ils ont préféré garder
la rigueur mathématique avec une définition théorique de la moyenne.
Ce document a été écrit pour répondre à ces questions et pour aider les utilisateurs à mieux
comprendre le concept de la moyenne d’une variable quantitative avec une définition
opérationnelle et des exemples pratiques. La définition proposée permettra aux utilisateurs de
calculer la moyenne de toute variable quantitative sans connaître a priori le type de moyenne
approprié. Il permettra à beaucoup de chercheurs et praticiens de terrain de commettre moins
d'erreurs dans le calcul des moyennes des données statistiques qu'ils collectent et analysent.
L’un des objectifs de la statistique descriptive est d’estimer des moyennes non biaisées et plus
précises. Ce document se limite principalement à ce rôle et abordera brièvement l’impact des
erreurs de calcul de la moyenne sur les prises de décisions scientifiques et politiques.
L’analyse des données étant purement documentaire, après la précision sur la méthode de
collecte des données et le rappel de la définition de quelques concepts importants, la
définition opérationnelle de la moyenne sera fournie et mise en œuvre avec quelques
exemples pratiques. Une discussion permettra de relever les points d'ombre et le relâchement
de certaines règles. Enfin, la conclusion permettra de tirer les leçons apprises.
2. Méthodologie
2.1.Méthodesdecollectedesdonnées
Les données exploitées dans ce document proviennent de deux sources : les livres ou articles
sur la statistique descriptive écrits en français ou en anglais et une enquête auprès des
diplômés de niveau master ou doctorat.
Plusieurs livres sur la statistique descriptive a été consultée afin de voir comment y est traitée
la notion de la moyenne. On ne peut pas affirmer que ces livres sont représentatifs de
l’ensemble des documents écrits sur la statistique descriptive mais ce nombre est suffisant
pour comprendre la notion de la moyenne parce qu’ils sont écrits exclusivement sur la
statistique descriptive.
Ensuite 700 diplômés ont été sélectionnés par un tirage aléatoire stratifié parmi les diplômés
de l'UAC de 2018 et 2019 de niveau master ou doctorat qui avaient bien suivi des cours de
statistique descriptive dans leurs cursus universitaires. Il est évident que ce nombre n’est pas
représentatif de tous les diplômés de l’UAC ayant suivi des cours de statistique descriptive
dans leurs cursus universitaires. Toutefois, ce nombre a été suffisant pour montrer l'ampleur
du problème relatif au calcul de la moyenne d’une variable quantitative.
Ces diplômés ont été invités à résoudre l'exercice dont le contenu est présenté ci-dessous.
Un laboratoire de recherche de l’Université d’Abomey-Calavi de la République du Bénin a
rédigé un projet financé en partie par la Coopération Suisse. Dans la gestion de ce projet, ce
laboratoire a reçu cinq (5) versements égaux en Francs CFA provenant de la Coopération
Suisse en Franc Suisse (CHF) aux taux de change présentés dans le tableau 3.
Questions
1. Comment peut-on définir la moyenne du taux de change pour l'ensemble des cinq (5)
versements ?
2. Quel est le taux de change moyen pour l'ensemble des cinq (5) versements ?
3. Quel est le type moyenne à considérer ?
7
2.2.Définitionsdequelquesconceptsnécessairesaucalculdelamoyenne
2.2.1. Population
En statistique, le terme population vient du fait que la démographie, étude des populations
humaines, a occupé une place centrale aux débuts de la statistique ; notamment au travers des
recensements de population (Leboucher et Voisin, 2011). Ainsi, selon Hurlin et Mignon
(2015), "une population est un ensemble, fini ou non, d'éléments que l'on souhaite étudier.
Ces éléments portent le nom d'individus ou d'unités statistiques. Il peut s'agir par exemple
d'êtres humains (adultes, enfants, chômeurs, salariés, etc.), d'animaux, de végétaux ou encore
d'objets (entreprises, voitures, ordinateurs, etc.)".
On utilise parfois le terme univers surtout en probabilité statistique pour désigner la
population étudiée. Une même population peut être décomposée selon la nature des différents
types d'unités élémentaires (par exemple en ménages et en individus au sens courant du
terme). On peut aussi être amené à considérer une décomposition de l'univers en unités à
plusieurs degrés, chaque unité d'un degré donné étant elle-même composée d'unités du degré
suivant. Par exemple, du point de vue démographique, une zone rurale peut être décomposée
en villages, unités du premier degré (unités primaires) composées de ménages, unités du
second degré (unités secondaires), elles-mêmes composées d'individus, unités du troisième
degré (unités tertiaires).
Lorsque les données doivent provenir d'une enquête faite sur les ménages, on distingue trois
types d'unités d'enquête qu'il faut identifier correctement afin d'éviter des problèmes durant
les stades de la sélection, de la collecte des données et de l'analyse des données :
- l'unité d'échantillonnage ou unité statistique, qui fait partie de la base de sondage et
qui peut donc être sélectionnée ;
- l'unité déclarante, qui fournit l'information qu'exige l'enquête ;
- l'unité de référence ou l'unité d'analyse – c'est-à-dire l'unité au sujet de laquelle
l'information est fournie – qui sert à analyser les résultats de l'enquête.
Par exemple, dans le cadre d'une enquête sur l’impact de la consommation d’eau potable sur
les enfants de moins de 5 ans :
- l'unité d'échantillonnage pourrait être un ménage ;
- l'unité déclarante, l'un des parents ou le tuteur légal ;
- et l'unité d’analyse, les enfants de moins de 5 ans.
L'univers étudié doit être défini de manière précise, que ce soit du point de vue des unités
élémentaires le composant ou du point de vue de ses limites.
2.2.2. Base de sondage
Une fois que la population a été clairement définie, il faut constituer la base de sondage. La
base de sondage est la liste complète et à jour des unités de la population sans omission ni
double-comptage, et telle que l'identification de chaque unité se fasse sans ambiguïté.
Autrement dit, la base de sondage est la liste numérotée (de 1 à N) des N individus d'une
population, dans laquelle on veut par sondage extraire un échantillon. Il est intéressant de
disposer, dans la base de sondage, d'informations concernant les unités statistiques (en plus,
bien sûr, de leur localisation) utilisables pour le sondage. Ces renseignements sont appelés
variables auxiliaires qui peuvent être utilisées, soit pour améliorer la technique de tirage, soit
pour calculer une estimation plus efficace. Sans une base de sondage fiable, il serait difficile
de constituer un échantillon aléatoire et représentatif (Nations Unies, 2010).
8
2.2.3. Echantillon
On appelle échantillon, un sous-ensemble de la population considérée qui doit posséder les
mêmes caractéristiques statistiques que la population dont il est issu (Hurlin et Mignon,
2015). C'est à partir des résultats observés sur l'échantillon qu'on va "extrapoler" pour
produire des estimations sur l'univers étudié. L’échantillon doit donc être aussi représentatif
que possible de la population.
L'échantillon est obtenu à la fin d'un processus d'échantillonnage. Selon D’Hainaut (1975),
"l’échantillonnage est l’opération qui consiste à prélever un certain nombre d’éléments
(c’est-à-dire un échantillon) dans l’ensemble des éléments qu’on veut observer ou traiter
(population ou univers)". La nécessité de tels échantillons tient au fait que la taille de l'univers
à décrire est souvent trop grande pour être intégralement observée. L'échantillonnage permet
aux statisticiens de tirer des conclusions au sujet d'un tout en y examinant une partie. Le
principe étant qu'une cuillerée suffit pour goûter à toute la soupe. Un échantillon est ainsi un
sous-ensemble de la population considérée qui doit posséder les mêmes caractéristiques
statistiques que la population dont il est issu.
Il existe deux types de méthodes d'échantillonnage : l'échantillonnage probabiliste ou
échantillonnage aléatoire et l'échantillonnage non probabiliste ou échantillonnage non
aléatoire. Seul l'échantillonnage probabiliste conduit à un échantillon aléatoire. Un échantillon
est dit aléatoire lorsque chaque unité statistique a une chance ou une probabilité non nulle
d'être sélectionnée et cette chance peut être quantifiée (donc connue). Il importe de noter que
la chance que chaque individu a d’être sélectionné ne doit pas nécessairement être égale mais
peut varier selon les objectifs de l’enquête (Nations Unies, 2010). En fait, dans les enquêtes
les plus complexes, la probabilité d’inclusion varie d’une unité à l’autre. Lorsque la
probabilité d'inclusion est la même d'une unité à une autre, l'échantillon est dit aléatoire
simple ou aléatoire systématique.
L’échantillonnage probabiliste, dans le contexte des enquêtes sur les ménages, désigne les
moyens utilisés pour sélectionner les unités d'enquête de la population cible - unités
géographiques, ménages et personnes - qui seront inclus dans l’enquête. Pour cela, il faut : a)
que chaque élément ait une chance mathématique connue d’être sélectionné ; b) que cette
chance soit supérieure à zéro ; et c) qu’elle soit numériquement calculable. (Nations Unies,
2010). Il y a de nombreux types différents de plans d’échantillonnage probabiliste :
échantillonnage aléatoire simple, échantillonnage systématique, échantillonnage avec
probabilité proportionnelle à la taille, échantillonnage par grappes, échantillonnage stratifié,
échantillonnage à plusieurs degrés ou phases, échantillonnage par répliques, etc. Chacune de
ces techniques d’échantillonnage est utile dans différentes situations (Statistique Canada,
2010).
Dans le cas de l'échantillonnage non aléatoire, la probabilité d'inclusion d'une unité statistique
à l'intérieur d'un échantillon ne peut pas être quantifiée. Ce type d'échantillonnage se traduit
par un choix arbitraire ou raisonné des unités de recherche c’est-à-dire que le chercheur, selon
ses propres critères, et son raisonnement qu'il pense juste, décide d'impliquer tel ou tel autre
individu dans son échantillon. Les méthodes d'échantillonnage non probabiliste les plus
utilisées sont : échantillonnage de commodité ou à l'aveuglette, échantillonnage à
participation volontaire, échantillonnage sur la base du jugement ou échantillonnage raisonné,
échantillonnage par quotas et échantillonnage par marche aléatoire.
9
2.2.4. Différents types de variables en statistique
Variable quantitative
Une variable est dite quantitative lorsqu’elle est intrinsèquement numérique. Elle peut être
une variable quantitative discontinue ou discrète ou une variable quantitative continue.
Les variables quantitatives discontinues sont des variables qui ne peuvent pas prendre toutes
les valeurs dans un intervalle de l'ensemble des nombres réels. Ces variables quantitatives
discontinues sont discrètes lorsqu’elles ne peuvent prendre que des valeurs isolées ou
discrètes, appartenant généralement à l’ensemble des entier naturels. Le nombre d’enfants
d’une famille, la taille du ménage, le nombre de pétales d’une fleur, le nombre de buts
marqués lors d’une rencontre de football, etc. sont des variables quantitatives discontinues ou
discrètes.
Les variables quantitatives continues, quant à elles, peuvent prendre toutes les valeurs
numériques possibles d’un ensemble inclus dans l'ensemble des nombres réels. Le revenu
d’un ménage, la taille d’un individu, l’âge d’un individu, le taux de natalité, le chiffre
d’affaire d’une entreprise, le profit d’une entreprise, la masse salariale annuelle d’un pays, etc.
sont des variables quantitatives continues.
On admet que lorsqu’une variable quantitative discontinue peut prendre un grand nombre de
valeurs et que la taille de l’échantillon est élevée, elle peut être traitée comme une variable
quantitative continue (Goldfarb et Pardoux, 2011).
Variable qualitative
Une variable est dite qualitative si ses différentes réalisations (c'est-à-dire ses modalités) ne
sont pas numériques (Goldfarb et Pardoux, 2011). Les modalités des variables qualitatives
doivent être mutuellement exclusives et collectivement exhaustives. "Mutuellement
exclusives" signifie que les catégories de valeurs ne se chevauchent pas, chaque cas tombe
dans une seule catégorie. "Collectivement exhaustives" signifie que l'ensemble des catégories
de valeurs inclut tous les cas, chaque cas tombe dans une catégorie. Ainsi, le sexe, la situation
matrimoniale, la catégorie socio-professionnelle, etc. sont des variables qualitatives.
On peut toujours rendre numérique une telle variable en associant un nombre à chaque
modalité ; on dit alors que les modalités sont codées. On a souvent recours aux codes pour
faciliter leur utilisation par certains algorithmes d’apprentissage automatique qui ne prennent
que des valeurs numériques en entrée. Bien entendu, les valeurs numériques n’ont dans ce cas
aucune signification particulière, et effectuer des opérations algébriques sur ces valeurs
numériques n’a pas de sens.
Toutefois, parmi les variables qualitatives, on distingue les variables qualitatives
dichotomiques qui ne présentent que deux modalités, par exemple le sexe ou le fait d'être en
vie ou décédé. Le codage des modalités d’une telle variable par 0 et 1 a une signification
particulière. Ainsi codée, la moyenne arithmétique de cette variable permet d'obtenir la
proportion de la modalité qui a été codée par 1. En conséquence, les deux modalités des
variables qualitatives dichotomiques seront toujours codées par 0 et 1. Dans ces conditions,
ces variables qualitatives dichotomiques sont considérées comme des variables quantitatives
discontinues. Lorsqu’elles sont codées par 1 et 2 comme le font certains chercheurs, les
valeurs numériques n’ont dans ce cas aucune signification particulière. Elles demeurent
purement des variables qualitatives. Il faut donc éviter ce type de codage. Toutefois, la
moyenne de la variable dichotomique dont les modalités sont codées par 1 et 2 moins un
donne la proportion de la modalité codée 2. En général, lorsque les modalités d'une variable
10
dichotomique sont codées par deux nombres consécutifs, sa moyenne moins le code le plus
petit est égale à la proportion des cas désignés par le code le plus élevé (Fox et Imbeau, 2007).
Par exemple, considérons une population de ménages dont ménages sont dirigés par les
femmes. On s’intéresse à la mesure de la variable dichotomique "Sexe" notée , le sexe du
chef de ménage. On décide de coder les hommes par 0 et les femmes par 1. On désigne par
la proportion des femmes de cette population.
Par définition, . Il s'agira maintenant de montrer que .
étant une moyenne arithmétique, on a:
Les variables qualitatives dichotomiques lorsqu’elles font partie des variables indépendantes
dans une régression, leurs modalités doivent toujours être codées aussi par 0 et 1. On les
appelle dans cette condition, variables muettes. Autre codification peut être une source
d’erreurs.
Les variables qualitatives polytomiques ou catégorielles correspondent aux variables
qualitatives qui ont modalités avec . Lorsqu’une variable qualitative polytomique fait
partie des variables indépendantes d’un modèle de régression, chacune de ses modalités doit
être transformée en variables muettes. On a donc variables muettes. On ne va donc pas
introduire cette variable directement dans le modèle mais l’ensemble des variables
muettes. On va considérer la dernière variable muette comme la modalité de référence.
Il est donc clair que le calcul de la moyenne se fait uniquement avec des variables
quantitatives ou avec des variables qualitatives dichotomiques dont les modalités sont codées
par 1 et 0. Ces dernières variables sont en effet considérées dans ces conditions comme des
variables quantitatives discontinues.
3. Calcul de moyennes statistiques avec discernement
3.1.Définitionopérationnelledelamoyenne
La moyenne d’une variable quantitative peut être calculée sur la population ou sur un
échantillon. Dans la majorité des cas, le calcul se fait sur un échantillon. Soient la taille de
l’échantillon et la taille de la population (population finie). La valeur prise par la variable
sur l’individu i est notée . C'est l'observation faite sur l’individu .
Une variable étant une caractéristique mesurable à laquelle on peut attribuer plusieurs valeurs
différentes (Dodge, 2007), la moyenne d’une variable quantitative permet de résumer les
valeurs prises par cette variable mesurée sur les individus d'un échantillon ou d'une population
en une seule valeur unique. Elle est donc une mesure de tendance centrale (Dodge, 2007)
ayant la propriété de conserver la caractéristique de l’ensemble des observations quand on
remplace chacune de ces observations par cette valeur unique.
En pratique, si les valeurs prises par la variable représentaient une quantité à partager entre
des individus, la moyenne exprimerait dans ce cas la valeur qu’aurait chaque individu si le
partage était équitable. Autrement dit, la moyenne est la valeur unique que devrait avoir
chacun des individus d'une population (ou d'un échantillon) pour que le total des observations
soit inchangé.
On est donc à la recherche d’une valeur unique de la variable (notée qui puisse
remplacer chacune des valeurs observées sur les individus de l’échantillon ou les
11
individus de la population. Cette valeur unique doit permettre d’avoir le total de toutes les
observations. Cette valeur unique de la variable est sa moyenne. C'est quoi alors le total des
observations ?
Dans la plupart des cas, le total formé par les valeurs d’une variable mesurée sur les individus
d'une population ou d’un échantillon est directement la somme de ces valeurs. La moyenne
est alors la moyenne arithmétique simple.
Dans certains cas, la somme des valeurs d’une variable mesurée sur les individus d'une
population ou d’un échantillon n’a pas de sens ou bien le total des valeurs de la variable
mesurée sur les individus de la population ou d’un échantillon n’est pas égal à la somme de
ces valeurs. Cela est souvent le cas lorsque l’analyse est faite sur une unité d'observation qui
n’est pas l’unité statistique ou bien lorsque la variable est un rapport de deux autres variables,
donc un ratio. Par exemple, si nous considérons la variable « Taux de change » du tableau 3,
la somme des taux de change des 5 versements n’a aucun sens. De même, la somme des
rendements des 10 années du tableau 1 n’a aucun sens. Dans ces conditions, il est certain que
le total n’est pas égal à la somme des valeurs de la variable mesurée sur tous les individus de
la population ou de l’échantillon considéré. La moyenne dans ces cas n’est pas une moyenne
arithmétique simple.
Des calculs intermédiaires sur les valeurs de la variable peuvent être nécessaires avant que le
total n'ait un sens. La principale préoccupation dans le calcul de la moyenne est donc
d’identifier la formule par laquelle le total des observations peut être obtenu. Une fois que
cette formule est identifiée, le calcul de la moyenne devient simple. Nous montrerons par des
exemples comment calculer la moyenne dans les différents cas évoqués. Il n'est pas donc
nécessaire de connaître a priori le type de moyenne avant de déterminer cette moyenne. On se
rendra compte facilement après calcul, de la nature de la moyenne en question. En
conséquence, devant toute situation de calcul de moyenne d'une variable quantitative, les trois
étapes suivantes doivent être suivies dans l’ordre :
1. donner la défintion opérationnelle de la moyenne de la variable en question, ce qui n’est
pas sa formule de calcul ;
2. déterminer l’expression littérale de cette moyenne ;
3. déduire le type de la moyenne appropriée.
3.2.Miseenœuvredeladéfinitionopérationnellepourlecalculdesmoyennes
Tous les types de moyennes existent sous deux formes: simple et pondérée. La nuance entre
ces deux formes sera expliquée au niveau de chaque type de moyenne abordé.
3.2.1. Moyennes arithmétiques simple et pondérée
Moyenne arithmétique simple ou moyenne arithmétique
Dans la littérature, on utilise couramment la moyenne arithmétique en lieu et place de la
moyenne arithmétique simple.
Lorsqu’on dispose de la série des valeurs d’une variable quantitative mesurée sur un
échantillon ou sur une population, si le total des valeurs de cette variable a un sens et est égal
à la somme de ces valeurs alors la moyenne de cette variable est une moyenne arithmétique
simple. Mais, il n’est même pas nécessaire de savoir s’il s’agit d’une moyenne arithmétique
ou pas avant de faire le calcul. Il ne faut pas chercher à appliquer une formule toute faite.
Soient une variable quantitative mesurée sur les individus d'un échantillon de taille , la
valeur de la variable pour l'individu , la moyenne de cette variable avec .
12
Supposons que le total des valeurs de cette variable ait un sens et soit égal à la somme de ces
valeurs. Selon la définition opérationnelle proposée, on doit donc avoir :
En effet, la moyenne est la valeur unique que devraient avoir tous les individus d'une
population (ou d'un échantillon) pour que leur total soit inchangé.
En conséquence,
.
La moyenne de la variable est donc égale au rapport de la somme de toutes les valeurs ou
observations sur la taille de l’échantillon . Si la variable était mesurée sur tous les
individus de la population, on allait remplacer dans cette formule par . Cette moyenne ne
dépend pas de l’ordre des termes et est toujours comprise entre les valeurs minimale et
maximale des observations faites (Goldfarb et Pardoux, 2011). Il est possible de déterminer
cette moyenne connaissant uniquement le total des observations et le nombre d'observations
(INSEE, 2016). Il s’agit donc de la moyenne arithmétique simple.
Parfois, les valeurs prises par la variable sont les mêmes pour plusieurs individus. Dans ce
cas, on peut décider de construire une liste de valeurs sans répétition notée et
une liste des effectifs valeurs notée . On dira par exemple que est le
nombre de fois qu'apparait la valeur .
La moyenne s’écrit alors :
(3).
Evidemment, on aura :
.
Cette formule introduit la notion de moyenne pondérée, dans laquelle les facteurs ne
représentent pas nécessairement des effectifs, mais des coefficients appelés poids. Cette
notion est abordée dans la section suivante.
Moyenne arithmétique pondérée
Reprenons l'exemple du tableau 1 et cherchons à calculer la moyenne de la variable
rendement. La somme des 10 rendements n'a pas un sens, donc la moyenne arithmétique
simple ne peut être utilisée pour calculer cette moyenne. Seul le total des différentes
productions ou le total des différentes superficies a un sens.
Le rendement moyen dont il s'agit ici est l’unique valeur du rendement qu'on pourrait
attribuer à chacun des rendements de toutes les années de production, indépendamment de la
superficie emblavée chaque année, pour que la production totale sur l'ensemble des dix (10)
années soit la même.
Soient la superficie de l'année , la production de l'année le rendement de l'année
et le rendement moyen avec où .
On doit avoir :
(5)
Donc :
13
Il s'agit d'une moyenne arithmétique pondérée par la superficie. Alors, pour calculer la
moyenne de la variable rendement, on doit tenir compte de la variable superficie qui sera
utilisée comme poids. Autrement dit, toutes les observations faites sur le rendement n’ont pas
une importance identique. Il est donc important d'attribuer un poids à chaque observation en
fonction de son importance relative par rapport aux autres observations.
et non obtenu par la méthode de moyenne arithmétique
simple. Avec la moyenne arithmétique simple des rendements obtenus chaque année, on
aurait sous-estimé l'effort réalisé par les producteurs au cours de la période 2002-2011. Ces
deux types de moyenne sont sans biais mais seule la moyenne la moyenne arithmétique
pondérée est plus précise. Dans le cadre de l'estimation de la moyenne des rendements sur une
population, il est nécessaire d'ajouter à la valeur estimée l'erreur-type ou la marge d'erreur afin
de déterminer l'intervalle de confiance.
Comme est la production de l'année , pour obtenir le total de la production au cours
des 10 années, on peut donc faire la somme des ou la somme des On a donc :
(7)
En conséquence, le rendement moyen devient le rapport entre la somme des productions de
toutes les années et la somme des superficies de toutes les années.
De même, la moyenne appropriée dans le cas des données présentées dans le tableau 2 est la
moyenne arithmétique des rendements annuels pondérés par les superficies annuelles
emblavées. Les résultats sont présentés dans le tableau 5. Il serait superflu de présenter
l'ensemble des données qui ont permis de déterminer ces moyennes. Toutefois, les données
présentées dans le tableau 6 permettent de vérifier les moyennes de rendements calculées pour
le riz.
Il est vrai qu'en l'absence d'informations additionnelles aux rendements (superficies ou
productions), la moyenne arithmétique simple serait toujours valable. Toutefois, il est rare
d'avoir des informations sur les rendements sans avoir des informations sur les superficies ou
productions car les rendements ne peuvent pas être calculés sans ces deux informations. Il
revient aux chercheurs de faire la requête aux auteurs des données en absence des
informations sur des superficies ou productions afin d'améliorer la précision des paramètres
calculés. Tout dépend de l'intérêt qu'on porte à la précision des estimateurs.
D'une manière générale, la moyenne arithmétique pondérée est la moyenne d'un certain
nombre de valeurs affectées de coefficients. Soit la liste des valeurs affectées
des coefficients . On a :
14
Tableau 5 : Rendements de certaines spéculations produites au Bénin (en kg/ha)
Spéculation 2011 2012 2013 2014 2015
Moyenne
arithmétique
simple
Moyenne
arithmétique
pondérée
Maïs 1422 1251 1383 1399 1281 1347 1345
Riz 3924 3333 3032 3139 3129 3311 3286
Sorgho 1191 1010 1046 988 986 1044 1043
Igname 16982 13669 15073 15046 13082 14770 14686
Manioc 17377 13303 13221 13709 12043 13931 13754
Tomate 5821 6446 8326 8779 7786 7432 7580
Piment 1954 2783 2651 2706 2928 2604 2636
Noix de palme ND 10700 5950 ND ND 8325 7621
Anacarde ND ND 325 ND 325 325
Coton 961 716 886 970 ND 883 880
Ananas 79555 57361 53413 57459 47459 59049 57060
Source: Produit à partir des données du MAEP (2017)
Tableau 6 : Statistiques sur le riz produit au Bénin
Paramètre 2011 2012 2013 2014 2015
Production (tonne) 218939 219101 206943 234145 204310
Superficie (ha) 55797 65730 68259 74586 65305
Rendement (kg/ha) 3924 3333 3032 3139 3129
Source : MAEP (2017)
Lorsque les probabilités de sélection des individus de l'échantillon ne sont pas les mêmes, le
poids de chaque unité statistique doit être déterminé. Ils constituent les coefficients dans la
formule ci-dessus. En effet, dans le cas où tous les ménages n'ont pas la même probabilité
d'appartenir à un échantillon, pour améliorer la validité des estimations et des inférences
provenant des analyses, il est nécessaire d’appliquer les pondérations des échantillons pour
que la répartition des données soit représentative de la population.
Si tous les poids sont égaux, la moyenne arithmétique pondérée est la moyenne arithmétique
simple.
3.2.2. Moyennes géométriques simple et pondérée
Moyenne géométrique simple ou moyenne géométrique
Lorsqu'il n'y a pas de précision sur la moyenne géométrique, il s'agit de la moyenne
géométrique simple.
Supposons qu'un fonctionnaire d'une entreprise ait été recruté en janvier 1981 avec un salaire
à la fin du premier mois. Son salaire est resté constant pendant 4 ans et revalorisé au début
de la cinquième année (fin du mois de janvier) avec un coefficient de 1,012. Par la suite, ce
salaire revalorisé était resté constant pendant 4 ans, puis revalorisé de nouveau au début de la
9ème
année par un coefficient de 1,013. Ainsi, au début de la première année suivant chaque
période de quatre ans, le salaire est revalorisé selon les coefficients exposés dans le tableau 7.
Quelle est la moyenne des coefficients multiplicateurs du salaire ?
L'ensemble des données de cet exemple ne provient pas d'une population connue et donc ne
constitue pas un échantillon aléatoire. Il n'est donc pas question d'estimer une moyenne avec
la construction d'un intervalle de confiance. Il s'agit de déterminer une moyenne appropriée
15
qui décrit mieux cet ensemble de données et le résultat obtenu est absolument limité à cet
ensemble de données. Au cas où l'ensemble des données proviendrait d'un échantillon
aléatoire, la moyenne calculée devient un estimateur de la moyenne et la construction de
l'intervalle de confiance s'avère nécessaire.
Faire la somme des coefficients multiplicateurs du salaire n'a aucun sens parce qu'on ne peut
pas attribuer une définition à cette somme. En conséquence, il ne serait pas correct de calculer
la moyenne arithmétique simple. Il suffit tout simplement d'exploiter la définition du
coefficient multiplicateur et la définition opérationnelle de la moyenne pour pouvoir calculer
le coefficient multiplicateur moyen correct du salaire.
Le coefficient multiplicateur moyen du salaire est le coefficient multiplicateur unique par
lequel il faut multiplier le salaire du fonctionnaire au début de la première année suivant
chaque période de quatre ans, de sorte que la valeur de son salaire en 2017 reste inchangée.
Soient le coefficient multiplicateur du salaire au début de l'année le coefficient
multiplicateur moyen du salaire et le salaire au début de l'année avec où
.
Tableau 7 : Coefficients multiplicateurs du salaire
Année Coefficient multiplicateur
1985 1,012
1989 1,013
1993 1,006
1997 1,017
2001 1,023
2005 1,003
2009 1,006
2013 2,008
2017 1,501
Source : Données propres de l'auteur
On a :
Donc,
On constate aisément qu'il s'agit d'une moyenne géométrique. On n'a donc pas besoin de
savoir qu'il s'agissait de la moyenne géométrique avant de déterminer cette moyenne. Il n'est
pas donc nécessaire de retenir comme l'a suggéré Dodge (2007) que dans la pratique, la
moyenne géométrique est utilisée essentiellement pour calculer la moyenne de ratios, ou plus
particulièrement la moyenne d’indices. Le rendement est un ratio et sa moyenne, calculée au
point 3.2.1. dans la section « moyenne arithmétique pondérée », n'est pas une moyenne
géométrique mais bien une moyenne arithmétique pondérée par la superficie.
Avec la moyenne arithmétique simple, on aurait obtenu :
.
16
La moyenne arithmétique a donc surévalué le coefficient moyen et cela aura pour effet
d'augmenter anormalement les dépenses mensuelles de salaire de l'entreprise concernée de 3,6
% au profit des travailleurs. Cette conclusion n'est valable qu'aux données présentées entre
1985 et 2017. Si on devrait partir de la moyenne calculée au niveau échantillon pour estimer
la moyenne au niveau population, il faudrait corriger le biais lié à la moyenne géométrique et
calculer l'erreur-type. Ce n'est pas le cas de l'exemple présenté comme expliqué ci-haut.
De manière générale, la moyenne géométrique de valeurs positives est la racine nième du
produit de ces valeurs. Donc l'un des aspects importants de la moyenne géométrique est
qu’elle ne s’applique qu’aux nombres positifs (Dodge, 2007).
Soit les valeurs de la variable mesurée sur un échantillon de taille avec
. On a :
(13)
On a donc :
Le logarithme népérien de la moyenne géométrique d'une variable quantitative non nulle est
la moyenne arithmétique des logarithmes népériens de chacune des valeurs de .
On a donc
Moyenne géométrique pondérée
La moyenne géométrique pondérée est obtenue par la formule :
(17)
Avec le poids associé à l'observation on a :
(20).
Si tous les poids sont égaux, la moyenne géométrique pondérée est la moyenne géométrique
simple.
On peut aussi autrement écrire l’expression de la moyenne géométrique sous la forme :
17
(21)
3.2.3. Moyennes harmoniques simple et pondérée
Moyenne harmonique simple ou moyenne harmonique
L’exercice soumis aux diplômés et présenté dans la section « méthodologie » trouve sa
solution dans cette section. Rappelons que cet exercice a été soumis à 700 diplômés de niveau
Master ou Doctorat. Seuls 577 parmi eux ont accepté de le résoudre. Toutefois, seuls deux
diplômés ont réussi à fournir de bonnes réponses aux deux premières questions. La plupart
ont calculé une moyenne arithmétique simple ou pondérée ou une moyenne géométrique
montrant ainsi la nécessité d'insister sur les erreurs commises dans le calcul de la moyenne.
Sans une définition précise de la moyenne du taux de change, il n’est pas possible de
démontrer qu’il s’agit bien d’une moyenne harmonique.
Le taux de change moyen est l'unique taux de change qu'il faut appliquer aux montants
transférés en Franc Suisse pour que le montant total reçu en FCFA sur l'ensemble des cinq
versements reste le même.
Soit le taux de change du versement , le montant du versement et le taux de change
moyen avec .
Selon la définition de la moyenne fournie ci-dessus, on doit avoir :
, soit
.
Comme, on peut le constater avec la formule (23), le taux de change moyen pour l'ensemble
des cinq versements n'est donc rien d'autre que le rapport entre le montant total reçu en FCFA
sur le montant total transféré en Franc Suisse.
Comme , on a :
et non obtenu par la méthode de moyenne arithmétique simple. Ici
encore, cette conclusion n'est valable qu'aux données fournies sur les 5 versements. Il n'est
pas question de faire une inférence à partir de ce résultat. L'ensemble des données de cet
exemple ne provient pas d'un échantillon aléatoire et donc la moyenne calculée n'est valable
qu'à cet ensemble de données. Il ne s'agit pas d'exploiter cette moyenne pour prévoir par
exemple les taux de change futurs. ce n'est pas l'objectif. Même si cet échantillon était
aléatoire, il ne peut pas être représentatif d'une population des taux de change avec cette faible
taille.
est donc l'inverse de la moyenne arithmétique des inverses des taux de change. Il s'agit de la
moyenne harmonique simple.
De façon générale, la moyenne harmonique simple ou la moyenne harmonique de valeurs
est l'inverse de la moyenne arithmétique des inverses de ces valeurs. On a :
(25)
18
Généralement, la moyenne harmonique peut être utilisée lorsqu’il est possible d’attribuer un
sens réel aux inverses des données en particulier pour les taux de change, les taux
d’équipement, le pouvoir d’achat, les vitesses. Mais, il n’est pas nécessaire de retenir cette
règle.
Moyenne harmonique pondérée
La moyenne harmonique pondérée est obtenue par la formule :
(26)
Avec le poids associé à l'observation on a :
.
Si tous les poids sont égaux, la moyenne harmonique pondérée est la moyenne harmonique.
Par exemple, l’indice de Paasche des prix ou des quantités est la moyenne harmonique des
indices élémentaires (de prix et de quantités) pondérée par les structures de valeurs de la
période courante (Goldfarb et Pardoux, 2011). Soient deux dates 0 et t, la situation à chaque
date est caractérisée par les quantités disponibles de biens physiques hétérogènes
– respectivement – non sommables, le prix de chaque bien étant –
respectivement .
L'indice de quantité de Paasche est égal à :
(28)
L'indice de prix de Paasche est égal à :
3.2.4. Moyennes quadratique simple et pondérée
Moyenne quadratique simple ou moyenne quadratique
La moyenne quadratique de valeurs est la racine carrée de la moyenne arithmétique des
carrés de ces valeurs.
(30).
On constate aisément que l'écart-type d'une variable est une moyenne quadratique.
Moyenne quadratique pondérée
Elle est obtenue par la formule :
(31)
Pour la mise en œuvre des expérimentations agricoles dans le cadre de la formation des
ingénieurs agronomes de la Faculté des Sciences Agronomiques (FSA) de l'Université
d'Abomey-Calavi (UAC), il a été mis en place sur le site de Sékou, une série de parcelles
expérimentales de forme carrée dont les caractéristiques sont présentées dans le tableau 8. La
parcelle est définie comme une surface de terrain traitée d'une manière homogène par des
19
cultures pratiquées avec leur ordre de succession et par des itinéraires techniques qui leur sont
appliquées (Sébillotte, 1978).
Quelle est la longueur moyenne des côtés des parcelles carrées d'expérimentations agricoles
mises en place par la FSA ?
L'ensemble des données de cet exemple ne provient pas d'un échantillon aléatoire des
parcelles carrées d'expérimentations. Toutes les parcelles du site d'expérimentation ont été
prises en compte et il a été dénombré 199 parcelles. Il s'agit donc de déterminer la moyenne
d'une population de faible taille. En conséquence, le calcul de l'erreur-type n'est pas
nécessaire, le calcul de l'écart-type est suffisant. Les résultats obtenus sont seulement valables
pour ce site d'expérimentations agricoles.
Pour répondre à cette question, il ne faut pas chercher à savoir s'il s'agit d'une moyenne
arithmétique simple de la longueur des côtés des parcelles ou d'une moyenne arithmétique de
la longueur des côtés des parcelles pondérée par le nombre de parcelles ou non. En cherchant
à identifier le type de moyenne afin d'appliquer une formule, le risque de faire une mauvaise
estimation est grand. Il faut précisément définir ce qu'on attend par "longueur moyenne des
côtés des parcelles", déterminer l’expression littérale de la moyenne et déduire sa nature.
Tableau 8 : Caractéristiques des parcelles d'expérimentation de la FSA
Longueur du côté des parcelles (en mètre) Nombre de parcelles de même superficie
1 20
2 30
3 25
4 30
5 45
10 10
15 15
20 10
25 9
30 5
Source : Données propres de l'auteur
La réponse n'est pas simple pour tout le monde mais il s'agit de la longueur unique de côté
que devrait avoir chacune des parcelles d'expérimentation de telle sorte que la superficie
totale de toutes les parcelles réunies reste inchangée.
Le nombre de parcelles de longueurs de côté différentes est égal à 10. Désignant par
où chacune de ces parcelles.
Soient la longueur des parcelles dont la longueur de côté est , le nombre de parcelles
dont la longueur de côté est et la longueur moyenne de côté des parcelles.
On doit avoir :
D’où :
20
La longueur moyenne des côtés des parcelles est donc la moyenne quadratique de la longueur
des côtés de ces parcelles pondérée par le nombre de parcelles ayant la même superficie ou la
même longueur de côtés.
Si est la superficie des parcelles et la superficie moyenne de ces parcelles, alors on a :
(35)
Il est donc aisé de constater que la superficie moyenne des parcelles expérimentales est une
moyenne arithmétique pondérée par le nombre de parcelles ayant la même superficie ou la
même longueur de côtés.
Il serait donc difficile à quelqu'un de justifier cette moyenne sans la démonstration
précédente.
Soit la moyenne quadratique pondérée et la moyenne arithmétique de la longueur
des côtés des parcelles pondérée par le nombre de parcelles ayant la même longueur de côtés.
On a :
La différence entre et serait davantage significative si on avait appliqué la
moyenne géométrique pondérée ou la moyenne harmonique pondérée car toutes ces
moyennes sont inférieures ou égales à la moyenne arithmétique pondérée (Carlo, 1965,
Leboucher et Voisin, 2011).
3.2.5. Moyenne mobile
Une série chronologique ou temporelle est constituée par une suite ordonnée d’observations
d’une grandeur au cours du temps. L’étude de ces séries intéresse tous ceux qui désirent
décrire, expliquer, contrôler, prévoir des phénomènes évoluant au cours du temps.
La moyenne mobile est un filtre linéaire qui élimine le facteur saisonnier tout en réduisant les
irrégularités dans une série chronologique. Un filtre est une sorte de "boîte noire" régularisant
une chronique en la transformant en une chronique qui est une approximation de la
composante tendancielle de la chronique X (Goldfarb et Pardoux, 2011).
Pour calculer les moyennes mobiles, on tient compte de la parité de la série chronologique .
Soit , les moyennes mobiles centrées de longueur p (p < T) de la série
.
Premier cas : est impair, donc il existe un entier naturel tel que . Il y a
moyennes mobiles centrées de longueur impaire . Chaque moyenne mobile est
donc calculée avec termes c'est-à-dire
Deuxième cas : est pair, donc il existe un entier naturel tel que Il y a
moyennes mobiles centrées de longueur paire .
21
La moyenne mobile centrée apparaît comme la moyenne arithmétique pondérée de
valeurs de la série encadrant la date t avec les coefficients de pondération égaux à pour
les deux valeurs extrêmes et , égaux à pour les valeurs intermédiaires
de à . Chaque moyenne mobile est donc calculée avec termes c'est-à-
dire
Le tableau 9 présente la variable avec et ses moyennes mobiles de longueur
2, 3, 4 et 5 notées respectivement , , , .
La série est périodique de période , c’est-à-dire que la série redevient identique à elle-
même tous les p termes. C'est pourquoi, la moyenne mobile de longueur 4, longueur égale à la
période de la série, est une constante. En effet, La moyenne mobile centrée de longueur
rend constantes les séries périodiques de période (Goldfarb et Pardoux, 2011).
Tableau 9 : Calcul de moyennes mobiles
1 2 - - - -
2 0 0,25 0,33 - -
3 -1 -1,00 -1,00 -0,25 0,20
4 -2 -0,75 -0,33 -0,25 -0,20
5 2 0,50 0,00 -0,25 -0,40
6 0 0,25 0,33 -0,25 -0,60
7 -1 -1,00 -1,00 -0,25 0,20
8 -2 -0,75 -0,33 -0,25 -0,20
9 2 0,50 0,00 -0,25 -0,40
10 0 0,25 0,33 -0,25 -0,60
11 -1 -1,00 -1,00 - -
12 -2 - - -
Source : Goldfarb et Pardoux (2011)
Prenons le cas de . , donc on ne peut que calculer moyennes
mobiles. Les moyennes mobiles et n'existent pas. Chacune des dix (10)
moyennes mobiles possibles est calculée avec termes. Comme la série est
périodique de période 4 alors les moyennes mobiles sont aussi périodiques de période
4. Il suffit donc de calculer les 4 premières moyennes mobiles. Avec la formule de calcul des
moyennes mobiles de longueur paire, varie de à . Comme ,
, . On a donc :
22
Prenons le cas de . , donc on ne peut que calculer
moyennes mobiles. Les moyennes mobiles , , et n'existent
pas. Chacune des huit (08) moyennes mobiles possibles est calculée avec termes.
Comme la série est périodique de période 4 alors les moyennes mobiles sont aussi
périodiques de période 4. Il suffit donc de calculer les 4 premières moyennes mobiles. Avec la
formule de calcul des moyennes mobiles de longueur impaire, varie de à . varie
donc de -2 à +2. On a donc:
(40)
(41)
4. Discussion
4.1.Nécessitédepartird'unedéfinitionopérationnelledelamoyennepoursonestimation
précise
Les observations faites sur les variables quantitatives peuvent être résumées par des valeurs
dites de tendance centrale. Ces valeurs centrales sont la moyenne, la médiane et le mode. Cela
a été précisé ainsi dans tous les documents sur la statistique descriptive. La plupart des
auteurs, en abordant la notion de la moyenne, commencent par la définition de la moyenne
arithmétique avec la présentation de sa formule de calcul (Mazerolle, 2006 ; Bernstein et
Bernstein, 1999 ; Leboucher et Voisin, 2011 ; Bailly et Carrère, 2015). Ils présentent ensuite
les formules de calcul des autres types de moyennes avec souvent des exemples dans chaque
23
cas. Le problème est que la définition d'un type de moyenne ne devrait pas être limitée à sa
formule de calcul. En conséquence, lorsque les techniciens de la moyenne font face aux
observations d'une variable quantitative, la première question qu'ils se posent souvent est de
chercher à identifier le type de moyenne à calculer. Mais il n'existe aucune définition
opérationnelle de la moyenne pour les aider à accomplir cette tâche. Aussi, se contentent-ils
de calculer la moyenne arithmétique parce que c'est la moyenne la plus utilisée. Cela aboutit
dans bien des cas à une estimation imprécise de la moyenne comme l'a si bien dit Dodge
(2007, p. 360) : « La moyenne arithmétique est une mesure simple de la valeur centrale d’un
ensemble d’observations quantitatives. Toutefois, elle amène parfois à une interprétation
faussée de la réalité ». Par ailleurs, certains auteurs proposent des règles pour calculer certains
types de moyennes. La contribution de ce document est de proposer une définition
opérationnelle de la moyenne et une démarche qui permet de déterminer avec précision le
type de moyenne à calculer pour n'importe quel type de variable quantitative. La première
étape de la démarche est de commencer d'abord par définir la moyenne de la variable
quantitative considérée en lieu et place de la recherche d’une formule classique de la moyenne
à appliquer. Ensuite, en se basant sur cette définition, la deuxième étape consiste à déterminer
l’expression littérale de cette moyenne. La dernière étape permettra de préciser le type de
moyenne par une simple déduction. C’est une possibilité de réaliser une estimation plus
précise de la moyenne de la variable considérée. En conséquence, il serait possible de bien
estimer une moyenne sans se préoccuper au préalable de déterminer le type de moyenne dont
il s'agit. Il n’est pas donc nécessaire de retenir des règles a priori dans le choix du type de
moyenne à calculer comme le préconise Dodge (2007). Selon cet auteur, la moyenne
arithmétique pondérée est couramment utilisée dans le domaine de l'économie, notamment
dans le calcul des indices de prix à la consommation, ou de prix de production, etc. La
moyenne géométrique est utilisée essentiellement pour calculer la moyenne de ratios, ou plus
particulièrement la moyenne d’indices, etc. Dans ce document, il a été montré que la moyenne
correcte pour un ratio peut bien être une moyenne harmonique ou une moyenne arithmétique
pondérée.
Enfin, lorsque le type de moyenne est connu, il revient à l'utilisateur de prendre en compte
cela dans l'analyse des données. En effet, dans la plupart des logiciels statistiques, seul le
calcul de la moyenne arithmétique simple est programmée par défaut. En conséquence, sans
une précision de l'utilisateur, la moyenne renvoyée par un logiciel statistique est une moyenne
arithmétique simple.
4.2.Similaritésdespropriétésdesmoyennes,maisnonidentitéentreelles
Désignons par la moyenne arithmétique, la moyenne géométrique, la moyenne
harmonique, la moyenne quadratique.
Ces quatre moyennes possèdent certaines propriétés de la moyenne arithmétique :
- la moyenne ne dépend pas de l’ordre des termes ;
- la moyenne est toujours comprise entre la valeur minimale et la valeur maximale de la
liste ;
- la moyenne est homogène, c’est-à-dire que si toutes les valeurs de la liste sont
multipliées par un même facteur, la moyenne est multipliée par ce même facteur ;
- la moyenne est cumulative, c’est-à-dire que si la liste est partagée en plusieurs sous-
listes, la moyenne de la liste globale est la moyenne pondérée des moyennes des sous-
listes, avec pour coefficients de chaque sous-liste le nombre de termes concernés.
En outre, ces moyennes sont toujours ordonnées par les inégalités suivantes (Carlo, 1965,
Leboucher et Voisin, 2011) :
24
(42)
Toutes ces moyennes s’obtiennent sous la forme ou comme la limite
d’une moyenne lorsque . Plus précisément, on retrouve :
- pour , la moyenne arithmétique ;
- pour , la moyenne quadratique ;
- pour , la moyenne harmonique ;
- lorsque , la limite de est la moyenne géométrique ;
- lorsque la limite de est le maximum de la série ;
- lorsque la limite de est le minimum de la série.
Par ailleurs, la somme des écarts par rapport à la moyenne arithmétique est nulle (Mazerolle,
2006 ; Dodge, 2007). Cela est simple à démontrer.
Soit (44), où est une variable quantitative, l'observation de la
variable sur l'individu , la moyenne arithmétique de le nombre d'individus ayant la
même observation et un entier naturel tel que .
(45).
Si est la moyenne arithmétique de , alors ou
En conséquence,
Enfin, la somme des carrés des écarts des observations par rapport à la moyenne arithmétique
est toujours strictement inférieure à la somme des carrés des écarts des observations par
rapport à n'importe quel autre nombre (Blalock, 1960 ; Dodge 2007). Autrement dit le
minimum de la quantité :
est obtenue que si avec .
Il est donc clair que les moyennes ont quelques similarités mais cela ne devrait pas justifier
l'assimilation des moyennes. Avec le calcul de la moyenne arithmétique en lieu et place d'une
moyenne géométrique ou d'une moyenne harmonique, le technicien surestime, peut être sans
le savoir, la valeur de la moyenne (Carlo, 1965 ; Leboucher et Voisin, 2011).
Parfois, la différence entre la moyenne bien estimée et la moyenne arithmétique n'est pas très
grande, mais l'écart peut être suffisant pour la prise de mauvaises décisions.
Supposons que le prix moyen réel d'un masque est de 477 FCFA mais la moyenne
arithmétique estimée est de 500 FCFA. Supposons, en outre, que dans le cadre de la gestion
du COVID-19, les échanges entre le Gouvernement et les partenaires sociaux ont abouti à un
accord de céder le masque à la population au prix de 200 FCFA. Dans ces conditions, le
Gouvernement a dû accepter d'accorder une subvention de 300 FCFA par masque pour un
besoin de 5 000 000 de masques par jour suite à l'estimation du prix du masque à 500 FCFA.
La dépense de subvention s'élèverait donc à 1 500 000 000 FCFA par jour au lieu de 1 385
000 000 FCFA par jour si l'estimation du prix moyen était bien faite, soit une perte de 115
000 000 FCFA par jour ou 3 450 000 000 FCFA pour une période de 30 jours.
25
Dans le cadre de la relation bilatérale entre la Suisse et le Bénin, supposons que la Suisse
octroie un don de 10 000 000 CHF au Bénin. Avec une estimation du taux de change à 570,8
FCFA/CHF au lieu de 570,2 FCFA/CHF, le Bénin va espérer à tort 5 708 000 000 FCFA au
lieu de 5 702 000 000 FCFA, soit une différence de 6 000 000 FCFA. Cette différence peut
paraître faible mais son ampleur dépend en réalité des conditions qui vont prévaloir sur le
marché de changes.
Dans l'exemple présenté à la section "Moyenne quadratique pondérée" la moyenne
arithmétique pondérée de la longueur de côtés des parcelles est estimée à 7,035 m alors que la
meilleure estimation, celle de la moyenne quadratique pondérée est 10,142 m. Cet écart
significatif entre les deux estimations peut conduire à une mauvaise utilisation de la surface
réservée aux expérimentations agricoles.
Les rendements mal estimés peuvent conduire à de mauvaises planifications et à des conseils
agricoles erronés.
4.3. Méthodes d'échantillonnage et calcul de moyennes
La grande caractéristique des méthodes d'échantillonnage non probabiliste serait liée à la
difficulté d'évaluer objectivement jusqu'à quel point l'échantillon était représentatif. On ne
pourrait pas appliquer les méthodes de statistique inférentielle. Ces échantillons ne pourraient
être évalués qu’au moyen d’une appréciation subjective (Nations Unies, 2010). Dans ce type
d’échantillonnage donc, le chercheur ne peut calculer la moyenne d'une variable quantitative
qu'en supposant que la distribution des caractéristiques à l'intérieur de la population était
égale. Il ne peut déterminer objectivement les poids des différentes unités enquêtées. Cette
approximation fait que le chercheur imagine qu'un échantillonnage bien raisonné serait
représentatif et que les résultats obtenus après l'enquête, par conséquent, seraient exacts et
fiables ; ce qui serait peut-être vrai ou faux. Comme on ne pourrait pas le démontrer
objectivement, alors admettons que c'est biaisé.
Mais, malgré ces inconvénients, les méthodes d'échantillonnage non probabilistes pourraient
être utiles lorsqu'on désirerait faire des commentaires descriptifs au sujet des échantillons eux-
mêmes (Statistique Canada, 2010). Elles seraient utilisées dans différents contextes et dans
diverses situations. Elles seraient généralement utilisées dans la phase exploratoire d'une
recherche quantitative. Elles pourraient être aussi utilisées pour mieux comprendre certains
résultats des études quantitatives.
La justification offerte par les praticiens serait généralement fondée sur des considérations de
coûts, de temps, de commodité ou même sur la crainte qu’un échantillon « aléatoire » ne
représenterait pas comme il conviendrait la population cible (Nations Unies, 2010).
Dans le cadre d'une recherche dans laquelle on souhaiterait avoir les paramètres de la
population, les méthodes d'échantillonnage non probabilistes ne devraient pas être utilisées.
Cependant, il existe des domaines, comme la recherche sociale appliquée, où il est impossible
ou presque impossible d'effectuer un échantillonnage probabiliste (aléatoire). Dans ces cas, le
chercheur lui-même déterminerait les limites de sa recherche qui n'enlèveraient en rien sa
contribution à la science. On est, en effet, en mal d'alternatives.
Lorsque la méthode d'échantillonnage aléatoire choisie et bien justifiée est mise en œuvre, la
probabilité de sélection de chaque unité statistique de l'échantillon devrait être déterminée
avec précision sur la formule utilisée. Lorsque cette probabilité est la même pour toutes les
unités statistiques, on dirait que l'échantillon est auto-pondéré (Statistique Canada, 2010 ;
Nations Unies, 2010). Dans ces conditions, la pondération n'est plus utile dans le calcul des
paramètres statistiques dont la moyenne.
26
Dans le cas où les probabilités de sélection des individus de l'échantillon ne seraient pas les
mêmes, le poids de chaque unité statistique devrait être déterminé et ajusté. Le poids d'une
unité sélectionnée n'est rien d'autre que l'inverse de la probabilité de cette unité d'appartenir à
l'échantillon. Afin d'éviter d’introduire des distorsions dans les estimations des paramètres
statistiques résultant de l’enquête, ces poids devraient être pris en compte dans ces
estimations. Beaucoup de chercheurs et praticiens ne prenaient pas en compte ces
pondérations et évidemment les estimations faites ne seraient pas fiables (Deaton, 1997). Il est
important de rappeler que ces poids ne peuvent être calculés que si l’on dispose des
informations sur la base de sondage. La pondération a pour but de compenser les probabilités
inégales de sélection ; de compenser le défaut de réponse des unités d’échantillonnage et
éventuellement de tenir compte de la post-stratification.
La leçon importante apprise est que l'échantillonnage peut être probabiliste et la moyenne
peut être mal déterminée. C’est pourquoi, il est important de mettre l’accent sur le plan
d’échantillonnage dans un document scientifique. De plus, la prise en compte de la
pondération dans le calcul des moyennes n'est pas suffisante pour déterminer le type de
moyenne à calculer car tous les types de moyennes existent sous leur forme simple et
pondérée.
La définition opérationnelle de la moyenne proposée dans ce document permet de calculer la
moyenne appropriée pour des populations de faible taille pour lesquelles les séries statistiques
sont disponibles. Dans le cas où il s'agit d'un échantillon aléatoire, même si le type de
moyenne calculé au niveau échantillon est approprié, il est important de corriger les biais des
moyennes quasi-arithmétiques et de construire un intervalle de confiance.
5. Conclusion
Cette étude a permis de constater que devant une situation de calcul de moyenne, il s’avère
nécessaire de ne plus se précipiter et utiliser systématiquement la moyenne arithmétique mais
de prendre en considération la variable et les conditions de son expression, ou encore la nature
même du problème en étude et duquel dépend le type de variable à analyser. Cela éviterait
aux auteurs des erreurs non dues à l'échantillonnage dans les estimations qui
compromettraient la portée statistique effective versus celle supposée atteinte.
Une définition opérationnelle de la moyenne qui n'existe dans aucun livre de statistique
descriptive à notre connaissance, a été proposée pour calculer la moyenne appropriée et
préciser le tyep moyenne concernée. La démarche proposée passe d'abord par la définition de
la moyenne qui est différente de sa formule de calcul, ensuite la détermination de l’expression
littérale de cette moyenne et la déduction du type de moyenne. Désormais, il n'est plus
nécessaire de connaître a priori le type de moyenne avant de déterminer cette moyenne. Il
n’est non plus utile de retenir a priori le type de moyenne à calculer pour certains types de
variables comme les ratios. En conséquence, l’exploitation de ce document aiderait les
scientifiques et les praticiens de terrain à mieux estimer les moyennes pour de meilleures
prises de décisions. Il aiderait beaucoup de personnes à être éveillées sur les réflexes
importants en ce qui concerne le calcul des moyennes. Toutefois, le calcul approprié d'une
moyenne sur un échantillon nécessite la correction du biais si elle n'est pas arithmétique et la
détermination d'un intervalle de confiance pour son interprétation correcte.
27
Références bibliographiques
Bailly P. ; Carrère C. (2015). Statistiques descriptives. L'économie et les chiffres. Grenoble :
Presses universitaires de Grenoble, 252 p.
Bernstein S. ; Bernstein R. (1999). Schaum's outline of elements of statistics: descriptive
statistics and probability. Schaum’s Outline Series, New-York:McGRAW-HILL, 362 p.
Blalock H. M. (1960). Social Statistics. New-York:McGraw-Hill Book Company, Inc, 465 p.
Carlo G. (1965). Cours de statistique descriptive. Paris : Dunod, 519 p.
Dagnelie P. (1973). Théorie et méthodes statistiques. Applications agronomiques. Volume 1:
La statistique descriptive et les fondements de l'inférence statistique. Gembloux: les presses
agronomiques de Gembloux, 378 p.
Deaton A. (1997). The analysis of household surveys. A microeconomitric approach to
development policy. Baltimore : Johns Hopkins University Press, 490 p.
de Carvalho M. (2016). Mean, What do you Mean? The American Statistician, 70(3) : 270-
274.
D'Hainaut L. (1975). Concepts et méthodes de la statistique (Vol. 1). Bruxelles : Labor, 367 p.
Dodge Y. (2007). Statistique, dictionnaire encyclopédique. Paris : Springer, 613 p.
Fox W. ; Imbeau L. M. (2007). Statistiques sociales. Bruxelles : De Boec université ; Sainte
Foy : Presses de l'Université Laval, 374 p.
Gissane C. (1998). Understanding and using descriptive statistics. British Journal of
Occupational Therapy, 61(6) : 267-272.
Goldfarb B. ; Pardoux C. (2011). Introduction à la méthode statistique : Manuel et exercices
corrigés. Paris : Dunod, 6ème édition, 384 p
Goos P. ; Meintrup D. (2015). Statistics with JMP: graphs, descriptive statistics, and
probability. Chichester: John Wiley & Sons Ltd, 368 p.
Hurlin C. ; Mignon V. (2015). Statistique et probabilité en économie-gestion. Paris : Dunod,
382 p.
INSEE (2016). Moyenne. https://www.insee.fr/fr/metadonnees/definition/c1970 publié le 13
octobre 2016. Consulté le 17 décembre 2019.
Leboucher L. ; Voisin M-J. (2011). Introduction à la statistique descriptive. Cours et
exercices avec tableur. Toulouse : CEPADUES, 208 pages.
Mazerolle F. (2006). Statistique descriptive. Séries statistiques à une ou deux variables, séries
chronologiques, Indices. Paris : Gualino, 173 p.
Nations Unies (2010). Guide pratique pour la conception d’enquêtes sur les ménages. New
York : Nations Unies, 264 p.
Rao C. R.; Shi X. ; Wu Y. (2014). Approximation of the Expected Value of the Harmonic
Mean and Some Applications. Proceedings of the National Academy of Sciences, 111(44) :
15681–15686.
Sébillotte M. (1978). Itinéraires techniques et évolution de la pensée agronomique. C. R.
Académie d'Agriculture de France, 2 : 906-914.
Spiegel M. R. ; Stephens L. J. (2008). Theory and problems of statistics. Schaum’s Outline
Series. New-York : McGRAW-HILL, 601 p.
28
Statistique Canada (2010). Méthodes et pratiques d’enquête. No 12-587-X, Ottawa :
Statistique Canada, 434 pages.
Techopedia (2018). What is Statistical Mean?
https://www.techopedia.com/definition/26136/statistical-mean, publié le 03 mai 2018.
Consulté le 17 décembre 2019.
View publication stats
View publication stats

Contenu connexe

Similaire à Wp bon

Indices des prix à la consommation et des prix à la production
Indices des prix à la consommation et des prix à la productionIndices des prix à la consommation et des prix à la production
Indices des prix à la consommation et des prix à la productionAbdelhak Essoulahi
 
Chapitre 1 et 2 [Enregistrement automatique].pptx
Chapitre 1 et 2 [Enregistrement automatique].pptxChapitre 1 et 2 [Enregistrement automatique].pptx
Chapitre 1 et 2 [Enregistrement automatique].pptxdalaamaima
 
L’approche actuarielle dans la prise de décision
L’approche actuarielle dans la prise de décisionL’approche actuarielle dans la prise de décision
L’approche actuarielle dans la prise de décisionVincent Berthet
 
Cartes auto organisées pour l’analyse exploratoire de
Cartes auto organisées pour l’analyse exploratoire deCartes auto organisées pour l’analyse exploratoire de
Cartes auto organisées pour l’analyse exploratoire deJovani NDABTJE
 
Le traitement des données
Le traitement des donnéesLe traitement des données
Le traitement des donnéesNajlaa Zouaoui
 
• Les statistiques peuvent être vues en fonction de l'objectif fixé ;
• Les statistiques peuvent être vues en fonction de l'objectif fixé ;• Les statistiques peuvent être vues en fonction de l'objectif fixé ;
• Les statistiques peuvent être vues en fonction de l'objectif fixé ;bawen34465
 
Chapitre1:Introduction aux méthodes de sondage
Chapitre1:Introduction aux méthodes de sondageChapitre1:Introduction aux méthodes de sondage
Chapitre1:Introduction aux méthodes de sondageMahamadou Haro
 
Ch4 andoneco [mode de compatibilité]
Ch4 andoneco [mode de compatibilité]Ch4 andoneco [mode de compatibilité]
Ch4 andoneco [mode de compatibilité]Khalid Benammi
 
Nsg 5592 module 1
Nsg 5592 module 1Nsg 5592 module 1
Nsg 5592 module 1aduboi4
 
Note du Commissariat général à la stratégie et la prospective - 22/07/2014
Note du Commissariat général à la stratégie et la prospective - 22/07/2014Note du Commissariat général à la stratégie et la prospective - 22/07/2014
Note du Commissariat général à la stratégie et la prospective - 22/07/2014FactaMedia
 
Statisticien Brach Loic
Statisticien   Brach LoicStatisticien   Brach Loic
Statisticien Brach Loicgawronski
 

Similaire à Wp bon (20)

Biostatistique
BiostatistiqueBiostatistique
Biostatistique
 
Indices des prix à la consommation et des prix à la production
Indices des prix à la consommation et des prix à la productionIndices des prix à la consommation et des prix à la production
Indices des prix à la consommation et des prix à la production
 
Feuille de travail - Health Evidence™ Outil d’évaluation de la qualité - webi...
Feuille de travail - Health Evidence™ Outil d’évaluation de la qualité - webi...Feuille de travail - Health Evidence™ Outil d’évaluation de la qualité - webi...
Feuille de travail - Health Evidence™ Outil d’évaluation de la qualité - webi...
 
Chapitre 1 et 2 [Enregistrement automatique].pptx
Chapitre 1 et 2 [Enregistrement automatique].pptxChapitre 1 et 2 [Enregistrement automatique].pptx
Chapitre 1 et 2 [Enregistrement automatique].pptx
 
Stat1 Les Indices
Stat1  Les IndicesStat1  Les Indices
Stat1 Les Indices
 
L’approche actuarielle dans la prise de décision
L’approche actuarielle dans la prise de décisionL’approche actuarielle dans la prise de décision
L’approche actuarielle dans la prise de décision
 
Les statistiques
Les statistiquesLes statistiques
Les statistiques
 
Cartes auto organisées pour l’analyse exploratoire de
Cartes auto organisées pour l’analyse exploratoire deCartes auto organisées pour l’analyse exploratoire de
Cartes auto organisées pour l’analyse exploratoire de
 
Le traitement des données
Le traitement des donnéesLe traitement des données
Le traitement des données
 
• Les statistiques peuvent être vues en fonction de l'objectif fixé ;
• Les statistiques peuvent être vues en fonction de l'objectif fixé ;• Les statistiques peuvent être vues en fonction de l'objectif fixé ;
• Les statistiques peuvent être vues en fonction de l'objectif fixé ;
 
décrire les données (1).pdf
décrire les données (1).pdfdécrire les données (1).pdf
décrire les données (1).pdf
 
Chapitre1:Introduction aux méthodes de sondage
Chapitre1:Introduction aux méthodes de sondageChapitre1:Introduction aux méthodes de sondage
Chapitre1:Introduction aux méthodes de sondage
 
Ch4 andoneco [mode de compatibilité]
Ch4 andoneco [mode de compatibilité]Ch4 andoneco [mode de compatibilité]
Ch4 andoneco [mode de compatibilité]
 
Statistiques descriptives
Statistiques descriptivesStatistiques descriptives
Statistiques descriptives
 
Cours scoring
Cours scoringCours scoring
Cours scoring
 
Nsg 5592 module 1
Nsg 5592 module 1Nsg 5592 module 1
Nsg 5592 module 1
 
Note du Commissariat général à la stratégie et la prospective - 22/07/2014
Note du Commissariat général à la stratégie et la prospective - 22/07/2014Note du Commissariat général à la stratégie et la prospective - 22/07/2014
Note du Commissariat général à la stratégie et la prospective - 22/07/2014
 
Conjoint liquet benavent
Conjoint liquet benaventConjoint liquet benavent
Conjoint liquet benavent
 
Démarche des analyses statistiques de base
Démarche des analyses statistiques de baseDémarche des analyses statistiques de base
Démarche des analyses statistiques de base
 
Statisticien Brach Loic
Statisticien   Brach LoicStatisticien   Brach Loic
Statisticien Brach Loic
 

Wp bon

  • 1. See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/339875302 Calcul des moyennes en statistique descriptive : des erreurs sont commises Preprint · March 2020 DOI: 10.13140/RG.2.2.22049.56161/2 CITATIONS 0 READS 6,398 1 author: Some of the authors of this publication are also working on these related projects: Amélioration de l’accès à l'eau potable, à l’assainissement et aux pratiques d’hygiène en milieu rural View project Plans Fonciers Ruraux View project Sylvain Kpenavoun Chogou University of Abomey-Calavi 65 PUBLICATIONS   105 CITATIONS    SEE PROFILE All content following this page was uploaded by Sylvain Kpenavoun Chogou on 20 February 2021. The user has requested enhancement of the downloaded file.
  • 2. - EESAC/FSA/UAC; BP 1471 Abomey-Calavi, Bénin Email: leppadesac@yahoo.fr REPUBLIQUE DU BENIN ¤¤¤¤ UNIVERSITE D’ABOMEY-CALAVI ¤¤¤¤¤ FACULTE DES SCIENCES AGRONOMIQUES ¤¤¤¤¤¤ ECOLE D’ECONOMIE, DE SOCIO- ANTHROPOLOGIE ET DE COMMUNICATION POUR LE DEVELOPPEMENT RURAL Laboratoire d’Etudes sur la Pauvreté et la Performance de l’Agriculture Working Paper N°01/2020/UAC/FSA/EESAC/LEPPA Calcul des moyennes en statistique descriptive : des erreurs sont commises KPENAVOUN CHOGOU Sylvain, PhD Agro-économiste, Maître de Conférences Laboratoire d’Etude de la Pauvreté et de la Performance de l’Agriculture (LEPPA) Faculté des Sciences Agronomiques Université d'Abomey-Calavi (Bénin) Email : kpenavoun@yahoo.fr .
  • 3. 1 Résumé Le calcul de la moyenne d’une variable quantitative requiert une attention particulière du fait de la variété des types de moyenne existants. La plupart des documents de statistique descriptive insistent plus sur la moyenne arithmétique, donnant ainsi peu d'attention aux autres types de moyennes. En conséquence, la moyenne qui semble assez familière peut être mal calculée ou mal interprétée dans certaines situations. Le présent document aborde les différents types de moyenne tout en mettant en lumière les pièges souvent méconnus des utilisateurs. Il propose également une définition opérationnelle de la moyenne et sa mise en application avec des exemples pratiques. Avec cette définition, les utilisateurs pourront calculer la moyenne de toute variable quantitative sans connaître préalablement le type de moyenne adéquat. Ils pourront désormais faire attention au concept de la moyenne d’une variable quantitative et minimiseront les erreurs dans son calcul. Mots clés : Moyenne, définition opérationnelle, statistique descriptive, erreur. Abstract Mean values are mistakenly calculated: some guidelines to avoid pitfalls Calculating the mean of a quantitative variable requires special attention due to the variety of of types of averages that exist. Most descriptive statistical documents place more emphasis on the arithmetic mean, thus giving little attention to other types of means. As a result, the mean that seems fairly simple and familiar may be miscalculated or misinterpreted in some situations. This paper addresses the different types of means while highlighting the often unrecognized pitfalls of users. It also proposes an operational definition of the mean and its application with practical examples. This definition will allow users to calculate the mean of any quantitative variable without necessarily knowing its nature. Users will now be able to pay more attention to the concept of the mean of a quantitative variable and avoid mistake while calculating it. Keywords : Mean, operational definition, descriptive statistics; error.
  • 4. 2 1. Introduction Cette note s'intéresse à une méthodologie d'estimation des moyennes de variables quantitatives sans erreur de calcul. Il ne s'agit pas de l'estimation d'une moyenne de la population sans une marge d'erreur d'échantillonnage ; cela n'est pas possible mais il s'agit ici d'éviter des erreurs liées à la démarche d'estimation de la moyenne elle-même indépendamment des erreurs d'échantillonnage. Le document est donc orienté vers le choix approprié du type de moyenne à appliquer à une série de données statistiques provenant d'une population de faible taille ou d'un échantillon aléatoire. L'objectif de la statistique descriptive est de résumer et synthétiser l'information contenue dans les données étudiées afin d'en déduire un certain nombre de propriétés (Hurlin et Mignon, 2015). A cet effet, la moyenne est le paramètre statistique le plus utilisé aussi bien par les statisticiens que par les non spécialistes dans une première étape de caractérisation d'un ensemble de données. La moyenne arithmétique semble assez simple et familière de sorte qu’elle est souvent abusivement choisie, mal utilisée ; ce qui engendre des erreurs d’interprétations et de prises de mauvaises décisions. Lorsqu’on parle de moyenne, la plupart des utilisateurs pensent immédiatement à la moyenne arithmétique simple même s'ils savent qu'il existe plusieurs types de moyennes (Spiegel et Stephens, 2008 ; Goos et Meintrup, 2015). Dans beaucoup de livres et documents scientifiques, les auteurs, par soucis de rigueur mathématique, préfèrent se passer de la définition littérale de la moyenne pour donner les fondements théoriques aboutissant aux formules de ces moyennes et de tels documents deviennent ainsi peu exploitables par les utilisateurs. Ces auteurs n'ont pas tord parce que lorsqu'on quitte le formalisme mathématique pour rentrer dans un processus de vulgarisation des notions statistiques, on devient forcément moins rigoureux. Ainsi, dans le livre de Leboucher et Voisin (2011) intitulé "Introduction à la statistique descriptive : cours et exercices avec tableur", le livre "Statistique descriptive : séries statistiques à une ou deux variables, séries chronologiques, indices" de Mazerolle (2006), ou le livre "Statistique et probabilité en économie-gestion" de Hurlin et Mignon (2015), le concept de moyenne a été utilisé sans une définition préalable. Ils ont seulement exposé dans ces documents les formules de calcul des différents types de moyennes en commençant par celui de la moyenne arithmétique. Toutefois, certains auteurs ont tenté de donner une définition littérale de la moyenne dans une démarche pédagogique. Selon l'INSEE (2016), " La moyenne est l'indicateur le plus simple pour résumer l'information fournie par un ensemble de données statistiques : elle est égale à la somme de ces données divisée par leur nombre. Elle peut donc être calculée en ne connaissant que ces deux éléments, sans connaître toute la distribution ". La moyenne est " Une grandeur de tendance centrale calculée. La moyenne arithmétique (notée ) est de loin la caractéristique de tendance centrale la plus usitée, celle dont on use et abuse sans toujours bien la comprendre. La moyenne arithmétique d’une variable statistique est la somme, pondérée par les fréquences, des valeurs " (Bailly et Carrère, 2015 : p. 81). De même, Calot (1965) a défini la moyenne d'une variable statistique comme étant la somme pondérée des valeurs possibles par les fréquences. Bernstein et Bernstein (1999 : p. 139) sont restés dans la généralité en ce qui concerne la moyenne : "The average value in a data set is the most typical, frequent, or representative measurement in the set. Because of the usual concentration of measurements in the center of a
  • 5. 3 distribution, the various measures of central tendency are generally also called measures of average value (or averages)". Spiegel et Stephens (2008 : p. 62), en revanche, sont relativement plus précis : "an average is a value that is typical, or representative, of a set of data. Since such typical values tend to lie centrally within a set of data arranged according to magnitude, averages are also called measures of central tendency. Several types of averages can be defined, the most common being the arithmetic mean, the median, the mode, the geometric mean, and the harmonic mean. Each has advantages and disadvantages, depending on the data and the intended purpose". Dans le dictionnaire en ligne, mis à jour le 3 mai 2018 Techopedia (2018), la définition de la moyenne est la suivante : "The statistical mean refers to the mean or average that is used to derive the central tendency of the data in question. It is determined by adding all the data points in a population and then dividing the total by the number of points. The resulting number is known as the mean or the average". Les propositions des auteurs cités ci-dessus ne sont pas de nature à aider le lecteur à déterminer le type de moyenne en fonction des observations faites sur la variable analysée. En regardant de plus près les écrits des auteurs comme Gissane (1998 : p. 270), "The mean is calculated by adding together each of the scores, and then dividing them by the total number of observations" et Goos et Meintrup (2015: p. 55), "Location statistics are values that best describe the central tendency of data. The most commonly used statistics are the arithmetic mean, the median, and the mode. Sometimes, the geometric mean makes more sense than the arithmetic mean", il en découle que la plupart des auteurs abordent la notion de la moyenne d'une variable quantitative par la définition de la moyenne arithmétique simple. Par ailleurs, la définition de la moyenne arithmétique fournie n'est que sa formule de calcul. Dans certains polycopiés de cours de statistique descriptive, la moyenne est définie comme un paramètre statistique qui donne une position centrale d'un caractère ou d'une variable dans une population ; elle est calculée en utilisant toutes les valeurs observées du caractère et prend différentes expressions suivant la nature du caractère considéré. Cette définition demeure très générale et n'est pas opérationnelle, car ne permettant pas d'identifier le type de moyenne à déterminer devant une série de données statistiques. La définition de Dagnelie (1973) est aussi générale. Selon cet auteur, les moyennes sont des paramètres de position, aussi appelées valeurs centrales, qui servent à caractériser l'ordre de grandeur des observations. Ces définitions ne facilitent pas la tâche aux apprenants et à certains utilisateurs dans le processus de calcul de la moyenne. Au démarrage des cours que nous dispensons depuis plusieurs années sur la conception et la gestion des bases de données aux étudiants de Master en sciences agronomiques et en biostatistique, une révision sur quelques notions de base de la statistique descriptive est toujours réalisée. En effet, sans ce pré-requis, aucune base de données ne serait judicieusement construite. Il est toujours demandé aux étudiants de donner la définition de la moyenne d’une variable quantitative. Pour toutes les promotions encadrées jusque-là, les apprenants ne donnent que la définition de la moyenne arithmétique simple. C'est ainsi qu'une enquête faite auprès de certains diplômés en Statistique de l’Ecole Nationale d’Economie Appliquée et de Management ou de la Faculté des Sciences Economiques et de Gestion a abouti au même constat : les étudiants ne connaissent que le mode de calcul de la moyenne arithmétique simple. Des entretiens informels avec des collègues ont aussi montré que le mal est profond. En conséquence, lorsqu’on demande aux apprenants de déterminer la moyenne de la variable rendement du soja du tableau 1, les plus éclairés estiment qu’il suffit de faire le rapport de la somme des rendements sur les dix (10) ans bien qu'ils aient reçu toutes les formes de calcul
  • 6. 4 des moyennes au cours de leur formation universitaire. Cette proposition des étudiants, évidemment, aboutit à une estimation très imprécise de la moyenne. La méthode appropriée du calcul de rendement moyen est présentée plus tard dans le document. Dans des documents officiels, des moyennes sont aussi mal calculées. Le tableau 2 à la page 6 du Plan Stratégique de Développement du Secteur Agricole (PSDSA), publié par le Ministère de l'Agriculture, de l'Elevage et de la Pêche (MAEP) de la République du Bénin en mai 2017, présente des moyennes erronées des rendements des différentes cultures. En effet, les moyennes des rendements calculées sont des moyennes arithmétiques simples. Ces valeurs moyennes seraient précises si les superficies emblavées par an pour chacune de ces cultures ne variaient pas d'une année à une autre. Ce qui ne serait pas plausible dans le cas du Bénin. Tableau 1 : Production et superficie de soja au Bénin entre 2002 et 2011 Année Production (tonne) Superficie (ha) Rendement (kg/ha) 2002 3678 5499 668,8 2003 5556 6940 800,6 2004 5536 10173 544,2 2005 14687 18990 773,4 2006 10323 15021 687,2 2007 12433 17195 723,1 2008 31110 37042 839,9 2009 55259 58225 949,1 2010 62987 70934 888,0 2011 67154 74650 899,6 Source : MAEP (2017) Avec les données statistiques disponibles, les superficies de chacune de ces cultures ont varié d'une année à une autre. Il sera présenté plus tard dans le document, les moyennes des rendements des différentes cultures calculées avec la méthode appropriée. Tableau 2 : Rendements de certaines spéculations produites au Bénin (en kg/ha) Spéculations Référence 2008 2011 2012 2013 2014 2015 Moyenne Maïs 1088 1422 1251 1383 1399 1281 1347 Riz 3128 3924 3333 3032 3139 3129 3311 Sorgho 991 1191 1010 1046 988 986 1044 Igname 14484 16982 13669 15073 15046 13082 14770 Manioc 12602 17377 13303 13221 13709 12043 13931 Tomate 5386 5821 6446 8326 8779 7786 7432 Piment 2014 1954 2783 2651 2706 2928 2604 Palmier à huile 8512 ND 10700 5950 ND ND 5129 Anacarde ND ND ND ND 325 ND 325 Coton 1046 961 716 886 970 ND 883 Ananas 56193 79555 57361 53413 57459 47459 59049 Source : MAEP (2017). Dans de nombreux articles scientifiques, des moyennes arithmétiques simples sont calculées alors que l'échantillon utilisé n'est pas auto-pondéré ou que certains articles n'apportent aucune information pour éclairer le lecteur sur le caractère auto-pondéré ou non de l'échantillon réalisé. Les auteurs de ces articles se limitent souvent à l'annonce du caractère aléatoire de l'échantillon utilisé dans le cadre de leur étude. Un échantillon est dit auto- pondéré lorsque chaque individu de la population étudiée a la même chance ou la même probabilité de faire partie de cet échantillon. En pratique, dans le cas des enquêtes sur des échantillons de grande taille auprès des ménages, il est rare que l'échantillon soit auto- pondéré.
  • 7. 5 Il est donc clair que des erreurs sont commises dans le calcul de la moyenne des variables quantitatives avec la fâcheuse tendance des utilisateurs à se précipiter et à utiliser systématiquement la moyenne arithmétique simple ; ce qui conduit à de graves erreurs de prises de décisions. Lorsqu'on présente, les données du tableau 3 à un professionnel, comment peut-il savoir que la moyenne du taux de change sur l'ensemble des cinq versements n'est pas une moyenne arithmétique simple ou une moyenne arithmétique pondérée définie de façon classique en statistique ou une moyenne géométrique mais plutôt une moyenne harmonique ? La démonstration sera faite dans le document par la suite. Avec la même variable « taux de change » présentée dans le tableau 4, les apprenants proposent souvent une moyenne géométrique. Or, il s’agit bien d’une moyenne arithmétique pondérée par le montant en francs Suisse. Tableau 3 : Taux de change des différents versements réalisés par Coopération Suisse à un laboratoire Versement Montant (en FCFA) Taux de change (1 Franc Suisse en FCFA) 1 5.000.000 590,6 2 5.000.000 550,3 3 5.000.000 554,5 4 5.000.000 565,2 5 5.000.000 593,4 Source : Données propres de l'auteur Il faut bien noter que les deux tableaux 3 et 4 n'ont pas de lien; les deux laboratoires et ne se connaissent pas. Donc, pour la même variable, deux types différents de moyennes sont calculés. Comment déterminer alors avec une meilleure précision le type de moyenne à calculer en face des observations faites sur une variable quantitative ? Tableau 4 : Montants reçus des différents versements réalisés par la Coopération Suisse à un laboratoire Versement Montant (en Francs Suisse) Taux de change (1 Franc Suisse en FCFA) 1 7.992 590,6 2 3.242 550,3 3 3.246 554,5 4 4.429 565,2 5 2.237 593,4 Source : Données propres de l'auteur L'absence de précision dans la définition de la moyenne statistique et donc du calcul et de l'interprétation des moyennes n'induit-elle pas les chercheurs et praticiens de terrain à prendre des décisions erronées ? Comment identifier sans se tromper le type de moyenne à calculer quand on sait qu'on a les moyennes harmoniques, arithmétiques, géométriques, etc ? Cette question a déjà été la préoccupation de plusieurs auteurs. C'est le cas de Rao et al. (2014) qui ont fait le constat selon lequel bien que la moyenne harmonique soit mentionnée dans les livres académiques avec la moyenne arithmétique et la moyenne géométrique comme trois façons possibles de résumer l’information dans un ensemble d’observations, sa pertinence dans certaines applications statistiques n’est pas mentionnée dans ces documents. De même, de Carvalho (2016) s'est préoccupé de cette question dans son article "Mean, What do You Mean?". Mais,
  • 8. 6 tous ces auteurs n'ont pas proposé une définition opérationnelle de la moyenne afin de faciliter sa compréhension par la majorité et de réduire des erreurs de son calcul. Ils ont préféré garder la rigueur mathématique avec une définition théorique de la moyenne. Ce document a été écrit pour répondre à ces questions et pour aider les utilisateurs à mieux comprendre le concept de la moyenne d’une variable quantitative avec une définition opérationnelle et des exemples pratiques. La définition proposée permettra aux utilisateurs de calculer la moyenne de toute variable quantitative sans connaître a priori le type de moyenne approprié. Il permettra à beaucoup de chercheurs et praticiens de terrain de commettre moins d'erreurs dans le calcul des moyennes des données statistiques qu'ils collectent et analysent. L’un des objectifs de la statistique descriptive est d’estimer des moyennes non biaisées et plus précises. Ce document se limite principalement à ce rôle et abordera brièvement l’impact des erreurs de calcul de la moyenne sur les prises de décisions scientifiques et politiques. L’analyse des données étant purement documentaire, après la précision sur la méthode de collecte des données et le rappel de la définition de quelques concepts importants, la définition opérationnelle de la moyenne sera fournie et mise en œuvre avec quelques exemples pratiques. Une discussion permettra de relever les points d'ombre et le relâchement de certaines règles. Enfin, la conclusion permettra de tirer les leçons apprises. 2. Méthodologie 2.1.Méthodesdecollectedesdonnées Les données exploitées dans ce document proviennent de deux sources : les livres ou articles sur la statistique descriptive écrits en français ou en anglais et une enquête auprès des diplômés de niveau master ou doctorat. Plusieurs livres sur la statistique descriptive a été consultée afin de voir comment y est traitée la notion de la moyenne. On ne peut pas affirmer que ces livres sont représentatifs de l’ensemble des documents écrits sur la statistique descriptive mais ce nombre est suffisant pour comprendre la notion de la moyenne parce qu’ils sont écrits exclusivement sur la statistique descriptive. Ensuite 700 diplômés ont été sélectionnés par un tirage aléatoire stratifié parmi les diplômés de l'UAC de 2018 et 2019 de niveau master ou doctorat qui avaient bien suivi des cours de statistique descriptive dans leurs cursus universitaires. Il est évident que ce nombre n’est pas représentatif de tous les diplômés de l’UAC ayant suivi des cours de statistique descriptive dans leurs cursus universitaires. Toutefois, ce nombre a été suffisant pour montrer l'ampleur du problème relatif au calcul de la moyenne d’une variable quantitative. Ces diplômés ont été invités à résoudre l'exercice dont le contenu est présenté ci-dessous. Un laboratoire de recherche de l’Université d’Abomey-Calavi de la République du Bénin a rédigé un projet financé en partie par la Coopération Suisse. Dans la gestion de ce projet, ce laboratoire a reçu cinq (5) versements égaux en Francs CFA provenant de la Coopération Suisse en Franc Suisse (CHF) aux taux de change présentés dans le tableau 3. Questions 1. Comment peut-on définir la moyenne du taux de change pour l'ensemble des cinq (5) versements ? 2. Quel est le taux de change moyen pour l'ensemble des cinq (5) versements ? 3. Quel est le type moyenne à considérer ?
  • 9. 7 2.2.Définitionsdequelquesconceptsnécessairesaucalculdelamoyenne 2.2.1. Population En statistique, le terme population vient du fait que la démographie, étude des populations humaines, a occupé une place centrale aux débuts de la statistique ; notamment au travers des recensements de population (Leboucher et Voisin, 2011). Ainsi, selon Hurlin et Mignon (2015), "une population est un ensemble, fini ou non, d'éléments que l'on souhaite étudier. Ces éléments portent le nom d'individus ou d'unités statistiques. Il peut s'agir par exemple d'êtres humains (adultes, enfants, chômeurs, salariés, etc.), d'animaux, de végétaux ou encore d'objets (entreprises, voitures, ordinateurs, etc.)". On utilise parfois le terme univers surtout en probabilité statistique pour désigner la population étudiée. Une même population peut être décomposée selon la nature des différents types d'unités élémentaires (par exemple en ménages et en individus au sens courant du terme). On peut aussi être amené à considérer une décomposition de l'univers en unités à plusieurs degrés, chaque unité d'un degré donné étant elle-même composée d'unités du degré suivant. Par exemple, du point de vue démographique, une zone rurale peut être décomposée en villages, unités du premier degré (unités primaires) composées de ménages, unités du second degré (unités secondaires), elles-mêmes composées d'individus, unités du troisième degré (unités tertiaires). Lorsque les données doivent provenir d'une enquête faite sur les ménages, on distingue trois types d'unités d'enquête qu'il faut identifier correctement afin d'éviter des problèmes durant les stades de la sélection, de la collecte des données et de l'analyse des données : - l'unité d'échantillonnage ou unité statistique, qui fait partie de la base de sondage et qui peut donc être sélectionnée ; - l'unité déclarante, qui fournit l'information qu'exige l'enquête ; - l'unité de référence ou l'unité d'analyse – c'est-à-dire l'unité au sujet de laquelle l'information est fournie – qui sert à analyser les résultats de l'enquête. Par exemple, dans le cadre d'une enquête sur l’impact de la consommation d’eau potable sur les enfants de moins de 5 ans : - l'unité d'échantillonnage pourrait être un ménage ; - l'unité déclarante, l'un des parents ou le tuteur légal ; - et l'unité d’analyse, les enfants de moins de 5 ans. L'univers étudié doit être défini de manière précise, que ce soit du point de vue des unités élémentaires le composant ou du point de vue de ses limites. 2.2.2. Base de sondage Une fois que la population a été clairement définie, il faut constituer la base de sondage. La base de sondage est la liste complète et à jour des unités de la population sans omission ni double-comptage, et telle que l'identification de chaque unité se fasse sans ambiguïté. Autrement dit, la base de sondage est la liste numérotée (de 1 à N) des N individus d'une population, dans laquelle on veut par sondage extraire un échantillon. Il est intéressant de disposer, dans la base de sondage, d'informations concernant les unités statistiques (en plus, bien sûr, de leur localisation) utilisables pour le sondage. Ces renseignements sont appelés variables auxiliaires qui peuvent être utilisées, soit pour améliorer la technique de tirage, soit pour calculer une estimation plus efficace. Sans une base de sondage fiable, il serait difficile de constituer un échantillon aléatoire et représentatif (Nations Unies, 2010).
  • 10. 8 2.2.3. Echantillon On appelle échantillon, un sous-ensemble de la population considérée qui doit posséder les mêmes caractéristiques statistiques que la population dont il est issu (Hurlin et Mignon, 2015). C'est à partir des résultats observés sur l'échantillon qu'on va "extrapoler" pour produire des estimations sur l'univers étudié. L’échantillon doit donc être aussi représentatif que possible de la population. L'échantillon est obtenu à la fin d'un processus d'échantillonnage. Selon D’Hainaut (1975), "l’échantillonnage est l’opération qui consiste à prélever un certain nombre d’éléments (c’est-à-dire un échantillon) dans l’ensemble des éléments qu’on veut observer ou traiter (population ou univers)". La nécessité de tels échantillons tient au fait que la taille de l'univers à décrire est souvent trop grande pour être intégralement observée. L'échantillonnage permet aux statisticiens de tirer des conclusions au sujet d'un tout en y examinant une partie. Le principe étant qu'une cuillerée suffit pour goûter à toute la soupe. Un échantillon est ainsi un sous-ensemble de la population considérée qui doit posséder les mêmes caractéristiques statistiques que la population dont il est issu. Il existe deux types de méthodes d'échantillonnage : l'échantillonnage probabiliste ou échantillonnage aléatoire et l'échantillonnage non probabiliste ou échantillonnage non aléatoire. Seul l'échantillonnage probabiliste conduit à un échantillon aléatoire. Un échantillon est dit aléatoire lorsque chaque unité statistique a une chance ou une probabilité non nulle d'être sélectionnée et cette chance peut être quantifiée (donc connue). Il importe de noter que la chance que chaque individu a d’être sélectionné ne doit pas nécessairement être égale mais peut varier selon les objectifs de l’enquête (Nations Unies, 2010). En fait, dans les enquêtes les plus complexes, la probabilité d’inclusion varie d’une unité à l’autre. Lorsque la probabilité d'inclusion est la même d'une unité à une autre, l'échantillon est dit aléatoire simple ou aléatoire systématique. L’échantillonnage probabiliste, dans le contexte des enquêtes sur les ménages, désigne les moyens utilisés pour sélectionner les unités d'enquête de la population cible - unités géographiques, ménages et personnes - qui seront inclus dans l’enquête. Pour cela, il faut : a) que chaque élément ait une chance mathématique connue d’être sélectionné ; b) que cette chance soit supérieure à zéro ; et c) qu’elle soit numériquement calculable. (Nations Unies, 2010). Il y a de nombreux types différents de plans d’échantillonnage probabiliste : échantillonnage aléatoire simple, échantillonnage systématique, échantillonnage avec probabilité proportionnelle à la taille, échantillonnage par grappes, échantillonnage stratifié, échantillonnage à plusieurs degrés ou phases, échantillonnage par répliques, etc. Chacune de ces techniques d’échantillonnage est utile dans différentes situations (Statistique Canada, 2010). Dans le cas de l'échantillonnage non aléatoire, la probabilité d'inclusion d'une unité statistique à l'intérieur d'un échantillon ne peut pas être quantifiée. Ce type d'échantillonnage se traduit par un choix arbitraire ou raisonné des unités de recherche c’est-à-dire que le chercheur, selon ses propres critères, et son raisonnement qu'il pense juste, décide d'impliquer tel ou tel autre individu dans son échantillon. Les méthodes d'échantillonnage non probabiliste les plus utilisées sont : échantillonnage de commodité ou à l'aveuglette, échantillonnage à participation volontaire, échantillonnage sur la base du jugement ou échantillonnage raisonné, échantillonnage par quotas et échantillonnage par marche aléatoire.
  • 11. 9 2.2.4. Différents types de variables en statistique Variable quantitative Une variable est dite quantitative lorsqu’elle est intrinsèquement numérique. Elle peut être une variable quantitative discontinue ou discrète ou une variable quantitative continue. Les variables quantitatives discontinues sont des variables qui ne peuvent pas prendre toutes les valeurs dans un intervalle de l'ensemble des nombres réels. Ces variables quantitatives discontinues sont discrètes lorsqu’elles ne peuvent prendre que des valeurs isolées ou discrètes, appartenant généralement à l’ensemble des entier naturels. Le nombre d’enfants d’une famille, la taille du ménage, le nombre de pétales d’une fleur, le nombre de buts marqués lors d’une rencontre de football, etc. sont des variables quantitatives discontinues ou discrètes. Les variables quantitatives continues, quant à elles, peuvent prendre toutes les valeurs numériques possibles d’un ensemble inclus dans l'ensemble des nombres réels. Le revenu d’un ménage, la taille d’un individu, l’âge d’un individu, le taux de natalité, le chiffre d’affaire d’une entreprise, le profit d’une entreprise, la masse salariale annuelle d’un pays, etc. sont des variables quantitatives continues. On admet que lorsqu’une variable quantitative discontinue peut prendre un grand nombre de valeurs et que la taille de l’échantillon est élevée, elle peut être traitée comme une variable quantitative continue (Goldfarb et Pardoux, 2011). Variable qualitative Une variable est dite qualitative si ses différentes réalisations (c'est-à-dire ses modalités) ne sont pas numériques (Goldfarb et Pardoux, 2011). Les modalités des variables qualitatives doivent être mutuellement exclusives et collectivement exhaustives. "Mutuellement exclusives" signifie que les catégories de valeurs ne se chevauchent pas, chaque cas tombe dans une seule catégorie. "Collectivement exhaustives" signifie que l'ensemble des catégories de valeurs inclut tous les cas, chaque cas tombe dans une catégorie. Ainsi, le sexe, la situation matrimoniale, la catégorie socio-professionnelle, etc. sont des variables qualitatives. On peut toujours rendre numérique une telle variable en associant un nombre à chaque modalité ; on dit alors que les modalités sont codées. On a souvent recours aux codes pour faciliter leur utilisation par certains algorithmes d’apprentissage automatique qui ne prennent que des valeurs numériques en entrée. Bien entendu, les valeurs numériques n’ont dans ce cas aucune signification particulière, et effectuer des opérations algébriques sur ces valeurs numériques n’a pas de sens. Toutefois, parmi les variables qualitatives, on distingue les variables qualitatives dichotomiques qui ne présentent que deux modalités, par exemple le sexe ou le fait d'être en vie ou décédé. Le codage des modalités d’une telle variable par 0 et 1 a une signification particulière. Ainsi codée, la moyenne arithmétique de cette variable permet d'obtenir la proportion de la modalité qui a été codée par 1. En conséquence, les deux modalités des variables qualitatives dichotomiques seront toujours codées par 0 et 1. Dans ces conditions, ces variables qualitatives dichotomiques sont considérées comme des variables quantitatives discontinues. Lorsqu’elles sont codées par 1 et 2 comme le font certains chercheurs, les valeurs numériques n’ont dans ce cas aucune signification particulière. Elles demeurent purement des variables qualitatives. Il faut donc éviter ce type de codage. Toutefois, la moyenne de la variable dichotomique dont les modalités sont codées par 1 et 2 moins un donne la proportion de la modalité codée 2. En général, lorsque les modalités d'une variable
  • 12. 10 dichotomique sont codées par deux nombres consécutifs, sa moyenne moins le code le plus petit est égale à la proportion des cas désignés par le code le plus élevé (Fox et Imbeau, 2007). Par exemple, considérons une population de ménages dont ménages sont dirigés par les femmes. On s’intéresse à la mesure de la variable dichotomique "Sexe" notée , le sexe du chef de ménage. On décide de coder les hommes par 0 et les femmes par 1. On désigne par la proportion des femmes de cette population. Par définition, . Il s'agira maintenant de montrer que . étant une moyenne arithmétique, on a: Les variables qualitatives dichotomiques lorsqu’elles font partie des variables indépendantes dans une régression, leurs modalités doivent toujours être codées aussi par 0 et 1. On les appelle dans cette condition, variables muettes. Autre codification peut être une source d’erreurs. Les variables qualitatives polytomiques ou catégorielles correspondent aux variables qualitatives qui ont modalités avec . Lorsqu’une variable qualitative polytomique fait partie des variables indépendantes d’un modèle de régression, chacune de ses modalités doit être transformée en variables muettes. On a donc variables muettes. On ne va donc pas introduire cette variable directement dans le modèle mais l’ensemble des variables muettes. On va considérer la dernière variable muette comme la modalité de référence. Il est donc clair que le calcul de la moyenne se fait uniquement avec des variables quantitatives ou avec des variables qualitatives dichotomiques dont les modalités sont codées par 1 et 0. Ces dernières variables sont en effet considérées dans ces conditions comme des variables quantitatives discontinues. 3. Calcul de moyennes statistiques avec discernement 3.1.Définitionopérationnelledelamoyenne La moyenne d’une variable quantitative peut être calculée sur la population ou sur un échantillon. Dans la majorité des cas, le calcul se fait sur un échantillon. Soient la taille de l’échantillon et la taille de la population (population finie). La valeur prise par la variable sur l’individu i est notée . C'est l'observation faite sur l’individu . Une variable étant une caractéristique mesurable à laquelle on peut attribuer plusieurs valeurs différentes (Dodge, 2007), la moyenne d’une variable quantitative permet de résumer les valeurs prises par cette variable mesurée sur les individus d'un échantillon ou d'une population en une seule valeur unique. Elle est donc une mesure de tendance centrale (Dodge, 2007) ayant la propriété de conserver la caractéristique de l’ensemble des observations quand on remplace chacune de ces observations par cette valeur unique. En pratique, si les valeurs prises par la variable représentaient une quantité à partager entre des individus, la moyenne exprimerait dans ce cas la valeur qu’aurait chaque individu si le partage était équitable. Autrement dit, la moyenne est la valeur unique que devrait avoir chacun des individus d'une population (ou d'un échantillon) pour que le total des observations soit inchangé. On est donc à la recherche d’une valeur unique de la variable (notée qui puisse remplacer chacune des valeurs observées sur les individus de l’échantillon ou les
  • 13. 11 individus de la population. Cette valeur unique doit permettre d’avoir le total de toutes les observations. Cette valeur unique de la variable est sa moyenne. C'est quoi alors le total des observations ? Dans la plupart des cas, le total formé par les valeurs d’une variable mesurée sur les individus d'une population ou d’un échantillon est directement la somme de ces valeurs. La moyenne est alors la moyenne arithmétique simple. Dans certains cas, la somme des valeurs d’une variable mesurée sur les individus d'une population ou d’un échantillon n’a pas de sens ou bien le total des valeurs de la variable mesurée sur les individus de la population ou d’un échantillon n’est pas égal à la somme de ces valeurs. Cela est souvent le cas lorsque l’analyse est faite sur une unité d'observation qui n’est pas l’unité statistique ou bien lorsque la variable est un rapport de deux autres variables, donc un ratio. Par exemple, si nous considérons la variable « Taux de change » du tableau 3, la somme des taux de change des 5 versements n’a aucun sens. De même, la somme des rendements des 10 années du tableau 1 n’a aucun sens. Dans ces conditions, il est certain que le total n’est pas égal à la somme des valeurs de la variable mesurée sur tous les individus de la population ou de l’échantillon considéré. La moyenne dans ces cas n’est pas une moyenne arithmétique simple. Des calculs intermédiaires sur les valeurs de la variable peuvent être nécessaires avant que le total n'ait un sens. La principale préoccupation dans le calcul de la moyenne est donc d’identifier la formule par laquelle le total des observations peut être obtenu. Une fois que cette formule est identifiée, le calcul de la moyenne devient simple. Nous montrerons par des exemples comment calculer la moyenne dans les différents cas évoqués. Il n'est pas donc nécessaire de connaître a priori le type de moyenne avant de déterminer cette moyenne. On se rendra compte facilement après calcul, de la nature de la moyenne en question. En conséquence, devant toute situation de calcul de moyenne d'une variable quantitative, les trois étapes suivantes doivent être suivies dans l’ordre : 1. donner la défintion opérationnelle de la moyenne de la variable en question, ce qui n’est pas sa formule de calcul ; 2. déterminer l’expression littérale de cette moyenne ; 3. déduire le type de la moyenne appropriée. 3.2.Miseenœuvredeladéfinitionopérationnellepourlecalculdesmoyennes Tous les types de moyennes existent sous deux formes: simple et pondérée. La nuance entre ces deux formes sera expliquée au niveau de chaque type de moyenne abordé. 3.2.1. Moyennes arithmétiques simple et pondérée Moyenne arithmétique simple ou moyenne arithmétique Dans la littérature, on utilise couramment la moyenne arithmétique en lieu et place de la moyenne arithmétique simple. Lorsqu’on dispose de la série des valeurs d’une variable quantitative mesurée sur un échantillon ou sur une population, si le total des valeurs de cette variable a un sens et est égal à la somme de ces valeurs alors la moyenne de cette variable est une moyenne arithmétique simple. Mais, il n’est même pas nécessaire de savoir s’il s’agit d’une moyenne arithmétique ou pas avant de faire le calcul. Il ne faut pas chercher à appliquer une formule toute faite. Soient une variable quantitative mesurée sur les individus d'un échantillon de taille , la valeur de la variable pour l'individu , la moyenne de cette variable avec .
  • 14. 12 Supposons que le total des valeurs de cette variable ait un sens et soit égal à la somme de ces valeurs. Selon la définition opérationnelle proposée, on doit donc avoir : En effet, la moyenne est la valeur unique que devraient avoir tous les individus d'une population (ou d'un échantillon) pour que leur total soit inchangé. En conséquence, . La moyenne de la variable est donc égale au rapport de la somme de toutes les valeurs ou observations sur la taille de l’échantillon . Si la variable était mesurée sur tous les individus de la population, on allait remplacer dans cette formule par . Cette moyenne ne dépend pas de l’ordre des termes et est toujours comprise entre les valeurs minimale et maximale des observations faites (Goldfarb et Pardoux, 2011). Il est possible de déterminer cette moyenne connaissant uniquement le total des observations et le nombre d'observations (INSEE, 2016). Il s’agit donc de la moyenne arithmétique simple. Parfois, les valeurs prises par la variable sont les mêmes pour plusieurs individus. Dans ce cas, on peut décider de construire une liste de valeurs sans répétition notée et une liste des effectifs valeurs notée . On dira par exemple que est le nombre de fois qu'apparait la valeur . La moyenne s’écrit alors : (3). Evidemment, on aura : . Cette formule introduit la notion de moyenne pondérée, dans laquelle les facteurs ne représentent pas nécessairement des effectifs, mais des coefficients appelés poids. Cette notion est abordée dans la section suivante. Moyenne arithmétique pondérée Reprenons l'exemple du tableau 1 et cherchons à calculer la moyenne de la variable rendement. La somme des 10 rendements n'a pas un sens, donc la moyenne arithmétique simple ne peut être utilisée pour calculer cette moyenne. Seul le total des différentes productions ou le total des différentes superficies a un sens. Le rendement moyen dont il s'agit ici est l’unique valeur du rendement qu'on pourrait attribuer à chacun des rendements de toutes les années de production, indépendamment de la superficie emblavée chaque année, pour que la production totale sur l'ensemble des dix (10) années soit la même. Soient la superficie de l'année , la production de l'année le rendement de l'année et le rendement moyen avec où . On doit avoir : (5) Donc :
  • 15. 13 Il s'agit d'une moyenne arithmétique pondérée par la superficie. Alors, pour calculer la moyenne de la variable rendement, on doit tenir compte de la variable superficie qui sera utilisée comme poids. Autrement dit, toutes les observations faites sur le rendement n’ont pas une importance identique. Il est donc important d'attribuer un poids à chaque observation en fonction de son importance relative par rapport aux autres observations. et non obtenu par la méthode de moyenne arithmétique simple. Avec la moyenne arithmétique simple des rendements obtenus chaque année, on aurait sous-estimé l'effort réalisé par les producteurs au cours de la période 2002-2011. Ces deux types de moyenne sont sans biais mais seule la moyenne la moyenne arithmétique pondérée est plus précise. Dans le cadre de l'estimation de la moyenne des rendements sur une population, il est nécessaire d'ajouter à la valeur estimée l'erreur-type ou la marge d'erreur afin de déterminer l'intervalle de confiance. Comme est la production de l'année , pour obtenir le total de la production au cours des 10 années, on peut donc faire la somme des ou la somme des On a donc : (7) En conséquence, le rendement moyen devient le rapport entre la somme des productions de toutes les années et la somme des superficies de toutes les années. De même, la moyenne appropriée dans le cas des données présentées dans le tableau 2 est la moyenne arithmétique des rendements annuels pondérés par les superficies annuelles emblavées. Les résultats sont présentés dans le tableau 5. Il serait superflu de présenter l'ensemble des données qui ont permis de déterminer ces moyennes. Toutefois, les données présentées dans le tableau 6 permettent de vérifier les moyennes de rendements calculées pour le riz. Il est vrai qu'en l'absence d'informations additionnelles aux rendements (superficies ou productions), la moyenne arithmétique simple serait toujours valable. Toutefois, il est rare d'avoir des informations sur les rendements sans avoir des informations sur les superficies ou productions car les rendements ne peuvent pas être calculés sans ces deux informations. Il revient aux chercheurs de faire la requête aux auteurs des données en absence des informations sur des superficies ou productions afin d'améliorer la précision des paramètres calculés. Tout dépend de l'intérêt qu'on porte à la précision des estimateurs. D'une manière générale, la moyenne arithmétique pondérée est la moyenne d'un certain nombre de valeurs affectées de coefficients. Soit la liste des valeurs affectées des coefficients . On a :
  • 16. 14 Tableau 5 : Rendements de certaines spéculations produites au Bénin (en kg/ha) Spéculation 2011 2012 2013 2014 2015 Moyenne arithmétique simple Moyenne arithmétique pondérée Maïs 1422 1251 1383 1399 1281 1347 1345 Riz 3924 3333 3032 3139 3129 3311 3286 Sorgho 1191 1010 1046 988 986 1044 1043 Igname 16982 13669 15073 15046 13082 14770 14686 Manioc 17377 13303 13221 13709 12043 13931 13754 Tomate 5821 6446 8326 8779 7786 7432 7580 Piment 1954 2783 2651 2706 2928 2604 2636 Noix de palme ND 10700 5950 ND ND 8325 7621 Anacarde ND ND 325 ND 325 325 Coton 961 716 886 970 ND 883 880 Ananas 79555 57361 53413 57459 47459 59049 57060 Source: Produit à partir des données du MAEP (2017) Tableau 6 : Statistiques sur le riz produit au Bénin Paramètre 2011 2012 2013 2014 2015 Production (tonne) 218939 219101 206943 234145 204310 Superficie (ha) 55797 65730 68259 74586 65305 Rendement (kg/ha) 3924 3333 3032 3139 3129 Source : MAEP (2017) Lorsque les probabilités de sélection des individus de l'échantillon ne sont pas les mêmes, le poids de chaque unité statistique doit être déterminé. Ils constituent les coefficients dans la formule ci-dessus. En effet, dans le cas où tous les ménages n'ont pas la même probabilité d'appartenir à un échantillon, pour améliorer la validité des estimations et des inférences provenant des analyses, il est nécessaire d’appliquer les pondérations des échantillons pour que la répartition des données soit représentative de la population. Si tous les poids sont égaux, la moyenne arithmétique pondérée est la moyenne arithmétique simple. 3.2.2. Moyennes géométriques simple et pondérée Moyenne géométrique simple ou moyenne géométrique Lorsqu'il n'y a pas de précision sur la moyenne géométrique, il s'agit de la moyenne géométrique simple. Supposons qu'un fonctionnaire d'une entreprise ait été recruté en janvier 1981 avec un salaire à la fin du premier mois. Son salaire est resté constant pendant 4 ans et revalorisé au début de la cinquième année (fin du mois de janvier) avec un coefficient de 1,012. Par la suite, ce salaire revalorisé était resté constant pendant 4 ans, puis revalorisé de nouveau au début de la 9ème année par un coefficient de 1,013. Ainsi, au début de la première année suivant chaque période de quatre ans, le salaire est revalorisé selon les coefficients exposés dans le tableau 7. Quelle est la moyenne des coefficients multiplicateurs du salaire ? L'ensemble des données de cet exemple ne provient pas d'une population connue et donc ne constitue pas un échantillon aléatoire. Il n'est donc pas question d'estimer une moyenne avec la construction d'un intervalle de confiance. Il s'agit de déterminer une moyenne appropriée
  • 17. 15 qui décrit mieux cet ensemble de données et le résultat obtenu est absolument limité à cet ensemble de données. Au cas où l'ensemble des données proviendrait d'un échantillon aléatoire, la moyenne calculée devient un estimateur de la moyenne et la construction de l'intervalle de confiance s'avère nécessaire. Faire la somme des coefficients multiplicateurs du salaire n'a aucun sens parce qu'on ne peut pas attribuer une définition à cette somme. En conséquence, il ne serait pas correct de calculer la moyenne arithmétique simple. Il suffit tout simplement d'exploiter la définition du coefficient multiplicateur et la définition opérationnelle de la moyenne pour pouvoir calculer le coefficient multiplicateur moyen correct du salaire. Le coefficient multiplicateur moyen du salaire est le coefficient multiplicateur unique par lequel il faut multiplier le salaire du fonctionnaire au début de la première année suivant chaque période de quatre ans, de sorte que la valeur de son salaire en 2017 reste inchangée. Soient le coefficient multiplicateur du salaire au début de l'année le coefficient multiplicateur moyen du salaire et le salaire au début de l'année avec où . Tableau 7 : Coefficients multiplicateurs du salaire Année Coefficient multiplicateur 1985 1,012 1989 1,013 1993 1,006 1997 1,017 2001 1,023 2005 1,003 2009 1,006 2013 2,008 2017 1,501 Source : Données propres de l'auteur On a : Donc, On constate aisément qu'il s'agit d'une moyenne géométrique. On n'a donc pas besoin de savoir qu'il s'agissait de la moyenne géométrique avant de déterminer cette moyenne. Il n'est pas donc nécessaire de retenir comme l'a suggéré Dodge (2007) que dans la pratique, la moyenne géométrique est utilisée essentiellement pour calculer la moyenne de ratios, ou plus particulièrement la moyenne d’indices. Le rendement est un ratio et sa moyenne, calculée au point 3.2.1. dans la section « moyenne arithmétique pondérée », n'est pas une moyenne géométrique mais bien une moyenne arithmétique pondérée par la superficie. Avec la moyenne arithmétique simple, on aurait obtenu : .
  • 18. 16 La moyenne arithmétique a donc surévalué le coefficient moyen et cela aura pour effet d'augmenter anormalement les dépenses mensuelles de salaire de l'entreprise concernée de 3,6 % au profit des travailleurs. Cette conclusion n'est valable qu'aux données présentées entre 1985 et 2017. Si on devrait partir de la moyenne calculée au niveau échantillon pour estimer la moyenne au niveau population, il faudrait corriger le biais lié à la moyenne géométrique et calculer l'erreur-type. Ce n'est pas le cas de l'exemple présenté comme expliqué ci-haut. De manière générale, la moyenne géométrique de valeurs positives est la racine nième du produit de ces valeurs. Donc l'un des aspects importants de la moyenne géométrique est qu’elle ne s’applique qu’aux nombres positifs (Dodge, 2007). Soit les valeurs de la variable mesurée sur un échantillon de taille avec . On a : (13) On a donc : Le logarithme népérien de la moyenne géométrique d'une variable quantitative non nulle est la moyenne arithmétique des logarithmes népériens de chacune des valeurs de . On a donc Moyenne géométrique pondérée La moyenne géométrique pondérée est obtenue par la formule : (17) Avec le poids associé à l'observation on a : (20). Si tous les poids sont égaux, la moyenne géométrique pondérée est la moyenne géométrique simple. On peut aussi autrement écrire l’expression de la moyenne géométrique sous la forme :
  • 19. 17 (21) 3.2.3. Moyennes harmoniques simple et pondérée Moyenne harmonique simple ou moyenne harmonique L’exercice soumis aux diplômés et présenté dans la section « méthodologie » trouve sa solution dans cette section. Rappelons que cet exercice a été soumis à 700 diplômés de niveau Master ou Doctorat. Seuls 577 parmi eux ont accepté de le résoudre. Toutefois, seuls deux diplômés ont réussi à fournir de bonnes réponses aux deux premières questions. La plupart ont calculé une moyenne arithmétique simple ou pondérée ou une moyenne géométrique montrant ainsi la nécessité d'insister sur les erreurs commises dans le calcul de la moyenne. Sans une définition précise de la moyenne du taux de change, il n’est pas possible de démontrer qu’il s’agit bien d’une moyenne harmonique. Le taux de change moyen est l'unique taux de change qu'il faut appliquer aux montants transférés en Franc Suisse pour que le montant total reçu en FCFA sur l'ensemble des cinq versements reste le même. Soit le taux de change du versement , le montant du versement et le taux de change moyen avec . Selon la définition de la moyenne fournie ci-dessus, on doit avoir : , soit . Comme, on peut le constater avec la formule (23), le taux de change moyen pour l'ensemble des cinq versements n'est donc rien d'autre que le rapport entre le montant total reçu en FCFA sur le montant total transféré en Franc Suisse. Comme , on a : et non obtenu par la méthode de moyenne arithmétique simple. Ici encore, cette conclusion n'est valable qu'aux données fournies sur les 5 versements. Il n'est pas question de faire une inférence à partir de ce résultat. L'ensemble des données de cet exemple ne provient pas d'un échantillon aléatoire et donc la moyenne calculée n'est valable qu'à cet ensemble de données. Il ne s'agit pas d'exploiter cette moyenne pour prévoir par exemple les taux de change futurs. ce n'est pas l'objectif. Même si cet échantillon était aléatoire, il ne peut pas être représentatif d'une population des taux de change avec cette faible taille. est donc l'inverse de la moyenne arithmétique des inverses des taux de change. Il s'agit de la moyenne harmonique simple. De façon générale, la moyenne harmonique simple ou la moyenne harmonique de valeurs est l'inverse de la moyenne arithmétique des inverses de ces valeurs. On a : (25)
  • 20. 18 Généralement, la moyenne harmonique peut être utilisée lorsqu’il est possible d’attribuer un sens réel aux inverses des données en particulier pour les taux de change, les taux d’équipement, le pouvoir d’achat, les vitesses. Mais, il n’est pas nécessaire de retenir cette règle. Moyenne harmonique pondérée La moyenne harmonique pondérée est obtenue par la formule : (26) Avec le poids associé à l'observation on a : . Si tous les poids sont égaux, la moyenne harmonique pondérée est la moyenne harmonique. Par exemple, l’indice de Paasche des prix ou des quantités est la moyenne harmonique des indices élémentaires (de prix et de quantités) pondérée par les structures de valeurs de la période courante (Goldfarb et Pardoux, 2011). Soient deux dates 0 et t, la situation à chaque date est caractérisée par les quantités disponibles de biens physiques hétérogènes – respectivement – non sommables, le prix de chaque bien étant – respectivement . L'indice de quantité de Paasche est égal à : (28) L'indice de prix de Paasche est égal à : 3.2.4. Moyennes quadratique simple et pondérée Moyenne quadratique simple ou moyenne quadratique La moyenne quadratique de valeurs est la racine carrée de la moyenne arithmétique des carrés de ces valeurs. (30). On constate aisément que l'écart-type d'une variable est une moyenne quadratique. Moyenne quadratique pondérée Elle est obtenue par la formule : (31) Pour la mise en œuvre des expérimentations agricoles dans le cadre de la formation des ingénieurs agronomes de la Faculté des Sciences Agronomiques (FSA) de l'Université d'Abomey-Calavi (UAC), il a été mis en place sur le site de Sékou, une série de parcelles expérimentales de forme carrée dont les caractéristiques sont présentées dans le tableau 8. La parcelle est définie comme une surface de terrain traitée d'une manière homogène par des
  • 21. 19 cultures pratiquées avec leur ordre de succession et par des itinéraires techniques qui leur sont appliquées (Sébillotte, 1978). Quelle est la longueur moyenne des côtés des parcelles carrées d'expérimentations agricoles mises en place par la FSA ? L'ensemble des données de cet exemple ne provient pas d'un échantillon aléatoire des parcelles carrées d'expérimentations. Toutes les parcelles du site d'expérimentation ont été prises en compte et il a été dénombré 199 parcelles. Il s'agit donc de déterminer la moyenne d'une population de faible taille. En conséquence, le calcul de l'erreur-type n'est pas nécessaire, le calcul de l'écart-type est suffisant. Les résultats obtenus sont seulement valables pour ce site d'expérimentations agricoles. Pour répondre à cette question, il ne faut pas chercher à savoir s'il s'agit d'une moyenne arithmétique simple de la longueur des côtés des parcelles ou d'une moyenne arithmétique de la longueur des côtés des parcelles pondérée par le nombre de parcelles ou non. En cherchant à identifier le type de moyenne afin d'appliquer une formule, le risque de faire une mauvaise estimation est grand. Il faut précisément définir ce qu'on attend par "longueur moyenne des côtés des parcelles", déterminer l’expression littérale de la moyenne et déduire sa nature. Tableau 8 : Caractéristiques des parcelles d'expérimentation de la FSA Longueur du côté des parcelles (en mètre) Nombre de parcelles de même superficie 1 20 2 30 3 25 4 30 5 45 10 10 15 15 20 10 25 9 30 5 Source : Données propres de l'auteur La réponse n'est pas simple pour tout le monde mais il s'agit de la longueur unique de côté que devrait avoir chacune des parcelles d'expérimentation de telle sorte que la superficie totale de toutes les parcelles réunies reste inchangée. Le nombre de parcelles de longueurs de côté différentes est égal à 10. Désignant par où chacune de ces parcelles. Soient la longueur des parcelles dont la longueur de côté est , le nombre de parcelles dont la longueur de côté est et la longueur moyenne de côté des parcelles. On doit avoir : D’où :
  • 22. 20 La longueur moyenne des côtés des parcelles est donc la moyenne quadratique de la longueur des côtés de ces parcelles pondérée par le nombre de parcelles ayant la même superficie ou la même longueur de côtés. Si est la superficie des parcelles et la superficie moyenne de ces parcelles, alors on a : (35) Il est donc aisé de constater que la superficie moyenne des parcelles expérimentales est une moyenne arithmétique pondérée par le nombre de parcelles ayant la même superficie ou la même longueur de côtés. Il serait donc difficile à quelqu'un de justifier cette moyenne sans la démonstration précédente. Soit la moyenne quadratique pondérée et la moyenne arithmétique de la longueur des côtés des parcelles pondérée par le nombre de parcelles ayant la même longueur de côtés. On a : La différence entre et serait davantage significative si on avait appliqué la moyenne géométrique pondérée ou la moyenne harmonique pondérée car toutes ces moyennes sont inférieures ou égales à la moyenne arithmétique pondérée (Carlo, 1965, Leboucher et Voisin, 2011). 3.2.5. Moyenne mobile Une série chronologique ou temporelle est constituée par une suite ordonnée d’observations d’une grandeur au cours du temps. L’étude de ces séries intéresse tous ceux qui désirent décrire, expliquer, contrôler, prévoir des phénomènes évoluant au cours du temps. La moyenne mobile est un filtre linéaire qui élimine le facteur saisonnier tout en réduisant les irrégularités dans une série chronologique. Un filtre est une sorte de "boîte noire" régularisant une chronique en la transformant en une chronique qui est une approximation de la composante tendancielle de la chronique X (Goldfarb et Pardoux, 2011). Pour calculer les moyennes mobiles, on tient compte de la parité de la série chronologique . Soit , les moyennes mobiles centrées de longueur p (p < T) de la série . Premier cas : est impair, donc il existe un entier naturel tel que . Il y a moyennes mobiles centrées de longueur impaire . Chaque moyenne mobile est donc calculée avec termes c'est-à-dire Deuxième cas : est pair, donc il existe un entier naturel tel que Il y a moyennes mobiles centrées de longueur paire .
  • 23. 21 La moyenne mobile centrée apparaît comme la moyenne arithmétique pondérée de valeurs de la série encadrant la date t avec les coefficients de pondération égaux à pour les deux valeurs extrêmes et , égaux à pour les valeurs intermédiaires de à . Chaque moyenne mobile est donc calculée avec termes c'est-à- dire Le tableau 9 présente la variable avec et ses moyennes mobiles de longueur 2, 3, 4 et 5 notées respectivement , , , . La série est périodique de période , c’est-à-dire que la série redevient identique à elle- même tous les p termes. C'est pourquoi, la moyenne mobile de longueur 4, longueur égale à la période de la série, est une constante. En effet, La moyenne mobile centrée de longueur rend constantes les séries périodiques de période (Goldfarb et Pardoux, 2011). Tableau 9 : Calcul de moyennes mobiles 1 2 - - - - 2 0 0,25 0,33 - - 3 -1 -1,00 -1,00 -0,25 0,20 4 -2 -0,75 -0,33 -0,25 -0,20 5 2 0,50 0,00 -0,25 -0,40 6 0 0,25 0,33 -0,25 -0,60 7 -1 -1,00 -1,00 -0,25 0,20 8 -2 -0,75 -0,33 -0,25 -0,20 9 2 0,50 0,00 -0,25 -0,40 10 0 0,25 0,33 -0,25 -0,60 11 -1 -1,00 -1,00 - - 12 -2 - - - Source : Goldfarb et Pardoux (2011) Prenons le cas de . , donc on ne peut que calculer moyennes mobiles. Les moyennes mobiles et n'existent pas. Chacune des dix (10) moyennes mobiles possibles est calculée avec termes. Comme la série est périodique de période 4 alors les moyennes mobiles sont aussi périodiques de période 4. Il suffit donc de calculer les 4 premières moyennes mobiles. Avec la formule de calcul des moyennes mobiles de longueur paire, varie de à . Comme , , . On a donc :
  • 24. 22 Prenons le cas de . , donc on ne peut que calculer moyennes mobiles. Les moyennes mobiles , , et n'existent pas. Chacune des huit (08) moyennes mobiles possibles est calculée avec termes. Comme la série est périodique de période 4 alors les moyennes mobiles sont aussi périodiques de période 4. Il suffit donc de calculer les 4 premières moyennes mobiles. Avec la formule de calcul des moyennes mobiles de longueur impaire, varie de à . varie donc de -2 à +2. On a donc: (40) (41) 4. Discussion 4.1.Nécessitédepartird'unedéfinitionopérationnelledelamoyennepoursonestimation précise Les observations faites sur les variables quantitatives peuvent être résumées par des valeurs dites de tendance centrale. Ces valeurs centrales sont la moyenne, la médiane et le mode. Cela a été précisé ainsi dans tous les documents sur la statistique descriptive. La plupart des auteurs, en abordant la notion de la moyenne, commencent par la définition de la moyenne arithmétique avec la présentation de sa formule de calcul (Mazerolle, 2006 ; Bernstein et Bernstein, 1999 ; Leboucher et Voisin, 2011 ; Bailly et Carrère, 2015). Ils présentent ensuite les formules de calcul des autres types de moyennes avec souvent des exemples dans chaque
  • 25. 23 cas. Le problème est que la définition d'un type de moyenne ne devrait pas être limitée à sa formule de calcul. En conséquence, lorsque les techniciens de la moyenne font face aux observations d'une variable quantitative, la première question qu'ils se posent souvent est de chercher à identifier le type de moyenne à calculer. Mais il n'existe aucune définition opérationnelle de la moyenne pour les aider à accomplir cette tâche. Aussi, se contentent-ils de calculer la moyenne arithmétique parce que c'est la moyenne la plus utilisée. Cela aboutit dans bien des cas à une estimation imprécise de la moyenne comme l'a si bien dit Dodge (2007, p. 360) : « La moyenne arithmétique est une mesure simple de la valeur centrale d’un ensemble d’observations quantitatives. Toutefois, elle amène parfois à une interprétation faussée de la réalité ». Par ailleurs, certains auteurs proposent des règles pour calculer certains types de moyennes. La contribution de ce document est de proposer une définition opérationnelle de la moyenne et une démarche qui permet de déterminer avec précision le type de moyenne à calculer pour n'importe quel type de variable quantitative. La première étape de la démarche est de commencer d'abord par définir la moyenne de la variable quantitative considérée en lieu et place de la recherche d’une formule classique de la moyenne à appliquer. Ensuite, en se basant sur cette définition, la deuxième étape consiste à déterminer l’expression littérale de cette moyenne. La dernière étape permettra de préciser le type de moyenne par une simple déduction. C’est une possibilité de réaliser une estimation plus précise de la moyenne de la variable considérée. En conséquence, il serait possible de bien estimer une moyenne sans se préoccuper au préalable de déterminer le type de moyenne dont il s'agit. Il n’est pas donc nécessaire de retenir des règles a priori dans le choix du type de moyenne à calculer comme le préconise Dodge (2007). Selon cet auteur, la moyenne arithmétique pondérée est couramment utilisée dans le domaine de l'économie, notamment dans le calcul des indices de prix à la consommation, ou de prix de production, etc. La moyenne géométrique est utilisée essentiellement pour calculer la moyenne de ratios, ou plus particulièrement la moyenne d’indices, etc. Dans ce document, il a été montré que la moyenne correcte pour un ratio peut bien être une moyenne harmonique ou une moyenne arithmétique pondérée. Enfin, lorsque le type de moyenne est connu, il revient à l'utilisateur de prendre en compte cela dans l'analyse des données. En effet, dans la plupart des logiciels statistiques, seul le calcul de la moyenne arithmétique simple est programmée par défaut. En conséquence, sans une précision de l'utilisateur, la moyenne renvoyée par un logiciel statistique est une moyenne arithmétique simple. 4.2.Similaritésdespropriétésdesmoyennes,maisnonidentitéentreelles Désignons par la moyenne arithmétique, la moyenne géométrique, la moyenne harmonique, la moyenne quadratique. Ces quatre moyennes possèdent certaines propriétés de la moyenne arithmétique : - la moyenne ne dépend pas de l’ordre des termes ; - la moyenne est toujours comprise entre la valeur minimale et la valeur maximale de la liste ; - la moyenne est homogène, c’est-à-dire que si toutes les valeurs de la liste sont multipliées par un même facteur, la moyenne est multipliée par ce même facteur ; - la moyenne est cumulative, c’est-à-dire que si la liste est partagée en plusieurs sous- listes, la moyenne de la liste globale est la moyenne pondérée des moyennes des sous- listes, avec pour coefficients de chaque sous-liste le nombre de termes concernés. En outre, ces moyennes sont toujours ordonnées par les inégalités suivantes (Carlo, 1965, Leboucher et Voisin, 2011) :
  • 26. 24 (42) Toutes ces moyennes s’obtiennent sous la forme ou comme la limite d’une moyenne lorsque . Plus précisément, on retrouve : - pour , la moyenne arithmétique ; - pour , la moyenne quadratique ; - pour , la moyenne harmonique ; - lorsque , la limite de est la moyenne géométrique ; - lorsque la limite de est le maximum de la série ; - lorsque la limite de est le minimum de la série. Par ailleurs, la somme des écarts par rapport à la moyenne arithmétique est nulle (Mazerolle, 2006 ; Dodge, 2007). Cela est simple à démontrer. Soit (44), où est une variable quantitative, l'observation de la variable sur l'individu , la moyenne arithmétique de le nombre d'individus ayant la même observation et un entier naturel tel que . (45). Si est la moyenne arithmétique de , alors ou En conséquence, Enfin, la somme des carrés des écarts des observations par rapport à la moyenne arithmétique est toujours strictement inférieure à la somme des carrés des écarts des observations par rapport à n'importe quel autre nombre (Blalock, 1960 ; Dodge 2007). Autrement dit le minimum de la quantité : est obtenue que si avec . Il est donc clair que les moyennes ont quelques similarités mais cela ne devrait pas justifier l'assimilation des moyennes. Avec le calcul de la moyenne arithmétique en lieu et place d'une moyenne géométrique ou d'une moyenne harmonique, le technicien surestime, peut être sans le savoir, la valeur de la moyenne (Carlo, 1965 ; Leboucher et Voisin, 2011). Parfois, la différence entre la moyenne bien estimée et la moyenne arithmétique n'est pas très grande, mais l'écart peut être suffisant pour la prise de mauvaises décisions. Supposons que le prix moyen réel d'un masque est de 477 FCFA mais la moyenne arithmétique estimée est de 500 FCFA. Supposons, en outre, que dans le cadre de la gestion du COVID-19, les échanges entre le Gouvernement et les partenaires sociaux ont abouti à un accord de céder le masque à la population au prix de 200 FCFA. Dans ces conditions, le Gouvernement a dû accepter d'accorder une subvention de 300 FCFA par masque pour un besoin de 5 000 000 de masques par jour suite à l'estimation du prix du masque à 500 FCFA. La dépense de subvention s'élèverait donc à 1 500 000 000 FCFA par jour au lieu de 1 385 000 000 FCFA par jour si l'estimation du prix moyen était bien faite, soit une perte de 115 000 000 FCFA par jour ou 3 450 000 000 FCFA pour une période de 30 jours.
  • 27. 25 Dans le cadre de la relation bilatérale entre la Suisse et le Bénin, supposons que la Suisse octroie un don de 10 000 000 CHF au Bénin. Avec une estimation du taux de change à 570,8 FCFA/CHF au lieu de 570,2 FCFA/CHF, le Bénin va espérer à tort 5 708 000 000 FCFA au lieu de 5 702 000 000 FCFA, soit une différence de 6 000 000 FCFA. Cette différence peut paraître faible mais son ampleur dépend en réalité des conditions qui vont prévaloir sur le marché de changes. Dans l'exemple présenté à la section "Moyenne quadratique pondérée" la moyenne arithmétique pondérée de la longueur de côtés des parcelles est estimée à 7,035 m alors que la meilleure estimation, celle de la moyenne quadratique pondérée est 10,142 m. Cet écart significatif entre les deux estimations peut conduire à une mauvaise utilisation de la surface réservée aux expérimentations agricoles. Les rendements mal estimés peuvent conduire à de mauvaises planifications et à des conseils agricoles erronés. 4.3. Méthodes d'échantillonnage et calcul de moyennes La grande caractéristique des méthodes d'échantillonnage non probabiliste serait liée à la difficulté d'évaluer objectivement jusqu'à quel point l'échantillon était représentatif. On ne pourrait pas appliquer les méthodes de statistique inférentielle. Ces échantillons ne pourraient être évalués qu’au moyen d’une appréciation subjective (Nations Unies, 2010). Dans ce type d’échantillonnage donc, le chercheur ne peut calculer la moyenne d'une variable quantitative qu'en supposant que la distribution des caractéristiques à l'intérieur de la population était égale. Il ne peut déterminer objectivement les poids des différentes unités enquêtées. Cette approximation fait que le chercheur imagine qu'un échantillonnage bien raisonné serait représentatif et que les résultats obtenus après l'enquête, par conséquent, seraient exacts et fiables ; ce qui serait peut-être vrai ou faux. Comme on ne pourrait pas le démontrer objectivement, alors admettons que c'est biaisé. Mais, malgré ces inconvénients, les méthodes d'échantillonnage non probabilistes pourraient être utiles lorsqu'on désirerait faire des commentaires descriptifs au sujet des échantillons eux- mêmes (Statistique Canada, 2010). Elles seraient utilisées dans différents contextes et dans diverses situations. Elles seraient généralement utilisées dans la phase exploratoire d'une recherche quantitative. Elles pourraient être aussi utilisées pour mieux comprendre certains résultats des études quantitatives. La justification offerte par les praticiens serait généralement fondée sur des considérations de coûts, de temps, de commodité ou même sur la crainte qu’un échantillon « aléatoire » ne représenterait pas comme il conviendrait la population cible (Nations Unies, 2010). Dans le cadre d'une recherche dans laquelle on souhaiterait avoir les paramètres de la population, les méthodes d'échantillonnage non probabilistes ne devraient pas être utilisées. Cependant, il existe des domaines, comme la recherche sociale appliquée, où il est impossible ou presque impossible d'effectuer un échantillonnage probabiliste (aléatoire). Dans ces cas, le chercheur lui-même déterminerait les limites de sa recherche qui n'enlèveraient en rien sa contribution à la science. On est, en effet, en mal d'alternatives. Lorsque la méthode d'échantillonnage aléatoire choisie et bien justifiée est mise en œuvre, la probabilité de sélection de chaque unité statistique de l'échantillon devrait être déterminée avec précision sur la formule utilisée. Lorsque cette probabilité est la même pour toutes les unités statistiques, on dirait que l'échantillon est auto-pondéré (Statistique Canada, 2010 ; Nations Unies, 2010). Dans ces conditions, la pondération n'est plus utile dans le calcul des paramètres statistiques dont la moyenne.
  • 28. 26 Dans le cas où les probabilités de sélection des individus de l'échantillon ne seraient pas les mêmes, le poids de chaque unité statistique devrait être déterminé et ajusté. Le poids d'une unité sélectionnée n'est rien d'autre que l'inverse de la probabilité de cette unité d'appartenir à l'échantillon. Afin d'éviter d’introduire des distorsions dans les estimations des paramètres statistiques résultant de l’enquête, ces poids devraient être pris en compte dans ces estimations. Beaucoup de chercheurs et praticiens ne prenaient pas en compte ces pondérations et évidemment les estimations faites ne seraient pas fiables (Deaton, 1997). Il est important de rappeler que ces poids ne peuvent être calculés que si l’on dispose des informations sur la base de sondage. La pondération a pour but de compenser les probabilités inégales de sélection ; de compenser le défaut de réponse des unités d’échantillonnage et éventuellement de tenir compte de la post-stratification. La leçon importante apprise est que l'échantillonnage peut être probabiliste et la moyenne peut être mal déterminée. C’est pourquoi, il est important de mettre l’accent sur le plan d’échantillonnage dans un document scientifique. De plus, la prise en compte de la pondération dans le calcul des moyennes n'est pas suffisante pour déterminer le type de moyenne à calculer car tous les types de moyennes existent sous leur forme simple et pondérée. La définition opérationnelle de la moyenne proposée dans ce document permet de calculer la moyenne appropriée pour des populations de faible taille pour lesquelles les séries statistiques sont disponibles. Dans le cas où il s'agit d'un échantillon aléatoire, même si le type de moyenne calculé au niveau échantillon est approprié, il est important de corriger les biais des moyennes quasi-arithmétiques et de construire un intervalle de confiance. 5. Conclusion Cette étude a permis de constater que devant une situation de calcul de moyenne, il s’avère nécessaire de ne plus se précipiter et utiliser systématiquement la moyenne arithmétique mais de prendre en considération la variable et les conditions de son expression, ou encore la nature même du problème en étude et duquel dépend le type de variable à analyser. Cela éviterait aux auteurs des erreurs non dues à l'échantillonnage dans les estimations qui compromettraient la portée statistique effective versus celle supposée atteinte. Une définition opérationnelle de la moyenne qui n'existe dans aucun livre de statistique descriptive à notre connaissance, a été proposée pour calculer la moyenne appropriée et préciser le tyep moyenne concernée. La démarche proposée passe d'abord par la définition de la moyenne qui est différente de sa formule de calcul, ensuite la détermination de l’expression littérale de cette moyenne et la déduction du type de moyenne. Désormais, il n'est plus nécessaire de connaître a priori le type de moyenne avant de déterminer cette moyenne. Il n’est non plus utile de retenir a priori le type de moyenne à calculer pour certains types de variables comme les ratios. En conséquence, l’exploitation de ce document aiderait les scientifiques et les praticiens de terrain à mieux estimer les moyennes pour de meilleures prises de décisions. Il aiderait beaucoup de personnes à être éveillées sur les réflexes importants en ce qui concerne le calcul des moyennes. Toutefois, le calcul approprié d'une moyenne sur un échantillon nécessite la correction du biais si elle n'est pas arithmétique et la détermination d'un intervalle de confiance pour son interprétation correcte.
  • 29. 27 Références bibliographiques Bailly P. ; Carrère C. (2015). Statistiques descriptives. L'économie et les chiffres. Grenoble : Presses universitaires de Grenoble, 252 p. Bernstein S. ; Bernstein R. (1999). Schaum's outline of elements of statistics: descriptive statistics and probability. Schaum’s Outline Series, New-York:McGRAW-HILL, 362 p. Blalock H. M. (1960). Social Statistics. New-York:McGraw-Hill Book Company, Inc, 465 p. Carlo G. (1965). Cours de statistique descriptive. Paris : Dunod, 519 p. Dagnelie P. (1973). Théorie et méthodes statistiques. Applications agronomiques. Volume 1: La statistique descriptive et les fondements de l'inférence statistique. Gembloux: les presses agronomiques de Gembloux, 378 p. Deaton A. (1997). The analysis of household surveys. A microeconomitric approach to development policy. Baltimore : Johns Hopkins University Press, 490 p. de Carvalho M. (2016). Mean, What do you Mean? The American Statistician, 70(3) : 270- 274. D'Hainaut L. (1975). Concepts et méthodes de la statistique (Vol. 1). Bruxelles : Labor, 367 p. Dodge Y. (2007). Statistique, dictionnaire encyclopédique. Paris : Springer, 613 p. Fox W. ; Imbeau L. M. (2007). Statistiques sociales. Bruxelles : De Boec université ; Sainte Foy : Presses de l'Université Laval, 374 p. Gissane C. (1998). Understanding and using descriptive statistics. British Journal of Occupational Therapy, 61(6) : 267-272. Goldfarb B. ; Pardoux C. (2011). Introduction à la méthode statistique : Manuel et exercices corrigés. Paris : Dunod, 6ème édition, 384 p Goos P. ; Meintrup D. (2015). Statistics with JMP: graphs, descriptive statistics, and probability. Chichester: John Wiley & Sons Ltd, 368 p. Hurlin C. ; Mignon V. (2015). Statistique et probabilité en économie-gestion. Paris : Dunod, 382 p. INSEE (2016). Moyenne. https://www.insee.fr/fr/metadonnees/definition/c1970 publié le 13 octobre 2016. Consulté le 17 décembre 2019. Leboucher L. ; Voisin M-J. (2011). Introduction à la statistique descriptive. Cours et exercices avec tableur. Toulouse : CEPADUES, 208 pages. Mazerolle F. (2006). Statistique descriptive. Séries statistiques à une ou deux variables, séries chronologiques, Indices. Paris : Gualino, 173 p. Nations Unies (2010). Guide pratique pour la conception d’enquêtes sur les ménages. New York : Nations Unies, 264 p. Rao C. R.; Shi X. ; Wu Y. (2014). Approximation of the Expected Value of the Harmonic Mean and Some Applications. Proceedings of the National Academy of Sciences, 111(44) : 15681–15686. Sébillotte M. (1978). Itinéraires techniques et évolution de la pensée agronomique. C. R. Académie d'Agriculture de France, 2 : 906-914. Spiegel M. R. ; Stephens L. J. (2008). Theory and problems of statistics. Schaum’s Outline Series. New-York : McGRAW-HILL, 601 p.
  • 30. 28 Statistique Canada (2010). Méthodes et pratiques d’enquête. No 12-587-X, Ottawa : Statistique Canada, 434 pages. Techopedia (2018). What is Statistical Mean? https://www.techopedia.com/definition/26136/statistical-mean, publié le 03 mai 2018. Consulté le 17 décembre 2019. View publication stats View publication stats