Fundamental approaches to statistics
 Frequentism
 Bayesian
Terminologies
 A statistic is a quantitative characteristic of a sample that often helps estimate or test the population parameter (such as a
sample mean or proportion , median, standard deviation, z-score, and percentile). A statistic calculated from a random sample is
a random variable because its value Varies from sample to another. And this variation, Is described by It's distribution referred to
as its sample distribution
 Descriptive statistics are statistics that describe data. Descriptive statistics are single results you get when you analyze a set
of data — for example, the sample mean, median, standard deviation, correlation, regression line, margin of error, and test
statistic
 Statistical inference refers to using your data (and its descriptive statistics) to make conclusions about the population. Major
types of inference include regression, confidence intervals, and hypothesis tests.
Some Preliminaries Regarding Data
Données nominales
 Les données nominales sont les plus simples et moins puissantes d'un point de vue statistique.
 Elles catégorisent ou différencient simplement les observations.
 Exemples : numéros de compte, codes de produits, numéros de vol
Données Ordinales
 Les données ordinales ordonnent les observations de manière significative sans être une mesure complète.
 Exemple : ordre d'arrivée dans le Kentucky Derby.
How the analyst anlyse the data
SummaryStatistical Measures
 A summary measure is a numerical value that represents an important property of a sample or a population.
 There is 3 types of summary measures . Each describes a different aspect of a dataset (whether a sample or population).
Summary measures are classified as follows:
 Measures of central tendency
 Measures of dispersion
 Measures of association
1. Measure of central tendency
 Measures of central tendency show the middle or center of a sample or population.
 There are three widely used measures of central tendency, and each has advantages and disadvantages:
 Mode : The mode of a dataset is simply the most commonly observed value.
 Median : is its midpoint
 Mean : is the average when we said just the mean we refer to the mean of the population and its also called the
expected value of the sample mean
2. Measure of dispersion
 show how spread out the elements of a sample or population are — in other words, how close the elements are to each other.
For example, the elements of the sample
 Here are three of the most important measures of dispersion:
 Range : is the difference between the largest and the smallest elements
 Variance : tells you how much the data is spread from the average
 Standard deviation : The standard deviation is simply the square root of the variance. This ensures that the
deviation of a dataset is measured in the same units as the dataset, instead of squared units. Using the example of
the number of residents per household, here’s the sample standard deviation: The standard deviation is 1.79, which
indicates how much the number of residents per household can vary from one household to the next
 L’inference Bayesienne
Les modèles bayésiens autorisent l'intégration de connaissances a priori et la mise à jour des croyances à mesure que de
nouvelles données deviennent disponibles.
 Le modele Probabiliste
 déterminer la distribution de probabilité des résultats possibles d'un phénomène ou d'un système
 Le modele statistique
 Un modèle statistique est généralement défini par une certaine forme fonctionnelle qui relie les variables du modèle.
 Il s'agit d'une structure qui cherche à décrire ou à expliquer le comportement d'un phénomène observé à partir de données
 Parametresde modeles
 Roledelaprobabilité bayesiendansl’estimationdesparametresdemodele
 L’objectifdel’estimationdesparametresde modeles
Statistic inferentielle / Statistical inference
 Statistical inference is the process of using data analysis to infer properties of an underlying distribution of probability
 There are 2 main approaches to statistical inference, frequentist and Bayesian, differing in their interpretation of
uncertainty.
 The frequentist approach deals with long-run probabilities (ie, how probable is this data set given the null hypothesis), whereas
the Bayesian approach deals with the probability of a hypothesis given a particular data set.
 Bayesian analysis incorporates prior information into the analysis, whereas a frequentist analysis is purely driven by the data.
 The Bayesian approach can calculate the probability that a particular hypothesis is true, whereas the frequentist approach
calculates the probability of obtaining another data set at least as extreme as the one collected (giving the P value).
 Interpretation of results is more intuitive with a Bayesian approach compared with the frequentist approach, which can often be
misinterpreted.
Frequentist Inference and Frequentist Decision Theory
1. Inference frequentist
 Goal :
l'inférence fréquentiste se concentre sur la manière de tirer des conclusions à partir de données
 Comment traite la probabilité
L'inférence fréquentiste traite la probabilité comme la fréquence d'occurrence d'un événement dans un grand nombre de
répétitions d'une expérience aléatoire
2. Frequentist Decision theory
 la théorie de la décision fréquentiste se concentre sur la manière de prendre des décisions basées sur ces conclusions dans
des situations répétées. Les deux reposent sur une interprétation fréquentiste de la probabilité.
Comment la probabilité quantifie notre incertitude
 Dans le cadre des modèles probabilistes, l'incertitude est souvent mesurée en termes de probabilité.
 Lorsque nous disons qu'un événement a une probabilité P(A) se produire, cela ne représente pas directement l'incertitude. Au
contraire, c'est une mesure de la confiance que nous avons dans cet événement.
L'incertitude est souvent associée à la variabilité des résultats possibles. Plusieurs aspects peuvent être pris en compte pour quantifier
l'incertitude :
1. Variabilité des Résultats : Une probabilité de 0.8 pour un événement signifie que nous sommes relativement confiants dans sa
réalisation, mais il y a toujours une variabilité. L'incertitude peut être vue comme la plage de résultats possibles malgré notre confiance.
2. **Intervalle de Confiance :** Dans le contexte de l'estimation des paramètres, un intervalle de confiance est utilisé pour quantifier
l'incertitude autour d'une estimation. Par exemple, on peut dire avec 95% de confiance que la vraie valeur du paramètre se situe dans un
certain intervalle.
En résumé, bien que la probabilité P(A) puisse exprimer notre confiance dans la réalisation d'un événement, l'incertitude est généralement
comprise en considérant la variabilité des résultats possibles, les intervalles de confiance et la probabilité de l'événement complémentaire.
Ces notions contribuent à une compréhension plus complète de l'incertitude associée aux résultats d'un modèle probabiliste.

Terminologies en statistique - Copy.docx

  • 1.
    Fundamental approaches tostatistics  Frequentism  Bayesian Terminologies  A statistic is a quantitative characteristic of a sample that often helps estimate or test the population parameter (such as a sample mean or proportion , median, standard deviation, z-score, and percentile). A statistic calculated from a random sample is a random variable because its value Varies from sample to another. And this variation, Is described by It's distribution referred to as its sample distribution  Descriptive statistics are statistics that describe data. Descriptive statistics are single results you get when you analyze a set of data — for example, the sample mean, median, standard deviation, correlation, regression line, margin of error, and test statistic  Statistical inference refers to using your data (and its descriptive statistics) to make conclusions about the population. Major types of inference include regression, confidence intervals, and hypothesis tests. Some Preliminaries Regarding Data Données nominales  Les données nominales sont les plus simples et moins puissantes d'un point de vue statistique.  Elles catégorisent ou différencient simplement les observations.  Exemples : numéros de compte, codes de produits, numéros de vol Données Ordinales  Les données ordinales ordonnent les observations de manière significative sans être une mesure complète.  Exemple : ordre d'arrivée dans le Kentucky Derby. How the analyst anlyse the data SummaryStatistical Measures  A summary measure is a numerical value that represents an important property of a sample or a population.
  • 2.
     There is3 types of summary measures . Each describes a different aspect of a dataset (whether a sample or population). Summary measures are classified as follows:  Measures of central tendency  Measures of dispersion  Measures of association 1. Measure of central tendency  Measures of central tendency show the middle or center of a sample or population.  There are three widely used measures of central tendency, and each has advantages and disadvantages:  Mode : The mode of a dataset is simply the most commonly observed value.  Median : is its midpoint  Mean : is the average when we said just the mean we refer to the mean of the population and its also called the expected value of the sample mean 2. Measure of dispersion  show how spread out the elements of a sample or population are — in other words, how close the elements are to each other. For example, the elements of the sample  Here are three of the most important measures of dispersion:  Range : is the difference between the largest and the smallest elements
  • 3.
     Variance :tells you how much the data is spread from the average  Standard deviation : The standard deviation is simply the square root of the variance. This ensures that the deviation of a dataset is measured in the same units as the dataset, instead of squared units. Using the example of the number of residents per household, here’s the sample standard deviation: The standard deviation is 1.79, which indicates how much the number of residents per household can vary from one household to the next  L’inference Bayesienne Les modèles bayésiens autorisent l'intégration de connaissances a priori et la mise à jour des croyances à mesure que de nouvelles données deviennent disponibles.  Le modele Probabiliste  déterminer la distribution de probabilité des résultats possibles d'un phénomène ou d'un système  Le modele statistique  Un modèle statistique est généralement défini par une certaine forme fonctionnelle qui relie les variables du modèle.  Il s'agit d'une structure qui cherche à décrire ou à expliquer le comportement d'un phénomène observé à partir de données  Parametresde modeles  Roledelaprobabilité bayesiendansl’estimationdesparametresdemodele  L’objectifdel’estimationdesparametresde modeles
  • 4.
    Statistic inferentielle /Statistical inference  Statistical inference is the process of using data analysis to infer properties of an underlying distribution of probability  There are 2 main approaches to statistical inference, frequentist and Bayesian, differing in their interpretation of uncertainty.  The frequentist approach deals with long-run probabilities (ie, how probable is this data set given the null hypothesis), whereas the Bayesian approach deals with the probability of a hypothesis given a particular data set.  Bayesian analysis incorporates prior information into the analysis, whereas a frequentist analysis is purely driven by the data.  The Bayesian approach can calculate the probability that a particular hypothesis is true, whereas the frequentist approach calculates the probability of obtaining another data set at least as extreme as the one collected (giving the P value).  Interpretation of results is more intuitive with a Bayesian approach compared with the frequentist approach, which can often be misinterpreted. Frequentist Inference and Frequentist Decision Theory 1. Inference frequentist  Goal : l'inférence fréquentiste se concentre sur la manière de tirer des conclusions à partir de données  Comment traite la probabilité L'inférence fréquentiste traite la probabilité comme la fréquence d'occurrence d'un événement dans un grand nombre de répétitions d'une expérience aléatoire 2. Frequentist Decision theory  la théorie de la décision fréquentiste se concentre sur la manière de prendre des décisions basées sur ces conclusions dans des situations répétées. Les deux reposent sur une interprétation fréquentiste de la probabilité. Comment la probabilité quantifie notre incertitude  Dans le cadre des modèles probabilistes, l'incertitude est souvent mesurée en termes de probabilité.  Lorsque nous disons qu'un événement a une probabilité P(A) se produire, cela ne représente pas directement l'incertitude. Au contraire, c'est une mesure de la confiance que nous avons dans cet événement. L'incertitude est souvent associée à la variabilité des résultats possibles. Plusieurs aspects peuvent être pris en compte pour quantifier l'incertitude : 1. Variabilité des Résultats : Une probabilité de 0.8 pour un événement signifie que nous sommes relativement confiants dans sa réalisation, mais il y a toujours une variabilité. L'incertitude peut être vue comme la plage de résultats possibles malgré notre confiance.
  • 5.
    2. **Intervalle deConfiance :** Dans le contexte de l'estimation des paramètres, un intervalle de confiance est utilisé pour quantifier l'incertitude autour d'une estimation. Par exemple, on peut dire avec 95% de confiance que la vraie valeur du paramètre se situe dans un certain intervalle. En résumé, bien que la probabilité P(A) puisse exprimer notre confiance dans la réalisation d'un événement, l'incertitude est généralement comprise en considérant la variabilité des résultats possibles, les intervalles de confiance et la probabilité de l'événement complémentaire. Ces notions contribuent à une compréhension plus complète de l'incertitude associée aux résultats d'un modèle probabiliste.