Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Cours_sur_les_Regression-Logistique-23-24.pdf
1. Éléments de la régression logistique
January 20, 2024
Éléments de la régression logistique January 20, 2024 1 / 20
2. Introduction
Régression logistique : technique statistique utilisée pour modéliser et
prédire des variables binaires ou catégorielles largement utilisée dans le
domaine de l’apprentissage automatique et de la science des données.
Éléments de la régression logistique January 20, 2024 2 / 20
3. Variables dépendante et indépendantes
Variable dépendante binaire : Y ∈ {0, 1}
Variables indépendantes : X = (X1, X2, . . . , Xp)
Éléments de la régression logistique January 20, 2024 3 / 20
4. Fonction de lien logistique
La régression logistique utilise une fonction de lien logistique pour
modéliser la probabilité de la variable dépendante binaire en fonction des
variables indépendantes :
P(Y = 1|X) =
1
1 + e−(β0+β1X1+...+βpXp)
Éléments de la régression logistique January 20, 2024 4 / 20
5. Estimation des coefficients
Les coefficients de régression sont estimés en utilisant par exemple la
méthode du maximum de vraisemblance. L’objectif est alors de trouver les
coefficients β0, β1, . . . , βp qui maximisent la vraisemblance de l’observation
des données réelles.
Éléments de la régression logistique January 20, 2024 5 / 20
6. Vraisemblance et Log-vraisemblance
La fonction de vraisemblance est donnée par :
L(β) =
n
Y
i=1
P(Yi |Xi ; β)Yi
· (1 − P(Yi |Xi ; β))1−Yi
où Yi est l’observation de la variable dépendante binaire pour l’observation
i, Xi est le vecteur des variables indépendantes pour l’observation i, et
P(Yi |Xi ; β) est la probabilité prédite de Yi étant égal à 1, en utilisant les
coefficients β.
La log-vraisemblance est simplement le logarithme de la vraisemblance :
log L(β) =
n
X
i=1
[Yi log(P(Yi |Xi ; β)) + (1 − Yi ) log(1 − P(Yi |Xi ; β))]
Éléments de la régression logistique January 20, 2024 6 / 20
7. Descente de Gradient
Méthode couramment utilisée pour résoudre le problème d’optimisation
dans la régression logistique. L’objectif est de trouver les valeurs optimales
des coefficients β qui maximisent la log-vraisemblance via la mise à jour
des coefficients suivante :
β(t+1)
= β(t)
+ α · ∇β
− log L(β(t)
)
où β(t) représente les coefficients à l’itération t, α est le taux
d’apprentissage (step size), et ∇β − log L(β(t))
est le gradient de la
log-vraisemblance négative par rapport aux coefficients β à l’itération t.
La descente de gradient se poursuit jusqu’à atteindre une convergence
satisfaisante, généralement définie par un critère tel que la variation de la
log-vraisemblance négative entre les itérations successives.
Éléments de la régression logistique January 20, 2024 7 / 20
8. Interprétation des coefficients
Les coefficients de régression peuvent être interprétés comme des rapports
d’odds (odds ratios). Un odds ratio supérieur à 1 indique une
augmentation des chances de succès, tandis qu’un odds ratio inférieur à 1
indique une diminution des chances de succès.
Éléments de la régression logistique January 20, 2024 8 / 20
9. Prédiction de probabilités
Une fois que les coefficients de régression sont estimés, vous pouvez
utiliser le modèle pour prédire les probabilités de succès pour de nouvelles
observations :
P(Y = 1|Xnew) =
1
1 + e−(β0+β1Xnew,1+...+βpXnew,p)
Éléments de la régression logistique January 20, 2024 9 / 20
10. Évaluation du modèle
Pour évaluer la performance du modèle de régression logistique, diverses
mesures peuvent être utilisées, telles que la précision, le rappel, la courbe
ROC (Receiver Operating Characteristic), l’AUC (Area Under the Curve),
etc.
Éléments de la régression logistique January 20, 2024 10 / 20
11. Avantages de la Régression Logistique
La régression logistique présente plusieurs avantages :
Elle est adaptée à la modélisation de variables dépendantes binaires,
ce qui en fait une méthode appropriée pour la classification binaire.
Elle fournit des estimations de probabilités, ce qui permet d’évaluer la
confiance dans les prédictions.
Elle est relativement simple à interpréter, car les coefficients de
régression fournissent des informations sur l’importance des variables
indépendantes pour la prédiction.
Elle peut être utilisée avec des variables indépendantes catégorielles et
continues.
Elle est robuste aux valeurs aberrantes et aux violations mineures des
hypothèses.
Éléments de la régression logistique January 20, 2024 11 / 20
12. Inconvénients de la Régression Logistique
La régression logistique présente également certains inconvénients :
Elle suppose une relation linéaire entre les variables indépendantes et
la log-odds de la variable dépendante. Si cette hypothèse est violée,
les résultats peuvent être biaisés.
Elle peut être sensible à la multicollinéarité entre les variables
indépendantes, ce qui peut rendre les estimations des coefficients peu
fiables.
Elle peut nécessiter un grand nombre d’observations pour estimer
correctement les coefficients, en particulier lorsque le nombre de
variables indépendantes est élevé.
Elle peut être sujette au surajustement si le modèle est trop complexe
par rapport à la taille de l’échantillon.
Éléments de la régression logistique January 20, 2024 12 / 20
13. Taille d’échantillon nécessaire
La taille d’échantillon nécessaire pour une régression logistique dépend de
plusieurs facteurs :
Le nombre de variables indépendantes : Plus le nombre de variables
indépendantes est élevé, plus la taille d’échantillon nécessaire est
grande pour obtenir des estimations fiables des coefficients.
La fréquence des événements rares : Si la variable dépendante est
rare, un échantillon plus grand est nécessaire pour capturer
suffisamment d’événements pour l’analyse.
La puissance statistique souhaitée : Une puissance statistique plus
élevée (c’est-à-dire la capacité à détecter des effets réels) nécessite un
échantillon plus grand.
Le niveau de confiance souhaité : Un niveau de confiance plus élevé
nécessite également un échantillon plus grand.
En général, il est recommandé d’avoir un nombre d’observations d’au
moins 10 à 20 fois le nombre de variables indépendantes pour obtenir des
résultats fiables en régression logistique.
Éléments de la régression logistique January 20, 2024 13 / 20
14. Applications de la régression logistique
1 Prédiction de la défaillance des équipements industriels
2 Détection de la fraude dans les transactions financières
3 Prédiction du risque de maladie cardiaque
Éléments de la régression logistique January 20, 2024 14 / 20
15. Application 1 : Prédiction de la défaillance des
équipements industriels
La régression logistique peut être utilisée pour prédire la probabilité de
défaillance d’équipements industriels en fonction de diverses variables telles
que la durée de fonctionnement, les conditions environnementales, etc.
Éléments de la régression logistique January 20, 2024 15 / 20
16. Application 2 : Détection de la fraude dans les
transactions financières
La régression logistique peut être utilisée pour détecter les transactions
frauduleuses en modélisant la probabilité de fraude en fonction de
caractéristiques transactionnelles telles que le montant, l’emplacement,
l’heure, etc.
Éléments de la régression logistique January 20, 2024 16 / 20
17. Application 3 : Prédiction du risque de maladie cardiaque
La régression logistique peut être utilisée pour prédire le risque de maladie
cardiaque en fonction de facteursde risque tels que l’âge, le sexe, le
tabagisme, la pression artérielle, etc.
Éléments de la régression logistique January 20, 2024 17 / 20
18. Implémentation en R
Voici un exemple d’implémentation de la régression logistique en R en
utilisant le package ”glm”:
Modélisation de la régression logistique
model - glm(Y X1 + X2 + X3, data = data,
family = binomial)
Affichage des coefficients estimés
coefficients - summary(model) $ coefficients
Prédiction de nouvelles observations
newdata - data.frame(X1 = c(1, 2, 3), X2 = c(4, 5, 6), X3 =
c(7, 8, 9))
predictions - predict(model, newdata = newdata,
type = response)
Éléments de la régression logistique January 20, 2024 18 / 20
19. TP R
Faire les TP suivants:
https://www2.stat.duke.edu/courses/Fall18/sta210.001/
assignments/labs/lab_09.html
Éléments de la régression logistique January 20, 2024 19 / 20
20. Conclusion
La régression logistique est une méthode puissante pour modéliser des
variables binaires ou catégorielles. Elle trouve de nombreuses applications
dans divers domaines, y compris la prédiction de la défaillance des
équipements industriels, la détection de la fraude financière et la prédiction
du risque de maladie cardiaque. L’implémentation en R permet une mise
en œuvre pratique et efficace de la régression logistique.
Éléments de la régression logistique January 20, 2024 20 / 20