2. Contexte
& sommaire
1. Lesdonnéessources
2. Nettoyage,descriptionetvérificationdessources
3. Analysedestendancessurlesfichiersclients, produitset les ventes
4. Etudedescorrélationsentrediverses variables
5. Ouverturevers l’avenir
2
Suite au succès grandissant de la boutique en
ligne, le service Data Analyse va se pencher sur
l’analysedes donnéesissues del’ERPafin de
• définir des tendances,
• analyserles corrélations.
6. 6
Pourquoi «nettoyer » les fichiers ?
Faire unétatdes lieux des données
Analyser et traiter les doublons
Repérer les données manquantes
Traiter les donnéesaberrantes
Des analyses saines dans undataset sain
7. 7
• Pas de doublons
• Pas de valeurs nulles
• Pas de valeurs aberrantes danslesdatesdenaissance
etlessexes
8. 8
• Pas de doublons
• Pas de valeurs nulles
• 1 produit T_0 à -1 €
• Pas de produits sans prix
9. 9
Suppression des données test
• Lignes avec date « test »dans les transactions
• Produits test (id_prod =T_0)
• Clients test (ct_1etct_0)
11. 11
Nombre de produits vendus entre le 2 et
le 27 fortement diminué
Catégorie 1 manquante
12. 12
Suppression des clients et produits sans
transactions
Après avoir crééun dataframe étendu par jointurePandas.
13. 13
103 transactions sans tarifs sur le produits
0_2245
Correction du prix unitaire par lavaleur médiane de la
catégorie
14. 14
Récapitulatif du nettoyage
Suppression des données test (Transactions,clients, produits)
Oublides transactions du mois d’octobre 2021
Correction des articles manquants (0_2245)
Création d’un dataframeétendupour les analyses
26. 26
ID duclient Dépense sur 11 mois
c_1609 162007.34
c_4958 144257.21
c_6714 73217.98
c_3454 54463.56
c_7959 2564.25
c_8026 2547.99
c_4491 2540.53
c_2140 2527.01
c_8392 2515.98
c_7421 2511.98
TOP 10
CLIENTS
Les 4 premiers clients ontgénéréun C.A. très
élevé.
Ils seront écartés des analyses suivantes pour nepas biaiser les
résultats des clients « particuliers ».
36. 36
TENDANCESPAR
TRANCHES D’AGE
Tranche d’âge Age moyen
Nombre de
commandes moyen
sur 11 mois
Panier moyen
Moins de 35 ans 25,02 12,15 60,22 €
35 à 55 ans 44,68 21,17 31,35 €
Plus de 55 ans 66,20 17,75 26,31 €
39. 39
Tableau des cas d’indépendance – Test duχ2 (chi-2)
Pas de dépendance marquée entre le sexe du client et lacatégorie de produits.
Donc, non, il n’y a pas decorrélation entre ces 2 variables !
41. 41
Le rapportdecorrélation Eta-2 calculé est
de 0,041 sur ces 2 variables.
Donc, non, il n’y a pas decorrélation entre l’âge des clients et le montant total des achats.
43. 43
Calcul des coefficients de corrélation linéaire
(r)et dedétermination (r²).
Alors, oui, il y a unecorrélation modérée entrel’âge des clients etla fréquence des achats,
notamment pourles moins de35 ans.
45. 45
Le rapportdecorrélation Eta-2 calculé est
de 0,059 sur ces 2 variables.
Donc, non, il n’y a pas decorrélation entre l’âge des clients et le nombred’articles du panier.
47. 47
Tableau des cas d’indépendance – Test duχ2 (chi-2)
Pas de corrélation globale entre l'âge des clients et la catégorie d'articles commandés. On
peut cependant voir par exemple que les clients de moins de 35 ans ont plus tendance à
commander des produits de catégorie 2.
49. 49
Nos clients, notre avenir …
Améliorerla segmentation clients en séparant les professionnels par
exemple.
Multiplier les catégories deproduits pour mieux les adapter aux
caractéristiques clients.
Prospection denouveaux clients enciblant les catégories favorites
(par exemple, la catégorie 2 pour les moins de 35ans).
Créerunprogramme« Senior »pour augmenterle nombrede
commandes annuel.