2. What the fuck did I do ?
• Sébastien Derivaux
• Docteur Informatique en Data Science
• Data Scientist, Data Analyst, Business Intelligence
pour des clients variés
• Blog : https://dataintoresults.com
• Outil ETL : https ://databrewery.co
3. Interlude 1 – les rôles de la data
Data Engineer Data Scientist Data AnalystMétier
Compétences Informatique
Opérations
Hacking
Science
Business
Business
Communication
Outils
Tâche structure les Big
Data pour les
rendre
exploitables
cherche des
informations
cachées dans les
données
analyse et
communique sur
les données
4. Reporting 101
• Pourquoi faire un reporting ?
• Objectiviser la situation
• Apprendre
• Communiquer
• Aligner son organisation
10. Reporting 101 – les cashflows
• Le compte de résultat est trop complexe à obtenir, trop manipulable
• Issu du relevé bancaire, immédiat et contrôle aisé.
• Adaptations : Inventaire / coût produit, crédit client, alignement mensuel
• Des + et des – qui s’annulent
11. Interlude 2 – Les outils de reporting
Gratuit
Cloud
Gratuit
Cloud
Pas de modèle de données
Modèle de données
Puissance
Pas très cher
Microsoft
Connections à certaines sources
Reporting en png ?
Gratuit
Pas de modèle de données
A héberger
12.
13.
14.
15. Interlude 3 – Data Lake vs Data Warehouse
Data Lake Data Warehouse
Structuration
Focus
Facilité d’insertion
Exemples
Ensemble de fichiers
Structuration secondaire
Tables dans une base de données
Structuration primordiale
Coût
Facilité d’utilisation
Performance
Accès
16.
17. ETL : Extract – Transform - Load
• Outils (souvent graphiques) pour
gérer des flux de données
• Extraction de bases sources
• Transformation des données
• Chargement dans un entrepôt
• Migration vers l’ELT
• Chargement des données « brutes »
dans l’entrepôt puis transformations à
l’intérieur de celui-ci avec du SQL Exemple de flux de traitement avec Pentaho Data Integration
18. SQL – manipulation de données
• Décomposition des KPI
• Analyses de cohortes
• Règles métier
19. Interlude 4 – Churn vs cohort survival rate
Churn
• % de client perdu dans le mois (lost MRR)
Cohort survival rate
• Suivis d’un groupe d’individus dans le temps
• Profil peut varier par :
• Canal d’acquisition
• Période d’acquisition
• Personna
• …
20. Structuration en étoile
date_key
produit_key
client_key
Table de faits
Ventes
date_key
Dimension
Date
jour_semaine
semaine
jour_mois
est_we
mois
année
est_congé
produit_key
Dimension
Produit
nom
catégorie
prix_unitaire
fournisseur
quantité
prix_ht
prix_ttc
Mesures
client_key
Dimension
Client
type
adresse
anniversaire
21. La solution Microsoft : Excel/PowerBI
Source : https://powerpivotpro.com/what-is-power-pivot/
22. TODO
• Comment commencer
• Etablir un reporting hebdo/mensuel (Excel/Google Sheet)
• Automatiser ce reporting
• Déverser les données dans une base (PostgreSQL/BigQuery)
• Structurer (scripts SQL, ETL)
• Analyser (Data Studio, Power BI, Metabase)