3. Les base de données
Beaucoup beaucoup BEAUCOUP
de SGBD différents..
Trois modèles majeurs :
● Relationnel
● NoSql
● Document
4. Pourquoi analyser les données ?
1. WRITE5. RESET
2.COMPILE4. OBSERVE
3. EXECUTE
Développement
de programmes
1. WRITE5. IMPLEMENT
2.EXECUTE
4. ADJUST
3. OBSERVE
Développement
de programmes
5. Cas concret
● Tickets de caisse
○ Supprimer les valeurs nulles
○ Voir des tendances (alimentaire)
○ Tester les pondérations
○ Supprimer les valeurs sans poids
7. Visualisations & Tableaux de bord: le Data UI
Visualisations
● matplotlib: très puissant, très complexe
● seaborn: ajout de fonctions statistiques
● plotly: simplicité et fonctionnalités
8. Environnement d’analyse: Pandas
Pandas est une bibliothèque Python utile pour manipuler des jeux de données (datasets)
Extract from many sources, Transform to any shape, Load to another format
e.g., transformation entre format “large” (wide) et format “long” (tidy)
14. Machine Learning
L'apprentissage automatique, apprentissage artificiel ou apprentissage
statistique est un champ d'étude de l'intelligence artificielle qui se fonde sur des
approches mathématiques et statistiques pour donner aux ordinateurs la capacité
d' « apprendre » à partir de données, c'est-à-dire d'améliorer leurs performances à
résoudre des tâches sans être explicitement programmés pour chacune.
15. L’apprentissage machine
● Créer un programme avec des exemples
● Permet de prédire une classe ou valeur
● Requiert de la méthode scientifique!
Mes conseils:
● La simplicité avant tout (rasoir d'Ockham)
● Soyez sceptique (surtout quand ca marche)
Du plus simple au plus complexe:
● SciPy: techniques de statistiques
○ p-values, probabilité, modèle linéaire ...
● Scikit: techniques de machine learning
○ RandomForest, SVM, k-NN, Clustering …
● Keras: techniques de deep-learning (ANN)
○ réseaux de neurones (vision, language …)