Outils data

•Télécharger en tant que PPTX, PDF•

0 j'aime•33 vues

Présentation d'outils liés à la data en Python, manipulation et visualisation de la donnée. Hypothèse sur le Titanic. Modèles de machine learning.

Technologie

Des outils liés à la data
Jonathan Chauvin

Programme
● L’analyse de données
● Outils data
● Machine Learning

Les base de données
Beaucoup beaucoup BEAUCOUP
de SGBD différents..
Trois modèles majeurs :
● Relationnel
● NoSql
● Document

Pourquoi analyser les données ?
1. WRITE5. RESET
2.COMPILE4. OBSERVE
3. EXECUTE
Développement
de programmes
1. WRITE5. IMPLEMENT
2.EXECUTE
4. ADJUST
3. OBSERVE
Développement
de programmes

Cas concret
● Tickets de caisse
○ Supprimer les valeurs nulles
○ Voir des tendances (alimentaire)
○ Tester les pondérations
○ Supprimer les valeurs sans poids

Visualisations & Tableaux de bord: le Data UI
Visualisations
● matplotlib: très puissant, très complexe
● seaborn: ajout de fonctions statistiques
● plotly: simplicité et fonctionnalités

Environnement d’analyse: Pandas
Pandas est une bibliothèque Python utile pour manipuler des jeux de données (datasets)
Extract from many sources, Transform to any shape, Load to another format
e.g., transformation entre format “large” (wide) et format “long” (tidy)

Notre objectif
Peut-on reconstituer le titanic en fonction
des données que l’on a ?

Qu’est-ce que l’on sait du Titanic ?
- 2223 passagers
- 1504 morts
- 719 survivants
Le bateau a percuté un iceberg vers 00H40 à l’avant.

Démo
https://colab.research.google.com/drive/1HB-
6OWH1t8IhRdNWn6t9WFigPABsXY5H#scrollTo=vhGgoPmBQfVz

Machine Learning
L'apprentissage automatique, apprentissage artificiel ou apprentissage
statistique est un champ d'étude de l'intelligence artificielle qui se fonde sur des
approches mathématiques et statistiques pour donner aux ordinateurs la capacité
d' « apprendre » à partir de données, c'est-à-dire d'améliorer leurs performances à
résoudre des tâches sans être explicitement programmés pour chacune.

L’apprentissage machine
● Créer un programme avec des exemples
● Permet de prédire une classe ou valeur
● Requiert de la méthode scientifique!
Mes conseils:
● La simplicité avant tout (rasoir d'Ockham)
● Soyez sceptique (surtout quand ca marche)
Du plus simple au plus complexe:
● SciPy: techniques de statistiques
○ p-values, probabilité, modèle linéaire ...
● Scikit: techniques de machine learning
○ RandomForest, SVM, k-NN, Clustering …
● Keras: techniques de deep-learning (ANN)
○ réseaux de neurones (vision, language …)

Différentes méthodes
- Régression linéaire (descente de gradient)
- Réseau convolutif (CNN : Convolutionnal Neuronal Network)
- Autoencoder

Démo
https://colab.research.google.com/drive/1yAkMOE6w5n-TVxEZNNwJBjkmRggkRt39?usp=sharing

Recommandé

Machine learning, deep learning et search : à quand ces innovations dans nos ...Antidot

Comment l’intelligence artificielle réinvente la fouille de texteAntidot

machine learning.docxRachidaGzl

DebuteraveclesmlsIBRAHIM Ali MAHADI 🇷🇴🇺🇸🇬🇦🇨🇦

Publier vos données sur le Web - Forum TIC de l'ATEN 2014Makina Corpus

Du Big Data à la Smart Information : comment valoriser les actifs information...Antidot

Data science et Ux design [MEET UP Palo IT / Le LAPTOP]Nadège Bide

JSS2015 - Machine Learning like a bossGUSS

Recommandé

Machine learning, deep learning et search : à quand ces innovations dans nos ...Antidot

Comment l’intelligence artificielle réinvente la fouille de texteAntidot

machine learning.docxRachidaGzl

DebuteraveclesmlsIBRAHIM Ali MAHADI 🇷🇴🇺🇸🇬🇦🇨🇦

Publier vos données sur le Web - Forum TIC de l'ATEN 2014Makina Corpus

Du Big Data à la Smart Information : comment valoriser les actifs information...Antidot

Data science et Ux design [MEET UP Palo IT / Le LAPTOP]Nadège Bide

JSS2015 - Machine Learning like a bossGUSS

Comment l'intelligence artificielle améliore la recherche documentaireAntidot

Pourquoi et comment utiliser r - Sébastien BrodeurWeb à Québec

Soirée du Test Logiciel - Intelligence Artificielle dans le test - J. VAN QUA...TelecomValley

BID CE Workshop 1 Session 09 - Biodiversity Data Management ToolsAlberto González-Talaván

Comment faire du Data SEO sans savoir programmer ?Vincent Terrasi

Chirurgie SEO / Solution répulsive contre les pandas #SEOCampHtitipi

💍❤️ Le couple data produit, c'est pour la vie ?Samuel Athlan

Oxalide MorningTech #1 - BigDataLudovic Piot

Dataiku-Petit-déjeuner-DataLab-290316.pdfCherreredAmine1

Quel algo ml_pour_mon_problemePaul Blondel

Introduction à la Data Science l data businessVincent de Stoecklin

Algorithmique_et_programmation_part3_V2Emeric Tapachès

Quand python, pandas, scikit-learn et jupyter rencontrent Power BI.pdfSTAT4DECISION

20150402 meetup r addicts du printempsduretteb

Atelier du web - Analyser sa présence sur le webAtlantic 2.0

Introduction au Machine Learning Novagen Conseil

Matinale - Levez la malédiction du passage de l'IA en productionOCTO Technology

Spideo: Movie Recommendation Analytics with Cassandra (Français)DataStax Academy

PJ - machine learning avec scikit-learn.pdfYounesOuladSayad1

Contenu connexe

Similaire à Outils data

Comment l'intelligence artificielle améliore la recherche documentaireAntidot

Pourquoi et comment utiliser r - Sébastien BrodeurWeb à Québec

Soirée du Test Logiciel - Intelligence Artificielle dans le test - J. VAN QUA...TelecomValley

BID CE Workshop 1 Session 09 - Biodiversity Data Management ToolsAlberto González-Talaván

Comment faire du Data SEO sans savoir programmer ?Vincent Terrasi

Chirurgie SEO / Solution répulsive contre les pandas #SEOCampHtitipi

💍❤️ Le couple data produit, c'est pour la vie ?Samuel Athlan

Oxalide MorningTech #1 - BigDataLudovic Piot

Dataiku-Petit-déjeuner-DataLab-290316.pdfCherreredAmine1

Quel algo ml_pour_mon_problemePaul Blondel

Introduction à la Data Science l data businessVincent de Stoecklin

Algorithmique_et_programmation_part3_V2Emeric Tapachès

Quand python, pandas, scikit-learn et jupyter rencontrent Power BI.pdfSTAT4DECISION

20150402 meetup r addicts du printempsduretteb

Atelier du web - Analyser sa présence sur le webAtlantic 2.0

Introduction au Machine Learning Novagen Conseil

Matinale - Levez la malédiction du passage de l'IA en productionOCTO Technology

Spideo: Movie Recommendation Analytics with Cassandra (Français)DataStax Academy

PJ - machine learning avec scikit-learn.pdfYounesOuladSayad1

Similaire à Outils data (20)

Comment l'intelligence artificielle améliore la recherche documentaire

Pourquoi et comment utiliser r - Sébastien Brodeur

Soirée du Test Logiciel - Intelligence Artificielle dans le test - J. VAN QUA...

BID CE Workshop 1 Session 09 - Biodiversity Data Management Tools

Comment faire du Data SEO sans savoir programmer ?

Chirurgie SEO / Solution répulsive contre les pandas #SEOCamp

💍❤️ Le couple data produit, c'est pour la vie ?

Oxalide MorningTech #1 - BigData

Dataiku-Petit-déjeuner-DataLab-290316.pdf

Quel algo ml_pour_mon_probleme

Introduction à la Data Science l data business

Algorithmique_et_programmation_part3_V2

Quand python, pandas, scikit-learn et jupyter rencontrent Power BI.pdf

20150402 meetup r addicts du printemps

Atelier du web - Analyser sa présence sur le web

Introduction au Machine Learning

Matinale - Levez la malédiction du passage de l'IA en production

Spideo: Movie Recommendation Analytics with Cassandra (Français)

PJ - machine learning avec scikit-learn.pdf

Outils data

1. Des outils liés à la data Jonathan Chauvin

2. Programme ● L’analyse de données ● Outils data ● Machine Learning

3. Les base de données Beaucoup beaucoup BEAUCOUP de SGBD différents.. Trois modèles majeurs : ● Relationnel ● NoSql ● Document

4. Pourquoi analyser les données ? 1. WRITE5. RESET 2.COMPILE4. OBSERVE 3. EXECUTE Développement de programmes 1. WRITE5. IMPLEMENT 2.EXECUTE 4. ADJUST 3. OBSERVE Développement de programmes

5. Cas concret ● Tickets de caisse ○ Supprimer les valeurs nulles ○ Voir des tendances (alimentaire) ○ Tester les pondérations ○ Supprimer les valeurs sans poids

6. Tickets

7. Visualisations & Tableaux de bord: le Data UI Visualisations ● matplotlib: très puissant, très complexe ● seaborn: ajout de fonctions statistiques ● plotly: simplicité et fonctionnalités

8. Environnement d’analyse: Pandas Pandas est une bibliothèque Python utile pour manipuler des jeux de données (datasets) Extract from many sources, Transform to any shape, Load to another format e.g., transformation entre format “large” (wide) et format “long” (tidy)

9. Notre objectif Peut-on reconstituer le titanic en fonction des données que l’on a ?

10. Qu’est-ce que l’on sait du Titanic ? - 2223 passagers - 1504 morts - 719 survivants Le bateau a percuté un iceberg vers 00H40 à l’avant.

11. Démo https://colab.research.google.com/drive/1HB- 6OWH1t8IhRdNWn6t9WFigPABsXY5H#scrollTo=vhGgoPmBQfVz

12. 3 33 2 21

13. Vue du titanic

14. Machine Learning L'apprentissage automatique, apprentissage artificiel ou apprentissage statistique est un champ d'étude de l'intelligence artificielle qui se fonde sur des approches mathématiques et statistiques pour donner aux ordinateurs la capacité d' « apprendre » à partir de données, c'est-à-dire d'améliorer leurs performances à résoudre des tâches sans être explicitement programmés pour chacune.

15. L’apprentissage machine ● Créer un programme avec des exemples ● Permet de prédire une classe ou valeur ● Requiert de la méthode scientifique! Mes conseils: ● La simplicité avant tout (rasoir d'Ockham) ● Soyez sceptique (surtout quand ca marche) Du plus simple au plus complexe: ● SciPy: techniques de statistiques ○ p-values, probabilité, modèle linéaire ... ● Scikit: techniques de machine learning ○ RandomForest, SVM, k-NN, Clustering … ● Keras: techniques de deep-learning (ANN) ○ réseaux de neurones (vision, language …)

16. Différentes méthodes - Régression linéaire (descente de gradient) - Réseau convolutif (CNN : Convolutionnal Neuronal Network) - Autoencoder

17. Démo https://colab.research.google.com/drive/1yAkMOE6w5n-TVxEZNNwJBjkmRggkRt39?usp=sharing

18. Merci !