Scikit learn: apprentissage statistique en Python

Scikit Learn
Apprentissage statistique en Python
Ga¨el Varoquaux —
http://scikit-learn.org

Vision du projet
L’apprentissage statistique pour tous
Pas de domaine d’application spécifique
Pas de prérequis en machine learning
Librairie logicielle de qualité
API pensées pour l’utilisateur
Développement communautaire
License BSD, contributeurs très variés

Philosophie
1. Keep it simple
Ne pas chercher à tout résoudre
2. Facilité d’utilisation
Bonne documentation
Facile à debugger
3. Efficacité numérique
Dans les limites de 1
4. Limiter les dépendances
La distribution est un problème en soit

Choix technologiques
Python, what else?
Langage haut-niveau,
- interactif,
- facile à debugger,
- d’application générale
Écosystème très dynamique

Choix technologiques
+ Numpy
+ Scipy
calcul numérique, algèbre
linéaire, algorithmique sur graphe
numpy.array: conteneur
universel de données structurées
Les outils des sciences
numériques sont sous-utilisés
par la communauté “data”

Performance
scikit-learn mlpy pybrain pymvpa mdp shogun
SVM 5.2 9.47 17.5 11.52 40.48 5.63
LARS 1.17 105.3 - 37.35 - -
Elastic Net 0.52 73.7 - 1.44 - -
kNN 0.57 1.41 - 0.56 0.58 1.36
PCA 0.18 - - 8.93 0.47 0.33
k-Means 1.34 0.79 ∞ - 35.75 0.68
Optimisations algorithmiques et non bas niveau
Minimiser les copies des donn´ees

API: spécifier un modèle
Un concept central: l’estimateur
Instancié sans les données
Mais en spécifiant ses paramètres
from s k l e a r n . n e i g h b o r s import
KNear estNeig hbo r s
e s t i m a t o r = KN ea r estNe ig h b or s (
n n e i g h b o r s =2)

API: entraˆıner un modèle
Apprendre à partir de données
e s t i m a t o r . f i t (X, Y)
où:
X est un tableau numpy de forme
nobservations × ndescripteurs
y est un tableau numpy, entier ou flottant
nobservations

API: utiliser un modèle
Prediction: classification, regression
Y t e s t = e s t i m a t o r . p r e d i c t ( X t e s t )
Transformation: reduction de dimension, filtre
X new = e s t i m a t o r . t r a n s f o r m ( X t e s t )
Estimation de densité, vraissemblance
t e s t s c o r e = e s t i m a t o r . s c o r e ( X t e s t )
Estimation “en-line”
e s t i m a t o r . p a r t i a l f i t (X, Y)

Vectorization
Passer des données brutes à la matrices X
Pour le texte: compter les occurrences de mots
- Données d’entrée: liste de documents (string)
- Données de sortie: matrice numérique
from s k l e a r n . f e a t u r e e x t r a c t i o n . t e x t
import H a s h i n g V e c t o r i z e r
h a s h e r = H a s h i n g V e c t o r i z e r ()
X = h a s h e r . f i t t r a n s f o r m ( documents )

Fonctionalités
Apprentissage supervisé
Arbres de décision (Random-Forest, Boosted Tree)
Modèles linéaires
SVM
Apprentissage non supervisé
Clustering
Apprentissage de dictionnaire
Détection d’outliers
Sélection de modèles
Validation croisée intégrée
Optimisation de paramètres

Quelques estimateurs
http://scikit-learn.org/stable/auto_examples/plot_
classifier_comparison.html

Clustering
http://scikit-learn.org/stable/auto_examples/cluster/
plot_cluster_comparison.html

Scikit-learn
http://scikit-learn.org
Projet très dynamique
Bien documenté
Nécessite un peu de savoir-faire technique
Facile à intégrer/adapter
PS: Je cherche à embaucher un ingénieur
@GaelVaroquaux

Scikit learn: apprentissage statistique en Python

Contenu connexe

Tendances

En vedette

Similaire à Scikit learn: apprentissage statistique en Python

Plus de Gael Varoquaux

Scikit learn: apprentissage statistique en Python