Le machine learning et l’IA sont des buzzwords qui font maintenant partie de notre quotidien. Pourtant, rares sont les projets qui osent inclure du ML dans leur cycle de vie.
Les raisons sont multiples :
- Inquiétudes sur un niveau d’expertise trop limité en DataScience
- Difficultés d’apprécier à l’avance le gap entre difficulté de mise en place et retour sur investissement
- Inquiétudes sur la pérennité des efforts investis : (dérive des modèles entrainés)
- Peur de s’engager dans un effort trop important de maintenance sur le long terme
Bien que fondées, ces raisons n’ont plus lieu d’être après la mise en place de procédés d’industrialisation spécifiques à ce genre de problème.
Venez découvrir comment nous avons fait converger les compétences des datascientists et des devops afin de créer une plate-forme de machine learning simple, scalable et accessible aux non-experts. De l’analyse des données à la mise en production de modèles nous verrons comment industrialiser les procédés d’apprentissage automatique sans le moindre effort.
Pour plus d'informations à propos de Prescience :
https://labs.ovh.com/machine-learning-platform
17. Machine Learning Development Process
17
https://www.maddyness.com/2018/07/20/comment-se-structure-le-secteur-du-machine-learning/
Iteration
Data sources
Insights
Prepared data
Optimization
Product
Trained model
Data collection
Data preparation
Model research
Best model selection
Deployment
18. Data collection
Need to learn and understand business data
• Meet people
Feature Extraction
• Challenging and Fun
18
21. Model Deployment
Develop an API
• Handle numerous frameworks/languages
• Various hardware
Service Monitoring
Performance monitoring
• Inherently non-deterministic
2121
22. Why Industrialize ML
Standardize workflows and tools
Democratize & Accelerate ML
Provide a nice user experience
Abstract cumbersome tasks
Manage model lifecycle
Quick Win/ Fast Fail
2222
33. OVHCloud Serving Engine
One platform does not fit all
• Specific algorithms
• Unsupported transformations
• Unsupported tasks (unsupervised)
• Focused on low complexity/high value
33
Provide isolated components
• Serving only
34. Labs
Platform open to public for free
https://ovh.to/fhvncu6
What’s next ?
Opensourcing
Serving Engine
https://ovh.to/nCPHhVW
34
ADRIEN
Equipe crée en 2017
2 metiers representé : Data Scientist qui s’occupe des projets internes
Devops developpement nouvelle feature, maintien operatielle de l’infra
Concentré autour de la plaform de machine learning qu’on va vous presenter.
MAEL
Qu’est ce que le Machine learning ?
=> Une illustration
Illustra tion d’un example de la vie courante : moteur de recomandation
MAEL
Qu’est ce que le Machine learning ?
= croisement entre la l’informatique et les statistiques
= approximation de fonctions
Fonction générée automatiquement à partir des données
MAEL
Pourquoi utiliser le machine learning pour résoudre les pb ?
=> Quand la fonction peut être amenée à varier au cours du temps (moteur de recommendation et phénomènes de mode)
Quand les problemes sont trop complexes pour être algorithmiquement décrits
Exemple : reconnaissance d’image. : Homer Simpson VS Homère Odyssée
MAEL
Données labellisées en entrée d’algorithme de ML
MAEL
MAEL
Une fois l’algorithme entrainé :
Demande de prédiction sur des images qu’il n’a jamais vu auparavant
ADRIEN
1 DC Ca consomme beaucoup
Avec notre historique de consommation et d’autre données
Objectif : Négocier les contrats avec EDF
ADRIEN
Historiquement : fait avec des seuils
Cependant => sonne tous le temps car bcp de rack/salles
Permet de repérer plus facilement des anomalies
ADRIEN
Allocation dynamique de ressources pour l'ouverture des lignes de VOIP
=> permet d'économiser de l'argent en rapport avec les couts prévisibles
ADRIEN
Plein d’autres
Du coup, 1er projet long, apprednre plein chose
Puis le deuxieme, un peu moin long, beaucoup de choses identiques
On a remarqué qui avait toujours les meme etapes.
MAEL
Projets de ML = Processus itératif
On va voir que plusieurs profils et compétences sont nécessaires au fils des différentes étapes
MAEL
Datascientist a bcp de valeur à cette phase
=> Impossible à automatiser car depend énormément du métier
MAEL
Prends du temps et c’est pas fun
Grid search sur l’algorithm
On test plein de chose, on tweak.
Il faut maintenir un historique de ce qu’on a déjà testé, etc
MAEL
Prends du temps et c’est pas fun
Grid search sur l’algorithm
On test plein de chose, on tweak.
Il faut maintenir un historique de ce qu’on a déjà testé, etc
MAEL
Developper un moyen de communiquer avec son model
Long si on a plusieurs back-end
Rajouter du monitoring de service et de perfomance
Besoin d’avoir des competences en DataOps
Documenter les hyperparametre si on veut re-entrainer un nouveau model dans les meme conditions.
MAEL
Uniformiser les workflow / les outils utiliser
Démocratiser le ML
Perdre du temps là où il y a de la valeur
Standardizer le déploiement d'API
ADRIEN
Platform en acces libre en intene chez OVH
L’object c’est d’avoirun outils commun qui permet de builder, experimenter et deployer nos models de machine learning a lechelle d’ovh
Tenter d’avoir une bonne user experience
Smarter than Grid Search
Distributed workers to accelerate results
Different worker topology
Experiment history
MAEL
Prends du temps et c’est pas fun
Grid search sur l’algorithm
On test plein de chose, on tweak.
Il faut maintenir un historique de ce qu’on a déjà testé, etc
Monitored API with Metrics And Logs
High Availability
Model Performance Metrics
Multi backend: PMML, Tensorflow, ONNX
Standard Format Input / Output API
MAEL
En résumé voilà la phase qu’il reste à accomplir :
Se concentrer sur le besoin metier et sur la valeur ajoutée du datascientist
MAEL
Si on revient sur les valeurs d’OVH : SMART
Le R = Réversible
Le T = Transparent
Volonté de mettre à disposition le fruit de notre travail afin d’en faire profiter le plus grand nombre et d’obtenir des retours sur l’ergonomie d’utilisation