4. La Data en entreprise
Conception Collecte Préparation Enrichissement
Extraction de
connaissances
Prédiction
4
5. Du DataEngineering à la DataScience : Motivations
L’IA en entreprise, c’est un fort potentiel, mais qui requiert aussi une forte sagacité,
traduit par une faible pénétration: Ce qui laisse beaucoup de place à l'initiative.
Qu’est ce que la Data Science ?
Prendre des décisions basées sur des faits (objectifs) avec confiance.
Qu’est ce qu’un Data Scientist ?
Une personne méthodique au raisonnement scientifique …
… qui arrive à créer une forte valeur décisionnelle à partir de la donnée
… qui n’a peur de la manipulation de données (volume, variété, qualité)
5
7. Les aptitudes du Data Scientist
Esprit
Synthétique
Compréhension et
Visualisation des
données
Connaissances
statistiques
Sensibilité métier
Savoir s’outiller
Traduire use case
en problème ML
Coder,
industrialiser son
travail
7
9. Priorité business
Le métier a un besoin :
- Exprimé sous forme de règles de gestion (fermées)
- Contraint dans le temps (Time to market)
Approche pragmatique :
- Commencer simple et logique
- Prendre en compte les intuitions métier : features à explorer / qualifier
- Ne pas s'engouffrer tout de suite dans la complexité des algorithmes
- Utiliser ses meilleurs outils pour une solution viable à court terme
- Rassurer le métier en l’impliquant
9
10. Une méthode et un outillage adaptés
Familiarisation avec
Datasets
Préparation des
features
Apprentissage et
tests
Compréhension des
enjeux métier
Sensibilité métier
- Compréhension du domaine métier.
Être en mesure d’évaluer / justifier le besoin.
- Requalifier le besoin avec le métier (le cas échéant).
Capacité de se poser les bonnes questions
- Compréhension de la problématique exprimée
Prédire le future ? Classification ? Recommandation ?
- Sensibilité de la prédiction.
Marge d'erreur tolérable ?
10
11. Une méthode et un outillage adaptés
Familiarisation avec
Datasets
Préparation des
features
Apprentissage et
tests
Compréhension des
enjeux métier
Examen des dataset et familiarisation avec les dimensions, mesures et features.
- Qualité, véracité, fiabilité, fraîcheur ?
Il vaut mieux ne pas prendre de décision qu’en prendre une mauvaise !
⇒ Metadata
https://github.com/UNIVALENCE/centrifuge
- Cardinalités par attribut (variance, écart type, min, max, médiane)
- Nettoyage des données
Suppression des stop words, restructuration, ...
- Corrélation entre les attributs
- La donnée n'a-t-elle pas été modifiée à posteriori ?
- Identification des attributs pouvant influer sur une prise de décision 11
12. Une méthode et un outillage adaptés
Familiarisation avec
Datasets
Préparation des
features
Apprentissage et
tests
Compréhension des
enjeux métier
Préparation de données sur base des observations
- Valeurs manquantes
- Discrétisation, valeurs catégoriques à passer en numérique
- Normalisation
- Feature engineering et enrichissement
Feature Creation
Feature Selection
Dimensionality Reduction
Echantillonner de sorte à équilibrer le jeu d'apprentissage (pas de classe sur représentée)
- Projection du résultat en Dataviz pour mesurer la performance des features
12
13. Une méthode et un outillage adaptés
Familiarisation avec
Datasets
Préparation des
features
Apprentissage et
tests
Compréhension des
enjeux métier
Supervisé Non Supervisé Semi-Supervisé
13
17. Outils de machine learning
as far as I know ...
WEKA
Ecosystème / langages Python Java Scala / Python / Java
Variété d’algorithmes et
extensibilité
Distribué
Documentation
Minimaliste
17
18. “If you torture the data enough,
nature will always confess”
- Ronald H. Coase, 1960s
18