La "Data science" au service des entreprises

1 086 vues

Publié le

Thèse professionnelle en vue de l'obtention du Mastère spécialisé "Informatique décisionnelle" de l'EISTI

Publié dans : Données & analyses
0 commentaire
2 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
1 086
Sur SlideShare
0
Issues des intégrations
0
Intégrations
37
Actions
Partages
0
Téléchargements
30
Commentaires
0
J’aime
2
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

La "Data science" au service des entreprises

  1. 1. La Data science au service des entreprises Thèse professionnelle en vue de l’obtention du Mastère Spécialisé en « Informatique Décisionnelle » 1 Présenté par: Aymen ZAAFOURI Année universitaire : 2014-2015
  2. 2. 2 Origines et principes de la data science Outils techniques Méthodes théoriques Conclusion Exemples de projets data science Plan de la présentation
  3. 3. Origines et principes de la Data science 3
  4. 4. Origines de la data science • Une chute exponentielle des coûts de stockage • Facebook, Google et Yahoo se sont mis à développer de nouvelles technologies pour des besoins qui se créaient. • les méthodes statistiques sophistiqués ont pris un essor considérable  Révolution majeure relative aux données, que ce soit en termes d’usage ou de quantité 4 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  5. 5. Le Data scientist • Professionnel de la gestion et de l’analyse du Big data pour la stratégie et l’opérationnel de l’entreprise. • Maîtrise des concepts statistiques avancés • Excellente culture technique • Compréhension solide des enjeux métiers de son entreprise. • « Une personne meilleure en statistique que n’importe quel développeur et meilleure en développement que n’importe quel statisticien » - Josh wills (Slack) 5 Mathématique Technologie Data Science Métier Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  6. 6. BI vs Data Science BI Data Science Répond aux questions : - Que s'est-il passé ? - Quand ? - Qui ? - Combien ? - Pourquoi est-ce arrivé ? - Cela se reproduira-t-il ? - Que se passe-t-il si nous modifions x ? Comprend : - Rapports (KPI, éléments de mesure) - OLAP (cubes, permutation d'axes, exploration) - Tableaux de bord - Surveillance/alertes automatisées - Analyse statistique/quantitative - Exploration de données - Modélisation/analytique prédictifs - Analyse textuelle 6 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  7. 7. BI vs Data Science 7 • Limites de la BI oVolumétrie: Un datawarehouse de quelques téraoctets est très compliqué à maintenir. oLes données non-structurées n’ont jamais été abordées par la Business Intelligence. oLa BI temps réel: Architectures complexes, coûteuses et dont le retour sur investissement a toujours été contesté. Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  8. 8. 8 Compréhension du besoin Définir l’approche analytique Exigence des Données Collecte des données Compréhension des données Préparation des donnéesModélisation Evaluation Déploiement Suivi Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  9. 9. Outils techniques 9
  10. 10. Outils techniques Technologies 10
  11. 11. • Hadoop est un framework 100% open source, écrit en Java. • Scalabilité horizontale. • Ses performances évoluent en fonction du nombre de machines constituant le cluster.  Plus le nombre de nœuds est élevé moins le temps d’exécution des jobs est court! • Tolère les pannes: les données sont répliquées donc récupérables suite à une défaillance. Hadoop = MapReduce + HDFS 11 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  12. 12. HDFS Se décompose en Namenode et plusieurs Datanodes: o Les Datanodes regroupent les blocs de données en les répliquant. o Le Namenode orchestre les données MapReduce o Etape Map : La création d’une association pour chaque observation des fichiers partitionnés, et la redistribution des clés sur les clusters. o Etape Reduce : La réalisation d’une opération mathématique d’agrégation de valeurs par clés. 12 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  13. 13. • Projets liés à Hadoop: • Limites de Hadoop: o Plusieurs fichiers de petites tailles car l’accès aux données est un peu lent. o Calcul intensif utilisant des données de tailles réduites. o Traitement séquentiel des données. 13 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  14. 14. • Créé en 2009 dans le laboratoire AMPLab • Ecrit en Scala. • Plus rapide que Hadoop : 100 fois plus rapide en mémoire, 10 fois plus vite sur disque. • Spark apporte des améliorations à MapReduce grâce à des étapes de shuffle/Regroupement automatique moins coûteuses • Spark maintient les résultats intermédiaires en mémoire plutôt que sur disque • Le moteur d’exécution est conçu pour travailler aussi bien en mémoire que sur disque • Il est capable de travailler avec une partie des données en mémoire, une autre sur disque. • L’un des concurrent de Spark : Apache Flink 14 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  15. 15. NoSQL • Scalabilité horizontale • Haute disponibilité • Absence de shéma Une technologie alternative et non pas concurrente • 4 grandes familles: o Clé-Valeur : o Orientée colonnes : o Orientée graphes : o Orientée documents : 15 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion Clé Valeur BDD Clé-Valeur Clé Colonne 1 : valeur Colonne 2 : valeur Colonne 3 : valeur BDD Orientée colonnes Clé Champs 1 : valeur Champs 2 : valeur Champs 3 : valeur Champs 3 : valeur BDD Orientée document Nœud 3 Nœud 4 Nœud 2 Nœud 1 BDD Orientée graphes
  16. 16. • Moteur de recherche Open Source. • Les données sont indexées sous forme de documents. • Avantages: o Simplicité : Sa mise en place est très simple. o Rapidité : Les recherches sont traitées en quasi temps réel grâce à la parallélisation des traitements. o Scalablilité : Le rajout de nouveau nœud permet d’augmenter la capacité de traitement et d’être en haute disponibilité. o Sauvegarde : Les données sont automatiquement sauvegardées et répliquées. • Le projet est mature et est déjà utilisé • En production par la Fondation Mozilla, Foursquare, ainsi que la Douane Française. 16 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  17. 17. Outils techniques Langages 17
  18. 18. • Langage de programmation interprété dérivé de S • un langage de programmation simple et efficace intégrant les conditions, les boucles, la récursivité • Logiciel libre de traitement des données et d'analyse statistiques • Packages: e1071, ggplot2, tree, CORElearn, FactomineR, … • Développé par des chercheurs à l’EPFL • Basé sur le langage JAVA • Avantages: o Scalabilité o Multi-paradigmes 18 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion • Langage interprété, gratuit et facile à apprendre • code facile à lire grâce aux indentations • Scikit-learn: bibliothèque dédiée à l’apprentissage automatique
  19. 19. Méthodes théoriques 19
  20. 20. Méthodes théoriques Techniques descriptives 20
  21. 21. Méthodes de réduction des dimensions • Appelés aussi « Les méthodes de Statistique exploratoire multidimensionnelle » • Plusieurs méthodes selon la nature des variables: • ACP: Analyse en Composantes Principales • AFC: Analyse Factorielle des Correspondances • ACM: Analyse des correspondances multiples 21 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  22. 22. Classification • Consiste à définir des classes: Individus statistiques homogènes • Découper l'ensemble des données étudiées en un ou plusieurs sous ensembles nommés classes, chaque sous-ensemble devant être le plus homogène possible • Plusieurs méthodes de classification: oHiérarchique ascendante oK-means 22 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  23. 23. Méthodes théoriques Techniques prédictives 23
  24. 24. Arbre de décision • représente un ensemble de choix sous la forme graphique d'un arbre. • Les différentes décisions possibles sont situés aux extrémités des branches (les « feuilles » de l'arbre). • Les résultats sont atteints en fonction des décisions prises à chaque étape. 24 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion Maitrise du sujet Présentation à améliorer Non Oui Temps dépassé Présentation à améliorer OuiNon Bonne présentation
  25. 25. Régression • La régression est un ensemble de méthodes utilisées pour analyser la relation d'une variable par rapport à une ou plusieurs autres. • Plusieurs méthodes: • Régression linéaire simple • Régression linéaire multiple • Régression logistique dichotomique • Régression logistique multinomiale 25 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  26. 26. Exemples de projets 26
  27. 27. • 1er site E-commerce en France selon le CA • Croissance du volume d'affaires de 3,7 % • 78 millions de voyages vendus en un an • Une architecture basée sur Hadoop et ElasticSearch • Des requêtes temps réel pour permettre l’analyse de 25 millions de lignes de log (1To de données par jour.) • Personnalisation des offres en fonction des profils grâce à un système de recommandation. • Plus de 140 millions de recherches par mois. • Détection des requêtes où PagesJaunes.fr ne fournit par le résultat attendu par l'utilisateur. • Analyse des requêtes pour améliorer les résultats • Architecture basée sur ElasticSearch, Spark et ZoomData. • Rendre l'in terface utilisateur plus personnelle début 2016. 27 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  28. 28. Conclusion 28
  29. 29. Conclusion • La BI et la Data science sont complémentaires. • Les enjeux de la data sciences sont nombreux: • Objets connectés. • Achat et vente des données. 29 Origines et principes de la data science Outils techniques Méthodes théoriques Exemples de projets data science Conclusion
  30. 30. Merci pour votre attention 30

×