Soutenance ysance

969 vues

Publié le

  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Soutenance ysance

  1. 1. SOUTENANCE DE FIN D’ÉTUDE STAGE EN BIG DATA Nelson Verdier -­‐ 5 Septembre 2014
  2. 2. Plan • Ysance • Big data ? • Proof of concept -­‐ Hadoop • R&D -­‐ Spark • DVP • Conclusion
  3. 3. ! Stratégie digitale & Consulting IT! Conception, mise en oeuvre et animation ebusiness, Business Intelligence, Cloud Computing & Big Data
  4. 4. Le big data ? • 3V • volume • vélocité • variété • Extraire des données valorisées • Architecture distribuée et extensible
  5. 5. MapReduce et Hadoop • MapReduce • processus de traitement parallèle sur cluster • originaire de chez Google en 2004 • Hadoop • implémentation en java du mapreduce • par Yahoo en 2005 • hdfs -­‐ hadoop distributed file system • namenode, datanode
  6. 6. Map Reduce -­‐ word count
  7. 7. Eco-­‐système Hadoop MapReduce -­‐ traitement HDFS -­‐ stockage Hive sql Mahout machine learning HBase clé/valeur Pig scripts
  8. 8. Proof of concept Hadoop • Mission pour un acteur dans la lunetterie • Contexte : • Ensemble de serveurs qui communiquent entre eux, produisent des logs • Extraire de ces logs des informations commerciales • clients, commandes, adresses, quantités… • Stocker ces données propres dans Amazon S3
  9. 9. Proof of concept Hadoop • Implémentation du job MapReduce en Java • Déploiement du job sur Amazon EMR • script de lancement de job • Première approche big data intéressante • api java bas niveau avec des classes Mapper et Reducer
  10. 10. R&D -­‐ Spark • Volonté de maitriser les technologies de demain • Apache Spark • framework de traitement distribué • chargement des données en mémoire • briques semi-­‐temps réel, machine learning, sql • Plusieurs applications développées pour tester Spark
  11. 11. twitter_pictures Images les plus populaires sur twitter sur une fenêtre de temps
  12. 12. twitter_streaming Déceler les utilisateurs les plus influents du moment sur un thème donné.
  13. 13. Applications spark • sentiment: catégorisation de tweets selon qu’ils soient à connotation positive ou négative • sql: prise en main de la brique Spark • Livrables: • codes sources • documentation sur le wiki ysance
  14. 14. DVP -­‐ data visualisation platform Data visualisation platform • Permet de suivre les partages d’urls d’un site web spécifique sur twitter, page par page et sur une fenêtre de temps.
  15. 15. DVP -­‐ data visualisation platform • Développement du backend • Spark Streaming • MongoDB • Hive + user defined function • Hbase • Elasticsearch • Jusqu’a 200 urls par seconde
  16. 16. Conclusion • Big data, un environnement riche où tout reste à faire. Des challenges techniques comme fonctionnels • Volonté de gagner en expertise technique avant d’évoluer vers un poste plus haut niveau • Ysance, un investissement en R&D pour mieux accueillir les futurs besoins clients
  17. 17. MERCI DE VOTRE ATTENTION DES QUESTIONS?

×