24 mars 2015 TechDay Big Data – Ecole 42 1
TechDay Big Data
Philippe Barra & Stéphane Goumard
24 mars 2015 TechDay Big Data – Ecole 42 2
Qui est Arrow Group ?
24 mars 2015 TechDay Big Data – Ecole 42 3
www.arrow‐group.eu
24 mars 2015 TechDay Big Data – Ecole 42 4
24 mars 2015 TechDay Big Data – Ecole 42 5
24 mars 2015 TechDay Big Data – Ecole 42 6
Agenda
• Qu’est-ce que le Big Data ?
• Méthodologie
• Square Predict
• Hadoop
24 mars 2015 TechDay Big Data – Ecole 42 7
Agenda
• Qu’est-ce que le Big Data ?
• Méthodologie
• Square Predict
• Hadoop
24 mars 2015 TechDay Big Data – Ecole 42 8
Chaque minute sur Internet…
source: http://pennystocks.la/internet-in-real-time/
24 mars 2015 TechDay Big Data – Ecole 42 9
Evolution du hardware exponentielle
24 mars 2015 TechDay Big Data – Ecole 42 10
Le Big Data, selon un rapport de recherche de Gartner de 2001 est une
démarche...
24 mars 2015 TechDay Big Data – Ecole 42 11
Le Big Data peut améliorer les performances dans ces domaines:
• Recommandatio...
24 mars 2015 TechDay Big Data – Ecole 42 12
• Un projet Big Data est un projet de R&D appliqué et non un projet
d’informat...
24 mars 2015 TechDay Big Data – Ecole 42 13
MétierMétier
StatistiqueStatistiqueITIT
Un projet Big Data est la mise en comm...
24 mars 2015 TechDay Big Data – Ecole 42 14
Agenda
• Qu’est-ce que le Big Data ?
• Méthodologie
• Square Predict
• Hadoop
24 mars 2015 TechDay Big Data – Ecole 42 15
Arrow Group a conçu une méthodologie Big Data Analytics conciliant la
méthodol...
24 mars 2015 TechDay Big Data – Ecole 42 16
Processus Big Data Analytics
24 mars 2015 TechDay Big Data – Ecole 42 17
Objectifs
• Définir les objectifs client par cas d’usage
• Identifier le besoi...
24 mars 2015 TechDay Big Data – Ecole 42 18
Métier
StatistiqueIT
Objectifs
• Identifier l’ensemble des données exploitable...
24 mars 2015 TechDay Big Data – Ecole 42 19
Objectifs
• Auditer et améliorer la qualité des donnée
• Elaborer les méthodes...
24 mars 2015 TechDay Big Data – Ecole 42 20
Objectifs
• Sélection des méthodes d’analyse
• Paramétrage des algorithmes
• A...
24 mars 2015 TechDay Big Data – Ecole 42 21
Objectifs
• Analyse des résultats
• Vérification du respect des objectifs busi...
24 mars 2015 TechDay Big Data – Ecole 42 22
Objectifs
• Elaboration de la présentation des résultats
• Elaboration du reto...
24 mars 2015 TechDay Big Data – Ecole 42 23
Agenda
• Qu’est-ce que le Big Data ?
• Méthodologie
• Square Predict
• Hadoop
24 mars 2015 TechDay Big Data – Ecole 42 24
Square Predict vise à valoriser et monétiser l'énorme quantité de données dont...
24 mars 2015 TechDay Big Data – Ecole 42 25
Assurance Multi-Risque Habitation : Sinistralité Incendie & Dégât des Eaux
E...
24 mars 2015 TechDay Big Data – Ecole 42 26
Compréhension & audit des données:
Evaluation et déploiement:
Assurance Multi-...
24 mars 2015 TechDay Big Data – Ecole 42 27
Compréhension & audit des données
• Base sinistres d’origine climatique
• Base...
24 mars 2015 TechDay Big Data – Ecole 42 28
Agenda
• Qu’est-ce que le Big Data ?
• Méthodologie
• Square Predict
• Hadoop
24 mars 2015 TechDay Big Data – Ecole 42 29
● Qu’est ce que c’est ?
● Histoire.
● Architecture de référence.
● Système d’e...
24 mars 2015 TechDay Big Data – Ecole 42 30
● Solution Open Source Big Data fournissant un socle
o Distribué
 Stockage.
...
24 mars 2015 TechDay Big Data – Ecole 42 31
Hadoop
Historique
24 mars 2015 TechDay Big Data – Ecole 42 32
Hadoop
Architecture de référence BI
24 mars 2015 TechDay Big Data – Ecole 42 33
En 10 ans, son adoption ne fait plus aucun doute !
Hadoop
Architecture de réfé...
24 mars 2015 TechDay Big Data – Ecole 42 34
Hadoop
Système d’exploitation de la donnée
24 mars 2015 TechDay Big Data – Ecole 42 35
● Système de fichier distribué.
● Scalable horizontale (ajout de noeuds)
● Tol...
24 mars 2015 TechDay Big Data – Ecole 42 36
Hadoop
MapReduce
● Framework de programmation
o Parallélisation automatique de...
24 mars 2015 TechDay Big Data – Ecole 42 37
Hadoop
Map Reduce
24 mars 2015 TechDay Big Data – Ecole 42 38
Hadoop
Démo (WordCount)
24 mars 2015 TechDay Big Data – Ecole 42 39
Hadoop
Démo (SF4H)
24 mars 2015 TechDay Big Data – Ecole 42 40
Hadoop
Démo (Méthode)
1 - Créons.
Créer un projet à
l’aide de l’archetype.
- D...
24 mars 2015 TechDay Big Data – Ecole 42 41
Hadoop
Démo (Code)
24 mars 2015 TechDay Big Data – Ecole 42 42
Hadoop
Démo (Code)
24 mars 2015 TechDay Big Data – Ecole 42 43
Hadoop
Démo (Code)
24 mars 2015 TechDay Big Data – Ecole 42 44
Hadoop
Démo (Vidéo)
24 mars 2015 TechDay Big Data – Ecole 42 45
Hadoop
En Bref : Yarn
YARN (Yet-Another-Resource-Negotiator) est aussi appelé ...
24 mars 2015 TechDay Big Data – Ecole 42 46
Hadoop se transforme en OS de la donnée !
● Client et cluster peuvent utiliser...
24 mars 2015 TechDay Big Data – Ecole 42 47
Hadoop
En Bref : Hive
● Requêtage SQL sur Hadoop (HiveQL)
○ Permet d’accéder s...
24 mars 2015 TechDay Big Data – Ecole 42 48
Hadoop
En Bref : Spark
● Spark est un Moteur Map Reduce + évolué et + Rapide.
...
24 mars 2015 TechDay Big Data – Ecole 42 49
Philippe Barra
pbarra@arrow-group.eu
Stéphane Goumard
sgoumard@arrow-group.eu
...
Prochain SlideShare
Chargement dans…5
×

Techday Arrow Group: Conférence Big Data à l'école 42

868 vues

Publié le

Arrow Group a donné le 24 mars 2015, une conférence sur le Big Data au sein de l'école 42.

Retrouvez le support de présentation.

L'intégralité de la conférence est disponible sur Youtube:
https://www.youtube.com/watch?v=C79rV3a3EOQ&feature=youtu.be

Pour en savoir plus sur notre projet Square Predict:
http://www.square-solutions.com/accueil/square-predict-big-data-assurance/

Publié dans : Données & analyses
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
868
Sur SlideShare
0
Issues des intégrations
0
Intégrations
88
Actions
Partages
0
Téléchargements
13
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Techday Arrow Group: Conférence Big Data à l'école 42

  1. 1. 24 mars 2015 TechDay Big Data – Ecole 42 1 TechDay Big Data Philippe Barra & Stéphane Goumard
  2. 2. 24 mars 2015 TechDay Big Data – Ecole 42 2 Qui est Arrow Group ?
  3. 3. 24 mars 2015 TechDay Big Data – Ecole 42 3 www.arrow‐group.eu
  4. 4. 24 mars 2015 TechDay Big Data – Ecole 42 4
  5. 5. 24 mars 2015 TechDay Big Data – Ecole 42 5
  6. 6. 24 mars 2015 TechDay Big Data – Ecole 42 6 Agenda • Qu’est-ce que le Big Data ? • Méthodologie • Square Predict • Hadoop
  7. 7. 24 mars 2015 TechDay Big Data – Ecole 42 7 Agenda • Qu’est-ce que le Big Data ? • Méthodologie • Square Predict • Hadoop
  8. 8. 24 mars 2015 TechDay Big Data – Ecole 42 8 Chaque minute sur Internet… source: http://pennystocks.la/internet-in-real-time/
  9. 9. 24 mars 2015 TechDay Big Data – Ecole 42 9 Evolution du hardware exponentielle
  10. 10. 24 mars 2015 TechDay Big Data – Ecole 42 10 Le Big Data, selon un rapport de recherche de Gartner de 2001 est une démarche consistant à extraire l’information pertinente d’un ensemble de données caractérisées par : Le Big Data
  11. 11. 24 mars 2015 TechDay Big Data – Ecole 42 11 Le Big Data peut améliorer les performances dans ces domaines: • Recommandations : déjà utilisés par les géants de la vente en ligne • Analyse de sentiments : analyse des données non structurées pour déterminer le ressenti des utilisateurs face à un produit, une marque… • Modélisation des risques : meilleure détermination des risques par traitement croisé des données historiques et facteurs environnementaux, et simulation des scenarios potentiels • Détection de fraudes : détection de comportements inhabituels • Analyse des graphes sociaux : pour déterminer les clients les plus influents qui ne sont pas forcement ceux qui achètent le plus • Résiliation clients : détection des comportements amenant à la résiliation et amélioration des relations clients • … Que peut apporter le Big Data ?
  12. 12. 24 mars 2015 TechDay Big Data – Ecole 42 12 • Un projet Big Data est un projet de R&D appliqué et non un projet d’informatisation de processus métiers. • Un projet Big Data dépend des données et non de spécifications. Le cahier des charges est remplacé par les cas d’utilisation des données. • La technologie et les mathématiques statistiques permettent aujourd’hui de rendre accessible des traitements en temps réel. Spécificités d’un projet Big Data
  13. 13. 24 mars 2015 TechDay Big Data – Ecole 42 13 MétierMétier StatistiqueStatistiqueITIT Un projet Big Data est la mise en commun des trois compétences : Projet Big Data Projet Big Data Compétences indispensables
  14. 14. 24 mars 2015 TechDay Big Data – Ecole 42 14 Agenda • Qu’est-ce que le Big Data ? • Méthodologie • Square Predict • Hadoop
  15. 15. 24 mars 2015 TechDay Big Data – Ecole 42 15 Arrow Group a conçu une méthodologie Big Data Analytics conciliant la méthodologie de data mining CRISP-DM et la méthodologie agile Scrum : Méthodologie Big Data Analytics
  16. 16. 24 mars 2015 TechDay Big Data – Ecole 42 16 Processus Big Data Analytics
  17. 17. 24 mars 2015 TechDay Big Data – Ecole 42 17 Objectifs • Définir les objectifs client par cas d’usage • Identifier le besoin, les conditions de réussite, les données clients • Construire le périmètre, le cadrage, les conditions de collaboration entre le client et l’équipe projet Compréhension du Business – Cas d’usage Métier StatistiqueIT
  18. 18. 24 mars 2015 TechDay Big Data – Ecole 42 18 Métier StatistiqueIT Objectifs • Identifier l’ensemble des données exploitables : données du client, de l’Open Data, des réseaux sociaux, du Web sémantique, des logs, des capteurs… • Elaborer les méthodes de collecte • Collecter les données Compréhension des Données
  19. 19. 24 mars 2015 TechDay Big Data – Ecole 42 19 Objectifs • Auditer et améliorer la qualité des donnée • Elaborer les méthodes de fusion • Elaborer les règles de Privacy by Design à appliquer • Préparer les donner à analyser Audit des Données Métier StatistiqueIT
  20. 20. 24 mars 2015 TechDay Big Data – Ecole 42 20 Objectifs • Sélection des méthodes d’analyse • Paramétrage des algorithmes • Application des techniques d’analyse Modélisation & Analyse Métier StatistiqueIT
  21. 21. 24 mars 2015 TechDay Big Data – Ecole 42 21 Objectifs • Analyse des résultats • Vérification du respect des objectifs business Métier StatistiqueIT Evaluation
  22. 22. 24 mars 2015 TechDay Big Data – Ecole 42 22 Objectifs • Elaboration de la présentation des résultats • Elaboration du retour d’expérience sur le développement du cas d’usage Métier StatistiqueIT Déploiement
  23. 23. 24 mars 2015 TechDay Big Data – Ecole 42 23 Agenda • Qu’est-ce que le Big Data ? • Méthodologie • Square Predict • Hadoop
  24. 24. 24 mars 2015 TechDay Big Data – Ecole 42 24 Square Predict vise à valoriser et monétiser l'énorme quantité de données dont les assureurs disposent depuis des années. Consortium : Métier StatistiqueIT Assureur français leader mondial
  25. 25. 24 mars 2015 TechDay Big Data – Ecole 42 25 Assurance Multi-Risque Habitation : Sinistralité Incendie & Dégât des Eaux Evaluation en temps réel de la sévérité d’une catastrophe naturelle Exemples de cas d’usages
  26. 26. 24 mars 2015 TechDay Big Data – Ecole 42 26 Compréhension & audit des données: Evaluation et déploiement: Assurance Multi-Risque Habitation – Sinistralité Incendie & Dégât des Eaux
  27. 27. 24 mars 2015 TechDay Big Data – Ecole 42 27 Compréhension & audit des données • Base sinistres d’origine climatique • Base contrats (clients) • Sites Web alertes météo • Réseaux sociaux • Flux RSS d’information Evaluation et déploiement: Sévérité en temps réel d’une catastrophe climatique
  28. 28. 24 mars 2015 TechDay Big Data – Ecole 42 28 Agenda • Qu’est-ce que le Big Data ? • Méthodologie • Square Predict • Hadoop
  29. 29. 24 mars 2015 TechDay Big Data – Ecole 42 29 ● Qu’est ce que c’est ? ● Histoire. ● Architecture de référence. ● Système d’exploitation de la Donnée. ● le Coeur de Hadoop. o HDFS o Map Reduce. ● Demo o Réaliser un programme MapReduce Hadoop/Java. o Usine Logicielle SF4H. ● En bref : o YARN. o Hive. o Spark. Hadoop
  30. 30. 24 mars 2015 TechDay Big Data – Ecole 42 30 ● Solution Open Source Big Data fournissant un socle o Distribué  Stockage.  Traitement. o Scalable  Scalabilité linéaire. ● Stockage local => Rapide et peu cher. o SAN => 2-10$ / Go o NAS => 1-5$ / Go o Local => 0.05$ / Go. ● Cluster de “commodity hardware” ● Open Source pour éviter le “vendor lock-in” Hadoop Qu’est ce que c’est ?
  31. 31. 24 mars 2015 TechDay Big Data – Ecole 42 31 Hadoop Historique
  32. 32. 24 mars 2015 TechDay Big Data – Ecole 42 32 Hadoop Architecture de référence BI
  33. 33. 24 mars 2015 TechDay Big Data – Ecole 42 33 En 10 ans, son adoption ne fait plus aucun doute ! Hadoop Architecture de référence BI
  34. 34. 24 mars 2015 TechDay Big Data – Ecole 42 34 Hadoop Système d’exploitation de la donnée
  35. 35. 24 mars 2015 TechDay Big Data – Ecole 42 35 ● Système de fichier distribué. ● Scalable horizontale (ajout de noeuds) ● Tolérant aux pannes (réplication) ● Full Scan, Gros Fichier (--- lecture aléatoire) Replication Factor (3) Block Sise (128 Mo) #NameNode (SPOF, FAT, Master/Slave) Hadoop HDFS (Hadoop Distributed File System)
  36. 36. 24 mars 2015 TechDay Big Data – Ecole 42 36 Hadoop MapReduce ● Framework de programmation o Parallélisation automatique des jobs Hadoop. o Gestion transparente du mode distribué. o Le traitement est envoyé là où résident les données. ● MapReduce = 2 fonctions. o map()  Convertir les données en entrée en une série de paires clé/valeur. o reduce()  Appliquer un traitement à l’ensemble des valeurs regroupées par leur clé.  Consolider les données issues du Mapper. MapReduce est un Framework => Structurant en terme de développement / conception. => Il faut rentrer dans le paradigme.
  37. 37. 24 mars 2015 TechDay Big Data – Ecole 42 37 Hadoop Map Reduce
  38. 38. 24 mars 2015 TechDay Big Data – Ecole 42 38 Hadoop Démo (WordCount)
  39. 39. 24 mars 2015 TechDay Big Data – Ecole 42 39 Hadoop Démo (SF4H)
  40. 40. 24 mars 2015 TechDay Big Data – Ecole 42 40 Hadoop Démo (Méthode) 1 - Créons. Créer un projet à l’aide de l’archetype. - Développer les Fonctions Map / Reduce et le Job. 2 - Développons. 3 - Testons. - Écrire un Test Unitaire. Simulation Cluster In Memory. 4 - Testons encore. - Tester dans le HDP en standalone. - Tester le projet sur la plateforme avec passage à l'échelle. 5 - Testons encore et encore.. - Mettre le projet sur le SCM. 6 - Partageons.
  41. 41. 24 mars 2015 TechDay Big Data – Ecole 42 41 Hadoop Démo (Code)
  42. 42. 24 mars 2015 TechDay Big Data – Ecole 42 42 Hadoop Démo (Code)
  43. 43. 24 mars 2015 TechDay Big Data – Ecole 42 43 Hadoop Démo (Code)
  44. 44. 24 mars 2015 TechDay Big Data – Ecole 42 44 Hadoop Démo (Vidéo)
  45. 45. 24 mars 2015 TechDay Big Data – Ecole 42 45 Hadoop En Bref : Yarn YARN (Yet-Another-Resource-Negotiator) est aussi appelé MapReduce 2.0. Ce n’est pas une refonte mais une évolution du framework MapReduce. Des tâches Map sont en attente alors que des slots de tâche reduce sont libres. Valeurs codées en dur. JT NN TE DN TE DN TE DN ResourceManager AplicationMaster AM AM TE DN TE DN TE DN Avant Après Problème de limite de “Scalability” Problème d’allocation des resources
  46. 46. 24 mars 2015 TechDay Big Data – Ecole 42 46 Hadoop se transforme en OS de la donnée ! ● Client et cluster peuvent utiliser des versions différentes. ● Des protocoles de communication standardisés et documentés. ● Évolution du framework progressive avec rétro-compatibilité sans destruction des services. Hadoop En Bref : Yarn
  47. 47. 24 mars 2015 TechDay Big Data – Ecole 42 47 Hadoop En Bref : Hive ● Requêtage SQL sur Hadoop (HiveQL) ○ Permet d’accéder simplement aux données ○ Ouvre Hadoop aux habitués du SQL ○ Propose des drivers xDBC pour brancher des outils externes (Tableau, etc.) ● Origine : ○ Facebook (90% des Jobs Hadoop de Facebook sont générés avec Hive) ● Les Requêtes HiveQL sont compilés en jobs Map Reduce ○ Lenteur importante (latence des jobs Map Reduce) ● Faibles performances + ● Marché très important du BD SQL. ○ Impala ○ Spark SQL ○ Drill ○ Elatstic Search For Hadoop. Horton Works pousse à l'optimisation (stringer)
  48. 48. 24 mars 2015 TechDay Big Data – Ecole 42 48 Hadoop En Bref : Spark ● Spark est un Moteur Map Reduce + évolué et + Rapide. ● Compatibilité Stockage, Moteur d'exécution ● +Rapide. Utilisation intensive de la mémoire (RDD) Langage de programmation fonctionnel orienté opération “lazyless”. ● Un EcoSystéme dédié au traitement analytique.
  49. 49. 24 mars 2015 TechDay Big Data – Ecole 42 49 Philippe Barra pbarra@arrow-group.eu Stéphane Goumard sgoumard@arrow-group.eu Contact contact@arrow-group.eu Arrow Financial Consulting Arrow Group Recrutement @Arrow_Group1 Merci Questions ?

×