Conférence big data

1 797 vues

Publié le

- Qu'est ce que le big data ?
- Exemples d'utilisation
- Le web, l'open data et le web sémantique
- Les algorithmes
- Qu’est ce que ce la change concrètement ?
- Notre projet square predict

Publié dans : Logiciels
0 commentaire
2 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
1 797
Sur SlideShare
0
Issues des intégrations
0
Intégrations
22
Actions
Partages
0
Téléchargements
76
Commentaires
0
J’aime
2
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Conférence big data

  1. 1. Conférence “Big Data” Stéphane Traumat http://about.me/straumat
  2. 2. Qui suis-je ? ● Dirigeant de Scub, une entreprise de service numérique qui a pour but de fournir du conseil et de développer des applications sur-mesure en Java afin de résoudre les problèmes de ses clients. ● Dirigeant de Square Solutions, un éditeur de logiciels qui propose une solution de gestion de la relation client dédiée au monde de l'assurance. ● Directeur de la stratégie du groupe Arrow, groupe informatique spécialisé dans l’IT pour la banque, finance et l’assurance (Londres, Paris, Bruxelles et Luxembourg). ● Cofondateur de Oak Invest, société de conseil et d'investissement spécialisée dans les nouvelles technologies. ● Développeur / Contributeur sur des projets Open Source comme JOnAS, Scub Foundation, Square... ● Conférencier sur des sujets comme l'industrialisation du développement logiciel, le cloud computing ou le web sémantique, j'ai aussi écrit un livre sur le serveur d'applications J2EE JOnAS. ● Vice Président du SPN, un cluster regroupant les entreprises TIC de la région Poitou Charentes (Président en 2010 et 2011).
  3. 3. Agenda ● Qu’est-ce que le Big Data ? ● Exemples d’utilisations. ● Le web / L’Open Data / Le web sémantique. ● Un “nouveau” métier : le Data Scientist. ● Les algorithmes utilisés. ● Qu’est ce que ce la change concrètement ? ● Notre projet Square Predict. ● Dangers. ● Questions ?
  4. 4. Où en est on ?
  5. 5. Où en est on ? - Gartner Hype Cycle
  6. 6. Où en est on ? - Gartner Hype Cycle
  7. 7. Qu’est-ce que le Big data ?
  8. 8. Big Data : définition Le Big Data désigne la problématique d’avoir un ensemble de données à traiter tellement volumineux qu’il devient très difficile, voir impossible, de le faire avec les outils existants. Ceci oblige à repenser complètement la capture, le stockage, l'analyse et la visualisation.
  9. 9. Big Data : l’objectif L’idée est d’aider les entreprises à réduire les risques, faciliter la prise de décision, créer la différence grâce à l'analyse prédictive et offrir une expérience client plus personnalisée et contextualisée. D’autant que le volume de données ne va cesser d’augmenter (Mobiles, objets connectés, voitures, drônes, capteurs...).
  10. 10. Big Data : les trois défis ● Volume : à titre d'exemple, chaque jour Facebook génère 10 teraoctets de données. ● Variété : données structurées ou non (réseaux sociaux, open data, web sémantique…). ● Vélocité : la fréquence à laquelle les données sont générées, capturées et partagées (150 000 Tweets par secondes).
  11. 11. Big Data : une nouvelle discipline Nous ne sommes donc pas face à une nouvelle technologie mais plutôt à une nouvelle discipline portée par des nouveaux outils issus de géants de l’internet et des logiciels libres.
  12. 12. Big Data : un nouvel objectif Objectif : Faire en sorte que les décisions soient plus basées sur les données et moins sur les intuitions, l’expérience ou les conseils. Seuls 32% des dirigeants décrivent leurs décisions comme étant basées sur des données (PricewaterhouseCoopers)
  13. 13. Exemples d’ utilisation
  14. 14. Exemples divers ● Netflix a analysé les préférences de ses clients pour concevoir sa propre série “House of Cards”. ● Certaines institutions financières cherchent des clients en regardant ce qu’ils disent sur les réseaux sociaux. ● Les assurances font de l’analyse de texte sur d’anciens formulaires / demandes pour traquer des fraudes. ● 23andme analyse votre ADN et vous indique vos prédispositions.
  15. 15. Où prendre les données ?
  16. 16. Où prendre les données ? Les entreprises et les institutions possèdent des données mais elles sont généralement limitées. Si Plus de données = Meilleurs décisions alors les données ont donc une valeur stratégique importante.
  17. 17. Où prendre les données ? Il est possible que l’on ait pas les données pour réaliser le data mining, il faut investir. C’est ce qu’a fait la banque Signet qui a offert à des clients au hasard des avantages afin d’ avoir assez d’informations sur les comportements. Il faut donc considérer ces données comme des avoirs stratégiques pour l’entreprise.
  18. 18. Où prendre les données ? Mais on peut aussi se servir d’Internet !
  19. 19. Le web
  20. 20. Le web : exemple grippe
  21. 21. Le web : exemple tornade
  22. 22. Open Data
  23. 23. L’Open Data : définition L’Open Data désigne le mouvement visant à rendre accessible à tous via le web les données publiques non nominatives ne relevant ni de la vie privée et ni la sécurité collectées par les organismes publics. En France : https://www.data.gouv.fr
  24. 24. L’Open Data : exemples
  25. 25. L’Open Data : exemples
  26. 26. L’Open Data : exemples
  27. 27. L’Open Data : exemples
  28. 28. L’Open Data : exemples Insee : Données carroyées à 200 m sur la population. ● Nombre d’individus en fonction des tranches d’âge. ● Nombre de propriétaires / locataires. ● Type de famille. ● Revenus fiscaux. ● Nombre d'individus par tranches d’âges.
  29. 29. Le web sémantique
  30. 30. Le web sémantique Le web fonctionne parce que, nous, les humains, sommes extrêmement doués et flexibles dans le traitement de données. Nous sommes capables de tout lire et d'acquérir de nouvelles connaissances. Aujourd'hui, Google trouve l'information mais ne la comprend pas ! (même si ça change…)
  31. 31. Le web sémantique Comment marche le web ? ● Les machines stockent le texte. ● On peut rechercher dans l'ensemble des textes grâce à des outils comme Google. ● On clique sur une page pour l'afficher. ● L'humain doit lire le texte, chercher l'information qui l'intéresse et la comprendre.
  32. 32. Le web sémantique : définition Le web sémantique a pour objectif d’arriver à un web où les informations seraient compréhensibles par les ordinateurs. Pour faire simple, ceci permettrait aux machines d’apprendre et de faire des déductions par elles mêmes.
  33. 33. Le web sémantique L’idée est de passer d'un monde où nous publions des données pour les humains à un monde où nous publions aussi des données lisibles et compréhensibles par les machines. Comment fait on cela ? C’est assez simple !
  34. 34. Le web sémantique Les informations sont représentées sous forme de Triplets, c'est à dire une association entre sujet, prédicat et objet. ● Le sujet représente la ressource à décrire. ● Le prédicat représente un type de propriété applicable à cette ressource. ● L'objet représente une donnée ou une autre ressource : c'est la valeur de la propriété.
  35. 35. Le web sémantique Paris Population 2243833 Paris Latitude 48.856578 Bordeaux Population 239157 Bordeaux Latitude 44.837912
  36. 36. Le web sémantique : exemple
  37. 37. Possibilités Ceci offre les possibilités suivantes : ● Inférence : tirer une conclusion à partir de règles de base. ● Fusion de graphes : l'on peut fusionner deux graphes facilement si ces deux graphes ont deux identifiants en commun. ● Recherche de liens : On peut très facilement parcourir un graphe pour trouver, par exemple, ce qui relie deux entreprises ou deux personnes.
  38. 38. Un “nouveau” métier : le Data Scientist
  39. 39. Un “nouveau” métier : le Data Scientist. Au vu des besoins, un “nouveau métier” va exister : Data Scientist. Josh Wills le définit de la façon suivante : Une personne qui est meilleure en statistiques que n’importe quel développeur et qui est meilleure en développement que n’importe quel statisticien.
  40. 40. Un “nouveau” métier : le Data Scientist. CV : ● Statistiques, Probabilité, Machine learning. ● Connaissances en développement logiciel. ● Connaît le métier de l’entreprise. ● Capacité de présentation et d’imagination. ● Java, R, Python... ● Hadoop, HDFS… ● ETL… ● SQL, Excel...
  41. 41. Un “nouveau” métier : le Data Scientist. Business Intelligence Data Scientist Choses que vous savez Choses que vous ne savez pas Questions que vous posez Questions que vous ne posez pas
  42. 42. Les algorithmes utilisés
  43. 43. La classification La classification consiste à prédire, pour chaque individu d’une population, à quelle classe cet individu appartient. Exemple : “parmi mes clients, lesquels pourrait répondre à une offre spécifique ?”. Dans cet exemple il y aura deux classes “répondra” et “ne répondra pas”.
  44. 44. La régression La régression (estimation de valeur) essaye d’estimer ou de prédire, pour chaque individu la valeur numérique de certaines variables de cet individu. Exemple : “A quel point ce client utilisera ce service ?”. Dans cet exemple, la valeur de l’usage du service sera généré en regardant l’usage du service par d’autres individus similaires. Par rapport à la classification qui prédit si quelque chose va se produire, la régression permet de dire à quel point la chose va se prédire.
  45. 45. La recherche de similarité La recherche de similarité essaye d’identifier des individus similaires à partir des éléments que l’on a sur eux. Par exemple, IBM utilise cette technique pour trouver des compagnies similaires à leurs clients les plus rentables afin que leurs commerciaux se concentrent sur eux.
  46. 46. Le Clustering Le Clustering essaye de classifier des individus par leurs similarités mais sans prendre en compte le but. Par exemple, pour savoir si il y a des segments ou des groupes de clients similaires. Cela permet de faire de l’exploration afin de voir vers quelles types d’analyses nous devons faire.
  47. 47. Le profilage Le profilage essaye de caractériser un comportement typique d’un individu, d’un groupe ou d’une population. Par exemple “Quel est l’usage type de leur téléphone de tel segment de clientèle ?”. Le profilage est souvent utilisé pour la détection d’ anomalies (fraudes, intrusions…) Par exemple, si l’on sait quels genres d’achats une personne fait généralement via une carte de crédit, on peut déterminer si tel ou tel achat correspond.
  48. 48. Qu’est ce que ce la change ?
  49. 49. Qu’est ce que ce la change ? Prenons un scénario : je dirige une chaîne de magasins qui vend des jeux vidéos. La saison de Noël approche et ma réussite dépend d’une chose principalement : Avoir assez de stocks, au bon endroit, sur les produits qui vont le mieux se vendre. Nous sommes quelques mois avant noël.
  50. 50. Qu’est ce que ce la change ? Quel est l’objectif ? Savoir ce qui va se vendre, où et dans quelles quantités. Je vais utiliser les données suivantes : ● Recherches google. ● Tweets qui parlent de jeux vidéos. ● Budgets dépensés par l’industrie du jeu. ● Tests de remises sur des joueurs “type” qui sont parmi mes clients.
  51. 51. Qu’est ce que ce la change ?
  52. 52. Qu’est ce que ce la change ? Grâce à ces données, je vais pouvoir trouver quels sont les jeux qui semblent avoir le plus de succès et donc piloter mes achats.
  53. 53. Qu’est ce que ce la change ? Maintenant que je sais quels jeux vont potentiellement le mieux marcher, il va falloir que je sache dans quels magasins ! Je vais utiliser les données suivantes : ● Tests de remises sur des joueurs “type” qui sont parmi mes clients. ● Tweets géolocalisés qui parlent de jeux. ● Données INSEE.
  54. 54. Qu’est ce que ce la change ? Grâce aux analyses que j’ai, je vais pouvoir : ● Mieux gérer mes commandes/stocks. ● Mieux gérer mes campagnes commerciales. ● Re segmenter ma base en fonction des pré commandes et faire des contacts ciblés.
  55. 55. Un exemple de projet : Square Predict Solution Big Data pour le monde de l’ assurance
  56. 56. La problématique
  57. 57. La problématique Le “online to store” est une réalité en France 62% des souscriptions sont liées au digital Recherche online / Achat offline 48,6 % Recherche offline / Achat offline 37,8 % Recherche online / Achat online 10,8 % Recherche offine / Achat offline 2,7 % Source: Etude RoPo – Deutsche Bank 2011
  58. 58. La problématique Les géants de l’assurance l’ont bien compris
  59. 59. La problématique
  60. 60. La problématique Et si les géants de l’Internet (Google, Facebook…) qui disposent d’énormes informations (personnelles, géolocalisées, statistiques…) ne renvoyaient plus sur les sites des assureurs et proposaient leurs propres produits d’assurances, mieux ciblés et plus rentables directement ?
  61. 61. La problématique D’après une étude Accenture auprès de 6.000 assurés dans 11 pays, les 2/3 des consommateurs sont prêts à acheter des produits d’assurance ailleurs, notamment auprès des géants du Web. Ce serait 400 milliards de dollars de primes d’ assurance qui pourraient changer de main.
  62. 62. Notre solution
  63. 63. Notre solution Square Predict a pour objectifs de permettre aux assurances de valoriser et monétiser leur patrimoine de données en les croisant avec celles disponibles sur internet (réseaux sociaux, web sémantique, open data…). L’objectif étant de contextualiser la relation client et les évènements afin de réagir de manière plus appropriée.
  64. 64. Notre solution La plate-forme Square Predict permettra : ● De croiser les données des assureurs avec : ○ L’Open Data. ○ Le web sémantique. ○ Internet et les réseaux sociaux. ● De réaliser des analyses en temps réel.
  65. 65. Exemples d’ utilisations
  66. 66. Exemple n°1 Étude d’impact en temps réel d’une catastrophe naturelle. Utiliser les données des assurances, des réseaux sociaux et de l’ open data pour estimer en temps réel l’impact d’un évènement.
  67. 67. Exemple n°2 Collecter les informations disponibles pour évaluer les risques sur les habitations.
  68. 68. Exemple n°3 Adaptation des forces de la relation clientèle en fonction des évènements. Détection d’évènements notamment sur les réseaux sociaux et génération d’action en automatique.
  69. 69. Partenaires
  70. 70. Partenaires Projet soutenu par le Programme d’ Investissements d’Avenir (anciennement Grand Emprunt) : budget de 2,76M€. Les partenaires : ● Un des premiers assureurs mondiaux. ● LIPN, LIPADE et le LARIS. ● Un cabinet d’éthique.
  71. 71. Exemple concret de résultat
  72. 72. Partitionnement de données Le Clustering (partitionnement de données) essaye de classifier des individus par leurs similarités mais sans prendre en compte le but. L’idée est de faire émerger automatiquement des sous-ensembles et sous-concepts éventuellement impossibles à naturellement distinguer.
  73. 73. Données de base Nous sommes partis des données fournies par l’un de nos partenaires : ● Nombre de Pièces du bien. ● Propriétaire / Copropriétaire / Locataire. ● Appartement / Maison / RdC. ● Résidence Principale / Secondaire.
  74. 74. Enrichissement des données ● Données de l’INSEE permet de compléter les revenus, le nombre de personnes dans le logement, âge de l’habitation, type d’ habitation, criminalités… ● Données sémantiques sur la ville, le lieux, la pluviométrie ● ...
  75. 75. Définition des indicateurs Trois indicateurs ont été prises en compte : ● Taux de sinistre = Nbe sinistres / Nbe de contrats. ● Charge par sinistre = Somme montant sinistres / Nbe sinistres. ● Perte par contrat = Taux sinistres * charge par contrat.
  76. 76. Résultats Ceci nous a permis de détecter des groupes dont la pertinence a été validée.
  77. 77. Dangers
  78. 78. Dangers Ils sont nombreux et variés et vous avez certainement devinés un certain nombre donc je ne vais pas en parler !
  79. 79. Points de vue à prendre en compte... ● “La vie privée est peut être une anomalie” - Vint Cerf http://techcrunch.com/2013/11/20/googles-cerf-says-privacy- may-be-an-anomaly-historically-hes-right/ ● “Nous devons abandonner un peu de notre vie privée pour améliorer le monde” - Tim O’ Reilly http://readwrite. com/2010/07/22/tim_oreilly_says_you_should_give_up_ some_privacy_t
  80. 80. Merci ! Stéphane Traumat http://about.me/straumat

×