OpenData - BigData - OpenSource : l'inévitable convergence

2 686 vues

Publié le

Meetup @ Digital Campus - Bordeaux

Publié dans : Technologie
0 commentaire
5 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
2 686
Sur SlideShare
0
Issues des intégrations
0
Intégrations
16
Actions
Partages
0
Téléchargements
0
Commentaires
0
J’aime
5
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

OpenData - BigData - OpenSource : l'inévitable convergence

  1. 1. 28/11/2014
  2. 2. #OpenData #BigData #OpenSource Aadel Benyoussef Excelerate Systems France Aadel.Benyoussef@ExcelerateSystems.net +33 (0)5 24 61 56 81 28/11/2014
  3. 3. #Innovation De Nouvelles Solutions pour de Vieux Problèmes De Nouvelles Solutions pour de Nouveaux Problèmes
  4. 4. DMC DeLorean Adjugée à 541.200 $ 28/11/2014
  5. 5. Alors, innovons ! 28/11/2014
  6. 6. #OpenData #BigData #OpenSource 28/11/2014
  7. 7. Cesontdes jeuxde donnéespubliés oCesontdes donnéescollectées: Parle secteurpublic (l’État, les collectivités, les institutions publiques) Parle secteurprivé(Entreprises, associations, particuliers) Surles finances, les services, les transports, la démographie, l’environnement, la culture, l’énergie, etc. oEllessontouvertesquandellessontnumériséeset publiéesde manièrestructurée, selonuneméthodologieet unelicenceouverte Accessiblesfacilementet au grand public Utilisables, modifiables, re-distribuablespar tous, sans rectrictrictiontechnique, juridiqueoufinancière Accessiblespar des interfaces de programmationd’application(API)) Environnement Transport Culture Science Finance Statistiques Climat? Géolocalisation € Open Data & Accompagnementdes Publics -Janvier2014 28/11/2014
  8. 8. Pourquoi Ouvrir ses données ? •Parce que c’est un droit pour le citoyen : •« La Société à le droit de demander compte à tout agent public de son administration» [Article XV de la «Déclaration des Droits de l’Homme et du Citoyen»] •Parce que cela représente un intérêt sociétal •Information du citoyen /Participation à la vie démocratique •Mise au point d’applications en fonction des besoins •Outil d’analyse pour les élus et les agents publics •Parce que cela représente un intérêt économique •Création de nouveaux services innovants •Outils d’analyse pour tous les acteurs économiques 28/11/2014
  9. 9. Où a commencé et où va le mouvement de libération des données ? 28/11/2014
  10. 10. Origines: les USA •1966 : “Freedom Information Act”, Loidécrivantles obligations légalespour l’Étatet sesagences •2009: Initiative “Open Government” –niveausans précédentde transparence et d’ouverturedu gouvernementObama (1er projetmisen peuvrelorsde son premeirjour de travail àla maisonblanche) •Permettreàtout citoyeninterresséde contribueràcréerles contenusde la politique •Permettreau gouvernementde bénéficierdes savoirs-faire locaux •2010: Définitionde l’opendata, groupede travail américain 10 28/11/2014
  11. 11. En France : la Loi •1978 : La loi introduit la notion de données publiques la loi « d'accès à l'information » de 1978 (dite loi CADA) est le meilleur exemple de cette démarche. Elle introduit les notions de données publiques et de leur publication. Elle permet de mettre à disposition des documents administratifs sur simple demande des administrés. •Loi de décentralisation à venir : (article 29) Les collectivités locales de plus de 3 500 habitants auront l’obligation d’ouvrir leurs données publiques. 11 28/11/2014
  12. 12. Les Licences Une donnée ouverte est couverte par une licence •Open DatabaseLicense (OdbL) L'Open DatabaseLicense (ODbL) est un contrat licence de base de données favorisant la libre circulation des données. La licence Open Databasepermet à chacun d’exploiter publiquement, commercialement ou non, des bases de données; à condition néanmoins de maintenir la licence sur la base de données, et éventuellement, sur les modifications qui y sont apportées, et de mentionner expressément l’usage, s’il génère des créations à partir de celles‐ci. Le 14 décembre 2010, le Conseil de la Ville de Paris a annoncé qu'il publiera les données de l'administration parisienne sous Licence Open Database 12 28/11/2014
  13. 13. L’Open Data dans l’idéal 13 28/11/2014
  14. 14. McKinsey Global Research (Oct.2014) Plus de donnéesouvertespour les utilisateurs 40 pays possèdentdes plateformesOpen Data 90.000 jeuxde donnéespubliéesaux U.S.A. 1.4 million de visiteurssurle site gouvernementalde l’OpenData en Grande Bretagne 102 villesontparticipésàdes Hackaton surles donnéesouvertes 1 million jeuxde donnéesouvertespour l’ensembledes gouvernements au niveaumondial 28/11/2014
  15. 15. McKinsey Global Research (Oct.2014) créateurde valeur $3 trillons (3 milliards de milliards) estla valeurannuelle approximativedes donnéesouvertesdans7 domaines 3 billions (3.000 milliards) de tonnesd’équivalent CO2 peuventêtreidentifiéesavec les donnéesouvertes 35 heurespar an sontgagnéessurles transports grâce àl’ouverturedes données 50% des citoyensestimentfavorablelment l’impactdes donnéesouvertes 100.000 applications pour smartphones en médecine, santé et bien-être 28/11/2014
  16. 16. 16 Situation ActuelleVS Open Data Donnéesdifficilesà trouveret à (ré)utiliser Powered by Excelerate Systems -France Format PDF habituel 28/11/2014
  17. 17. #OpenData #BigData #OpenSource 28/11/2014
  18. 18. Au début de notre ère numérique… Informatique d’Entreprise •Affaire de Spécialistes •Centralisée •Inaccessible hors de l’entreprise 28/11/2014
  19. 19. Au début de notre ère numérique… Informatique d’Entreprise •Affaire de Spécialistes •Centralisée •Inaccessible hors de l’entreprise Informatique Personnelle •Mac .vs. PC •Individuelle •Isolée 28/11/2014
  20. 20. Notre environnement Numérique… aujourd’hui ! ›Application d’Entreprise ›Bureautique ›Internet ›Email ›Réseaux Sociaux ›Objets connectés ›e-commerce ›Banque en ligne ›Jeux en réseau ›Apps Mobiles ›Sauvegarde et Transport de données ›Échange / Partage ›… etc. 28/11/2014
  21. 21. Les Entreprises s’intéressent à … Nous ! 28/11/2014
  22. 22. Les Entreprises s’intéressent à … Nous ! 28/11/2014
  23. 23. Les Entreprises s’intéressent à … Nous ! Moi Opinions •Ce que j’Aime Passions •Mes Hobbies Coordonnées •Comment et où me joindre Avatars •Mes apparences Profession •Quel est mon métier et où je travail Réputation •Ce que l’on dit sur moi Expression •Ce que je dis Audience •Qui je connais Certificats •Qui peut certifier de mon identité Publications •Ce que je partage Achats •Ce que j’achète, quand et où 28/11/2014
  24. 24. Évolution de la Données 10% - Données Structurées 1980 2014 90 % - Données Non-Structurées +3 trillion Go de données créées en 2013…  Plus de 90% sont des données non structurées  500 quadrillion de fichiers 1 Trillion = 1018, soit un milliard de milliards. 1 Quadrillion = 1024 Des changements considérables lors des 30 dernières années Applications Internet Smartphones & Tablettes Machines intelligentes Capteurs Quantités doublent tous les 2 Ans 28/11/2014
  25. 25. Les 3V qui imposent le changement-Volume-Variété-Vitesse 28/11/2014
  26. 26. les Entreprises veulent gérer toutesles données Toutes les données Produites en Interne et en ExterneMais aussi à toutes les données qui la Concernent Source : IBM 28/11/2014
  27. 27. | Mobile | Cloud | BigData | Sécurité | 4 grands changements qui touchent le marché du matériel, des logiciels et des services informatiques. Regard à travers 1 seul prisme : le Mobileest l’élément essentiel de Productionet de Consommationdes données. le Cloudest l’environnement où les données sont Stockées. le BigDataest l’ensemble des technologies qui permettent d’Exploiter, Analyseret Restituerles données. La Protection des Donnéesest le critère Essentielpour l’établissement de la Relation de Confiancede l’ensemble. Analyse #1 28/11/2014
  28. 28. Comment les données sont- elles produites? Notre façon d’accéder aux données est en pleine mutation. •La hausse des usages avec les appareils mobiles apporte des changements radicaux dans l'informatique pour les entreprises car ces nouveaux outils ont envahi le lieu de travail et également l’environnement privé. •La mobilité marque le début d'un changement fondamental de stockageque ce soit au sein de l’appareil, ou dans le nuage (Cloud) pour que les données soient disponibles à tout moment, n'importe où ! En 201575% de tous les dispositifs ‘informatiques’ seront des smartphones, des tablettes et des Objets Connectés 28/11/2014
  29. 29. Comment les données sont- elles stockées, gérées et utilisées? •La production de l'information numérique est en constante hausse. •Comment les données sont-elles stockées et gérées ? •Où les données sont-elles stockées ? Savoir comment toutes les données sont utiliséespar une organisation de n'importe quelle taille est vital. #Cloud #BigData #Security #Mobile@ExcelSysFrance ExcelerateSystemsFrance SI Cloud60% SI interne40% Prévisionde la RépartitionCentre de Donnéesà H2020 28/11/2014
  30. 30. 30 #BigData… on change d’ère 28/11/2014
  31. 31. BigBangHadoop Doug ! Pourquoi cet éléphant jaune ? 28/11/2014
  32. 32. 32 BigBangHadoop 28/11/2014
  33. 33. Ecosystèmes Hadoop Source : Datameer +400 Partenaires Technologies et Services 28/11/2014
  34. 34. PourquoiutiliserHadoop ? •Le moins Couteux (100% OpenSource) •Pour traiter des Peta-Octets de données •Le plus Rapide actuellement •Pour les Traitements Parallèles •Le Meilleur à ce jour •Pour apporter des Solutions à tous les problèmes de traitement de Données Massives 28/11/2014
  35. 35. #Analyser un Cas d’usage 28/11/2014
  36. 36. Système Informatique Applications OLTP Applications 28/11/2014
  37. 37. Système Informatique Data Warehouse Query Extract Transform Load Transform Architecture généralement déployé sur un SGBD Relationnel S.I centralisée = "Enterprise Data Warehouse" Applications OLTP Applications 28/11/2014
  38. 38. Système Informatique Data Warehouse Query Extract Transform Load Transform Architecture généralement déployé sur un SGBD Relationnel S.I centralisée = "Enterprise Data Warehouse" Applications OLTP Applications 28/11/2014
  39. 39. 28/11/2014
  40. 40. Applications Défis communs dans le S.I OLTP Applications Data Warehouse Query Extract Transform Load Transform 28/11/2014
  41. 41. Applications Défis communs dans le S.I OLTP Applications Data Warehouse Query Extract Transform Load Transform 1 1 1 Transformations de données est lentes, SLA manqué 28/11/2014
  42. 42. Applications Défis communs dans le S.I OLTP Applications Data Warehouse Query Extract Transform Load Transform 1 1 1 Transformations de données est lentes, SLA manqué 2 2 Requêtes lentes, QoSdégradé et des opportunités manquées. 28/11/2014
  43. 43. Applications Défis communs dans le S.I OLTP Applications Data Warehouse Query Extract Transform Load Transform 1 1 1 Transformations de données est lentes, SLA manqué 2 2 Requêtes lentes, QoSdégradé et des opportunités manquées. 3 Nécessité d’Archivage pour économiser l’espace de stockageLes données archivées ne peuvent pas fournir une Valeur. 28/11/2014
  44. 44. Applications Défis communs dans le S.I OLTP Applications Data Warehouse Query Extract Transform Load Business Intelligence Transform 1 1 1 Transformations de données est lentes, SLA manqué 2 2 Requêtes lentes, QoSdégradé et des opportunités manquées. 3 Nécessité d’archiver. Les données archivées ne peuvent pas fournir une Valeur. 4 Pression constante pour acheter de nouvelles capacités de stockage et unités de calculs juste pour maintenir la qualité de service actuel. Pas de place pour étendre les possibilités. Pas de place pour l’innovation. 28/11/2014
  45. 45. #OpenData #BigData #OpenSource 28/11/2014
  46. 46. Les avantages de l'Open Source au-delà de l’éthique, il est question de : Facilité d’Adoption Acquisition et démonstration de la Valeuravec des investissements maîtrisables1 28/11/2014
  47. 47. Les avantages de l'Open Sourceau-delà de l’éthique, il est question de : Facilité d’Adoption Acquisition et démonstration de la Valeuravec des investissements maîtrisables1 Innovation et Développement Rapide Développement communautaire: les meilleurs ingénieurs de beaucoup de sociétés Collaborentpour résoudre les problèmes et Imaginerde nouveaux concepts2 28/11/2014
  48. 48. Les avantages de l'Open Sourceau-delà de l’éthique, il est question de : Facilité d’Adoption Acquisition et démonstration de la Valeuravec des investissements maîtrisables1 Innovation et Développement Rapide Développement communautaire: les meilleurs ingénieurs de beaucoup de sociétés Collaborentpour résoudre les problèmes et Imaginerde nouveaux concepts2 Souplesse Un Standard Ouvertet indépendant des fournisseurs, ce qui encourage une large intégration de la technologie3 28/11/2014
  49. 49. Les avantages de l'Open Source au-delà de l’éthique, il est question de : Facilité d’Adoption Acquisition et démonstration de la Valeuravec des investissements maîtrisables1 Innovation et Développement Rapide Développement communautaire: les meilleurs ingénieurs de beaucoup de sociétés Collaborentpour résoudre les problèmes et Imaginerde nouveaux concepts2 Souplesse Un Standard Ouvertet indépendant des fournisseurs, ce qui encourage une large intégration de la technologie3 Pas de dépendance «Editeur» Pas de données ou processus «propriétaires" –la sélection des fournisseurs est uniquement sur la Qualité des Services4 28/11/2014
  50. 50. Quelle importance accordez vous, dans la sélection d’un vendeur de BigData aux critères suivants: 7 8 9 Source: King Research, 3922 Respondents Evolutivité Performance Flexibilité Fiabilité du vendeur Technologie Sécurisée Intégration avec d'autres systèmes Coût Techniquement Supérieur aux autres Logiciel Open Source 28/11/2014
  51. 51. 28/11/2014
  52. 52. # Choix de l’Environnement Opérationnel 28/11/2014
  53. 53. Quels sont les éléments qui déterminent votre choix de fournisseur de solution BigData? Source: King Research, 3922 Respondents 6 6,5 7 7,5 8 8,5 9 Formations Services de Consulting Recommandations Support Technique Richesse des Fonctionnalités 28/11/2014
  54. 54. 0% 20% 40% 60% Quelles infrastructures pensez-vous améliorer avec des solutions BigData ? Source: King Research, 3922 Respondents Traitements ETL Bases de Données Analytiques Stockage Entrepôts de Données Système Central (Mainframe) 28/11/2014
  55. 55. Quels sont les principaux avantages recherchés dans une solutions BigData d’entreprise Source: King Research, 3922 Respondents 10% 30% 50% 70% Amélioration des Analyses de Données Amélioration du Traitement de Données Prendre de Meilleures Décisions, Plus Rapidement Augmenter la Valeur marchande des Données Améliorer l‘Efficacité Opérationnelle Acquérir un Avantage Concurrentiel 28/11/2014
  56. 56. 15% 25% 35% 45% Quelles sont vos principaux développements BigData? Source: King Research, 3922 Respondents Recherche / Innovation Analyse Comportementale Connaissance des Clients Ciblage de Marché Analyse de l‘Expérience Client Amélioration Opérationnelle 28/11/2014
  57. 57. # Validation de l’Environnement Opérationnel 28/11/2014
  58. 58. Les Changements dans le Système d’Information des Entreprises Logs Files Web Data Relational Databases IDEs BI / Analytics Enterprise Reporting Enterprise Data Warehouse Online Serving Systems Manager SYSTEM OPERATORS ENGINEERS ANALYSTS BUSINESS USERS Web/Mobile Applications CUSTOMERS Sqoop Sqoop Sqoop Flume Flume Flume Modeling Tools DATA SCIENTISTS DATA ARCHITECTS Meta Data/ ETL Tools ODBC, JDBC, NFS, HTTP 28/11/2014
  59. 59. OpenSource mais… 28/11/2014
  60. 60. Une Plate- forme pour Stocker toutes les données •Stockage et Traitement par Lots •HDFS + NoSQL •Gestionnaire de processus batch BATCH PROCESSING (MapReduce, Hive, Pig) WORKLOAD MANAGEMENT STORAGE FOR ANY TYPE OF DATA UNIFIED, ELASTIC, RESILIENT, SECURE Filesystem (HDFS) Online NoSQL (Hbase) 28/11/2014
  61. 61. Ouverte avec des méthodes d’Accès à toutes les données •Fournir de multiples options pour intégrer les données •S'appuyant sur les niveaux de compétences et les investissements existants #Cloud #BigData #Security #Mobile@ExcelSysFrance ExcelerateSystemsFrance BATCH PROCESSING (MapReduce, Hive, Pig) ANALYTIC SQL (Impala) SEARCH ENGINE (RealTimeSearch) MACHINE LEARNING (Mahut, Datafu) STREAM PROCESSING (Spark) WORKLOAD MANAGEMENT STORAGE FOR ANY TYPE OF DATA UNIFIED, ELASTIC, RESILIENT, SECURE Filesystem (HDFS) Online NoSQL (Hbase) 28/11/2014
  62. 62. Prêt pour l'entreprise avec uneSécurité Garantie et la Supervision Globale •Sécurité et Protection des données et outils pour les Audits •Haute disponibilité avec sauvegarde automatique et reprise après sinistre •Système de Gestion Globale BATCH PROCESSING (MapReduce, Hive, Pig) ANALYTIC SQL (Impala) SEARCH ENGINE (RealTimeSearch) MACHINE LEARNING (Mahut, Datafu) STREAM PROCESSING (Spark) 3RDPARTY APPS WORKLOAD MANAGEMENT STORAGE FOR ANY TYPE OF DATA UNIFIED, ELASTIC, RESILIENT, SECURE DATA MANAGEMENT SYSTEM MANAGEMENT Filesystem (HDFS) Online NoSQL (Hbase) #Cloud #BigData #Security #Mobile@ExcelSysFrance ExcelerateSystemsFrance 28/11/2014
  63. 63. Nouvelle Approche «Software» Traditionnelle •Monolithique •Stockage Centralisé •RDBMS •Schéma de Donnée d’abord •PropriétaireSoftware Big Data •Distribué •Stockage et Exécutionau niveau du Node •Toutes les Données Brutes •Open Source 28/11/2014
  64. 64. Nouvelle Approche «Hardware» 64 Matériel Traditionnel Matériel exotique •Gros Serveur Central •SAN •RAID Coût élevé Évolutivité limitéeMatériel Big Data Matériel de base •Racks de boîtes de pizza •Ethernet •JBOD Vite Rentable Évolutivité illimitée 28/11/2014
  65. 65. Nouvelles Possibilités grâce aux technologies du BigData Moteurs de Recommandations Analyse de Sentiments Modélisation des Risques Détection de la Fraude Analyse de Campagne Marketing Analyse du taux de désabonnement des clients Analyse Social Graph Réseau de surveillance Data Analytics Source: Cloudera “Ten Common Hadoopable Problems” 28/11/2014
  66. 66. … Streaming Sources -Logs -Apps -File systems -Servers -Devices Relational Sources -Databases -Data Warehouse Analyseavancée AnalysePrédictive Recherchetemps réelet exploration “RootCause” Exploration, Reporting, Visualisation, Correlation BATCH PROCESSING ANALYTIC SQL SEARCH ENGINE MACHINE LEARNING STREAM PROCESSING 3RDPARTY APPS WORKLOAD MANAGEMENT STORAGE FOR ANY TYPE OF DATA UNIFIED, ELASTIC, RESILIENT, SECURE DATA MANAGEMENT SYSTEM MANAGEMENT ENTERPRISE DATA HUB Filesystem Online NoSQL#BigData#OpenData#OpenSource ! #Cloud #BigData #Security #Mobile@ExcelSysFrance ExcelerateSystemsFrance 28/11/2014
  67. 67. Voilà comment les donnéessontouvertesaujourd’hui! Exploitation faible: -pas de recherchedansle document -Formats figés(PDF, CSV…) Powered by Junar Les évolutionsdes portailsOpenData Ouvert Recherche Réutilisation API Visualisation 28/11/2014
  68. 68. PlateformeBigData pour l’OpenData Un Systèmede gestionde données pour faciliterla réalisationdes projetsOpen Data Support de Multiples Formats Gestionversions sources de données Multi- utilisateurs Personna lisations Gestionsdes droitsd’accès Collect Enhance Publish Social Report Suiviset Rapports Valorisationdes Données Normalisation Recherche Lisibilité Réutilisation Exportables API Standard Conformesaux specifications et standards de l’OpenData Sources de Données XLS PDF CSV ODF HTML JSON … Open Data Platform Gestionnairede Donnéesen temps réel Gestiondu cycle completde publication de la donnée 28/11/2014
  69. 69. Etude de Cas: City of Palo Alto En 3 Etapes Jonathan Reichental CIO Citoyens& Entreprisesprivées ①Démo& Décision ②Implementationinterne •Finance, Audit •GIS •Infrastructure •Services Publics •Bibliothèques, Ecoles •Planification Searchable Data Catalog Dashboards API Site ③Live Open Data Site Collection des Données 3 Semaines 28/11/2014
  70. 70. Merci de votre attention @ExcelSysFrance ExcelerateSystemsFranceExcelerate Systems -BigData, Cloud & Security Community #Security #BigData #Cloud #Mobile 28/11/2014
  71. 71. BigData .|. Cloud .|. MobileDataProtection 28/11/2014

×