Track 2 - Atelier 2 - Introduction à redshift

926 vues

Publié le

Cette session sera consacrée à la présentation d’Amazon Redshift, qui est un service d’entrepôt de données entièrement géré dont la taille va de quelques centaines de giga-octets à un ou plusieurs péta-octets, coûtant moins de 1 000 USD par téra-octet et par an, soit un dixième du coût de la plupart des solutions classiques d'entrepôt de données. Vous découvrirez la simplicité avec laquelle vous pouvez démarrer avec Amazon RedShift et analyser et lancer des rapports sur plusieurs millions de lignes d’enregistrements en quelques secondes.

Publié dans : Technologie
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
926
Sur SlideShare
0
Issues des intégrations
0
Intégrations
1
Actions
Partages
0
Téléchargements
0
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Track 2 - Atelier 2 - Introduction à redshift

  1. 1. Introduction a Amazon Redshift Carlos Conde Sr. Mgr. Solutions Architecture
  2. 2. CREATION  STOCKAGE  ANALYSE  PARTAGE
  3. 3. LE COUT DE CREATION DES DONNEES BAISSE LA DEMANDE D’ANALYSE DE DONNEES AUGMENTE
  4. 4. LE COUT DE CREATION DES DONNEES BAISSE LA DEMANDE D’ANALYSE DE DONNEES AUGMENTE
  5. 5. Données créées Disponible pour analyse VOLUME DE DONNEES Gartner: User Survey Analysis: Key Trends Shaping the Future of Data Center Infrastructure Through 2011 IDC: Worldwide Business Analytics Software 2012–2016 Forecast and 2011 Vendor Shares
  6. 6. CREATIONSTOCKAGE  ANALYSE  PARTAGE
  7. 7. CREATIONSTOCKAGE  ANALYSE  PARTAGE
  8. 8. DATAWAREHOUSE ERP ANALYSTECRM COMPTA
  9. 9. DATAWAREHOUSE ERP ANALYSTECRM COMPTA OLTP OLTP OLTP OLAP
  10. 10. OLTP ON-LINE TRANSACTION PROCESSING • Transactions courtes (query+update) • Requetes touchent une petite partie des donnees • Mises a jour tres frequentes • Requetes consomment peu de ressources (concurrence est le principal frein a la performance) OLAP ON-LINE ANALYTICAL PROCESSING • Requetes longues et tres complexes • Requetes touchent une grande partie des donnees • Mises a jour peu frequentes • Chaque requete consomme beaucoup de resources
  11. 11. OLTP OLAP
  12. 12. DATAWAREHOUSE ANALYSTE BUSINESS INTELLIGENCE RAPPORTS, TABLEAUX DE BORD, … DECHARGER LA PRODUCTION STRUCTURES DE DONNEES DIFFERENTES, UTILISATION D’ETLs, …
  13. 13. GRANDES ENTREPRISES TROP CHER (ROI) DIFFICILE A MAINTENIR PEU ADAPTABLE
  14. 14. GRANDES ENTREPRISES PME TROP CHER (ROI) DIFFICILE A MAINTENIR PEU ADAPTABLE BEAUCOUP TROP CHER !
  15. 15. CREATIONSTOCKAGE  ANALYSE  PARTAGE
  16. 16. CREATIONSTOCKAGE  ANALYSE  PARTAGE ACCELERATION
  17. 17. + CAPACITE ELASTIQUE + PAS DE CAPEX + PAIEMENT A L’UTILISATION + DISPONIBLE A LA DEMANDE = PAS DES CONTRAINTES
  18. 18. CREATIONSTOCKAGE  ANALYSE  PARTAGE ACCELERATION AMAZON REDSHIFT
  19. 19. AMAZON REDSHIFT
  20. 20. CAHIER DES CHARGES: Un datawarehouse a l’échelle du petabyte qui soit… AMAZON REDSHIFT BEAUCOUP MOINS CHER BEAUCOUP PLUS RAPIDE BEAUCOUP PLUS SIMPLE
  21. 21. AMAZON REDSHIFT FONCTIONE SUR DU MATERIEL OPTIMISE HS1.8XL: 128 Go RAM, 16 Coeurs, 16 To de contenu compressé, 2 Go/sec en lecture HS1.XL: 16 Go RAM, 2 Coeurs, 2 To de contenu compressé
  22. 22. Extra Large Node (HS1.XL) Noeud unique (2 To) Cluster 2-32 Noeuds (4 To – 64 To) Eight Extra Large Node (HS1.8XL) Cluster 2-100 Noeuds (32 To – 1.6 Po)
  23. 23. 10 GigE (HPC) Ingestion Backup Restoration JDBC/ODBC
  24. 24. …BEAUCOUP PLUS SIMPLE
  25. 25. CHARGEMENT DES DONNEES Lecture en parallele Données triées et distribuées automatiquement Croissance linéaire
  26. 26. SAUVEGARDE DES DONNEES Sauvegardes sur Amazon S3 continues, automatiques et incrémentales Periode de rétention configurable Sauvegardes a la demande Restauration en “Streaming”
  27. 27. REPLICATION AU SEIN DU CLUSTER + SAUVEGARDE AUTOMATIQUE SUR AMAZON S3 + MONITORING DES NOEUDS
  28. 28. RESTAURATION AUTOMATIQUE
  29. 29. Redimensionement en ligne Nouveau cluster cree en tache de fond Copie en parallele de noeud a noeud Seul le cluster source est facturé pendant l’opération
  30. 30. Permutation automatique du point de contact par DNS Destruction du cluster source
  31. 31. CREER UN DATAWAREHOUSE EN QUELQUES MINUTES
  32. 32. CAS CLIENT Thomas Grange – Botify
  33. 33. Analyser la qualité d'un site web avec Redshift @mpelmann / @botify / botify.com
  34. 34. Quels sont les critères qualité d'un site web ?
  35. 35. Des pages qui se chargent rapidement
  36. 36. Une sémantique inédite d'une page à l'autre (balise title, description, h1, contenu...)
  37. 37. Des pages accessibles en un minimum de clics
  38. 38. 1999 Mon 1er site Internet 100 pages
  39. 39. 1999 2005 Je rejoins Doctissimo.fr 3 millions de pages
  40. 40. 1999 2005 2013 Botify aspire les pages de Dailymotion.fr + 100 millions de pages !
  41. 41. 100 millions de pages = 1 To de données !
  42. 42. Avantages de Redshift • Charger des lourds jeux de données sans développement complexe • Répondre à des requêtes avec un langage simple • Le plus rapidement possible (secondes !)
  43. 43. CHALLENGE ACCEPTED !
  44. 44. CREATE TABLE urls_data ( url_id BIGINT, url = VARCHAR(450) title VARCHAR(150), page_type CHAR(20), depth INT, http_code INT, delay_ms INT, ); CREATE TABLE urls_links ( src_url_id BIGINT, dst_url_id BIGINT ); Datas trouvées sur les urls : balise title, type de page, nombre de clics à partir de la homepage, code http, temps de chargement Liens trouvés entre les urls
  45. 45. Charger des jeux de données sans développement complexe Il suffit d'uploader des fichiers texte sur S3 COPY urls_data from 's3://mybucket/urls_data.txt' CREDENTIALS 'aws_access_key_id=X;aws_secret_access_key=Y' DELIMITER 't'; COPY urls_links from 's3://mybucket/urls_links.txt' CREDENTIALS 'aws_access_key_id=X;aws_secret_access_key=Y' DELIMITER 't';
  46. 46. Répondre à des requêtes complexes avec un langage simple : SQL Like Language !
  47. 47. Les pages retournées en 404 SELECT url, http_code FROM urls_data WHERE http_code = 404
  48. 48. Les pages qui mettent plus d'1 seconde à charger SELECT url FROM urls_data WHERE delay_ms > 1000
  49. 49. Les pages dont le titre contient "Obama" SELECT url FROM urls_data WHERE title LIKE '%obama%'
  50. 50. Le temps de chargement moyen par type de page SELECT page_type, AVG(delay_ms) FROM urls_data GROUP BY page_type
  51. 51. Les pages avec des balises title dupliquées ! SELECT u1.url, u2.url, title FROM urls_data u1, urls_data u2 WHERE u1.url_id != u2.url_id AND u1.title = u2.title
  52. 52. Plus complexe : les 1000 urls qui ont le plus de liens entrants SELECT u.url, links.nb FROM urls_data u, (SELECT dst_url_id, COUNT(*) AS nb FROM urls_links GROUP BY dst_url_id) links WHERE u.url_id = links.dst_url_id ORDER BY links.nb DESC LIMIT 1000
  53. 53. Plus complexe : les urls qui pointent vers une page parlant d'Obama SELECT src_urls.url FROM urls_data src_urls, urls_data dst_urls, urls_links links WHERE links.src_url_id = src_urls.url_id AND links.dst_url_id = dst_urls.url_id AND dst_urls.title LIKE '%obama%'
  54. 54. Ces requêtes mettent seulement quelques secondes à être exécutées (sur 1 cluster de 5 nodes XL)
  55. 55. On peut fermer le cluster et le relancer quand on le souhaite (On backup ou on recréé les tables avec S3)
  56. 56. Stockage par colonnes Particulièrement efficace pour compresser les jeux de données et les parser plus rapidement De plus, Redshift le fait automatiquement (En analysant les 100K premières entrées)
  57. 57. Si vous aimez le SEO et l'analyse structurelle, participez à la prochaine beta en vous inscrivant sur www.botify.com @botify
  58. 58. MERCI ! Thomas Grange – Botify
  59. 59. …BEAUCOUP PLUS RAPIDE
  60. 60. CAPACITE MEMOIRE ET PERFORMANCE CPU DOUBLENT TOUS LES 2 ANS PERORMANCE DISQUE DOUBLE TOUS LES 10 ANS
  61. 61. CAPACITE MEMOIRE ET PERFORMANCE CPU DOUBLENT TOUS LES 2 ANS PERORMANCE DISQUE DOUBLE TOUS LES 10 ANS
  62. 62. LES E/S SONT LE PRINCIPAL FACTEUR DE PERFORMANCE
  63. 63. • STOCKAGE PAR COLONNES • COMPRESSION PAR COLONNE • ZONES D’UTILISATION • HARDWARE OPTIMISE
  64. 64. TEST: 2 MILLIARDS D’ENREGISTREMENTS 6 REQUETES REPRESENTATIVES
  65. 65. AMAZON REDSHIFT 2xHS1.8XL Vs. 32 NOEUDS, 4.2To RAM, 1.6Po
  66. 66. DE 12x A 150x PLUS RAPIDE
  67. 67. 30 MINUTES  12 SECONDES
  68. 68. …BEAUCOUP MOINS CHER
  69. 69. 2x HS1.8XL 3.65$ / HEURE 32 000$ PAR AN
  70. 70. Instance HS1.XL par heure Tarif Horaire par To Tarif Annuel par To On-Demand 0.850 $ 0.425 $ 3 723 $ Reservation sur 1 an 0.500 $ 0.250 $ 2 190 $ Reservation sur 3 ans 0.228 $ 0.114 $ 999 $
  71. 71. CAS D’UTILISATION
  72. 72. AMAZON ELASTIC MAPREDUCE AMAZON DYNAMODB AMAZON EC2 AWS STORAGE GATEWAY AMAZON S3 DATA CENTER AMAZON RDS AMAZON REDSHIFT
  73. 73. UPLOAD VERS AMAZON S3 AWS IMPORT/EXPORT AWS DIRECT CONNECT INTEGRATION DE DONNEES INTEGRATION SYSTEMES
  74. 74. 2 million 15 million MEMBRES ENREGISTRES 2011 2012 2013
  75. 75. 1,500,000+ NOUVEAUX MEMBRES PAR MOIS
  76. 76. 1,200,000,000+ CONNECTIONS SOCIALES IMPORTEES
  77. 77. Data Analyst Raw Data Get Data Join via Facebook Add a Skill Page Invite Friends Web Servers Amazon S3 User Action Trace Events EMR Hive Scripts Process Content • Process log files with regular expressions to parse out the info we need. • Processes cookies into useful searchable data such as Session, UserId, API Security token. • Filters surplus info like internal varnish logging. Amazon S3 Aggregated Data Raw Events Internal Web Excel Tableau Amazon Redshift
  78. 78. Redshift Reporting and BI EMR S3
  79. 79. DynamoDB Redshift OLTP Web Apps Reporting and BI
  80. 80. RDBMS Redshift OLTP ERP Reporting & BI
  81. 81. RDBMS Redshift OLTP ERP Reporting & BI
  82. 82. JDBC/ODBC Amazon Redshift
  83. 83. DATAWAREHOUSE PAR AWS Paiement a l’utilisation, pas de CAPEX Cout faible pour hautes performances Ouvert et s’adapte aux outils du marché Simple a utiliser et extensible
  84. 84. VITESSE ET AGILITE Experiences frequentes Faible cout d’echec Plus d’innovation Experiences peu frequentes Cout d’échec élevé Moins d’innovation “EN LOCAL”
  85. 85. MERCI !

×