Introduction a Amazon Redshift
Carlos Conde
Sr. Mgr. Solutions Architecture
CREATION  STOCKAGE  ANALYSE  PARTAGE
LE COUT DE CREATION
DES DONNEES BAISSE
LA DEMANDE D’ANALYSE
DE DONNEES AUGMENTE
LE COUT DE CREATION
DES DONNEES BAISSE
LA DEMANDE D’ANALYSE
DE DONNEES AUGMENTE
Données créées
Disponible pour
analyse
VOLUME DE DONNEES
Gartner: User Survey Analysis: Key Trends Shaping the Future of D...
CREATIONSTOCKAGE  ANALYSE  PARTAGE
CREATIONSTOCKAGE  ANALYSE  PARTAGE
DATAWAREHOUSE
ERP
ANALYSTECRM
COMPTA
DATAWAREHOUSE
ERP
ANALYSTECRM
COMPTA
OLTP
OLTP
OLTP
OLAP
OLTP
ON-LINE TRANSACTION PROCESSING
• Transactions courtes
(query+update)
• Requetes touchent une petite
partie des donnee...
OLTP
OLAP
DATAWAREHOUSE
ANALYSTE
BUSINESS
INTELLIGENCE
RAPPORTS, TABLEAUX DE BORD, …
DECHARGER LA
PRODUCTION
STRUCTURES DE DONNEES
D...
GRANDES
ENTREPRISES
TROP CHER (ROI)
DIFFICILE A MAINTENIR
PEU ADAPTABLE
GRANDES
ENTREPRISES PME
TROP CHER (ROI)
DIFFICILE A MAINTENIR
PEU ADAPTABLE
BEAUCOUP TROP CHER !
CREATIONSTOCKAGE  ANALYSE  PARTAGE
CREATIONSTOCKAGE  ANALYSE  PARTAGE
ACCELERATION
+ CAPACITE ELASTIQUE
+ PAS DE CAPEX
+ PAIEMENT A L’UTILISATION
+ DISPONIBLE A LA DEMANDE
= PAS DES CONTRAINTES
CREATIONSTOCKAGE  ANALYSE  PARTAGE
ACCELERATION
AMAZON REDSHIFT
AMAZON REDSHIFT
CAHIER DES CHARGES:
Un datawarehouse a l’échelle du petabyte qui soit…
AMAZON
REDSHIFT
BEAUCOUP
MOINS CHER
BEAUCOUP
PLUS R...
AMAZON REDSHIFT
FONCTIONE SUR DU MATERIEL OPTIMISE
HS1.8XL: 128 Go RAM, 16 Coeurs, 16 To de contenu compressé, 2 Go/sec en...
Extra Large Node
(HS1.XL)
Noeud unique (2 To)
Cluster 2-32 Noeuds (4 To – 64 To)
Eight Extra Large Node (HS1.8XL)
Cluster ...
10 GigE
(HPC)
Ingestion
Backup
Restoration
JDBC/ODBC
…BEAUCOUP PLUS SIMPLE
CHARGEMENT DES
DONNEES
Lecture en parallele
Données triées et distribuées
automatiquement
Croissance linéaire
SAUVEGARDE DES
DONNEES
Sauvegardes sur Amazon S3
continues, automatiques et
incrémentales
Periode de rétention
configurabl...
REPLICATION AU SEIN DU
CLUSTER
+
SAUVEGARDE AUTOMATIQUE SUR
AMAZON S3
+
MONITORING DES NOEUDS
RESTAURATION AUTOMATIQUE
Redimensionement en ligne
Nouveau cluster cree en tache
de fond
Copie en parallele de noeud a noeud
Seul le cluster source...
Permutation automatique du point de
contact par DNS
Destruction du cluster source
CREER UN DATAWAREHOUSE EN
QUELQUES MINUTES
CAS CLIENT
Thomas Grange – Botify
Analyser la qualité d'un site web
avec Redshift
@mpelmann / @botify / botify.com
Quels sont les critères
qualité d'un site web ?
Des pages qui se
chargent rapidement
Une sémantique inédite
d'une page à l'autre
(balise title, description, h1, contenu...)
Des pages accessibles
en un minimum de clics
1999
Mon 1er site Internet
100 pages
1999 2005
Je rejoins Doctissimo.fr
3 millions de pages
1999 2005 2013
Botify aspire les pages de Dailymotion.fr
+ 100 millions de pages !
100 millions de pages =
1 To de données !
Avantages de Redshift
• Charger des lourds jeux de données sans
développement complexe
• Répondre à des requêtes avec un l...
CHALLENGE ACCEPTED !
CREATE TABLE urls_data (
url_id BIGINT,
url = VARCHAR(450)
title VARCHAR(150),
page_type CHAR(20),
depth INT,
http_code IN...
Charger des jeux de données sans développement
complexe
Il suffit d'uploader des fichiers texte sur S3
COPY urls_data from...
Répondre à des requêtes
complexes avec un langage
simple :
SQL Like Language !
Les pages retournées en 404
SELECT url, http_code
FROM urls_data
WHERE http_code = 404
Les pages qui mettent plus d'1
seconde à charger
SELECT url
FROM urls_data
WHERE delay_ms > 1000
Les pages dont le titre contient
"Obama"
SELECT url
FROM urls_data
WHERE title LIKE '%obama%'
Le temps de chargement
moyen par type de page
SELECT page_type, AVG(delay_ms)
FROM urls_data
GROUP BY page_type
Les pages avec des balises title
dupliquées !
SELECT u1.url, u2.url, title
FROM urls_data u1, urls_data u2
WHERE u1.url_id...
Plus complexe : les 1000 urls
qui ont le plus de liens entrants
SELECT u.url, links.nb
FROM urls_data u, (SELECT dst_url_i...
Plus complexe : les urls qui
pointent vers une page parlant
d'Obama
SELECT src_urls.url
FROM urls_data src_urls, urls_data...
Ces requêtes mettent seulement
quelques secondes à être exécutées
(sur 1 cluster de 5 nodes XL)
On peut fermer le cluster et le
relancer quand on le souhaite
(On backup ou on recréé les tables avec S3)
Stockage par colonnes
Particulièrement efficace pour
compresser les jeux de données et
les parser plus rapidement
De plus,...
Si vous aimez le SEO et l'analyse structurelle,
participez à la prochaine beta en vous inscrivant sur
www.botify.com
@boti...
MERCI !
Thomas Grange – Botify
…BEAUCOUP PLUS RAPIDE
CAPACITE MEMOIRE ET
PERFORMANCE CPU
DOUBLENT TOUS LES 2 ANS
PERORMANCE DISQUE DOUBLE
TOUS LES 10 ANS
CAPACITE MEMOIRE ET
PERFORMANCE CPU
DOUBLENT TOUS LES 2 ANS
PERORMANCE DISQUE DOUBLE
TOUS LES 10 ANS
LES E/S SONT LE PRINCIPAL
FACTEUR DE PERFORMANCE
• STOCKAGE PAR COLONNES
• COMPRESSION PAR COLONNE
• ZONES D’UTILISATION
• HARDWARE OPTIMISE
TEST:
2 MILLIARDS D’ENREGISTREMENTS
6 REQUETES REPRESENTATIVES
AMAZON REDSHIFT 2xHS1.8XL
Vs.
32 NOEUDS, 4.2To RAM, 1.6Po
DE 12x A 150x PLUS RAPIDE
30 MINUTES

12 SECONDES
…BEAUCOUP MOINS CHER
2x HS1.8XL
3.65$ / HEURE
32 000$ PAR AN
Instance HS1.XL
par heure
Tarif Horaire
par To
Tarif Annuel
par To
On-Demand 0.850 $ 0.425 $ 3 723 $
Reservation
sur 1 an
...
CAS D’UTILISATION
AMAZON ELASTIC
MAPREDUCE
AMAZON
DYNAMODB
AMAZON EC2
AWS STORAGE
GATEWAY
AMAZON S3
DATA CENTER
AMAZON RDS
AMAZON
REDSHIFT
UPLOAD VERS AMAZON S3
AWS IMPORT/EXPORT
AWS DIRECT CONNECT
INTEGRATION
DE DONNEES
INTEGRATION
SYSTEMES
2 million
15 million
MEMBRES ENREGISTRES
2011 2012 2013
1,500,000+
NOUVEAUX MEMBRES PAR MOIS
1,200,000,000+
CONNECTIONS SOCIALES IMPORTEES
Data Analyst
Raw Data
Get
Data
Join via Facebook
Add a Skill Page
Invite Friends
Web Servers Amazon S3
User Action Trace E...
Redshift
Reporting
and BI
EMR
S3
DynamoDB
Redshift
OLTP
Web Apps
Reporting
and BI
RDBMS
Redshift
OLTP
ERP
Reporting
& BI
RDBMS
Redshift
OLTP
ERP
Reporting
& BI
JDBC/ODBC
Amazon Redshift
DATAWAREHOUSE PAR AWS
Paiement a l’utilisation, pas de CAPEX
Cout faible pour hautes performances
Ouvert et s’adapte aux o...
VITESSE ET AGILITE
Experiences
frequentes
Faible cout
d’echec
Plus
d’innovation
Experiences peu
frequentes
Cout d’échec
él...
MERCI !
Track 2 - Atelier 2 - Introduction à redshift
Track 2 - Atelier 2 - Introduction à redshift
Track 2 - Atelier 2 - Introduction à redshift
Track 2 - Atelier 2 - Introduction à redshift
Track 2 - Atelier 2 - Introduction à redshift
Track 2 - Atelier 2 - Introduction à redshift
Track 2 - Atelier 2 - Introduction à redshift
Track 2 - Atelier 2 - Introduction à redshift
Track 2 - Atelier 2 - Introduction à redshift
Track 2 - Atelier 2 - Introduction à redshift
Track 2 - Atelier 2 - Introduction à redshift
Track 2 - Atelier 2 - Introduction à redshift
Track 2 - Atelier 2 - Introduction à redshift
Track 2 - Atelier 2 - Introduction à redshift
Track 2 - Atelier 2 - Introduction à redshift
Track 2 - Atelier 2 - Introduction à redshift
Track 2 - Atelier 2 - Introduction à redshift
Track 2 - Atelier 2 - Introduction à redshift
Track 2 - Atelier 2 - Introduction à redshift
Track 2 - Atelier 2 - Introduction à redshift
Track 2 - Atelier 2 - Introduction à redshift
Track 2 - Atelier 2 - Introduction à redshift
Track 2 - Atelier 2 - Introduction à redshift
Track 2 - Atelier 2 - Introduction à redshift
Track 2 - Atelier 2 - Introduction à redshift
Prochain SlideShare
Chargement dans…5
×

Track 2 - Atelier 2 - Introduction à redshift

968 vues

Publié le

Cette session sera consacrée à la présentation d’Amazon Redshift, qui est un service d’entrepôt de données entièrement géré dont la taille va de quelques centaines de giga-octets à un ou plusieurs péta-octets, coûtant moins de 1 000 USD par téra-octet et par an, soit un dixième du coût de la plupart des solutions classiques d'entrepôt de données. Vous découvrirez la simplicité avec laquelle vous pouvez démarrer avec Amazon RedShift et analyser et lancer des rapports sur plusieurs millions de lignes d’enregistrements en quelques secondes.

Publié dans : Technologie
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
968
Sur SlideShare
0
Issues des intégrations
0
Intégrations
1
Actions
Partages
0
Téléchargements
0
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Track 2 - Atelier 2 - Introduction à redshift

  1. 1. Introduction a Amazon Redshift Carlos Conde Sr. Mgr. Solutions Architecture
  2. 2. CREATION  STOCKAGE  ANALYSE  PARTAGE
  3. 3. LE COUT DE CREATION DES DONNEES BAISSE LA DEMANDE D’ANALYSE DE DONNEES AUGMENTE
  4. 4. LE COUT DE CREATION DES DONNEES BAISSE LA DEMANDE D’ANALYSE DE DONNEES AUGMENTE
  5. 5. Données créées Disponible pour analyse VOLUME DE DONNEES Gartner: User Survey Analysis: Key Trends Shaping the Future of Data Center Infrastructure Through 2011 IDC: Worldwide Business Analytics Software 2012–2016 Forecast and 2011 Vendor Shares
  6. 6. CREATIONSTOCKAGE  ANALYSE  PARTAGE
  7. 7. CREATIONSTOCKAGE  ANALYSE  PARTAGE
  8. 8. DATAWAREHOUSE ERP ANALYSTECRM COMPTA
  9. 9. DATAWAREHOUSE ERP ANALYSTECRM COMPTA OLTP OLTP OLTP OLAP
  10. 10. OLTP ON-LINE TRANSACTION PROCESSING • Transactions courtes (query+update) • Requetes touchent une petite partie des donnees • Mises a jour tres frequentes • Requetes consomment peu de ressources (concurrence est le principal frein a la performance) OLAP ON-LINE ANALYTICAL PROCESSING • Requetes longues et tres complexes • Requetes touchent une grande partie des donnees • Mises a jour peu frequentes • Chaque requete consomme beaucoup de resources
  11. 11. OLTP OLAP
  12. 12. DATAWAREHOUSE ANALYSTE BUSINESS INTELLIGENCE RAPPORTS, TABLEAUX DE BORD, … DECHARGER LA PRODUCTION STRUCTURES DE DONNEES DIFFERENTES, UTILISATION D’ETLs, …
  13. 13. GRANDES ENTREPRISES TROP CHER (ROI) DIFFICILE A MAINTENIR PEU ADAPTABLE
  14. 14. GRANDES ENTREPRISES PME TROP CHER (ROI) DIFFICILE A MAINTENIR PEU ADAPTABLE BEAUCOUP TROP CHER !
  15. 15. CREATIONSTOCKAGE  ANALYSE  PARTAGE
  16. 16. CREATIONSTOCKAGE  ANALYSE  PARTAGE ACCELERATION
  17. 17. + CAPACITE ELASTIQUE + PAS DE CAPEX + PAIEMENT A L’UTILISATION + DISPONIBLE A LA DEMANDE = PAS DES CONTRAINTES
  18. 18. CREATIONSTOCKAGE  ANALYSE  PARTAGE ACCELERATION AMAZON REDSHIFT
  19. 19. AMAZON REDSHIFT
  20. 20. CAHIER DES CHARGES: Un datawarehouse a l’échelle du petabyte qui soit… AMAZON REDSHIFT BEAUCOUP MOINS CHER BEAUCOUP PLUS RAPIDE BEAUCOUP PLUS SIMPLE
  21. 21. AMAZON REDSHIFT FONCTIONE SUR DU MATERIEL OPTIMISE HS1.8XL: 128 Go RAM, 16 Coeurs, 16 To de contenu compressé, 2 Go/sec en lecture HS1.XL: 16 Go RAM, 2 Coeurs, 2 To de contenu compressé
  22. 22. Extra Large Node (HS1.XL) Noeud unique (2 To) Cluster 2-32 Noeuds (4 To – 64 To) Eight Extra Large Node (HS1.8XL) Cluster 2-100 Noeuds (32 To – 1.6 Po)
  23. 23. 10 GigE (HPC) Ingestion Backup Restoration JDBC/ODBC
  24. 24. …BEAUCOUP PLUS SIMPLE
  25. 25. CHARGEMENT DES DONNEES Lecture en parallele Données triées et distribuées automatiquement Croissance linéaire
  26. 26. SAUVEGARDE DES DONNEES Sauvegardes sur Amazon S3 continues, automatiques et incrémentales Periode de rétention configurable Sauvegardes a la demande Restauration en “Streaming”
  27. 27. REPLICATION AU SEIN DU CLUSTER + SAUVEGARDE AUTOMATIQUE SUR AMAZON S3 + MONITORING DES NOEUDS
  28. 28. RESTAURATION AUTOMATIQUE
  29. 29. Redimensionement en ligne Nouveau cluster cree en tache de fond Copie en parallele de noeud a noeud Seul le cluster source est facturé pendant l’opération
  30. 30. Permutation automatique du point de contact par DNS Destruction du cluster source
  31. 31. CREER UN DATAWAREHOUSE EN QUELQUES MINUTES
  32. 32. CAS CLIENT Thomas Grange – Botify
  33. 33. Analyser la qualité d'un site web avec Redshift @mpelmann / @botify / botify.com
  34. 34. Quels sont les critères qualité d'un site web ?
  35. 35. Des pages qui se chargent rapidement
  36. 36. Une sémantique inédite d'une page à l'autre (balise title, description, h1, contenu...)
  37. 37. Des pages accessibles en un minimum de clics
  38. 38. 1999 Mon 1er site Internet 100 pages
  39. 39. 1999 2005 Je rejoins Doctissimo.fr 3 millions de pages
  40. 40. 1999 2005 2013 Botify aspire les pages de Dailymotion.fr + 100 millions de pages !
  41. 41. 100 millions de pages = 1 To de données !
  42. 42. Avantages de Redshift • Charger des lourds jeux de données sans développement complexe • Répondre à des requêtes avec un langage simple • Le plus rapidement possible (secondes !)
  43. 43. CHALLENGE ACCEPTED !
  44. 44. CREATE TABLE urls_data ( url_id BIGINT, url = VARCHAR(450) title VARCHAR(150), page_type CHAR(20), depth INT, http_code INT, delay_ms INT, ); CREATE TABLE urls_links ( src_url_id BIGINT, dst_url_id BIGINT ); Datas trouvées sur les urls : balise title, type de page, nombre de clics à partir de la homepage, code http, temps de chargement Liens trouvés entre les urls
  45. 45. Charger des jeux de données sans développement complexe Il suffit d'uploader des fichiers texte sur S3 COPY urls_data from 's3://mybucket/urls_data.txt' CREDENTIALS 'aws_access_key_id=X;aws_secret_access_key=Y' DELIMITER 't'; COPY urls_links from 's3://mybucket/urls_links.txt' CREDENTIALS 'aws_access_key_id=X;aws_secret_access_key=Y' DELIMITER 't';
  46. 46. Répondre à des requêtes complexes avec un langage simple : SQL Like Language !
  47. 47. Les pages retournées en 404 SELECT url, http_code FROM urls_data WHERE http_code = 404
  48. 48. Les pages qui mettent plus d'1 seconde à charger SELECT url FROM urls_data WHERE delay_ms > 1000
  49. 49. Les pages dont le titre contient "Obama" SELECT url FROM urls_data WHERE title LIKE '%obama%'
  50. 50. Le temps de chargement moyen par type de page SELECT page_type, AVG(delay_ms) FROM urls_data GROUP BY page_type
  51. 51. Les pages avec des balises title dupliquées ! SELECT u1.url, u2.url, title FROM urls_data u1, urls_data u2 WHERE u1.url_id != u2.url_id AND u1.title = u2.title
  52. 52. Plus complexe : les 1000 urls qui ont le plus de liens entrants SELECT u.url, links.nb FROM urls_data u, (SELECT dst_url_id, COUNT(*) AS nb FROM urls_links GROUP BY dst_url_id) links WHERE u.url_id = links.dst_url_id ORDER BY links.nb DESC LIMIT 1000
  53. 53. Plus complexe : les urls qui pointent vers une page parlant d'Obama SELECT src_urls.url FROM urls_data src_urls, urls_data dst_urls, urls_links links WHERE links.src_url_id = src_urls.url_id AND links.dst_url_id = dst_urls.url_id AND dst_urls.title LIKE '%obama%'
  54. 54. Ces requêtes mettent seulement quelques secondes à être exécutées (sur 1 cluster de 5 nodes XL)
  55. 55. On peut fermer le cluster et le relancer quand on le souhaite (On backup ou on recréé les tables avec S3)
  56. 56. Stockage par colonnes Particulièrement efficace pour compresser les jeux de données et les parser plus rapidement De plus, Redshift le fait automatiquement (En analysant les 100K premières entrées)
  57. 57. Si vous aimez le SEO et l'analyse structurelle, participez à la prochaine beta en vous inscrivant sur www.botify.com @botify
  58. 58. MERCI ! Thomas Grange – Botify
  59. 59. …BEAUCOUP PLUS RAPIDE
  60. 60. CAPACITE MEMOIRE ET PERFORMANCE CPU DOUBLENT TOUS LES 2 ANS PERORMANCE DISQUE DOUBLE TOUS LES 10 ANS
  61. 61. CAPACITE MEMOIRE ET PERFORMANCE CPU DOUBLENT TOUS LES 2 ANS PERORMANCE DISQUE DOUBLE TOUS LES 10 ANS
  62. 62. LES E/S SONT LE PRINCIPAL FACTEUR DE PERFORMANCE
  63. 63. • STOCKAGE PAR COLONNES • COMPRESSION PAR COLONNE • ZONES D’UTILISATION • HARDWARE OPTIMISE
  64. 64. TEST: 2 MILLIARDS D’ENREGISTREMENTS 6 REQUETES REPRESENTATIVES
  65. 65. AMAZON REDSHIFT 2xHS1.8XL Vs. 32 NOEUDS, 4.2To RAM, 1.6Po
  66. 66. DE 12x A 150x PLUS RAPIDE
  67. 67. 30 MINUTES  12 SECONDES
  68. 68. …BEAUCOUP MOINS CHER
  69. 69. 2x HS1.8XL 3.65$ / HEURE 32 000$ PAR AN
  70. 70. Instance HS1.XL par heure Tarif Horaire par To Tarif Annuel par To On-Demand 0.850 $ 0.425 $ 3 723 $ Reservation sur 1 an 0.500 $ 0.250 $ 2 190 $ Reservation sur 3 ans 0.228 $ 0.114 $ 999 $
  71. 71. CAS D’UTILISATION
  72. 72. AMAZON ELASTIC MAPREDUCE AMAZON DYNAMODB AMAZON EC2 AWS STORAGE GATEWAY AMAZON S3 DATA CENTER AMAZON RDS AMAZON REDSHIFT
  73. 73. UPLOAD VERS AMAZON S3 AWS IMPORT/EXPORT AWS DIRECT CONNECT INTEGRATION DE DONNEES INTEGRATION SYSTEMES
  74. 74. 2 million 15 million MEMBRES ENREGISTRES 2011 2012 2013
  75. 75. 1,500,000+ NOUVEAUX MEMBRES PAR MOIS
  76. 76. 1,200,000,000+ CONNECTIONS SOCIALES IMPORTEES
  77. 77. Data Analyst Raw Data Get Data Join via Facebook Add a Skill Page Invite Friends Web Servers Amazon S3 User Action Trace Events EMR Hive Scripts Process Content • Process log files with regular expressions to parse out the info we need. • Processes cookies into useful searchable data such as Session, UserId, API Security token. • Filters surplus info like internal varnish logging. Amazon S3 Aggregated Data Raw Events Internal Web Excel Tableau Amazon Redshift
  78. 78. Redshift Reporting and BI EMR S3
  79. 79. DynamoDB Redshift OLTP Web Apps Reporting and BI
  80. 80. RDBMS Redshift OLTP ERP Reporting & BI
  81. 81. RDBMS Redshift OLTP ERP Reporting & BI
  82. 82. JDBC/ODBC Amazon Redshift
  83. 83. DATAWAREHOUSE PAR AWS Paiement a l’utilisation, pas de CAPEX Cout faible pour hautes performances Ouvert et s’adapte aux outils du marché Simple a utiliser et extensible
  84. 84. VITESSE ET AGILITE Experiences frequentes Faible cout d’echec Plus d’innovation Experiences peu frequentes Cout d’échec élevé Moins d’innovation “EN LOCAL”
  85. 85. MERCI !

×