DIe Aufzeichnung dieses Webinars steht hier zur Verfügung: http://aws.amazon.com/de/recorded-webinar/
Amazon Redshift ist ein schneller und mächtiger, voll verwalteter Data Warehouse Dienst in der Cloud. Redshift skaliert von Terabytes bis über ein Petabyte bei sehr günstigen Kosten. In diesem Webinar geben wir einen Überblick über den Dienst, zeigen das Aufsetzen eines Redshift-Clusters, die Verwaltung, den Datenimport und die Abfrage des Data Warehouse über SQL und über Partnerwerkzeuge.
2. Teilen Sie mir mit:
Was gut ist, was nicht
Was Sie bei unseren Veranstaltungen sehen
wollen
Was Sie sich von AWS wünschen
skrause@amazon.de
Ihr Feedback ist wichtig
3. Amazon DynamoDB
Schneller, vorhersagbarer, hoch skalierparer NoSQL Data Store
Amazon RDS
Verwalteter relationaler Datenbankdienst für
MySQL, Oracle und SQL Server
Amazon ElastiCache
In-Memory Caching Service
Amazon Redshift
Schneller, mächtiger, voll verwalteter, Petabyte skalierbarer
Data Warehouse Dienst
Compute Storage
AWS Global Infrastructure
Database
Application Services
Deployment & Administration
Networking
AWS Datenbankdienste
Skalierbare, hochperformante
Datenbanken in der Cloud
4. Amazon DynamoDB
Schneller, vorhersagbarer, hoch skalierparer NoSQL Data Store
Amazon RDS
Verwalteter relationaler Datenbankdienst für
MySQL, Oracle und SQL Server
Amazon ElastiCache
In-Memory Caching Service
Amazon Redshift
Schneller, mächtiger, voll verwalteter, Petabyte skalierbarer
Data Warehouse Dienst
Compute Storage
AWS Global Infrastructure
Database
Application Services
Deployment & Administration
Networking
AWS Datenbankdienste
Skalierbare, hochperformante
Datenbanken in der Cloud
5. Data Warehousing auf die AWS Art
• Keine
Investitionskosten, Bezahlung nach
Nutzung
• Sehr hohe Performance bei sehr niedrigem
Preis
• Offen und flexibel, von populären Tools unterstützt
• Leicht zu nutzen, massiv skalierbar
6. Was wir gebaut haben…
Ein schnelles, mächtiges Data Warehouse, das bis in die Petabytes skaliert
Viel schneller
Viel billiger
Viel einfacher
Als verwalteter Dienst
Amazon Redshift
7. Dramatische I/O Reduktion
ID Alter Ort
123 20 Berlin
345 25 Leipzig
678 40 Dresden
Zeilen-Speicherung Spalten-Speicherung
Scan-
Richtung
12. Günstige Preise
Pro Stunde für HS1.XL
Single Node
Effektiver Stundenpreis
pro TB
Effektiver Jahrespreis
pro TB
On-Demand $ 0,850 $ 0,425 $ 3.723
1 Year reserviert $ 0,500 $ 0,250 $ 2.190
3 Year reserviert $ 0,228 $ 0,114 $ 999
Einfache Preise
Anzahl Nodes x Kosten pro Stunde
Keine Kosten für Leader Node
Keine Investitionskosten
Pay as you go
14. Amazon Redshift verwendet SQL
• Industriestandard SQL
• ODBC und JDBC Treiber für Datenzugriff
– verwendet Postgres 8.x Treiber
– Die meisten PostgreSQL Features werden unterstützt
– Siehe Dokumentation für Unterschiede
• INSERT/UPDATE/DELETE werden unterstützt
– Aber Daten laden aus S3 oder DynamoDB mit COPY-Befehl ist
deutlich schneller
– VACUUM-Befehl nach vielen DELETE oder UPDATE-Operationen
empfohlen
15. • Sort Key
– Mehrere Spalten möglich
– Definiert die Reihenfolge der Daten auf Platte
– Ermöglicht das Überspringen von Blöcken bei Abfrage
• wenn Sort Key in WHERE-Klausel
– Wenn neue Daten häufig abgefragt werden: timestamp-Spalte als Sort Key
• Distribution Key
– Eine Spalte
– Definiert Verteilung der Daten im Cluster
– Sollte für gleichmäßige Verteilung der Daten sorgen
• hohe, über die Zeit gleichmäßige Kardinalität
– Sollte in Abfragen nicht als „ist gleich“ Filter vorkommen
– Join-Key für häufige Joins ist guter Kandidat
– Wird keiner angegeben werden die Daten gleichmäßig per Row ID verteilt
Tabellendesign
16. Daten laden aus S3 oder DynamoDB
• Direktes Laden aus S3 oder DynamoDB unterstützt:
copy customer from 's3://mybucket/customer.txt’
credentials 'aws_access_key_id=<your-access-key-id>;
aws_secret_access_key=<your-secret-access-key>’
gzip delimiter '|’;
• Paralleles Laden von Daten
– Für paralleles Laden Daten in mehrere Dateien aufteilen
– Dateinamen mit gemeinsamem Präfix:
• customer.txt.1, customer.txt.2, …
– Große Dateien mit gzip komprimieren
• Nach Möglichkeit Daten in Sortierung des Sort Key laden
17. Daten-Komprimierung
• Komprimierung spart Platz und Disk I/O
• COPY analysiert die Daten automatisch und
wählt geeignete Komprimierung
– Ausschnitt der Daten für Auswahl der
Komprimierung verwendet
– Unterstützt: byte dictionary, delta, mostly n, run
length, text
• Kundenerfahrungen: 4-8-fache
Komprimierung mit Echtdaten
– 20x und mehr bei geeigneten Daten möglich
• ANALYZE COMPRESSION zur Anzeige des
gewählten Algorithmus
analyze compression listing;
Table | Column | Encoding
---------+----------------+---------
-
listing | listid | delta
listing | sellerid | delta32k
listing | eventid | delta32k
listing | dateid | bytedict
listing | numtickets | bytedict
listing | priceperticket | delta32k
listing | totalprice | mostly32
listing | listtime | raw
18. Einfach zu benutzen
• Provisionierung in Minuten
• Abfrageperformance überwachen
• Vergrößern und Verkleinern durch
Klick
• Eingebaute Sicherheit
• Automatische Backups
20. Cluster bleibt online (read only)
• Neuer Zielcluster im Hintergrund erstellt
• Bezahlung nur für Quellcluster
21. Cluster bleibt online
• Der Cluster bleibt bei Größenänderungen
online
• Komplett automatisch
– Daten automatisch neu verteilt
• Read Only Modus während
Größenänderung
• Paralleles Kopieren der Daten (Node to
Node)
• Automatische Endpoint-Wechsel per DNS
• Nur ein Cluster wird bezahlt
23. Eingebaute Sicherheit
• SSL Verschlüsselung für Daten auf der
Leitung
• Optional Verschlüsselung für Daten auf
Festplatte
– AES-256, Hardware-beschleunigt
– Alle Blöcke auf Platte und in Amazon S3
verschlüsselt
• Kein direkter Zugriff auf Compute
Nodes
• Amazon VPC unterstützt
10 GigE
(HPC)
Laden
Backup
Restore
Kunden-VPC
Interner
VPC
JDBC/ODBC
24. Datensicherung und Verfügbarkeit
• Replikation innerhalb des Clusters und Backup nach S3 stellt mehrere Kopien der Daten zu jedem
Zeitpunkt sicher
• Backups nach Amazon S3 sind kontinuierlich, automatisch und inkrementell
– Entworfen für 11 Neunen Dauerhaftigkeit
• Kontinuierliche Überwachung und automatische Wiederherstellung im Fall von Festplatten- und
Node-Fehlern
• Wiederherstellung von Snapshots in beliebige Availability Zones innerhalb einer Region
26. Daten laden und entladen
• Upload nach Amazon S3
• AWS Import/Export
• AWS Direct Connect
• Partner
Data Integration Systems Integrators
Mehr bald…
32. Data Architecture
Data Analyst
Raw Data
Get
Data
Join via Facebook
Add a Skill Page
Invite Friends
Web Servers Amazon S3
User Action Trace Events
EMR
Hive Scripts Process Content
• Process log files with regular
expressions to parse out the info
we need.
• Processes cookies into useful
searchable data such as
Session, UserId, API Security
token.
• Filters surplus info like internal
varnish logging.
Amazon S3
Aggregated Data
Raw Events
Internal Web
Excel Tableau
Amazon Redshift
33. Amazon Redshift ist
• Ein voll verwalteter Data Warehouse Service
• Schnell
• Kostengünstig
• Flexibel
• Abrechnung nach Nutzung
• Kompatibel mit bestehenden ETL und BI Tools
Zusammenfassung
35. • http://aws.amazon.com/de
• Getting started with Free Tier:
http://aws.amazon.com/de/free/
• 25 US$ credits für neue Kunden:
http://aws.amazon.com/de/campaigns/account/
• Twitter: @AWS_Aktuell
• Facebook:
http://www.facebook.com/awsaktuell
• Webinare: http://aws.amazon.com/de/about-aws/events/
• Slides: http://de.slideshare.net/AWSAktuell
Ressourcen
36. 1. Was ist Amazon Web Services und wofür kann ich AWS nutzen
2. Erste Schritte mit Amazon Web Services – von der Anmeldung bis
zur ersten Instanz
3. Amazon Web Services 1*1 – welche Dienste gibt es wofür?
4. Server in der Cloud – die AWS Compute-Dienste
5. Daten speichern in der Cloud – die AWS Storage-Dienste
6. Datenbanken in der Cloud – SQL und NoSQL
7. Amazon Web Services für eCommerce
Aufzeichnungen
http://aws.amazon.com/de/recorded-webinar/
Bisherige Webinare
37. • Big Data
– 15.07.2013, 16 Uhr
• Wie kann man ein Unternehmens-Rechenzentrum um Cloud-Ressourcen
erweitern? Netzwerke, Sicherheit, Ressource
– 23.07.2013, 16 Uhr
• Die erste Woche mit AWS
– 07.08.2013, 16 Uhr
• 8 Tipps für eine Cloud-Strategie – wie Unternehmen heute die Cloud
einsetzen
– 14.08.2013, 16 Uhr
• Optimieren Sie Ihre AWS Nutzung um Kosten zu sparen
– 21.08.2013, 16 Uhr
• http://aws.amazon.com/de/about-aws/events/
Kommende Webinare