Contenu connexe Similaire à しばちょう先生が語る!オラクルデータベースの進化の歴史と最新技術動向#3 (20) しばちょう先生が語る!オラクルデータベースの進化の歴史と最新技術動向#31. Tsukasa Shibata
Consulting Member ofTechnical Staff
Exadata X-Team, Maximum Availability Architecture,
SystemTechnologies - Database
Oracle Corporation
May 1, 2020
オラクルデータベースの進化の歴史と最新技術動向
#3. Exadataの誕生と最新X8Mでの進化
しばちょう先生が語る!
Copyright © 2020 Oracle and/or its affiliates. All rights reserved.1
2. Safe Harbor Statement
The following is intended to outline our general product direction. It is intended for
information purposes only, and may not be incorporated into any contract. It is not
a
commitment to deliver any material, code, or functionality, and should not be relied
upon in making purchasing decisions. The development, release, timing, and
pricing of any features or functionality described for Oracle’s products may change
and remains at the sole discretion of Oracle Corporation.
Copyright © 2020 Oracle and/or its affiliates. All rights reserved.2
6. Exadata のビジョン
• 理想のデータベース・ハードウェア – 最速のパフォーマンスと最
小のコストのための、データベースに最適化されたスケールアウト
型ホスト、ネットワークおよびストレージ
• スマートなシステム・ソフトウェア – OLTP、分析、統合というあ
らゆる場面におけるデータベース処理を大幅に改善する特化したア
ルゴリズム
• 自動化された管理 – 完全に自動化、最適化された構成、性能、耐
障害性、アップデート
あらゆるデータベース負荷に対する劇的に進化したプラットフォーム
Copyright © 2020 Oracle and/or its affiliates. All rights reserved.6
7. Oracle Exadata Database Machine
7
高性能、高可用性を実現するOracle Databaseの究極のプラットフォーム
All Exadata
DB Machine
Innovations
All Oracle
Database
Innovations
Multitenant
In-Memory DB
Real Application
Clusters
Active Data Guard
Partitioning
Advanced
Compression
Advanced Security,
Label Security, DB
VaultReal Application
Testing
Advanced Analytics,
Spatial and Graph
Management Packs for
Oracle Database
InfiniBand Fabric
Columnar Flash
Cache
HCC
10:1
I/O I/O I/O
Storage Indexes
Hybrid Columnar
Compression
I/O Resource
Management
Exafusion
Direct-to-Wire Protocol
Offload SQL to Storage
Network Resource
Management
In-Memory Fault
Tolerance
PCI FlashSmart Flash Cache, Log
Redundant Optimized Hardware
7
Copyright © 2020 Oracle and/or its affiliates. All rights reserved.
8. Fast node and cell death detection
Fast network failure detection
Redundancy protection on cellsrv shutdown
Reduced brownout for instance recovery
ILOM hang detection and repair
Redundancy protection on cell shutdown
Automatic ASM mirror read on IO error corruption
IO error prevention with Exadata disk scrubbing /
ASM corruption repair
Exadata HARD
Corruption prevention with HARD support
Elimination of false positive drive failures
Redundancy Check during power down
Blue OK-to-remove LED light notification
Active Active IB Network
Exadata Smart Write Back, Smart Flash Logging,
Smart Scan and Reverse Offload
Fastest Redo Apply and Instance Recovery
Efficient resilver rebalance after flash failure
I/O latency capping for reads and writes
Cell IO timeout threshold
Smart Write Back Flash Cache persistence
I/O and Network Resource Management
Health factor on predicatively failed disks
Disk confinement
IO hang detection and repair
Cell to Cell offload for Disk Repair
Cell-to-Cell Rebalance Preserves Flash Cache
Exadata Elastic Configuration
Drop hard disk for replacement
8
Drop BBU for Replacement
Appliance mode support
Cell Alert Summary
Flash and Disk Life Cycle Management Alerts
Automatic LED support for disk removal
Auto online
Auto disk management
Priority rebalance support
EM failure reporting
Failure Monitoring on database servers
Updating database nodes with patchmgr
Optimized and Faster Exadata Patching
Custom Diagnostic Package for Cell Alerts
VLAN support and automation
Exachk full stack health check with critical issues
alerts
Exadataは厳しいSLAをサポートする多くの高可用性機能を搭載
Copyright © 2020 Oracle and/or its affiliates. All rights reserved.
9. Database
OS
Clusterware
Volume Manager
Driver / MultiPath SW
I/O-Interface(Disk N/W)
Storage Utilities
Storage Manager
Controller/Cache/Shelf
Disk / SSD
Oracle Database
Oracle Linux
GRID Infra
(Clusterware & ASM)
InfiniBand
Exadata Cell Sevrer
ASM Diskgroup
• Oracle Exadata
Disk / Flash
• 一般的な Server-Storage 構成
9
ExadataはOS、H/WレベルまでMAA標準
標準化によりシステムの信頼性が向上
環境の標準化
課題/Best Practiceの共有
データ書込みの流れ
Copyright © 2020 Oracle and/or its affiliates. All rights reserved.9
10. Exadata 最高の可用性
“ExadataとSuperClusterは
Maximum Availability Architecture
構成において
AL4フォルト・トレランスを達成”
”Exadata and SuperCluster both achieve AL4 fault tolerance in a Maximum
Availability Architecture* configuration”
Exadata FaultTolerant Availability
FIVE NINES
5X999.999%
A New Gold Standard*Gold or Platinum reference architecture
Copyright © 2020 Oracle and/or its affiliates. All rights reserved.10
IDC(アナリスト企業)
による認定
11. 2008年以降、数千のクリティカル環境で活用
Fortune Global 100 の86%の企業様にExadataをご採用頂いています
全てのワークロードに最適化
• ペタバイト級のウェアハウス
• 超ミッション・クリティカル
• 金融取引
• 製造工程
• eコマース
• ビジネス・ アプリケーション
• SAP, Oracle, Siebel, PSFT, …
• データベース統合
金融、通信、医療、小売、公共、旅行、製造、サービス、消費財、教育、公益
Copyright © 2020 Oracle and/or its affiliates. All rights reserved.11
12. Oracle Exadata Database Machine
最新ハードウェアの性能を最大限に引き出す高度なエンジニアリングの集合体
Real Application Clusters
DB Server
Cell
Storage
Server
Flash Cache
SGA
Buffer Cache
LMSn PMON DBWn LGWR
SP SP SP
PGA
SMON Others
Flash CacheCellSrvFlash CacheCellSrv
DB Server
Instance
SGA
Log
Buffer
Buffer Cache
Others PMON DBWn LGWR
SP SP SP SP
SMON LMSn
PCI Flash
Smart
Flash
Cache
InfiniBand
Smart
Flash Log
CellSrv
Log
Buffer
Exafusion &
Smart Fusion Block
Transfer
CR Block
Current
Block
Undo Block
Consistent
Read
Parallel & Direct
Path ReadSP
Buffer
Cache Hit
Write Back
Flash Cache
Flash Cache
Hit
Hybrid Columnar
Compression
In-Memory
Cache
Database
In-Memory
RDMA
ASM DiskgroupAdd Disk &
Auto Rebalance
Automatic Disk Scrub and Repair
Stripe and
Mirror Everything
Hard Disk Drive
Smart Scan &
Storage Index
最新ハードウェアの性能を最大限に引き出す高度なエンジニアリングの集合体
Copyright © 2020 Oracle and/or its affiliates. All rights reserved.12
13. Exadata X8 Hardware (変更点は赤字changes from X7 in red)
• 2019年3月より提供 Shipping since March 2019
• スケールアウト型2ソケット、8ソケットのDatabase
サーバー Scale-Out 2-Socket or 8-Socket Database Servers
• 最新の24コアIntel Cascade Lake Latest 24 core Intel Cascade Lake
• 統一されたInfiniBandファブリック 40
Gb/sec Unified InfiniBand Internal Fabric
• インテリジェントなスケールアウト型2ソケットStorage
サーバー Scale-Out intelligent 2-Socket Storage Servers
• オフロード処理を行うコア数60%増加
60% more cores to offload database processing
• 最新の16コア Intel Cascade Lake CPUs Latest 16 core Intel
Cascade Lake CPUs
• 40%増量した14TB 40% higher capacity 14 TB disk drives
Extreme Flash (EF) Storage
Database Server
High-Capacity (HC) Storage
Extended (XT) Storage
Copyright © 2020 Oracle and/or its affiliates. All rights reserved.13
14. Exadataは共有フラッシュでメモリスピードを達成
Exadata UniquelyAchieves Memory Speed with Shared Flash
• アーキテクチャ上、ストレージアレイはフラッシュの”容量”は共有
できるが”性能”はネットワークがボトルネックとなり共有できない
Architecturally, storage arrays can share flash capacity but not flash performance due to network bottlenecks
• 次世代のスケールアウト型PCIeネットワーク、NVMe over fabricであっても Even with
next gen scale-out, PCIe networks, NVMe over fabric
• フラッシュの可能性を最大限に引き出すには、処理をデータ側に
移動する必要があるMust move compute to data to achieve full flash potential
• 全スタックを持つ必要性。ストレージ単体では解決できない Requires owning full stack;
can’t be solved in storage alone
• X8Mは560 GB/sec のフラッシュ帯域幅を提供 X8M delivers 560 GB/sec flash bandwidth to any server
• DBサーバーの800GB/secの総DRAM帯域幅に近づくApproaches 800 GB/sec aggregate DRAM bandwidth of DB
servers
14
Exadata
DB Servers
Exadata
Smart Storage
Network
Fabric
QUERY
OFFLOAD
Copyright © 2020 Oracle and/or its affiliates. All rights reserved.14
15. Exadata X8M Hardware (変更点は赤字)
• スケールアウト型2ソケット、8ソケットの
Databaseサーバー
Scale-Out 2 or 8 Socket Database Servers
• 100 Gb/sec RDMA over Converged Ethernet
RoCE 内部ファブリック
100 Gb/sec RDMA over Converged Ethernet RoCE internal fabric
• インテリジェントなスケールアウト型2ソケット
Storageサーバー
Scale-Out intelligent 2-Socket Storage Servers
• 1台のストレージサーバーあたり1.5TB 永続性メモリ
を搭載1.5 TB Persistent Memory per storage server
• Linux KVM を用いた統合の改良
Enhanced consolidation using Linux KVM
Extreme Flash (EF) Storage
Database Server
High-Capacity (HC) Storage
Extended (XT) Storage
Copyright © 2020 Oracle and/or its affiliates. All rights reserved.15
16. An Epic Journey
Copyright © 2020 Oracle and/or its affiliates. All rights reserved.
168 336 504 504 672 1344 1344 1.68B 2.3 2.3 PB 14 X
0 5.3 5.3 22.4 44.8 89.6 179.2 358 358 358TB 64 X
64 64 96 128 192 288 352 384 384 384 6 X
256 576 1152 2048 4096 6144 12288 12288 12288 12TB 48 X
20 40 40 40 80 80 80 80 80 200 Gb/s 10x
8 24 184 400 400 400 400 800 800 800 Gb/s 100 X
14 50 75 100 100 263 301 350 560 560 GB/s 40 X
.05 1 1.5 1.5 2.66 4.14 5.6 5.97 6.57 16 M 320 X
V1 – X8M
Growth
V1
Sep 2008
Xeon E5430
Harpertown
V2
Sep 2009
Xeon E5540
Nehalem
X2
Sep 2010
Xeon X5670
Westmere
X3
Sep 2012
Xeon
E5-2690
Sandy Bridge
X4
Nov 2013
Xeon
E5-2697v2
Ivy Bridge
X5
Dec 2014
Xeon
E5-2699v3
Haswell
X6
Apr 2016
Xeon
E5-2699v4
Broadwell
X7
Oct 2017
Xeon 8160
Skylake
X8
Apr 2019
Xeon 8260
Cascade Lake
X8M
Sep 2019
Xeon 8260
Cascade Lake
16
17. What can they do together?
Copyright © 2020 Oracle and/or its affiliates. All rights reserved.
PMEM
RDMA
17
18. 従来のExadata Flash IO レイテンシの分析
Copyright © 2020 Oracle and/or its affiliates. All rights reserved.
Database
Server
Storage
Server
Database
Software
Kernel/OS
(Database Server)
Kernel/OS
(Storage Server)
Storage Server
Software
コンテキスト・
スイッチ:
数十マイクロ秒
Flash Read Raw Latency: <100
µs
FLASH
コンテキスト・
スイッチ:
数十マイクロ秒
Database 8K Read
エンド・トゥ・エンド・
レイテンシ: ~200 µsec
18
19. 例えば、FlashをそのままPMEMに置き換えた場合
Copyright © 2020 Oracle and/or its affiliates. All rights reserved.
Database
Server
Storage
Server
Database
Software
Kernel/OS
(Database Server)
Kernel/OS
(Storage Server)
Storage Server
Software
PMEM Read Raw
Latency: ~1 µs
PMEM
Database 8K Read
エンド・トゥ・エンド・
レイテンシ: ~100 µsec
時間の 90%以上が無駄
コンテキスト・
スイッチ:
数十マイクロ秒
コンテキスト・
スイッチ:
数十マイクロ秒
19
20. コンテキスト・
スイッチ:
数十マイクロ秒
コンテキスト・
スイッチ:
数十マイクロ秒
ラディカルなアプローチ – RDMAで PMEMアクセス
Copyright © 2020 Oracle and/or its affiliates. All rights reserved.
Database
Server
Storage
Server
Database
Software
Kernel/OS
(Database Server)
Kernel/OS
(Storage Server)
Storage Server
Software
PMEM
Database 8K Read
エンド・トゥ・エンド・
レイテンシ:
<19 µsec
RDMA
Exadata X8より10倍高速
20
21. Exadata X8M:永続性メモリ・データ・アクセラレータ
Exadataストレージ・サーバーは透過的にフラッシュ・メモリの前に
永続性メモリ・アクセラレータを追加
データベースは、I / OではなくRDMAを利用してリモートのPMEMを
読込む
ネットワークおよびI / Oソフトウェア、割り込み、コンテキストスイッチをバイパス
PMEMは自動的に階層化されDB間で共有される
最もホットなデータ用のキャッシュとして利用され、10倍の実効容量を増やす
永続化メモリはフォルトトレラント用にストレージサーバー間で
自動的にミラー化
データベースからの8K I/Oに対し1600万IOPS, 19us以下のレイテンシ
21
Compute Server
Storage Server
Hot
Warm
RDMA
Cold
RoCE
Persistent
Memory
FLASH
世界初、世界唯一のデータベース用に最適化された共有永続性メモリ
Enabled with Exadata System Software 19.3 and Database Software 19cCopyright © 2020 Oracle and/or its affiliates. All rights reserved.
22. 従来方式で、PMEMへREDOログを書込む場合
Copyright © 2020 Oracle and/or its affiliates. All rights reserved.
Database
Server
Storage
Server
Database
Software
Kernel/OS
(Database Server)
Kernel/OS
(Storage Server)
Storage Server
Software
PMEM Write Raw Latency:
<10 µs
PMEM
Database 8K Read
エンド・トゥ・エンド・
レイテンシ: ~100 µsec
時間の 90%以上が無駄
コンテキスト・
スイッチ:
数十マイクロ秒
コンテキスト・
スイッチ:
数十マイクロ秒
22
23. Compute Server
Storage Server
Hot
Warm
RDMA
Cold
RoCE
Persistent
Memory
FLASH
Exadata X8M 永続性メモリ・コミット・アクセラレータ
23
Flush Later
to
Flash/Disk
• ログ書込みのレイテンシはOLTP性能にとってク
リティカル
• ログ書込みが高速になるとコミット時間が高速に
• ログ書込みが遅くなるとDB全体が性能劣化
• 自動コミット・アクセラレータ
• データベースは一方向RDMA書込みを発行し、複数
ストレージ・サーバー上のPMEMに書き込む
• ネットワークや、I/Oに関するソフトウェア処理、割
込み、コンテキスト・スイッチ等をバイパス
• 最大8倍にログ書込みが高速化
Enabled with Exadata System Software 19.3 and Database Software 19cCopyright © 2020 Oracle and/or its affiliates. All rights reserved.
24. Exadata の優位性は毎年高まる
24
• DatabaseAware Flash Cache
• Storage Indexes
• Columnar Compression
• IO Priorities
• Data MiningOffload
• Offload Decrypt on Scans
• In-Memory FaultTolerance
• Direct-to-wire Protocol
• JSON and XML offload
• Instant failure detection
• Network Resource Management
• MultitenantAware Resource Mgmt
• Prioritized File Recovery
• Unified InfiniBand
• Scale-Out Servers
• Scale-Out Storage
• DB Processors in Storage
• PCIe NVMe Flash
• Tiered Disk/ Flash
• Software-in-
Silicon
• 3DV-NAND
Flash
• In-Memory Columnar in Flash
• Exadata Cloud Service
• Smart Fusion BlockTransfer
• Exadata Cloud at Customer
• In-Memory OLTPAcceleration劇的に改善されるパフォーマンス
とコスト
• Hot Swappable
Flash
• 25 GigEClient
Network
• Autonomous Database
• Automatic Indexing
• Persistent
Memory
• RoCE
Networking
• KVMVirtualization
• Smart Scan
• InfiniBand Scale-Out
Copyright © 2020 Oracle and/or its affiliates. All rights reserved.
24
Notes de l'éditeur This is a Quote with Picture slide ideal for including a picture with a brief quotation and attribution.
To Replace the Picture on this sample slide (this applies to all slides in this template that contain replaceable pictures)
Select the sample picture and press Delete. Click the icon inside the shape to open the Insert Picture dialog box. Navigate to the location where the picture is stored, select desired picture and click on the Insert button to fit the image proportionally within the shape.
Note: Do not right-click the image to change the picture inside the picture placeholder. This will change the frame size of the picture placeholder. Instead, follow the steps outlined above.
Identical On-Premises and On-Cloud – Starts small scales huge, no technology compromises, simple migration of applications to cloud
Identical On-Premises and On-Cloud – Starts small scales huge, no technology compromises, simple migration of applications to cloud
Full rack = 8DB + 14SS 11:11 Faster commit
Glitch free