Contenu connexe
Similaire à Решения Oracle для Big Data (20)
Plus de Andrey Akulov (20)
Решения Oracle для Big Data
- 2. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Safe Harbor Statement
The following is intended to outline our general product direction. It is intended for
information purposes only, and may not be incorporated into any contract. It is not a
commitment to deliver any material, code, or functionality, and should not be relied upon
in making purchasing decisions. The development, release, and timing of any features or
functionality described for Oracle’s products remains at the sole discretion of Oracle.
#StrataHadoop - Oracle Big Data Architecture
- 3. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | #StrataHadoop - Oracle Big Data Architecture
Oracle Data Architecture для Big Data
WarehouseData FactoryReservoir
Data Streaming
Data Platform
Discovery Lab
Analytics
APIs
Enterprise
Data
Other Data
Sources
Data
Streams
Business
Data
Social/Log
Data
Model First
Analytics
• Отчеты и аналитика
• Аналитика на всех
данных
• Классический анализ
данных
Отчеты &
Дашборды
Data First
Analytics
• Визуальное
исследование
данных
• Скрытые
закономерности
Исследования
• Телеметрия
• Индустриальные
сервисы
• Internet of Things
Data
Services
Execution
Innovation
- 4. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Execution
Innovation
#StrataHadoop - Oracle Big Data Architecture
Продуктовая линейка Oracle для Big Data
WarehouseFactoryReservoir
Data Streaming
Data Platform
Discovery Lab
Analytics
APIs
Enterprise
Data
Other Data
Sources
Data
Streams
Business
Data
Social/Log
Data
Model First
Analytics
• Reporting-oriented
• Often enterprise wide
in scope, cross LoB
• “you know the
questions to ask”
Reports &
Dashboards
Data First
Analytics
• Data Exploration
• Highly visual and/or
interactive
• “you don’t know the
questions to ask”
Discovery
• Telematics
• Industry Services
• Internet of Things
• Sentiment
Data
Services
Real Time
Decisions
Oracle Data Integration & Governance
Oracle Database
& Big Data SQL
Oracle
R
Oracle
Big Data
Discovery
Oracle
Business
Intelligence
Oracle
Big Data
Discovery
Apache
Model First
Analytics
• Отчеты и аналитика
• Аналитика на всех
данных
• Классический анализ
данных
Отчеты &
Дашборды
Data First
Analytics
• Визуальное
исследование
данных
• Скрытые
закономерности
Исследования
• Телеметрия
• Индустриальные
сервисы
• Internet of Things
Data
Services
5536536
Oracle
Event
processing
Oracle
NoSQL
Apache
- 5. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | #StrataHadoop - Oracle Big Data Architecture
Интегрированные программно-аппаратные комлексы
Oracle для Big Data
Data Streaming
Data Platform
Discovery Lab
Analytics
APIs
Enterprise
Data
Other Data
Sources
Data
Streams
Business
Data
Social/Log
Data
Model First
Analytics
• Reporting-oriented
• Often enterprise wide
in scope, cross LoB
• “you know the
questions to ask”
Reports &
Dashboards
Data First
Analytics
• Data Exploration
• Highly visual and/or
interactive
• “you don’t know the
questions to ask”
Discovery
• Telematics
• Industry Services
• Internet of Things
• Sentiment
Data
Services
APIs
Analytics
Model First
Analytics
• Reporting-oriented
• Often enterprise wide
in scope, cross LoB
• “you know the
questions to ask”
Reports &
Dashboards
Data First
Analytics
• Data Exploration
• Highly visual and/or
interactive
• “you don’t know the
questions to ask”
Discovery
• Telematics
• Industry Services
• Internet of Things
• Sentiment
Data
Services
Model First
Analytics
• Отчеты и аналитика
• Аналитика на всех
данных
• Классический анализ
данных
Отчеты &
Дашборды
Data First
Analytics
• Визуальное
исследование
данных
• Скрытые
закономерности
Исследования
• Телеметрия
• Индустриальные
сервисы
• Internet of Things
Data
Services
Execution
Innovation
- 6. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
BIG DATA APPLIANCE
#StrataHadoop - Oracle Big Data Architecture
- 7. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
•Кластер из 18 узлов
– до 768GB на узел (по умолчанию 128GB) = 13824 GB RAM
– 36 ядер Intel на узле = 684ядер
– 12*8 = 96 TB дисков на узел = 1728 TB
•40 Gb p/sec InfiniBand
•10 Gb p/sec Ethernet
•Произвольная конфигурация от 1/3 до полной стойки
с шагом в 1 ноду
Oracle Big Data Appliance
Машина для Hadoop и NoSQL DB
- 8. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
• Oracle Linux
• Java Hotspot VM
• Cloudera Hadoop Distribution
Hadoop Core, HDFS, Hive, HBase, Zookeeper, Oozie, Mahout, Sqoop, Administration Tools
• R Distribution
• Oracle NoSQL Database
• Oracle Big Data Connectors:
– Oracle R Connector for Hadoop
– Oracle SQL to HDFS Connector
– Oracle Loader for Hadoop
– Oracle XQuery for Hadoop
– Oracle Data Integrator Application Adapter for Hadoop
•Oracle Big Data SQL
Oracle Big Data Appliance Software
- 9. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Что вам НЕ придется делать с Big Data Appliance (1/2)
• Подбирать и оптимизировать компоненты – сервера, диски,
количество дисков, процессоры, сети, память и т.п.
• Заключать отдельный договор о поддержке с Cloudera
• Собирать кластер
• Настраивать сетевые коммутаторы
• Инсталлировать операционную систему на каждом узле и
• Отслеживать и устанавливать оптимальные версии драйверов и
прошивок для каждого компонента
• Настраивать операционную систему для оптимальной
производительности (у нас же очень много данных!)
• Настраивать Java
- 10. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Что вам НЕ придется делать с Big Data Appliance (2/2)
• Инсталлировать дополнительное ПО от Cloudera
• Тестировать работоспособность и производительность каждого
узла кластера
• Заниматься самостоятельно трудоемкой процедурой
многуровнего апгрейда и патчирования BIOS, OS, Java, Hadoop и
т.п.
• И просто следить за тем, что нужно что-то проапгрейдить
• Изучать как это все сделать без остановки и прерывания работы
пользователей
• Заниматься дизайном перебалансировки кластера при его
расширении
• И т.д. и т.п.
- 11. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
ORACLE NOSQL DATABASE
#StrataHadoop - Oracle Big Data Architecture
- 12. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Для каких задач может использоваться Oracle NoSQL Database?
• Построение быстрых многопетабайтных распределенных
масштабируемых файловых хранилищ
– С возможностью обработки данных в кластере
• Построение систем, которые очень быстро накапливают огромное
количество данных из многих источников
– Десятки миллионов записей в секунду
– Датчики, результаты испытаний, эксперименты
• Интеграция с системами обработки событий
– Накопление и обработка информации о событиях
• Интернет-проекты с многими тысячами пользователей
– Для обеспечения мгновенного доступа к профилям пользователя, продукта,
информации о рекламной компании и т.д.
Storage Nodes
Data Center A
Storage Nodes
Data Center B
NoSQLDB Driver
Application
NoSQLDB Driver
Application
- 13. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Oracle NoSQL Database
Распределенная, масштабируемая key-value база данных
• Простая модель данных
• Пара Key-value с подходом major+sub-key
• Операции read/insert/update/delete
• Поддержка ACID и BASE транзакций
• Масштабируемость
• Динамическое партиционирование и перераспределение
• Оптимизированный доступ к данным
• Высокая доступность
• Одна или более реплик
• Катастрофоустойчивость засчет разнесения реплик
• Устойчивость к отказу мастера
• Нет одной точки отказа
• Прозрачная балансировка нагрузки
• Чтение с мастера или реплики
• Драйвер знает о сетевой топологии и временах задержки
Storage Nodes
Data Center A
Storage Nodes
Data Center B
NoSQLDB Driver
Application
NoSQLDB Driver
Application
- 14. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
ORACLE BIG DATA CONNECTORS
#StrataHadoop - Oracle Big Data Architecture
- 15. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Oracle Big Data Connectors
Data Load
Oracle Loader for Hadoop
Data Access
Oracle SQL Connector for HDFS
R Analytics
Oracle R Advanced Analytics
on Hadoop
Data Integration
Oracle Data Integrator
Application Adapters for Hadoop
XML/XQuery
Oracle XQuery on Hadoop
XQueryR Client
Оптимизированы для использования
с Hadoop: максимальный параллелизм
и производительность
Интеграция данных из hadoop и
реляционной базы
Анализ данных из Hadoop,
используя привычные инструменты
- 16. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Certified Hadoop and Database Versions
Database versions
(on any operating system*)
10.2.0.5 and greater
11.2.0.3 and greater
12c
Hadoop versions Certified by
Apache Hadoop 2.x Oracle
CDH 4.x (Cloudera) Oracle
CDH 5.x (Cloudera) Oracle
HDP 1.3 (Hortonworks) Hortonworks
HDP 2.1 (Hortonworks) Hortonworks*Oracle SQL Connector for HDFS требуют
Hadoop клиента на стороне
операционной системы DB
- 17. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Oracle SQL Connector для HDFS
OSCH
HiveText
OSCH
OSCH
OSCH
External
Table
create table customer_address
( ca_customer_id number(10,0)
, ca_street_number char(10)
, ca_state char(2)
, ca_zip char(10))
organization external (
TYPE ORACLE_LOADER
DEFAULT DIRECTORY DEFAULT_DIR
ACCESS PARAMETERS
(…)
PREPROCESSOR “HDFS_BIN_PATH:hdfs_stream”)
LOCATION (‘addr1’, ‘addr2’, ‘addr3’))
• Используется механизм внешних
таблиц Oracle
• Preprocessor директива
используется для чтения данных из
hdfs
• Параллельное чтение данных из
hdfs
• Совместный доступ к данным из DB
и hdfs
• Используются все возможности
базы данных: сложные запросы,
безопасность, аналитическая
обработка и т.д.
Compressed
files
- 18. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Oracle SQL Connector для HDFS
• Специальная утилита генерирует определение для внешних таблиц Oracle
• Возможность работы с текстовыми файлами в hdfs, внешними и
внутренними Hive таблицами над текстовыми файлами, данными в формате
Data pump
• Использование партиций в Hive таблицах
• Возможность маппирования типов данных в случае использования Hive
таблиц
• Производительность
–15 TB/ч на Oracle Big Data Appliance и Oracle Exadata
–5x – 20x быстрее в сравнении с конкурентными решениями
Oracle Confidential – Internal/Restricted/Highly Restricted
- 19. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Загрузка из различных источников данных
Oracle Data
Warehouse
SHUFFLE
/SORT
SHUFFLE
/SORT
REDUCE
REDUCE
REDUCE
MAP
MAP
MAP
MAP
MAP
MAP
REDUCE
REDUCE
ORACLE LOADER FOR HADOOP
Веблоги, парсинг
с помощью регулярных
выражений
Hive таблицы
Oracle NoSQL
Database
JSON
SerDe
Hive
external
tables
Hive
external
tables
HBase
Storage
Handler
• Препроцессниг данных в Hadoop
• Разнообразные форматы данных
на входе
• Автоматическая балансировка
нагрузки на нодах
• Загрузка данных в базу или
генерация Data pump файлов
- 20. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Weblog Data
Обработка с помощью регулярных выражений
Сырые логи
Отфильтрованные, структурированные данные
SHUFFLE
/SORT
SHUFFLE
/SORT
REDUCE
REDUCE
REDUCE
MAP
MAP
MAP
MAP
MAP
MAP
REDUCE
REDUCE
Логи трансформируются на стороне
Hadoop
- 21. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Oracle Loader for Hadoop
Высокая производительность загрузки данных в Oracle
• Примеры производительности (на Oracle
Engineered Systems)
– 4.4 TB/hour end-to-end (load + Hadoop process)
– 12+ TB/hour load time
• Оптимально для использования на
инженерных системах Oracle Big Data Appliance
и Oracle Exadata: InfiniBand Connectivity
- 22. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Oracle Loader for Hadoop
Oracle Loader for Hadoop External table load
- 23. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
ORACLE LOADER FOR HADOOP ORACLE DIRECT CONNECTOR FOR HDFSOracle Loader for Hadoop Oracle SQL Connector for HDFS
Функциональ-
нось
Загрузка Загрузка и запросы к данным в hadoop
Входные
форматы
данных
Различные типы входных данных:
HBase, JSON files, Weblogs, файлы, произвольные
форматы
Текстовые файлы (HDFS файлы, Hive таблицы)
Data Pump файлы:
Сгенерированные Oracle Loader for Hadoop из
HBase, JSON , Weblogs, файлов и т.д.
Производитель-
ность
Требуется время на препроцессинг в Hadoop. Быстрая загрузка, требует больше ресурсов со
стороны базы данных
Роли Hadoop разработчики Разработчики Oracle
- 24. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
ORACLE BIG DATA SQL
#StrataHadoop - Oracle Big Data Architecture
- 25. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Данные живут в разных местах
SQL
Задачи:
1. Унификация метаданных, языка запросов и безопасности доступа
2. Оптимизация производительности доступа к данным
- 26. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Hive Metastore
Oracle Confidential – Internal/Restricted/Highly Restricted 30
Hive Metastore
Hive ImpalaSparkOracle Big Data SQL …
Table Definitions:
movieapp_log_json
movielog
movieapp_log_avro
- 27. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Унификация метаданных: публикация метаданных Hive
в Oracle
31
CREATE TABLE movieapp_log_json
(click VARCHAR2(4000))
ORGANIZATION EXTERNAL
(TYPE ORACLE_HIVE
DEFAULT DIRECTORY DEFAULT_DIR
)
REJECT LIMIT UNLIMITED;
Big Data Appliance
+
Hadoop/NoSQL
Exadata
+
Oracle Database
OracleCatalog
ExternalTable
Hivemetadata
ExternalTable
HiveMetastore
- 28. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
selectlast_name, state,
movie,genre
frommovielogm,customer c
wheregenre=‘comedy’
andc.custid =m.custid
1
На этапе парсинга определяется:
• Где хранятся данные
• Структура данных
• Возможная степень параллелизма
1
2
Параллельное чтение с
Big Data SQL Server:
• Parallel unit: PQ Slaves & InputSplits
• Фильтрация строк, отсечение ненужных
столбцов
2
HiveMetastore
HDFS
NameNode
3
Отфильтрованный результата
• Только необходимые данные возвращаются в
базу данных
• Объединение с другими таблицами,
постобработка
• Применение правил безопасности
3
HDFSDataNode
BDS Server
HDFSDataNode
BDS Server
Исполнение запроса на Hadoop
- 29. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Oracle Big Data SQL
Copy to BDA
Big Data Appliance
+
Cloudera Hadoop
HDFS
DataNode
Exadata
+
Oracle Database
ExternalTable
HDFS
DataNode ExternalTable
Hiveaccessto
OracleData
Pumpfiles
ExternalTable
Big Data SQL
Copy .dmp files to BDA
create table customer_address
( ca_customer_id number(10,0)
, ca_street_number char(10)
, ca_state char(2)
, ca_zip char(10))
organization external (
TYPE ORACLE_DATAPUMP
DEFAULT DIRECTORY DEFAULT_DIR
LOCATION (‘customer_address.dmp')
) AS
SELECT <…> FROM <……> (can be any Oracle SQL
query)
- 30. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
BIG DATA INTEGRATION
#StrataHadoop - Oracle Big Data Architecture
- 31. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Staging
#StrataHadoop - Oracle Big Data Architecture
Lambda Architecture c Oracle Big Data Integration
Sqoop
HDFS
Hive
Flume
Capture
Trail
Route
Deliver
Pump
Transformation
Data StreamingKafka (MPP Pub/Sub)
Storm and Trident
Spark Streaming
HBase
Discovery Sandbox/s
ROracle GoldenGate
Oracle Data Integrator
Oracle Data Governance
Oracle Data Enrichment
Model First
Analytics
• Reporting-oriented
• Often enterprise wide
in scope, cross LoB
• “you know the
questions to ask”
Data First
Analytics
• Data Exploration
• Highly visual and/or
interactive
• “you don’t know the
questions to ask”
• Telematics
• Industry Services
• Internet of Things
• Sentiment
Reports &
Dashboards
Discovery
Data
Services
- 32. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Transforms
MapReduce(Hive)
LoadsOracle
Loader for
Hadoop
Oracle Data
Integrator
Oracle Database
- использование HСatalog и
Hive для процессинга данных;
- генерация Pig процессов и
обработки данных на Spark;
- Возможность
использования Oozie
планировщиков;
- операции с файлами в
HDFS;
- интеграция с реляционными
базами через Big Data
Connectors или Sqoop
Oracle Data Integrator для Big Data
Интеграционные модули для работы вс Hadoop
- 33. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
ODI = Единый логический дизайн– много сценариев
37
• Используем нативные
технологии для любых
источников данных
– Локализация данных
– Оптимальная
производительность,
сокращаем сететвой трафик
• Отсутствие промежуточных
узлов
– Сокращение
инфраструктурных затрат и
затрат на поддержку
• Декларативный дизайн
– Упрощенное внедрение
– Переиспользование
разработких на различных
технологиях
HCat
Agent
Transformation
Engines
Runtime
Environments
Future
Tools
Future Runtime
Engines
Logical Design
Oozie
Big
Data
SQL
Sqoop
OLH
OSCH
Hive
Spark
Pig
Data Access
Kafka
Storm
Future
Languages
Any
SQL
- 34. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Processing platform for in-memory execution
Library for executing in Python, Java, Scala, or other Languages
MOVV = sc.textFile( "hdfs://127.0.0.1/user/oracle/moviedata/input/m.csv")
MOV_AP = MOVV.map(lambda line: line.split(",")).map(lambda p: {"movieid": int(p[0]), "moviename": p[1], "directorname":
p[2]})
RATV = sc.textFile( "hdfs://127.0.0.1/user/oracle/moviedata/input/r.csv")
RAT_AP = RATV.map(lambda line: line.split(",")).map(lambda p: {"movieid": int(p[0]),
"movierating": int(p[1]), "reviewdate": p[2]})
FILTER = RAT_AP.filter(lambda data: data["movierating"] > 3)
MOV_APX = MOV_AP.keyBy(lambda data: data["movieid"])
RAT_APX = FILTER.keyBy(lambda data: data["movieid"])
JOIN = MOV_APX.join(RAT_APX)
(JOIN.map(lambda (m,(j1,j2)):(','.join(map(str, j1))) + ',' + (','.join(map(str, j2)))
)).saveAsTextFile("hdfs://127.0.0.1/user/oracle/moviedata/output/goods.csv")
Generate
Python/Spark code
Spark
- 35. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Procedural Programming Environment and Language
for Hadoop
Originally executing on Map-Reduce, but is
ported to Tez and Spark
daily = load 'NYSE_daily' as (exchange, symbol, date, open, close);
divs = load 'NYSE_dividends' as (exchange, symbol, date, dividends);
joined = join daily by symbol, divs by symbol;
filtered = filter joined by symbol matches 'CM.*';
store filtered into 'filtered' using HBaseStorage();
Pig
- 36. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Oozie
• Hadoop Workflow engine
– Used by 90% of enterprise Hadoop use cases
• Alternative to ODI Agent in Big Data
environments
– Use Hadoop-native technology
– Deploy to Hadoop environments with no ODI
footprint, no install necessary
– Use native Hadoop tools to manage processes and
view logs
40
- 37. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Business Value ODI: Высокая эффективность разработки
при небольших затратах
Oracle Confidential, under Non-Disclosure 41
No ETL engine is
required
Separation of
Logical and
Physical design
Physical exec on
SQL, Hive, Pig, or
Spark
Runtime exec in
Oozie or via ODI
Java Agent
Rich set of pre-
built operators
User defined
functions
- 38. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Load to Oracle
OLH/OSCH
#StrataHadoop - Oracle Big Data Architecture
Oracle Data Integration на Инженерных системах
Transform
ODI
Hive/HDFS
Federate Hive/HDFS to Oracle
Big Data SQL
Oracle DB
OLTP
Load from Oracle
CopyToBDA
Hive/HDFS
OGGOGG
Hive/HDFS
SQOOP
Flume
Kafka
- 39. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Capture
Trail
Route
Deliver
Pump
#StrataHadoop - Oracle Big Data Architecture
Oracle GoldenGate для Big Data
New DB/
HW/OS/APP
Zero Downtime Upgrades
& Data Migration
Fully Active
Distributed DB
High Availability
& Disaster Recovery
Application
Offloading
Query & Report Offloading
Big Data, DW
& Marts
Real-time BI, Hadoop Data
Staging, Data Ingestion
Event Driven Architecture,
SOA/JMS, Coherence
Message Bus
& Data Grid
Data Synchronization
Across the Enterprise
Global Data
Centers
Real-time Analytics
& Massive Parallelization
Data
Streaming
GoldenGate
Real-time
Data Delivery
- 40. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
HDFS Support
• What is HDFS?
– HDFS is Hadoop’s distributed file system that can store data files of different structures
• OGG HDFS Functionality
– Writes to HDFS delimited file
– Different source tables write to same file
– Can include Timestamp and Operation Type: Insert/Update/Deletes
– Can roll files based on size
– Column names can be optionally included in data
Schema Table OpType Timestamp
C1 Name
C1Data
C2 Name
C2Data
C3 Name
C3Data
Field Delimiter
…
Sales, Customer, I, 2015-03-11_13-33-01.000, ID, 1234, FIRST, John, LAST, Doe
File: /ogg/gg_2015-03-11_13-33-01.000.txt
Line Delimiter
Path Prefix SuffixTimestamp
- 41. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Hive Support
• What is Hive?
– Hive is Hadoop’s SQL interface for querying data in HDFS.
• OGG Hive Functionality
– Writes to HDFS delimited file
– Different source table changes write to separate folders
– Can include Timestamp and Operation Type: Insert/Update/Deletes
– Can be used for non-Hive use cases
– Can roll files based on size
I, 1234, John, Doe, 2015-03-11_13-33-01.000
OpType
TimestampC1Data
C2Data
C3Data
HDFS File: /ogg/sales/customer/customer_2015-03-11_13-33-01.000
Path Schema TimestampTable
Field Delimiter Line Delimiter
Hive Table: customer
OP ID FIRST LAST TS
I 1234 John Doe 2015-03…
- 42. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Flume Support
• What is Flume?
– Flume is a streaming platform in Hadoop to ingest external sources, such as log files, apps, etc.
• OGG Flume Functionality
– Writes Flume event with delimited format body to Avro RPC Source
– Source Table and Schema name are passed in flume header
– Can use various flume channels and sinks, for example HDFSSink
I, 1234, John, Doe, 2015-03-11_13-33-01.000
OpType
TimestampC1Data
C2Data
C3Data
Header:
Field Delimiter Line Delimiter
%{SCHEMA_NAME}: sales
%{TABLE_NAME}: customer
Body: Source
(Avro RPC)
Channel
(Memory)
Sink
(HDFS)
Flume
HDFS Table
- 43. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
HBase Support
• What is HBase?
– HBase is Hadoop’s Key-Value store
• OGG Hbase Functionality
– Writes to HBase tables
– Supports Insert, Update, Delete natively
– Column Family name can be configured
C1Data C2Data C3Data
Table Namespace: Sales
Table: Customer
rowkey cf:ID cf:FIRST cf:LAST
1234 1234 John Doe
C1Name C2Name C3Name
Column Family
Concatenated PKs
- 44. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Example
ID Balance Level
Credit (RDBMS Table)
Hive
Adapter
Pump
Trail
File
Capture
ID Bal Level Timestamp Op
ID Balance Level
Credit (Hive Table)
Credit_latest (Hive View)
• Table is replicated from Source DB to Hive
• Any source operations (Insert, Update, Delete) create a new row in Hive
• Hive View consolidates operations to have same data as source
• Oracle Data Integrator can also be used to periodically consolidate data
in materialized table
ID Balance Level
Credit_merged(Hive Table)
ODI data
movement
Hive View
- 45. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Incremental Load with GoldenGate for Big Data
49
ID Balance Level
123 400 GOLD
345 50 SILVER
678 210 GOLD
ID Bal Level Timestamp Op
123 400 GOLD 2014-10-07 19:17:32 I
345 50 SILVER 2014-10-07 19:21:00 I
678 210 GOLD 2014-06-08 19:17:32 I
Credit (RDBMS Table) Credit (Hive Table)
Credit_Latest (Hive View)
GoldenGate
Advantages GoldenGate:
- Continuous replication in real-time
- Less invasive to source DB
- Does not need Timestamp
- Supports deletes
981 0 BLACK
123 2014-10-08 1:36:57 D
U2014-10-08 1:33:05SILVER450345
981 0 BLACK 2014-10-08 1:30:19 I
450
123 400 GOLD
ID Bal Level
123 400 GOLD
345 50 SILVER
678 210 GOLD
981 0 BLACK
ID Bal Level
123 400 GOLD
345 450 SILVER
678 210 GOLD
981 0 BLACK
ID Bal Level
123 400 GOLD
345 450 SILVER
678 210 GOLD
981 0 BLACK
ID Bal Level
123 400 GOLD
345 50 SILVER
678 210 GOLD
- 46. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Credit_Latest View for Hive
CREATE VIEW credit_latest
AS
SELECT t1.*
FROM credit t1
JOIN (SELECT cust_id,
Max(last_change) max_modified
FROM credit
GROUP BY cust_id) s
ON t1.cust_id = s.cust_id
AND t1.last_change = s.max_modified
WHERE t1.op_type != 'D';
Oracle Confidential – Internal/Restricted/Highly Restricted 50
Only retrieve last record for each
customer id.
Leave out records where the last
entry has delete flag.
- 47. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
BIG DATA GOVERNANCE
#StrataHadoop - Oracle Big Data Architecture
- 48. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | #StrataHadoop - Oracle Big Data Architecture
Управлять данными не просто, Hadoop Не исключение!
Data
Governance
Metadata
Management
Business
Glossary
Data
Profiling
Data
Cleansing
Data
Archiving
Data Privacy
PEOPLE
PROCESS TECHNOLOGY
…люди и процесс это первое, …инструменты и возможности, …Чудес не быват!
“…the overall impact of poor-
quality data on the whole
dataset remains the same. In
addition, much of the data that
organizations use in a big data
context comes from outside, or
is of unknown structure and
origin. This means that the
likelihood of data quality issues
is even higher than before. So
data quality is actually more
important in the world of big
data."
- Ted Friedman, Gartner
http://www.gartner.com/newsroom/id/2854917
- 49. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | #StrataHadoop - Oracle Big Data Architecture
Операционная Подготовка данных для данных без
схемы
Data Discovery
& Visualization
Enterprise
Reporting
Internet
Logs
Unstructured &
Structured Data
90% of time is
spent WRANGLING
DATA
MONTHS of effort
spent on each new
dataset
PROGRAMERS writing scripts
or complex ETL
Enterprise
ETL & Data
Integration
- 50. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Ценность Enterprise Metadata Management
Oracle Confidential – Internal/Restricted/Highly Restricted 54
Решает большое количество серьезных задач для различных бизнес-пользователей и
Технических специалистов
- 51. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Oracle Confidential 55
Oracle Metadata Management Логическая архитектура
- 52. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Oracle : Наиболее открытый и гетерогенный
Oracle OpenWorld 2014 56
Hadoop HBase
Hadoop Hive/Flume
HP Enscribe
HP NonStop
HP Neoview
Hypersonic SQL
IBM DB2 i Series
IBM DB2 UDB
IBM DB2 z Series
IBM Informix
IBM Netezza
JMS / MQ
Microsoft Access
Microsoft SQLServer
MySQL
Pivotal Greenplum
PostgreSQL
Salesforce.com
SAP BW / BI
SAP ERP / ECC
SAS
SQL/MP
SQL/MX
Sybase ASE
Sybase IQ
Teradata
Adaptive
Altova
Apache Hcatalog
Apache Hive/HQL
Borland
CA ERwin
Cloudera Impala
COBOL Copybook
DataStax
Embarcadero
EMC ProActivity
GentleWare
Google BigQuery
Grandite
Hadapt Hive
Hortonworks Hive
IBM Cognos
IBM DB2
IBM DataStage
IBM Discovery
IBM Federation Server
IBM Lotus Notes
IBM Netezza
IBM Rational Rose
IBM Rational Architect
Informatica Metadata Mgr.
Informatica PowerCenter
CoSORT
ISO SQL Standard (DDL)
MapR Hadoop Hive
MicroFocus
Microsoft Access
Microsoft Office Excel
Microsoft Visio
Microsoft SQL Server
Microsoft SSIS
Microsoft Visual Studio
Microstrategy
Magic Draw
OMG CWM Standard
OMG UML Standard
Oracle BI Answers
Oracle BI Enterprise Edition
Oracle BI Server
Oracle DAC
Oracle Data Integrator
Oracle Data Modeler
Oracle Database
Oracle Designer
Oracle Hyperion Applications
Oracle Hyperion Essbase
Oracle Warehouse Builder
Pivotal Greenplum
PostgreSQL
QlikView
SAP BO Crystal Reports
SAP BO Designer
SAP BO Desktop Intelligence
SAP BO Repository
SAP BO Data Integrator
SAP BO Data Steward
SAP Master Data Management
SAP Sybase PowerDesigner
SAP Sybase ASE Database
SAS Data Integration Studio
SAS BI Server
SAS Information Map
SAS Metadata Management
SAS OLAP Server
Select
Sparx Architect
Syncsort
Tableau
Talend
Teradata
Tigris
Visible
W3C DTD & XSD Schema
Операционная интеграция (Перемещение и трансформации) Сбор метаданных (Глоссарии, взаимосвязи, анализ влияния))
Oracle Database
Oracle Exadata
Oracle Big Data Appliance
Oracle TimesTen
Oracle OLAP
Oracle Business Intelligence
Oracle BI Applications
Oracle E-Business Suite
Oracle JD Edwards Enterprise One
Oracle JD Edwards World
Oracle Fusion Applications
Oracle Governance Risk and Compliance
Oracle Fusion AIA
Oracle Retail Applications
Oracle Agile BI / DW
Oracle Agile PLM for Process
Oracle iFlex FlexCUBE
Oracle iFlex Mantas
Oracle Hyperion Applications
Oracle PeopleSoft
Oracle Siebel CRM / OnDemand
Oracle Communications
Oracle WebLogic Server
Oracle Coherence Data Grid
Oracle SOA Suite
Oracle Enterprise Service Bus
+ open APIs and standards
based meta-model
- 53. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
BIG DATA DISCOVERY
#StrataHadoop - Oracle Big Data Architecture
- 54. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 58
Oracle Big Data Discovery. The Visual Face of Hadoop
Поиск Изучение Трансфор-
мация
Исследование Совместная
работа
- 55. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Поиск релевантных данных
Oracle Confidential – Internal/Restricted/Highly Restricted 59
• Каталог наборов данных
• Поиск по каталогу и
навигация на основе
метаданных
• Пользовательские теги
• Информация о
существующих проектах и
наборах данных в них
- 56. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Изучение для понимания потенциала данных
Oracle Confidential – Internal/Restricted/Highly Restricted 60
Статистическая информация о
данных в зависимости от их
типа:
‒ максимальные, минимальные,
средние значения, квантили и
т.д.;
‒ распределение по значениям,
количество уникальных;
‒ качество данных: пустые
значения;
‒ распределения с учетом
фильтров;
- 57. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Трансформация, подготовка данных
Oracle Confidential – Internal/Restricted/Highly Restricted 61
• Обширная библиотека
транформационных функций
• Возможность написания
собственных скриптов на Groovy
• Предварительный просмотр
результатов, отмена, подтверждение
и повторное выполнение
трансформаций
• Тестирование на небольшом
наборе данных в оперативной
памяти, применение на полном
наборе данных в Hadoop
- 58. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Исследование и анализ данных
Oracle Confidential – Internal/Restricted/Highly Restricted 62
• Визуальная компонентная
среда
• Уникальные поисковые
возможности и фасетная
навигация
• Объединение нескольких
наборов данных для более
глубокого анализа
- 59. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Стратегия Oracle в области Больших Данных и Аналитики
• Безопасность, управляемость в
продуктивных системах
– Использовать опубликованные в HDFS наборы
данных в Oracle DB используя Oracle Big Data
SQL с необходимым уровнем безопасности
данных
– Не требуется перемещение данных
– Расширение уже сделанных инвестиций в ХД и
BI новыми возможностями Больших данных
• Эксперимент, прототип, исследование
– Быстро найти, изучить, трасформировать
данные и исследовать их с помощью BDD
– Публикация результирующих
наборов данных в HDFS
– Построение прогнозных и майнинговых
моделей с помощью Oracle R for Hadoop
• Доступно на инженерных системах
64
Oracle Big Data SQL
SQL join
Oracle BI
Foundation
Suite
In-Memory
Appliance
Exalytics
Традиционные
источники
Data Warehouse
Oracle Advanced
Analytics
Oracle Database
Exadata
Data Reservoir
Oracle
Big Data
Discovery
Hadoop (HDFS)
Oracle R
for
Hadoop
Новые источники
Big Data Appliance