SlideShare une entreprise Scribd logo
1  sur  60
Télécharger pour lire hors ligne
Технологии Big Data от
Oracle
Oracle CIS
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Safe Harbor Statement
The following is intended to outline our general product direction. It is intended for
information purposes only, and may not be incorporated into any contract. It is not a
commitment to deliver any material, code, or functionality, and should not be relied upon
in making purchasing decisions. The development, release, and timing of any features or
functionality described for Oracle’s products remains at the sole discretion of Oracle.
#StrataHadoop - Oracle Big Data Architecture
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | #StrataHadoop - Oracle Big Data Architecture
Oracle Data Architecture для Big Data
WarehouseData FactoryReservoir
Data Streaming
Data Platform
Discovery Lab
Analytics
APIs
Enterprise
Data
Other Data
Sources
Data
Streams
Business
Data
Social/Log
Data
Model First
Analytics
• Отчеты и аналитика
• Аналитика на всех
данных
• Классический анализ
данных
Отчеты &
Дашборды
Data First
Analytics
• Визуальное
исследование
данных
• Скрытые
закономерности
Исследования
• Телеметрия
• Индустриальные
сервисы
• Internet of Things
Data
Services
Execution
Innovation
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Execution
Innovation
#StrataHadoop - Oracle Big Data Architecture
Продуктовая линейка Oracle для Big Data
WarehouseFactoryReservoir
Data Streaming
Data Platform
Discovery Lab
Analytics
APIs
Enterprise
Data
Other Data
Sources
Data
Streams
Business
Data
Social/Log
Data
Model First
Analytics
• Reporting-oriented
• Often enterprise wide
in scope, cross LoB
• “you know the
questions to ask”
Reports &
Dashboards
Data First
Analytics
• Data Exploration
• Highly visual and/or
interactive
• “you don’t know the
questions to ask”
Discovery
• Telematics
• Industry Services
• Internet of Things
• Sentiment
Data
Services
Real Time
Decisions
Oracle Data Integration & Governance
Oracle Database
& Big Data SQL
Oracle
R
Oracle
Big Data
Discovery
Oracle
Business
Intelligence
Oracle
Big Data
Discovery
Apache
Model First
Analytics
• Отчеты и аналитика
• Аналитика на всех
данных
• Классический анализ
данных
Отчеты &
Дашборды
Data First
Analytics
• Визуальное
исследование
данных
• Скрытые
закономерности
Исследования
• Телеметрия
• Индустриальные
сервисы
• Internet of Things
Data
Services
5536536
Oracle
Event
processing
Oracle
NoSQL
Apache
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | #StrataHadoop - Oracle Big Data Architecture
Интегрированные программно-аппаратные комлексы
Oracle для Big Data
Data Streaming
Data Platform
Discovery Lab
Analytics
APIs
Enterprise
Data
Other Data
Sources
Data
Streams
Business
Data
Social/Log
Data
Model First
Analytics
• Reporting-oriented
• Often enterprise wide
in scope, cross LoB
• “you know the
questions to ask”
Reports &
Dashboards
Data First
Analytics
• Data Exploration
• Highly visual and/or
interactive
• “you don’t know the
questions to ask”
Discovery
• Telematics
• Industry Services
• Internet of Things
• Sentiment
Data
Services
APIs
Analytics
Model First
Analytics
• Reporting-oriented
• Often enterprise wide
in scope, cross LoB
• “you know the
questions to ask”
Reports &
Dashboards
Data First
Analytics
• Data Exploration
• Highly visual and/or
interactive
• “you don’t know the
questions to ask”
Discovery
• Telematics
• Industry Services
• Internet of Things
• Sentiment
Data
Services
Model First
Analytics
• Отчеты и аналитика
• Аналитика на всех
данных
• Классический анализ
данных
Отчеты &
Дашборды
Data First
Analytics
• Визуальное
исследование
данных
• Скрытые
закономерности
Исследования
• Телеметрия
• Индустриальные
сервисы
• Internet of Things
Data
Services
Execution
Innovation
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
BIG DATA APPLIANCE
#StrataHadoop - Oracle Big Data Architecture
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
•Кластер из 18 узлов
– до 768GB на узел (по умолчанию 128GB) = 13824 GB RAM
– 36 ядер Intel на узле = 684ядер
– 12*8 = 96 TB дисков на узел = 1728 TB
•40 Gb p/sec InfiniBand
•10 Gb p/sec Ethernet
•Произвольная конфигурация от 1/3 до полной стойки
с шагом в 1 ноду
Oracle Big Data Appliance
Машина для Hadoop и NoSQL DB
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
• Oracle Linux
• Java Hotspot VM
• Cloudera Hadoop Distribution
Hadoop Core, HDFS, Hive, HBase, Zookeeper, Oozie, Mahout, Sqoop, Administration Tools
• R Distribution
• Oracle NoSQL Database
• Oracle Big Data Connectors:
– Oracle R Connector for Hadoop
– Oracle SQL to HDFS Connector
– Oracle Loader for Hadoop
– Oracle XQuery for Hadoop
– Oracle Data Integrator Application Adapter for Hadoop
•Oracle Big Data SQL
Oracle Big Data Appliance Software
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Что вам НЕ придется делать с Big Data Appliance (1/2)
• Подбирать и оптимизировать компоненты – сервера, диски,
количество дисков, процессоры, сети, память и т.п.
• Заключать отдельный договор о поддержке с Cloudera
• Собирать кластер
• Настраивать сетевые коммутаторы
• Инсталлировать операционную систему на каждом узле и
• Отслеживать и устанавливать оптимальные версии драйверов и
прошивок для каждого компонента
• Настраивать операционную систему для оптимальной
производительности (у нас же очень много данных!)
• Настраивать Java
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Что вам НЕ придется делать с Big Data Appliance (2/2)
• Инсталлировать дополнительное ПО от Cloudera
• Тестировать работоспособность и производительность каждого
узла кластера
• Заниматься самостоятельно трудоемкой процедурой
многуровнего апгрейда и патчирования BIOS, OS, Java, Hadoop и
т.п.
• И просто следить за тем, что нужно что-то проапгрейдить
• Изучать как это все сделать без остановки и прерывания работы
пользователей
• Заниматься дизайном перебалансировки кластера при его
расширении
• И т.д. и т.п.
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
ORACLE NOSQL DATABASE
#StrataHadoop - Oracle Big Data Architecture
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Для каких задач может использоваться Oracle NoSQL Database?
• Построение быстрых многопетабайтных распределенных
масштабируемых файловых хранилищ
– С возможностью обработки данных в кластере
• Построение систем, которые очень быстро накапливают огромное
количество данных из многих источников
– Десятки миллионов записей в секунду
– Датчики, результаты испытаний, эксперименты
• Интеграция с системами обработки событий
– Накопление и обработка информации о событиях
• Интернет-проекты с многими тысячами пользователей
– Для обеспечения мгновенного доступа к профилям пользователя, продукта,
информации о рекламной компании и т.д.
Storage Nodes
Data Center A
Storage Nodes
Data Center B
NoSQLDB Driver
Application
NoSQLDB Driver
Application
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Oracle NoSQL Database
Распределенная, масштабируемая key-value база данных
• Простая модель данных
• Пара Key-value с подходом major+sub-key
• Операции read/insert/update/delete
• Поддержка ACID и BASE транзакций
• Масштабируемость
• Динамическое партиционирование и перераспределение
• Оптимизированный доступ к данным
• Высокая доступность
• Одна или более реплик
• Катастрофоустойчивость засчет разнесения реплик
• Устойчивость к отказу мастера
• Нет одной точки отказа
• Прозрачная балансировка нагрузки
• Чтение с мастера или реплики
• Драйвер знает о сетевой топологии и временах задержки
Storage Nodes
Data Center A
Storage Nodes
Data Center B
NoSQLDB Driver
Application
NoSQLDB Driver
Application
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
ORACLE BIG DATA CONNECTORS
#StrataHadoop - Oracle Big Data Architecture
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Oracle Big Data Connectors
Data Load
Oracle Loader for Hadoop
Data Access
Oracle SQL Connector for HDFS
R Analytics
Oracle R Advanced Analytics
on Hadoop
Data Integration
Oracle Data Integrator
Application Adapters for Hadoop
XML/XQuery
Oracle XQuery on Hadoop
XQueryR Client
Оптимизированы для использования
с Hadoop: максимальный параллелизм
и производительность
Интеграция данных из hadoop и
реляционной базы
Анализ данных из Hadoop,
используя привычные инструменты
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Certified Hadoop and Database Versions
Database versions
(on any operating system*)
10.2.0.5 and greater
11.2.0.3 and greater
12c
Hadoop versions Certified by
Apache Hadoop 2.x Oracle
CDH 4.x (Cloudera) Oracle
CDH 5.x (Cloudera) Oracle
HDP 1.3 (Hortonworks) Hortonworks
HDP 2.1 (Hortonworks) Hortonworks*Oracle SQL Connector for HDFS требуют
Hadoop клиента на стороне
операционной системы DB
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Oracle SQL Connector для HDFS
OSCH
HiveText
OSCH
OSCH
OSCH
External
Table
create table customer_address
( ca_customer_id number(10,0)
, ca_street_number char(10)
, ca_state char(2)
, ca_zip char(10))
organization external (
TYPE ORACLE_LOADER
DEFAULT DIRECTORY DEFAULT_DIR
ACCESS PARAMETERS
(…)
PREPROCESSOR “HDFS_BIN_PATH:hdfs_stream”)
LOCATION (‘addr1’, ‘addr2’, ‘addr3’))
• Используется механизм внешних
таблиц Oracle
• Preprocessor директива
используется для чтения данных из
hdfs
• Параллельное чтение данных из
hdfs
• Совместный доступ к данным из DB
и hdfs
• Используются все возможности
базы данных: сложные запросы,
безопасность, аналитическая
обработка и т.д.
Compressed
files
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Oracle SQL Connector для HDFS
• Специальная утилита генерирует определение для внешних таблиц Oracle
• Возможность работы с текстовыми файлами в hdfs, внешними и
внутренними Hive таблицами над текстовыми файлами, данными в формате
Data pump
• Использование партиций в Hive таблицах
• Возможность маппирования типов данных в случае использования Hive
таблиц
• Производительность
–15 TB/ч на Oracle Big Data Appliance и Oracle Exadata
–5x – 20x быстрее в сравнении с конкурентными решениями
Oracle Confidential – Internal/Restricted/Highly Restricted
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Загрузка из различных источников данных
Oracle Data
Warehouse
SHUFFLE
/SORT
SHUFFLE
/SORT
REDUCE
REDUCE
REDUCE
MAP
MAP
MAP
MAP
MAP
MAP
REDUCE
REDUCE
ORACLE LOADER FOR HADOOP
Веблоги, парсинг
с помощью регулярных
выражений
Hive таблицы
Oracle NoSQL
Database
JSON
SerDe
Hive
external
tables
Hive
external
tables
HBase
Storage
Handler
• Препроцессниг данных в Hadoop
• Разнообразные форматы данных
на входе
• Автоматическая балансировка
нагрузки на нодах
• Загрузка данных в базу или
генерация Data pump файлов
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Weblog Data
Обработка с помощью регулярных выражений
Сырые логи
Отфильтрованные, структурированные данные
SHUFFLE
/SORT
SHUFFLE
/SORT
REDUCE
REDUCE
REDUCE
MAP
MAP
MAP
MAP
MAP
MAP
REDUCE
REDUCE
Логи трансформируются на стороне
Hadoop
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Oracle Loader for Hadoop
Высокая производительность загрузки данных в Oracle
• Примеры производительности (на Oracle
Engineered Systems)
– 4.4 TB/hour end-to-end (load + Hadoop process)
– 12+ TB/hour load time
• Оптимально для использования на
инженерных системах Oracle Big Data Appliance
и Oracle Exadata: InfiniBand Connectivity
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Oracle Loader for Hadoop
Oracle Loader for Hadoop External table load
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
ORACLE LOADER FOR HADOOP ORACLE DIRECT CONNECTOR FOR HDFSOracle Loader for Hadoop Oracle SQL Connector for HDFS
Функциональ-
нось
Загрузка Загрузка и запросы к данным в hadoop
Входные
форматы
данных
Различные типы входных данных:
HBase, JSON files, Weblogs, файлы, произвольные
форматы
Текстовые файлы (HDFS файлы, Hive таблицы)
Data Pump файлы:
Сгенерированные Oracle Loader for Hadoop из
HBase, JSON , Weblogs, файлов и т.д.
Производитель-
ность
Требуется время на препроцессинг в Hadoop. Быстрая загрузка, требует больше ресурсов со
стороны базы данных
Роли Hadoop разработчики Разработчики Oracle
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
ORACLE BIG DATA SQL
#StrataHadoop - Oracle Big Data Architecture
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Данные живут в разных местах
SQL
Задачи:
1. Унификация метаданных, языка запросов и безопасности доступа
2. Оптимизация производительности доступа к данным
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Hive Metastore
Oracle Confidential – Internal/Restricted/Highly Restricted 30
Hive Metastore
Hive ImpalaSparkOracle Big Data SQL …
Table Definitions:
movieapp_log_json
movielog
movieapp_log_avro
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Унификация метаданных: публикация метаданных Hive
в Oracle
31
CREATE TABLE movieapp_log_json
(click VARCHAR2(4000))
ORGANIZATION EXTERNAL
(TYPE ORACLE_HIVE
DEFAULT DIRECTORY DEFAULT_DIR
)
REJECT LIMIT UNLIMITED;
Big Data Appliance
+
Hadoop/NoSQL
Exadata
+
Oracle Database
OracleCatalog
ExternalTable
Hivemetadata
ExternalTable
HiveMetastore
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
selectlast_name, state,
movie,genre
frommovielogm,customer c
wheregenre=‘comedy’
andc.custid =m.custid
1
На этапе парсинга определяется:
• Где хранятся данные
• Структура данных
• Возможная степень параллелизма
1
2
Параллельное чтение с
Big Data SQL Server:
• Parallel unit: PQ Slaves & InputSplits
• Фильтрация строк, отсечение ненужных
столбцов
2
HiveMetastore
HDFS
NameNode
3
Отфильтрованный результата
• Только необходимые данные возвращаются в
базу данных
• Объединение с другими таблицами,
постобработка
• Применение правил безопасности
3
HDFSDataNode
BDS Server
HDFSDataNode
BDS Server
Исполнение запроса на Hadoop
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Oracle Big Data SQL
Copy to BDA
Big Data Appliance
+
Cloudera Hadoop
HDFS
DataNode
Exadata
+
Oracle Database
ExternalTable
HDFS
DataNode ExternalTable
Hiveaccessto
OracleData
Pumpfiles
ExternalTable
Big Data SQL
Copy .dmp files to BDA
create table customer_address
( ca_customer_id number(10,0)
, ca_street_number char(10)
, ca_state char(2)
, ca_zip char(10))
organization external (
TYPE ORACLE_DATAPUMP
DEFAULT DIRECTORY DEFAULT_DIR
LOCATION (‘customer_address.dmp')
) AS
SELECT <…> FROM <……> (can be any Oracle SQL
query)
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
BIG DATA INTEGRATION
#StrataHadoop - Oracle Big Data Architecture
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Staging
#StrataHadoop - Oracle Big Data Architecture
Lambda Architecture c Oracle Big Data Integration
Sqoop
HDFS
Hive
Flume
Capture
Trail
Route
Deliver
Pump
Transformation
Data StreamingKafka (MPP Pub/Sub)
Storm and Trident
Spark Streaming
HBase
Discovery Sandbox/s
ROracle GoldenGate
Oracle Data Integrator
Oracle Data Governance
Oracle Data Enrichment
Model First
Analytics
• Reporting-oriented
• Often enterprise wide
in scope, cross LoB
• “you know the
questions to ask”
Data First
Analytics
• Data Exploration
• Highly visual and/or
interactive
• “you don’t know the
questions to ask”
• Telematics
• Industry Services
• Internet of Things
• Sentiment
Reports &
Dashboards
Discovery
Data
Services
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Transforms
MapReduce(Hive)
LoadsOracle
Loader for
Hadoop
Oracle Data
Integrator
Oracle Database
- использование HСatalog и
Hive для процессинга данных;
- генерация Pig процессов и
обработки данных на Spark;
- Возможность
использования Oozie
планировщиков;
- операции с файлами в
HDFS;
- интеграция с реляционными
базами через Big Data
Connectors или Sqoop
Oracle Data Integrator для Big Data
Интеграционные модули для работы вс Hadoop
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
ODI = Единый логический дизайн– много сценариев
37
• Используем нативные
технологии для любых
источников данных
– Локализация данных
– Оптимальная
производительность,
сокращаем сететвой трафик
• Отсутствие промежуточных
узлов
– Сокращение
инфраструктурных затрат и
затрат на поддержку
• Декларативный дизайн
– Упрощенное внедрение
– Переиспользование
разработких на различных
технологиях
HCat
Agent
Transformation
Engines
Runtime
Environments
Future
Tools
Future Runtime
Engines
Logical Design
Oozie
Big
Data
SQL
Sqoop
OLH
OSCH
Hive
Spark
Pig
Data Access
Kafka
Storm
Future
Languages
Any
SQL
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
 Processing platform for in-memory execution
 Library for executing in Python, Java, Scala, or other Languages
MOVV = sc.textFile( "hdfs://127.0.0.1/user/oracle/moviedata/input/m.csv")
MOV_AP = MOVV.map(lambda line: line.split(",")).map(lambda p: {"movieid": int(p[0]), "moviename": p[1], "directorname":
p[2]})
RATV = sc.textFile( "hdfs://127.0.0.1/user/oracle/moviedata/input/r.csv")
RAT_AP = RATV.map(lambda line: line.split(",")).map(lambda p: {"movieid": int(p[0]),
"movierating": int(p[1]), "reviewdate": p[2]})
FILTER = RAT_AP.filter(lambda data: data["movierating"] > 3)
MOV_APX = MOV_AP.keyBy(lambda data: data["movieid"])
RAT_APX = FILTER.keyBy(lambda data: data["movieid"])
JOIN = MOV_APX.join(RAT_APX)
(JOIN.map(lambda (m,(j1,j2)):(','.join(map(str, j1))) + ',' + (','.join(map(str, j2)))
)).saveAsTextFile("hdfs://127.0.0.1/user/oracle/moviedata/output/goods.csv")
Generate
Python/Spark code
Spark
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
 Procedural Programming Environment and Language
for Hadoop
 Originally executing on Map-Reduce, but is
ported to Tez and Spark
daily = load 'NYSE_daily' as (exchange, symbol, date, open, close);
divs = load 'NYSE_dividends' as (exchange, symbol, date, dividends);
joined = join daily by symbol, divs by symbol;
filtered = filter joined by symbol matches 'CM.*';
store filtered into 'filtered' using HBaseStorage();
Pig
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Oozie
• Hadoop Workflow engine
– Used by 90% of enterprise Hadoop use cases
• Alternative to ODI Agent in Big Data
environments
– Use Hadoop-native technology
– Deploy to Hadoop environments with no ODI
footprint, no install necessary
– Use native Hadoop tools to manage processes and
view logs
40
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Business Value ODI: Высокая эффективность разработки
при небольших затратах
Oracle Confidential, under Non-Disclosure 41
No ETL engine is
required
Separation of
Logical and
Physical design
Physical exec on
SQL, Hive, Pig, or
Spark
Runtime exec in
Oozie or via ODI
Java Agent
Rich set of pre-
built operators
User defined
functions
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Load to Oracle
OLH/OSCH
#StrataHadoop - Oracle Big Data Architecture
Oracle Data Integration на Инженерных системах
Transform
ODI
Hive/HDFS
Federate Hive/HDFS to Oracle
Big Data SQL
Oracle DB
OLTP
Load from Oracle
CopyToBDA
Hive/HDFS
OGGOGG
Hive/HDFS
SQOOP
Flume
Kafka
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Capture
Trail
Route
Deliver
Pump
#StrataHadoop - Oracle Big Data Architecture
Oracle GoldenGate для Big Data
New DB/
HW/OS/APP
Zero Downtime Upgrades
& Data Migration
Fully Active
Distributed DB
High Availability
& Disaster Recovery
Application
Offloading
Query & Report Offloading
Big Data, DW
& Marts
Real-time BI, Hadoop Data
Staging, Data Ingestion
Event Driven Architecture,
SOA/JMS, Coherence
Message Bus
& Data Grid
Data Synchronization
Across the Enterprise
Global Data
Centers
Real-time Analytics
& Massive Parallelization
Data
Streaming
GoldenGate
Real-time
Data Delivery
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
HDFS Support
• What is HDFS?
– HDFS is Hadoop’s distributed file system that can store data files of different structures
• OGG HDFS Functionality
– Writes to HDFS delimited file
– Different source tables write to same file
– Can include Timestamp and Operation Type: Insert/Update/Deletes
– Can roll files based on size
– Column names can be optionally included in data
Schema Table OpType Timestamp
C1 Name
C1Data
C2 Name
C2Data
C3 Name
C3Data
Field Delimiter
…
Sales, Customer, I, 2015-03-11_13-33-01.000, ID, 1234, FIRST, John, LAST, Doe
File: /ogg/gg_2015-03-11_13-33-01.000.txt
Line Delimiter
Path Prefix SuffixTimestamp
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Hive Support
• What is Hive?
– Hive is Hadoop’s SQL interface for querying data in HDFS.
• OGG Hive Functionality
– Writes to HDFS delimited file
– Different source table changes write to separate folders
– Can include Timestamp and Operation Type: Insert/Update/Deletes
– Can be used for non-Hive use cases
– Can roll files based on size
I, 1234, John, Doe, 2015-03-11_13-33-01.000
OpType
TimestampC1Data
C2Data
C3Data
HDFS File: /ogg/sales/customer/customer_2015-03-11_13-33-01.000
Path Schema TimestampTable
Field Delimiter Line Delimiter
Hive Table: customer
OP ID FIRST LAST TS
I 1234 John Doe 2015-03…
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Flume Support
• What is Flume?
– Flume is a streaming platform in Hadoop to ingest external sources, such as log files, apps, etc.
• OGG Flume Functionality
– Writes Flume event with delimited format body to Avro RPC Source
– Source Table and Schema name are passed in flume header
– Can use various flume channels and sinks, for example HDFSSink
I, 1234, John, Doe, 2015-03-11_13-33-01.000
OpType
TimestampC1Data
C2Data
C3Data
Header:
Field Delimiter Line Delimiter
%{SCHEMA_NAME}: sales
%{TABLE_NAME}: customer
Body: Source
(Avro RPC)
Channel
(Memory)
Sink
(HDFS)
Flume
HDFS Table
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
HBase Support
• What is HBase?
– HBase is Hadoop’s Key-Value store
• OGG Hbase Functionality
– Writes to HBase tables
– Supports Insert, Update, Delete natively
– Column Family name can be configured
C1Data C2Data C3Data
Table Namespace: Sales
Table: Customer
rowkey cf:ID cf:FIRST cf:LAST
1234 1234 John Doe
C1Name C2Name C3Name
Column Family
Concatenated PKs
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Example
ID Balance Level
Credit (RDBMS Table)
Hive
Adapter
Pump
Trail
File
Capture
ID Bal Level Timestamp Op
ID Balance Level
Credit (Hive Table)
Credit_latest (Hive View)
• Table is replicated from Source DB to Hive
• Any source operations (Insert, Update, Delete) create a new row in Hive
• Hive View consolidates operations to have same data as source
• Oracle Data Integrator can also be used to periodically consolidate data
in materialized table
ID Balance Level
Credit_merged(Hive Table)
ODI data
movement
Hive View
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Incremental Load with GoldenGate for Big Data
49
ID Balance Level
123 400 GOLD
345 50 SILVER
678 210 GOLD
ID Bal Level Timestamp Op
123 400 GOLD 2014-10-07 19:17:32 I
345 50 SILVER 2014-10-07 19:21:00 I
678 210 GOLD 2014-06-08 19:17:32 I
Credit (RDBMS Table) Credit (Hive Table)
Credit_Latest (Hive View)
GoldenGate
Advantages GoldenGate:
- Continuous replication in real-time
- Less invasive to source DB
- Does not need Timestamp
- Supports deletes
981 0 BLACK
123 2014-10-08 1:36:57 D
U2014-10-08 1:33:05SILVER450345
981 0 BLACK 2014-10-08 1:30:19 I
450
123 400 GOLD
ID Bal Level
123 400 GOLD
345 50 SILVER
678 210 GOLD
981 0 BLACK
ID Bal Level
123 400 GOLD
345 450 SILVER
678 210 GOLD
981 0 BLACK
ID Bal Level
123 400 GOLD
345 450 SILVER
678 210 GOLD
981 0 BLACK
ID Bal Level
123 400 GOLD
345 50 SILVER
678 210 GOLD
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Credit_Latest View for Hive
CREATE VIEW credit_latest
AS
SELECT t1.*
FROM credit t1
JOIN (SELECT cust_id,
Max(last_change) max_modified
FROM credit
GROUP BY cust_id) s
ON t1.cust_id = s.cust_id
AND t1.last_change = s.max_modified
WHERE t1.op_type != 'D';
Oracle Confidential – Internal/Restricted/Highly Restricted 50
Only retrieve last record for each
customer id.
Leave out records where the last
entry has delete flag.
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
BIG DATA GOVERNANCE
#StrataHadoop - Oracle Big Data Architecture
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | #StrataHadoop - Oracle Big Data Architecture
Управлять данными не просто, Hadoop Не исключение!
Data
Governance
Metadata
Management
Business
Glossary
Data
Profiling
Data
Cleansing
Data
Archiving
Data Privacy
PEOPLE
PROCESS TECHNOLOGY
…люди и процесс это первое, …инструменты и возможности, …Чудес не быват!
“…the overall impact of poor-
quality data on the whole
dataset remains the same. In
addition, much of the data that
organizations use in a big data
context comes from outside, or
is of unknown structure and
origin. This means that the
likelihood of data quality issues
is even higher than before. So
data quality is actually more
important in the world of big
data."
- Ted Friedman, Gartner
http://www.gartner.com/newsroom/id/2854917
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | #StrataHadoop - Oracle Big Data Architecture
Операционная Подготовка данных для данных без
схемы
Data Discovery
& Visualization
Enterprise
Reporting
Internet
Logs
Unstructured &
Structured Data
90% of time is
spent WRANGLING
DATA
MONTHS of effort
spent on each new
dataset
PROGRAMERS writing scripts
or complex ETL
Enterprise
ETL & Data
Integration
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Ценность Enterprise Metadata Management
Oracle Confidential – Internal/Restricted/Highly Restricted 54
Решает большое количество серьезных задач для различных бизнес-пользователей и
Технических специалистов
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Oracle Confidential 55
Oracle Metadata Management Логическая архитектура
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Oracle : Наиболее открытый и гетерогенный
Oracle OpenWorld 2014 56
 Hadoop HBase
 Hadoop Hive/Flume
 HP Enscribe
 HP NonStop
 HP Neoview
 Hypersonic SQL
 IBM DB2 i Series
 IBM DB2 UDB
 IBM DB2 z Series
 IBM Informix
 IBM Netezza
 JMS / MQ
 Microsoft Access
 Microsoft SQLServer
 MySQL
 Pivotal Greenplum
 PostgreSQL
 Salesforce.com
 SAP BW / BI
 SAP ERP / ECC
 SAS
 SQL/MP
 SQL/MX
 Sybase ASE
 Sybase IQ
 Teradata
 Adaptive
 Altova
 Apache Hcatalog
 Apache Hive/HQL
 Borland
 CA ERwin
 Cloudera Impala
 COBOL Copybook
 DataStax
 Embarcadero
 EMC ProActivity
 GentleWare
 Google BigQuery
 Grandite
 Hadapt Hive
 Hortonworks Hive
 IBM Cognos
 IBM DB2
 IBM DataStage
 IBM Discovery
 IBM Federation Server
 IBM Lotus Notes
 IBM Netezza
 IBM Rational Rose
 IBM Rational Architect
 Informatica Metadata Mgr.
 Informatica PowerCenter
 CoSORT
 ISO SQL Standard (DDL)
 MapR Hadoop Hive
 MicroFocus
 Microsoft Access
 Microsoft Office Excel
 Microsoft Visio
 Microsoft SQL Server
 Microsoft SSIS
 Microsoft Visual Studio
 Microstrategy
 Magic Draw
 OMG CWM Standard
 OMG UML Standard
 Oracle BI Answers
 Oracle BI Enterprise Edition
 Oracle BI Server
 Oracle DAC
 Oracle Data Integrator
 Oracle Data Modeler
 Oracle Database
 Oracle Designer
 Oracle Hyperion Applications
 Oracle Hyperion Essbase
 Oracle Warehouse Builder
 Pivotal Greenplum
 PostgreSQL
 QlikView
 SAP BO Crystal Reports
 SAP BO Designer
 SAP BO Desktop Intelligence
 SAP BO Repository
 SAP BO Data Integrator
 SAP BO Data Steward
 SAP Master Data Management
 SAP Sybase PowerDesigner
 SAP Sybase ASE Database
 SAS Data Integration Studio
 SAS BI Server
 SAS Information Map
 SAS Metadata Management
 SAS OLAP Server
 Select
 Sparx Architect
 Syncsort
 Tableau
 Talend
 Teradata
 Tigris
 Visible
 W3C DTD & XSD Schema
Операционная интеграция (Перемещение и трансформации) Сбор метаданных (Глоссарии, взаимосвязи, анализ влияния))
 Oracle Database
 Oracle Exadata
 Oracle Big Data Appliance
 Oracle TimesTen
 Oracle OLAP
 Oracle Business Intelligence
 Oracle BI Applications
 Oracle E-Business Suite
 Oracle JD Edwards Enterprise One
 Oracle JD Edwards World
 Oracle Fusion Applications
 Oracle Governance Risk and Compliance
 Oracle Fusion AIA
 Oracle Retail Applications
 Oracle Agile BI / DW
 Oracle Agile PLM for Process
 Oracle iFlex FlexCUBE
 Oracle iFlex Mantas
 Oracle Hyperion Applications
 Oracle PeopleSoft
 Oracle Siebel CRM / OnDemand
 Oracle Communications
 Oracle WebLogic Server
 Oracle Coherence Data Grid
 Oracle SOA Suite
 Oracle Enterprise Service Bus
+ open APIs and standards
based meta-model
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
BIG DATA DISCOVERY
#StrataHadoop - Oracle Big Data Architecture
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 58
Oracle Big Data Discovery. The Visual Face of Hadoop
Поиск Изучение Трансфор-
мация
Исследование Совместная
работа
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Поиск релевантных данных
Oracle Confidential – Internal/Restricted/Highly Restricted 59
• Каталог наборов данных
• Поиск по каталогу и
навигация на основе
метаданных
• Пользовательские теги
• Информация о
существующих проектах и
наборах данных в них
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Изучение для понимания потенциала данных
Oracle Confidential – Internal/Restricted/Highly Restricted 60
Статистическая информация о
данных в зависимости от их
типа:
‒ максимальные, минимальные,
средние значения, квантили и
т.д.;
‒ распределение по значениям,
количество уникальных;
‒ качество данных: пустые
значения;
‒ распределения с учетом
фильтров;
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Трансформация, подготовка данных
Oracle Confidential – Internal/Restricted/Highly Restricted 61
• Обширная библиотека
транформационных функций
• Возможность написания
собственных скриптов на Groovy
• Предварительный просмотр
результатов, отмена, подтверждение
и повторное выполнение
трансформаций
• Тестирование на небольшом
наборе данных в оперативной
памяти, применение на полном
наборе данных в Hadoop
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Исследование и анализ данных
Oracle Confidential – Internal/Restricted/Highly Restricted 62
• Визуальная компонентная
среда
• Уникальные поисковые
возможности и фасетная
навигация
• Объединение нескольких
наборов данных для более
глубокого анализа
Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |
Стратегия Oracle в области Больших Данных и Аналитики
• Безопасность, управляемость в
продуктивных системах
– Использовать опубликованные в HDFS наборы
данных в Oracle DB используя Oracle Big Data
SQL с необходимым уровнем безопасности
данных
– Не требуется перемещение данных
– Расширение уже сделанных инвестиций в ХД и
BI новыми возможностями Больших данных
• Эксперимент, прототип, исследование
– Быстро найти, изучить, трасформировать
данные и исследовать их с помощью BDD
– Публикация результирующих
наборов данных в HDFS
– Построение прогнозных и майнинговых
моделей с помощью Oracle R for Hadoop
• Доступно на инженерных системах
64
Oracle Big Data SQL
SQL join
Oracle BI
Foundation
Suite
In-Memory
Appliance
Exalytics
Традиционные
источники
Data Warehouse
Oracle Advanced
Analytics
Oracle Database
Exadata
Data Reservoir
Oracle
Big Data
Discovery
Hadoop (HDFS)
Oracle R
for
Hadoop
Новые источники
Big Data Appliance
Решения Oracle для Big Data

Contenu connexe

Tendances

QA MeetUp - Алексей Чумагин: "Тестирование в Big Data"
QA MeetUp - Алексей Чумагин: "Тестирование в Big Data"QA MeetUp - Алексей Чумагин: "Тестирование в Big Data"
QA MeetUp - Алексей Чумагин: "Тестирование в Big Data"
Provectus
 
Database as a Service
Database as a ServiceDatabase as a Service
Database as a Service
Andrey Akulov
 

Tendances (20)

Oracle Data Warehouse Cloud
Oracle Data Warehouse CloudOracle Data Warehouse Cloud
Oracle Data Warehouse Cloud
 
2 bdw.key
2 bdw.key2 bdw.key
2 bdw.key
 
Евгения Курмачева (Oracle): Oracle Database 12c
Евгения Курмачева (Oracle): Oracle Database 12cЕвгения Курмачева (Oracle): Oracle Database 12c
Евгения Курмачева (Oracle): Oracle Database 12c
 
4 sas and big data short
4 sas and big data short4 sas and big data short
4 sas and big data short
 
1 big data oracle digi oct
1 big data oracle digi oct1 big data oracle digi oct
1 big data oracle digi oct
 
QA MeetUp - Алексей Чумагин: "Тестирование в Big Data"
QA MeetUp - Алексей Чумагин: "Тестирование в Big Data"QA MeetUp - Алексей Чумагин: "Тестирование в Big Data"
QA MeetUp - Алексей Чумагин: "Тестирование в Big Data"
 
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-casesInformatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
 
Operational Reporting
Operational ReportingOperational Reporting
Operational Reporting
 
3 ibm bdw2015
3 ibm bdw20153 ibm bdw2015
3 ibm bdw2015
 
Informatica Data Replication and FastClone in Russian
Informatica Data Replication and FastClone in RussianInformatica Data Replication and FastClone in Russian
Informatica Data Replication and FastClone in Russian
 
BigIntegrate - разрушение мифов по поводу ETL на Hadoop
BigIntegrate - разрушение мифов по поводу ETL на HadoopBigIntegrate - разрушение мифов по поводу ETL на Hadoop
BigIntegrate - разрушение мифов по поводу ETL на Hadoop
 
Oracle. Моторин Иларион. "Современные и перспективные системы на базе процесс...
Oracle. Моторин Иларион. "Современные и перспективные системы на базе процесс...Oracle. Моторин Иларион. "Современные и перспективные системы на базе процесс...
Oracle. Моторин Иларион. "Современные и перспективные системы на базе процесс...
 
Oracle
OracleOracle
Oracle
 
Владимир Назаров, HPE: Зачем нужна миграция с UNIX на Linux? Выводы на основ...
Владимир Назаров, HPE:  Зачем нужна миграция с UNIX на Linux? Выводы на основ...Владимир Назаров, HPE:  Зачем нужна миграция с UNIX на Linux? Выводы на основ...
Владимир Назаров, HPE: Зачем нужна миграция с UNIX на Linux? Выводы на основ...
 
Engineered Systems - интегрированные системы Oracle. Обзор возможностей новог...
Engineered Systems - интегрированные системы Oracle. Обзор возможностей новог...Engineered Systems - интегрированные системы Oracle. Обзор возможностей новог...
Engineered Systems - интегрированные системы Oracle. Обзор возможностей новог...
 
Сергей Мелехов, Менеджер по развитию бизнеса вычислительных систем Oracle Вос...
Сергей Мелехов, Менеджер по развитию бизнеса вычислительных систем Oracle Вос...Сергей Мелехов, Менеджер по развитию бизнеса вычислительных систем Oracle Вос...
Сергей Мелехов, Менеджер по развитию бизнеса вычислительных систем Oracle Вос...
 
Sponsors' Sessions: BAKOTECH (Dell Software)
Sponsors' Sessions: BAKOTECH (Dell Software)Sponsors' Sessions: BAKOTECH (Dell Software)
Sponsors' Sessions: BAKOTECH (Dell Software)
 
Database as a Service
Database as a ServiceDatabase as a Service
Database as a Service
 
MONT Решения Micro Focus для резервного копирования
MONT Решения Micro Focus для резервного копированияMONT Решения Micro Focus для резервного копирования
MONT Решения Micro Focus для резервного копирования
 
JD Edwards Orchestrator and AIS server
JD Edwards Orchestrator and AIS serverJD Edwards Orchestrator and AIS server
JD Edwards Orchestrator and AIS server
 

En vedette

BYOD и решения для контроля мобильных устройств (MDM).
BYOD и решения для контроля мобильных устройств (MDM).BYOD и решения для контроля мобильных устройств (MDM).
BYOD и решения для контроля мобильных устройств (MDM).
Cisco Russia
 

En vedette (15)

Персонализация для интернет магазинов. Конференция Online Retail Russia 2013
Персонализация для интернет магазинов. Конференция Online Retail Russia 2013Персонализация для интернет магазинов. Конференция Online Retail Russia 2013
Персонализация для интернет магазинов. Конференция Online Retail Russia 2013
 
Использование продуктов gigya.com для интеграции с популярными социальными се...
Использование продуктов gigya.com для интеграции с популярными социальными се...Использование продуктов gigya.com для интеграции с популярными социальными се...
Использование продуктов gigya.com для интеграции с популярными социальными се...
 
Cost Management
Cost ManagementCost Management
Cost Management
 
Crm &amp; Loyalty Managment
Crm &amp; Loyalty ManagmentCrm &amp; Loyalty Managment
Crm &amp; Loyalty Managment
 
Big data lambda architecture - Streaming Layer Hands On
Big data lambda architecture - Streaming Layer Hands OnBig data lambda architecture - Streaming Layer Hands On
Big data lambda architecture - Streaming Layer Hands On
 
Строим плот - Как не утонуть в данных
Строим плот - Как не утонуть в данныхСтроим плот - Как не утонуть в данных
Строим плот - Как не утонуть в данных
 
The Future of Hadoop: A deeper look at Apache Spark
The Future of Hadoop: A deeper look at Apache SparkThe Future of Hadoop: A deeper look at Apache Spark
The Future of Hadoop: A deeper look at Apache Spark
 
BYOD и решения для контроля мобильных устройств (MDM).
BYOD и решения для контроля мобильных устройств (MDM).BYOD и решения для контроля мобильных устройств (MDM).
BYOD и решения для контроля мобильных устройств (MDM).
 
Business Intelligence In Retail
Business Intelligence In RetailBusiness Intelligence In Retail
Business Intelligence In Retail
 
Big Data: Myths and Realities
Big Data: Myths and RealitiesBig Data: Myths and Realities
Big Data: Myths and Realities
 
Oracle ICS Best Practises - 1st Presented at Oracle Partner PaaS Forum by Phi...
Oracle ICS Best Practises - 1st Presented at Oracle Partner PaaS Forum by Phi...Oracle ICS Best Practises - 1st Presented at Oracle Partner PaaS Forum by Phi...
Oracle ICS Best Practises - 1st Presented at Oracle Partner PaaS Forum by Phi...
 
Hortonworks Oracle Big Data Integration
Hortonworks Oracle Big Data Integration Hortonworks Oracle Big Data Integration
Hortonworks Oracle Big Data Integration
 
Oracle Data Integration CON9737 at OpenWorld
Oracle Data Integration CON9737 at OpenWorldOracle Data Integration CON9737 at OpenWorld
Oracle Data Integration CON9737 at OpenWorld
 
Oracle big data appliance and solutions
Oracle big data appliance and solutionsOracle big data appliance and solutions
Oracle big data appliance and solutions
 
кочерженко никита. Oracle платформа oracle commerce anywhere
кочерженко никита. Oracle платформа oracle commerce anywhereкочерженко никита. Oracle платформа oracle commerce anywhere
кочерженко никита. Oracle платформа oracle commerce anywhere
 

Similaire à Решения Oracle для Big Data

Новые возможности по разработке приложений (ADF, SOA, BPM)
Новые возможности по разработке приложений (ADF, SOA, BPM)Новые возможности по разработке приложений (ADF, SOA, BPM)
Новые возможности по разработке приложений (ADF, SOA, BPM)
Andrey Akulov
 
Oracle. Гусаков Алексей. "Защита информации, новые возможности для бизнеса и ...
Oracle. Гусаков Алексей. "Защита информации, новые возможности для бизнеса и ...Oracle. Гусаков Алексей. "Защита информации, новые возможности для бизнеса и ...
Oracle. Гусаков Алексей. "Защита информации, новые возможности для бизнеса и ...
Expolink
 
Обзор интегрированных систем Oracle
Обзор интегрированных систем OracleОбзор интегрированных систем Oracle
Обзор интегрированных систем Oracle
Andrey Akulov
 
Виртуализация Данных: Введение
Виртуализация Данных: ВведениеВиртуализация Данных: Введение
Виртуализация Данных: Введение
Denodo
 
Защита информации на уровне СУБД
Защита информации на уровне СУБДЗащита информации на уровне СУБД
Защита информации на уровне СУБД
Andrey Akulov
 
Создание географически-распределенных датацентров на базе инженерных систем
Создание географически-распределенных датацентров на базе инженерных системСоздание географически-распределенных датацентров на базе инженерных систем
Создание географически-распределенных датацентров на базе инженерных систем
Andrey Akulov
 
Аналитика для розничного финансового бизнеса
Аналитика для розничного финансового бизнесаАналитика для розничного финансового бизнеса
Аналитика для розничного финансового бизнеса
Alexey Glagolev
 

Similaire à Решения Oracle для Big Data (20)

Fors и big data appliance
Fors и big data applianceFors и big data appliance
Fors и big data appliance
 
Big Data
Big DataBig Data
Big Data
 
Big data
Big dataBig data
Big data
 
Oracle Cloud Computing portfolio and strategy
Oracle Cloud Computing portfolio and strategyOracle Cloud Computing portfolio and strategy
Oracle Cloud Computing portfolio and strategy
 
Новые возможности по разработке приложений (ADF, SOA, BPM)
Новые возможности по разработке приложений (ADF, SOA, BPM)Новые возможности по разработке приложений (ADF, SOA, BPM)
Новые возможности по разработке приложений (ADF, SOA, BPM)
 
MySQL NDB Cluster
MySQL NDB ClusterMySQL NDB Cluster
MySQL NDB Cluster
 
Решения HPE для Автоматизации каталога услуг и процессов эксплуатации ИТ
Решения HPE для Автоматизации каталога услуг и процессов эксплуатации ИТРешения HPE для Автоматизации каталога услуг и процессов эксплуатации ИТ
Решения HPE для Автоматизации каталога услуг и процессов эксплуатации ИТ
 
Sponsors' Sessions: BAKOTECH (Dell Software)
Sponsors' Sessions: BAKOTECH (Dell Software)Sponsors' Sessions: BAKOTECH (Dell Software)
Sponsors' Sessions: BAKOTECH (Dell Software)
 
Oracle. Гусаков Алексей. "Защита информации, новые возможности для бизнеса и ...
Oracle. Гусаков Алексей. "Защита информации, новые возможности для бизнеса и ...Oracle. Гусаков Алексей. "Защита информации, новые возможности для бизнеса и ...
Oracle. Гусаков Алексей. "Защита информации, новые возможности для бизнеса и ...
 
[Mirantis Day 2015] Проект Sahara - BigData на OpenStack
[Mirantis Day 2015] Проект Sahara - BigData на OpenStack[Mirantis Day 2015] Проект Sahara - BigData на OpenStack
[Mirantis Day 2015] Проект Sahara - BigData на OpenStack
 
Алексей Захаров (Oracle): Oracle Business Intelligence - аналитическая платформа
Алексей Захаров (Oracle): Oracle Business Intelligence - аналитическая платформаАлексей Захаров (Oracle): Oracle Business Intelligence - аналитическая платформа
Алексей Захаров (Oracle): Oracle Business Intelligence - аналитическая платформа
 
Обзор интегрированных систем Oracle
Обзор интегрированных систем OracleОбзор интегрированных систем Oracle
Обзор интегрированных систем Oracle
 
Oracle maf overview_rus_for publishing
Oracle maf overview_rus_for publishingOracle maf overview_rus_for publishing
Oracle maf overview_rus_for publishing
 
Oracle (Игорь Минеев) - Защита современного предприятия и управление доступом
Oracle (Игорь Минеев) - Защита современного предприятия и управление доступом Oracle (Игорь Минеев) - Защита современного предприятия и управление доступом
Oracle (Игорь Минеев) - Защита современного предприятия и управление доступом
 
Виртуализация Данных: Введение
Виртуализация Данных: ВведениеВиртуализация Данных: Введение
Виртуализация Данных: Введение
 
Short enterprise data hub on apache hadoop ru
Short enterprise data hub on apache hadoop ruShort enterprise data hub on apache hadoop ru
Short enterprise data hub on apache hadoop ru
 
OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015
 
Защита информации на уровне СУБД
Защита информации на уровне СУБДЗащита информации на уровне СУБД
Защита информации на уровне СУБД
 
Создание географически-распределенных датацентров на базе инженерных систем
Создание географически-распределенных датацентров на базе инженерных системСоздание географически-распределенных датацентров на базе инженерных систем
Создание географически-распределенных датацентров на базе инженерных систем
 
Аналитика для розничного финансового бизнеса
Аналитика для розничного финансового бизнесаАналитика для розничного финансового бизнеса
Аналитика для розничного финансового бизнеса
 

Plus de Andrey Akulov

Управление административными учетными записями как средство защиты от челове...
Управление административными учетными записями как  средство защиты от челове...Управление административными учетными записями как  средство защиты от челове...
Управление административными учетными записями как средство защиты от челове...
Andrey Akulov
 
Cоблюдение требований законодательства с помощью сертифицированных средств бе...
Cоблюдение требований законодательства с помощью сертифицированных средств бе...Cоблюдение требований законодательства с помощью сертифицированных средств бе...
Cоблюдение требований законодательства с помощью сертифицированных средств бе...
Andrey Akulov
 
Повышение эффективности Java приложений (новые возможности Web Logic 12c, кон...
Повышение эффективности Java приложений (новые возможности Web Logic 12c, кон...Повышение эффективности Java приложений (новые возможности Web Logic 12c, кон...
Повышение эффективности Java приложений (новые возможности Web Logic 12c, кон...
Andrey Akulov
 
Новые возможности распределенной обработки данных в памяти (Coherence)
Новые возможности распределенной обработки данных в памяти (Coherence)Новые возможности распределенной обработки данных в памяти (Coherence)
Новые возможности распределенной обработки данных в памяти (Coherence)
Andrey Akulov
 
Новый подход к резервному копированию БД - Zero Data Loss Recovery Appliance
Новый подход к резервному копированию БД - Zero Data Loss Recovery ApplianceНовый подход к резервному копированию БД - Zero Data Loss Recovery Appliance
Новый подход к резервному копированию БД - Zero Data Loss Recovery Appliance
Andrey Akulov
 
Oracle database In-Memory - новая технология обработки в памяти
Oracle database In-Memory - новая технология обработки в памятиOracle database In-Memory - новая технология обработки в памяти
Oracle database In-Memory - новая технология обработки в памяти
Andrey Akulov
 
Oracle Database 12c. Консолидация и Мультиарендность
Oracle Database 12c. Консолидация и МультиарендностьOracle Database 12c. Консолидация и Мультиарендность
Oracle Database 12c. Консолидация и Мультиарендность
Andrey Akulov
 
Oracle Engineered Systems press releases
Oracle Engineered Systems press releasesOracle Engineered Systems press releases
Oracle Engineered Systems press releases
Andrey Akulov
 
Обзор TimesTen In-Memory Database
Обзор TimesTen In-Memory DatabaseОбзор TimesTen In-Memory Database
Обзор TimesTen In-Memory Database
Andrey Akulov
 
Oracle Endeca Information Discovery - Платформа для исследования данных
Oracle Endeca Information Discovery - Платформа для исследования данныхOracle Endeca Information Discovery - Платформа для исследования данных
Oracle Endeca Information Discovery - Платформа для исследования данных
Andrey Akulov
 

Plus de Andrey Akulov (20)

Highly Automated IT
Highly Automated ITHighly Automated IT
Highly Automated IT
 
Oracle OpenWorld 2016. Big Data references
Oracle OpenWorld 2016. Big Data referencesOracle OpenWorld 2016. Big Data references
Oracle OpenWorld 2016. Big Data references
 
Oracle IaaS including OCM and Ravello
Oracle IaaS including OCM and RavelloOracle IaaS including OCM and Ravello
Oracle IaaS including OCM and Ravello
 
Oracle Ravello
Oracle Ravello Oracle Ravello
Oracle Ravello
 
Oracle Enterprise Metadata Management
Oracle Enterprise Metadata ManagementOracle Enterprise Metadata Management
Oracle Enterprise Metadata Management
 
Управление административными учетными записями как средство защиты от челове...
Управление административными учетными записями как  средство защиты от челове...Управление административными учетными записями как  средство защиты от челове...
Управление административными учетными записями как средство защиты от челове...
 
Cоблюдение требований законодательства с помощью сертифицированных средств бе...
Cоблюдение требований законодательства с помощью сертифицированных средств бе...Cоблюдение требований законодательства с помощью сертифицированных средств бе...
Cоблюдение требований законодательства с помощью сертифицированных средств бе...
 
Повышение эффективности Java приложений (новые возможности Web Logic 12c, кон...
Повышение эффективности Java приложений (новые возможности Web Logic 12c, кон...Повышение эффективности Java приложений (новые возможности Web Logic 12c, кон...
Повышение эффективности Java приложений (новые возможности Web Logic 12c, кон...
 
Новые возможности распределенной обработки данных в памяти (Coherence)
Новые возможности распределенной обработки данных в памяти (Coherence)Новые возможности распределенной обработки данных в памяти (Coherence)
Новые возможности распределенной обработки данных в памяти (Coherence)
 
Новый подход к резервному копированию БД - Zero Data Loss Recovery Appliance
Новый подход к резервному копированию БД - Zero Data Loss Recovery ApplianceНовый подход к резервному копированию БД - Zero Data Loss Recovery Appliance
Новый подход к резервному копированию БД - Zero Data Loss Recovery Appliance
 
Oracle database In-Memory - новая технология обработки в памяти
Oracle database In-Memory - новая технология обработки в памятиOracle database In-Memory - новая технология обработки в памяти
Oracle database In-Memory - новая технология обработки в памяти
 
Exalogic Technical Overview
Exalogic Technical OverviewExalogic Technical Overview
Exalogic Technical Overview
 
Edition Based Redefinition . Обновление приложений на “лету”
Edition Based Redefinition. Обновление приложений на “лету”Edition Based Redefinition. Обновление приложений на “лету”
Edition Based Redefinition . Обновление приложений на “лету”
 
Oracle Database 12c. Консолидация и Мультиарендность
Oracle Database 12c. Консолидация и МультиарендностьOracle Database 12c. Консолидация и Мультиарендность
Oracle Database 12c. Консолидация и Мультиарендность
 
Oracle Database In-Memory
Oracle Database In-MemoryOracle Database In-Memory
Oracle Database In-Memory
 
Oracle NoSQL Database
Oracle NoSQL DatabaseOracle NoSQL Database
Oracle NoSQL Database
 
Oracle Engineered Systems press releases
Oracle Engineered Systems press releasesOracle Engineered Systems press releases
Oracle Engineered Systems press releases
 
Эволюция Big Data и Information Management. Reference Architecture.
Эволюция Big Data и Information Management. Reference Architecture.Эволюция Big Data и Information Management. Reference Architecture.
Эволюция Big Data и Information Management. Reference Architecture.
 
Обзор TimesTen In-Memory Database
Обзор TimesTen In-Memory DatabaseОбзор TimesTen In-Memory Database
Обзор TimesTen In-Memory Database
 
Oracle Endeca Information Discovery - Платформа для исследования данных
Oracle Endeca Information Discovery - Платформа для исследования данныхOracle Endeca Information Discovery - Платформа для исследования данных
Oracle Endeca Information Discovery - Платформа для исследования данных
 

Dernier

Cyberprint. Dark Pink Apt Group [RU].pdf
Cyberprint. Dark Pink Apt Group [RU].pdfCyberprint. Dark Pink Apt Group [RU].pdf
Cyberprint. Dark Pink Apt Group [RU].pdf
Хроники кибер-безопасника
 
2023 Q4. The Ransomware report. [RU].pdf
2023 Q4. The Ransomware report. [RU].pdf2023 Q4. The Ransomware report. [RU].pdf
2023 Q4. The Ransomware report. [RU].pdf
Хроники кибер-безопасника
 
СИСТЕМА ОЦЕНКИ УЯЗВИМОСТЕЙ CVSS 4.0 / CVSS v4.0 [RU].pdf
СИСТЕМА ОЦЕНКИ УЯЗВИМОСТЕЙ CVSS 4.0 / CVSS v4.0 [RU].pdfСИСТЕМА ОЦЕНКИ УЯЗВИМОСТЕЙ CVSS 4.0 / CVSS v4.0 [RU].pdf
СИСТЕМА ОЦЕНКИ УЯЗВИМОСТЕЙ CVSS 4.0 / CVSS v4.0 [RU].pdf
Хроники кибер-безопасника
 
ИСТОЧНИКИ ИННОВАЦИОННОСТИ КИТАЯ (ПО ВЕРСИИ DGAP) | The Sources of China’s Inn...
ИСТОЧНИКИ ИННОВАЦИОННОСТИ КИТАЯ (ПО ВЕРСИИ DGAP) | The Sources of China’s Inn...ИСТОЧНИКИ ИННОВАЦИОННОСТИ КИТАЯ (ПО ВЕРСИИ DGAP) | The Sources of China’s Inn...
ИСТОЧНИКИ ИННОВАЦИОННОСТИ КИТАЯ (ПО ВЕРСИИ DGAP) | The Sources of China’s Inn...
Ирония безопасности
 
Cyber Defense Doctrine Managing the Risk Full Applied Guide to Organizational...
Cyber Defense Doctrine Managing the Risk Full Applied Guide to Organizational...Cyber Defense Doctrine Managing the Risk Full Applied Guide to Organizational...
Cyber Defense Doctrine Managing the Risk Full Applied Guide to Organizational...
Ирония безопасности
 
CVE. The Fortra's GoAnywhere MFT [RU].pdf
CVE. The Fortra's GoAnywhere MFT [RU].pdfCVE. The Fortra's GoAnywhere MFT [RU].pdf
CVE. The Fortra's GoAnywhere MFT [RU].pdf
Хроники кибер-безопасника
 

Dernier (9)

Cyberprint. Dark Pink Apt Group [RU].pdf
Cyberprint. Dark Pink Apt Group [RU].pdfCyberprint. Dark Pink Apt Group [RU].pdf
Cyberprint. Dark Pink Apt Group [RU].pdf
 
2023 Q4. The Ransomware report. [RU].pdf
2023 Q4. The Ransomware report. [RU].pdf2023 Q4. The Ransomware report. [RU].pdf
2023 Q4. The Ransomware report. [RU].pdf
 
СИСТЕМА ОЦЕНКИ УЯЗВИМОСТЕЙ CVSS 4.0 / CVSS v4.0 [RU].pdf
СИСТЕМА ОЦЕНКИ УЯЗВИМОСТЕЙ CVSS 4.0 / CVSS v4.0 [RU].pdfСИСТЕМА ОЦЕНКИ УЯЗВИМОСТЕЙ CVSS 4.0 / CVSS v4.0 [RU].pdf
СИСТЕМА ОЦЕНКИ УЯЗВИМОСТЕЙ CVSS 4.0 / CVSS v4.0 [RU].pdf
 
ИСТОЧНИКИ ИННОВАЦИОННОСТИ КИТАЯ (ПО ВЕРСИИ DGAP) | The Sources of China’s Inn...
ИСТОЧНИКИ ИННОВАЦИОННОСТИ КИТАЯ (ПО ВЕРСИИ DGAP) | The Sources of China’s Inn...ИСТОЧНИКИ ИННОВАЦИОННОСТИ КИТАЯ (ПО ВЕРСИИ DGAP) | The Sources of China’s Inn...
ИСТОЧНИКИ ИННОВАЦИОННОСТИ КИТАЯ (ПО ВЕРСИИ DGAP) | The Sources of China’s Inn...
 
MS Navigating Incident Response [RU].pdf
MS Navigating Incident Response [RU].pdfMS Navigating Incident Response [RU].pdf
MS Navigating Incident Response [RU].pdf
 
Cyber Defense Doctrine Managing the Risk Full Applied Guide to Organizational...
Cyber Defense Doctrine Managing the Risk Full Applied Guide to Organizational...Cyber Defense Doctrine Managing the Risk Full Applied Guide to Organizational...
Cyber Defense Doctrine Managing the Risk Full Applied Guide to Organizational...
 
CVE. The Fortra's GoAnywhere MFT [RU].pdf
CVE. The Fortra's GoAnywhere MFT [RU].pdfCVE. The Fortra's GoAnywhere MFT [RU].pdf
CVE. The Fortra's GoAnywhere MFT [RU].pdf
 
Ransomware_Q3 2023. The report [RU].pdf
Ransomware_Q3 2023.  The report [RU].pdfRansomware_Q3 2023.  The report [RU].pdf
Ransomware_Q3 2023. The report [RU].pdf
 
Malware. DCRAT (DARK CRYSTAL RAT) [RU].pdf
Malware. DCRAT (DARK CRYSTAL RAT) [RU].pdfMalware. DCRAT (DARK CRYSTAL RAT) [RU].pdf
Malware. DCRAT (DARK CRYSTAL RAT) [RU].pdf
 

Решения Oracle для Big Data

  • 1. Технологии Big Data от Oracle Oracle CIS
  • 2. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Safe Harbor Statement The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated into any contract. It is not a commitment to deliver any material, code, or functionality, and should not be relied upon in making purchasing decisions. The development, release, and timing of any features or functionality described for Oracle’s products remains at the sole discretion of Oracle. #StrataHadoop - Oracle Big Data Architecture
  • 3. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | #StrataHadoop - Oracle Big Data Architecture Oracle Data Architecture для Big Data WarehouseData FactoryReservoir Data Streaming Data Platform Discovery Lab Analytics APIs Enterprise Data Other Data Sources Data Streams Business Data Social/Log Data Model First Analytics • Отчеты и аналитика • Аналитика на всех данных • Классический анализ данных Отчеты & Дашборды Data First Analytics • Визуальное исследование данных • Скрытые закономерности Исследования • Телеметрия • Индустриальные сервисы • Internet of Things Data Services Execution Innovation
  • 4. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Execution Innovation #StrataHadoop - Oracle Big Data Architecture Продуктовая линейка Oracle для Big Data WarehouseFactoryReservoir Data Streaming Data Platform Discovery Lab Analytics APIs Enterprise Data Other Data Sources Data Streams Business Data Social/Log Data Model First Analytics • Reporting-oriented • Often enterprise wide in scope, cross LoB • “you know the questions to ask” Reports & Dashboards Data First Analytics • Data Exploration • Highly visual and/or interactive • “you don’t know the questions to ask” Discovery • Telematics • Industry Services • Internet of Things • Sentiment Data Services Real Time Decisions Oracle Data Integration & Governance Oracle Database & Big Data SQL Oracle R Oracle Big Data Discovery Oracle Business Intelligence Oracle Big Data Discovery Apache Model First Analytics • Отчеты и аналитика • Аналитика на всех данных • Классический анализ данных Отчеты & Дашборды Data First Analytics • Визуальное исследование данных • Скрытые закономерности Исследования • Телеметрия • Индустриальные сервисы • Internet of Things Data Services 5536536 Oracle Event processing Oracle NoSQL Apache
  • 5. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | #StrataHadoop - Oracle Big Data Architecture Интегрированные программно-аппаратные комлексы Oracle для Big Data Data Streaming Data Platform Discovery Lab Analytics APIs Enterprise Data Other Data Sources Data Streams Business Data Social/Log Data Model First Analytics • Reporting-oriented • Often enterprise wide in scope, cross LoB • “you know the questions to ask” Reports & Dashboards Data First Analytics • Data Exploration • Highly visual and/or interactive • “you don’t know the questions to ask” Discovery • Telematics • Industry Services • Internet of Things • Sentiment Data Services APIs Analytics Model First Analytics • Reporting-oriented • Often enterprise wide in scope, cross LoB • “you know the questions to ask” Reports & Dashboards Data First Analytics • Data Exploration • Highly visual and/or interactive • “you don’t know the questions to ask” Discovery • Telematics • Industry Services • Internet of Things • Sentiment Data Services Model First Analytics • Отчеты и аналитика • Аналитика на всех данных • Классический анализ данных Отчеты & Дашборды Data First Analytics • Визуальное исследование данных • Скрытые закономерности Исследования • Телеметрия • Индустриальные сервисы • Internet of Things Data Services Execution Innovation
  • 6. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | BIG DATA APPLIANCE #StrataHadoop - Oracle Big Data Architecture
  • 7. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | •Кластер из 18 узлов – до 768GB на узел (по умолчанию 128GB) = 13824 GB RAM – 36 ядер Intel на узле = 684ядер – 12*8 = 96 TB дисков на узел = 1728 TB •40 Gb p/sec InfiniBand •10 Gb p/sec Ethernet •Произвольная конфигурация от 1/3 до полной стойки с шагом в 1 ноду Oracle Big Data Appliance Машина для Hadoop и NoSQL DB
  • 8. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | • Oracle Linux • Java Hotspot VM • Cloudera Hadoop Distribution Hadoop Core, HDFS, Hive, HBase, Zookeeper, Oozie, Mahout, Sqoop, Administration Tools • R Distribution • Oracle NoSQL Database • Oracle Big Data Connectors: – Oracle R Connector for Hadoop – Oracle SQL to HDFS Connector – Oracle Loader for Hadoop – Oracle XQuery for Hadoop – Oracle Data Integrator Application Adapter for Hadoop •Oracle Big Data SQL Oracle Big Data Appliance Software
  • 9. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Что вам НЕ придется делать с Big Data Appliance (1/2) • Подбирать и оптимизировать компоненты – сервера, диски, количество дисков, процессоры, сети, память и т.п. • Заключать отдельный договор о поддержке с Cloudera • Собирать кластер • Настраивать сетевые коммутаторы • Инсталлировать операционную систему на каждом узле и • Отслеживать и устанавливать оптимальные версии драйверов и прошивок для каждого компонента • Настраивать операционную систему для оптимальной производительности (у нас же очень много данных!) • Настраивать Java
  • 10. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Что вам НЕ придется делать с Big Data Appliance (2/2) • Инсталлировать дополнительное ПО от Cloudera • Тестировать работоспособность и производительность каждого узла кластера • Заниматься самостоятельно трудоемкой процедурой многуровнего апгрейда и патчирования BIOS, OS, Java, Hadoop и т.п. • И просто следить за тем, что нужно что-то проапгрейдить • Изучать как это все сделать без остановки и прерывания работы пользователей • Заниматься дизайном перебалансировки кластера при его расширении • И т.д. и т.п.
  • 11. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | ORACLE NOSQL DATABASE #StrataHadoop - Oracle Big Data Architecture
  • 12. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Для каких задач может использоваться Oracle NoSQL Database? • Построение быстрых многопетабайтных распределенных масштабируемых файловых хранилищ – С возможностью обработки данных в кластере • Построение систем, которые очень быстро накапливают огромное количество данных из многих источников – Десятки миллионов записей в секунду – Датчики, результаты испытаний, эксперименты • Интеграция с системами обработки событий – Накопление и обработка информации о событиях • Интернет-проекты с многими тысячами пользователей – Для обеспечения мгновенного доступа к профилям пользователя, продукта, информации о рекламной компании и т.д. Storage Nodes Data Center A Storage Nodes Data Center B NoSQLDB Driver Application NoSQLDB Driver Application
  • 13. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Oracle NoSQL Database Распределенная, масштабируемая key-value база данных • Простая модель данных • Пара Key-value с подходом major+sub-key • Операции read/insert/update/delete • Поддержка ACID и BASE транзакций • Масштабируемость • Динамическое партиционирование и перераспределение • Оптимизированный доступ к данным • Высокая доступность • Одна или более реплик • Катастрофоустойчивость засчет разнесения реплик • Устойчивость к отказу мастера • Нет одной точки отказа • Прозрачная балансировка нагрузки • Чтение с мастера или реплики • Драйвер знает о сетевой топологии и временах задержки Storage Nodes Data Center A Storage Nodes Data Center B NoSQLDB Driver Application NoSQLDB Driver Application
  • 14. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | ORACLE BIG DATA CONNECTORS #StrataHadoop - Oracle Big Data Architecture
  • 15. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Oracle Big Data Connectors Data Load Oracle Loader for Hadoop Data Access Oracle SQL Connector for HDFS R Analytics Oracle R Advanced Analytics on Hadoop Data Integration Oracle Data Integrator Application Adapters for Hadoop XML/XQuery Oracle XQuery on Hadoop XQueryR Client Оптимизированы для использования с Hadoop: максимальный параллелизм и производительность Интеграция данных из hadoop и реляционной базы Анализ данных из Hadoop, используя привычные инструменты
  • 16. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Certified Hadoop and Database Versions Database versions (on any operating system*) 10.2.0.5 and greater 11.2.0.3 and greater 12c Hadoop versions Certified by Apache Hadoop 2.x Oracle CDH 4.x (Cloudera) Oracle CDH 5.x (Cloudera) Oracle HDP 1.3 (Hortonworks) Hortonworks HDP 2.1 (Hortonworks) Hortonworks*Oracle SQL Connector for HDFS требуют Hadoop клиента на стороне операционной системы DB
  • 17. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Oracle SQL Connector для HDFS OSCH HiveText OSCH OSCH OSCH External Table create table customer_address ( ca_customer_id number(10,0) , ca_street_number char(10) , ca_state char(2) , ca_zip char(10)) organization external ( TYPE ORACLE_LOADER DEFAULT DIRECTORY DEFAULT_DIR ACCESS PARAMETERS (…) PREPROCESSOR “HDFS_BIN_PATH:hdfs_stream”) LOCATION (‘addr1’, ‘addr2’, ‘addr3’)) • Используется механизм внешних таблиц Oracle • Preprocessor директива используется для чтения данных из hdfs • Параллельное чтение данных из hdfs • Совместный доступ к данным из DB и hdfs • Используются все возможности базы данных: сложные запросы, безопасность, аналитическая обработка и т.д. Compressed files
  • 18. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Oracle SQL Connector для HDFS • Специальная утилита генерирует определение для внешних таблиц Oracle • Возможность работы с текстовыми файлами в hdfs, внешними и внутренними Hive таблицами над текстовыми файлами, данными в формате Data pump • Использование партиций в Hive таблицах • Возможность маппирования типов данных в случае использования Hive таблиц • Производительность –15 TB/ч на Oracle Big Data Appliance и Oracle Exadata –5x – 20x быстрее в сравнении с конкурентными решениями Oracle Confidential – Internal/Restricted/Highly Restricted
  • 19. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Загрузка из различных источников данных Oracle Data Warehouse SHUFFLE /SORT SHUFFLE /SORT REDUCE REDUCE REDUCE MAP MAP MAP MAP MAP MAP REDUCE REDUCE ORACLE LOADER FOR HADOOP Веблоги, парсинг с помощью регулярных выражений Hive таблицы Oracle NoSQL Database JSON SerDe Hive external tables Hive external tables HBase Storage Handler • Препроцессниг данных в Hadoop • Разнообразные форматы данных на входе • Автоматическая балансировка нагрузки на нодах • Загрузка данных в базу или генерация Data pump файлов
  • 20. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Weblog Data Обработка с помощью регулярных выражений Сырые логи Отфильтрованные, структурированные данные SHUFFLE /SORT SHUFFLE /SORT REDUCE REDUCE REDUCE MAP MAP MAP MAP MAP MAP REDUCE REDUCE Логи трансформируются на стороне Hadoop
  • 21. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Oracle Loader for Hadoop Высокая производительность загрузки данных в Oracle • Примеры производительности (на Oracle Engineered Systems) – 4.4 TB/hour end-to-end (load + Hadoop process) – 12+ TB/hour load time • Оптимально для использования на инженерных системах Oracle Big Data Appliance и Oracle Exadata: InfiniBand Connectivity
  • 22. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Oracle Loader for Hadoop Oracle Loader for Hadoop External table load
  • 23. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | ORACLE LOADER FOR HADOOP ORACLE DIRECT CONNECTOR FOR HDFSOracle Loader for Hadoop Oracle SQL Connector for HDFS Функциональ- нось Загрузка Загрузка и запросы к данным в hadoop Входные форматы данных Различные типы входных данных: HBase, JSON files, Weblogs, файлы, произвольные форматы Текстовые файлы (HDFS файлы, Hive таблицы) Data Pump файлы: Сгенерированные Oracle Loader for Hadoop из HBase, JSON , Weblogs, файлов и т.д. Производитель- ность Требуется время на препроцессинг в Hadoop. Быстрая загрузка, требует больше ресурсов со стороны базы данных Роли Hadoop разработчики Разработчики Oracle
  • 24. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | ORACLE BIG DATA SQL #StrataHadoop - Oracle Big Data Architecture
  • 25. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Данные живут в разных местах SQL Задачи: 1. Унификация метаданных, языка запросов и безопасности доступа 2. Оптимизация производительности доступа к данным
  • 26. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Hive Metastore Oracle Confidential – Internal/Restricted/Highly Restricted 30 Hive Metastore Hive ImpalaSparkOracle Big Data SQL … Table Definitions: movieapp_log_json movielog movieapp_log_avro
  • 27. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Унификация метаданных: публикация метаданных Hive в Oracle 31 CREATE TABLE movieapp_log_json (click VARCHAR2(4000)) ORGANIZATION EXTERNAL (TYPE ORACLE_HIVE DEFAULT DIRECTORY DEFAULT_DIR ) REJECT LIMIT UNLIMITED; Big Data Appliance + Hadoop/NoSQL Exadata + Oracle Database OracleCatalog ExternalTable Hivemetadata ExternalTable HiveMetastore
  • 28. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | selectlast_name, state, movie,genre frommovielogm,customer c wheregenre=‘comedy’ andc.custid =m.custid 1 На этапе парсинга определяется: • Где хранятся данные • Структура данных • Возможная степень параллелизма 1 2 Параллельное чтение с Big Data SQL Server: • Parallel unit: PQ Slaves & InputSplits • Фильтрация строк, отсечение ненужных столбцов 2 HiveMetastore HDFS NameNode 3 Отфильтрованный результата • Только необходимые данные возвращаются в базу данных • Объединение с другими таблицами, постобработка • Применение правил безопасности 3 HDFSDataNode BDS Server HDFSDataNode BDS Server Исполнение запроса на Hadoop
  • 29. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Oracle Big Data SQL Copy to BDA Big Data Appliance + Cloudera Hadoop HDFS DataNode Exadata + Oracle Database ExternalTable HDFS DataNode ExternalTable Hiveaccessto OracleData Pumpfiles ExternalTable Big Data SQL Copy .dmp files to BDA create table customer_address ( ca_customer_id number(10,0) , ca_street_number char(10) , ca_state char(2) , ca_zip char(10)) organization external ( TYPE ORACLE_DATAPUMP DEFAULT DIRECTORY DEFAULT_DIR LOCATION (‘customer_address.dmp') ) AS SELECT <…> FROM <……> (can be any Oracle SQL query)
  • 30. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | BIG DATA INTEGRATION #StrataHadoop - Oracle Big Data Architecture
  • 31. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Staging #StrataHadoop - Oracle Big Data Architecture Lambda Architecture c Oracle Big Data Integration Sqoop HDFS Hive Flume Capture Trail Route Deliver Pump Transformation Data StreamingKafka (MPP Pub/Sub) Storm and Trident Spark Streaming HBase Discovery Sandbox/s ROracle GoldenGate Oracle Data Integrator Oracle Data Governance Oracle Data Enrichment Model First Analytics • Reporting-oriented • Often enterprise wide in scope, cross LoB • “you know the questions to ask” Data First Analytics • Data Exploration • Highly visual and/or interactive • “you don’t know the questions to ask” • Telematics • Industry Services • Internet of Things • Sentiment Reports & Dashboards Discovery Data Services
  • 32. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Transforms MapReduce(Hive) LoadsOracle Loader for Hadoop Oracle Data Integrator Oracle Database - использование HСatalog и Hive для процессинга данных; - генерация Pig процессов и обработки данных на Spark; - Возможность использования Oozie планировщиков; - операции с файлами в HDFS; - интеграция с реляционными базами через Big Data Connectors или Sqoop Oracle Data Integrator для Big Data Интеграционные модули для работы вс Hadoop
  • 33. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | ODI = Единый логический дизайн– много сценариев 37 • Используем нативные технологии для любых источников данных – Локализация данных – Оптимальная производительность, сокращаем сететвой трафик • Отсутствие промежуточных узлов – Сокращение инфраструктурных затрат и затрат на поддержку • Декларативный дизайн – Упрощенное внедрение – Переиспользование разработких на различных технологиях HCat Agent Transformation Engines Runtime Environments Future Tools Future Runtime Engines Logical Design Oozie Big Data SQL Sqoop OLH OSCH Hive Spark Pig Data Access Kafka Storm Future Languages Any SQL
  • 34. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |  Processing platform for in-memory execution  Library for executing in Python, Java, Scala, or other Languages MOVV = sc.textFile( "hdfs://127.0.0.1/user/oracle/moviedata/input/m.csv") MOV_AP = MOVV.map(lambda line: line.split(",")).map(lambda p: {"movieid": int(p[0]), "moviename": p[1], "directorname": p[2]}) RATV = sc.textFile( "hdfs://127.0.0.1/user/oracle/moviedata/input/r.csv") RAT_AP = RATV.map(lambda line: line.split(",")).map(lambda p: {"movieid": int(p[0]), "movierating": int(p[1]), "reviewdate": p[2]}) FILTER = RAT_AP.filter(lambda data: data["movierating"] > 3) MOV_APX = MOV_AP.keyBy(lambda data: data["movieid"]) RAT_APX = FILTER.keyBy(lambda data: data["movieid"]) JOIN = MOV_APX.join(RAT_APX) (JOIN.map(lambda (m,(j1,j2)):(','.join(map(str, j1))) + ',' + (','.join(map(str, j2))) )).saveAsTextFile("hdfs://127.0.0.1/user/oracle/moviedata/output/goods.csv") Generate Python/Spark code Spark
  • 35. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. |  Procedural Programming Environment and Language for Hadoop  Originally executing on Map-Reduce, but is ported to Tez and Spark daily = load 'NYSE_daily' as (exchange, symbol, date, open, close); divs = load 'NYSE_dividends' as (exchange, symbol, date, dividends); joined = join daily by symbol, divs by symbol; filtered = filter joined by symbol matches 'CM.*'; store filtered into 'filtered' using HBaseStorage(); Pig
  • 36. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Oozie • Hadoop Workflow engine – Used by 90% of enterprise Hadoop use cases • Alternative to ODI Agent in Big Data environments – Use Hadoop-native technology – Deploy to Hadoop environments with no ODI footprint, no install necessary – Use native Hadoop tools to manage processes and view logs 40
  • 37. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Business Value ODI: Высокая эффективность разработки при небольших затратах Oracle Confidential, under Non-Disclosure 41 No ETL engine is required Separation of Logical and Physical design Physical exec on SQL, Hive, Pig, or Spark Runtime exec in Oozie or via ODI Java Agent Rich set of pre- built operators User defined functions
  • 38. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Load to Oracle OLH/OSCH #StrataHadoop - Oracle Big Data Architecture Oracle Data Integration на Инженерных системах Transform ODI Hive/HDFS Federate Hive/HDFS to Oracle Big Data SQL Oracle DB OLTP Load from Oracle CopyToBDA Hive/HDFS OGGOGG Hive/HDFS SQOOP Flume Kafka
  • 39. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Capture Trail Route Deliver Pump #StrataHadoop - Oracle Big Data Architecture Oracle GoldenGate для Big Data New DB/ HW/OS/APP Zero Downtime Upgrades & Data Migration Fully Active Distributed DB High Availability & Disaster Recovery Application Offloading Query & Report Offloading Big Data, DW & Marts Real-time BI, Hadoop Data Staging, Data Ingestion Event Driven Architecture, SOA/JMS, Coherence Message Bus & Data Grid Data Synchronization Across the Enterprise Global Data Centers Real-time Analytics & Massive Parallelization Data Streaming GoldenGate Real-time Data Delivery
  • 40. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | HDFS Support • What is HDFS? – HDFS is Hadoop’s distributed file system that can store data files of different structures • OGG HDFS Functionality – Writes to HDFS delimited file – Different source tables write to same file – Can include Timestamp and Operation Type: Insert/Update/Deletes – Can roll files based on size – Column names can be optionally included in data Schema Table OpType Timestamp C1 Name C1Data C2 Name C2Data C3 Name C3Data Field Delimiter … Sales, Customer, I, 2015-03-11_13-33-01.000, ID, 1234, FIRST, John, LAST, Doe File: /ogg/gg_2015-03-11_13-33-01.000.txt Line Delimiter Path Prefix SuffixTimestamp
  • 41. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Hive Support • What is Hive? – Hive is Hadoop’s SQL interface for querying data in HDFS. • OGG Hive Functionality – Writes to HDFS delimited file – Different source table changes write to separate folders – Can include Timestamp and Operation Type: Insert/Update/Deletes – Can be used for non-Hive use cases – Can roll files based on size I, 1234, John, Doe, 2015-03-11_13-33-01.000 OpType TimestampC1Data C2Data C3Data HDFS File: /ogg/sales/customer/customer_2015-03-11_13-33-01.000 Path Schema TimestampTable Field Delimiter Line Delimiter Hive Table: customer OP ID FIRST LAST TS I 1234 John Doe 2015-03…
  • 42. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Flume Support • What is Flume? – Flume is a streaming platform in Hadoop to ingest external sources, such as log files, apps, etc. • OGG Flume Functionality – Writes Flume event with delimited format body to Avro RPC Source – Source Table and Schema name are passed in flume header – Can use various flume channels and sinks, for example HDFSSink I, 1234, John, Doe, 2015-03-11_13-33-01.000 OpType TimestampC1Data C2Data C3Data Header: Field Delimiter Line Delimiter %{SCHEMA_NAME}: sales %{TABLE_NAME}: customer Body: Source (Avro RPC) Channel (Memory) Sink (HDFS) Flume HDFS Table
  • 43. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | HBase Support • What is HBase? – HBase is Hadoop’s Key-Value store • OGG Hbase Functionality – Writes to HBase tables – Supports Insert, Update, Delete natively – Column Family name can be configured C1Data C2Data C3Data Table Namespace: Sales Table: Customer rowkey cf:ID cf:FIRST cf:LAST 1234 1234 John Doe C1Name C2Name C3Name Column Family Concatenated PKs
  • 44. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Example ID Balance Level Credit (RDBMS Table) Hive Adapter Pump Trail File Capture ID Bal Level Timestamp Op ID Balance Level Credit (Hive Table) Credit_latest (Hive View) • Table is replicated from Source DB to Hive • Any source operations (Insert, Update, Delete) create a new row in Hive • Hive View consolidates operations to have same data as source • Oracle Data Integrator can also be used to periodically consolidate data in materialized table ID Balance Level Credit_merged(Hive Table) ODI data movement Hive View
  • 45. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Incremental Load with GoldenGate for Big Data 49 ID Balance Level 123 400 GOLD 345 50 SILVER 678 210 GOLD ID Bal Level Timestamp Op 123 400 GOLD 2014-10-07 19:17:32 I 345 50 SILVER 2014-10-07 19:21:00 I 678 210 GOLD 2014-06-08 19:17:32 I Credit (RDBMS Table) Credit (Hive Table) Credit_Latest (Hive View) GoldenGate Advantages GoldenGate: - Continuous replication in real-time - Less invasive to source DB - Does not need Timestamp - Supports deletes 981 0 BLACK 123 2014-10-08 1:36:57 D U2014-10-08 1:33:05SILVER450345 981 0 BLACK 2014-10-08 1:30:19 I 450 123 400 GOLD ID Bal Level 123 400 GOLD 345 50 SILVER 678 210 GOLD 981 0 BLACK ID Bal Level 123 400 GOLD 345 450 SILVER 678 210 GOLD 981 0 BLACK ID Bal Level 123 400 GOLD 345 450 SILVER 678 210 GOLD 981 0 BLACK ID Bal Level 123 400 GOLD 345 50 SILVER 678 210 GOLD
  • 46. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Credit_Latest View for Hive CREATE VIEW credit_latest AS SELECT t1.* FROM credit t1 JOIN (SELECT cust_id, Max(last_change) max_modified FROM credit GROUP BY cust_id) s ON t1.cust_id = s.cust_id AND t1.last_change = s.max_modified WHERE t1.op_type != 'D'; Oracle Confidential – Internal/Restricted/Highly Restricted 50 Only retrieve last record for each customer id. Leave out records where the last entry has delete flag.
  • 47. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | BIG DATA GOVERNANCE #StrataHadoop - Oracle Big Data Architecture
  • 48. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | #StrataHadoop - Oracle Big Data Architecture Управлять данными не просто, Hadoop Не исключение! Data Governance Metadata Management Business Glossary Data Profiling Data Cleansing Data Archiving Data Privacy PEOPLE PROCESS TECHNOLOGY …люди и процесс это первое, …инструменты и возможности, …Чудес не быват! “…the overall impact of poor- quality data on the whole dataset remains the same. In addition, much of the data that organizations use in a big data context comes from outside, or is of unknown structure and origin. This means that the likelihood of data quality issues is even higher than before. So data quality is actually more important in the world of big data." - Ted Friedman, Gartner http://www.gartner.com/newsroom/id/2854917
  • 49. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | #StrataHadoop - Oracle Big Data Architecture Операционная Подготовка данных для данных без схемы Data Discovery & Visualization Enterprise Reporting Internet Logs Unstructured & Structured Data 90% of time is spent WRANGLING DATA MONTHS of effort spent on each new dataset PROGRAMERS writing scripts or complex ETL Enterprise ETL & Data Integration
  • 50. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Ценность Enterprise Metadata Management Oracle Confidential – Internal/Restricted/Highly Restricted 54 Решает большое количество серьезных задач для различных бизнес-пользователей и Технических специалистов
  • 51. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Oracle Confidential 55 Oracle Metadata Management Логическая архитектура
  • 52. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Oracle : Наиболее открытый и гетерогенный Oracle OpenWorld 2014 56  Hadoop HBase  Hadoop Hive/Flume  HP Enscribe  HP NonStop  HP Neoview  Hypersonic SQL  IBM DB2 i Series  IBM DB2 UDB  IBM DB2 z Series  IBM Informix  IBM Netezza  JMS / MQ  Microsoft Access  Microsoft SQLServer  MySQL  Pivotal Greenplum  PostgreSQL  Salesforce.com  SAP BW / BI  SAP ERP / ECC  SAS  SQL/MP  SQL/MX  Sybase ASE  Sybase IQ  Teradata  Adaptive  Altova  Apache Hcatalog  Apache Hive/HQL  Borland  CA ERwin  Cloudera Impala  COBOL Copybook  DataStax  Embarcadero  EMC ProActivity  GentleWare  Google BigQuery  Grandite  Hadapt Hive  Hortonworks Hive  IBM Cognos  IBM DB2  IBM DataStage  IBM Discovery  IBM Federation Server  IBM Lotus Notes  IBM Netezza  IBM Rational Rose  IBM Rational Architect  Informatica Metadata Mgr.  Informatica PowerCenter  CoSORT  ISO SQL Standard (DDL)  MapR Hadoop Hive  MicroFocus  Microsoft Access  Microsoft Office Excel  Microsoft Visio  Microsoft SQL Server  Microsoft SSIS  Microsoft Visual Studio  Microstrategy  Magic Draw  OMG CWM Standard  OMG UML Standard  Oracle BI Answers  Oracle BI Enterprise Edition  Oracle BI Server  Oracle DAC  Oracle Data Integrator  Oracle Data Modeler  Oracle Database  Oracle Designer  Oracle Hyperion Applications  Oracle Hyperion Essbase  Oracle Warehouse Builder  Pivotal Greenplum  PostgreSQL  QlikView  SAP BO Crystal Reports  SAP BO Designer  SAP BO Desktop Intelligence  SAP BO Repository  SAP BO Data Integrator  SAP BO Data Steward  SAP Master Data Management  SAP Sybase PowerDesigner  SAP Sybase ASE Database  SAS Data Integration Studio  SAS BI Server  SAS Information Map  SAS Metadata Management  SAS OLAP Server  Select  Sparx Architect  Syncsort  Tableau  Talend  Teradata  Tigris  Visible  W3C DTD & XSD Schema Операционная интеграция (Перемещение и трансформации) Сбор метаданных (Глоссарии, взаимосвязи, анализ влияния))  Oracle Database  Oracle Exadata  Oracle Big Data Appliance  Oracle TimesTen  Oracle OLAP  Oracle Business Intelligence  Oracle BI Applications  Oracle E-Business Suite  Oracle JD Edwards Enterprise One  Oracle JD Edwards World  Oracle Fusion Applications  Oracle Governance Risk and Compliance  Oracle Fusion AIA  Oracle Retail Applications  Oracle Agile BI / DW  Oracle Agile PLM for Process  Oracle iFlex FlexCUBE  Oracle iFlex Mantas  Oracle Hyperion Applications  Oracle PeopleSoft  Oracle Siebel CRM / OnDemand  Oracle Communications  Oracle WebLogic Server  Oracle Coherence Data Grid  Oracle SOA Suite  Oracle Enterprise Service Bus + open APIs and standards based meta-model
  • 53. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | BIG DATA DISCOVERY #StrataHadoop - Oracle Big Data Architecture
  • 54. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | 58 Oracle Big Data Discovery. The Visual Face of Hadoop Поиск Изучение Трансфор- мация Исследование Совместная работа
  • 55. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Поиск релевантных данных Oracle Confidential – Internal/Restricted/Highly Restricted 59 • Каталог наборов данных • Поиск по каталогу и навигация на основе метаданных • Пользовательские теги • Информация о существующих проектах и наборах данных в них
  • 56. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Изучение для понимания потенциала данных Oracle Confidential – Internal/Restricted/Highly Restricted 60 Статистическая информация о данных в зависимости от их типа: ‒ максимальные, минимальные, средние значения, квантили и т.д.; ‒ распределение по значениям, количество уникальных; ‒ качество данных: пустые значения; ‒ распределения с учетом фильтров;
  • 57. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Трансформация, подготовка данных Oracle Confidential – Internal/Restricted/Highly Restricted 61 • Обширная библиотека транформационных функций • Возможность написания собственных скриптов на Groovy • Предварительный просмотр результатов, отмена, подтверждение и повторное выполнение трансформаций • Тестирование на небольшом наборе данных в оперативной памяти, применение на полном наборе данных в Hadoop
  • 58. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Исследование и анализ данных Oracle Confidential – Internal/Restricted/Highly Restricted 62 • Визуальная компонентная среда • Уникальные поисковые возможности и фасетная навигация • Объединение нескольких наборов данных для более глубокого анализа
  • 59. Copyright © 2015, Oracle and/or its affiliates. All rights reserved. | Стратегия Oracle в области Больших Данных и Аналитики • Безопасность, управляемость в продуктивных системах – Использовать опубликованные в HDFS наборы данных в Oracle DB используя Oracle Big Data SQL с необходимым уровнем безопасности данных – Не требуется перемещение данных – Расширение уже сделанных инвестиций в ХД и BI новыми возможностями Больших данных • Эксперимент, прототип, исследование – Быстро найти, изучить, трасформировать данные и исследовать их с помощью BDD – Публикация результирующих наборов данных в HDFS – Построение прогнозных и майнинговых моделей с помощью Oracle R for Hadoop • Доступно на инженерных системах 64 Oracle Big Data SQL SQL join Oracle BI Foundation Suite In-Memory Appliance Exalytics Традиционные источники Data Warehouse Oracle Advanced Analytics Oracle Database Exadata Data Reservoir Oracle Big Data Discovery Hadoop (HDFS) Oracle R for Hadoop Новые источники Big Data Appliance