Top 5 Things to Know About Integrating MongoDB into Your Data Warehouse

Sandeep Parikh sap@mongodb.com
Daniel.Graham@Teradata.com
TOP 5 THINGS TO KNOW
ABOUT INTEGRATING
MONGODB INTO YOUR DATA
WAREHOUSE

2 Copyright Teradata
Scale-out NoSQL
+ Scale-out DW
Data Warehouse =
context
JSON in the
Data Warehouse
Integration:
Data Sharing
Use Cases

• Analytic database
> In-memory, in-database
• Scale-out MPP
> 30+ petabyte sites
> 35PB, 4096 cores
• Self service BI
> Dashboards, reports, OLAP
> Predictive analytics
• Complex SQL
> 20-50 way joins
> 350 pages of SQL
• Real time access/load
• Mixed workloads
What is a Teradata Data Warehouse?
Data
scientists
Power
users
Sales,
partners
1024 nodes
Intel
CPUs
512GB
Intel
CPUs
512GB
Intel
CPUs
512GB
Intel
CPUs
512GB

What is a Data Warehouse? Context
Price
history
Inventory
Supplier
Contracts
Product/Services
Channels
E-Commerce
Labor
Associate
Customer
Sales
transactions
Point of Sale
ShipmentCarrier
Campaigns
Promotion
Warehouse

A Day at the Ticket Agency
• 185 applications
> Travel agents & corporate
travel managers
> Mobile: airline executives
> Corporate travel managers
and travel agents
> Hoteliers
• Teradata 5650 V13.10
> 25TB of data
> 1000+ users
• Mini-batch every 15 min
• GoldenGate replication
• Tactical queries 0.2 seconds
• 14M queries/day
99.7
99.78
99.98 99.94
99.4
99.6
99.8
100
2008 2009 2010 2011
Availability

Teradata in the Data Warehouse Market

Forrester Data Warehouse Wave December 2013

Late Binding in SQL
Early
binding
Late
binding
RuntimeLoad time
Data
Warehouse
Source
data
Schema
ETL
table
SQL +
JSONPath
BI
tools
JSON

JSONPath inside SQL
Color Size Prod_ID Create_Time
----- ----- ------- -------------------
Blue Small 96 2013-06-17 20:07:27
SELECT
box.MFG_Line.Product.Color AS "Color",
box.MFG_Line.Product.Size AS "Size",
box.MFG_Line.Product.Prod_ID AS "Prod_ID",
box.MFG_Line.Product.Create_Time AS "Create_Time"
FROM mfgTable
WHERE CAST(box.MFG_Line.Product.Create_Time
AS TIMESTAMP) >= TIMESTAMP'2013-06-16 00:00:00'
AND box.MFG_Line.Product.Prod_ID = 96;

• JSON object  schema column
> Treated like any column
> Use any BI tool
• Apply “schema” at runtime
• Why not shred JSON into columns?
> Urgency, agility
> Bypass extensive change controls
> Complex data
– Bill of materials, etc.
Flexible: Schema-on-Read

Math
and Stats
Data
Mining
Business
Intelligence
Applications
Languages
Marketing
ANALYTIC
TOOLS & APPS
USERS
INTEGRATED DISCOVERY
PLATFORM
INTEGRATED DATA WAREHOUSE
ERP
SCM
CRM
Images
Audio
and Video
Machine
Logs
Text
Web and
Social
SOURCES
DATA
PLATFORM
ACCESSMANAGEMOVE
TERADATA UNIFIED DATA ARCHITECTURE
System Conceptual View
Marketing
Executives
Operational
Systems
Frontline
Workers
Customers
Partners
Engineers
Data
Scientists
Business
Analysts
TERADATA
DATABASE
HORTONWORKS
TERADATA DATABASE
TERADATA ASTER DATABASE

TERADATA
ASTER
DATABASE
SQL,
SQL-MR,
SQL-GR
OTHER
DATABASES
Remote
Data
Teradata and MongoDB: Next Steps
Teradata
Systems
TERADATA
DATABASE
HADOOP
Push-down
to Hadoop
IDW
TERADATA
DATABASE
Discovery
TERADATA
ASTER
DATABASE
Business users Data Scientists
MONGODB
NoSQL
Database

Export / Import
Direct Connect
INTEGRATION

• Operational + Analytical
> Rich MongoDB applications
> Rich Teradata analytics
> Complementary
• Teradata pulls directly from
MongoDB sharded clusters
• Teradata pushes back to
MongoDB deployments
Teradata and MongoDB
MongoDB Teradata
Application Data
Analytics

Scale-out NoSQL + Scale-out DW SQL
Application
Primary
Shard 1
Primary
Shard 2
Primary
Shard N
Primary
Shard 3
Query router Query router Query router
NoSQL
SQL
AMPAMP
PE
AMPAMP
PE
AMPAMP
PE
AMPAMP
PE

Query Router
Shard 1
Shard 2
Shard 3
Shard 4
Contract Phase
Teradata
node
AMP
AMP
AMP
AMP
PE
SQL
E
A
H

Contract Phase
Teradata
node
AMP
AMP
AMP
AMP
PE
E
A
H
Query Router
Shard 1
Shard 2
Shard 3
Shard 4

Data Export to Shards
Teradata
node
AMP
AMP
AMP
AMP
PE
E
A
H
Query Router
Shard 1
Shard 2
Shard 3
Shard 4

Import Data from Shards
Teradata
node
AMP
AMP
AMP
AMP
PE
E
A
H
Query Router
Shard 1
Shard 2
Shard 3
Shard 4

Use cases
BACK-OFFICE CONTEXT TO THE
FRONT-OFFICE OPERATIONS

eCommerce in Action: A Virtuous Circle
Buyer preferences
Sales catalog
Campaigns
Recent purchases
Profitability
Data
Warehouse
Shard
Shard
Shard
Shard
Shard
Shard
Shard
Shard

Shard
Shard
Shard
Shard
Shard
Shard
Shard
Shard
Call Center Efficiency: A Virtuous Circle
Trouble tickets
Customer profiles
Payment history
Claims
Next best offer
Data
Warehouse
web logs

Internet of Things: Making Sense of Sensors
Condition-based
maintenance
R&D testing
Yield management
Warranty mgmt.
Data
Warehouse
Shard
Shard
Shard
Shard
Shard
Shard
Shard
Shard

Conclusions
• Two scale out architectures
> OLTP scale-out
> Analytics scale-out
• JSON in the data warehouse
• Context from the DW
> Enriching MongoDB
applications
• Integration
> Import/export
> Teradata QueryGrid

Top 5 Things to Know About Integrating MongoDB into Your Data Warehouse

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (15)

Similaire à Top 5 Things to Know About Integrating MongoDB into Your Data Warehouse

Similaire à Top 5 Things to Know About Integrating MongoDB into Your Data Warehouse (20)

Plus de MongoDB

Plus de MongoDB (20)

Dernier

Dernier (20)

Top 5 Things to Know About Integrating MongoDB into Your Data Warehouse

Notes de l'éditeur