SlideShare a Scribd company logo
1 of 17
Massive Data Catalog Service
袁天竑
2009-12-07-001
背景議題
• 硬碟降價,使用者需求增加,但是儲存策
略沒變,長期因人事變遷導致資料無法面
對 migration 、 disposal 、 archive 等議
題。
• 傳統檔案系統雖然提供樹狀結構安排資料
,但是也因過於簡單,無法對上述挑戰能
有因應。
提供
• 在資料被儲存時,強迫提供資料相關訊息
由系統管理併為一個相關物件
– Combine user data 、 user defined
metadata 、 upload files 、 management
metadata as an object
• 以利於未來生命期、儲存保存清理、安置
位置、版本 … 處理之依據
• 消除檔案概念
• 消除檔案系統觀點
• 儲存物體物件化 => 目錄「 catalog 」概念
適合對象
• 數典資料保存
• 重要資料保存
• Online application 線上整批儲存重要資料
面對挑戰
• 人員、職務、儲存技術變遷
• Migration 壓力
• 未來成本估算
• 清除需要淘汰的資料
• 資料及 metadata 版本變化
• 引進 Object Identifier (OID) 的觀念來標示
object
• Each object has its own OID. The OID is unique
and universal to an OID repository system
• Each object is represented in compound entities
• Version number is an entity
• 每份 object 以 metadata 的 entities 來表現 .
• 另可定義某個 entity 對應的某個字集的”檔案名
稱”
• Version control with contents,
archive metadata,
management metadata
modification
• Quota control by # of files, file
upper size 、 total disk size
• Lifetime
• Accounting is clear to users
and administration
• API for application to
upload/download & metadata
• User interface for web 、 web
services and remote
upload/download authoring
tools
• Face challenge to migration, load
balancing, technology change
• Easily for batch download/upload
• Pseudo ftp download service for
bulk files during limit times
• Ownership
• Good for users, projects,
applications …
• Face aging issues
• Comma separated database
exported
• Customized information binding
• No file operations, no delete
anymore
User interface
• User downloadable “comma separated
database exported” for further analyze in
other applications (i.e. 例如 excel)
• “Inherit from existing object” function for
metadata information sharing
• 使用者可以加入自己的 extended archive
metadata
• 幫助使用者知道自己的資料使用狀態以及
規劃資料清理、未來規劃
Management interface
• 幫助 data migration from media 或儲存技
術老化或更新變遷
• 幫助少用資料 migration 議題
• 幫助常用資料 migration 議題
• 幫助未來成本估算
Application Interface
• 提供 application 線上儲存重要資料
• 提供 remote authoring software for bulk local files management
• Retired objects will be clean by system with preset rules automatically, disposal management
• Functions for example
– Dump object info for object ID
– Dump object info for container X
– Merge container s into one container
– Split one container to several containers by condition set X
– Add object ID into container X
– Remove object ID from container X
– Request pseudo spooler for container X
– Create object for file X1 with archive metadata X2 and extended metadata X3
– Validate the object creation
– Retire object
– Retire objects from container X
– Recover retired object
– Recover retire objects from container X
– Listing objects with condition set X
– Listing objects in a container X
– Listing retired objects with condition set X
Data operations
• Object := {data+metadata}
• No delete, 只有 retired 的動作。被 rtired
的 object ,視 object 的特質依預設策略
於未來做清理動作。 Garbage container,
disposal management
• OID # 註冊後,除了特定區域外。不解除
的。
資源配置 for users/projs/…
• 可以策略性,依據任務重要性配置不同的
lifetime 、配置使用量、 object 數、 retired
objects disposal 策略、…
4 kinds of Metadata
• Management
– Create date 、 ownership 、 aging 、 storage
strategy 、 storage location 、 version control
• Archive
– Lifetime 、 title 、 contents
description 、 ownership 、 create date 、 version
control
• Extended archive
– Version control 、 checksum
• Contents
– 由使用者定義及製作,封裝在 user’s object 裡
OID retrieve system
• OID retrieve system 提供目錄清單、權限
管理
• 若無授權,被限制讀取的資料,將只能知
道 OID 被註冊及讀取有限內容。
• 若使用者有授權,由 OID retrieve system
向使用者發出 {ticket+storage ID} 及向儲
存設備發出 {ticket+user ID} ,供使用者向
儲存設備提出需求。
• 引入自然人憑證等 CA 及類 SSO 機制
• 強迫於第一時間 metadata 與資料結合
• 檔案系統行為消失
• 以 object 為單位的 catalog 系統
• 使用者可以充分瞭解的溝通
• 沒有 delete 的觀念,改用 retired 以及資料清理
策略來處理 disposal 議題
• 有多種使用介面, web, standalone application,
web services,…
• 不只引進 cloud storage 機制,還引進動態處理
資料策略的嵌入機制
• 使用 compound information 代表 object
到底要發展甚麼
• 很像 object file system ,但不是檔案系統,是 archive
object 管理系統
• 一個橋樑幫助使用者於第一時間建立資料特性,與
resource management
middleware 、 storage 、 backup 、 migration 、 disposa
l 等議題相結合
• 使用者能利用系統提供資訊強化需求能力
• 一個資料 life time, ownership, 處理策略 , 面對
migration 壓力的儲存系統
• 不像 file system ,使用者只有量的限制,這系統可以處
理更複雜的資源配置狀態
• 好用可信賴、容易面對危機、面對需求調整、面對技術變
遷的儲存系統
• 對使用者、對管理者、金主都有好處的系統

More Related Content

What's hot

六角學院 - 資料庫與他們的小夥伴們
六角學院 - 資料庫與他們的小夥伴們六角學院 - 資料庫與他們的小夥伴們
六角學院 - 資料庫與他們的小夥伴們Hao Wei Liou
 
管理資訊系統
管理資訊系統管理資訊系統
管理資訊系統brian401777
 
Big data, big challenge- splunk 幫你解決 big data 議題帶來的挑戰
Big data, big challenge- splunk 幫你解決 big data 議題帶來的挑戰Big data, big challenge- splunk 幫你解決 big data 議題帶來的挑戰
Big data, big challenge- splunk 幫你解決 big data 議題帶來的挑戰Ching-Lin Tao
 
浅谈数据科学
浅谈数据科学浅谈数据科学
浅谈数据科学学峰 司
 
数据的价值和灵魂
数据的价值和灵魂数据的价值和灵魂
数据的价值和灵魂学峰 司
 
2018 Week 12 Data Storage and Visualization
2018 Week 12 Data Storage and Visualization2018 Week 12 Data Storage and Visualization
2018 Week 12 Data Storage and VisualizationAkashaC1
 
檔案後設資料、Ead
檔案後設資料、Ead檔案後設資料、Ead
檔案後設資料、EadChihwei Liu
 

What's hot (7)

六角學院 - 資料庫與他們的小夥伴們
六角學院 - 資料庫與他們的小夥伴們六角學院 - 資料庫與他們的小夥伴們
六角學院 - 資料庫與他們的小夥伴們
 
管理資訊系統
管理資訊系統管理資訊系統
管理資訊系統
 
Big data, big challenge- splunk 幫你解決 big data 議題帶來的挑戰
Big data, big challenge- splunk 幫你解決 big data 議題帶來的挑戰Big data, big challenge- splunk 幫你解決 big data 議題帶來的挑戰
Big data, big challenge- splunk 幫你解決 big data 議題帶來的挑戰
 
浅谈数据科学
浅谈数据科学浅谈数据科学
浅谈数据科学
 
数据的价值和灵魂
数据的价值和灵魂数据的价值和灵魂
数据的价值和灵魂
 
2018 Week 12 Data Storage and Visualization
2018 Week 12 Data Storage and Visualization2018 Week 12 Data Storage and Visualization
2018 Week 12 Data Storage and Visualization
 
檔案後設資料、Ead
檔案後設資料、Ead檔案後設資料、Ead
檔案後設資料、Ead
 

Similar to Massive data catalog service 2009 12-07-001

賽門鐵克 Storage Foundation 6.0 簡報
賽門鐵克 Storage Foundation 6.0 簡報賽門鐵克 Storage Foundation 6.0 簡報
賽門鐵克 Storage Foundation 6.0 簡報Wales Chen
 
知識管理過去現在未來
知識管理過去現在未來知識管理過去現在未來
知識管理過去現在未來Weng Wallace
 
浅析分布式存储架构—设计自己的存储- 58同城徐振华
浅析分布式存储架构—设计自己的存储- 58同城徐振华浅析分布式存储架构—设计自己的存储- 58同城徐振华
浅析分布式存储架构—设计自己的存储- 58同城徐振华zhuozhe
 
RockStor - A Cloud Object System based on Hadoop
RockStor -  A Cloud Object System based on HadoopRockStor -  A Cloud Object System based on Hadoop
RockStor - A Cloud Object System based on HadoopSchubert Zhang
 
Ftn存储设计
Ftn存储设计Ftn存储设计
Ftn存储设计gzterrytan
 
關聯式資料庫系統的規劃
關聯式資料庫系統的規劃關聯式資料庫系統的規劃
關聯式資料庫系統的規劃Simon Huang
 
14 Saving Loading and Application States
14 Saving Loading and Application States14 Saving Loading and Application States
14 Saving Loading and Application StatesTom Fan
 
美团点评技术沙龙14:美团云对象存储系统
美团点评技术沙龙14:美团云对象存储系统美团点评技术沙龙14:美团云对象存储系统
美团点评技术沙龙14:美团云对象存储系统美团点评技术团队
 
高可用可扩展数据库架构方案探讨
高可用可扩展数据库架构方案探讨高可用可扩展数据库架构方案探讨
高可用可扩展数据库架构方案探讨Sky Jian
 

Similar to Massive data catalog service 2009 12-07-001 (10)

賽門鐵克 Storage Foundation 6.0 簡報
賽門鐵克 Storage Foundation 6.0 簡報賽門鐵克 Storage Foundation 6.0 簡報
賽門鐵克 Storage Foundation 6.0 簡報
 
知識管理過去現在未來
知識管理過去現在未來知識管理過去現在未來
知識管理過去現在未來
 
MongoDB SHARE
MongoDB SHAREMongoDB SHARE
MongoDB SHARE
 
浅析分布式存储架构—设计自己的存储- 58同城徐振华
浅析分布式存储架构—设计自己的存储- 58同城徐振华浅析分布式存储架构—设计自己的存储- 58同城徐振华
浅析分布式存储架构—设计自己的存储- 58同城徐振华
 
RockStor - A Cloud Object System based on Hadoop
RockStor -  A Cloud Object System based on HadoopRockStor -  A Cloud Object System based on Hadoop
RockStor - A Cloud Object System based on Hadoop
 
Ftn存储设计
Ftn存储设计Ftn存储设计
Ftn存储设计
 
關聯式資料庫系統的規劃
關聯式資料庫系統的規劃關聯式資料庫系統的規劃
關聯式資料庫系統的規劃
 
14 Saving Loading and Application States
14 Saving Loading and Application States14 Saving Loading and Application States
14 Saving Loading and Application States
 
美团点评技术沙龙14:美团云对象存储系统
美团点评技术沙龙14:美团云对象存储系统美团点评技术沙龙14:美团云对象存储系统
美团点评技术沙龙14:美团云对象存储系统
 
高可用可扩展数据库架构方案探讨
高可用可扩展数据库架构方案探讨高可用可扩展数据库架构方案探讨
高可用可扩展数据库架构方案探讨
 

More from Tein Horng Yuan

1960年南北交-火-木-土-天-海-冥-凱龍閘門分佈
1960年南北交-火-木-土-天-海-冥-凱龍閘門分佈1960年南北交-火-木-土-天-海-冥-凱龍閘門分佈
1960年南北交-火-木-土-天-海-冥-凱龍閘門分佈Tein Horng Yuan
 
1950年南北交-火-木-土-天-海-冥-凱龍閘門分佈
1950年南北交-火-木-土-天-海-冥-凱龍閘門分佈1950年南北交-火-木-土-天-海-冥-凱龍閘門分佈
1950年南北交-火-木-土-天-海-冥-凱龍閘門分佈Tein Horng Yuan
 
1940年南北交-火-木-土-天-海-冥-凱龍閘門分佈
1940年南北交-火-木-土-天-海-冥-凱龍閘門分佈1940年南北交-火-木-土-天-海-冥-凱龍閘門分佈
1940年南北交-火-木-土-天-海-冥-凱龍閘門分佈Tein Horng Yuan
 
2020年南北交-火-木-土-天-海-冥-凱龍閘門分佈
2020年南北交-火-木-土-天-海-冥-凱龍閘門分佈2020年南北交-火-木-土-天-海-冥-凱龍閘門分佈
2020年南北交-火-木-土-天-海-冥-凱龍閘門分佈Tein Horng Yuan
 
007 001 tyuan gate relationship v1.07-2018-02-04-004 modified 003 2018-07-18
007 001 tyuan gate relationship v1.07-2018-02-04-004 modified 003 2018-07-18007 001 tyuan gate relationship v1.07-2018-02-04-004 modified 003 2018-07-18
007 001 tyuan gate relationship v1.07-2018-02-04-004 modified 003 2018-07-18Tein Horng Yuan
 
Human design system gate relationship v1.08-2018-02-04-005 draft-20180610
Human design system   gate relationship v1.08-2018-02-04-005 draft-20180610Human design system   gate relationship v1.08-2018-02-04-005 draft-20180610
Human design system gate relationship v1.08-2018-02-04-005 draft-20180610Tein Horng Yuan
 
practice sheets with Work operation model V.2016-07-04-001
practice sheets with Work operation model V.2016-07-04-001practice sheets with Work operation model V.2016-07-04-001
practice sheets with Work operation model V.2016-07-04-001Tein Horng Yuan
 
表單電子化與流程整理 2015-07-15-001-draft-006
表單電子化與流程整理 2015-07-15-001-draft-006表單電子化與流程整理 2015-07-15-001-draft-006
表單電子化與流程整理 2015-07-15-001-draft-006Tein Horng Yuan
 
Presentation template for ea & bpm 2015 06-14-001
Presentation template for ea & bpm  2015 06-14-001Presentation template for ea & bpm  2015 06-14-001
Presentation template for ea & bpm 2015 06-14-001Tein Horng Yuan
 
Service model proposal 2010 03-01-001
Service model proposal 2010 03-01-001Service model proposal 2010 03-01-001
Service model proposal 2010 03-01-001Tein Horng Yuan
 
個人電腦系統耗電說明及建議 -- 中心通訊
個人電腦系統耗電說明及建議 -- 中心通訊個人電腦系統耗電說明及建議 -- 中心通訊
個人電腦系統耗電說明及建議 -- 中心通訊Tein Horng Yuan
 
HPC 服務軟體障礙 checklist 2008 08-04 draft
HPC 服務軟體障礙 checklist 2008 08-04 draftHPC 服務軟體障礙 checklist 2008 08-04 draft
HPC 服務軟體障礙 checklist 2008 08-04 draftTein Horng Yuan
 
facing change: awareness, capability and opportunity
facing change: awareness, capability and opportunityfacing change: awareness, capability and opportunity
facing change: awareness, capability and opportunityTein Horng Yuan
 

More from Tein Horng Yuan (20)

1960年南北交-火-木-土-天-海-冥-凱龍閘門分佈
1960年南北交-火-木-土-天-海-冥-凱龍閘門分佈1960年南北交-火-木-土-天-海-冥-凱龍閘門分佈
1960年南北交-火-木-土-天-海-冥-凱龍閘門分佈
 
1950年南北交-火-木-土-天-海-冥-凱龍閘門分佈
1950年南北交-火-木-土-天-海-冥-凱龍閘門分佈1950年南北交-火-木-土-天-海-冥-凱龍閘門分佈
1950年南北交-火-木-土-天-海-冥-凱龍閘門分佈
 
1940年南北交-火-木-土-天-海-冥-凱龍閘門分佈
1940年南北交-火-木-土-天-海-冥-凱龍閘門分佈1940年南北交-火-木-土-天-海-冥-凱龍閘門分佈
1940年南北交-火-木-土-天-海-冥-凱龍閘門分佈
 
2020年南北交-火-木-土-天-海-冥-凱龍閘門分佈
2020年南北交-火-木-土-天-海-冥-凱龍閘門分佈2020年南北交-火-木-土-天-海-冥-凱龍閘門分佈
2020年南北交-火-木-土-天-海-冥-凱龍閘門分佈
 
007 001 tyuan gate relationship v1.07-2018-02-04-004 modified 003 2018-07-18
007 001 tyuan gate relationship v1.07-2018-02-04-004 modified 003 2018-07-18007 001 tyuan gate relationship v1.07-2018-02-04-004 modified 003 2018-07-18
007 001 tyuan gate relationship v1.07-2018-02-04-004 modified 003 2018-07-18
 
The design of forms
The design of formsThe design of forms
The design of forms
 
Human design system gate relationship v1.08-2018-02-04-005 draft-20180610
Human design system   gate relationship v1.08-2018-02-04-005 draft-20180610Human design system   gate relationship v1.08-2018-02-04-005 draft-20180610
Human design system gate relationship v1.08-2018-02-04-005 draft-20180610
 
TADS
TADSTADS
TADS
 
practice sheets with Work operation model V.2016-07-04-001
practice sheets with Work operation model V.2016-07-04-001practice sheets with Work operation model V.2016-07-04-001
practice sheets with Work operation model V.2016-07-04-001
 
GOAL and OBJECTIVE
GOAL and OBJECTIVEGOAL and OBJECTIVE
GOAL and OBJECTIVE
 
表單電子化與流程整理 2015-07-15-001-draft-006
表單電子化與流程整理 2015-07-15-001-draft-006表單電子化與流程整理 2015-07-15-001-draft-006
表單電子化與流程整理 2015-07-15-001-draft-006
 
Presentation template for ea & bpm 2015 06-14-001
Presentation template for ea & bpm  2015 06-14-001Presentation template for ea & bpm  2015 06-14-001
Presentation template for ea & bpm 2015 06-14-001
 
ASCC HPC Use Policy
ASCC HPC Use PolicyASCC HPC Use Policy
ASCC HPC Use Policy
 
Service model proposal 2010 03-01-001
Service model proposal 2010 03-01-001Service model proposal 2010 03-01-001
Service model proposal 2010 03-01-001
 
個人電腦系統耗電說明及建議 -- 中心通訊
個人電腦系統耗電說明及建議 -- 中心通訊個人電腦系統耗電說明及建議 -- 中心通訊
個人電腦系統耗電說明及建議 -- 中心通訊
 
HPC 服務軟體障礙 checklist 2008 08-04 draft
HPC 服務軟體障礙 checklist 2008 08-04 draftHPC 服務軟體障礙 checklist 2008 08-04 draft
HPC 服務軟體障礙 checklist 2008 08-04 draft
 
How to Survive in ASCC
How to Survive in ASCCHow to Survive in ASCC
How to Survive in ASCC
 
Idea0001 2015-01-19
Idea0001 2015-01-19Idea0001 2015-01-19
Idea0001 2015-01-19
 
facing change: awareness, capability and opportunity
facing change: awareness, capability and opportunityfacing change: awareness, capability and opportunity
facing change: awareness, capability and opportunity
 
7 issues -1
7 issues -17 issues -1
7 issues -1
 

Massive data catalog service 2009 12-07-001

  • 1. Massive Data Catalog Service 袁天竑 2009-12-07-001
  • 2. 背景議題 • 硬碟降價,使用者需求增加,但是儲存策 略沒變,長期因人事變遷導致資料無法面 對 migration 、 disposal 、 archive 等議 題。 • 傳統檔案系統雖然提供樹狀結構安排資料 ,但是也因過於簡單,無法對上述挑戰能 有因應。
  • 3. 提供 • 在資料被儲存時,強迫提供資料相關訊息 由系統管理併為一個相關物件 – Combine user data 、 user defined metadata 、 upload files 、 management metadata as an object • 以利於未來生命期、儲存保存清理、安置 位置、版本 … 處理之依據
  • 4. • 消除檔案概念 • 消除檔案系統觀點 • 儲存物體物件化 => 目錄「 catalog 」概念
  • 5. 適合對象 • 數典資料保存 • 重要資料保存 • Online application 線上整批儲存重要資料
  • 6. 面對挑戰 • 人員、職務、儲存技術變遷 • Migration 壓力 • 未來成本估算 • 清除需要淘汰的資料 • 資料及 metadata 版本變化
  • 7. • 引進 Object Identifier (OID) 的觀念來標示 object • Each object has its own OID. The OID is unique and universal to an OID repository system • Each object is represented in compound entities • Version number is an entity • 每份 object 以 metadata 的 entities 來表現 . • 另可定義某個 entity 對應的某個字集的”檔案名 稱”
  • 8. • Version control with contents, archive metadata, management metadata modification • Quota control by # of files, file upper size 、 total disk size • Lifetime • Accounting is clear to users and administration • API for application to upload/download & metadata • User interface for web 、 web services and remote upload/download authoring tools • Face challenge to migration, load balancing, technology change • Easily for batch download/upload • Pseudo ftp download service for bulk files during limit times • Ownership • Good for users, projects, applications … • Face aging issues • Comma separated database exported • Customized information binding • No file operations, no delete anymore
  • 9. User interface • User downloadable “comma separated database exported” for further analyze in other applications (i.e. 例如 excel) • “Inherit from existing object” function for metadata information sharing • 使用者可以加入自己的 extended archive metadata • 幫助使用者知道自己的資料使用狀態以及 規劃資料清理、未來規劃
  • 10. Management interface • 幫助 data migration from media 或儲存技 術老化或更新變遷 • 幫助少用資料 migration 議題 • 幫助常用資料 migration 議題 • 幫助未來成本估算
  • 11. Application Interface • 提供 application 線上儲存重要資料 • 提供 remote authoring software for bulk local files management • Retired objects will be clean by system with preset rules automatically, disposal management • Functions for example – Dump object info for object ID – Dump object info for container X – Merge container s into one container – Split one container to several containers by condition set X – Add object ID into container X – Remove object ID from container X – Request pseudo spooler for container X – Create object for file X1 with archive metadata X2 and extended metadata X3 – Validate the object creation – Retire object – Retire objects from container X – Recover retired object – Recover retire objects from container X – Listing objects with condition set X – Listing objects in a container X – Listing retired objects with condition set X
  • 12. Data operations • Object := {data+metadata} • No delete, 只有 retired 的動作。被 rtired 的 object ,視 object 的特質依預設策略 於未來做清理動作。 Garbage container, disposal management • OID # 註冊後,除了特定區域外。不解除 的。
  • 13. 資源配置 for users/projs/… • 可以策略性,依據任務重要性配置不同的 lifetime 、配置使用量、 object 數、 retired objects disposal 策略、…
  • 14. 4 kinds of Metadata • Management – Create date 、 ownership 、 aging 、 storage strategy 、 storage location 、 version control • Archive – Lifetime 、 title 、 contents description 、 ownership 、 create date 、 version control • Extended archive – Version control 、 checksum • Contents – 由使用者定義及製作,封裝在 user’s object 裡
  • 15. OID retrieve system • OID retrieve system 提供目錄清單、權限 管理 • 若無授權,被限制讀取的資料,將只能知 道 OID 被註冊及讀取有限內容。 • 若使用者有授權,由 OID retrieve system 向使用者發出 {ticket+storage ID} 及向儲 存設備發出 {ticket+user ID} ,供使用者向 儲存設備提出需求。 • 引入自然人憑證等 CA 及類 SSO 機制
  • 16. • 強迫於第一時間 metadata 與資料結合 • 檔案系統行為消失 • 以 object 為單位的 catalog 系統 • 使用者可以充分瞭解的溝通 • 沒有 delete 的觀念,改用 retired 以及資料清理 策略來處理 disposal 議題 • 有多種使用介面, web, standalone application, web services,… • 不只引進 cloud storage 機制,還引進動態處理 資料策略的嵌入機制 • 使用 compound information 代表 object
  • 17. 到底要發展甚麼 • 很像 object file system ,但不是檔案系統,是 archive object 管理系統 • 一個橋樑幫助使用者於第一時間建立資料特性,與 resource management middleware 、 storage 、 backup 、 migration 、 disposa l 等議題相結合 • 使用者能利用系統提供資訊強化需求能力 • 一個資料 life time, ownership, 處理策略 , 面對 migration 壓力的儲存系統 • 不像 file system ,使用者只有量的限制,這系統可以處 理更複雜的資源配置狀態 • 好用可信賴、容易面對危機、面對需求調整、面對技術變 遷的儲存系統 • 對使用者、對管理者、金主都有好處的系統