SlideShare une entreprise Scribd logo
1  sur  23
Télécharger pour lire hors ligne
Big Data
Google Trends
Worldwide
Thailand
Cloud Computing
Cloud Computing
Big Data
Big Data
Big Data คืออะไร
• Big Data คือ ปริมาณข้อมูลที่มีขนาดใหญ่มหาศาลเกิน
กว่าขีดความสามารถในการประมวลผลของระบบฐานข้อมูล
ธรรมดาจะรองรับได้ ปริมาณข้อมูลที่มีขนาดใหญ่มากๆ จะ
มีอัตราการเพิ่มขึ้นของข้อมูลเป็นไปอย่างรวดเร็วมาก และ
เป็นรูปแบบที่ไม่มีโครงสร้าง (Unstructured) ซึ่งไม่
สามารถที่จะจัดการด้วยเครื่องมือที่มีอยู่ หรือเครื่องมือแบบ
เดิมๆ ได้อีกต่อไป
ลักษณะพิเศษของ Big Data
Volume Velocity Variety
คือข้อมูลมหาศาลขนาด
ใหญ่ มีจำนวนมากเกิน
กว่าระบบฐาน ข้อมูลแบบ
เดิมๆ จะสามารถที่จะ
จัดการได้
ข้อมูลที่มีความหลาก
หลายทั้งที่เป็นแบบ
โครงสร้างหรือรูปแบบที่
ไม่แน่นอน
ข้อมูลที่ต้องวิเคราะห์เข้าสู่
ระบบฐานข้อมูลอย่าง
รวดเร็ว โดยให้ความ
สำคัญกับข้อมูลที่เป็น
Real-time
ตัวอย่างข้อมูล Big Data
• ข้อมูลเครือข่ายสังคม
• ข้อมูลการบริการทางเว็บ
• ข้อมูลธุรกรรมทางธนาคาร
• ข้อมูลการสื่อสารจากโทรศัพท์เคลื่อนที่
• ข้อมูลภาพถ่ายดาวเทียม
• ข้อมูลสภาพอากาศ
ทำไมต้องสนใจ Big Data
• ปัจจุบันเรามีข้อมูลที่หลายหลายรูปแบบ ปริมาณเยอะมาก
ถ้าเราเก็บไว้โดยที่ไม่ทำอะไรก็ไม่เกิดประโยชน์ แต่ถ้านำ
เอาเทคนิคความรู้ในด้าน Big Data เข้ามาช่วย นำข้อมูลที่
มีปริมาณเยอะมาประมวลผล วิเคราะห์ และนำข้อมูลเหล่า
นั้นไปใช้ให้เกิดประโยชน์
Apache Hadoop
• ซอฟแวร์ที่สำคัญที่มีการนำมาใช้กันมากในระบบ Big
data คือ Hadoop เพราะ Hadoop เป็น Open Source
Technology พัฒนาขึ้นด้วยภาษา Java ที่จะทำหน้าที่เป็น
Distributed Storage ที่สามารถเก็บข้อมูลขนาดใหญ่ที่
เป็น Unstructure และนำมาประมวลผลได้ โดยองค์ประ
กอบหลักๆของ Hadoop จะประกอบด้วย Hadoop
Dustributed File System (HDFS) และ MapReduce
ใช้สำหรับประมวลผลข้อมูลที่มีขนาดใหญ่บน cluster ได้
Hadoop Environment
• เป็นการบวนการที่ใช้สำหรับการแบ่ง input data ให้มี
ขนาดเล็กลง แล้วส่งไปประมวลผลยัง node อื่นๆ ที่อยู่ใน
cluster เมื่อประมวลผลเสร็จแล้วจึงนำผลลัพธ์ที่ได้กลับมา
ลดขนาด แล้วส่ง output data กลับมา
MapReduce Flow
• เป็น Distribute File System รูปแบบหนึ่ง ออกแบบมาเพื่อ
ใช้งานกับ Hadoop application โดยเฉพาะ ใช้สำหรับ
ข้อมูลขนาดใหญ่ ระดับ tera byte หรือ petra byte ขึ้นไป
การจัดเก็บข้อมูลจะใช้ “รูปแบบของการกระ
จาย” (distributed storage) คือการการจายไปเก็บยัง
node อื่นๆ จะมีความสามารถในการทำสำเนาเองโดย
อัตโนมัติทำให้มีความน่าเชื่อถือสูง เพราะสามารถป้องกัน
ความผิดพลาดข้อมูลที่จะเกิดขึ้นได้
ตัวอย่างผู้ที่ใช้งาน Hadoop
• Facebook นั้นมี Apache Hadoop Cluster 2 ชุด ชุด
แรกประกอบจาก Server จำนวน 1100 เครื่อง , CPU
8800 Core และพื้นที่ 12PB และชุดที่สองประกอบจาก
Server จำนวน 300 เครื่อง , CPU 2400 Core และพื้นที่
3PB
• Yahoo นั้นใช้ Server มากกว่า 40000 เครื่อง , CPU
มากกว่า 100000 ชุดสำหรับรองรับระบบ Ads และ Web
Search
Lightning-fast cluster computing
Apache Spark
• เริ่มต้นที่ UC Berkeley ในปี คศ. 2009 เป็นระบบประมวล
ผลบน Cluster ซึ่งทำ MapReduce in memory ได้เร็ว ซึ่ง
เร็วกว่า Hadoop MapReduce กว่า 10 เท่าเนื่องจาก
Hadoop ทำงานบน Disk
พื้นฐาน Apache Spark
RDD
• Resilient Distributed Dataset เป็นการกระจายข้อมูล
ข้ามเครื่องไปสู่ worker ต่างๆ โดยระบบสามารถตรวจสอบ
ได้ว่า worker ตัวไหนตายไประหว่างทำงาน Cluster
Manager สามารถโอนงานไปให้ worker ตัวอื่นทำต่อได้
แล้วยังได้ผลลัพธ์ที่ถูกต้องเหมือนเดิม
Spark Shell

Contenu connexe

Tendances

The Power of Big Data for a new economy (Sample)
The Power of Big Data for a new economy (Sample)The Power of Big Data for a new economy (Sample)
The Power of Big Data for a new economy (Sample)IMC Institute
 
คู่มือ practical data mining with rapid miner studio7
คู่มือ practical data mining with rapid miner studio7คู่มือ practical data mining with rapid miner studio7
คู่มือ practical data mining with rapid miner studio7Pitchayanida Khumwichai
 
เทคโนโลยีสารสนเทศ2
เทคโนโลยีสารสนเทศ2เทคโนโลยีสารสนเทศ2
เทคโนโลยีสารสนเทศ2vizaa
 
เอกสารเสนอ คณะอนุกรรมการ นโยบายและผลกระทบเกี่ยวกับ ธุรกรรมอิเล็กทรอนิกส์ Fram...
เอกสารเสนอ คณะอนุกรรมการ นโยบายและผลกระทบเกี่ยวกับ ธุรกรรมอิเล็กทรอนิกส์ Fram...เอกสารเสนอ คณะอนุกรรมการ นโยบายและผลกระทบเกี่ยวกับ ธุรกรรมอิเล็กทรอนิกส์ Fram...
เอกสารเสนอ คณะอนุกรรมการ นโยบายและผลกระทบเกี่ยวกับ ธุรกรรมอิเล็กทรอนิกส์ Fram...Chatchailim Lim
 
Ch2 ระบบสารสนเทศ
Ch2 ระบบสารสนเทศCh2 ระบบสารสนเทศ
Ch2 ระบบสารสนเทศNittaya Intarat
 
01 introduction to data mining
01 introduction to data mining01 introduction to data mining
01 introduction to data miningphakhwan22
 
New Technology for Information Services
New Technology for Information ServicesNew Technology for Information Services
New Technology for Information ServicesBoonlert Aroonpiboon
 
Ch2 องค์การและระบบสารสนเทศ
Ch2 องค์การและระบบสารสนเทศCh2 องค์การและระบบสารสนเทศ
Ch2 องค์การและระบบสารสนเทศNittaya Intarat
 
แนวโน้มของเทคโนโลยีสารสนเทศ ในอนาคตและการพัฒนา ระบบสารสนเทศเพื่อรองรับ การทำธ...
แนวโน้มของเทคโนโลยีสารสนเทศ ในอนาคตและการพัฒนา ระบบสารสนเทศเพื่อรองรับ การทำธ...แนวโน้มของเทคโนโลยีสารสนเทศ ในอนาคตและการพัฒนา ระบบสารสนเทศเพื่อรองรับ การทำธ...
แนวโน้มของเทคโนโลยีสารสนเทศ ในอนาคตและการพัฒนา ระบบสารสนเทศเพื่อรองรับ การทำธ...IMC Institute
 
บทที่ 1-ความรู้เบื้องต้นเกี่ยวกับเทคโนโลยีสารสนเทศ
บทที่ 1-ความรู้เบื้องต้นเกี่ยวกับเทคโนโลยีสารสนเทศบทที่ 1-ความรู้เบื้องต้นเกี่ยวกับเทคโนโลยีสารสนเทศ
บทที่ 1-ความรู้เบื้องต้นเกี่ยวกับเทคโนโลยีสารสนเทศTimmy Printhong
 
02 ความรู้เบื้องต้นฐานข้อมูล
02 ความรู้เบื้องต้นฐานข้อมูล02 ความรู้เบื้องต้นฐานข้อมูล
02 ความรู้เบื้องต้นฐานข้อมูลNattipong Siangyen
 
เทคโนให้รู้
เทคโนให้รู้เทคโนให้รู้
เทคโนให้รู้peter dontoom
 

Tendances (20)

The Power of Big Data for a new economy (Sample)
The Power of Big Data for a new economy (Sample)The Power of Big Data for a new economy (Sample)
The Power of Big Data for a new economy (Sample)
 
คู่มือ practical data mining with rapid miner studio7
คู่มือ practical data mining with rapid miner studio7คู่มือ practical data mining with rapid miner studio7
คู่มือ practical data mining with rapid miner studio7
 
เทคโนโลยีสารสนเทศ2
เทคโนโลยีสารสนเทศ2เทคโนโลยีสารสนเทศ2
เทคโนโลยีสารสนเทศ2
 
เอกสารเสนอ คณะอนุกรรมการ นโยบายและผลกระทบเกี่ยวกับ ธุรกรรมอิเล็กทรอนิกส์ Fram...
เอกสารเสนอ คณะอนุกรรมการ นโยบายและผลกระทบเกี่ยวกับ ธุรกรรมอิเล็กทรอนิกส์ Fram...เอกสารเสนอ คณะอนุกรรมการ นโยบายและผลกระทบเกี่ยวกับ ธุรกรรมอิเล็กทรอนิกส์ Fram...
เอกสารเสนอ คณะอนุกรรมการ นโยบายและผลกระทบเกี่ยวกับ ธุรกรรมอิเล็กทรอนิกส์ Fram...
 
Ch2 ระบบสารสนเทศ
Ch2 ระบบสารสนเทศCh2 ระบบสารสนเทศ
Ch2 ระบบสารสนเทศ
 
Introduction to Data Mining and Big Data Analytics
Introduction to Data Mining and Big Data AnalyticsIntroduction to Data Mining and Big Data Analytics
Introduction to Data Mining and Big Data Analytics
 
01 introduction to data mining
01 introduction to data mining01 introduction to data mining
01 introduction to data mining
 
New Technology for Information Services
New Technology for Information ServicesNew Technology for Information Services
New Technology for Information Services
 
Ch2 องค์การและระบบสารสนเทศ
Ch2 องค์การและระบบสารสนเทศCh2 องค์การและระบบสารสนเทศ
Ch2 องค์การและระบบสารสนเทศ
 
แนวโน้มของเทคโนโลยีสารสนเทศ ในอนาคตและการพัฒนา ระบบสารสนเทศเพื่อรองรับ การทำธ...
แนวโน้มของเทคโนโลยีสารสนเทศ ในอนาคตและการพัฒนา ระบบสารสนเทศเพื่อรองรับ การทำธ...แนวโน้มของเทคโนโลยีสารสนเทศ ในอนาคตและการพัฒนา ระบบสารสนเทศเพื่อรองรับ การทำธ...
แนวโน้มของเทคโนโลยีสารสนเทศ ในอนาคตและการพัฒนา ระบบสารสนเทศเพื่อรองรับ การทำธ...
 
Data mining
Data   miningData   mining
Data mining
 
บทที่ 1-ความรู้เบื้องต้นเกี่ยวกับเทคโนโลยีสารสนเทศ
บทที่ 1-ความรู้เบื้องต้นเกี่ยวกับเทคโนโลยีสารสนเทศบทที่ 1-ความรู้เบื้องต้นเกี่ยวกับเทคโนโลยีสารสนเทศ
บทที่ 1-ความรู้เบื้องต้นเกี่ยวกับเทคโนโลยีสารสนเทศ
 
Advanced Predictive Modeling with R and RapidMiner Studio 7
Advanced Predictive Modeling with R and RapidMiner Studio 7Advanced Predictive Modeling with R and RapidMiner Studio 7
Advanced Predictive Modeling with R and RapidMiner Studio 7
 
งาน Ppt 6401
งาน Ppt 6401 งาน Ppt 6401
งาน Ppt 6401
 
Chapter 2 : Data Management
Chapter 2 : Data ManagementChapter 2 : Data Management
Chapter 2 : Data Management
 
Introduction to Data Mining and Big Data Analytics
Introduction to Data Mining and Big Data AnalyticsIntroduction to Data Mining and Big Data Analytics
Introduction to Data Mining and Big Data Analytics
 
Data manipulation with RapidMiner Studio 7
Data manipulation with RapidMiner Studio 7Data manipulation with RapidMiner Studio 7
Data manipulation with RapidMiner Studio 7
 
02 ความรู้เบื้องต้นฐานข้อมูล
02 ความรู้เบื้องต้นฐานข้อมูล02 ความรู้เบื้องต้นฐานข้อมูล
02 ความรู้เบื้องต้นฐานข้อมูล
 
First Step to Big Data
First Step to Big DataFirst Step to Big Data
First Step to Big Data
 
เทคโนให้รู้
เทคโนให้รู้เทคโนให้รู้
เทคโนให้รู้
 

En vedette

Cloud computing in Thailand
Cloud computing in ThailandCloud computing in Thailand
Cloud computing in ThailandValiente Veera
 
การประยุกต์ใช้ Cloud Computing กับงานสารสนเทศ
การประยุกต์ใช้ Cloud Computing กับงานสารสนเทศการประยุกต์ใช้ Cloud Computing กับงานสารสนเทศ
การประยุกต์ใช้ Cloud Computing กับงานสารสนเทศTeerapuch Kassakul
 
หนังสือภาษาไทย Spark Internal
หนังสือภาษาไทย Spark Internalหนังสือภาษาไทย Spark Internal
หนังสือภาษาไทย Spark InternalBhuridech Sudsee
 
เทคโนโลยีเหนือเมฆ Cloud Computing
เทคโนโลยีเหนือเมฆ Cloud Computingเทคโนโลยีเหนือเมฆ Cloud Computing
เทคโนโลยีเหนือเมฆ Cloud ComputingPrachyanun Nilsook
 
On Big Data Analytics - opportunities and challenges
On Big Data Analytics - opportunities and challengesOn Big Data Analytics - opportunities and challenges
On Big Data Analytics - opportunities and challengesPetteri Alahuhta
 
Real_Estate_Script
Real_Estate_ScriptReal_Estate_Script
Real_Estate_ScriptJeff Kent
 
Industrial report on fairness cream
Industrial report on fairness creamIndustrial report on fairness cream
Industrial report on fairness creamKumari Pswn
 
The beatles
The beatlesThe beatles
The beatlesroxalunx
 
Skal International Sunshine Coast National Assembly Sep 2015
Skal International Sunshine Coast National Assembly Sep 2015Skal International Sunshine Coast National Assembly Sep 2015
Skal International Sunshine Coast National Assembly Sep 2015Joanne Skinner
 
Qcl 15-v4 [challenge-no 4 pareto graph]_[imnu]_[shubham gupta]
Qcl 15-v4 [challenge-no 4  pareto graph]_[imnu]_[shubham gupta]Qcl 15-v4 [challenge-no 4  pareto graph]_[imnu]_[shubham gupta]
Qcl 15-v4 [challenge-no 4 pareto graph]_[imnu]_[shubham gupta]shubham gupta
 
Jonathan M Edgecombe_Resume_March 9 2015 (1)new2015
Jonathan M Edgecombe_Resume_March 9 2015 (1)new2015Jonathan M Edgecombe_Resume_March 9 2015 (1)new2015
Jonathan M Edgecombe_Resume_March 9 2015 (1)new2015Jonathan Edgecombe
 
X-breikki 1.-2. luokkalaisille/Ypi
X-breikki 1.-2. luokkalaisille/YpiX-breikki 1.-2. luokkalaisille/Ypi
X-breikki 1.-2. luokkalaisille/YpiKirsi Autio
 
A time energy performance analysis of map reduce on heterogeneous systems wit...
A time energy performance analysis of map reduce on heterogeneous systems wit...A time energy performance analysis of map reduce on heterogeneous systems wit...
A time energy performance analysis of map reduce on heterogeneous systems wit...newmooxx
 

En vedette (20)

Cloud computing in Thailand
Cloud computing in ThailandCloud computing in Thailand
Cloud computing in Thailand
 
e-Government Cloud Computing
e-Government Cloud Computinge-Government Cloud Computing
e-Government Cloud Computing
 
Thailand data center landscape
Thailand data center landscapeThailand data center landscape
Thailand data center landscape
 
การประยุกต์ใช้ Cloud Computing กับงานสารสนเทศ
การประยุกต์ใช้ Cloud Computing กับงานสารสนเทศการประยุกต์ใช้ Cloud Computing กับงานสารสนเทศ
การประยุกต์ใช้ Cloud Computing กับงานสารสนเทศ
 
หนังสือภาษาไทย Spark Internal
หนังสือภาษาไทย Spark Internalหนังสือภาษาไทย Spark Internal
หนังสือภาษาไทย Spark Internal
 
เทคโนโลยีเหนือเมฆ Cloud Computing
เทคโนโลยีเหนือเมฆ Cloud Computingเทคโนโลยีเหนือเมฆ Cloud Computing
เทคโนโลยีเหนือเมฆ Cloud Computing
 
On Big Data Analytics - opportunities and challenges
On Big Data Analytics - opportunities and challengesOn Big Data Analytics - opportunities and challenges
On Big Data Analytics - opportunities and challenges
 
Big Data
Big DataBig Data
Big Data
 
STCW Certificates
STCW CertificatesSTCW Certificates
STCW Certificates
 
Real_Estate_Script
Real_Estate_ScriptReal_Estate_Script
Real_Estate_Script
 
第2回プログラミングカフェ_テキスト
第2回プログラミングカフェ_テキスト第2回プログラミングカフェ_テキスト
第2回プログラミングカフェ_テキスト
 
Industrial report on fairness cream
Industrial report on fairness creamIndustrial report on fairness cream
Industrial report on fairness cream
 
The beatles
The beatlesThe beatles
The beatles
 
第3回プログラミングカフェ_テキスト
第3回プログラミングカフェ_テキスト第3回プログラミングカフェ_テキスト
第3回プログラミングカフェ_テキスト
 
Skal International Sunshine Coast National Assembly Sep 2015
Skal International Sunshine Coast National Assembly Sep 2015Skal International Sunshine Coast National Assembly Sep 2015
Skal International Sunshine Coast National Assembly Sep 2015
 
Resume1 -Team leader
Resume1 -Team leaderResume1 -Team leader
Resume1 -Team leader
 
Qcl 15-v4 [challenge-no 4 pareto graph]_[imnu]_[shubham gupta]
Qcl 15-v4 [challenge-no 4  pareto graph]_[imnu]_[shubham gupta]Qcl 15-v4 [challenge-no 4  pareto graph]_[imnu]_[shubham gupta]
Qcl 15-v4 [challenge-no 4 pareto graph]_[imnu]_[shubham gupta]
 
Jonathan M Edgecombe_Resume_March 9 2015 (1)new2015
Jonathan M Edgecombe_Resume_March 9 2015 (1)new2015Jonathan M Edgecombe_Resume_March 9 2015 (1)new2015
Jonathan M Edgecombe_Resume_March 9 2015 (1)new2015
 
X-breikki 1.-2. luokkalaisille/Ypi
X-breikki 1.-2. luokkalaisille/YpiX-breikki 1.-2. luokkalaisille/Ypi
X-breikki 1.-2. luokkalaisille/Ypi
 
A time energy performance analysis of map reduce on heterogeneous systems wit...
A time energy performance analysis of map reduce on heterogeneous systems wit...A time energy performance analysis of map reduce on heterogeneous systems wit...
A time energy performance analysis of map reduce on heterogeneous systems wit...
 

Similaire à Big data

BigData และการนำมาใช้BigData และการนำมาใช้
BigData และการนำมาใช้BigData และการนำมาใช้BigData และการนำมาใช้BigData และการนำมาใช้
BigData และการนำมาใช้BigData และการนำมาใช้SUMETRATPRACHUM1
 
นิตยสาร IT Trends ของ IMC Institute ฉบับที่ 10
นิตยสาร IT Trends ของ  IMC Institute  ฉบับที่ 10นิตยสาร IT Trends ของ  IMC Institute  ฉบับที่ 10
นิตยสาร IT Trends ของ IMC Institute ฉบับที่ 10IMC Institute
 
ข้อมูลและสารสนเทศ ppt
ข้อมูลและสารสนเทศ pptข้อมูลและสารสนเทศ ppt
ข้อมูลและสารสนเทศ pptLatae Chutipas
 
Data infor 1
Data infor 1Data infor 1
Data infor 1paween
 
Chapter3 typeof informationsystem
Chapter3 typeof informationsystemChapter3 typeof informationsystem
Chapter3 typeof informationsystemthanapat yeekhaday
 
Technology2
Technology2Technology2
Technology2vizaa
 
บทที่ 3 เทคโนโลยีสารสนเทศ
บทที่ 3 เทคโนโลยีสารสนเทศบทที่ 3 เทคโนโลยีสารสนเทศ
บทที่ 3 เทคโนโลยีสารสนเทศWanphen Wirojcharoenwong
 
ความรู้เบื้องต้นเกี่ยวกับการวิเคราะห์ระบบ
ความรู้เบื้องต้นเกี่ยวกับการวิเคราะห์ระบบความรู้เบื้องต้นเกี่ยวกับการวิเคราะห์ระบบ
ความรู้เบื้องต้นเกี่ยวกับการวิเคราะห์ระบบCC Nakhon Pathom Rajabhat University
 

Similaire à Big data (20)

Mi sch1
Mi sch1Mi sch1
Mi sch1
 
Mi sch1
Mi sch1Mi sch1
Mi sch1
 
Mis 1
Mis 1Mis 1
Mis 1
 
บทที่ 1
บทที่ 1บทที่ 1
บทที่ 1
 
บทที่ 1
บทที่ 1บทที่ 1
บทที่ 1
 
1intro information system
1intro information system1intro information system
1intro information system
 
BigData และการนำมาใช้BigData และการนำมาใช้
BigData และการนำมาใช้BigData และการนำมาใช้BigData และการนำมาใช้BigData และการนำมาใช้
BigData และการนำมาใช้BigData และการนำมาใช้
 
Data Governance
Data GovernanceData Governance
Data Governance
 
นิตยสาร IT Trends ของ IMC Institute ฉบับที่ 10
นิตยสาร IT Trends ของ  IMC Institute  ฉบับที่ 10นิตยสาร IT Trends ของ  IMC Institute  ฉบับที่ 10
นิตยสาร IT Trends ของ IMC Institute ฉบับที่ 10
 
ข้อมูลและสารสนเทศ ppt
ข้อมูลและสารสนเทศ pptข้อมูลและสารสนเทศ ppt
ข้อมูลและสารสนเทศ ppt
 
20190220 digital-archives
20190220 digital-archives20190220 digital-archives
20190220 digital-archives
 
Data infor 1
Data infor 1Data infor 1
Data infor 1
 
Chapter3 typeof informationsystem
Chapter3 typeof informationsystemChapter3 typeof informationsystem
Chapter3 typeof informationsystem
 
Management information
Management informationManagement information
Management information
 
Technology2
Technology2Technology2
Technology2
 
บทที่ 3 เทคโนโลยีสารสนเทศ
บทที่ 3 เทคโนโลยีสารสนเทศบทที่ 3 เทคโนโลยีสารสนเทศ
บทที่ 3 เทคโนโลยีสารสนเทศ
 
ความรู้เบื้องต้นเกี่ยวกับการวิเคราะห์ระบบ
ความรู้เบื้องต้นเกี่ยวกับการวิเคราะห์ระบบความรู้เบื้องต้นเกี่ยวกับการวิเคราะห์ระบบ
ความรู้เบื้องต้นเกี่ยวกับการวิเคราะห์ระบบ
 
03 kanchit-malaivong-royin-20190828
03 kanchit-malaivong-royin-2019082803 kanchit-malaivong-royin-20190828
03 kanchit-malaivong-royin-20190828
 
R&D in Technology for Botanical Garden
R&D in Technology for Botanical GardenR&D in Technology for Botanical Garden
R&D in Technology for Botanical Garden
 
ด.ญ.ชุติกาญจน์ ประยูร ม.201pwp
ด.ญ.ชุติกาญจน์ ประยูร ม.201pwpด.ญ.ชุติกาญจน์ ประยูร ม.201pwp
ด.ญ.ชุติกาญจน์ ประยูร ม.201pwp
 

Big data

  • 2.
  • 3.
  • 5. Big Data คืออะไร • Big Data คือ ปริมาณข้อมูลที่มีขนาดใหญ่มหาศาลเกิน กว่าขีดความสามารถในการประมวลผลของระบบฐานข้อมูล ธรรมดาจะรองรับได้ ปริมาณข้อมูลที่มีขนาดใหญ่มากๆ จะ มีอัตราการเพิ่มขึ้นของข้อมูลเป็นไปอย่างรวดเร็วมาก และ เป็นรูปแบบที่ไม่มีโครงสร้าง (Unstructured) ซึ่งไม่ สามารถที่จะจัดการด้วยเครื่องมือที่มีอยู่ หรือเครื่องมือแบบ เดิมๆ ได้อีกต่อไป
  • 6.
  • 7. ลักษณะพิเศษของ Big Data Volume Velocity Variety คือข้อมูลมหาศาลขนาด ใหญ่ มีจำนวนมากเกิน กว่าระบบฐาน ข้อมูลแบบ เดิมๆ จะสามารถที่จะ จัดการได้ ข้อมูลที่มีความหลาก หลายทั้งที่เป็นแบบ โครงสร้างหรือรูปแบบที่ ไม่แน่นอน ข้อมูลที่ต้องวิเคราะห์เข้าสู่ ระบบฐานข้อมูลอย่าง รวดเร็ว โดยให้ความ สำคัญกับข้อมูลที่เป็น Real-time
  • 8. ตัวอย่างข้อมูล Big Data • ข้อมูลเครือข่ายสังคม • ข้อมูลการบริการทางเว็บ • ข้อมูลธุรกรรมทางธนาคาร • ข้อมูลการสื่อสารจากโทรศัพท์เคลื่อนที่ • ข้อมูลภาพถ่ายดาวเทียม • ข้อมูลสภาพอากาศ
  • 9. ทำไมต้องสนใจ Big Data • ปัจจุบันเรามีข้อมูลที่หลายหลายรูปแบบ ปริมาณเยอะมาก ถ้าเราเก็บไว้โดยที่ไม่ทำอะไรก็ไม่เกิดประโยชน์ แต่ถ้านำ เอาเทคนิคความรู้ในด้าน Big Data เข้ามาช่วย นำข้อมูลที่ มีปริมาณเยอะมาประมวลผล วิเคราะห์ และนำข้อมูลเหล่า นั้นไปใช้ให้เกิดประโยชน์
  • 10.
  • 11. Apache Hadoop • ซอฟแวร์ที่สำคัญที่มีการนำมาใช้กันมากในระบบ Big data คือ Hadoop เพราะ Hadoop เป็น Open Source Technology พัฒนาขึ้นด้วยภาษา Java ที่จะทำหน้าที่เป็น Distributed Storage ที่สามารถเก็บข้อมูลขนาดใหญ่ที่ เป็น Unstructure และนำมาประมวลผลได้ โดยองค์ประ กอบหลักๆของ Hadoop จะประกอบด้วย Hadoop Dustributed File System (HDFS) และ MapReduce ใช้สำหรับประมวลผลข้อมูลที่มีขนาดใหญ่บน cluster ได้
  • 13.
  • 14. • เป็นการบวนการที่ใช้สำหรับการแบ่ง input data ให้มี ขนาดเล็กลง แล้วส่งไปประมวลผลยัง node อื่นๆ ที่อยู่ใน cluster เมื่อประมวลผลเสร็จแล้วจึงนำผลลัพธ์ที่ได้กลับมา ลดขนาด แล้วส่ง output data กลับมา
  • 16. • เป็น Distribute File System รูปแบบหนึ่ง ออกแบบมาเพื่อ ใช้งานกับ Hadoop application โดยเฉพาะ ใช้สำหรับ ข้อมูลขนาดใหญ่ ระดับ tera byte หรือ petra byte ขึ้นไป การจัดเก็บข้อมูลจะใช้ “รูปแบบของการกระ จาย” (distributed storage) คือการการจายไปเก็บยัง node อื่นๆ จะมีความสามารถในการทำสำเนาเองโดย อัตโนมัติทำให้มีความน่าเชื่อถือสูง เพราะสามารถป้องกัน ความผิดพลาดข้อมูลที่จะเกิดขึ้นได้
  • 17.
  • 18. ตัวอย่างผู้ที่ใช้งาน Hadoop • Facebook นั้นมี Apache Hadoop Cluster 2 ชุด ชุด แรกประกอบจาก Server จำนวน 1100 เครื่อง , CPU 8800 Core และพื้นที่ 12PB และชุดที่สองประกอบจาก Server จำนวน 300 เครื่อง , CPU 2400 Core และพื้นที่ 3PB • Yahoo นั้นใช้ Server มากกว่า 40000 เครื่อง , CPU มากกว่า 100000 ชุดสำหรับรองรับระบบ Ads และ Web Search
  • 20. Apache Spark • เริ่มต้นที่ UC Berkeley ในปี คศ. 2009 เป็นระบบประมวล ผลบน Cluster ซึ่งทำ MapReduce in memory ได้เร็ว ซึ่ง เร็วกว่า Hadoop MapReduce กว่า 10 เท่าเนื่องจาก Hadoop ทำงานบน Disk
  • 22. RDD • Resilient Distributed Dataset เป็นการกระจายข้อมูล ข้ามเครื่องไปสู่ worker ต่างๆ โดยระบบสามารถตรวจสอบ ได้ว่า worker ตัวไหนตายไประหว่างทำงาน Cluster Manager สามารถโอนงานไปให้ worker ตัวอื่นทำต่อได้ แล้วยังได้ผลลัพธ์ที่ถูกต้องเหมือนเดิม