Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

Big data

1 383 vues

Publié le

Big Data: A Business and Legal Guide
James R. Kalyvas and Michael R. Overly
CRC Press, 2015

Publié dans : Données & analyses

Big data

  1. 1. พันเอก มารวย ส่งทานินทร์ maruays@hotmail.com 9 กรกฎาคม 2558
  2. 2. James R. Kalyvas and Michael R. Overly CRC Press, 2015 Big Data will materially change the way businesses and organizations make decisions ข้อมูลขนาดใหญ่ จะเป็นสาระสาคัญต่อการเปลี่ยนแปลงการตัดสินใจ ของธุรกิจและองค์กร
  3. 3. ข้อมูลขนาดใหญ่ สาหรับผู้บริหาร  บทความนี้ เป็นการอธิบายคาว่า ข้อมูลขนาดใหญ่ (Big Data) ใน ภาษาคนธรรมดา (จากมุมมองของคนไม่มีความรู้ด้านเทคนิค) ถึงลักษณะที่แตกต่างจากข้อมูลขนาดใหญ่ กับรูปแบบฐานข้อมูล แบบดั้งเดิม ว่า  1. อะไรคือข้อมูลขนาดใหญ่? และลักษณะของข้อมูลขนาดใหญ่ (ปริมาณ ความแตกต่าง ความเร็ว และการตรวจสอบ)  2. แนวคิดการทางานข้ามสายงาน ทักษะใหม่ และการลงทุน  3. วิธีการแสวงหาข้อมูลที่เกี่ยวข้อง  4. พื้นฐานของการทางานด้านเทคโนโลยีของข้อมูลขนาดใหญ่
  4. 4. เกริ่นนา  ทุกวันนี้ มีการหารือถึงความสาคัญที่เพิ่มขึ้ นและเร่งด่วน ของ "ข้อมูลขนาด ใหญ่" (Big Data) ในห้องประชุมคณะกรรมการบริหาร การประชุมเชิงกลยุทธ์ และการดาเนินงานอื่น ๆ ขององค์กรทั่วโลก  มีข้อสังเกตว่า ผู้บริหาร ผู้จัดการ และที่ปรึกษา อาจจะมีความเข้าใจที่แตกต่าง กันมาก ในสิ่งที่เป็นข้อมูลขนาดใหญ่ เมื่อเทียบกับนักเทคโนโลยีและ นักวิทยาศาสตร์ข้อมูล ที่อยู่ในองค์กรของพวกเขา  ความเข้าใจที่แตกต่างกันเหล่านี้ มาจากการขาดคานิยามที่ได้รับการยอมรับ ของข้อมูลขนาดใหญ่ ทาให้เกิดความเข้าใจร่วมกันน้อยมากระหว่างผู้บริหาร ผู้จัดการ และที่ปรึกษา ที่ไม่ได้มีส่วนเกี่ยวข้องกับเทคโนโลยีการทางานของ ข้อมูลขนาดใหญ่ในชีวิตประจาวัน
  5. 5. 1. อะไรคือข้อมูลขนาดใหญ่?  ข้อมูลขนาดใหญ่ เป็นกระบวนการส่งมอบข้อมูลเชิงลึกที่ใช้ในการ ตัดสินใจ โดยการใช้คนและเทคโนโลยีวิเคราะห์ข้อมูลจานวนมาก ที่แตกต่างกัน ได้อย่างรวดเร็ว (ของข้อมูลที่มีโครงสร้างแบบ ดั้งเดิม และข้อมูลที่ไม่มีโครงสร้าง เช่น รูปภาพ วิดีโอ อีเมล์ ข้อมูลการทาธุรกรรม และปฏิสัมพันธ์สื่อสังคม) จากความ หลากหลายของแหล่งที่มา ในการผลิตกระแสความรู้ที่สามารถ นามาใช้ในการดาเนินการได้
  6. 6. นิยามที่ใช้อ้างอิงบ่อย  "ข้อมูลขนาดใหญ่" หมายถึงชุดข้อมูลที่มีขนาดเกินกว่า ความสามารถของซอฟต์แวร์ฐานข้อมูลทั่วไปที่จะ บันทึก จัดเก็บ จัดการ และวิเคราะห์ (McKinsey Global Institute)  ข้อมูลขนาดใหญ่ คือสินทรัพย์ทางสารสนเทศที่มีปริมาณสูง ความเร็วสูง และความหลากหลายสูง ต้องอาศัยค่าใช้จ่ายที่มี ประสิทธิภาพและนวัตกรรมรูปแบบใหม่ของการประมวลผล ข้อมูล เพื่อความเข้าใจที่ดีขึ้น และใช้ในการตัดสินใจ (Gartner. IT Glossary. 2013)
  7. 7. ลักษณะของข้อมูลขนาดใหญ่  ในการอภิปรายของ ข้อมูลขนาดใหญ่ มักมีการอ้างอิงถึง "3 Vs" คือ ปริมาณ (Volume) ความเร็ว (Velocity) และลักษณะความ หลากหลาย (Variety) ของข้อมูลขนาดใหญ่  พูดง่ายๆ คือ ปริมาณ (ปริมาณของข้อมูล) ความเร็ว (ความเร็ว ในการประมวลผล และการเปลี่ยนแปลงของข้อมูล) และ ความ หลากหลาย (แหล่งที่มาของข้อมูล และชนิดของข้อมูล) เป็น ลักษณะที่โดดเด่นที่สุดของข้อมูลขนาดใหญ่ ต่างกับวิธีการแบบ ดั้งเดิมที่ใช้ในการบันทึก จัดเก็บ จัดการ และวิเคราะห์ข้อมูล
  8. 8. ปริมาณ  ปริมาณของข้อมูล เพิ่มขึ้ นอย่างรวดเร็วตั้งแต่ปี 2004 โดยในปี 2004 จานวนของข้อมูลที่เก็บไว้บนอินเทอร์เน็ตมีทั้งหมด 1 petabyte (1,000 terabytes) เทียบเท่ากับ 100 ปี ของเนื้ อหาโทรทัศน์ทั้งหมด  ในปี 2011 จานวนรวมของข้อมูลทั่วโลกที่เก็บไว้ด้วยระบบอิเล็กทรอนิกส์ คือ 1 Zettabyte (1,000,000 petabytes หรือ 36 ล้านปี ของวิดีโอความ ละเอียดสูง [HD]) โดยในปี 2015 ตัวเลขคาดว่าจะถึง 7.9 zettabytes (หรือ 7,900,000 petabytes)  ขนาดของชุดข้อมูลที่มีการใช้งานอย่างต่อเนื่อง มีการเจริญเติบโตแซงหน้า ความสามารถของเครื่องมือแบบดั้งเดิม ในการบันทึก จัดเก็บ จัดการ และ วิเคราะห์ข้อมูล
  9. 9. ความหลากหลาย  ข้อมูลขนาดใหญ่ เป็นการรวมของข้อมูลที่เก็บไว้ในฐานข้อมูลของ ข้อมูลที่ มีโครงสร้างแบบดั้งเดิม (structured databases) และข้อมูลใหม่ที่ทีที่มาจาก แหล่ง ข้อมูลแบบที่ไม่มีโครงสร้าง (unstructured data)  ข้อมูลที่ไม่มีโครงสร้างรวมถึง ข้อมูลที่ไม่ได้มีโครงสร้าง (เช่น Facebook, Twitter, Instagram และ Tumblr) ที่มีการเติบโตอย่างรวดเร็วของ ภาพ วิดีโอ ข้อมูลการเฝ้าระวัง ข้อมูลจากเซ็นเซอร์ ข้อมูลศูนย์โทรศัพท์ ข้อมูลตาแหน่ง ทางภูมิศาสตร์ ข้อมูลสภาพอากาศ ข้อมูลทางเศรษฐกิจ ข้อมูลของรัฐบาล รายงานการวิจัย แนวโน้มการค้นหาอินเทอร์เน็ต และ web log files  ทุกวันนี้ กว่า 95% ของข้อมูลทั้งหมดที่มีอยู่ทั่วโลก คาดว่าจะเป็นข้อมูล แบบที่ไม่มีโครงสร้าง
  10. 10. ความเร็ว  จานวนที่เพิ่มมากขึ้นอย่างรวดเร็วของข้อมูลที่ไม่มีโครงสร้าง มา จากตัวเลขของกระแสการเติบโตแบบก้าวกระโดด ผ่านทาง อินเทอร์เน็ตอย่างต่อเนื่อง  ความเร็วของข้อมูลเหล่านี้ จะต้องได้รับการจัดเก็บและวิเคราะห์ ด้วยลักษณะที่ถือว่า เป็นความเร็วของข้อมูลขนาดใหญ่
  11. 11. การตรวจสอบ (Validation เป็น V ที่สี่)  กลยุทธ์ข้อมูลขนาดใหญ่ขององค์กร จะต้องมีขั้นตอนการ ตรวจสอบ (validation step) และมีการหยุดที่เหมาะสมในการ วิเคราะห์ เพื่อประเมินผลกระทบต่อกฎหมาย ระเบียบข้อบังคับ หรือภาระผูกพันตามสัญญา ของ  สถาปัตยกรรมของระบบข้อมูลขนาดใหญ่  การออกแบบขั้นตอนวิธีการค้นหาข้อมูลขนาดใหญ่  การดาเนินการบนพื้นฐานของข้อมูลเชิงลึกที่ได้มา  การจัดเก็บและการกระจายของผลลัพธ์และข้อมูล
  12. 12. 2. แนวทางการทางานข้ามสายงาน ทักษะใหม่ และการลงทุน  องค์กรที่ต้องการใช้ประโยชน์จากข้อมูลขนาดใหญ่ในการ ดาเนินงาน ต้องพัฒนาทีมข้ามสายงานที่มีความรู้ลึกของธุรกิจที่มี การใช้เทคโนโลยี  องค์ประกอบที่สาคัญของทีมเหล่านี้ คือ นักวิทยาศาสตร์ข้อมูล (data scientist) ไม่ว่าจะเป็นพนักงานหรือผู้รับจ้างเหมา เพื่อสกัด ข้อมูลเชิงลึกทางธุรกิจของข้อมูลขนาดใหญ่สาหรับองค์กร (เช่น การสั่งซื้ อ และความรู้จากความวุ่นวายของข้อมูลขนาดใหญ่)
  13. 13.  นักวิทยาศาสตร์ข้อมูล เป็นนักคิดหลายมิติที่ทางานได้อย่างมี ประสิทธิภาพ ในการพูดคุยเกี่ยวกับปัญหาทางธุรกิจด้วยภาษา ธุรกิจ ในขณะที่อยู่ในระดับยอดของเทคโนโลยี การศึกษาสถิติ และประสบการณ์  นักวิทยาศาสตร์ข้อมูล ไม่ได้เป็นเพียงผู้เชี่ยวชาญเฉพาะเรื่องที่ จาเป็นในการออกแบบกลยุทธ์ข้อมูลขนาดใหญ่ แต่มีบทบาท สาคัญที่จะทางานร่วมกับผู้เชี่ยวชาญเรื่องธุรกิจขององค์กร เช่น สถาปนิกและนักวิเคราะห์ข้อมูล ทีมโครงสร้างพื้นฐานด้าน เทคโนโลยี ด้านการจัดการ และด้านอื่น ๆ ที่จะส่งมอบข้อมูลเชิง ลึกของข้อมูลขนาดใหญ่
  14. 14. 3. การแสวงหาข้อมูลที่เกี่ยวข้อง  องค์กรจะต้องเข้าถึงข้อมูลที่เกี่ยวข้องกับวัตถุประสงค์ ที่พวกเขา พยายามจะให้ประสบความสาเร็จ ด้วยข้อมูลขนาดใหญ่  ข้อมูลนี้ สามารถนามาจากแหล่งใด ๆ ก็ได้ รวมทั้งจากฐานข้อมูล ที่มีอยู่ทั่วทั้งองค์กร หรือจากระบบจัดเก็บข้อมูลภายใน หรือ ระยะไกลโดยตรงจากแหล่งข้อมูลสาธารณะบนอินเทอร์เน็ต หรือ จากรัฐบาล หรือสมาคมการค้าโดยใบอนุญาตจากบุคคลที่สาม หรือจากข้อมูลของบุคคลที่สาม หรือผู้ให้บริการที่รวบรวมจาก ระยะไกล และเจ้าของแหล่งที่มาของข้อมูล
  15. 15. 4. พื้นฐานการทางานทางเทคโนโลยีของข้อมูลขนาดใหญ่  โดยอาศัยตัวเลขการเติบโตของการแก้ปัญหาแบบเปิด (ที่เปิดเผย ต่อสาธารณชนโดยไม่ต้องเสียค่าใช้จ่าย) และข้อมูลขนาดใหญ่บน แพลตฟอร์มการวิเคราะห์ ที่มีอยู่เพื่อผู้ประกอบการ  Hadoop (ชื่อตุ๊กตาสัตว์ ของเด็กของหนึ่งในผู้สร้าง) เป็นกรอบเปิด (open-source framework) ที่นิยม ประกอบด้วยเครื่องมือซอฟแวร์ จานวนมาก ที่ใช้ในการดาเนินการวิเคราะห์ข้อมูลขนาดใหญ่
  16. 16.  Hadoop จะทาการกระจายข้อมูลที่มีขนาดใหญ่มาก โดยแบ่ง ออกเป็นชิ้นเล็ก ๆ เพื่อให้มีการจัดการได้ง่ายขึ้น  Hadoop ทางานโดยการเชื่อมต่อเครื่องคอมพิวเตอร์จานวนมากที่มี ขนาดเล็กและราคาที่ต่ากว่าเข้าด้วยกัน ในการทางานแบบคู่ขนาน เป็นกลุ่มคอมพิวเตอร์ (computing cluster) ที่มีประสิทธิภาพ  Hadoop จะกระจายข้อมูลโดยอัตโนมัติให้คอมพิวเตอร์ทุกเครื่อง ในกลุ่ม ดังนั้นจึงไม่มีความจาเป็นที่จะต้องรวมข้อมูลบนเครือข่าย การจัดเก็บข้อมูลแบบพื้นที่ (SAN - storage-area network)
  17. 17.  ในขณะเดียวกันที่ข้อมูลถูกกระจาย บล็อกของข้อมูลแต่ละอัน จะ ถูกจาลองลงในคอมพิวเตอร์อีกหลายตัวในกลุ่ม  Hadoop จะย่อยงานเป็นชิ้น ๆ จานวนมากลงในคอมพิวเตอร์ และ โดยการลงข้อมูลที่มีอยู่บนคอมพิวเตอร์หลายเครื่อง เป็นการลด โอกาสที่ข้อมูลไม่สามารถเรียกใช้ได้เมื่อมีเหตุจาเป็ น  แต่ละคุณสมบัติเหล่านี้ จึงทาให้มีประสิทธิภาพมากกว่าเครื่อง คอมพิวเตอร์สถาปัตยกรรมแบบดั้งเดิม
  18. 18.  Hadoop คือการรวมกันของซอฟแวร์ขั้นสูงและฮาร์ดแวร์ คอมพิวเตอร์ ซึ่งมักจะเรียกว่า "เวที " หรือ platform ที่ทาให้ องค์กรที่มีวิธีการดาเนินการแบบ client application  โปรแกรมเหล่านี้ จะมุ่งเน้นไปที่ การเปิดเผยรูปแบบต่าง ๆ ความสัมพันธ์ที่ไม่เคยรู้จักมาก่อน และสารสนเทศที่เป็ นประโยชน์ อื่น ๆ (uncovering patterns, unknown correlations, and other useful information ) ซึ่งมีอยู่ในข้อมูลขนาดใหญ่ ที่ไม่เคยได้รับการ ระบุด้วยการใช้แบบจาลองข้อมูลเชิงสัมพันธ์แบบดั้งเดิม
  19. 19.  เมื่อคอมพิวเตอร์ในกลุ่ม ทาการประมวลผลที่ได้รับมอบหมาย เสร็จ ก็จะส่งผลลัพธ์และข้อมูลที่เกี่ยวข้องใด ๆ กลับไปที่ คอมพิวเตอร์ส่วนกลางแล้วของานอื่นต่อ  ผลลัพธ์ของแต่ละเรื่องและข้อมูล จะถูกประกอบโดยคอมพิวเตอร์ ส่วนกลาง เพื่อส่งกลับไปยังโปรแกรมไคลเอนต์ (client application) หรือเก็บไว้ในระบบไฟล์ของ Hadoop หรือฐานข้อมูล อื่น ๆ
  20. 20. สรุป  บทความนี้ อธิบายความหมายของคาว่า ข้อมูลขนาดใหญ่ (Big Data) และอภิปรายเทคโนโลยีที่ซับซ้อน ที่อยู่เบื้องหลังการทางาน ของข้อมูลขนาดใหญ่  แต่จุดประสงค์บทความนี้ ไม่ได้เป็นพิมพ์เขียวสาหรับการสร้าง แพลตฟอร์มของข้อมูลขนาดใหญ่ในองค์กร เพียงแต่ให้มีความ เข้าใจพื้นฐานร่วมกันว่า ข้อมูลขนาดใหญ่ หมายถึงอะไรเท่านั้น
  21. 21. Confucius

×