More Related Content Similar to Data mining (20) Data mining2. ข้อมูลที่ถูกเก็บไว้ในฐานข้อมูลหากเก็บไว้เฉย ๆ ก็จะไม่เกิดประโยชน์จึงต้องมีการ
คัดเลือกข้อมูลออกมาใช้งานส่วนที่เราต้องการ
ในอดีตเราใช้คนเป็ นผู้สืบค้นข้อมูลต่างๆ ในฐานข้อมูลซึ่งผู้สืบค้นจะทาการสร้าง
เงื่อนไขขึ้นมาตามภูมิปัญญาของผู้สืบค้น
ในปัจจุบันการวิเคราะห์ข้อมูลจากฐานข้อมูลอย่างเดียวอาจให้ความรู้ไม่เพียงพอ
สาหรับการดาเนินงานที่มีการแข่งขันสูงและมีการเปลี่ยนแปลงที่รวดเร็วจึงจาเป็นที่
จะต้องรวบรวมฐานข้อมูลหลาย ๆ ฐานข้อมูลเข้าด้วยกัน เรียกว่า “คลังข้อมูล” (Data
Warehouse) ดังนั้นเราจึงจาเป็ นต้องใช้ Data Mining ในการดึงข้อมูลจากฐานข้อมูล
ที่มีขนาดใหญ่ เพื่อที่จะนาข้อมูลนั่นมาใช้งานให้เกิดประโยชน์สูงที่สุด
ทำไมจึงต้อง DATA MINING
4. Data Cleaning เป็ นขั้นตอนสาหรับการคัดข้อมูลที่ไม่เกี่ยวข้องออกไป
Data Integration เป็ นขั้นตอนการรวมข้อมูลที่มีหลายแหล่งให้เป็นข้อมูลชุดเดียวกัน
Data Selection เป็ นขั้นตอนการดึงข้อมูลสาหรับการวิเคราะห์จากแหล่งที่บันทึก
Data Transformation เป็ นขั้นตอนการแปลงข้อมูลให้เหมาะสมสาหรับการใช้งาน
Data Mining เป็ นขั้นตอนการค้นหารูปแบบที่เป็นประโยชน์จากข้อมูลที่มีอยู่
Pattern Evaluation เป็ นขั้นตอนการประเมินรูปแบบที่ได้จากการทาเหมืองข้อมูล
Knowledge Representation เป็ นขั้นตอนการนาเสนอความรู้ที่ค้นพบ โดยใช้เทคนิค
ในการนาเสนอเพื่อให้เข้าใจ
ขั้นตอนกำรทำเหมืองข้อมูล
6. Database, Data Warehouse, World Wide Web และ Other Info Repositories เป็ น
แหล่งข้อมูลสาหรับการทาเหมืองข้อมูล
Database หรือ Data Warehouse Server ทาหน้าที่นาเข้าข้อมูลตามคาขอของผู้ใช้
Knowledge Base ได้แก่ ความรู้เฉพาะด้านในงานที่ทาจะเป็ นประโยชน์ต่อการสืบค้น หรือประเมิน
ความน่าสนใจของรูปแบบผลลัพธ์ที่ได้
Data Mining Engine เป็ นส่วนประกอบหลักประกอบด้วยโมดูลที่รับผิดชอบงานทาเหมืองข้อมูล
ประเภทต่างๆ ได้แก่ การหากฎความสัมพันธ์ การจาแนกประเภท การจัดกลุ่ม
Pattern Evaluation Module ทางานร่วมกับ Data Mining Engine โดยใช้มาตรวัดความน่าสนใจ
ในการกลั่นกรองรูปแบบผลลัทธ์ที่ได้ เพื่อให้การค้นหามุ่งเน้นเฉพาะรูปแบบที่น่าสนใจ
User Interface ส่วนติดต่อประสานระหว่างผู้ใช้กับระบบการทาเหมืองข้อมูล ช่วยให้ผู้ใช้สามารถ
ระบุงานทาเหมืองข้อมูลที่ต้องการทา ดูข้อมูลหรือโครงสร้างการจัดเก็บข้อมูล ประเมินผลลัพธ์ที่ได้
สถำปัตยกรรมของกำรทำเหมืองข้อมูล
7. Relational Database เป็ นฐานข้อมูลที่จัดเก็บอยู่ในรูปแบบของตาราง โดยในแต่ละตาราง
จะประกอบไปด้วยแถวและคอลัมน์ ความสัมพันธ์ของข้อมูลทั้งหมดสามารถแสดงได้โดย
Entity Relationship Model
Data Warehouses เป็ นการเก็บรวบรวมข้อมูลจากหลายแหล่งมาเก็บไว้ในรูปแบบเดียวกัน
และรวบรวมไว้ในที่ๆ เดียวกัน
Transactional Database ประกอบด้วยข้อมูลที่แต่ละทรานเเซกชันแทนด้วยเหตุการณ์
ในขณะใดขณะหนึ่ง เช่น ใบเสร็จรับเงิน จะเก็บข้อมูลในรูปชื่อลูกค้าและรายการสินค้าที่
ลูกค้ารายซื้อ
Advanced Database เป็ นฐานข้อมูลที่จัดเก็บในรูปแบบอื่นๆ เช่น ข้อมูลแบบ Object-
Oriented ข้อมูลที่เป็ น Text File ข้อมูลมัลติมีเดีย ข้อมูลในรูปของ Web
ประเภทข้อมูลที่ใช้ทำเหมืองข้อมูล
8. ข้อมูลขนาดใหญ่ เกินกว่าจะพิจารณาความสัมพันธ์ที่ซ่อนอยู่ภายในข้อมูลได้ด้วยตาเปล่า
หรือโดยการใช้ Database Management System ( DBMS ) ในการจัดการฐานข้อมูล
ข้อมูลที่มาจากหลายแหล่ง โดยอาจรวบรวมมาจากหลายระบบปฏิบัติการหรือหลาย DBMS
เช่น Oracle , DB2 , MS SQL , MS Access เป็ นต้น
ข้อมูลที่ไม่มีการเปลี่ยนแปลงตลอดช่วงเวลาที่ทาการ Mining หากข้อมูลที่มีอยู่นั้นเป็ นข้อมูล
ที่เปลี่ยนแปลงตลอดเวลาจะต้องแก้ปัญหานี้ก่อน โดยบันทึกฐานข้อมูลนั้นไว้และนา
ฐานข้อมูลที่บันทึกไว้มาทา Mining แต่เนื่องจากข้อมูลนั้นมีการเปลี่ยนแปลงอยู่ตลอดเวลา
จึงทาให้ผลลัพธ์ที่ได้จาการทา Mining สมเหตุสมผลในช่วงเวลาหนึ่งเท่านั้น ดังนั้นเพื่อให้
ได้ผลลัพธ์ที่มีความถูกต้องเหมาะสมอยู่ตลอดเวลาจึงต้องทา Mining ใหม่ทุกครั้งใน
ช่วงเวลาที่เหมาะสม
ข้อมูลที่มีโครงสร้างซับซ้อน เช่น ข้อมูลรูปภาพ ข้อมูลมัลติมีเดีย ข้อมูลเหล่านี้สามารถนามา
ทา Mining ได้เช่นกันแต่ต้องใช้เทคนิคการทา Data Mining ขั้นสูง
ลักษณะเฉพำะของข้อมูลที่ใช้ทำเหมืองข้อมูล
9. 1. Association rule Discovery
เป็ นเทคนิคหนึ่งของ Data Mining ที่สาคัญ และสามารถนาไปประยุกต์ใช้ได้จริงกับ
งานต่าง ๆ หลักการทางานของวิธีนี้ คือ การค้นหาความสัมพันธ์ของข้อมูลจากข้อมูลขนาดใหญ่
ที่มีอยู่เพื่อนาไปใช้ในการวิเคราะห์ หรือมากจากการวิเคราะห์การซื้อสินค้าของลูกค้าเรียกว่า “
Market Basket Analysis ” ซึ่งประเมินจากข้อมูลในตารางที่รวบรวมไว้ ผลการวิเคราะห์ที่ได้
จะเป็ นคาตอบของปัญหา ซึ่งการวิเคราะห์แบบนี้เป็ นการใช้ “ กฎควำมสัมพันธ์ ” (Association
Rule) เพื่อหาความสัมพันธ์ของข้อมูล
ตัวอย่ำงเช่น ระบบแนะนาหนังสือให้กับลูกค้าแบบอัตโนมัติ ของ SE-ED BOOK
คือ เมื่อลูกค้าที่ซื้อหนังสือ 1 เล่ม อาจจะซื้อหนังสือเล่มใดอีกเล่มหนึ่งพร้อมกันด้วยเสมอ
ความสัมพันธ์ที่ได้จากกระบวนการนี้สามารถนาไปใช้คาดเดาได้ว่าควรแนะนาหนังสือเล่มใด
เพิ่มเติมให้กับลูกค้าที่เพิ่งซื้อหนังสือจากร้านไป
เทคนิคต่ำงๆของกำรทำเหมืองข้อมูล
10. 1)โครงสร้ำงแบบต้นไม้ของ Decision Tree
เป็ นที่นิยมกันมากเนื่องจากเป็นลักษณะที่คนจานวนมากคุ้นเคย ทาให้เข้าใจได้
ง่าย มีลักษณะเหมือนแผนภูมิองค์กร โดยที่แต่ละ node แสดง attribute แต่ละกิ่ง
แสดงผลในการทดสอบ และleaf , nodeแสดงคลาสที่กาหนดไว้
เทคนิคต่ำงๆของกำรทำเหมืองข้อมูล
11. 2. Classification & Prediction
Classification
เป็ นกระบวนการสร้าง model จัดการข้อมูลให้อยู่ในกลุ่มที่กาหนดมาให้ ตัวอย่างเช่น
จัดกลุ่มนักเรียนว่า ดีมาก ดี ปานกลาง ไม่ดี โดยพิจารณาจากประวัติและผลการเรียน หรือแบ่ง
ประเภทของลูกค้าว่าเชื่อถือได้ หรือไม่โดยพิจารณาจากข้อมูลที่มีอยู่ กระบวนการ
classification นี้แบ่งออกเป็ น 3 ขั้นตอน ดังนี้
1. Model Construction (Learning) เป็ นขั้นการสร้าง model โดยการเรียนรู้จาก
ข้อมูลที่ได้กาหนดคลาสไว้เรียบร้อยแล้ว (Training data) ซึ่ง model ที่ได้อาจแสดงในรูปของ
เทคนิคต่ำงๆของกำรทำเหมืองข้อมูล
12. 2) หรือ Artificial Neural Networks (ANN)
เป็ นเทคโนโลยีที่มาจากงานวิจัยด้านปัญญาประดิษฐ์ Artificial Intelligence:
AI เพื่อใช้ในการคานวณค่าฟังก์ชันจากกลุ่มข้อมูล เป็ นวิธีการที่ให้เครื่องเรียนรู้จาก
ตัวอย่างต้นแบบ แล้วฝึ ก(train)ให้ระบบได้รู้จักที่จะคิดแก้ปัญหาที่กว้างขึ้นได้
โครงสร้างของNeural Net จะประกอบด้วย node สาหรับ Input – Output และ
การประมวลผล กระจายอยู่ในโครงสร้างเป็นชั้น ๆ ได้แก่ input layer , output layer
และ hidden layers การประมวลผลของ Neural Net จะอาศัยการส่งการทางานผ่าน
node ต่าง ๆ ใน layer เหล่านี้
เทคนิคต่ำงๆของกำรทำเหมืองข้อมูล
14. 2.Model Evaluation ( Accuracy )
เป็ นขั้นการประมาณความถูกต้องโดยอาศัยข้อมูลที่ใช้ทดสอบ ( testing
data ) ซึ่งคลาสที่แท้จริงของข้อมูลที่ใช้ทดสอบนี้จะถูกนามาเปรียบเทียบกับคลาสที่หา
มาได้จาก model เพื่อทดสอบความถูกต้อง
3.Model Usage ( Classification )
เป็ น Model สาหรับใช้ข้อมูลที่ไม่เคยเห็นมาก่อน ( unseen data ) โดยจะทา
การกาหนดคลาสให้กับ object ใหม่ที่ได้มา หรือ ทานายค่าออกมาตามที่ต้องการ
เทคนิคต่ำงๆของกำรทำเหมืองข้อมูล
16. 3. Database clustering หรือ Segmentation
เป็ นเทคนิคการลดขนาดของข้อมูลด้วยการรวมกลุ่มตัวแปรที่มีลักษณะเดียวกันไว้ด้วยกัน
ตัวอย่างเช่น บริษัทจาหน่ายรถยนต์ได้แยกกลุ่มลูกค้าออกเป็ น 3 กลุ่ม คือ
1.กลุ่มผู้มีรายได้สูง (>$80,000)
2.กลุ่มผู้มีรายได้ปานกลาง ($25,000 to $ 80,000)
3.กลุ่มผู้มีรายได้ต่า (less than $25,000)
และภายในแต่ละกลุ่มยังแยกออกเป็ น
-Have Children
-Married
-Last car is a used car
-Own cars
จากข้อมูลข้างต้นทาให้ทางบริษัทรู้ว่าเมื่อมีลูกค้าเข้ามาที่บริษัทควรจะเสนอขายรถประเภท
ใด เช่น ถ้าเป็ นกลุ่มผู้มีรายได้สูงควรจะเสนอรถใหม่ เป็ นรถครอบครัวขนาดใหญ่พอสมควร แต่ถ้าเป็ น
ผู้มีรายได้ค่อนข้างต่าควรเสนอรถมือสอง ขนาดค่อนข้างเล็ก
เทคนิคต่ำงๆของกำรทำเหมืองข้อมูล
18. 5. Link Analysis
จุดมุ่งหมายของ Link Analysis คือ การสร้าง link ที่รียกว่า
“ associations” ระหว่าง recode เดียว หรือ กลุ่มของ recode ใoฐานข้อมูล
link analysis สามารถแบ่งออกเป็ น 3 ชนิด คือ
•associations discovery
•sequential pattern discovery
•similar time sequence
เทคนิคต่ำงๆของกำรทำเหมืองข้อมูล
20. Web Content Mining เป็ นการค้นหาข้อมูลที่มีประโยชน์จากข้อมูลที่อยู่ภายในเว็บ เช่น
ข้อความ รูปภาพ เป็ นต้น โดย Web Content Mining สามารถแบ่งออกเป็ น 2 ประเภทตาม
มุมมองคือ มุมมองทางด้านการสืบค้นสารนิเทศ (Information Retrieval) และมุมมอง
ทางด้านฐานข้อมูล (Database) เป้ าหมายของ Web Content Mining จากมุมมองของการ
สืบค้นสารนิเทศคือการทาเหมืองข้อมูลเว็บเพื่อปรับปรุงการหาข้อมูลหรือกรองข้อมูลให้ผู้ใช้
โดยพิจารณาจากข้อมูลที่ผู้ใช้อ้างอิงหรือร้องขอ ในขณะที่เป้ าหมายของ Web Content
Mining ในมุมมองของฐานข้อมูลส่วนใหญ่พยายามจาลองข้อมูลบนเว็บและรวมข้อมูลนั้น
เพื่อให้การสอบถามทางานดีขึ้นมากกว่าการใช้คาหลักเป็ นตัวค้นหาเพียงอย่างเดียว
Web Structure Mining เป็ นวิธีการที่พยายามค้นหารูปแบบโครงสร้างการเชื่อมโยงที่
สาคัญและซ่อนอยู่ในเว็บ ซึ่งรูปแบบนี้จะขึ้นอยู่กับรูปแบบการเชื่อมโยงเอกสารภายในเว็บ
โดยนารูปแบบที่ได้มาใช้เพื่อจัดกลุ่มเว็บเพจและใช้สร้างข้อมูลสารสนเทศที่เป็ นประโยชน์
เช่น นามาใช้ในการปรับโครงสร้างของเว็บให้สามารถให้บริการผู้ใช้ได้อย่างรวดเร็ว
กำรทำเหมืองข้อมูลเว็บ (WEB MINING)
21. Web Usage Mining เป็ นวิธีการที่พยายามค้นหาความหมายของข้อมูลที่สร้างจากช่วงการ
ทางานหนึ่งของผู้ใช้หรือสร้างจากพฤติกรรมของผู้ใช้เรียกอีกชื่อหนึ่งว่า Web Log Mining โดย
ในขณะที่ Web Content Mining และ Web Structure Mining ใช้ประโยชน์จากข้อมูลจริง หรือ
ข้อมูลพื้นฐานบนเว็บแต่ Web Usage Mining ทาการค้นหาความรู้จากข้อมูลการติดต่อสื่อสาร
ระหว่างกันของผู้ใช้ที่ติดต่อกับเว็บ โดย Web Usage Mining ทาการรวบรวมข้อมูลจากบันทึกใน
การดาเนินการต่างๆ เช่น บันทึกการใช้งานของ Proxy (Proxy Server Log) ข้อมูลการลงทะเบียน
(Registration Data) หรือข้อมูลอื่นอันเป็ นผลจากการทางานร่วมกันมาใช้วิเคราะห์ ดังนั้น Web
Usage Mining จึงเป็ นวิธีการทางานที่เน้นใช้เทคนิคที่สามารถทานายพฤติกรรมของผู้ใช้ในขณะที่
ผู้ใช้ทางานกับเว็บ กระบวนการทางานของ Web Usage Mining สามารถแบ่งออกเป็ น 2 วิธีคือ
1. ทาการจับคู่ข้อมูลการใช้งานของเครื่องให้บริการเว็บให้อยู่ในรูปของตารางความสัมพันธ์
ก่อนที่นาข้อมูลนี้มาปรับใช้กับเทคนิคการทาเหมืองข้อมูลการใช้เว็บ
2. ใช้ประโยชน์จากข้อมูลในบันทึกการใช้งานโดยตรงซึ่งจะใช้เทคนิคการเตรียมข้อมูล
(Preprocessing) เพื่อเตรียมข้อมูลก่อนหาความสัมพันธ์ (Pattern Discovery) และวิเคราะห์รูปแบบ
(Pattern Analysis)
กำรทำเหมืองข้อมูลเว็บ (WEB MINING)
22. งานวิจัยจานวนมากที่นา Web Mining มาช่วยในการวิเคราะห์งานบริการ web
เพื่อนาไปพัฒนาการให้บริการที่ดี และน่าสนใจขึ้นส่วนใหญ่จะเน้นไปที่การนาข้อมูลใน
รูปของตัวอักษร (Text ) มาวิเคราะห์รวมกับข้อมูลชนิดอื่น โดยที่ข้อมูลเหล่านี้มักจะได้
จากการบันทึกรายละเอียดในทุก ๆ ครั้งที่มีผู้เข้าใช้บริการใน web แต่ละแห่ง
กำรประยุกต์ WEB MINING เพื่อกำรบริกำร WEB
23. ในการทาธุรกิจห้างร้าน บริการสั่งของทางไปรษณีย์ หรือการทาธุรกิจแบบอิเล็กทรอนิกส์
ปัจจัยที่สาคัญต่อความสาเร็จของธุรกิจคือ ความเข้าใจในตัวลูกค้า ยิ่งรู้ข้อมูลมากทาให้เข้าใจลูกค้ามาก
ขึ้น โอกาสที่จะทาธุรกิจให้ตรงกับความต้องการของตลาดก็จะมีมากขึ้นไปด้วย
ข้อมูลของลูกค้าดังกล่าวมานี้ สามารถวิเคราะห์ออกมาใน 3 ลักษณะดังต่อไปนี้
1.Demographics เป็ นข้อมูลเกี่ยวกับที่อยู่ หรือสถานที่ของผู้ใช้ในขณะที่เข้าใช้บริการ web
ซึ่งจะสามารถประมวลเป็ นสถิติบริเวณที่อยู่อาศัยของกลุ่มผู้ใช้ส่วนมากได้
2.Psychographics เป็ นข้อมูลด้านจิตวิทยา ซึ่งแสดงถึงค่านิยมในด้านต่าง ๆ ของผู้ใช้ โดย
สามารถแบ่งกลุ่มผู้ใช้ตามข้อมูลการเข้าใช้บริการ web ทั้งในแง่ของเวลาและเนื้อหา
3.Technolographics เป็ นข้อมูลที่แสดงถึงระดับความรู้และความสนใจในเทคโนโลยีด้าน
ต่างๆ ของผู้ใช้ รวมถึงเครื่องคอมพิวเตอร์ที่ติดต่อเข้ามาด้วย ซึ่งจะช่วยในการพัฒนาสินค้า และบริการ
ให้น่าสนใจ
เมื่อนาข้อมูลที่วิเคราะห์ทั้ง 3 ลักษณะมาพิจารณาจะเกิดประโยชน์อย่างมากในการศึกษา
พฤติกรรมโดยรวมของประชากร ซึ่งจานวนข้อมูลที่นามาใช้วิเคราะห์มักจะมีจานวนมากและให้ผลการ
วิเคราะห์ที่มีความแม่นยาสูง
WEB MINING กับกำรทำธุรกิจ E-COMMERCE
24. Data Mining เป็ นกระบวนการสืบค้นข้อมูลอันเป็นประโยชน์ต่อการดาเนิน
ธุรกิจออกจากกองข้อมูลขนาดใหญ่ที่จัดเก็บอยู่ในฐานข้อมูลของแต่ละองค์กร
เป้ าหมายของ Data Mining คือ ทาอย่างไรถึงจะเอาชนะคู่แข่งทางธุรกิจให้
ได้ ทาอย่างไรถึงจะรู้ได้ว่าประชากรกลุ่มไหนคือ ลูกค้าเป้ าหมาย(Who) และประชากร
กลุ่มนี้ต้องการซื้ออะไร (What) ซื้อที่ไหน (Where) ซื้อเมื่อไหร่ (When) และที่สาคัญ
ที่สุดก็คือ อะไรคือแรงขับเคลื่อนให้ลูกค้าเป้ าหมายต้องการสินค้าที่ว่านั้น (Why) ซึ่ง
คาถามเหล่านี้เมื่อมาผนวกเข้ากับรูปแบบการดาเนินธุรกิจยุคดิจิตอล ก็ส่งผลให้
เทคโนโลยี Data Mining กลายสภาพมาเป็ นเครื่องมือการตลาดที่สาคัญ ขนาดที่ว่า
นักธุรกิจรายใดไม่ให้ความสาคัญกับมัน ก็อาจจะถูกคู่แข่งทางการค้าของตนทิ้งห่างไป
เลย
กำรประยุกต์ WEB MINING ทำงด้ำนกำรตลำด
บนอินเตอร์เน็ต
25. จานวนและขนาดข้อมูลขนาดใหญ่ถูกผลิตและขยายตัวอย่างรวดเร็ว การสืบค้นความรู้
จะมีความหมายก็ต่อเมื่อฐานข้อมูลที่ใช้มีขนาดใหญ่มาก ปัจจุบันมีจานวนและขนาด
ข้อมูลขนาดใหญ่ที่ขยายตัวอย่างรวดเร็ว โดยผ่านทาง Internet ดาวเทียม และแหล่ง
ผลิตข้อมูล อื่น ๆ เช่น เครื่องอ่านบาร์โค้ด , เครดิตการ์ด , อีคอมเมิร์ซ
ข้อมูลถูกจัดเก็บเพื่อนาไปสร้างระบบการสนับสนุนการตัดสินใจ ( Decision Support
System) เพื่อเป็นการง่ายต่อการนาข้อมูลมาใช้ในการวิเคราะห์เพื่อการตัดสินใจ
ส่วนมากข้อมูลจะถูกจัดเก็บแยกมาจากระบบปฏิบัติการ ( Operational System ) โดย
จัดอยู่ในรูปของคลังหรือเหมืองข้อมูล ( Data Warehouse ) ซึ่งเป็นการง่ายต่อการ
นาเอาไปใช้ในการสืบค้นความรู้
ปัจจัยที่ทำให้กำรทำเหมืองข้อมูลเป็ นที่ได้รับควำมนิยม
26. ระบบ computer สมรรถนะสูงมีราคาต่าลง เทคนิค Data Mining ประกอบไปด้วย
Algorithm ที่มีความซับซ้อนและความต้องการการคานวณสูง จึงจาเป็ นต้องใช้งานกับ
ระบบ computer สมรรถนะสูง ปัจจุบันระบบ computer สมรรถนะสูงมีราคาต่าลง
พร้อมด้วยเริ่มมีเทคโนโลยีที่นาเครื่อง microcomputer จานวนมากมาเชื่อมต่อกันโดย
เครือข่ายความเร็วสูง(PC Cluster)ทาให้ได้ระบบ computer สมรรถนะสูงในราคาต่า
การแข่งขันสูงในด้านอุตสาหกรรมและการค้า เนื่องจากปัจจุบันมีการแข่งขันอย่างสูง
ในด้านอุตสาหกรรมและการค้า มีการผลิตข้อมูลไว้อย่างมากมายแต่ไม่ได้นามาใช้ให้
เกิดประโยชน์ จึงเป็นการจาเป็ นอย่างยิ่งที่ต้องควบคุมและสืบค้นความรู้ที่ถูกซ่อนอยู่
ในฐานข้อมูลความรู้ที่ได้รับสามารถนาไปวิเคราะห์เพื่อการตัดสินใจในการจัดการใน
ระบบต่าง ๆ ซึ่งจะเห็นได้ว่าความรู้เหล่านี้ถือว่าเป็ นผลิตผลอีกชิ้นหนึ่งเลยทีเดียว
ปัจจัยที่ทำให้กำรทำเหมืองข้อมูลเป็ นที่ได้รับควำมนิยม
27. กาหนดลักษณะประจาเป้ าหมายให้เป็ นลักษณะประจาสุดท้าย
บางขั้นตอนใช้วิธีสร้างต้นไม้การตัดสินใจต้องการลักษณะประจาที่มีค่าไม่ต่อเนื่อง
เท่านั้น ดังนั้น เราจาเป็นต้องเปลี่ยนลักษณะประจาที่มีค่าต่อเนื่องให้เป็นลักษณะ
ประจาที่มีค่าไม่ต่อเนื่อง
- ในกรณีที่มีระเบียนน้อย เราอาจใช้k-fold cross validation หรือleave-one-
out
- ในกรณีที่มีระเบียนมากพอเราควรแบ่ง กันระเบียนบางส่วนเป็ น Validation,
Test data และที่เหลือนามาใช้เป็น Training data สัดส่วนที่ใช้อาจเป็น 3/10, 3/10กับ
4/10
กำรเตรียมแฟ้ มข้อมูล
28. โปรแกรม WEKA (Waikato Environment for Knowledge Analysis)
เริ่มพัฒนาตั้งแต่ปี 1997 โดยมหาวิทยาลัย Waikato ประเทศนิวซีแลนด์ เป็ น
ซอฟต์แวร์ประเภท free ware โปรแกรม Weka พัฒนามาจากภาษาจาวาทั้งหมด ซึ่ง
เขียนมาเพื่อเน้นงานทางด้านการเรียนรู้ด้วยเครื่อง (Machine Learning) และการทา
เหมืองข้อมูล (Data Mining) โปรแกรมจะประกอบไปด้วยโมดูลย่อย ๆ สาหรับใช้ใน
การจัดการข้อมูลและเป็ นโปรแกรมที่สามารถใช้ Graphic User Interface (GUI) และ
ใช้ค่าส่งในการให้ซอฟต์แวร์ประมวลผล สามารถรันได้หลายระบบปฏิบัติการ มี
เครื่องมือที่ใช้ทางานในด้านการทา data mining ที่รวบรวมแนวคิดอัลกอริทึม มากมาย
ซึ่งอัลกอริทึม สามารถเลือกใช้งานโดยตรงได้จาก 2 ทางคือจากชุดเครื่องมือที่มี
อัลกอริทึม มาให้หรือเลือกใช้จากอัลกอริทึมที่ได้เขียนเป็ น โปรแกรมลงไปเป็ นชุด
เครื่องมือเพิ่มเติมและชุดเครื่องมือมีฟังก์ชัน สาหรับการทางานร่วมกับข้อมูล ได้แก่
Pre-Processing, Classification
SOFTWARE ที่ใช้ทำเหมืองข้อมูล
29. SOFTWARE ที่ใช้ทำเหมืองข้อมูล
ข้อดี
- เป็ นซอฟต์แวร์เสรีที่สามารถดาวน์
โหลดได้ฟรี
- สามารถทางานได้ทุก ระบบปฏิบัติการ
- เชื่อมต่อ SQL Database โดยใช้Java
Database Connectivity
- มีการเตรียมข้อมูล และเทคนิคในการ
สร้างแบบจาลองที่ครอบคลุม
- มีลักษณะที่ง่ายต่อการใช้งานเนื่องจาก
ใช้
30. ข้อเสีย
ยังไม่แน่ใจแต่จะวัดคุณภาพของวิธีกับ accuracy ที่ได้มากกว่า เพราะในทาง
ปฏิบัติจริง บางข้อมูลใช้วิธี Apriori จะให้ความเที่ยงตรงสูงกว่าใช้ FP-Tree บางข้อมูล
ใช้ วิธี FP-tree ก็จะให้ความเที่ยงตรงสูงกว่า Apriori ดังนั้น ในทางปฏิบัติต้องเอา
Model ที่ได้มา Evaluated เพื่อ เลือก วิธีที่เหมาะสม
SOFTWARE ที่ใช้ทำเหมืองข้อมูล
31. โปรแกรม Orange Canvas
เป็ นแหล่งที่มาของการสร้าง
ภาพเปิ ดและวิเคราะห์ข้อมูลสาหรับ
มือใหม่และผู้เชี่ยวชาญการทาเหมือง
ข้อมูลผ่านทางภาพเขียนโปรแกรมหรือ
งูหลามสคริปต์ ส่วนประกอบสาหรับ
การเรียนรู้เครื่อง Add-ons สาหรับชี
วสารสนเทศและการเหมืองแร่ข้อความ
เต็มไปด้วยคุณสมบัติสาหรับการ
วิเคราะห์ข้อมูล
SOFTWARE ที่ใช้ทำเหมืองข้อมูล
33. โปรแกรม MATLAB
เป็ นโปรแกรมคอมพิวเตอร์สมรรถนะสูง เพื่อใช้ในการคานวณทางเทคนิค MATLAB
ได้รวมการคานวณ การเขียนโปรแกรมและการแสดงผลรวมกันอยู่ในตัวโปรแกรมเดียวได้
อย่างมีประสิทธิภาพ และอยู่ในลักษณะที่ง่ายต่อการใช้งาน นอกจากนี้ลักษณะของการเขียน
สมการในโปรแกรมก็จะเหมือนการเขียนสมการคณิตศาสตร์ งานทั่วไปที่ใช้ MATLAB เช่น
การคานวณทั่วไปการสร้างแบบจาลองและการทดสอบแบบจาลอง การวิเคราะห์ข้อมูล การ
แสดงผลในรูปกราฟ การทางานของ MATLAB จะทางานได้ทั้งในลักษณะของการติดต่อ
โดยตรง(Interactive)คือการเขียนคาสั่งเข้าไปทีละคาสั่ง เพื่อให้ MATLAB ประมวลผล หรือ
สามารถที่จะรวบรวมชุดคาสั่งเป็ นโปรแกรมก็ได้ ข้อสาคัญอย่างหนึ่งของ MATLAB ก็คือ
ข้อมูลทุกตัวจะถูกเก็บในลักษณะของ arrayคือในแต่ละตัวแปรจะได้รับการแบ่งเป็นส่วนย่อย
เล็กๆขึ้น ซึ่งการใช้ตัวแปรเป็ น array ในMATLABไม่จาเป็ นที่จะต้องจอง dimension
เหมือนกับการเขียนโปรแกรมในภาษาขั้นต่าทั่วไป ซึ่งทาให้สามารถที่จะแก้ปัญหาของตัวแปรที่
อยู่ในลักษณะของ matrix และ vector ได้โดยง่าย
SOFTWARE ที่ใช้ทำเหมืองข้อมูล
35. ข้อดี
-มีฟังก์ชันคณิตศาสตร์ให้เลือกใช้ในการคานวณมากมาย
-Algorithm พัฒนาได้ง่าย สามารถแก้ไขปัญหาทางด้านคณิตศาสตร์ที่มีความซับซ้อนได้ง่าย
-มีโครงสร้างแบบจาลอง (Simulink) ที่สามารถนาไปสร้างบล็อกไดอะแกรมเพื่อใช้ทดสอบ และ
ประเมินผลระบบ Dynamic ต่างๆ ก่อนนาไปใช้งานจริง
-สามารถวิเคราะห์และตรวจสอบข้อมูลได้ง่ายและรวดเร็ว
-นาไปใช้งานในทางด้วนกราฟิ กทั้งในด้านการแสดงภาพตั้งแต่สองมิติและสามมิติ ตลอดจนสามารถนา
ภาพมาต่อกัน และเก็บไว้เพื่อที่จะสร้างเป็ นภาพเคลื่อนไหวได้อีกด้วย
-ประยุกต์ใช้ในการสร้างรูปแบบ Graphical User Interface ได้โดยการเลือกใช้ object และเมนูต่างๆ
โดย MATLAB จะมีเครื่องมือให้เลือกใช้ เช่น เมนู รายการ ปุ่ มกด และ fields object ต่างๆ เพื่อให้
ผู้ใช้สามารถเลือกนาไปใช้ในการทางานปฏิสัมพันธ์กันระหว่างผู้ใช้กับเครื่องคอมพิวเตอร์ได้
-ทาการประมวลผลร่วมกับโปรแกรมอื่นได้ เช่น Fortran, Borland C/C++, Microsoft Visual C++
- MATLAB เป็ นระบบ interactive ซึ่งข้อมูลพื้นฐานเป็ นอาร์เรย์ที่ไม่ต้องการมิติ ทาให้ MATLAB สาม
ทาการแก้ปัญหาทางเทคนิคต่างๆ ได้มากใช้เวลาในการประมวลผลน้อย และดีกว่าโปรแกรมภาษา C
และ Fortran
SOFTWARE ที่ใช้ทำเหมืองข้อมูล
36. ธุรกิจค้าปลีกสามารถใช้งาน Data Mining ในการพิจารณาหากลยุทธ์ให้เป็นที่สนใจ
กับผู้บริโภคในรูปแบบต่าง ๆ เช่น ที่ว่างในชั้นวางของจะจัดการอย่างไรถึงจะเพิ่ม
ยอดขายได้ เช่นที่ Midas ซึ่งเป็นผู้แทนจาหน่ายอะไหล่สาหรับอุตสาหกรรมรถยนต์
งานที่ต้องทาคือการจัดการกับข้อมูลที่ได้รับจากสาขาทั้งหมด ซึ่งจะต้องทาการ
รวบรวมและวิเคราะห์อย่างทันท่วงที
กิจการโทรคมนาคม เช่นที่ Bouygues Telecom ได้นามาใช้ตรวจสอบการโกงโดย
วิเคราะห์รูปแบบการใช้งานของสมาชิกลูกข่ายในการใช้งานโทรศัพท์ เช่น คาบเวลา
ที่ใช้จุดหมายปลายทาง ความถี่ที่ใช้ ฯลฯ และคาดการณ์ข้อบกพร่องที่เป็นไปได้ใน
การชาระเงิน เทคนิคนี้ยังได้ถูกนามาใช้กับลูกค้าโทรศัพท์เคลื่อนที่ซึ่งระบบสามารถ
ตรวจสอบได้ว่าที่ใดที่เสี่ยงที่จะสูญเสียลูกค้าสูงในการแข่งขัน France Telecom ได้
ค้นหาวิธีรวมกลุ่มผู้ใช้ให้เป็ นหนึ่งเดียวด้วยการสร้างแรงดึงดูดในเรื่องค่าใช้จ่ายและ
พัฒนาเรื่องความจงรักภักดีต่อตัวสินค้า
กำรประยุกต์ใช้งำนกำรทำเหมืองข้อมูล
37. การวิเคราะห์ผลิตภัณฑ์ เก็บรวบรวมลักษณะและราคาของผลิตภัณฑ์ทั้งหมดสร้าง
โมเดลด้วยเทคนิค Data Mining และใช้โมเดลในการทานายราคาผลิตภัณฑ์ตัวอื่น ๆ
การวิเคราะห์บัตรเครดิต
- ช่วยบริษัทเครดิตการ์ดตัดสินใจในการที่จะให้เครดิตการ์ดกับลูกค้าหรือไม่
- แบ่งประเภทของลูกค้าว่ามีความเสี่ยงในเรื่องเครดิต ต่า ปานกลาง หรือสูง
- ป้ องกันปัญหาเรื่องการทุจริตบัตรเครดิต
การวิเคราะห์ลูกค้า
- ช่วยแบ่งกลุ่มและวิเคราะห์ลูกค้าเพื่อที่จะผลิตและเสนอสินค้าได้ตรงตาม
กลุ่มเป้ าหมายแต่ละกลุ่ม
- ทานายว่าลูกค้าคนใดจะเลิกใช้บริการจากบริษัทภายใน 6 เดือนหน้า
กำรประยุกต์ใช้งำนกำรทำเหมืองข้อมูล
38. 1. นายนนธิรัฐ แบแซ 561413022
2. นายกะรัต บุญรมย์ 561413031
3. น.ส.สุวภัทร ต๊ะผัด 561413032
4. นายณัฐวุฒิ กันทา 561413041
5. นายวิบูลพรรณ อินต๊ะ 561413051
สาขาเทคโนโลยีสารสนเทศ
สานักวิชาเทคโนโลยีสารสนเทศ
จัดทาโดย