SlideShare une entreprise Scribd logo
1  sur  33
布丁布丁吃布丁
2019年8月9日
WEKA簡介與實作
Chapter 4.
進階應用與結語
課程大綱 (1/2)
1. 認識Weka
2. Weka的資料來源
3. 準備Weka:
下載、安裝與設定
4. 認識Weka架構
2
Chapter 1.
認識Weka
5. 探索性分析:分群
6. 探索性分析:異常偵測
7. 比較性分析:
關聯規則探勘
Chapter 2.
探索性與比較性分析
課程大綱 (2/2)
3
10.Weka的進階應用
11.結語
Chapter 4.
進階應用與結語
8. 預測性分析:分類
9. 預測性分析:迴歸
Chapter 3.
預測性分析
4
Weka的進階應用
Part 10.
5
演算法的選擇
演算法適用範圍 (1/2)
!
6
演算法的選擇
演算法適用範圍 (2/2)
CAPABILITES
適用範圍
● Class 預測目標
○ Nominal 類別型
○ Binary 布林型
○ Missing 缺失值
● Attributes 屬性
○ Date 日期
○ Unary 名義陣列
○ Binary 布林型
○ Numeric 數值型
○ Missing 缺失值
○ Nominal 類別型
○ Empty nominal 空白
● Addtional 其他限制
○ min # of instances
最小案例數量
7
預測性分析的演算法挑選
資料類型的差異
迴歸分類
目標屬性Nominal (Nom)
類別型
例如學校
Numeric (Num)
數值型
例如期末成績
8
其他的預測性分析演算法
分類演算法 迴歸演算法
白箱演算法 ● NaiveBayes 樸素貝氏
● Logistic 羅吉斯特迴歸
● IBK 最鄰近分類KNN
● M5P 樹狀結構的迴歸
黑箱演算法 ● SMO 支持向量機
● MultilayerPerceptron
類神經網路
● SMOreg
● 支持向量機的迴歸
● RandomForest
● 隨機森林演算法
● MultilayerPerceptron
類神經網路
9
預測性演算法的類型
白箱演算法
● 能夠解釋模型規則
● 模型評估較不準確
● 不能解釋模型規則
● 模型評估較為準確
黑箱演算法
https://blog.eloquent.ai/2018/08/30/machine-learning-for-executives/
多層次感知機
10
人工智慧與深度學習的主流演算法
類神經網路 (1/2)
https://deepai.org/machine-learning-glossary-and-terms/multilayer-perceptron
屬性 目標屬性
卷積神經網路
11
人工智慧與深度學習的主流演算法
類神經網路 (2/2)
https://developer.nvidia.com/discover/convolutional-neural-network
目標屬性
特徵抽取
12
Weka的進階應用
圖片分類
http://blog.pulipuli.info/2017/06/wekamnist-mnist-digits-classification.html
13
Weka的進階應用
文本探勘
http://blog.pulipuli.info/2017/10/text-classification-with-weka.html
非結構化資料 結構化資料
你說我們的
路不相同
空山不見人
(1=有這個字;0=沒這個字)
唐詩
新詩
不 人 你 們 同 山 我 的 相 空 見 說 路 分類
1 0 1 1 1 0 1 1 1 0 0 1 1 新詩
1 1 0 0 0 1 0 0 0 1 1 0 0 唐詩
目標屬性
行為序列
用前幾個行為事件
來預測之後的事件
可觀察事前、事後機率
動態貝氏網路
14
Weka的進階應用
行為序列預測
http://blog.pulipuli.info/2017/10/behavior-prediction-dynamic-bayesian.html
15
Weka的進階應用
時間序列預測
http://blog.pulipuli.info/2017/09/aiweka-time-series-forecasting-with-weka.html
前幾日的入館人次
入
館
人
次
屬性
目標
屬性
16
Weka的進階應用
與其他系統的整合
http://blog.pulipuli.info/2017/06/weka-making-predictions-with-weka-in.html
!
17
資料探勘的工具選擇
Weka vs 程式語言
優點
● 不需寫程式就能操作,
適合入門學習者
● 步驟與流程明確
● 特別適合研究和學習
● 資料處理步驟繁瑣,演
算法過於包裝、簡化
● 缺乏最新的演算法支援
● 不適合習慣用程式語言
的人 (不過Weka支援介
接程式語言)
缺點
https://www.quora.com/How-does-Weka-compare-with-Matlab-Python-R-for-data-science
18
資料探勘的工具選擇
Weka vs 程式語言
優點
● 當今學習資料探勘的主
流
● 現今最新的演算法幾乎
都以Python撰寫
● 能夠靈活處理資料,完
全掌握資料探勘的每個
流程
● 對於不具程式語言能力
的人來說,入門門檻較
高
● 程式語言運作流程隱晦,
初學者難以想象
缺點
https://www.quora.com/How-does-Weka-compare-with-Matlab-Python-R-for-data-science
19
結語
Part 11.
20
你已經會用人工智慧了
https://seekingalpha.com/instablog/3957081-tullii/2884523-putting-value-on-new-zealand-plays-is-a-black-swan-science
現在我們要來
分類
好的天鵝跟壞
的天鵝
預測正確率
87%
21
你已經會用人工智慧了嗎?
https://seekingalpha.com/instablog/3957081-tullii/2884523-putting-value-on-new-zealand-plays-is-a-black-swan-science
等等、
你是誰?
Black Swan Theory
黑天鵝效應
22
過去的資料不能代表未來
https://disp.cc/b/163-bmeR
23
決策方式的轉變 (1/2)
個別案例
仰賴個人經驗 從大量資料獲取知識
縱觀全局
https://telanganatoday.com/analytics-driving-technology-industry-growth-deloitte
由既有的理論框架與假設
來支持決策
由實驗蒐集資料中的證據
來支持決策
24
理論驅動
決策方式的轉變 (2/2)
資料驅動
https://forbytes.com/blog/data-driven-decision-making/
25https://fangfrancis.github.io/culture/2017/08/08/literacy/
我們必須對AI抱持正確的認知
學習思考什麼時候可以用AI、什麼時候不能用AI
AI literacy
AI素養
26https://flipedu.parenting.com.tw/article/3503
有了AI這支魔法棒,你有責任去解決困難的問題
不要浪費時間做那些機器很快就能勝過人類的事
──李開復,2017
27https://www.wired.com/2013/05/robot-learns-to-pour-beer-by-predicting-your-future/
小事情給機器做
你才有時間做大事情
王者歸來:
WEKA機器學習
與大數據聖經
● 作者:袁梅宇
● 出版社:佳魁資訊
● 出版日期:2015
28
延伸閱讀
Weka書籍
https://www.youtube.com/user/WekaMOOC
29
延伸閱讀
Weka YouTube MOOCs
袁梅宇(2015)。王者歸來: WEKA機器學習與大數據聖經。台北市:佳魁資訊。
Foreman, J.W.(2017)。資料智慧化 利用資料科學, 將資訊化為創見(胡為君譯)。臺北市:碁峰資訊。
Maheshwari, A.K.(2017)。認識資料科學的第一本書(徐瑞珠譯)。臺北市:碁峰資訊。
Breunig, M. M., Kriegel, H. P., Ng, R. T., & Sander, J. (2000). LOF: Identifying Density-based Local Outliers.
In Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data (pp.
93–104). New York, NY, USA: ACM. doi:10.1145/342009.335388
Caliński, T., & Harabasz, J. (2007). A dendrite method for cluster analysis. Communications in Statistics,
3(1), 1-27. doi:10.1080/03610927408827101
Cortez, P., & Silva, A. M. G. (2008). Using data mining to predict secondary school student performance.
In A. Brito & J. Teixeira (Eds.), Proceedings of 5th FUture BUsiness TEChnology Conference
(FUBUTEC 2008) (pp. 5-12). Porto, Portugal: EUROSIS.
Friedman, J. H., & Fisher, N. I. (1999). Bump hunting in high-dimensional data. Statistics and Computing,
9(2), 123-143. doi:10.1023/A:1008894516817
Quinlan, J. R. (1993). C4.5: programs for machine learning. San Mateo, Calif.: Morgan Kaufmann
Publishers.
Trainor, P. J. (2014). Patient rule induction method for subgroup identification given censored data.
30
參考資料
布丁布丁吃什麼?
http://blog.pulipuli.info
您覺得本次教的五種資料探勘方法,
可以用在什麼場合、分析什麼資料呢?
32
問題反思
探索性分析 比較性分析
● 分群
● 異常偵測
預測性分析
● 分類
● 迴歸
● 關聯規則
探勘
33https://kumamon-official.jp/
我到底看了什麼?歡迎發問

Contenu connexe

Similaire à 4. applications

香港六合彩
香港六合彩香港六合彩
香港六合彩kaifang
 
Nst2015 雲端運算-使用hhvm容錯移轉至php-fpm之混合雲端數位學習平台
Nst2015 雲端運算-使用hhvm容錯移轉至php-fpm之混合雲端數位學習平台Nst2015 雲端運算-使用hhvm容錯移轉至php-fpm之混合雲端數位學習平台
Nst2015 雲端運算-使用hhvm容錯移轉至php-fpm之混合雲端數位學習平台慶順 陳
 
硕士开题答辩 严一格-R4
硕士开题答辩 严一格-R4硕士开题答辩 严一格-R4
硕士开题答辩 严一格-R4严 一格
 
如何作网络通信领域的研究
如何作网络通信领域的研究如何作网络通信领域的研究
如何作网络通信领域的研究Weiwei Fang
 
(文化研究) 質性研究之NUivo8軟體實務操作-王為國老師
(文化研究) 質性研究之NUivo8軟體實務操作-王為國老師(文化研究) 質性研究之NUivo8軟體實務操作-王為國老師
(文化研究) 質性研究之NUivo8軟體實務操作-王為國老師kdlsldn
 
Outline comp sci-2010fall-aug30
Outline comp sci-2010fall-aug30Outline comp sci-2010fall-aug30
Outline comp sci-2010fall-aug30Yender McLee
 
CBAP 技術交流 20151008
CBAP 技術交流 20151008CBAP 技術交流 20151008
CBAP 技術交流 20151008moris lee
 
TWNIC Update
TWNIC UpdateTWNIC Update
TWNIC UpdateAPNIC
 
从元数据到内容——新一代知识图谱搜索引擎初探
从元数据到内容——新一代知识图谱搜索引擎初探从元数据到内容——新一代知识图谱搜索引擎初探
从元数据到内容——新一代知识图谱搜索引擎初探Gong Cheng
 
9825415研討會心得
9825415研討會心得9825415研討會心得
9825415研討會心得瑗玲 宋
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況Jazz Yao-Tsung Wang
 

Similaire à 4. applications (14)

香港六合彩
香港六合彩香港六合彩
香港六合彩
 
香港六合彩
香港六合彩香港六合彩
香港六合彩
 
香港六合彩
香港六合彩香港六合彩
香港六合彩
 
香港六合彩
香港六合彩香港六合彩
香港六合彩
 
Nst2015 雲端運算-使用hhvm容錯移轉至php-fpm之混合雲端數位學習平台
Nst2015 雲端運算-使用hhvm容錯移轉至php-fpm之混合雲端數位學習平台Nst2015 雲端運算-使用hhvm容錯移轉至php-fpm之混合雲端數位學習平台
Nst2015 雲端運算-使用hhvm容錯移轉至php-fpm之混合雲端數位學習平台
 
硕士开题答辩 严一格-R4
硕士开题答辩 严一格-R4硕士开题答辩 严一格-R4
硕士开题答辩 严一格-R4
 
如何作网络通信领域的研究
如何作网络通信领域的研究如何作网络通信领域的研究
如何作网络通信领域的研究
 
(文化研究) 質性研究之NUivo8軟體實務操作-王為國老師
(文化研究) 質性研究之NUivo8軟體實務操作-王為國老師(文化研究) 質性研究之NUivo8軟體實務操作-王為國老師
(文化研究) 質性研究之NUivo8軟體實務操作-王為國老師
 
Outline comp sci-2010fall-aug30
Outline comp sci-2010fall-aug30Outline comp sci-2010fall-aug30
Outline comp sci-2010fall-aug30
 
CBAP 技術交流 20151008
CBAP 技術交流 20151008CBAP 技術交流 20151008
CBAP 技術交流 20151008
 
TWNIC Update
TWNIC UpdateTWNIC Update
TWNIC Update
 
从元数据到内容——新一代知识图谱搜索引擎初探
从元数据到内容——新一代知识图谱搜索引擎初探从元数据到内容——新一代知识图谱搜索引擎初探
从元数据到内容——新一代知识图谱搜索引擎初探
 
9825415研討會心得
9825415研討會心得9825415研討會心得
9825415研討會心得
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
 

Plus de Yung-Ting Chen

讓AI繪圖成為你的教學利器 Stable Diffusion 工作坊 - 2024 - blog
讓AI繪圖成為你的教學利器 Stable Diffusion 工作坊 - 2024 - blog讓AI繪圖成為你的教學利器 Stable Diffusion 工作坊 - 2024 - blog
讓AI繪圖成為你的教學利器 Stable Diffusion 工作坊 - 2024 - blogYung-Ting Chen
 
文本探勘實作 - 2020 - blog.pptx
文本探勘實作 - 2020 - blog.pptx文本探勘實作 - 2020 - blog.pptx
文本探勘實作 - 2020 - blog.pptxYung-Ting Chen
 
大數據時代下的文本分析 - 2020 - blog.pptx
大數據時代下的文本分析 - 2020 - blog.pptx大數據時代下的文本分析 - 2020 - blog.pptx
大數據時代下的文本分析 - 2020 - blog.pptxYung-Ting Chen
 
比較性分析:關聯規則 - 2020 - blog.pptx
比較性分析:關聯規則 - 2020 - blog.pptx比較性分析:關聯規則 - 2020 - blog.pptx
比較性分析:關聯規則 - 2020 - blog.pptxYung-Ting Chen
 
預測性分析:分類 - 2020 - blog.pptx
預測性分析:分類 - 2020 - blog.pptx預測性分析:分類 - 2020 - blog.pptx
預測性分析:分類 - 2020 - blog.pptxYung-Ting Chen
 
探索性分析:分群與異常偵測 - 2020 - blog.pptx
探索性分析:分群與異常偵測 - 2020 - blog.pptx探索性分析:分群與異常偵測 - 2020 - blog.pptx
探索性分析:分群與異常偵測 - 2020 - blog.pptxYung-Ting Chen
 
3. 洞悉未來:時間序列預測 - 2021.pptx
3. 洞悉未來:時間序列預測 - 2021.pptx3. 洞悉未來:時間序列預測 - 2021.pptx
3. 洞悉未來:時間序列預測 - 2021.pptxYung-Ting Chen
 
2. 看穿因果:熱點分析 - 2021.pptx
2. 看穿因果:熱點分析 - 2021.pptx2. 看穿因果:熱點分析 - 2021.pptx
2. 看穿因果:熱點分析 - 2021.pptxYung-Ting Chen
 
論文神器+ChatGPT - blog - 2023.pptx
論文神器+ChatGPT - blog - 2023.pptx論文神器+ChatGPT - blog - 2023.pptx
論文神器+ChatGPT - blog - 2023.pptxYung-Ting Chen
 
大數據時代下的文本分析 - 22 dils text.pptx
大數據時代下的文本分析 - 22 dils text.pptx大數據時代下的文本分析 - 22 dils text.pptx
大數據時代下的文本分析 - 22 dils text.pptxYung-Ting Chen
 
人工智慧的可解釋性 - blog - 2023.pptx
人工智慧的可解釋性 - blog - 2023.pptx人工智慧的可解釋性 - blog - 2023.pptx
人工智慧的可解釋性 - blog - 2023.pptxYung-Ting Chen
 
Introduction to TextRank - 22.pptx
Introduction to TextRank - 22.pptxIntroduction to TextRank - 22.pptx
Introduction to TextRank - 22.pptxYung-Ting Chen
 
Subgroup-Discovery-2021.pptx
Subgroup-Discovery-2021.pptxSubgroup-Discovery-2021.pptx
Subgroup-Discovery-2021.pptxYung-Ting Chen
 
Word專業文件排版:第8堂面授 (20151223) blog
Word專業文件排版:第8堂面授 (20151223) blogWord專業文件排版:第8堂面授 (20151223) blog
Word專業文件排版:第8堂面授 (20151223) blogYung-Ting Chen
 
Word專業文件排版:第6堂面授 (20151202) blog
Word專業文件排版:第6堂面授 (20151202) blogWord專業文件排版:第6堂面授 (20151202) blog
Word專業文件排版:第6堂面授 (20151202) blogYung-Ting Chen
 
Word專業文件排版:第3堂面授 (20151014) blog
Word專業文件排版:第3堂面授 (20151014) blogWord專業文件排版:第3堂面授 (20151014) blog
Word專業文件排版:第3堂面授 (20151014) blogYung-Ting Chen
 
Word專業文件排版:第2堂面授 (20150923) blog
Word專業文件排版:第2堂面授 (20150923) blogWord專業文件排版:第2堂面授 (20150923) blog
Word專業文件排版:第2堂面授 (20150923) blogYung-Ting Chen
 
Apache solr教學介紹 20150501
Apache solr教學介紹 20150501Apache solr教學介紹 20150501
Apache solr教學介紹 20150501Yung-Ting Chen
 

Plus de Yung-Ting Chen (20)

讓AI繪圖成為你的教學利器 Stable Diffusion 工作坊 - 2024 - blog
讓AI繪圖成為你的教學利器 Stable Diffusion 工作坊 - 2024 - blog讓AI繪圖成為你的教學利器 Stable Diffusion 工作坊 - 2024 - blog
讓AI繪圖成為你的教學利器 Stable Diffusion 工作坊 - 2024 - blog
 
文本探勘實作 - 2020 - blog.pptx
文本探勘實作 - 2020 - blog.pptx文本探勘實作 - 2020 - blog.pptx
文本探勘實作 - 2020 - blog.pptx
 
大數據時代下的文本分析 - 2020 - blog.pptx
大數據時代下的文本分析 - 2020 - blog.pptx大數據時代下的文本分析 - 2020 - blog.pptx
大數據時代下的文本分析 - 2020 - blog.pptx
 
比較性分析:關聯規則 - 2020 - blog.pptx
比較性分析:關聯規則 - 2020 - blog.pptx比較性分析:關聯規則 - 2020 - blog.pptx
比較性分析:關聯規則 - 2020 - blog.pptx
 
預測性分析:分類 - 2020 - blog.pptx
預測性分析:分類 - 2020 - blog.pptx預測性分析:分類 - 2020 - blog.pptx
預測性分析:分類 - 2020 - blog.pptx
 
探索性分析:分群與異常偵測 - 2020 - blog.pptx
探索性分析:分群與異常偵測 - 2020 - blog.pptx探索性分析:分群與異常偵測 - 2020 - blog.pptx
探索性分析:分群與異常偵測 - 2020 - blog.pptx
 
3. 洞悉未來:時間序列預測 - 2021.pptx
3. 洞悉未來:時間序列預測 - 2021.pptx3. 洞悉未來:時間序列預測 - 2021.pptx
3. 洞悉未來:時間序列預測 - 2021.pptx
 
2. 看穿因果:熱點分析 - 2021.pptx
2. 看穿因果:熱點分析 - 2021.pptx2. 看穿因果:熱點分析 - 2021.pptx
2. 看穿因果:熱點分析 - 2021.pptx
 
論文神器+ChatGPT - blog - 2023.pptx
論文神器+ChatGPT - blog - 2023.pptx論文神器+ChatGPT - blog - 2023.pptx
論文神器+ChatGPT - blog - 2023.pptx
 
大數據時代下的文本分析 - 22 dils text.pptx
大數據時代下的文本分析 - 22 dils text.pptx大數據時代下的文本分析 - 22 dils text.pptx
大數據時代下的文本分析 - 22 dils text.pptx
 
人工智慧的可解釋性 - blog - 2023.pptx
人工智慧的可解釋性 - blog - 2023.pptx人工智慧的可解釋性 - blog - 2023.pptx
人工智慧的可解釋性 - blog - 2023.pptx
 
Introduction to TextRank - 22.pptx
Introduction to TextRank - 22.pptxIntroduction to TextRank - 22.pptx
Introduction to TextRank - 22.pptx
 
Subgroup-Discovery-2021.pptx
Subgroup-Discovery-2021.pptxSubgroup-Discovery-2021.pptx
Subgroup-Discovery-2021.pptx
 
20180518 pbl
20180518 pbl20180518 pbl
20180518 pbl
 
20180518 kals
20180518 kals20180518 kals
20180518 kals
 
Word專業文件排版:第8堂面授 (20151223) blog
Word專業文件排版:第8堂面授 (20151223) blogWord專業文件排版:第8堂面授 (20151223) blog
Word專業文件排版:第8堂面授 (20151223) blog
 
Word專業文件排版:第6堂面授 (20151202) blog
Word專業文件排版:第6堂面授 (20151202) blogWord專業文件排版:第6堂面授 (20151202) blog
Word專業文件排版:第6堂面授 (20151202) blog
 
Word專業文件排版:第3堂面授 (20151014) blog
Word專業文件排版:第3堂面授 (20151014) blogWord專業文件排版:第3堂面授 (20151014) blog
Word專業文件排版:第3堂面授 (20151014) blog
 
Word專業文件排版:第2堂面授 (20150923) blog
Word專業文件排版:第2堂面授 (20150923) blogWord專業文件排版:第2堂面授 (20150923) blog
Word專業文件排版:第2堂面授 (20150923) blog
 
Apache solr教學介紹 20150501
Apache solr教學介紹 20150501Apache solr教學介紹 20150501
Apache solr教學介紹 20150501
 

4. applications

Notes de l'éditeur

  1. 課程編輯網頁 https://docs.google.com/document/d/1XiSkOSbaqEzFC7X_-Q1FewS-9Hhw2a_pjGfKv9uGvMI/edit# W14 分類與預測:貝氏網路 https://docs.google.com/presentation/d/1fXzH2xWUigsy8bD8usxrO4V9fPW8xjAdtEHU6_Jui3A/edit?usp=sharing 文本探勘 http://l.pulipuli.info/19/ncku-tm 活動說明網頁 https://docs.google.com/document/d/1QuApzboOkpHZjEBe0Q7uruOqh6xlDB4sHNIXVZ9oQdk/edit 90分鐘+90分鐘 13:00 - 14:30 WEKA簡介與實作-1 陳勇汀 老師/ 洪麗娟 督導長 開放(內含儲備資訊護理師6名) 14:30 - 14:40 休息 14:40 - 16:20 WEKA簡介與實作-2 陳勇汀 老師/ 洪麗娟 督導長 開放(內含儲備資訊護理師6名)
  2. https://docs.google.com/spreadsheets/d/1CzEwQDgAG4D6bPvMTcOP79jxFKmbhF3_9oexKOrCrOo/edit?usp=sharing
  3. https://docs.google.com/spreadsheets/d/1CzEwQDgAG4D6bPvMTcOP79jxFKmbhF3_9oexKOrCrOo/edit?usp=sharing
  4. https://kknews.cc/news/pq4oqaj.html
  5. https://forbytes.com/blog/data-driven-decision-making/
  6. https://www.xendoo.com/meet-your-new-business-partner-ai/ https://www.zerohedge.com/news/2018-07-11/will-ai-change-world-or-simply-boost-profits
  7. http://www.shujuren.org/article/827.html