More Related Content
Similar to 人工智慧02_大數據分析與機器學習概論 (19)
More from Fuzhou University (20)
人工智慧02_大數據分析與機器學習概論
- 6. 資料收集-資料來源
自行收集資料-智慧型手機
◦ 全球定位系統(Global Positioning System, GPS)
◦ 重力感測器(Gravity Sensor, G-Sensor),亦稱為加速度計(Accelerometer)
◦ 陀螺儀(Gyro Meter)
◦ 照相機(Camera)
◦ 細胞網路(Cellular Network)通訊模組
◦ 無線區域網路(WiFi)通訊模組
◦ 藍牙(Bluetooth)通訊模組
◦ 近場通訊(Near-field communication, NFC)通訊模組
雲端伺服器
車載設備
Cell1
AP1
Cell2
RoadAP2
運用無線網路模組收集網路訊號
運用G-Sensor
收集加速度
6
- 33. 資料收集-資料取得
◦ 智慧型手機-無線網路訊號
◦ 開啟教學課程網中的附件「無線網路訊
號.xlsx」
◦ 內容主要收集「GPS訊號」和「無線網
路訊號」,依此讓機器學習無線網路訊
號集合所對應的經緯度座標
◦ 開啟「GPS訊號」工作表
◦ 主要包含3個欄位
◦ Record ID:為資料序號,每秒鐘給予一個ID
◦ LAC:位置區碼(Location Area Code)
◦ CID:細胞碼(Cell ID)
◦ LAC & CID:位置區碼+細胞碼為同一個電信業者
的網路中唯一的基地台識別碼
◦ Signal:訊號強度
33
- 42. 資料收集-資料取得
UCI機器學習知識庫-Liver Disorders
資料屬性數量共有7個
項次 欄位 異常原因 Alcohol(+)
1 Mean corpuscular volume (MCV)
酒精、B12及葉酸缺乏、
溶血
↑, MCV > 100
(Macrocytic)
2 Alkaline phosphotase (ALK-P)
腸道、膽道、肝、腎、骨
頭、懷孕
↑
3 Alamine aminotransferase (GPT) 肝 ↑
4 Aspartate aminotransferase (GOT) 肝、全身肌肉、心 ↑, GOT > 2 x GPT
5 Gamma-glutamyl transpeptidase (rGT) 酒精、藥物、膽道 ↑
6
Drinks number of half-pint equivalents of alcoholic
beverages
7
Selector field used to split data into two sets
(1: 無肝炎、2: 有肝炎)
42
- 46. 資料收集-資料類型
JSON結構
◦ {
◦ tag1: {
◦ tag2: 值,
◦ tag3: 值,
◦ tag4: {
◦ tag5: 值
◦ }
◦ }
XML結構
◦ <?xml version="1.0" encoding="UTF-8"?>
◦ <tab1>
◦ <tag2>值</tag2>
◦ <tag3>值</tag3>
◦ <tag4>
◦ <tag5>值</tag5>
◦ </tag4>
◦ </tag1>
XML結構 JSON結構
46
- 59. 資料前處理-向量空間模型轉換
「圖檔」資料
像素(或稱畫素)(Pixel)為組成畫面的基本單位;簡單地說,一個畫面是有多少個「點」所
組成;像素決定解析度(Resolution),畫素愈高解析度越高
數位相機解析度:數位相機主要以「百萬像素」來區分等級;是以影像感測器成像後「長
邊像素 x 寬像畫素」來表示
等級 像素(長邊像素 x 寬像畫素) 長寬比
300萬 2,048 x 1,536=3,145,728 4:3
500萬 2,560 x 1,920=4,915,200 4:3
700萬 3,072 x 2,304=7,077,888 4:3
900萬 3,456 x 2,592 = 8,957,952 4:3
1,200萬 4,000 x 3,000 = 12,000,000 4:3
參考資料來源:http://kcs.kcjh.ptc.edu.tw/~spt/computer/digital-image/Pixe-reaolution.htm
59
- 62. 資料前處理-向量空間模型轉換
「圖檔」資料
24位元色彩儲存在電腦裡主要存成1個整數資料型態,編碼方式說明如下:
◦ 第16~23位元為紅色
◦ 第8~15位元為綠色
◦ 第0~7位元為藍色
◦ 顏色(255, 0, 0)的整數值 = 223 + 222 + 221 + 220 + 219 + 218 + 217 + 216 = 16,711,680
◦ 色彩編碼案例:
(R, G, B) 紅 綠 藍 整數值
2的次方數 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
(255, 0, 0) 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 16,711,680
(0, 255, 0) 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 65280
(0, 0, 255) 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 255
(0, 0, 0) 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
(255, 255, 255) 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 16,777,215
62
- 63. 資料前處理-向量空間模型轉換
黑白 灰階 真彩
「圖檔」資料
圖檔色彩深度和點陣式圖片儲存空間(以600 x 500像素(30萬像素)圖片為例)
◦ 1位元:黑白圖片所需儲存空間為1 bit x 600 x 500 = 300,000 bits = 37,500 Bytes = 約37 KB
◦ 8位元:灰階圖片所需儲存空間為8 bits x 600 x 500 = 2,400,000 bits = 300,000 Bytes = 約293 KB
◦ 24位元:真彩圖片所需儲存空間為3 x 8 bits x 600 x 500 = 7,200,000 bits = 900,000 Bytes = 約879 KB
63
- 76. 監督式學習-相同/相似維度
如何確認資料相同或相似?
可運用卡方檢定(chi-square test),測試是否有顯著差異
X1 X2 X3 X4
0.1 0.1 0.1 1
0.2 0.2 0.2 1
0.3 0.3 0.3 1
0.4 0.4 0.4 1
0.5 0.5 0.6 1
488.92
05.0,4df
1
2
2
n
i i
ii
E
EO
488.90
5
1 ,1
2
,1,22
i i
ii
x
xx
X2與X1比對:
488.902.0
5
1 ,1
2
,1,32
i i
ii
x
xx
X3與X1比對:
488.9333.14
5
1 ,1
2
,1,42
i i
ii
x
xx
X4與X1比對:
X2與X1、X3與X1皆無顯著差異,
故X2和X3皆可以考慮刪除
76
- 77. 2.001 21 xxy
監督式學習-相同/相似維度
無作用之資料欄位(屬性)可刪除
線性迴歸
◦ 線性函式
◦ 計算結果
X1 X2 Y 估計值
0.1 1 0.3 0.3
0.2 1 0.4 0.4
0.3 1 0.5 0.5
0.4 1 0.6 0.6
0.5 1 0.7 0.7
bxwxwy 2211
當n個inputs參數(即n維資料維度,n個X)且僅有1
個output參數(即1個Y)時,會搭配n個權重值,再
加1個Bias
以此例而言,當X2為常數,永遠等於1時,則X2
不具參考價值,所以權重為0
X2沒辦法表達任何資訊,
可以刪除X2維度
77
- 94. 驗證與衡量指標
94
真值 機器學習分類結果
第1類 第1類
第1類 第3類
第1類 第1類
第2類 第2類
第2類 第2類
第3類 第1類
第3類 第1類
正確答案為
「目標類別」
正確答案為
「非目標類別」
機器答案為
「目標類別」
True Positive (TP)
False Positive (FP)
(型一(Type I)誤差)
機器答案為
「非目標類別」
False Negative (FN)
(型二(Type II)誤差)
True Negative (TN)
%50
4
2
Precision
FPTP
TP
%67
3
2
Recall
FNTP
TP
以「第1類」為例
正確答案為
「目標類別」
正確答案為
「非目標類別」
機器答案為
「目標類別」
True Positive (TP)
2
False Positive (FP)
2
機器答案為
「非目標類別」
False Negative (FN)
1
True Negative (TN)
2