データサイエンス概論第一=8 パターン認識と深層学習

1
九州大学大学院システム情報科学研究院
データサイエンス実践特別講座
データサイエンス概論第一
第8回パターン認識と深層学習
システム情報科学研究院情報知能工学部門
内田誠一
九州大学数理・データサイエンス教育研究センター／年月版2018 4

2
データサイエンス概論第一の内容
 データとは
 データのベクトル表現と集合
 平均と分散
 データ間の距離
 データ間の類似度
 データのクラスタリング
（グルーピング）
 線形代数に基づくデータ解析の基礎
 主成分分析と因子分析
 回帰分析
 相関・頻度・ヒストグラム
 確率と確率分布
 信頼区間と統計的検定
 カテゴリカルデータの検定(予定)
 時系列データの解析
 異常検出
 画像処理
 パターン認識と深層学習

3
パターン認識

4
パターン認識とは？
「これなんだ？」という問題を，計算機に解かせる

5
計算機による「パターン認識」の基本原理
入力パターン
「豚肉」「牛肉」
「みかん」
「すいか」
「パイン」「鯛」
どれと最も類似？
計算機に登録された
標準パターン
クラスラベル

66
認識の対象となるパターン
 画像
 顔，指紋，虹彩，耳，唇，掌の静脈
 医療画像(CT/MRI)
 文字，記号，標識，ナンバープレート
 環境内の物体配置，姿勢
 衛星画像中の植生分布...
 時間と共に変化するもの（時系列データ）
 行動，ジェスチャ，歩行，ゲーム操作
 音声
 文字
 心拍数変化，呼気量変化
 環境中のNOx濃度変化，気温変化，
 DNA系列（※時系列ではない）...

7
顔認識の実現法
入力パターン
標準パターン
“Ａ氏”
“Ｂ氏”
“Ｃ氏”
比較
認識結果
入力パターン=“C氏”
クラスラベル画像

8
行動認識の実現法
入力パターン
標準パターン
“ばいばい”
“万歳”
比較
認識結果
入力パターン=“指差し”
時間 “指差し”
姿勢データ系列
動画像系列
加速度データ系列
クラスラベル
行動データ

9
最近傍法と特徴抽出：
最も基本的なパターン認識

10
最近傍法：
最も近いクラスを認識結果とする
入力パターン「豚肉」「牛肉」
「みかん」
「すいか」
「パイン」「鯛」
どれが入力に最も近い
(=最も似ている)？
標準パターン

11
パターンはベクトル(特徴ベクトル)で表される(1/2)
色特徴
テクスチャ
(模様)特徴
豚肉=(色，形，模様)
=(10, 2.5, 4.3)
※これらの数字はテキトーです
こんな感じで，それぞれは何かしらの
数字の組で表されているとします

12
パターンはベクトル(特徴ベクトル)で表される(2/2)
色特徴
テクスチャ
(模様)特徴
各数字のことを「特徴」と呼びます
=(10, 2.5, 4.3)
こんな感じで，それぞれは何かしらの
数字の組で表されているとします
「特徴として何を使うか」は
これまで経験的に
決められていた

13
時には高次元ベクトルになるかも
色特徴
テクスチャ
(模様)特徴
豚肉=(色，形，模様,..., なんちゃら)
=(10, 2.5, 4.3,..., 5.9)
3つ以上の特徴で表されると，その分だけ
座標軸が要りますが，以後省略します
なんちゃら
特徴

14
違うパターンは違うベクトルになる
色特徴
テクスチャ
(模様)特徴
牛肉=(色，形，模様)
=(8, 2.6, 0.9)
=(10, 2.5, 4.3)

15
計算機が覚えているパターン(標準パターン)は
こんな感じで分布
色特徴
テクスチャ
(模様)特徴

16
さて，クラス未知の入力パターン
色特徴
テクスチャ
(模様)特徴
これが何であるかを知りたい！
入力 x

17
入力 x
最近傍法
＝距離最小 or 類似度最大のクラスに識別
最近傍パターン
色特徴
テクスチャ
(模様)特徴
これが一番近いので，
「入力=みかん」と答える

18
ところで，特徴もイロイロある
(ここ，ちょっと重要)
パターン自身の性質
 オレンジの画素数→多い
 青の画素数→小
 円形度→高い
 線対称度→高い
 模様→細かい
….
他のパターンとの関係
 「車」との類似度→低
 「リンゴ」との類似度→高
 「猿」との類似度→低
 「柿」との類似度→高
…
他者との類似度も
特徴になる！

19
ところで，特徴もイロイロある
(後の話のために，ちょっと重要)
パターン自身の性質
 オレンジの画素数→多い
 青の画素数→小
 円形度→高い
 線対称度→高い
 模様→細かい
….
他のパターンとの関係
 「車」との類似度→低
 「リンゴ」との類似度→高
 「猿」との類似度→低
 「柿」との類似度→高
…
僕って，
身長が170cm,
体重が62km,
100m走が12.4秒，
ラーメン替玉が3杯...
自分自身に
関する量で
自分を特徴づけ
僕って，
俳優Aに「やや似」,
俳優Bに「激似」
俳優Cに「全然似てない」，
俳優Dも「全然似てない」...
他者との
関係で
自分を特徴づけ
どっちがイイとか悪いとかじゃなく，
単に特徴づけには色々あるってこと

20
「他のパターンとの関係（類似度）特徴」でも
最近傍識別は可能
柿との
類似度
車との類似度
先程の状況
類似度が二回(特徴抽出と識別)出てきて，ちょっとややこしいですが..

21参考(飛ばしてＯＫ) 21
最近傍法以外のパターン認識手法
 統計的パターン認識
 各クラスのパターンの分布を，確率分布で表現
 ベイズ識別（誤認識を最小にする識別）
 識別関数法
 クラス間の境界を設定（＝学習）して用いる方法
• 正確には「クラス間の境界を定める関数」（識別関数）を設定して用いる方法
 Support Vector Machine (SVM)が有名
 次節で学ぶニューラルネットワークもその一つ
 アンサンブル学習
 複数のパターン認識器を統合する方法
 次節で学ぶニューラルネットワークもその一つ
様々な機械学習法とも
密接に関係

次元の呪い
 パターンを表現するベクトルが高次元の場合は要注意！
 標準パターン（や学習パターン）が大量に無いと，まともな認識はできない
 (認識対象にもよるが，大雑把に言って)次元数の10倍以上はほしい
 直観的には「(高次元の)非常に大きな空間に，パラパラっとしか標
準パターンがない状況になる．なので，それらで決めたクラス境界は
信頼できない」
 ヒューズの現象．オーバーフィッティングの一種
 よかれと思って「あれもこれも」と特徴を増やすと，逆に認識精度が落ちる
 球面集中現象も起こる
 パターン間の距離に差が無くなっていく（＝すべてのパターンが等距離に！？）

23
深層学習

24
用語についてちょっと整理
AI(人工知能)
機械学習
ニューラルネットワーク
ディープニューラル
ネットワーク
こいつの学習法が
ディープラーニング
(深層学習)
主として画像用
畳み込みディープ

25
神経細胞（ニューロン）は
内積を計算している！？

26
神経細胞（ニューロン）
https://commons.wikimedia.org/
樹状突起
軸索
軸索末端
出力
次のニューロンへ
刺激
(入力)
何らかの
処理

27
ニューロンの計算モデル
https://commons.wikimedia.org/
入力 g ( )xgx 出力
1x
jx
dx
1w
jw
dw
g
( )xg
重み
関数

28
ニューロンの計算モデル：
もうちょっとキチッと
Σ ( )xg
1x
jx
dx
1
……
b
( )bf
bxwfg
T
d
j
jj
+=








+= ∑=
xw
x
　　　
1
)(
x 1w
jw
dw
f
f: 非線形関数
入力
出力
重み

29
キチッとしたいけど，
面倒くさそうなものは考えたくない
Σ ( )xg
1x
jx
dx
1
……
b
x 1w
jw
dw
f
f: 非線形関数
OK，
忘れよう
( )bf
bxwfg
T
d
j
jj
+=








+= ∑=
xw
x
　　　
1
)(

30
結構簡単になった．
でもまだ面倒そうなものが…
Σ ( )xg
1x
jx
dx
1
……
b
x 1w
jw
dwOK,
忘れよう
∑=
+=
d
j
jj bxwg
1
)(x

31
ずいぶん簡単になった．
あれ，これ見たことある？
Σ
1x
jx
dx
……
xwT
これは２つの
ベクトルの内積x
1w
jw
dw
w
xw
x
T
d
j
jj xwg
=
= ∑=
　　　
1
)(
入力重み

32
念のため：内積の復習

33
ニュールラネットワーク
=ニューロンの組合せ
＝内積の組合せ
シンプルな内積で，複雑な機能を実現！

34
なるほど，ニューロンは内積らしい．
ところで内積って何だっけ？
xwT
Σ
1x
jx
dx
……
1w
jw
dw
似たベクトルの内積値は大きくなる
→内積は入力x と重みwの類似度を表現
入力重み

35
ということは，K個のニューロンが
あれば K個の類似度が…
x
1x
jx
dx

36
x
1x
jx
dx
1w
2w
Kw 













xw
xw
xw
T
K
T
T

2
1

37














xw
xw
xw
T
K
T
T

2
1
x
1x
jx
dx
1w
2w
Kw
との類似度
0.9
との類似度
0.75
との類似度
0.05

38
そう，K個のニューロンがあれば
K次元の(類似度)特徴が出せる
1w
0.9
0.05
0.75
との類似度(内積)
入力
等価
Kw との
類似度

39
実は内積には別の機能も！
xvT
Σ
1x
jx
dx
……
1v
jv
dv
内積＝類似度なので
最近傍識別のための類似度にも使える
v
x

40
ニューラルネットワーク，これで完成！
…
特徴抽出のための内積
1w
Kw
1x
jx
dx
……
2w
識別のための内積
AV
CV
BV
Aらしさ
Bらしさ
Cらしさ
最大値を
とれば
OK!

41
いよいよディープに
なぜ「深層」である必要があるのか？

42
ディープニューラルネットワークってこんな感じ
1x
jx
dx
…
何度も特徴抽出しているだけ
識別
……
…
f
f
f
f
f
f

43
なぜ何度も特徴抽出？
「今使ってる特徴＝類似度」を思い出そう
A
D
C
B
E
Ｆ
例えば，
みかんと柿の認識問題：
ゴチャゴチャ混ざっていて，
誤認識が起きそう

44
A
D
C
B
E
Ｆ
1w2w

45
A
D
C
B
E
Ｆ
1w2w
Ｆ
1w との類似度
2w
との
類似度
A
B
C
D
E
※ここにほんのちょっとゴマカシがあります．気づかない人は
気づかなくて全然OK. 一応白状しておくと，仕組みの理解を
容易にするために，上から下に空間変換する際との類似度と
して，厳密な内積値は使っていません．図上では，(距離
的に)近ければ類似度は大きい，という感じで空間変換してます．
このゴマカシは本質的理解を妨げるものではないと信じてます．
𝐰𝐰1との類似度大
𝐰𝐰2との類似度小

46
A
D
C
B
E
Ｆ
1w2w
Ｆ
1w との類似度
2w
との
類似度
A
B
C
D
E
上の状況より，
よりゴチャゴチャ度は減ったが
もうちょっとキレイに分けたい
(専門的には「まだ線形分離不能」)

47
A
D
C
B
E
Ｆ
1w2w
Ｆ
1w との類似度
2w
との
類似度
A
B
C
D
E3w
4w

48
A
D
C
B
E
Ｆ
1w2w
Ｆ
1w との類似度
2w
との
類似度
A
B
C
D
E3w
4w
3w
4w
A
D
E
B
C
Ｆ
との類似度
との
類似度

49
A
D
C
B
E
Ｆ
1w2w
Ｆ
1w との類似度
2w
との
類似度
A
B
C
D
E3w
4w
3w
4w
A
D
E
B
C
Ｆ
との類似度
との
類似度
簡単に識別できそう

50
A
D
C
B
E
Ｆ
1w2w
Ｆ
1w との類似度
2w
との
類似度
A
B
C
D
E3w
4w
3w
4w
A
D
E
B
C
Ｆ
との類似度
との
類似度
3w
4w
A
D
E
B
C
Ｆ
との類似度
との
類似度
実際，こんな風に𝒗𝒗1, 𝒗𝒗2を
置けば，完全に識別可能
2v
1v

5151
 要するに，各層で空間変換(線形変換)をやって，なるべく
分離識別しやすいようにしている
 それを何度も繰り返す(=多層を通す）ことで，どんどん
分離識別しやすくできると期待できる
 ただし，空間変換時に，ちょっとだけ非線形処理が入る
 説明を簡単にするために無視した例のやつです…
 小さくなりすぎた類似度とかを，「まぁ，そんなに
小さくせんでもいいやろ」と手加減する処理です
 このスライドの最後尾に，参考情報として説明
しています

52
ニューラルネットの学習
非常に表層的な説明で恐縮ですが…

53
ニューラルネットワークを「ちゃんと動かす」には…
…
1w
Kw
1x
jx
dx
……
2w
AV
CV
BV
Aらしさ
Bらしさ
Cらしさ
これらを「適切に」定める必要
1w AV2w

54
ニューラルネットワークの学習：
識別境界をより適切に！
咳の回数
体温
健康
インフル
調節つまみ
識別境界
※実際の「つまみ」の数は，万～億単位(or more)九州大学数理・データサイエンス教育研究センター／年月版2018 4

55
学習のプロセス＝「失敗→調整」の繰り返し
(いわゆるバックプロパゲーションで実現）
ダメ
調整
ダメ
ダメ
ダメ
初期状態
調整
OK, 終了
咳の回数
体温
識別境界

56
そういえば，つまみ＝重み＝基準パターン
xwT
Σ
1x
jx
dx
……
1w
jw
dw
入力重み
バスケットボールと
入力の類似度
学習により，これが
自動的に定まるということは…

57
認識に有効な「特徴(=基準パターン)」を
自動的に見つけてくれるということ！
基準パターン𝐾𝐾
との類似度
基準パターン1
との類似度
これが
「googleが深層学習で
猫を自動的に見つけた」と
言われている話に繋がる
(表現学習)
https://googleblog.blogspot.jp/2012/06/

5858
ディープニューラルネットワークに関する注意
 学習データはとにかく大量に必要
 (ネットワークの規模や問題の複雑さによるが)数千～数万はほしい
 「学習パターンと大きく違う」パターンに対しては，とんでもない誤認識
をする場合がある
 知らないものについては，全く融通が利かない
 Adversarial examples
 全体の層数や各層のニューロン数の決定法は(まだ)ない
 試行錯誤で決める
 一般には，{データが少ない or 問題が簡単}なら少なくする

59
画像扱うには？～
畳み込みニューラルネットワーク

60
kw
画像を扱うには？
x
xwT
k
400万次元ベクトル
400万次元ベクトル
①計算時間→鬼
②学習すべきパラ
メータ数→鬼

61
kw
画像を扱うには？
畳み込みニューラルネットワーク
x
ji
T
k ,xw
比較的低次元の
ベクトル
ji,x
①計算時間→激減
②学習すべきパラ
メータ数→激減

62
kw
「畳み込み層」登場！
x
ji,x
やはり2次元的な
マップ(画像)になる同じ重みの
使い回し！
結局フィルタリング
処理(=畳み
込み)と同じ！

63
kw
「プーリング層」
x
ji,x
最大値だけ
残す
①ずれを吸収！
②情報を集約！
(=マップを小さく)

(おすすめ！)学習の様子を観察：
Google による (tensorflow) playground

ディープニューラルネットの挙動を
解析する方法もイロイロ(1/3)
 内部のデータ分布の可視化
 層を進むにつれ「分布が解きほぐされ」
認識しやすく
九州大学数理・データサイエンス教育研究センター／年月版2018 4DeCAF [Donahue+, arXiv 2013]
入口に近い層出口に近い層

 どのような入力画像が各ニューロンを最も活性化させるのか？
 Feature visualization by optimization
九州大学数理・データサイエンス教育研究センター／年月版2018 4https://distill.pub/2017/feature-visualization/

 入力画像のどこが結論(認識結果)に寄与しているか？
 Layer-wise Relevance Propagation
 gradCAMというのもよくつかわれる
九州大学数理・データサイエンス教育研究センター／年月版2018 4http://www.explain-ai.org/

68参考(飛ばしてＯＫ)
非線形関数の効果の
直感的理解
入力パターン
d次元空間
x
1w
2w
Kw
ある程度以上
遠くても
(負の)一定値
ある程度以上
近ければ一定値
ある程度以上
近ければ一定値
f: 非線形関数
関数前の
内積値
関数後の
内積値
一定値に
飽和させる

直感的理解
 内積による「類似度」を特徴とした
空間で，効果を見ると...
f: 非線形関数
xwT
1
xwT
K
1
1
1
x
w
T
2
f
f
f
f

直感的理解
 内積による「類似度」を特徴とした
空間で，効果を見ると...
f: ReLU
xwT
1
xwT
K
x
w
T
2
f
変わらず
変わらず
f
内積値がマイナスになったもの(=類似度が低くなったもの)を，
(見捨てずに)第一象限に戻してやっているだけ
関数前の
内積値
関数後の
内積値
内積値が正なら
関数前＝関数後
(要は何もしない)
内積値が負なら
強制的にゼロにする

データサイエンス概論第一=8 パターン認識と深層学習

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to データサイエンス概論第一=8 パターン認識と深層学習

Similar to データサイエンス概論第一=8 パターン認識と深層学習 (20)

More from Seiichi Uchida

More from Seiichi Uchida (17)

データサイエンス概論第一=8 パターン認識と深層学習