ae-4. ディープラーニングでの物体認識，画像分類

4. ディープラーニングでの物体
認識，画像分類
1
金子邦彦
（ディープラーニング，Python を使用）
（全１５回）
https://www.kkaneko.jp/cc/ae/index.html

画像分類での教師あり学習
2
画像
分類結果
（正解）
mammal
placental
carnivore
canine
dog など
文献 J. Deng, W. Dong, R. Socher, L. -J. Li, Kai Li and Li Fei-Fei, "ImageNet: A large-scale hierarchical image database," 2009 IEEE
Conference on Computer Vision and Pattern Recognition, 2009, pp. 248-255, doi: 10.1109/CVPR.2009.5206848.
人工知能
訓練データ
person
bicycle
画像分類

アウトライン
3
番号項目
復習
4-1 コンピュータによる画像理解
4-2 畳み込みの仕組み
4-3 画像での畳み込み
4-4 畳み込み層と全結合層
4-5 畳み込みニューラルネットワーク（CNN）の仕
組み
4-6 畳み込みニューラルネットワーク（CNN）の作
成
各自、資料を読み返したり、課題に取り組んだりも行う

ディープラーニング
• 学習による上達の能力
• 訓練データを使用して，学習を行う
• 巨大な訓練データ，深い層のニューラルネット
ワークの利用により，良好な性能・機能を発揮す
る場合も
4

ディープニューラルネットワーク
• ディープニューラルネットワークは，
層が深い（層の数が多い）ニューラルネットワーク
5
層の数が少ない（浅い）層の数が多い（深い）

画像分類の精度の向上
• ディープラーニングの進展
• 画像分類は，場合によっては，AI
が人間と同等の精度とも考えら
るように
画像分類の誤り率 (top 5 error)
人間: 5.1 %
PReLU による画像分類: 4.9 %
（2015年発表）
6
ImageNet データセット
の画像分類の結果
文献: Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun,
Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification
arXiv:1502.01852, 2015.

ニューラルネットワークの仕組み
7
入力層
中間層
出力層
〇はニューロン，線は結合
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
全結合のときは，
次層の全ニュー
ロンと結合する全結合のときは，
次層の全ニュー
ロンと結合する
• 前の層から結果を受けとって，次の層へ結果を
渡す
（他の結合は書
いていない）（他の結合は書
いていない）

ニューラルネットワークのユニット
ニューラルネットワークのユニットは，数理により
動く
① 入力は複数
② 入力を重みづけし合計をとる
③ その合計から出力値を得る
8
入力
1 2 3
4 5 6
7 8 9
1 1
2 1
3 1
4 0
5 1
6 1
7 0
8 0
9 1
白黒の画像
（画素は 0 または 1）
重み w1 ～ w9
ユニット
w1
w2
w3
w4
w5
w6
w7
w8
w9
合計
・合計に，バイアスという値を
足し引きしたあと，活性化関数
が適用され出力値が得られる．
・活性化関数はさまざまな種類
シグモイド
ReLU
（2011年発表）
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
-2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0
合計は，
1 × w1 + 1 × w2 + 1 × w3 +
0 × w4 + 1 × w5 + 1 × w6 +
0 × w7 + 0 × w8 + 1 × w9

9
入力正解
1, 1 1
0, 1 0
1, 0 0
0, 0 1
訓練データ
ユニット
1
1
重み
ユニット
1
1
重み
活性化関数
ReLU
2.0
1.0
0
-2.0 -1.0 0.0 1.0 2.0
重み
-1
2
ReLU
+ バイアス
（バイアス
は +1）
2.0
1.0
0
-2.0 -1.0 0.0 1.0 2.0
ReLU
+ バイアス
（バイアス
は -1）
2.0
1.0
0
-2.0 -1.0 0.0 1.0 2.0
1 2

10
1, 1 1
0, 1 0
1, 0 0
0, 0 1
1
1
1
1
ReLU
2.0
1.0
0
-2.0 -1.0 0.0 1.0 2.0
2.0
1.0
0
-2.0 -1.0 0.0 1.0 2.0
-1
2
2.0
1.0
0
-2.0 -1.0 0.0 1.0 2.0
それぞれのユニットが「特定のパターンを識別して
いる」と考えることもできる
ユニットが
識別する
パターン
ユニットが
識別する
パターン
ユニットが
識別する
パターン
1 2
ReLU
+ バイアス
（バイアス
は +1）
ReLU
+ バイアス
（バイアス
は -1）

4-1. コンピュータによる画像理解
11

コンピュータによる画像理解
コンピュータが画像を理解する
12

コンピュータによる画像理解
• 一般的な画像（実験室で撮影などの制約が無い）
• さまざまな応用：スマホ，デジカメ，自動車，ロ
ボット
• さまざまな種類：画像分類，物体検出，セグメン
テーション，超解像，３次元化など
13

① 画像分類
14
画像分類の結果は，ラベルと確率
※ ５つの候補 (top 5) が表示さ
れている

② 物体検出
15
person
bicycle
バウンディングボックスは，
物体を囲む最小のボックス（四角形）
car
バウンディングボックス，
ラベルを得る

③ セグメンテーション
16
物体の形を画素単位で抜き出し，
ラベルも得る

画像理解の主な種類
① 画像分類
「何があるか」を理解
② 物体検出
場所と大きさも理解
③ セグメンテーション
画素単位で領域を理解
17
person
bicycle
person
bicycle

4-2. 畳み込みの仕組み
18

畳み込み
19
畳み込みは，あるデータを移動しながら，カーネルと
重ね合わせる．重ね合わせの結果は１つの値になる．
移動
カーネルと同じ長さに切り出し
重ね合わせ
（掛け算と合計）
データ
カーネル

畳み込みの例
20
0 1 0 1 0 0 1 1 1 0
0
1 0 1
0×1 1×0 0×1
この部分を切り出す
重ね合わせの結果： 0×1 + 1×0 + 0×1 = 0
データ
カーネル

畳み込みの例
21
0
1 0 1
0×1 1×0 0×1
1 0 1
1×1 0×0 1×1
1 0 1
0×1 1×0 0×1
2 0
0 1 0 1 0 0 1 1 1 0
1 0 1
1×1 0×0 0×1
1 0 1
0×1 0×0 0×1
1 0 1
0×1 1×0 1×1
1 0 1
1×1 1×0 1×1
1 0 1
1×1 1×0 0×1
1 1 1 2 1
移動

畳み込み
22
1 0 1
畳み込みは，「特定のパターンに強く反応する」と考える
こともできる
0 2 0 1 1 1 2 1
0 1 0 1 0 0 1 1 1 0
畳み込み結果
畳み込み結果が大きくなる部分
データ
カーネル

畳み込みの用途
人工知能の他，画像，音声，その他信号の処理など
に広く応用されている
• パターンの分析
データの中からパターンを発見
• 周波数での分析，処理
特定の周波数のみ抜き出す
など
23

畳み込みのまとめ
• 畳み込みは，あるデータを移動しながら，カーネルと
重ね合わせる．
• カーネルは値の並び（例） 0 1 0
• 重ね合わせは，同じ長さの２つのデータについて，要
素同士の掛け算の合計．
24

畳み込みを行う Python プログラムの例
25
https://colab.research.google.com/drive/1pcdD-I5-2VbLizKb3egJIQWXn8tBfOuK?usp=sharing

4-3. 画像での畳み込み
26

画像の畳み込み
27
出典: https://serokell.io/blog/introduction-to-convolutional-neural-networks
元画像（５×５マス）
カーネル（３×３マス）

画像での畳み込み
28
畳み込み
0×1 1×0 1×1
0×1 1×1 1×1
0×0 1×0 1×1
切り出し（３×３マス）
カーネル
（３×３マス）
合計: 4 （これが畳み込み結果）
カーネルと同じサイズ
で切り出す
切り出した部分とカーネルの
掛け算の合計

29
畳み込み結果
カーネル
（３×３マス）
畳み込み結果
切り出し領域を横にずらす
4 3
0×1 1×0 1×1
0×1 1×1 1×1
0×0 1×0 1×1
合計: 4
1×1 1×0 0×1
1×1 1×1 0×1
1×0 1×0 0×1
合計: 3

30
畳み込み結果
4 3 5
4 3 5
4 3 5
カーネル
（３×３マス）
切り出し領域を縦横にずらす
画像全体について
畳み込み

画像の畳み込みを行う Python プログラムの例
31
https://colab.research.google.com/drive/1pcdD-I5-2VbLizKb3egJIQWXn8tBfOuK?usp=sharing

画像の畳み込みの応用例
• 人工知能以外でも，ぼかし，エッジ抽出などさま
ざまな処理で，畳み込みを使用できる
32
畳み込みによる
ぼかし
畳み込みによる
エッジ抽出

4-4. 畳み込み層と全結合層
33

濃淡画像（モノクロ画像）とニューラルネット
ワーク
34
入力層
〇はニューロン，線は結合
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
画像
モノクロ画像（濃淡画像）を扱うとき，入力層では，１つの
画素に，１つのユニットになる．
いていない）
いていない）

全結合層
• 全結合層のユニットは，前の層のすべてのユニッ
トと結合している
35
前の層全結合層
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
（他の結合は
書いていない）

畳み込み層①
• 畳み込み層は，畳み込みを行う
• 結合の重みが，畳み込みのカーネルになる
• 前の層の，一部分のユニットとのみ結合
• すべてのユニットの結合の重み、バイアスは同じ
36
前の層畳み込み層
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
0×1 + 1×0 + 0×1 = 0
畳み込みのカーネルのサ
イズが 2×2 のとき：
前の層の 4つのユニット
とのみ結合

畳み込み層①
• 畳み込み層は，畳み込みを行う
• 前の層の，一部分のユニットとのみ結合
37
前の層畳み込み層
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
0×1 + 1×0 + 0×1 = 0
畳み込みのカーネルのサ
イズが 2×2 のとき：
前の層の 4つのユニット
とのみ結合

畳み込み層②
• 畳み込み層は，一度に複数の畳み込み（数十以
上）を行うように作るのがふつうである．
• それぞれの畳み込みについて，全ユニットで，重
みとバイアスが同じ
38
前の層１つの畳み込み層
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
複数のカーネル

畳み込み層の特徴
• 画像内の特定のパターンの識別など
→ 全結合層にこだわる必要はなく，
畳み込み層などが利用される
39
MIT Introduction to Deep Learning | 6.S191,
https://www.youtube.com/watch?v=5tvmMX8r_OM
の「Why Deep Learning」のページ
画像内のパターン

ニューラルネットワーク
畳み込み層も，全結合層も，同じ原理で動作する．
「学習」も行われる
① 入力は複数
② 入力を重みづけし合計をとる
③ その合計から出力値を得る
40
入力
1 2 3
4 5 6
7 8 9
1 1
2 1
3 1
4 0
5 1
6 1
7 0
8 0
9 1
白黒の画像
（画素は 0 または 1）
重み w1 ～ w9
ユニット
w1
w2
w3
w4
w5
w6
w7
w8
w9
合計
・合計に，バイアスという値を
足し引きしたあと，活性化関数
が適用され出力値が得られる．
・活性化関数はさまざまな種類
シグモイド
ReLU
（2011年発表）
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
-2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0
合計は，
1 × w1 + 1 × w2 + 1 × w3 +
0 × w4 + 1 × w5 + 1 × w6 +
0 × w7 + 0 × w8 + 1 × w9

まとめ
• データからの学習により，結合の重みが定まる
（畳み込みのカーネルができる）
41
学習に応じた
カーネルが得られる
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
〇
複数のカーネル

4-5. 畳み込みニューラルネット
ワーク（CNN）の仕組み
42

畳み込みニューラルネットワーク（CNN）
さまざまなバリエーション
43
畳み込みニューラルネットワークは，畳み込み
層と，プーリング層を交互に繰り返すディープ
ニューラルネットワーク
畳
み
込
み
層
• 畳み込み層・・・畳み込みによるパターンの識別
• プーリング層・・・画像の小移動に対して，出力が不
変になる
畳
み
込
み
層
畳
み
込
み
層
畳
み
込
み
層
畳
み
込
み
層
プ
ー
リ
ン
グ
層
プ
ー
リ
ン
グ
層
プ
ー
リ
ン
グ
層
プ
ー
リ
ン
グ
層
プ
ー
リ
ン
グ
層

畳み込みニューラルネットワークの特徴
全結合層のみの場合と比べて．
• ユニット間の結合を局所に限定
• 結合の数を，大幅に削減
• 結合の数が減り，過学習の問題を緩和
44

畳み込みニューラルネットワーク（CNN）の用途
画像分類，物体検出，セグメンテーションなどで高
い性能・機能を発揮する場合がある
45
画像分類
物体検出
セグメン
テーション

CNN Explainer
• CNN Explainer ジョージア工科大学 Polo Club
• 畳み込み層などの仕組みをビジュアルに学ぶこと
ができるサイト
Webブラウザで次の URL を開く
https://poloclub.github.io/cnn-explainer/
46

① 画面の確認
このニューラルネットワークは，画像分類を行う
47
画像を選ぶ
元画像の
赤青緑の成分
ニューラルネットワーク画像の分類結果．
ここでは espresso

② ニューラルネットワークの構成
畳み込み層とプーリング層を含む
48
全結合層
conv relu conv relu max_pool conv relu conv relu max_pool
畳み込み層畳み込み層プーリング層畳み込み層畳み込み層プーリング層
conv は畳み込み層で，max_pool はプーリング層
全結合層全結合層全結合層

③ 左上の画像をクリック
→ 畳み込みの様子をアニメーションで確認できる
（この画像は，各層での処理結果である．画像１個
がニューロン１つというわけではない）
49

④ 出てきた画像をクリック
→ 畳み込みの詳細をアニメーションで確認できる
50

⑤ 畳み込みの様子がアニメーションで表示される
51
その他の層についてもビジュアルに表示できる
（いろいろ試すことは，各自の自主的な自習とす
る）

プーリングを行う Max Pooling 層
• ２次元のデータの縮小
（例）サイズ 100 × 100 ⇒ 50 × 50 のように
• 一定領域内の結果を，１つにまとめる．
• 定まった計算を行う（学習の対象ではない）
• Max Pooling は，縮小後に，最大値が残る
範囲内のユニットの活性度の最大を得る
52
・4, 8, 7, 1 の最大値は 4
・「4, 8, 7, 1」の 4マス
から，最大値の 8 を選ぶ．
出典: https://github.com/jeffheaton/t81_558_deep_learning/blob/084023876b6cf09c931b452584dbd44c56314a03/t81_558_class_06_2_cnn.ipynb

LCN 層
• コントラストの補正（明るい部分、暗い部分を補
正する）
• 定まった計算を行う（学習の対象ではない）
• 領域内の平均を引くという計算を行うもの．さら
に分散で割るという場合もある
53
5 5
6 6
4
5 5 4
5
0 0
1 1
-1
0 0 -1
0
領域内の
平均を引く

4-6. 畳み込みニューラルネット
ワーク（CNN）の作成
54

• 手書き文字の画像を，0 ～ 9 に分類
• 訓練データとして，手書き文字の画像 60000枚を
使用
55

MNISTデータセット
• 0 ～ 9 の手書き文字．濃淡画像 28 × 28
• 訓練データ（学習用）
• 検証データ（検証用）
56
60000枚の画像と正解
10000枚の画像と正解
抜粋
抜粋

画像分類を行う畳み込みニューラルネッ
トワーク
57
入力
出力
ユニット
10 個
softmax
最終層
ユニット
128 個
relu
畳
み
込
み
層
畳
み
込
み
層
プ
ー
リ
ン
グ
層
全
結
合
層
全
結
合
層
10種類に
分類

ニューラルネットワーク作成のプログラム例
58
import tensorflow as tf
m = tf.keras.models.Sequential([
tf.keras.layers.Conv2D(32, kernel_size=(3, 3),
activation='relu',
input_shape=(28, 28, 1)),
tf.keras.layers.Conv2D(64, (3, 3), activation='relu'),
tf.keras.layers.MaxPooling2D(pool_size=(2, 2)),
tf.keras.layers.Dropout(0.25),
tf.keras.layers.Flatten(),
tf.keras.layers.Dense(units=128, activation='relu'),
tf.keras.layers.Dropout(0.5),
tf.keras.layers.Dense(units=10, activation='softmax')
])
←畳み込み層
←畳み込み層
←プーリング層
←全結合層
←全結合層
https://colab.research.google.com/drive/18IPPkY96Oc6jkYD2su4cFgWcoYAskLo_?usp
=sharing

学習の繰り返しを行うプログラム例
59
訓練データの指定
検証データの指定
学習の繰り返し回数は 10

学習の繰り返しを行うプログラムと実行結果
60
同じ訓練データを用いた学習を１０回繰り返し．
学習の繰り返しごとに，
訓練データや検証データ
での精度や損失
の変化を確認
そのとき，検証データで検証
プログラム
実行結果
画像分類の精度は 0.99

全体まとめ
• 画像の画素数は多い
• 全結合層だけでは，画像をうまく扱えない場合が
多い
• CNN（畳み込みニューラルネットワーク）は，畳
み込み層，プーリング層の繰り返しにより，画像
を扱う技術
• CNN（畳み込みニューラルネットワーク）は，全
結合層で画像がうまく扱えない問題を一部解決
• CNN（畳み込みニューラルネットワーク）の作成
は，プログラムで簡単にできる
61

ae-4. ディープラーニングでの物体認識，画像分類

Recommandé

Recommandé

Contenu connexe

Similaire à ae-4. ディープラーニングでの物体認識，画像分類

Similaire à ae-4. ディープラーニングでの物体認識，画像分類 (20)

Plus de kunihikokaneko1

Plus de kunihikokaneko1 (20)

ae-4. ディープラーニングでの物体認識，画像分類

Notes de l'éditeur