公聴会　発表スライド

STATISTICAL MODELS INCLUDING
NORMALIZATION PROCESSES
FOR IMAGE RECOGNITION
画像認識のための正規化
プロセスを含んだ統計モデル
創成シミュレーション工学専攻
計算システム工学分野徳田・南角研究室
玉森聡

概要
 序論
 研究背景および目的
 分離型格子2次元HMMの概要及び既存手法との関連
 研究紹介
分離型格子2次元HMMの拡張
 回転変動への対応
 観測間の相関を捉えるモデル
 活動報告
2

概要
 序論
 研究紹介
 活動報告
3

研究背景および目的（1/2）
 画像認識
 画像に含まれる何らかの意味がある認識対象を識別
 セキュリティ，工業用検査，娯楽などの様々な分野で需要増加
 認識対象の多さ・データの複雑さから多種多様な手法が提案
 統計的機械学習に基づく画像認識
 デジタル機器の普及により多種多様で膨大な画像が存在
 計算機の発展により画像を高速に処理可能
⇒統計的機械学習に基づく画像認識手法が注目
4

 画像認識
 画像に含まれる何らかの意味がある認識対象を識別
 セキュリティ，工業用検査，娯楽などの様々な分野で需要増加
 認識対象の多さ・データの複雑さから多種多様な手法が提案
 統計的機械学習に基づく画像認識
 デジタル機器の普及により多種多様で膨大な画像が存在
 計算機の発展により画像を高速に処理可能
⇒統計的機械学習に基づく画像認識手法が注目
画像認識のための汎用的な統計モデルの構築
顔画像認識，文字認識，ジェスチャ認識など
様々な画像・タスクに適用可能なモデル
5

 画像認識のアプローチは大きく2つに分類
 人間の経験的な知識を積極的に利用する方法
（例）：「人間の目は２つで鼻の上側」「横向きの車はタイヤ２つ」
利点：実用を重視，少量の学習データでも高い認識率
欠点：タスクに応じて人間が試行錯誤を繰り返す必要
 多次元特徴空間のパターン識別として捉える方法
 正規化された固定長の多次元ベクトルを仮定
画像の切り出し，特徴抽出などの前処理が必要
 画像固有の特性を考慮していない場合が多い
（例）：照明条件，2次元空間内の幾何学的変動など
6

 画像認識のアプローチは大きく2つに分類
 人間の経験的な知識を積極的に利用する方法
（例）：「人間の目は２つで鼻の上側」「横向きの車はタイヤ２つ」
利点：実用を重視，少量の学習データでも高い認識率
欠点：タスクに応じて人間が試行錯誤を繰り返す必要
 多次元特徴空間のパターン識別として捉える方法
 正規化された固定長の多次元ベクトルを仮定
画像の切り出し，特徴抽出などの前処理が必要
 画像固有の特性を考慮していない場合が多い
（例）：照明条件，2次元空間内の幾何学的変動など
前処理とモデル学習を同時に最適化する枠組みの構築
画像固有の特性を考慮した正規化プロセスの組み込み
7

概要
 序論
 研究紹介
 活動報告
8

確率的固有画像モデル
 主成分分析を確率統計モデルとして定式化
 固有画像を確率的主成分分析 (PPCA) や因子分析 (FA)
により表現
: 観測データ
: 因子負荷行列
: 因子ベクトル
: 固有画像 (基底)
: ノイズベクトル
利点 : データ間の共分散や相関を効率的にモデル化可能
欠点 : 事前に幾何学的変動に対する正規化処理が必要 9

確率的固有画像モデル
 主成分分析を確率統計モデルとして定式化
 固有画像を確率的主成分分析 (PPCA) や因子分析 (FA)
により表現
: 観測データ
利点 : データ間の共分散や相関を効率的にモデル化可能
欠点 : 事前に幾何学的変動に対する正規化処理が必要
ノイズベクトルの分散
・対角等分散 ⇒ PPCA
・対角共分散 ⇒ FA
10

その他の先行研究例
 HMMに基づく手法
 1次元HMMを人間の顔認識に利用［Samaria et.al; ‘93］

 Embedded HMM ［Nefian et.al; ‘03］

 Pseudo 2-D HMM ［Kuo et.al; ‘94］

 2次元DPマッチングに基づく手法［Uchida et al; ‘01］
 画像間のマッピングをコスト関数により制御
 柔軟かつ正確なマッピングのためのコスト関数の決定
には事前知識が必要
11

⇒幾何学的変動に対する頑健性を欠く


12

⇒画像の幾何学的連続性を保つことが困難

13

⇒画像の幾何学的連続性を保つことが困難
⇒取りうる状態の組合せが多く計算量が膨大（指数オーダー）
14

分離型格子2次元HMM（SL2D-HMM）
 2次元に拡張したHMMに構造的な制約条件
⇒縦方向と横方向の状態遷移は独立
 幾何学的変動（並進, 拡大縮小）のモデル化
 状態の組合せ総数の削減 ⇒ 計算量の削減
出力確率分布
横方向の状態遷移
縦
方
向
の
状
態
遷
移
状態で画像を矩形領域に分割
特徴量は対応する
確率分布より出力
15

可変固有画像モデル［Higaki el al.; ‘07］
 基底とノイズベクトルが分離型格子2次元HMMから生成
: 観測データ
利点 : 状態間の共分散や相関と幾何学的変動をモデル化
16

パラメトリック固有空間法との関連
 パラメトリック固有空間法［Murase; ‘02］の特徴
 連続的に見かけが変化する画像を固有空間上の多様体で表現
 一連の画像を多様体上の軌跡として表現
 対象の大きさ・輝度の正規化が前提
 位置ずれの変動は基底の線形和で表現
⇒より多くの学習画像を必要とする
 可変固有画像モデル
 認識対象の幾何学的変動を状態遷移により表現
 状態遷移で合わせきれない部分を基底により表現
例：照明変動や顔の表情の変化など
17

パラメトリック固有空間法との関連
 パラメトリック固有空間法［Murase; ‘02］の特徴
 連続的に見かけが変化する画像を固有空間上の多様体で表現
 一連の画像を多様体上の軌跡として表現
 対象の大きさ・輝度の正規化が前提
 位置ずれの変動は基底の線形和で表現
⇒より多くの学習画像を必要とする
 可変固有画像モデル
 認識対象の幾何学的変動を状態遷移により表現
 状態遷移で合わせきれない部分を基底により表現
例：照明変動や顔の表情の変化など
18
より少ないデータで汎用性の高いモデルを実現

部分空間法・テンプレートマッチ法との関連
 可変固有画像モデルにおける識別的パラメータ共有構造
基底と因子の共有レベルにより様々な構造を表現
 基底と因子がクラス固有 ⇒ 部分空間法
 基底を全クラスで共有 ⇒ 固有顔法
 基底と因子の共有構造を変化 ⇒ 両者の中間的構造を表現
 各状態のガウス分布が画像の形を表わすテンプレート
対象の位置ずれを状態遷移で表現
 確率的テンプレートマッチとみなすことが可能
 状態数は画像テンプレートの数に対応
［Fujii et al.; ’10］

部分空間法・テンプレートマッチ法との関連
 可変固有画像モデルにおける識別的パラメータ共有構造
基底と因子の共有レベルにより様々な構造を表現
 基底と因子がクラス固有 ⇒ 部分空間法
 基底を全クラスで共有 ⇒ 固有顔法
 基底と因子の共有構造を変化 ⇒ 両者の中間的構造を表現
 各状態のガウス分布が画像の形を表わすテンプレート
対象の位置ずれを状態遷移で表現
 確率的テンプレートマッチとみなすことが可能
 状態数は画像テンプレートの数に対応
従来の認識手法を内包しつつ
幾何学的変動に対処可能なモデル
［Fujii et al.; ’10］

概要
 序論
 研究紹介
 活動報告
21

概要
 序論
 研究紹介
 活動報告
22

はじめに
分離型格子2次元HMMの問題点
1. アフィン変換への対応が不完全
 並進・拡大縮小のみに対応可能
 回転変動には対応困難
2. モデル化能力に関する脆弱性
 隣接する観測間の相関を無視
 同一状態内で変動する観測のモデル化が困難
分離型格子2次元HMMの問題点を解消する
より高精度な統計モデルを提案
23

回転変動を考慮したモデル構造（1/2）
分離型格子2次元HMMによる画像のモデル化
⇒矩形状の領域分割
 並進，拡大・縮小
領域のサイズを変更して対応
 回転変動
サイズの変更では対応困難
24

 回転変動
25

 回転変動
26

 回転変動
27

 回転変動
28

 回転変動
29

 回転変動
30

 回転変動
回転変動を考慮したモデル構造が必要
31

シフト状態遷移系列の導入
縦・横方向の状態位置をシフト ⇒回転変動を吸収可能
縦
方
向
の
状
態
遷
移
32

縦
方
向
の
状
態
遷
移
33

縦
方
向
の
状
態
遷
移
34

縦
方
向
の
状
態
遷
移
35

横方向のシフト状態遷移
縦
方
向
の
状
態
遷
移
縦
方
向
の
シ
フ
ト
状
態
遷
移
36

横方向のシフト状態遷移
縦
方
向
の
状
態
遷
移
縦
方
向
の
シ
フ
ト
状
態
遷
移
37

 関数の逐次最大化による最尤推定
 E-step : 事後確率の計算
 M-step : モデルパラメータの推定
 同時事後確率の計算量が膨大
⇒実時間では最適化が困難
EMアルゴリズム
変分EMアルゴリズムによる計算量削減
：観測データ：状態遷移系列：シフト状態遷移系列：モデルパラメータ
38

変分EMアルゴリズム（1/2）
 対数尤度の下限を定義
（Jensenの不等式）
39

40

の近似分布
41

の近似分布
下限を最大化する近似事後分布の推定
42

 近似事後分布の変数間の独立性を仮定
⇒計算量を大幅に削減（指数オーダ→多項式オーダ）
 下限の逐次最大化
E-step
M-step
が収束するまで
交互に繰り返す
43

実験条件（1/2）
 顔画像認識実験により提案手法の有効性を検証
データベース XM2VTS
原画像サイズ 720×576
画像サイズ 64×64
階調数 256,グレースケール
学習データ 1人あたり7枚×100人
テストデータ 1人あたり1枚×100人
2次元HMM状態数 24×24
シフト状態数
6×6, 10×10, 14×14,
16×16, 18×18
44

 データの変動の種類
 回転変動のみ
 位置・大きさ・回転変動
 意図した変動をモデルが表現可能か否かの検証が目的
 回転変動の場合
 状態位置のシフトによりどこまで回転が表現できるかを検証
 モデル自体は±45度程度の範囲を表現する能力
 位置・大きさの変動の場合
 認識対象が画像内に十分収まる範囲で検証
45
データのサイズの変動 500×500 ～ 600×600
データの位置の変動中心から40×20ピクセル以内
データの回転角－10°～ 10°（正規乱数）

用意したデータの例
 回転変動
 位置・大きさ・回転変動
46

実験結果（学習データの変動：回転のみ）
変動なし
回転変動
従来モデル提案モデル（シフト状態数あり）
テストデータ
の変動
47

変動なし
回転変動
変動なしデータのみで
学習・認識したときの結果
テストデータ
の変動
48

変動なし
回転変動
テストデータ
の変動
49

変動なし
回転変動
テストデータ
の変動
50

変動なし
回転変動
認識率低下
テストデータ
の変動
51

変動なし
回転変動
認識率低下
テストデータ
の変動
テストデータの変動による認識率の違い
⇒学習データの変動と不一致のため
52

変動なし
回転変動
テストデータ
の変動
53

変動なし
回転変動
テストデータ
の変動
認識率向上
54

変動なし
回転変動
テストデータ
の変動
回転変動を適切に正規化
認識率向上
55

実験結果（学習データの変動：位置+大きさ+回転）
変動なし
位置・大きさ・回転変動
56

実験結果（学習データの変動：位置+大きさ+回転）
変動なし
位置・大きさ・回転変動
位置・大きさ・回転変動を適切に正規化
57

状態アライメント
テスト
データ
回転角 20° 10° 0° －10° －20°
SL2D-
HMM
提案モデル
 最尤状態系列に沿って平均ベクトルを配置
⇒データに対するモデルの当てはまりを視覚化

テスト
データ
回転角 20° 10° 0° －10° －20°
SL2D-
HMM
提案モデル
矩形状の状態アライメント
⇒回転変動への対応が困難

テスト
データ
回転角 20° 10° 0° －10° －20°
SL2D-
HMM
提案モデル
回転変動に対応した状態アライメント
⇒提案モデルの有効性を示す

概要
 序論
 研究背景と目的
 研究紹介
 活動報告
64

背景・目的（1/3）
 従来のSL2D-HMMの問題点
 各状態内で統計量（出力分布の平均・分散）が一定
 観測間の条件付き独立性を仮定
例：１次元HMM
65


例：１次元HMM
同一の状態⇒同一の出力分布
66

⇒状態内で変化する観測の詳細なモデル化が困難
例：１次元HMM
同一の状態⇒同一の出力分布
67

例：１次元HMM
68


例：１次元HMM
69

⇒隣接する観測間の相関を無視
例：１次元HMM
70

 SL2D-HMMへの動的特徴量の適用［Kumaki el al; ‘10］
 動的特徴量を追加 ⇒ 認識性能の大幅な向上
 隣接観測間の依存関係をモデル化する手法の1つ
：静的特徴量
静的特徴量
71

：静的特徴量
水平方向のデルタ垂直方向のデルタ静的特徴量
窓行列
72

：静的特徴量
水平方向のデルタ垂直方向のデルタ
：観測ベクトル
静的特徴量
窓行列
73

：静的特徴量
水平方向のデルタ垂直方向のデルタ
：観測ベクトル
静的特徴量
関係式（行列形式）
窓行列
74

 統計モデル的に正しくない枠組み
 静的・動的特徴量を独立な確率変数としてモデル化
⇒静的特徴量が決まれば動的特徴量は一意に決定
 統計モデルはに対する関数として定義されるべき
⇒本来観測されたものはでありではない
分離型格子2次元HMMを
静的特徴量の統計モデルとして再定式化
75

トラジェクトリHMM ［Zen et al; ‘06］
時間的関係を考慮した静的特徴量の統計モデル
静的特徴量，動的特徴量の関係を明示的にモデル化
HMMの出力確率分布
76

HMMの出力確率分布 ⇒ 各特徴量分布の積
77

静的特徴量 1次動的特徴量
（速度）
2次動的特徴量
（加速度）
78

観測系列
0.8
0.4
0.0
-0.4
-0.8
-1.2
50 100 150 200 250 300 350 400 4500
Time (frame)
（速度）
2次動的特徴量
（加速度）
79

観測系列
0.8
0.4
0.0
-0.4
-0.8
-1.2
50 100 150 200 250 300 350 400 4500
Time (frame)
（速度）
2次動的特徴量
（加速度）
HMMの平均系列 ⇒ 階段上の不連続な系列
HMMの平均系列
80

観測系列
0.8
0.4
0.0
-0.4
-0.8
-1.2
50 100 150 200 250 300 350 400 4500
Time (frame)
（速度）
2次動的特徴量
（加速度）
トラジェクトリHMMの確率分布 ⇒ の分布として正規化
HMMの平均系列
81

観測系列
0.8
0.4
0.0
-0.4
-0.8
-1.2
50 100 150 200 250 300 350 400 4500
Time (frame)
（速度）
2次動的特徴量
（加速度）
HMMの平均系列
正規化定数
82

観測系列
0.8
0.4
0.0
-0.4
-0.8
-1.2
50 100 150 200 250 300 350 400 4500
Time (frame)
トラジェクトリHMMの平均系列 ⇒ 状態内で滑らかに変化
（速度）
2次動的特徴量
（加速度）
HMMの平均系列
正規化定数
83

2次元的な相関を考慮した静的特徴量の統計モデル
⇒トラジェクトリHMMと同様の定式化



提案モデル
84




提案モデル
出力確率状態遷移確率
85




提案モデル
（水平方向）
1次動的特徴量
（垂直方向）
86

 平均ベクトルは状態内で値が滑らかに変化


提案モデル
（水平方向）
1次動的特徴量
（垂直方向）
87

 共分散行列は一般に全共分散型
⇒隣接する観測間の相関を考慮可能
提案モデル
（水平方向）
1次動的特徴量
（垂直方向）
88

 共分散行列は一般に全共分散型
⇒隣接する観測間の相関を考慮可能
提案モデル
（水平方向）
1次動的特徴量
（垂直方向）
SL2D-HMMの問題点を解消する統計モデル
89

推定された平均ベクトルの例
 画像サイズ：32×32 状態数：16×16
 SL2D-HMMと提案モデルの状態系列は共通
 SL2D-HMM
 提案モデル
SL2D-HMM 提案モデルテストデータ
90

 画像サイズ：32×32 状態数：16×16
 SL2D-HMM
 提案モデル
⇒状態内で値が一定
91

 画像サイズ：32×32 状態数：16×16
 SL2D-HMM
 提案モデル
⇒状態内で値が滑らかに変化
⇒状態内で値が一定
92

推定された共分散行列の例
 画像サイズ：32×32 状態数：16×16
 行と列はそれぞれ2次元格子のラスタ順で配置
SL2D-HMMの共分散行列提案モデルの共分散行列
93

 画像サイズ：32×32 状態数：16×16
対角成分のみ分散が大
94

 画像サイズ：32×32 状態数：16×16
対角成分のみ分散が大非対角成分も分散が大
95

 画像サイズ：32×32 状態数：16×16
対角成分のみ分散が大非対角成分も分散が大
隣接する観測間の相関をモデル化
96

学習アルゴリズム
EMアルゴリズム
出力確率が状態系列全体に依存
⇒Forward-Backwardアルゴリズムの適用が困難
⇒実時間による最適化が困難
関数
Viterbi近似による計算量削減
97

 顔画像認識実験による有効性の検証
 認識率は4-fold cross validationで評価
データベース XM2VTS
原画像サイズ 720×576
画像サイズ 16×16
階調数 256,グレースケール
学習データ 1人あたり6枚×100人
テストデータ 1人あたり2枚×100人
2次元HMM状態数
4×4, 6×6, 8×8
10×10, 12×12
98

 比較手法
 NoUpdate : SL2Dのパラメタを提案モデル用に線形変換
 ParamUpdate：NoUpdateのパラメタの値を最適化
 状態系列は３手法とも同一（SL2DのViterbi状態系列）
手法パラメタの更新
SL2D （従来法）－
NoUpdate なし
ParamUpdate あり
99

0
10
20
30
40
50
60
4×4 6×6 8×8 10×10 12×12
SL2D NoUpdate ParamUpdate
実験結果
状態数
認識率（%）
100

0
10
20
30
40
50
60
4×4 6×6 8×8 10×10 12×12
実験結果
状態数
認識率（%）
NoUpdateの認識率が低い
⇒パラメタが最適化されていないため
101

0
10
20
30
40
50
60
4×4 6×6 8×8 10×10 12×12
実験結果
状態数
認識率（%）
ParamUpdateの認識率が高い
⇒パラメタが最適化されたため
102

0
10
20
30
40
50
60
4×4 6×6 8×8 10×10 12×12
実験結果
状態数
認識率（%）
ParamUpdateの最高認識率がSL2Dを上回る
⇒観測間の相関が適切にモデル化されたため
103

まとめ
SL2D-HMMの問題点を解消する統計モデル
 状態位置の移動を表現するシフト状態遷移系列の導入
⇒正規化可能な変動の範囲を回転変動まで拡張
 静的・動的特徴量の関係を明示的にモデル化
⇒観測間の相関を効率よく捉えるモデル構造
画像認識のための高精度な統計モデル
104

今後の課題・将来の展望
 今後の課題
 適切な窓行列の設計，状態推定アルゴリズムの検討
 様々なデータセット上で他の手法との性能比較・評価
 省メモリ・高速化と認識性能の両立
 将来の展望
 前処理・特徴量選択・モデル構造選択の同時最適化
例：識別モデル（CRFなど）を活用した特徴量・モデル構造選択
 画像を用いた様々なタスクへの応用可能性
例：3次元物体認識，動画像認識，画像探索，文字認識など
 プログラムをオープンソースとして公開（C++）
105

概要
 序論
 研究背景と目的
 研究紹介
 活動報告
106

ソフトウェアの開発・保守
音声信号処理ツールキットSPTK
 音声信号処理に有用なLinuxコマンド群を提供
 マイクロソフト他，国内外の多くの研究機関で利用
最近1年間のダウンロード総数：約8,100
 共同研究・プロジェクトでの基盤ソフトウェア
 主要開発メンバーとして従事
数多くの新機能を開発・実装＆バグ修正等の保守作業
http://sp-tk.sourceforge.net/
107

研究活動（1/3）
 総務省 SCOPE プロジェクト
 期間 2009/11 ～ 2011/12
 「講演者のための
多言語音声合成技術に関する研究開発」
 共同研究機関
 京都市立芸術大学
 独立行政法人情報通信機構
話者選択モジュールの開発に従事しプロジェクトに貢献
おはよう
音声翻訳
システム
Good Morning
108

 JST CREST uDialogue プロジェクト
 期間 2011/10 ～ 2017/03
 「コンテンツ生成の循環系を軸とした
次世代音声技術基盤の確立」
 共同研究機関
 名古屋工業大学国際音声技術研究所
 名古屋工業大学情報基盤センター
 エジンバラ大学
研究者の方々と活発に意見を
交換しプロジェクトの発展に貢献
名工大双方向
音声案内システム
モバイル環境
音声対話システム
109

 学外交流
 NTT コミュニケーション科学基礎研究所
2012/01 ～ 2012/04 実習生
博士論文完成に不可欠な実装技術を習得
110

公聴会　発表スライド

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (20)