Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.
STATISTICAL MODELS INCLUDING
NORMALIZATION PROCESSES
FOR IMAGE RECOGNITION
画像認識のための正規化
プロセスを含んだ統計モデル
創成シミュレーション工学専攻
計算システム...
概要
 序論
 研究背景および目的
 分離型格子2次元HMMの概要及び既存手法との関連
 研究紹介
分離型格子2次元HMMの拡張
 回転変動への対応
 観測間の相関を捉えるモデル
 活動報告
2
概要
 序論
 研究背景および目的
 分離型格子2次元HMMの概要及び既存手法との関連
 研究紹介
分離型格子2次元HMMの拡張
 回転変動への対応
 観測間の相関を捉えるモデル
 活動報告
3
研究背景および目的(1/2)
 画像認識
 画像に含まれる何らかの意味がある認識対象を識別
 セキュリティ,工業用検査,娯楽などの様々な分野で需要増加
 認識対象の多さ・データの複雑さから多種多様な手法が提案
 統計的機械学習に基づく...
研究背景および目的(1/2)
 画像認識
 画像に含まれる何らかの意味がある認識対象を識別
 セキュリティ,工業用検査,娯楽などの様々な分野で需要増加
 認識対象の多さ・データの複雑さから多種多様な手法が提案
 統計的機械学習に基づく...
研究背景および目的(2/2)
 画像認識のアプローチは大きく2つに分類
 人間の経験的な知識を積極的に利用する方法
(例):「人間の目は2つで鼻の上側」 「横向きの車はタイヤ2つ」
利点:実用を重視,少量の学習データでも高い認識率
欠点:タ...
研究背景および目的(2/2)
 画像認識のアプローチは大きく2つに分類
 人間の経験的な知識を積極的に利用する方法
(例):「人間の目は2つで鼻の上側」 「横向きの車はタイヤ2つ」
利点:実用を重視,少量の学習データでも高い認識率
欠点:タ...
概要
 序論
 研究背景および目的
 分離型格子2次元HMMの概要及び既存手法との関連
 研究紹介
分離型格子2次元HMMの拡張
 回転変動への対応
 観測間の相関を捉えるモデル
 活動報告
8
確率的固有画像モデル
 主成分分析を確率統計モデルとして定式化
 固有画像を確率的主成分分析 (PPCA) や因子分析 (FA)
により表現
: 観測データ
: 因子負荷行列
: 因子ベクトル
: 固有画像 (基底)
: ノイズベクトル
利...
確率的固有画像モデル
 主成分分析を確率統計モデルとして定式化
 固有画像を確率的主成分分析 (PPCA) や因子分析 (FA)
により表現
: 観測データ
: 因子負荷行列
: 因子ベクトル
: 固有画像 (基底)
: ノイズベクトル
利...
その他の先行研究例
 HMMに基づく手法
 1次元HMMを人間の顔認識に利用[Samaria et.al; ‘93]

 Embedded HMM [Nefian et.al; ‘03]

 Pseudo 2-D HMM [Kuo ...
その他の先行研究例
 HMMに基づく手法
 1次元HMMを人間の顔認識に利用[Samaria et.al; ‘93]
⇒幾何学的変動に対する頑健性を欠く
 Embedded HMM [Nefian et.al; ‘03]

 Pseu...
その他の先行研究例
 HMMに基づく手法
 1次元HMMを人間の顔認識に利用[Samaria et.al; ‘93]
⇒幾何学的変動に対する頑健性を欠く
 Embedded HMM [Nefian et.al; ‘03]
⇒画像の幾何学的...
その他の先行研究例
 HMMに基づく手法
 1次元HMMを人間の顔認識に利用[Samaria et.al; ‘93]
⇒幾何学的変動に対する頑健性を欠く
 Embedded HMM [Nefian et.al; ‘03]
⇒画像の幾何学的...
分離型格子2次元HMM(SL2D-HMM)
 2次元に拡張したHMMに構造的な制約条件
⇒縦方向と横方向の状態遷移は独立
 幾何学的変動(並進, 拡大縮小)のモデル化
 状態の組合せ総数の削減 ⇒ 計算量の削減
出力確率分布
横方向の状態...
可変固有画像モデル[Higaki el al.; ‘07]
 基底とノイズベクトルが分離型格子2次元HMMから生成
: 観測データ
: 因子負荷行列
: 因子ベクトル
: 固有画像 (基底)
: ノイズベクトル
利点 : 状態間の共分散や相関...
パラメトリック固有空間法との関連
 パラメトリック固有空間法[Murase; ‘02]の特徴
 連続的に見かけが変化する画像を固有空間上の多様体で表現
 一連の画像を多様体上の軌跡として表現
 対象の大きさ・輝度の正規化が前提
 位置...
パラメトリック固有空間法との関連
 パラメトリック固有空間法[Murase; ‘02]の特徴
 連続的に見かけが変化する画像を固有空間上の多様体で表現
 一連の画像を多様体上の軌跡として表現
 対象の大きさ・輝度の正規化が前提
 位置...
部分空間法・テンプレートマッチ法との関連
 可変固有画像モデルにおける識別的パラメータ共有構造
基底と因子の共有レベルにより様々な構造を表現
 基底と因子がクラス固有 ⇒ 部分空間法
 基底を全クラスで共有 ⇒ 固有顔法
 基底と因子の...
部分空間法・テンプレートマッチ法との関連
 可変固有画像モデルにおける識別的パラメータ共有構造
基底と因子の共有レベルにより様々な構造を表現
 基底と因子がクラス固有 ⇒ 部分空間法
 基底を全クラスで共有 ⇒ 固有顔法
 基底と因子の...
概要
 序論
 研究背景および目的
 分離型格子2次元HMMの概要及び既存手法との関連
 研究紹介
分離型格子2次元HMMの拡張
 回転変動への対応
 観測間の相関を捉えるモデル
 活動報告
21
概要
 序論
 研究背景および目的
 分離型格子2次元HMMの概要及び既存手法との関連
 研究紹介
分離型格子2次元HMMの拡張
 回転変動への対応
 観測間の相関を捉えるモデル
 活動報告
22
はじめに
分離型格子2次元HMMの問題点
1. アフィン変換への対応が不完全
 並進・拡大縮小のみに対応可能
 回転変動には対応困難
2. モデル化能力に関する脆弱性
 隣接する観測間の相関を無視
 同一状態内で変動する観測のモデル化が...
回転変動を考慮したモデル構造(1/2)
分離型格子2次元HMMによる画像のモデル化
⇒矩形状の領域分割
 並進,拡大・縮小
領域のサイズを変更して対応
 回転変動
サイズの変更では対応困難
24
回転変動を考慮したモデル構造(1/2)
分離型格子2次元HMMによる画像のモデル化
⇒矩形状の領域分割
 並進,拡大・縮小
領域のサイズを変更して対応
 回転変動
サイズの変更では対応困難
25
回転変動を考慮したモデル構造(1/2)
分離型格子2次元HMMによる画像のモデル化
⇒矩形状の領域分割
 並進,拡大・縮小
領域のサイズを変更して対応
 回転変動
サイズの変更では対応困難
26
回転変動を考慮したモデル構造(1/2)
分離型格子2次元HMMによる画像のモデル化
⇒矩形状の領域分割
 並進,拡大・縮小
領域のサイズを変更して対応
 回転変動
サイズの変更では対応困難
27
回転変動を考慮したモデル構造(1/2)
分離型格子2次元HMMによる画像のモデル化
⇒矩形状の領域分割
 並進,拡大・縮小
領域のサイズを変更して対応
 回転変動
サイズの変更では対応困難
28
回転変動を考慮したモデル構造(1/2)
分離型格子2次元HMMによる画像のモデル化
⇒矩形状の領域分割
 並進,拡大・縮小
領域のサイズを変更して対応
 回転変動
サイズの変更では対応困難
29
回転変動を考慮したモデル構造(1/2)
分離型格子2次元HMMによる画像のモデル化
⇒矩形状の領域分割
 並進,拡大・縮小
領域のサイズを変更して対応
 回転変動
サイズの変更では対応困難
30
回転変動を考慮したモデル構造(1/2)
分離型格子2次元HMMによる画像のモデル化
⇒矩形状の領域分割
 並進,拡大・縮小
領域のサイズを変更して対応
 回転変動
サイズの変更では対応困難
回転変動を考慮したモデル構造が必要
31
シフト状態遷移系列の導入
縦・横方向の状態位置をシフト ⇒回転変動を吸収可能
回転変動を考慮したモデル構造(2/2)
横方向の状態遷移
縦
方
向
の
状
態
遷
移
32
シフト状態遷移系列の導入
縦・横方向の状態位置をシフト ⇒回転変動を吸収可能
縦
方
向
の
状
態
遷
移
回転変動を考慮したモデル構造(2/2)
横方向の状態遷移
33
シフト状態遷移系列の導入
縦・横方向の状態位置をシフト ⇒回転変動を吸収可能
縦
方
向
の
状
態
遷
移
回転変動を考慮したモデル構造(2/2)
横方向の状態遷移
34
シフト状態遷移系列の導入
縦・横方向の状態位置をシフト ⇒回転変動を吸収可能
縦
方
向
の
状
態
遷
移
回転変動を考慮したモデル構造(2/2)
横方向の状態遷移
35
シフト状態遷移系列の導入
縦・横方向の状態位置をシフト ⇒回転変動を吸収可能
横方向のシフト状態遷移
縦
方
向
の
状
態
遷
移
回転変動を考慮したモデル構造(2/2)
横方向の状態遷移
縦
方
向
の
シ
フ
ト
状
態
遷
移
36
シフト状態遷移系列の導入
縦・横方向の状態位置をシフト ⇒回転変動を吸収可能
横方向のシフト状態遷移
縦
方
向
の
状
態
遷
移
回転変動を考慮したモデル構造(2/2)
横方向の状態遷移
縦
方
向
の
シ
フ
ト
状
態
遷
移
37
 関数の逐次最大化による最尤推定
 E-step : 事後確率の計算
 M-step : モデルパラメータの推定
 同時事後確率の計算量が膨大
⇒実時間では最適化が困難
EMアルゴリズム
変分EMアルゴリズムによる計算量削減
:観測デー...
変分EMアルゴリズム(1/2)
 対数尤度の下限 を定義
(Jensenの不等式)
39
変分EMアルゴリズム(1/2)
 対数尤度の下限 を定義
(Jensenの不等式)
40
変分EMアルゴリズム(1/2)
 対数尤度の下限 を定義
の近似分布
(Jensenの不等式)
41
変分EMアルゴリズム(1/2)
 対数尤度の下限 を定義
の近似分布
下限 を最大化する近似事後分布の推定
(Jensenの不等式)
42
 近似事後分布 の変数間の独立性を仮定
⇒計算量を大幅に削減(指数オーダ→多項式オーダ)
 下限 の逐次最大化
変分EMアルゴリズム(2/2)
E-step
M-step
が収束するまで
交互に繰り返す
43
実験条件(1/2)
 顔画像認識実験により提案手法の有効性を検証
データベース XM2VTS
原画像サイズ 720×576
画像サイズ 64×64
階調数 256,グレースケール
学習データ 1人あたり7枚×100人
テストデータ 1人あたり...
実験条件(2/2)
 データの変動の種類
 回転変動のみ
 位置・大きさ・回転変動
 意図した変動をモデルが表現可能か否かの検証が目的
 回転変動の場合
 状態位置のシフトによりどこまで回転が表現できるかを検証
 モデル自体は±4...
用意したデータの例
 回転変動
 位置・大きさ・回転変動
46
実験結果(学習データの変動:回転のみ)
変動なし
回転変動
従来モデル 提案モデル(シフト状態数あり)
テストデータ
の変動
47
実験結果(学習データの変動:回転のみ)
変動なし
回転変動
従来モデル 提案モデル(シフト状態数あり)
変動なしデータのみで
学習・認識したときの結果
テストデータ
の変動
48
実験結果(学習データの変動:回転のみ)
変動なし
回転変動
従来モデル 提案モデル(シフト状態数あり)
変動なしデータのみで
学習・認識したときの結果
テストデータ
の変動
49
実験結果(学習データの変動:回転のみ)
変動なし
回転変動
従来モデル 提案モデル(シフト状態数あり)
変動なしデータのみで
学習・認識したときの結果
テストデータ
の変動
50
実験結果(学習データの変動:回転のみ)
変動なし
回転変動
従来モデル 提案モデル(シフト状態数あり)
変動なしデータのみで
学習・認識したときの結果
認識率低下
テストデータ
の変動
51
実験結果(学習データの変動:回転のみ)
変動なし
回転変動
従来モデル 提案モデル(シフト状態数あり)
変動なしデータのみで
学習・認識したときの結果
認識率低下
テストデータ
の変動
テストデータの変動による認識率の違い
⇒学習データの変動と...
実験結果(学習データの変動:回転のみ)
変動なし
回転変動
従来モデル 提案モデル(シフト状態数あり)
変動なしデータのみで
学習・認識したときの結果
テストデータ
の変動
53
実験結果(学習データの変動:回転のみ)
変動なし
回転変動
従来モデル 提案モデル(シフト状態数あり)
変動なしデータのみで
学習・認識したときの結果
テストデータ
の変動
認識率向上
54
実験結果(学習データの変動:回転のみ)
変動なし
回転変動
従来モデル 提案モデル(シフト状態数あり)
変動なしデータのみで
学習・認識したときの結果
テストデータ
の変動
回転変動を適切に正規化
認識率向上
55
実験結果(学習データの変動:位置+大きさ+回転)
変動なし
位置・大きさ・回転変動
従来モデル 提案モデル(シフト状態数あり)
56
実験結果(学習データの変動:位置+大きさ+回転)
変動なし
位置・大きさ・回転変動
従来モデル 提案モデル(シフト状態数あり)
位置・大きさ・回転変動を適切に正規化
57
状態アライメント
テスト
データ
回転角 20° 10° 0° -10° -20°
SL2D-
HMM
提案モデル
 最尤状態系列に沿って平均ベクトルを配置
⇒データに対するモデルの当てはまりを視覚化
状態アライメント
テスト
データ
回転角 20° 10° 0° -10° -20°
SL2D-
HMM
提案モデル
 最尤状態系列に沿って平均ベクトルを配置
⇒データに対するモデルの当てはまりを視覚化
状態アライメント
テスト
データ
回転角 20° 10° 0° -10° -20°
SL2D-
HMM
提案モデル
矩形状の状態アライメント
⇒回転変動への対応が困難
 最尤状態系列に沿って平均ベクトルを配置
⇒データに対するモデルの当てはま...
状態アライメント
テスト
データ
回転角 20° 10° 0° -10° -20°
SL2D-
HMM
提案モデル
 最尤状態系列に沿って平均ベクトルを配置
⇒データに対するモデルの当てはまりを視覚化
状態アライメント
テスト
データ
回転角 20° 10° 0° -10° -20°
SL2D-
HMM
提案モデル
 最尤状態系列に沿って平均ベクトルを配置
⇒データに対するモデルの当てはまりを視覚化
状態アライメント
テスト
データ
回転角 20° 10° 0° -10° -20°
SL2D-
HMM
提案モデル
回転変動に対応した状態アライメント
⇒提案モデルの有効性を示す
 最尤状態系列に沿って平均ベクトルを配置
⇒データに対するモデ...
概要
 序論
 研究背景と目的
 分離型格子2次元HMMの概要及び既存手法との関連
 研究紹介
分離型格子2次元HMMの拡張
 回転変動への対応
 観測間の相関を捉えるモデル
 活動報告
64
背景・目的(1/3)
 従来のSL2D-HMMの問題点
 各状態内で統計量(出力分布の平均・分散)が一定
 観測間の条件付き独立性を仮定
例:1次元HMM
65
背景・目的(1/3)
 従来のSL2D-HMMの問題点
 各状態内で統計量(出力分布の平均・分散)が一定

 観測間の条件付き独立性を仮定
例:1次元HMM
同一の状態⇒同一の出力分布
66
背景・目的(1/3)
 従来のSL2D-HMMの問題点
 各状態内で統計量(出力分布の平均・分散)が一定
⇒状態内で変化する観測の詳細なモデル化が困難
 観測間の条件付き独立性を仮定
例:1次元HMM
同一の状態⇒同一の出力分布
67
背景・目的(1/3)
 従来のSL2D-HMMの問題点
 各状態内で統計量(出力分布の平均・分散)が一定
⇒状態内で変化する観測の詳細なモデル化が困難
 観測間の条件付き独立性を仮定
例:1次元HMM
68
背景・目的(1/3)
 従来のSL2D-HMMの問題点
 各状態内で統計量(出力分布の平均・分散)が一定
⇒状態内で変化する観測の詳細なモデル化が困難
 観測間の条件付き独立性を仮定

例:1次元HMM
69
背景・目的(1/3)
 従来のSL2D-HMMの問題点
 各状態内で統計量(出力分布の平均・分散)が一定
⇒状態内で変化する観測の詳細なモデル化が困難
 観測間の条件付き独立性を仮定
⇒隣接する観測間の相関を無視
例:1次元HMM
70
背景・目的(2/3)
 SL2D-HMMへの動的特徴量の適用[Kumaki el al; ‘10]
 動的特徴量を追加 ⇒ 認識性能の大幅な向上
 隣接観測間の依存関係をモデル化する手法の1つ
:静的特徴量
静的特徴量
71
背景・目的(2/3)
 SL2D-HMMへの動的特徴量の適用[Kumaki el al; ‘10]
 動的特徴量を追加 ⇒ 認識性能の大幅な向上
 隣接観測間の依存関係をモデル化する手法の1つ
:静的特徴量
水平方向のデルタ 垂直方向のデ...
背景・目的(2/3)
 SL2D-HMMへの動的特徴量の適用[Kumaki el al; ‘10]
 動的特徴量を追加 ⇒ 認識性能の大幅な向上
 隣接観測間の依存関係をモデル化する手法の1つ
:静的特徴量
水平方向のデルタ 垂直方向のデ...
背景・目的(2/3)
 SL2D-HMMへの動的特徴量の適用[Kumaki el al; ‘10]
 動的特徴量を追加 ⇒ 認識性能の大幅な向上
 隣接観測間の依存関係をモデル化する手法の1つ
:静的特徴量
水平方向のデルタ 垂直方向のデ...
 統計モデル的に正しくない枠組み
 静的・動的特徴量を独立な確率変数としてモデル化
⇒静的特徴量が決まれば動的特徴量は一意に決定
 統計モデルは に対する関数として定義されるべき
⇒本来観測されたものは であり ではない
背景・目的(3/...
トラジェクトリHMM [Zen et al; ‘06]
時間的関係を考慮した静的特徴量の統計モデル
静的特徴量,動的特徴量の関係を明示的にモデル化
HMMの出力確率分布
76
トラジェクトリHMM [Zen et al; ‘06]
時間的関係を考慮した静的特徴量の統計モデル
静的特徴量,動的特徴量の関係を明示的にモデル化
HMMの出力確率分布 ⇒ 各特徴量分布の積
77
トラジェクトリHMM [Zen et al; ‘06]
時間的関係を考慮した静的特徴量の統計モデル
静的特徴量,動的特徴量の関係を明示的にモデル化
静的特徴量 1次動的特徴量
(速度)
2次動的特徴量
(加速度)
HMMの出力確率分布 ⇒ 各特...
トラジェクトリHMM [Zen et al; ‘06]
時間的関係を考慮した静的特徴量の統計モデル
静的特徴量,動的特徴量の関係を明示的にモデル化
観測系列
0.8
0.4
0.0
-0.4
-0.8
-1.2
50 100 150 200 2...
トラジェクトリHMM [Zen et al; ‘06]
時間的関係を考慮した静的特徴量の統計モデル
静的特徴量,動的特徴量の関係を明示的にモデル化
観測系列
0.8
0.4
0.0
-0.4
-0.8
-1.2
50 100 150 200 2...
トラジェクトリHMM [Zen et al; ‘06]
時間的関係を考慮した静的特徴量の統計モデル
静的特徴量,動的特徴量の関係を明示的にモデル化
観測系列
0.8
0.4
0.0
-0.4
-0.8
-1.2
50 100 150 200 2...
トラジェクトリHMM [Zen et al; ‘06]
時間的関係を考慮した静的特徴量の統計モデル
静的特徴量,動的特徴量の関係を明示的にモデル化
観測系列
0.8
0.4
0.0
-0.4
-0.8
-1.2
50 100 150 200 2...
トラジェクトリHMM [Zen et al; ‘06]
時間的関係を考慮した静的特徴量の統計モデル
静的特徴量,動的特徴量の関係を明示的にモデル化
観測系列
0.8
0.4
0.0
-0.4
-0.8
-1.2
50 100 150 200 2...
2次元的な相関を考慮した静的特徴量の統計モデル
⇒トラジェクトリHMMと同様の定式化



提案モデル
84
2次元的な相関を考慮した静的特徴量の統計モデル
⇒トラジェクトリHMMと同様の定式化



提案モデル
出力確率 状態遷移確率
85
2次元的な相関を考慮した静的特徴量の統計モデル
⇒トラジェクトリHMMと同様の定式化



提案モデル
静的特徴量 1次動的特徴量
(水平方向)
1次動的特徴量
(垂直方向)
出力確率 状態遷移確率
86
2次元的な相関を考慮した静的特徴量の統計モデル
⇒トラジェクトリHMMと同様の定式化
 平均ベクトルは状態内で値が滑らかに変化


提案モデル
静的特徴量 1次動的特徴量
(水平方向)
1次動的特徴量
(垂直方向)
出力確率 状態遷移確率...
2次元的な相関を考慮した静的特徴量の統計モデル
⇒トラジェクトリHMMと同様の定式化
 平均ベクトルは状態内で値が滑らかに変化
 共分散行列は一般に全共分散型
⇒隣接する観測間の相関を考慮可能
提案モデル
静的特徴量 1次動的特徴量
(水平...
2次元的な相関を考慮した静的特徴量の統計モデル
⇒トラジェクトリHMMと同様の定式化
 平均ベクトルは状態内で値が滑らかに変化
 共分散行列は一般に全共分散型
⇒隣接する観測間の相関を考慮可能
提案モデル
静的特徴量 1次動的特徴量
(水平...
推定された平均ベクトルの例
 画像サイズ:32×32 状態数:16×16
 SL2D-HMMと提案モデルの状態系列は共通
 SL2D-HMM
 提案モデル
SL2D-HMM 提案モデルテストデータ
90
推定された平均ベクトルの例
 画像サイズ:32×32 状態数:16×16
 SL2D-HMMと提案モデルの状態系列は共通
 SL2D-HMM
 提案モデル
SL2D-HMM 提案モデルテストデータ
⇒状態内で値が一定
91
推定された平均ベクトルの例
 画像サイズ:32×32 状態数:16×16
 SL2D-HMMと提案モデルの状態系列は共通
 SL2D-HMM
 提案モデル
SL2D-HMM 提案モデルテストデータ
⇒状態内で値が滑らかに変化
⇒状態内で...
推定された共分散行列の例
 画像サイズ:32×32 状態数:16×16
 行と列はそれぞれ2次元格子のラスタ順で配置
SL2D-HMMの共分散行列 提案モデルの共分散行列
93
推定された共分散行列の例
 画像サイズ:32×32 状態数:16×16
 行と列はそれぞれ2次元格子のラスタ順で配置
SL2D-HMMの共分散行列 提案モデルの共分散行列
対角成分のみ分散が大
94
推定された共分散行列の例
 画像サイズ:32×32 状態数:16×16
 行と列はそれぞれ2次元格子のラスタ順で配置
SL2D-HMMの共分散行列 提案モデルの共分散行列
対角成分のみ分散が大 非対角成分も分散が大
95
推定された共分散行列の例
 画像サイズ:32×32 状態数:16×16
 行と列はそれぞれ2次元格子のラスタ順で配置
SL2D-HMMの共分散行列 提案モデルの共分散行列
対角成分のみ分散が大 非対角成分も分散が大
隣接する観測間の相関をモ...
学習アルゴリズム
EMアルゴリズム
出力確率が状態系列全体に依存
⇒Forward-Backwardアルゴリズムの適用が困難
⇒実時間による最適化が困難
関数
Viterbi近似による計算量削減
97
 顔画像認識実験による有効性の検証
 認識率は4-fold cross validationで評価
実験条件(1/2)
データベース XM2VTS
原画像サイズ 720×576
画像サイズ 16×16
階調数 256,グレースケール
学習デ...
 比較手法
 NoUpdate : SL2Dのパラメタを提案モデル用に線形変換
 ParamUpdate:NoUpdateのパラメタの値を最適化
 状態系列は3手法とも同一(SL2DのViterbi状態系列)
実験条件(2/2)
手法 ...
0
10
20
30
40
50
60
4×4 6×6 8×8 10×10 12×12
SL2D NoUpdate ParamUpdate
実験結果
状態数
認識率(%)
100
0
10
20
30
40
50
60
4×4 6×6 8×8 10×10 12×12
SL2D NoUpdate ParamUpdate
実験結果
状態数
認識率(%)
NoUpdateの認識率が低い
⇒パラメタが最適化されていないため
101
0
10
20
30
40
50
60
4×4 6×6 8×8 10×10 12×12
SL2D NoUpdate ParamUpdate
実験結果
状態数
認識率(%)
ParamUpdateの認識率が高い
⇒パラメタが最適化されたため
102
0
10
20
30
40
50
60
4×4 6×6 8×8 10×10 12×12
SL2D NoUpdate ParamUpdate
実験結果
状態数
認識率(%)
ParamUpdateの最高認識率がSL2Dを上回る
⇒観測間の相関が適...
まとめ
SL2D-HMMの問題点を解消する統計モデル
 状態位置の移動を表現するシフト状態遷移系列の導入
⇒正規化可能な変動の範囲を回転変動まで拡張
 静的・動的特徴量の関係を明示的にモデル化
⇒観測間の相関を効率よく捉えるモデル構造
画像...
今後の課題・将来の展望
 今後の課題
 適切な窓行列の設計,状態推定アルゴリズムの検討
 様々なデータセット上で他の手法との性能比較・評価
 省メモリ・高速化と認識性能の両立
 将来の展望
 前処理・特徴量選択・モデル構造選択の同時...
概要
 序論
 研究背景と目的
 分離型格子2次元HMMの概要及び既存手法との関連
 研究紹介
分離型格子2次元HMMの拡張
 回転変動への対応
 観測間の相関を捉えるモデル
 活動報告
106
ソフトウェアの開発・保守
音声信号処理ツールキットSPTK
 音声信号処理に有用なLinuxコマンド群を提供
 マイクロソフト他,国内外の多くの研究機関で利用
最近1年間のダウンロード総数:約8,100
 共同研究・プロジェクトでの基盤ソ...
研究活動(1/3)
 総務省 SCOPE プロジェクト
 期間 2009/11 ~ 2011/12
 「講演者のための
多言語音声合成技術に関する研究開発」
 共同研究機関
 京都市立芸術大学
 独立行政法人情報通信機構
話者選択モ...
研究活動(2/3)
 JST CREST uDialogue プロジェクト
 期間 2011/10 ~ 2017/03
 「コンテンツ生成の循環系を軸とした
次世代音声技術基盤の確立」
 共同研究機関
 名古屋工業大学国際音声技術研究...
研究活動(3/3)
 学外交流
 NTT コミュニケーション科学基礎研究所
2012/01 ~ 2012/04 実習生
博士論文完成に不可欠な実装技術を習得
110
Prochain SlideShare
Chargement dans…5
×

公聴会 発表スライド

2 122 vues

Publié le

公聴会のスライド

Publié dans : Ingénierie
  • Soyez le premier à commenter

公聴会 発表スライド

  1. 1. STATISTICAL MODELS INCLUDING NORMALIZATION PROCESSES FOR IMAGE RECOGNITION 画像認識のための正規化 プロセスを含んだ統計モデル 創成シミュレーション工学専攻 計算システム工学分野 徳田・南角研究室 玉森 聡
  2. 2. 概要  序論  研究背景および目的  分離型格子2次元HMMの概要及び既存手法との関連  研究紹介 分離型格子2次元HMMの拡張  回転変動への対応  観測間の相関を捉えるモデル  活動報告 2
  3. 3. 概要  序論  研究背景および目的  分離型格子2次元HMMの概要及び既存手法との関連  研究紹介 分離型格子2次元HMMの拡張  回転変動への対応  観測間の相関を捉えるモデル  活動報告 3
  4. 4. 研究背景および目的(1/2)  画像認識  画像に含まれる何らかの意味がある認識対象を識別  セキュリティ,工業用検査,娯楽などの様々な分野で需要増加  認識対象の多さ・データの複雑さから多種多様な手法が提案  統計的機械学習に基づく画像認識  デジタル機器の普及により多種多様で膨大な画像が存在  計算機の発展により画像を高速に処理可能 ⇒統計的機械学習に基づく画像認識手法が注目 4
  5. 5. 研究背景および目的(1/2)  画像認識  画像に含まれる何らかの意味がある認識対象を識別  セキュリティ,工業用検査,娯楽などの様々な分野で需要増加  認識対象の多さ・データの複雑さから多種多様な手法が提案  統計的機械学習に基づく画像認識  デジタル機器の普及により多種多様で膨大な画像が存在  計算機の発展により画像を高速に処理可能 ⇒統計的機械学習に基づく画像認識手法が注目 画像認識のための汎用的な統計モデルの構築 顔画像認識,文字認識,ジェスチャ認識など 様々な画像・タスクに適用可能なモデル 5
  6. 6. 研究背景および目的(2/2)  画像認識のアプローチは大きく2つに分類  人間の経験的な知識を積極的に利用する方法 (例):「人間の目は2つで鼻の上側」 「横向きの車はタイヤ2つ」 利点:実用を重視,少量の学習データでも高い認識率 欠点:タスクに応じて人間が試行錯誤を繰り返す必要  多次元特徴空間のパターン識別として捉える方法  正規化された固定長の多次元ベクトルを仮定 画像の切り出し,特徴抽出などの前処理が必要  画像固有の特性を考慮していない場合が多い (例):照明条件,2次元空間内の幾何学的変動など 6
  7. 7. 研究背景および目的(2/2)  画像認識のアプローチは大きく2つに分類  人間の経験的な知識を積極的に利用する方法 (例):「人間の目は2つで鼻の上側」 「横向きの車はタイヤ2つ」 利点:実用を重視,少量の学習データでも高い認識率 欠点:タスクに応じて人間が試行錯誤を繰り返す必要  多次元特徴空間のパターン識別として捉える方法  正規化された固定長の多次元ベクトルを仮定 画像の切り出し,特徴抽出などの前処理が必要  画像固有の特性を考慮していない場合が多い (例):照明条件,2次元空間内の幾何学的変動など 前処理とモデル学習を同時に最適化する枠組みの構築 画像固有の特性を考慮した正規化プロセスの組み込み 7
  8. 8. 概要  序論  研究背景および目的  分離型格子2次元HMMの概要及び既存手法との関連  研究紹介 分離型格子2次元HMMの拡張  回転変動への対応  観測間の相関を捉えるモデル  活動報告 8
  9. 9. 確率的固有画像モデル  主成分分析を確率統計モデルとして定式化  固有画像を確率的主成分分析 (PPCA) や因子分析 (FA) により表現 : 観測データ : 因子負荷行列 : 因子ベクトル : 固有画像 (基底) : ノイズベクトル 利点 : データ間の共分散や相関を効率的にモデル化可能 欠点 : 事前に幾何学的変動に対する正規化処理が必要 9
  10. 10. 確率的固有画像モデル  主成分分析を確率統計モデルとして定式化  固有画像を確率的主成分分析 (PPCA) や因子分析 (FA) により表現 : 観測データ : 因子負荷行列 : 因子ベクトル : 固有画像 (基底) : ノイズベクトル 利点 : データ間の共分散や相関を効率的にモデル化可能 欠点 : 事前に幾何学的変動に対する正規化処理が必要 ノイズベクトルの分散 ・対角等分散 ⇒ PPCA ・対角共分散 ⇒ FA 10
  11. 11. その他の先行研究例  HMMに基づく手法  1次元HMMを人間の顔認識に利用[Samaria et.al; ‘93]   Embedded HMM [Nefian et.al; ‘03]   Pseudo 2-D HMM [Kuo et.al; ‘94]   2次元DPマッチングに基づく手法 [Uchida et al; ‘01]  画像間のマッピングをコスト関数により制御  柔軟かつ正確なマッピングのためのコスト関数の決定 には事前知識が必要 11
  12. 12. その他の先行研究例  HMMに基づく手法  1次元HMMを人間の顔認識に利用[Samaria et.al; ‘93] ⇒幾何学的変動に対する頑健性を欠く  Embedded HMM [Nefian et.al; ‘03]   Pseudo 2-D HMM [Kuo et.al; ‘94]   2次元DPマッチングに基づく手法 [Uchida et al; ‘01]  画像間のマッピングをコスト関数により制御  柔軟かつ正確なマッピングのためのコスト関数の決定 には事前知識が必要 12
  13. 13. その他の先行研究例  HMMに基づく手法  1次元HMMを人間の顔認識に利用[Samaria et.al; ‘93] ⇒幾何学的変動に対する頑健性を欠く  Embedded HMM [Nefian et.al; ‘03] ⇒画像の幾何学的連続性を保つことが困難  Pseudo 2-D HMM [Kuo et.al; ‘94]   2次元DPマッチングに基づく手法 [Uchida et al; ‘01]  画像間のマッピングをコスト関数により制御  柔軟かつ正確なマッピングのためのコスト関数の決定 には事前知識が必要 13
  14. 14. その他の先行研究例  HMMに基づく手法  1次元HMMを人間の顔認識に利用[Samaria et.al; ‘93] ⇒幾何学的変動に対する頑健性を欠く  Embedded HMM [Nefian et.al; ‘03] ⇒画像の幾何学的連続性を保つことが困難  Pseudo 2-D HMM [Kuo et.al; ‘94] ⇒取りうる状態の組合せが多く計算量が膨大(指数オーダー)  2次元DPマッチングに基づく手法 [Uchida et al; ‘01]  画像間のマッピングをコスト関数により制御  柔軟かつ正確なマッピングのためのコスト関数の決定 には事前知識が必要 14
  15. 15. 分離型格子2次元HMM(SL2D-HMM)  2次元に拡張したHMMに構造的な制約条件 ⇒縦方向と横方向の状態遷移は独立  幾何学的変動(並進, 拡大縮小)のモデル化  状態の組合せ総数の削減 ⇒ 計算量の削減 出力確率分布 横方向の状態遷移 縦 方 向 の 状 態 遷 移 状態で画像を矩形領域に分割 特徴量は対応する 確率分布より出力 15
  16. 16. 可変固有画像モデル[Higaki el al.; ‘07]  基底とノイズベクトルが分離型格子2次元HMMから生成 : 観測データ : 因子負荷行列 : 因子ベクトル : 固有画像 (基底) : ノイズベクトル 利点 : 状態間の共分散や相関と幾何学的変動をモデル化 16
  17. 17. パラメトリック固有空間法との関連  パラメトリック固有空間法[Murase; ‘02]の特徴  連続的に見かけが変化する画像を固有空間上の多様体で表現  一連の画像を多様体上の軌跡として表現  対象の大きさ・輝度の正規化が前提  位置ずれの変動は基底の線形和で表現 ⇒より多くの学習画像を必要とする  可変固有画像モデル  認識対象の幾何学的変動を状態遷移により表現  状態遷移で合わせきれない部分を基底により表現 例:照明変動や顔の表情の変化など 17
  18. 18. パラメトリック固有空間法との関連  パラメトリック固有空間法[Murase; ‘02]の特徴  連続的に見かけが変化する画像を固有空間上の多様体で表現  一連の画像を多様体上の軌跡として表現  対象の大きさ・輝度の正規化が前提  位置ずれの変動は基底の線形和で表現 ⇒より多くの学習画像を必要とする  可変固有画像モデル  認識対象の幾何学的変動を状態遷移により表現  状態遷移で合わせきれない部分を基底により表現 例:照明変動や顔の表情の変化など 18 より少ないデータで汎用性の高いモデルを実現
  19. 19. 部分空間法・テンプレートマッチ法との関連  可変固有画像モデルにおける識別的パラメータ共有構造 基底と因子の共有レベルにより様々な構造を表現  基底と因子がクラス固有 ⇒ 部分空間法  基底を全クラスで共有 ⇒ 固有顔法  基底と因子の共有構造を変化 ⇒ 両者の中間的構造を表現  各状態のガウス分布が画像の形を表わすテンプレート 対象の位置ずれを状態遷移で表現  確率的テンプレートマッチとみなすことが可能  状態数は画像テンプレートの数に対応 [Fujii et al.; ’10]
  20. 20. 部分空間法・テンプレートマッチ法との関連  可変固有画像モデルにおける識別的パラメータ共有構造 基底と因子の共有レベルにより様々な構造を表現  基底と因子がクラス固有 ⇒ 部分空間法  基底を全クラスで共有 ⇒ 固有顔法  基底と因子の共有構造を変化 ⇒ 両者の中間的構造を表現  各状態のガウス分布が画像の形を表わすテンプレート 対象の位置ずれを状態遷移で表現  確率的テンプレートマッチとみなすことが可能  状態数は画像テンプレートの数に対応 従来の認識手法を内包しつつ 幾何学的変動に対処可能なモデル [Fujii et al.; ’10]
  21. 21. 概要  序論  研究背景および目的  分離型格子2次元HMMの概要及び既存手法との関連  研究紹介 分離型格子2次元HMMの拡張  回転変動への対応  観測間の相関を捉えるモデル  活動報告 21
  22. 22. 概要  序論  研究背景および目的  分離型格子2次元HMMの概要及び既存手法との関連  研究紹介 分離型格子2次元HMMの拡張  回転変動への対応  観測間の相関を捉えるモデル  活動報告 22
  23. 23. はじめに 分離型格子2次元HMMの問題点 1. アフィン変換への対応が不完全  並進・拡大縮小のみに対応可能  回転変動には対応困難 2. モデル化能力に関する脆弱性  隣接する観測間の相関を無視  同一状態内で変動する観測のモデル化が困難 分離型格子2次元HMMの問題点を解消する より高精度な統計モデルを提案 23
  24. 24. 回転変動を考慮したモデル構造(1/2) 分離型格子2次元HMMによる画像のモデル化 ⇒矩形状の領域分割  並進,拡大・縮小 領域のサイズを変更して対応  回転変動 サイズの変更では対応困難 24
  25. 25. 回転変動を考慮したモデル構造(1/2) 分離型格子2次元HMMによる画像のモデル化 ⇒矩形状の領域分割  並進,拡大・縮小 領域のサイズを変更して対応  回転変動 サイズの変更では対応困難 25
  26. 26. 回転変動を考慮したモデル構造(1/2) 分離型格子2次元HMMによる画像のモデル化 ⇒矩形状の領域分割  並進,拡大・縮小 領域のサイズを変更して対応  回転変動 サイズの変更では対応困難 26
  27. 27. 回転変動を考慮したモデル構造(1/2) 分離型格子2次元HMMによる画像のモデル化 ⇒矩形状の領域分割  並進,拡大・縮小 領域のサイズを変更して対応  回転変動 サイズの変更では対応困難 27
  28. 28. 回転変動を考慮したモデル構造(1/2) 分離型格子2次元HMMによる画像のモデル化 ⇒矩形状の領域分割  並進,拡大・縮小 領域のサイズを変更して対応  回転変動 サイズの変更では対応困難 28
  29. 29. 回転変動を考慮したモデル構造(1/2) 分離型格子2次元HMMによる画像のモデル化 ⇒矩形状の領域分割  並進,拡大・縮小 領域のサイズを変更して対応  回転変動 サイズの変更では対応困難 29
  30. 30. 回転変動を考慮したモデル構造(1/2) 分離型格子2次元HMMによる画像のモデル化 ⇒矩形状の領域分割  並進,拡大・縮小 領域のサイズを変更して対応  回転変動 サイズの変更では対応困難 30
  31. 31. 回転変動を考慮したモデル構造(1/2) 分離型格子2次元HMMによる画像のモデル化 ⇒矩形状の領域分割  並進,拡大・縮小 領域のサイズを変更して対応  回転変動 サイズの変更では対応困難 回転変動を考慮したモデル構造が必要 31
  32. 32. シフト状態遷移系列の導入 縦・横方向の状態位置をシフト ⇒回転変動を吸収可能 回転変動を考慮したモデル構造(2/2) 横方向の状態遷移 縦 方 向 の 状 態 遷 移 32
  33. 33. シフト状態遷移系列の導入 縦・横方向の状態位置をシフト ⇒回転変動を吸収可能 縦 方 向 の 状 態 遷 移 回転変動を考慮したモデル構造(2/2) 横方向の状態遷移 33
  34. 34. シフト状態遷移系列の導入 縦・横方向の状態位置をシフト ⇒回転変動を吸収可能 縦 方 向 の 状 態 遷 移 回転変動を考慮したモデル構造(2/2) 横方向の状態遷移 34
  35. 35. シフト状態遷移系列の導入 縦・横方向の状態位置をシフト ⇒回転変動を吸収可能 縦 方 向 の 状 態 遷 移 回転変動を考慮したモデル構造(2/2) 横方向の状態遷移 35
  36. 36. シフト状態遷移系列の導入 縦・横方向の状態位置をシフト ⇒回転変動を吸収可能 横方向のシフト状態遷移 縦 方 向 の 状 態 遷 移 回転変動を考慮したモデル構造(2/2) 横方向の状態遷移 縦 方 向 の シ フ ト 状 態 遷 移 36
  37. 37. シフト状態遷移系列の導入 縦・横方向の状態位置をシフト ⇒回転変動を吸収可能 横方向のシフト状態遷移 縦 方 向 の 状 態 遷 移 回転変動を考慮したモデル構造(2/2) 横方向の状態遷移 縦 方 向 の シ フ ト 状 態 遷 移 37
  38. 38.  関数の逐次最大化による最尤推定  E-step : 事後確率の計算  M-step : モデルパラメータの推定  同時事後確率の計算量が膨大 ⇒実時間では最適化が困難 EMアルゴリズム 変分EMアルゴリズムによる計算量削減 :観測データ :状態遷移系列 :シフト状態遷移系列 :モデルパラメータ 38
  39. 39. 変分EMアルゴリズム(1/2)  対数尤度の下限 を定義 (Jensenの不等式) 39
  40. 40. 変分EMアルゴリズム(1/2)  対数尤度の下限 を定義 (Jensenの不等式) 40
  41. 41. 変分EMアルゴリズム(1/2)  対数尤度の下限 を定義 の近似分布 (Jensenの不等式) 41
  42. 42. 変分EMアルゴリズム(1/2)  対数尤度の下限 を定義 の近似分布 下限 を最大化する近似事後分布の推定 (Jensenの不等式) 42
  43. 43.  近似事後分布 の変数間の独立性を仮定 ⇒計算量を大幅に削減(指数オーダ→多項式オーダ)  下限 の逐次最大化 変分EMアルゴリズム(2/2) E-step M-step が収束するまで 交互に繰り返す 43
  44. 44. 実験条件(1/2)  顔画像認識実験により提案手法の有効性を検証 データベース XM2VTS 原画像サイズ 720×576 画像サイズ 64×64 階調数 256,グレースケール 学習データ 1人あたり7枚×100人 テストデータ 1人あたり1枚×100人 2次元HMM状態数 24×24 シフト状態数 6×6, 10×10, 14×14, 16×16, 18×18 44
  45. 45. 実験条件(2/2)  データの変動の種類  回転変動のみ  位置・大きさ・回転変動  意図した変動をモデルが表現可能か否かの検証が目的  回転変動の場合  状態位置のシフトによりどこまで回転が表現できるかを検証  モデル自体は±45度程度の範囲を表現する能力  位置・大きさの変動の場合  認識対象が画像内に十分収まる範囲で検証 45 データのサイズの変動 500×500 ~ 600×600 データの位置の変動 中心から40×20ピクセル以内 データの回転角 -10°~ 10°(正規乱数)
  46. 46. 用意したデータの例  回転変動  位置・大きさ・回転変動 46
  47. 47. 実験結果(学習データの変動:回転のみ) 変動なし 回転変動 従来モデル 提案モデル(シフト状態数あり) テストデータ の変動 47
  48. 48. 実験結果(学習データの変動:回転のみ) 変動なし 回転変動 従来モデル 提案モデル(シフト状態数あり) 変動なしデータのみで 学習・認識したときの結果 テストデータ の変動 48
  49. 49. 実験結果(学習データの変動:回転のみ) 変動なし 回転変動 従来モデル 提案モデル(シフト状態数あり) 変動なしデータのみで 学習・認識したときの結果 テストデータ の変動 49
  50. 50. 実験結果(学習データの変動:回転のみ) 変動なし 回転変動 従来モデル 提案モデル(シフト状態数あり) 変動なしデータのみで 学習・認識したときの結果 テストデータ の変動 50
  51. 51. 実験結果(学習データの変動:回転のみ) 変動なし 回転変動 従来モデル 提案モデル(シフト状態数あり) 変動なしデータのみで 学習・認識したときの結果 認識率低下 テストデータ の変動 51
  52. 52. 実験結果(学習データの変動:回転のみ) 変動なし 回転変動 従来モデル 提案モデル(シフト状態数あり) 変動なしデータのみで 学習・認識したときの結果 認識率低下 テストデータ の変動 テストデータの変動による認識率の違い ⇒学習データの変動と不一致のため 52
  53. 53. 実験結果(学習データの変動:回転のみ) 変動なし 回転変動 従来モデル 提案モデル(シフト状態数あり) 変動なしデータのみで 学習・認識したときの結果 テストデータ の変動 53
  54. 54. 実験結果(学習データの変動:回転のみ) 変動なし 回転変動 従来モデル 提案モデル(シフト状態数あり) 変動なしデータのみで 学習・認識したときの結果 テストデータ の変動 認識率向上 54
  55. 55. 実験結果(学習データの変動:回転のみ) 変動なし 回転変動 従来モデル 提案モデル(シフト状態数あり) 変動なしデータのみで 学習・認識したときの結果 テストデータ の変動 回転変動を適切に正規化 認識率向上 55
  56. 56. 実験結果(学習データの変動:位置+大きさ+回転) 変動なし 位置・大きさ・回転変動 従来モデル 提案モデル(シフト状態数あり) 56
  57. 57. 実験結果(学習データの変動:位置+大きさ+回転) 変動なし 位置・大きさ・回転変動 従来モデル 提案モデル(シフト状態数あり) 位置・大きさ・回転変動を適切に正規化 57
  58. 58. 状態アライメント テスト データ 回転角 20° 10° 0° -10° -20° SL2D- HMM 提案モデル  最尤状態系列に沿って平均ベクトルを配置 ⇒データに対するモデルの当てはまりを視覚化
  59. 59. 状態アライメント テスト データ 回転角 20° 10° 0° -10° -20° SL2D- HMM 提案モデル  最尤状態系列に沿って平均ベクトルを配置 ⇒データに対するモデルの当てはまりを視覚化
  60. 60. 状態アライメント テスト データ 回転角 20° 10° 0° -10° -20° SL2D- HMM 提案モデル 矩形状の状態アライメント ⇒回転変動への対応が困難  最尤状態系列に沿って平均ベクトルを配置 ⇒データに対するモデルの当てはまりを視覚化
  61. 61. 状態アライメント テスト データ 回転角 20° 10° 0° -10° -20° SL2D- HMM 提案モデル  最尤状態系列に沿って平均ベクトルを配置 ⇒データに対するモデルの当てはまりを視覚化
  62. 62. 状態アライメント テスト データ 回転角 20° 10° 0° -10° -20° SL2D- HMM 提案モデル  最尤状態系列に沿って平均ベクトルを配置 ⇒データに対するモデルの当てはまりを視覚化
  63. 63. 状態アライメント テスト データ 回転角 20° 10° 0° -10° -20° SL2D- HMM 提案モデル 回転変動に対応した状態アライメント ⇒提案モデルの有効性を示す  最尤状態系列に沿って平均ベクトルを配置 ⇒データに対するモデルの当てはまりを視覚化
  64. 64. 概要  序論  研究背景と目的  分離型格子2次元HMMの概要及び既存手法との関連  研究紹介 分離型格子2次元HMMの拡張  回転変動への対応  観測間の相関を捉えるモデル  活動報告 64
  65. 65. 背景・目的(1/3)  従来のSL2D-HMMの問題点  各状態内で統計量(出力分布の平均・分散)が一定  観測間の条件付き独立性を仮定 例:1次元HMM 65
  66. 66. 背景・目的(1/3)  従来のSL2D-HMMの問題点  各状態内で統計量(出力分布の平均・分散)が一定   観測間の条件付き独立性を仮定 例:1次元HMM 同一の状態⇒同一の出力分布 66
  67. 67. 背景・目的(1/3)  従来のSL2D-HMMの問題点  各状態内で統計量(出力分布の平均・分散)が一定 ⇒状態内で変化する観測の詳細なモデル化が困難  観測間の条件付き独立性を仮定 例:1次元HMM 同一の状態⇒同一の出力分布 67
  68. 68. 背景・目的(1/3)  従来のSL2D-HMMの問題点  各状態内で統計量(出力分布の平均・分散)が一定 ⇒状態内で変化する観測の詳細なモデル化が困難  観測間の条件付き独立性を仮定 例:1次元HMM 68
  69. 69. 背景・目的(1/3)  従来のSL2D-HMMの問題点  各状態内で統計量(出力分布の平均・分散)が一定 ⇒状態内で変化する観測の詳細なモデル化が困難  観測間の条件付き独立性を仮定  例:1次元HMM 69
  70. 70. 背景・目的(1/3)  従来のSL2D-HMMの問題点  各状態内で統計量(出力分布の平均・分散)が一定 ⇒状態内で変化する観測の詳細なモデル化が困難  観測間の条件付き独立性を仮定 ⇒隣接する観測間の相関を無視 例:1次元HMM 70
  71. 71. 背景・目的(2/3)  SL2D-HMMへの動的特徴量の適用[Kumaki el al; ‘10]  動的特徴量を追加 ⇒ 認識性能の大幅な向上  隣接観測間の依存関係をモデル化する手法の1つ :静的特徴量 静的特徴量 71
  72. 72. 背景・目的(2/3)  SL2D-HMMへの動的特徴量の適用[Kumaki el al; ‘10]  動的特徴量を追加 ⇒ 認識性能の大幅な向上  隣接観測間の依存関係をモデル化する手法の1つ :静的特徴量 水平方向のデルタ 垂直方向のデルタ静的特徴量 窓行列 72
  73. 73. 背景・目的(2/3)  SL2D-HMMへの動的特徴量の適用[Kumaki el al; ‘10]  動的特徴量を追加 ⇒ 認識性能の大幅な向上  隣接観測間の依存関係をモデル化する手法の1つ :静的特徴量 水平方向のデルタ 垂直方向のデルタ :観測ベクトル 静的特徴量 窓行列 73
  74. 74. 背景・目的(2/3)  SL2D-HMMへの動的特徴量の適用[Kumaki el al; ‘10]  動的特徴量を追加 ⇒ 認識性能の大幅な向上  隣接観測間の依存関係をモデル化する手法の1つ :静的特徴量 水平方向のデルタ 垂直方向のデルタ :観測ベクトル 静的特徴量 関係式(行列形式) 窓行列 74
  75. 75.  統計モデル的に正しくない枠組み  静的・動的特徴量を独立な確率変数としてモデル化 ⇒静的特徴量が決まれば動的特徴量は一意に決定  統計モデルは に対する関数として定義されるべき ⇒本来観測されたものは であり ではない 背景・目的(3/3) 分離型格子2次元HMMを 静的特徴量 の統計モデルとして再定式化 75
  76. 76. トラジェクトリHMM [Zen et al; ‘06] 時間的関係を考慮した静的特徴量の統計モデル 静的特徴量,動的特徴量の関係を明示的にモデル化 HMMの出力確率分布 76
  77. 77. トラジェクトリHMM [Zen et al; ‘06] 時間的関係を考慮した静的特徴量の統計モデル 静的特徴量,動的特徴量の関係を明示的にモデル化 HMMの出力確率分布 ⇒ 各特徴量分布の積 77
  78. 78. トラジェクトリHMM [Zen et al; ‘06] 時間的関係を考慮した静的特徴量の統計モデル 静的特徴量,動的特徴量の関係を明示的にモデル化 静的特徴量 1次動的特徴量 (速度) 2次動的特徴量 (加速度) HMMの出力確率分布 ⇒ 各特徴量分布の積 78
  79. 79. トラジェクトリHMM [Zen et al; ‘06] 時間的関係を考慮した静的特徴量の統計モデル 静的特徴量,動的特徴量の関係を明示的にモデル化 観測系列 0.8 0.4 0.0 -0.4 -0.8 -1.2 50 100 150 200 250 300 350 400 4500 Time (frame) 静的特徴量 1次動的特徴量 (速度) 2次動的特徴量 (加速度) HMMの出力確率分布 ⇒ 各特徴量分布の積 79
  80. 80. トラジェクトリHMM [Zen et al; ‘06] 時間的関係を考慮した静的特徴量の統計モデル 静的特徴量,動的特徴量の関係を明示的にモデル化 観測系列 0.8 0.4 0.0 -0.4 -0.8 -1.2 50 100 150 200 250 300 350 400 4500 Time (frame) 静的特徴量 1次動的特徴量 (速度) 2次動的特徴量 (加速度) HMMの出力確率分布 ⇒ 各特徴量分布の積 HMMの平均系列 ⇒ 階段上の不連続な系列 HMMの平均系列 80
  81. 81. トラジェクトリHMM [Zen et al; ‘06] 時間的関係を考慮した静的特徴量の統計モデル 静的特徴量,動的特徴量の関係を明示的にモデル化 観測系列 0.8 0.4 0.0 -0.4 -0.8 -1.2 50 100 150 200 250 300 350 400 4500 Time (frame) 静的特徴量 1次動的特徴量 (速度) 2次動的特徴量 (加速度) トラジェクトリHMMの確率分布 ⇒ の分布として正規化 HMMの平均系列 81
  82. 82. トラジェクトリHMM [Zen et al; ‘06] 時間的関係を考慮した静的特徴量の統計モデル 静的特徴量,動的特徴量の関係を明示的にモデル化 観測系列 0.8 0.4 0.0 -0.4 -0.8 -1.2 50 100 150 200 250 300 350 400 4500 Time (frame) 静的特徴量 1次動的特徴量 (速度) 2次動的特徴量 (加速度) トラジェクトリHMMの確率分布 ⇒ の分布として正規化 HMMの平均系列 正規化定数 82
  83. 83. トラジェクトリHMM [Zen et al; ‘06] 時間的関係を考慮した静的特徴量の統計モデル 静的特徴量,動的特徴量の関係を明示的にモデル化 観測系列 0.8 0.4 0.0 -0.4 -0.8 -1.2 50 100 150 200 250 300 350 400 4500 Time (frame) トラジェクトリHMMの平均系列 ⇒ 状態内で滑らかに変化 静的特徴量 1次動的特徴量 (速度) 2次動的特徴量 (加速度) トラジェクトリHMMの確率分布 ⇒ の分布として正規化 HMMの平均系列 正規化定数 83
  84. 84. 2次元的な相関を考慮した静的特徴量の統計モデル ⇒トラジェクトリHMMと同様の定式化    提案モデル 84
  85. 85. 2次元的な相関を考慮した静的特徴量の統計モデル ⇒トラジェクトリHMMと同様の定式化    提案モデル 出力確率 状態遷移確率 85
  86. 86. 2次元的な相関を考慮した静的特徴量の統計モデル ⇒トラジェクトリHMMと同様の定式化    提案モデル 静的特徴量 1次動的特徴量 (水平方向) 1次動的特徴量 (垂直方向) 出力確率 状態遷移確率 86
  87. 87. 2次元的な相関を考慮した静的特徴量の統計モデル ⇒トラジェクトリHMMと同様の定式化  平均ベクトルは状態内で値が滑らかに変化   提案モデル 静的特徴量 1次動的特徴量 (水平方向) 1次動的特徴量 (垂直方向) 出力確率 状態遷移確率 87
  88. 88. 2次元的な相関を考慮した静的特徴量の統計モデル ⇒トラジェクトリHMMと同様の定式化  平均ベクトルは状態内で値が滑らかに変化  共分散行列は一般に全共分散型 ⇒隣接する観測間の相関を考慮可能 提案モデル 静的特徴量 1次動的特徴量 (水平方向) 1次動的特徴量 (垂直方向) 出力確率 状態遷移確率 88
  89. 89. 2次元的な相関を考慮した静的特徴量の統計モデル ⇒トラジェクトリHMMと同様の定式化  平均ベクトルは状態内で値が滑らかに変化  共分散行列は一般に全共分散型 ⇒隣接する観測間の相関を考慮可能 提案モデル 静的特徴量 1次動的特徴量 (水平方向) 1次動的特徴量 (垂直方向) 出力確率 状態遷移確率 SL2D-HMMの問題点を解消する統計モデル 89
  90. 90. 推定された平均ベクトルの例  画像サイズ:32×32 状態数:16×16  SL2D-HMMと提案モデルの状態系列は共通  SL2D-HMM  提案モデル SL2D-HMM 提案モデルテストデータ 90
  91. 91. 推定された平均ベクトルの例  画像サイズ:32×32 状態数:16×16  SL2D-HMMと提案モデルの状態系列は共通  SL2D-HMM  提案モデル SL2D-HMM 提案モデルテストデータ ⇒状態内で値が一定 91
  92. 92. 推定された平均ベクトルの例  画像サイズ:32×32 状態数:16×16  SL2D-HMMと提案モデルの状態系列は共通  SL2D-HMM  提案モデル SL2D-HMM 提案モデルテストデータ ⇒状態内で値が滑らかに変化 ⇒状態内で値が一定 92
  93. 93. 推定された共分散行列の例  画像サイズ:32×32 状態数:16×16  行と列はそれぞれ2次元格子のラスタ順で配置 SL2D-HMMの共分散行列 提案モデルの共分散行列 93
  94. 94. 推定された共分散行列の例  画像サイズ:32×32 状態数:16×16  行と列はそれぞれ2次元格子のラスタ順で配置 SL2D-HMMの共分散行列 提案モデルの共分散行列 対角成分のみ分散が大 94
  95. 95. 推定された共分散行列の例  画像サイズ:32×32 状態数:16×16  行と列はそれぞれ2次元格子のラスタ順で配置 SL2D-HMMの共分散行列 提案モデルの共分散行列 対角成分のみ分散が大 非対角成分も分散が大 95
  96. 96. 推定された共分散行列の例  画像サイズ:32×32 状態数:16×16  行と列はそれぞれ2次元格子のラスタ順で配置 SL2D-HMMの共分散行列 提案モデルの共分散行列 対角成分のみ分散が大 非対角成分も分散が大 隣接する観測間の相関をモデル化 96
  97. 97. 学習アルゴリズム EMアルゴリズム 出力確率が状態系列全体に依存 ⇒Forward-Backwardアルゴリズムの適用が困難 ⇒実時間による最適化が困難 関数 Viterbi近似による計算量削減 97
  98. 98.  顔画像認識実験による有効性の検証  認識率は4-fold cross validationで評価 実験条件(1/2) データベース XM2VTS 原画像サイズ 720×576 画像サイズ 16×16 階調数 256,グレースケール 学習データ 1人あたり6枚×100人 テストデータ 1人あたり2枚×100人 2次元HMM状態数 4×4, 6×6, 8×8 10×10, 12×12 98
  99. 99.  比較手法  NoUpdate : SL2Dのパラメタを提案モデル用に線形変換  ParamUpdate:NoUpdateのパラメタの値を最適化  状態系列は3手法とも同一(SL2DのViterbi状態系列) 実験条件(2/2) 手法 パラメタの更新 SL2D (従来法) - NoUpdate なし ParamUpdate あり 99
  100. 100. 0 10 20 30 40 50 60 4×4 6×6 8×8 10×10 12×12 SL2D NoUpdate ParamUpdate 実験結果 状態数 認識率(%) 100
  101. 101. 0 10 20 30 40 50 60 4×4 6×6 8×8 10×10 12×12 SL2D NoUpdate ParamUpdate 実験結果 状態数 認識率(%) NoUpdateの認識率が低い ⇒パラメタが最適化されていないため 101
  102. 102. 0 10 20 30 40 50 60 4×4 6×6 8×8 10×10 12×12 SL2D NoUpdate ParamUpdate 実験結果 状態数 認識率(%) ParamUpdateの認識率が高い ⇒パラメタが最適化されたため 102
  103. 103. 0 10 20 30 40 50 60 4×4 6×6 8×8 10×10 12×12 SL2D NoUpdate ParamUpdate 実験結果 状態数 認識率(%) ParamUpdateの最高認識率がSL2Dを上回る ⇒観測間の相関が適切にモデル化されたため 103
  104. 104. まとめ SL2D-HMMの問題点を解消する統計モデル  状態位置の移動を表現するシフト状態遷移系列の導入 ⇒正規化可能な変動の範囲を回転変動まで拡張  静的・動的特徴量の関係を明示的にモデル化 ⇒観測間の相関を効率よく捉えるモデル構造 画像認識のための高精度な統計モデル 104
  105. 105. 今後の課題・将来の展望  今後の課題  適切な窓行列の設計,状態推定アルゴリズムの検討  様々なデータセット上で他の手法との性能比較・評価  省メモリ・高速化と認識性能の両立  将来の展望  前処理・特徴量選択・モデル構造選択の同時最適化 例:識別モデル(CRFなど)を活用した特徴量・モデル構造選択  画像を用いた様々なタスクへの応用可能性 例:3次元物体認識,動画像認識,画像探索,文字認識など  プログラムをオープンソースとして公開(C++) 105
  106. 106. 概要  序論  研究背景と目的  分離型格子2次元HMMの概要及び既存手法との関連  研究紹介 分離型格子2次元HMMの拡張  回転変動への対応  観測間の相関を捉えるモデル  活動報告 106
  107. 107. ソフトウェアの開発・保守 音声信号処理ツールキットSPTK  音声信号処理に有用なLinuxコマンド群を提供  マイクロソフト他,国内外の多くの研究機関で利用 最近1年間のダウンロード総数:約8,100  共同研究・プロジェクトでの基盤ソフトウェア  主要開発メンバーとして従事 数多くの新機能を開発・実装&バグ修正等の保守作業 http://sp-tk.sourceforge.net/ 107
  108. 108. 研究活動(1/3)  総務省 SCOPE プロジェクト  期間 2009/11 ~ 2011/12  「講演者のための 多言語音声合成技術に関する研究開発」  共同研究機関  京都市立芸術大学  独立行政法人情報通信機構 話者選択モジュールの開発に従事しプロジェクトに貢献 おはよう 音声翻訳 システム Good Morning 108
  109. 109. 研究活動(2/3)  JST CREST uDialogue プロジェクト  期間 2011/10 ~ 2017/03  「コンテンツ生成の循環系を軸とした 次世代音声技術基盤の確立」  共同研究機関  名古屋工業大学国際音声技術研究所  名古屋工業大学情報基盤センター  エジンバラ大学 研究者の方々と活発に意見を 交換しプロジェクトの発展に貢献 名工大双方向 音声案内システム モバイル環境 音声対話システム 109
  110. 110. 研究活動(3/3)  学外交流  NTT コミュニケーション科学基礎研究所 2012/01 ~ 2012/04 実習生 博士論文完成に不可欠な実装技術を習得 110

×