SlideShare une entreprise Scribd logo
1  sur  110
STATISTICAL MODELS INCLUDING
NORMALIZATION PROCESSES
FOR IMAGE RECOGNITION
画像認識のための正規化
プロセスを含んだ統計モデル
創成シミュレーション工学専攻
計算システム工学分野 徳田・南角研究室
玉森 聡
概要
 序論
 研究背景および目的
 分離型格子2次元HMMの概要及び既存手法との関連
 研究紹介
分離型格子2次元HMMの拡張
 回転変動への対応
 観測間の相関を捉えるモデル
 活動報告
2
概要
 序論
 研究背景および目的
 分離型格子2次元HMMの概要及び既存手法との関連
 研究紹介
分離型格子2次元HMMの拡張
 回転変動への対応
 観測間の相関を捉えるモデル
 活動報告
3
研究背景および目的(1/2)
 画像認識
 画像に含まれる何らかの意味がある認識対象を識別
 セキュリティ,工業用検査,娯楽などの様々な分野で需要増加
 認識対象の多さ・データの複雑さから多種多様な手法が提案
 統計的機械学習に基づく画像認識
 デジタル機器の普及により多種多様で膨大な画像が存在
 計算機の発展により画像を高速に処理可能
⇒統計的機械学習に基づく画像認識手法が注目
4
研究背景および目的(1/2)
 画像認識
 画像に含まれる何らかの意味がある認識対象を識別
 セキュリティ,工業用検査,娯楽などの様々な分野で需要増加
 認識対象の多さ・データの複雑さから多種多様な手法が提案
 統計的機械学習に基づく画像認識
 デジタル機器の普及により多種多様で膨大な画像が存在
 計算機の発展により画像を高速に処理可能
⇒統計的機械学習に基づく画像認識手法が注目
画像認識のための汎用的な統計モデルの構築
顔画像認識,文字認識,ジェスチャ認識など
様々な画像・タスクに適用可能なモデル
5
研究背景および目的(2/2)
 画像認識のアプローチは大きく2つに分類
 人間の経験的な知識を積極的に利用する方法
(例):「人間の目は2つで鼻の上側」 「横向きの車はタイヤ2つ」
利点:実用を重視,少量の学習データでも高い認識率
欠点:タスクに応じて人間が試行錯誤を繰り返す必要
 多次元特徴空間のパターン識別として捉える方法
 正規化された固定長の多次元ベクトルを仮定
画像の切り出し,特徴抽出などの前処理が必要
 画像固有の特性を考慮していない場合が多い
(例):照明条件,2次元空間内の幾何学的変動など
6
研究背景および目的(2/2)
 画像認識のアプローチは大きく2つに分類
 人間の経験的な知識を積極的に利用する方法
(例):「人間の目は2つで鼻の上側」 「横向きの車はタイヤ2つ」
利点:実用を重視,少量の学習データでも高い認識率
欠点:タスクに応じて人間が試行錯誤を繰り返す必要
 多次元特徴空間のパターン識別として捉える方法
 正規化された固定長の多次元ベクトルを仮定
画像の切り出し,特徴抽出などの前処理が必要
 画像固有の特性を考慮していない場合が多い
(例):照明条件,2次元空間内の幾何学的変動など
前処理とモデル学習を同時に最適化する枠組みの構築
画像固有の特性を考慮した正規化プロセスの組み込み
7
概要
 序論
 研究背景および目的
 分離型格子2次元HMMの概要及び既存手法との関連
 研究紹介
分離型格子2次元HMMの拡張
 回転変動への対応
 観測間の相関を捉えるモデル
 活動報告
8
確率的固有画像モデル
 主成分分析を確率統計モデルとして定式化
 固有画像を確率的主成分分析 (PPCA) や因子分析 (FA)
により表現
: 観測データ
: 因子負荷行列
: 因子ベクトル
: 固有画像 (基底)
: ノイズベクトル
利点 : データ間の共分散や相関を効率的にモデル化可能
欠点 : 事前に幾何学的変動に対する正規化処理が必要 9
確率的固有画像モデル
 主成分分析を確率統計モデルとして定式化
 固有画像を確率的主成分分析 (PPCA) や因子分析 (FA)
により表現
: 観測データ
: 因子負荷行列
: 因子ベクトル
: 固有画像 (基底)
: ノイズベクトル
利点 : データ間の共分散や相関を効率的にモデル化可能
欠点 : 事前に幾何学的変動に対する正規化処理が必要
ノイズベクトルの分散
・対角等分散 ⇒ PPCA
・対角共分散 ⇒ FA
10
その他の先行研究例
 HMMに基づく手法
 1次元HMMを人間の顔認識に利用[Samaria et.al; ‘93]

 Embedded HMM [Nefian et.al; ‘03]

 Pseudo 2-D HMM [Kuo et.al; ‘94]

 2次元DPマッチングに基づく手法 [Uchida et al; ‘01]
 画像間のマッピングをコスト関数により制御
 柔軟かつ正確なマッピングのためのコスト関数の決定
には事前知識が必要
11
その他の先行研究例
 HMMに基づく手法
 1次元HMMを人間の顔認識に利用[Samaria et.al; ‘93]
⇒幾何学的変動に対する頑健性を欠く
 Embedded HMM [Nefian et.al; ‘03]

 Pseudo 2-D HMM [Kuo et.al; ‘94]

 2次元DPマッチングに基づく手法 [Uchida et al; ‘01]
 画像間のマッピングをコスト関数により制御
 柔軟かつ正確なマッピングのためのコスト関数の決定
には事前知識が必要
12
その他の先行研究例
 HMMに基づく手法
 1次元HMMを人間の顔認識に利用[Samaria et.al; ‘93]
⇒幾何学的変動に対する頑健性を欠く
 Embedded HMM [Nefian et.al; ‘03]
⇒画像の幾何学的連続性を保つことが困難
 Pseudo 2-D HMM [Kuo et.al; ‘94]

 2次元DPマッチングに基づく手法 [Uchida et al; ‘01]
 画像間のマッピングをコスト関数により制御
 柔軟かつ正確なマッピングのためのコスト関数の決定
には事前知識が必要
13
その他の先行研究例
 HMMに基づく手法
 1次元HMMを人間の顔認識に利用[Samaria et.al; ‘93]
⇒幾何学的変動に対する頑健性を欠く
 Embedded HMM [Nefian et.al; ‘03]
⇒画像の幾何学的連続性を保つことが困難
 Pseudo 2-D HMM [Kuo et.al; ‘94]
⇒取りうる状態の組合せが多く計算量が膨大(指数オーダー)
 2次元DPマッチングに基づく手法 [Uchida et al; ‘01]
 画像間のマッピングをコスト関数により制御
 柔軟かつ正確なマッピングのためのコスト関数の決定
には事前知識が必要
14
分離型格子2次元HMM(SL2D-HMM)
 2次元に拡張したHMMに構造的な制約条件
⇒縦方向と横方向の状態遷移は独立
 幾何学的変動(並進, 拡大縮小)のモデル化
 状態の組合せ総数の削減 ⇒ 計算量の削減
出力確率分布
横方向の状態遷移
縦
方
向
の
状
態
遷
移
状態で画像を矩形領域に分割
特徴量は対応する
確率分布より出力
15
可変固有画像モデル[Higaki el al.; ‘07]
 基底とノイズベクトルが分離型格子2次元HMMから生成
: 観測データ
: 因子負荷行列
: 因子ベクトル
: 固有画像 (基底)
: ノイズベクトル
利点 : 状態間の共分散や相関と幾何学的変動をモデル化
16
パラメトリック固有空間法との関連
 パラメトリック固有空間法[Murase; ‘02]の特徴
 連続的に見かけが変化する画像を固有空間上の多様体で表現
 一連の画像を多様体上の軌跡として表現
 対象の大きさ・輝度の正規化が前提
 位置ずれの変動は基底の線形和で表現
⇒より多くの学習画像を必要とする
 可変固有画像モデル
 認識対象の幾何学的変動を状態遷移により表現
 状態遷移で合わせきれない部分を基底により表現
例:照明変動や顔の表情の変化など
17
パラメトリック固有空間法との関連
 パラメトリック固有空間法[Murase; ‘02]の特徴
 連続的に見かけが変化する画像を固有空間上の多様体で表現
 一連の画像を多様体上の軌跡として表現
 対象の大きさ・輝度の正規化が前提
 位置ずれの変動は基底の線形和で表現
⇒より多くの学習画像を必要とする
 可変固有画像モデル
 認識対象の幾何学的変動を状態遷移により表現
 状態遷移で合わせきれない部分を基底により表現
例:照明変動や顔の表情の変化など
18
より少ないデータで汎用性の高いモデルを実現
部分空間法・テンプレートマッチ法との関連
 可変固有画像モデルにおける識別的パラメータ共有構造
基底と因子の共有レベルにより様々な構造を表現
 基底と因子がクラス固有 ⇒ 部分空間法
 基底を全クラスで共有 ⇒ 固有顔法
 基底と因子の共有構造を変化 ⇒ 両者の中間的構造を表現
 各状態のガウス分布が画像の形を表わすテンプレート
対象の位置ずれを状態遷移で表現
 確率的テンプレートマッチとみなすことが可能
 状態数は画像テンプレートの数に対応
[Fujii et al.; ’10]
部分空間法・テンプレートマッチ法との関連
 可変固有画像モデルにおける識別的パラメータ共有構造
基底と因子の共有レベルにより様々な構造を表現
 基底と因子がクラス固有 ⇒ 部分空間法
 基底を全クラスで共有 ⇒ 固有顔法
 基底と因子の共有構造を変化 ⇒ 両者の中間的構造を表現
 各状態のガウス分布が画像の形を表わすテンプレート
対象の位置ずれを状態遷移で表現
 確率的テンプレートマッチとみなすことが可能
 状態数は画像テンプレートの数に対応
従来の認識手法を内包しつつ
幾何学的変動に対処可能なモデル
[Fujii et al.; ’10]
概要
 序論
 研究背景および目的
 分離型格子2次元HMMの概要及び既存手法との関連
 研究紹介
分離型格子2次元HMMの拡張
 回転変動への対応
 観測間の相関を捉えるモデル
 活動報告
21
概要
 序論
 研究背景および目的
 分離型格子2次元HMMの概要及び既存手法との関連
 研究紹介
分離型格子2次元HMMの拡張
 回転変動への対応
 観測間の相関を捉えるモデル
 活動報告
22
はじめに
分離型格子2次元HMMの問題点
1. アフィン変換への対応が不完全
 並進・拡大縮小のみに対応可能
 回転変動には対応困難
2. モデル化能力に関する脆弱性
 隣接する観測間の相関を無視
 同一状態内で変動する観測のモデル化が困難
分離型格子2次元HMMの問題点を解消する
より高精度な統計モデルを提案
23
回転変動を考慮したモデル構造(1/2)
分離型格子2次元HMMによる画像のモデル化
⇒矩形状の領域分割
 並進,拡大・縮小
領域のサイズを変更して対応
 回転変動
サイズの変更では対応困難
24
回転変動を考慮したモデル構造(1/2)
分離型格子2次元HMMによる画像のモデル化
⇒矩形状の領域分割
 並進,拡大・縮小
領域のサイズを変更して対応
 回転変動
サイズの変更では対応困難
25
回転変動を考慮したモデル構造(1/2)
分離型格子2次元HMMによる画像のモデル化
⇒矩形状の領域分割
 並進,拡大・縮小
領域のサイズを変更して対応
 回転変動
サイズの変更では対応困難
26
回転変動を考慮したモデル構造(1/2)
分離型格子2次元HMMによる画像のモデル化
⇒矩形状の領域分割
 並進,拡大・縮小
領域のサイズを変更して対応
 回転変動
サイズの変更では対応困難
27
回転変動を考慮したモデル構造(1/2)
分離型格子2次元HMMによる画像のモデル化
⇒矩形状の領域分割
 並進,拡大・縮小
領域のサイズを変更して対応
 回転変動
サイズの変更では対応困難
28
回転変動を考慮したモデル構造(1/2)
分離型格子2次元HMMによる画像のモデル化
⇒矩形状の領域分割
 並進,拡大・縮小
領域のサイズを変更して対応
 回転変動
サイズの変更では対応困難
29
回転変動を考慮したモデル構造(1/2)
分離型格子2次元HMMによる画像のモデル化
⇒矩形状の領域分割
 並進,拡大・縮小
領域のサイズを変更して対応
 回転変動
サイズの変更では対応困難
30
回転変動を考慮したモデル構造(1/2)
分離型格子2次元HMMによる画像のモデル化
⇒矩形状の領域分割
 並進,拡大・縮小
領域のサイズを変更して対応
 回転変動
サイズの変更では対応困難
回転変動を考慮したモデル構造が必要
31
シフト状態遷移系列の導入
縦・横方向の状態位置をシフト ⇒回転変動を吸収可能
回転変動を考慮したモデル構造(2/2)
横方向の状態遷移
縦
方
向
の
状
態
遷
移
32
シフト状態遷移系列の導入
縦・横方向の状態位置をシフト ⇒回転変動を吸収可能
縦
方
向
の
状
態
遷
移
回転変動を考慮したモデル構造(2/2)
横方向の状態遷移
33
シフト状態遷移系列の導入
縦・横方向の状態位置をシフト ⇒回転変動を吸収可能
縦
方
向
の
状
態
遷
移
回転変動を考慮したモデル構造(2/2)
横方向の状態遷移
34
シフト状態遷移系列の導入
縦・横方向の状態位置をシフト ⇒回転変動を吸収可能
縦
方
向
の
状
態
遷
移
回転変動を考慮したモデル構造(2/2)
横方向の状態遷移
35
シフト状態遷移系列の導入
縦・横方向の状態位置をシフト ⇒回転変動を吸収可能
横方向のシフト状態遷移
縦
方
向
の
状
態
遷
移
回転変動を考慮したモデル構造(2/2)
横方向の状態遷移
縦
方
向
の
シ
フ
ト
状
態
遷
移
36
シフト状態遷移系列の導入
縦・横方向の状態位置をシフト ⇒回転変動を吸収可能
横方向のシフト状態遷移
縦
方
向
の
状
態
遷
移
回転変動を考慮したモデル構造(2/2)
横方向の状態遷移
縦
方
向
の
シ
フ
ト
状
態
遷
移
37
 関数の逐次最大化による最尤推定
 E-step : 事後確率の計算
 M-step : モデルパラメータの推定
 同時事後確率の計算量が膨大
⇒実時間では最適化が困難
EMアルゴリズム
変分EMアルゴリズムによる計算量削減
:観測データ :状態遷移系列 :シフト状態遷移系列 :モデルパラメータ
38
変分EMアルゴリズム(1/2)
 対数尤度の下限 を定義
(Jensenの不等式)
39
変分EMアルゴリズム(1/2)
 対数尤度の下限 を定義
(Jensenの不等式)
40
変分EMアルゴリズム(1/2)
 対数尤度の下限 を定義
の近似分布
(Jensenの不等式)
41
変分EMアルゴリズム(1/2)
 対数尤度の下限 を定義
の近似分布
下限 を最大化する近似事後分布の推定
(Jensenの不等式)
42
 近似事後分布 の変数間の独立性を仮定
⇒計算量を大幅に削減(指数オーダ→多項式オーダ)
 下限 の逐次最大化
変分EMアルゴリズム(2/2)
E-step
M-step
が収束するまで
交互に繰り返す
43
実験条件(1/2)
 顔画像認識実験により提案手法の有効性を検証
データベース XM2VTS
原画像サイズ 720×576
画像サイズ 64×64
階調数 256,グレースケール
学習データ 1人あたり7枚×100人
テストデータ 1人あたり1枚×100人
2次元HMM状態数 24×24
シフト状態数
6×6, 10×10, 14×14,
16×16, 18×18
44
実験条件(2/2)
 データの変動の種類
 回転変動のみ
 位置・大きさ・回転変動
 意図した変動をモデルが表現可能か否かの検証が目的
 回転変動の場合
 状態位置のシフトによりどこまで回転が表現できるかを検証
 モデル自体は±45度程度の範囲を表現する能力
 位置・大きさの変動の場合
 認識対象が画像内に十分収まる範囲で検証
45
データのサイズの変動 500×500 ~ 600×600
データの位置の変動 中心から40×20ピクセル以内
データの回転角 -10°~ 10°(正規乱数)
用意したデータの例
 回転変動
 位置・大きさ・回転変動
46
実験結果(学習データの変動:回転のみ)
変動なし
回転変動
従来モデル 提案モデル(シフト状態数あり)
テストデータ
の変動
47
実験結果(学習データの変動:回転のみ)
変動なし
回転変動
従来モデル 提案モデル(シフト状態数あり)
変動なしデータのみで
学習・認識したときの結果
テストデータ
の変動
48
実験結果(学習データの変動:回転のみ)
変動なし
回転変動
従来モデル 提案モデル(シフト状態数あり)
変動なしデータのみで
学習・認識したときの結果
テストデータ
の変動
49
実験結果(学習データの変動:回転のみ)
変動なし
回転変動
従来モデル 提案モデル(シフト状態数あり)
変動なしデータのみで
学習・認識したときの結果
テストデータ
の変動
50
実験結果(学習データの変動:回転のみ)
変動なし
回転変動
従来モデル 提案モデル(シフト状態数あり)
変動なしデータのみで
学習・認識したときの結果
認識率低下
テストデータ
の変動
51
実験結果(学習データの変動:回転のみ)
変動なし
回転変動
従来モデル 提案モデル(シフト状態数あり)
変動なしデータのみで
学習・認識したときの結果
認識率低下
テストデータ
の変動
テストデータの変動による認識率の違い
⇒学習データの変動と不一致のため
52
実験結果(学習データの変動:回転のみ)
変動なし
回転変動
従来モデル 提案モデル(シフト状態数あり)
変動なしデータのみで
学習・認識したときの結果
テストデータ
の変動
53
実験結果(学習データの変動:回転のみ)
変動なし
回転変動
従来モデル 提案モデル(シフト状態数あり)
変動なしデータのみで
学習・認識したときの結果
テストデータ
の変動
認識率向上
54
実験結果(学習データの変動:回転のみ)
変動なし
回転変動
従来モデル 提案モデル(シフト状態数あり)
変動なしデータのみで
学習・認識したときの結果
テストデータ
の変動
回転変動を適切に正規化
認識率向上
55
実験結果(学習データの変動:位置+大きさ+回転)
変動なし
位置・大きさ・回転変動
従来モデル 提案モデル(シフト状態数あり)
56
実験結果(学習データの変動:位置+大きさ+回転)
変動なし
位置・大きさ・回転変動
従来モデル 提案モデル(シフト状態数あり)
位置・大きさ・回転変動を適切に正規化
57
状態アライメント
テスト
データ
回転角 20° 10° 0° -10° -20°
SL2D-
HMM
提案モデル
 最尤状態系列に沿って平均ベクトルを配置
⇒データに対するモデルの当てはまりを視覚化
状態アライメント
テスト
データ
回転角 20° 10° 0° -10° -20°
SL2D-
HMM
提案モデル
 最尤状態系列に沿って平均ベクトルを配置
⇒データに対するモデルの当てはまりを視覚化
状態アライメント
テスト
データ
回転角 20° 10° 0° -10° -20°
SL2D-
HMM
提案モデル
矩形状の状態アライメント
⇒回転変動への対応が困難
 最尤状態系列に沿って平均ベクトルを配置
⇒データに対するモデルの当てはまりを視覚化
状態アライメント
テスト
データ
回転角 20° 10° 0° -10° -20°
SL2D-
HMM
提案モデル
 最尤状態系列に沿って平均ベクトルを配置
⇒データに対するモデルの当てはまりを視覚化
状態アライメント
テスト
データ
回転角 20° 10° 0° -10° -20°
SL2D-
HMM
提案モデル
 最尤状態系列に沿って平均ベクトルを配置
⇒データに対するモデルの当てはまりを視覚化
状態アライメント
テスト
データ
回転角 20° 10° 0° -10° -20°
SL2D-
HMM
提案モデル
回転変動に対応した状態アライメント
⇒提案モデルの有効性を示す
 最尤状態系列に沿って平均ベクトルを配置
⇒データに対するモデルの当てはまりを視覚化
概要
 序論
 研究背景と目的
 分離型格子2次元HMMの概要及び既存手法との関連
 研究紹介
分離型格子2次元HMMの拡張
 回転変動への対応
 観測間の相関を捉えるモデル
 活動報告
64
背景・目的(1/3)
 従来のSL2D-HMMの問題点
 各状態内で統計量(出力分布の平均・分散)が一定
 観測間の条件付き独立性を仮定
例:1次元HMM
65
背景・目的(1/3)
 従来のSL2D-HMMの問題点
 各状態内で統計量(出力分布の平均・分散)が一定

 観測間の条件付き独立性を仮定
例:1次元HMM
同一の状態⇒同一の出力分布
66
背景・目的(1/3)
 従来のSL2D-HMMの問題点
 各状態内で統計量(出力分布の平均・分散)が一定
⇒状態内で変化する観測の詳細なモデル化が困難
 観測間の条件付き独立性を仮定
例:1次元HMM
同一の状態⇒同一の出力分布
67
背景・目的(1/3)
 従来のSL2D-HMMの問題点
 各状態内で統計量(出力分布の平均・分散)が一定
⇒状態内で変化する観測の詳細なモデル化が困難
 観測間の条件付き独立性を仮定
例:1次元HMM
68
背景・目的(1/3)
 従来のSL2D-HMMの問題点
 各状態内で統計量(出力分布の平均・分散)が一定
⇒状態内で変化する観測の詳細なモデル化が困難
 観測間の条件付き独立性を仮定

例:1次元HMM
69
背景・目的(1/3)
 従来のSL2D-HMMの問題点
 各状態内で統計量(出力分布の平均・分散)が一定
⇒状態内で変化する観測の詳細なモデル化が困難
 観測間の条件付き独立性を仮定
⇒隣接する観測間の相関を無視
例:1次元HMM
70
背景・目的(2/3)
 SL2D-HMMへの動的特徴量の適用[Kumaki el al; ‘10]
 動的特徴量を追加 ⇒ 認識性能の大幅な向上
 隣接観測間の依存関係をモデル化する手法の1つ
:静的特徴量
静的特徴量
71
背景・目的(2/3)
 SL2D-HMMへの動的特徴量の適用[Kumaki el al; ‘10]
 動的特徴量を追加 ⇒ 認識性能の大幅な向上
 隣接観測間の依存関係をモデル化する手法の1つ
:静的特徴量
水平方向のデルタ 垂直方向のデルタ静的特徴量
窓行列
72
背景・目的(2/3)
 SL2D-HMMへの動的特徴量の適用[Kumaki el al; ‘10]
 動的特徴量を追加 ⇒ 認識性能の大幅な向上
 隣接観測間の依存関係をモデル化する手法の1つ
:静的特徴量
水平方向のデルタ 垂直方向のデルタ
:観測ベクトル
静的特徴量
窓行列
73
背景・目的(2/3)
 SL2D-HMMへの動的特徴量の適用[Kumaki el al; ‘10]
 動的特徴量を追加 ⇒ 認識性能の大幅な向上
 隣接観測間の依存関係をモデル化する手法の1つ
:静的特徴量
水平方向のデルタ 垂直方向のデルタ
:観測ベクトル
静的特徴量
関係式(行列形式)
窓行列
74
 統計モデル的に正しくない枠組み
 静的・動的特徴量を独立な確率変数としてモデル化
⇒静的特徴量が決まれば動的特徴量は一意に決定
 統計モデルは に対する関数として定義されるべき
⇒本来観測されたものは であり ではない
背景・目的(3/3)
分離型格子2次元HMMを
静的特徴量 の統計モデルとして再定式化
75
トラジェクトリHMM [Zen et al; ‘06]
時間的関係を考慮した静的特徴量の統計モデル
静的特徴量,動的特徴量の関係を明示的にモデル化
HMMの出力確率分布
76
トラジェクトリHMM [Zen et al; ‘06]
時間的関係を考慮した静的特徴量の統計モデル
静的特徴量,動的特徴量の関係を明示的にモデル化
HMMの出力確率分布 ⇒ 各特徴量分布の積
77
トラジェクトリHMM [Zen et al; ‘06]
時間的関係を考慮した静的特徴量の統計モデル
静的特徴量,動的特徴量の関係を明示的にモデル化
静的特徴量 1次動的特徴量
(速度)
2次動的特徴量
(加速度)
HMMの出力確率分布 ⇒ 各特徴量分布の積
78
トラジェクトリHMM [Zen et al; ‘06]
時間的関係を考慮した静的特徴量の統計モデル
静的特徴量,動的特徴量の関係を明示的にモデル化
観測系列
0.8
0.4
0.0
-0.4
-0.8
-1.2
50 100 150 200 250 300 350 400 4500
Time (frame)
静的特徴量 1次動的特徴量
(速度)
2次動的特徴量
(加速度)
HMMの出力確率分布 ⇒ 各特徴量分布の積
79
トラジェクトリHMM [Zen et al; ‘06]
時間的関係を考慮した静的特徴量の統計モデル
静的特徴量,動的特徴量の関係を明示的にモデル化
観測系列
0.8
0.4
0.0
-0.4
-0.8
-1.2
50 100 150 200 250 300 350 400 4500
Time (frame)
静的特徴量 1次動的特徴量
(速度)
2次動的特徴量
(加速度)
HMMの出力確率分布 ⇒ 各特徴量分布の積
HMMの平均系列 ⇒ 階段上の不連続な系列
HMMの平均系列
80
トラジェクトリHMM [Zen et al; ‘06]
時間的関係を考慮した静的特徴量の統計モデル
静的特徴量,動的特徴量の関係を明示的にモデル化
観測系列
0.8
0.4
0.0
-0.4
-0.8
-1.2
50 100 150 200 250 300 350 400 4500
Time (frame)
静的特徴量 1次動的特徴量
(速度)
2次動的特徴量
(加速度)
トラジェクトリHMMの確率分布 ⇒ の分布として正規化
HMMの平均系列
81
トラジェクトリHMM [Zen et al; ‘06]
時間的関係を考慮した静的特徴量の統計モデル
静的特徴量,動的特徴量の関係を明示的にモデル化
観測系列
0.8
0.4
0.0
-0.4
-0.8
-1.2
50 100 150 200 250 300 350 400 4500
Time (frame)
静的特徴量 1次動的特徴量
(速度)
2次動的特徴量
(加速度)
トラジェクトリHMMの確率分布 ⇒ の分布として正規化
HMMの平均系列
正規化定数
82
トラジェクトリHMM [Zen et al; ‘06]
時間的関係を考慮した静的特徴量の統計モデル
静的特徴量,動的特徴量の関係を明示的にモデル化
観測系列
0.8
0.4
0.0
-0.4
-0.8
-1.2
50 100 150 200 250 300 350 400 4500
Time (frame)
トラジェクトリHMMの平均系列 ⇒ 状態内で滑らかに変化
静的特徴量 1次動的特徴量
(速度)
2次動的特徴量
(加速度)
トラジェクトリHMMの確率分布 ⇒ の分布として正規化
HMMの平均系列
正規化定数
83
2次元的な相関を考慮した静的特徴量の統計モデル
⇒トラジェクトリHMMと同様の定式化



提案モデル
84
2次元的な相関を考慮した静的特徴量の統計モデル
⇒トラジェクトリHMMと同様の定式化



提案モデル
出力確率 状態遷移確率
85
2次元的な相関を考慮した静的特徴量の統計モデル
⇒トラジェクトリHMMと同様の定式化



提案モデル
静的特徴量 1次動的特徴量
(水平方向)
1次動的特徴量
(垂直方向)
出力確率 状態遷移確率
86
2次元的な相関を考慮した静的特徴量の統計モデル
⇒トラジェクトリHMMと同様の定式化
 平均ベクトルは状態内で値が滑らかに変化


提案モデル
静的特徴量 1次動的特徴量
(水平方向)
1次動的特徴量
(垂直方向)
出力確率 状態遷移確率
87
2次元的な相関を考慮した静的特徴量の統計モデル
⇒トラジェクトリHMMと同様の定式化
 平均ベクトルは状態内で値が滑らかに変化
 共分散行列は一般に全共分散型
⇒隣接する観測間の相関を考慮可能
提案モデル
静的特徴量 1次動的特徴量
(水平方向)
1次動的特徴量
(垂直方向)
出力確率 状態遷移確率
88
2次元的な相関を考慮した静的特徴量の統計モデル
⇒トラジェクトリHMMと同様の定式化
 平均ベクトルは状態内で値が滑らかに変化
 共分散行列は一般に全共分散型
⇒隣接する観測間の相関を考慮可能
提案モデル
静的特徴量 1次動的特徴量
(水平方向)
1次動的特徴量
(垂直方向)
出力確率 状態遷移確率
SL2D-HMMの問題点を解消する統計モデル
89
推定された平均ベクトルの例
 画像サイズ:32×32 状態数:16×16
 SL2D-HMMと提案モデルの状態系列は共通
 SL2D-HMM
 提案モデル
SL2D-HMM 提案モデルテストデータ
90
推定された平均ベクトルの例
 画像サイズ:32×32 状態数:16×16
 SL2D-HMMと提案モデルの状態系列は共通
 SL2D-HMM
 提案モデル
SL2D-HMM 提案モデルテストデータ
⇒状態内で値が一定
91
推定された平均ベクトルの例
 画像サイズ:32×32 状態数:16×16
 SL2D-HMMと提案モデルの状態系列は共通
 SL2D-HMM
 提案モデル
SL2D-HMM 提案モデルテストデータ
⇒状態内で値が滑らかに変化
⇒状態内で値が一定
92
推定された共分散行列の例
 画像サイズ:32×32 状態数:16×16
 行と列はそれぞれ2次元格子のラスタ順で配置
SL2D-HMMの共分散行列 提案モデルの共分散行列
93
推定された共分散行列の例
 画像サイズ:32×32 状態数:16×16
 行と列はそれぞれ2次元格子のラスタ順で配置
SL2D-HMMの共分散行列 提案モデルの共分散行列
対角成分のみ分散が大
94
推定された共分散行列の例
 画像サイズ:32×32 状態数:16×16
 行と列はそれぞれ2次元格子のラスタ順で配置
SL2D-HMMの共分散行列 提案モデルの共分散行列
対角成分のみ分散が大 非対角成分も分散が大
95
推定された共分散行列の例
 画像サイズ:32×32 状態数:16×16
 行と列はそれぞれ2次元格子のラスタ順で配置
SL2D-HMMの共分散行列 提案モデルの共分散行列
対角成分のみ分散が大 非対角成分も分散が大
隣接する観測間の相関をモデル化
96
学習アルゴリズム
EMアルゴリズム
出力確率が状態系列全体に依存
⇒Forward-Backwardアルゴリズムの適用が困難
⇒実時間による最適化が困難
関数
Viterbi近似による計算量削減
97
 顔画像認識実験による有効性の検証
 認識率は4-fold cross validationで評価
実験条件(1/2)
データベース XM2VTS
原画像サイズ 720×576
画像サイズ 16×16
階調数 256,グレースケール
学習データ 1人あたり6枚×100人
テストデータ 1人あたり2枚×100人
2次元HMM状態数
4×4, 6×6, 8×8
10×10, 12×12
98
 比較手法
 NoUpdate : SL2Dのパラメタを提案モデル用に線形変換
 ParamUpdate:NoUpdateのパラメタの値を最適化
 状態系列は3手法とも同一(SL2DのViterbi状態系列)
実験条件(2/2)
手法 パラメタの更新
SL2D (従来法) -
NoUpdate なし
ParamUpdate あり
99
0
10
20
30
40
50
60
4×4 6×6 8×8 10×10 12×12
SL2D NoUpdate ParamUpdate
実験結果
状態数
認識率(%)
100
0
10
20
30
40
50
60
4×4 6×6 8×8 10×10 12×12
SL2D NoUpdate ParamUpdate
実験結果
状態数
認識率(%)
NoUpdateの認識率が低い
⇒パラメタが最適化されていないため
101
0
10
20
30
40
50
60
4×4 6×6 8×8 10×10 12×12
SL2D NoUpdate ParamUpdate
実験結果
状態数
認識率(%)
ParamUpdateの認識率が高い
⇒パラメタが最適化されたため
102
0
10
20
30
40
50
60
4×4 6×6 8×8 10×10 12×12
SL2D NoUpdate ParamUpdate
実験結果
状態数
認識率(%)
ParamUpdateの最高認識率がSL2Dを上回る
⇒観測間の相関が適切にモデル化されたため
103
まとめ
SL2D-HMMの問題点を解消する統計モデル
 状態位置の移動を表現するシフト状態遷移系列の導入
⇒正規化可能な変動の範囲を回転変動まで拡張
 静的・動的特徴量の関係を明示的にモデル化
⇒観測間の相関を効率よく捉えるモデル構造
画像認識のための高精度な統計モデル
104
今後の課題・将来の展望
 今後の課題
 適切な窓行列の設計,状態推定アルゴリズムの検討
 様々なデータセット上で他の手法との性能比較・評価
 省メモリ・高速化と認識性能の両立
 将来の展望
 前処理・特徴量選択・モデル構造選択の同時最適化
例:識別モデル(CRFなど)を活用した特徴量・モデル構造選択
 画像を用いた様々なタスクへの応用可能性
例:3次元物体認識,動画像認識,画像探索,文字認識など
 プログラムをオープンソースとして公開(C++)
105
概要
 序論
 研究背景と目的
 分離型格子2次元HMMの概要及び既存手法との関連
 研究紹介
分離型格子2次元HMMの拡張
 回転変動への対応
 観測間の相関を捉えるモデル
 活動報告
106
ソフトウェアの開発・保守
音声信号処理ツールキットSPTK
 音声信号処理に有用なLinuxコマンド群を提供
 マイクロソフト他,国内外の多くの研究機関で利用
最近1年間のダウンロード総数:約8,100
 共同研究・プロジェクトでの基盤ソフトウェア
 主要開発メンバーとして従事
数多くの新機能を開発・実装&バグ修正等の保守作業
http://sp-tk.sourceforge.net/
107
研究活動(1/3)
 総務省 SCOPE プロジェクト
 期間 2009/11 ~ 2011/12
 「講演者のための
多言語音声合成技術に関する研究開発」
 共同研究機関
 京都市立芸術大学
 独立行政法人情報通信機構
話者選択モジュールの開発に従事しプロジェクトに貢献
おはよう
音声翻訳
システム
Good Morning
108
研究活動(2/3)
 JST CREST uDialogue プロジェクト
 期間 2011/10 ~ 2017/03
 「コンテンツ生成の循環系を軸とした
次世代音声技術基盤の確立」
 共同研究機関
 名古屋工業大学国際音声技術研究所
 名古屋工業大学情報基盤センター
 エジンバラ大学
研究者の方々と活発に意見を
交換しプロジェクトの発展に貢献
名工大双方向
音声案内システム
モバイル環境
音声対話システム
109
研究活動(3/3)
 学外交流
 NTT コミュニケーション科学基礎研究所
2012/01 ~ 2012/04 実習生
博士論文完成に不可欠な実装技術を習得
110

Contenu connexe

En vedette

How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 

En vedette (20)

Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 

公聴会 発表スライド

Notes de l'éditeur

  1. 物体をモデル化するにあたり,3次元物体の表現について考えます. 物体が3次元であることから,3次元モデルによる表現を考えることができます. 3次元モデルは物体の構造を詳細に表現することが出来ます. しかし,状態遷移の組み合わせが増加するため,□ 計算コストは大きいといえます.そこで,□ 2次元モデルによる物体表現を考えます.□ 物体を周回軌道から撮影した画像が既にデータ化されています. このデータから,□ 物体の展開図を1枚の画像として表現することが出来ます. この展開図を,□ 円筒形の側面として考え,物体を簡潔に表現します. このように円筒形とすることで,3次元物体を2次元で表現します.□
  2. そこで提案する手法が,円筒構造を有する分離型2次元格子HMMです. これは分離型2次元格子HMMを拡張したモデルです. まず状態を,物体の模様などの特徴を表現する物体状態と, 画像内の背景や,物体のでっぱりなどの端の部分を表現する 背景状態とで分けます. そして物体状態の横方向の状態遷移を環状化しました. 縦の状態遷移と組み合わせることで物体状態は円筒形になり, 先ほど述べたようにして物体の側面を表現することが可能となります. このとき,物体状態と背景状態の切り替わりは任意の状態から 行えるようになっています.□
  3. 提案手法では,物体状態の情報を得るために, 物体を周囲から撮影した画像で学習を行います. それによって,物体状態は特徴の連続性を維持することができるため, どのような向きの物体画像が来ても同物体として認識ができ, 物体の向きの変動に対応しています. また,学習データの角度情報から初期モデルを推定するため, 物体の角度情報をモデルが保持しているといえます.□
  4. モデルに角度情報が備わっているため,認識を行う際, テストデータに対してどのような物体状態が用いられているかで, 観測角度の推定を行うことが出来ます. 例えばこのようなテストデータを認識すると,□ 物体状態はこのようになると,モデルの角度情報から, 物体の観測角度を推定できます. 物体状態の系列を求めることは認識を行うことと同義なため,□ 提案法は観測角度に依らない物体認識と同時に, 観測角度の推定が可能であるということを示しています.□
  5. ほぼ読み上げるだけ