SlideShare une entreprise Scribd logo
1  sur  55
Télécharger pour lire hors ligne
(1)
物体認識
画像認識における幾何学的不変性の扱い
堀田政二 (東京農工大学)
@seiji_hotta
精密工学会 画像応用技術専門委員会 第 2 回定例研究会
2013 年 7 月 19 日
URL は 2013 年 7 月 19 日に閲覧済み
(2)
物体認識
(3)
物体認識
画像と映像の認識技術の概要
Object Recognition (物体認識) とは何か
Object Recognition
実環境で撮影された画像(映像)に含まれる物体の名称を計算機
が推定し出力すること
image objects class
man
¡ ¢ £¤¥¤¦§background
c Visual Object Classes Challenge [1]
汎用的過ぎるので制約を加えて簡略化するのが一般的 [2, 3]
映像認識にも多くの共通点がある
(4)
物体認識
画像と映像の認識技術の概要
Object Recognition の種類
1 verification (物体照合)
画像中のある物体に着目し,それが対象物体のクラスである
かを照合する問題
2 detection (物体検出)
顔検出などの所望の物体が画像中のどこにあるか
(localization) を答える問題
3 identification (特定物体認識)
画像中の物体の固有名詞を答える問題,入力と同じものを探
す問題
4 object categorization (画像分類)
画像中の物体をクラスに分類する問題
5 scene and context categorization (シーン認識)
場所や天気などの画像が表す状況を認識する問題
(5)
物体認識
画像と映像の認識技術の概要
Detection の例
顔検出の例
OpenCV [4] のサンプルプログラムを利用して任意の検出器が作成
可能
OpenCV で学ぶ画像認識
http://gihyo.jp/dev/feature/01/opencv
(6)
物体認識
画像と映像の認識技術の概要
identification (特定物体認識) の例
カメラで撮影した画像と同じ画像,もしくは非常に類似した画像
をデータベースから高速に検索する
c 3 日で作る高速特定物体認識システム (岩村,黄瀬)
3 日で作る高速特定物体認識システムのサイト
http://www.m.cs.osakafu-u.ac.jp/IPSJ_3days/
(7)
物体認識
画像と映像の認識技術の概要
Object Categorization (Classification)
dog
chair
man
bike
airplane
画像中の物体 (objects) の一般名称(category, class)を答
える
物体は一つとは限らないし,ある物体はさらにサブクラス
(subclass) に分けられるかもしれない (車のクラスに属する
ものはバスや軽自動車などのサブクラスに分けられる)
(8)
物体認識
画像と映像の認識技術の概要
Segmentation を併用した Object Categorization の例
画像の領域分割 (segmentation) と領域間の関係 (context) を利用
した物体認識 [5]
Jamie Shotton
http://jamie.shotton.org/work/
(9)
物体認識
画像と映像の認識技術の概要
Object Recognition は何が難しいのか?
画像の見えの変動に対する不変性の必要性
アフィン変換 (Affine transform) などの画像の見え方
(appearance) の変動に対する不変性 (invariance) を必要とする
拡大縮小 (scale),回転 (rotation),平行移動 (translation)
照明変動 (illumination variation),隠れ (occlusion)
同じクラスに属していても種の違いにより見えが変化する
種の違いの例
(10)
物体認識
画像と映像の認識技術の概要
Viewpoint の違いに基づく見えの変化 [6]
(11)
物体認識
画像と映像の認識技術の概要
認識対象のクラス数が多い
c Caltech データセット [7]
認識対象となるクラス数が多い (人間は数万クラスを分類できる
と言われている)
(12)
物体認識
画像と映像の認識技術の概要
代表的なデータベース · タスク
The PASCAL Visual Object Classes [1]
TREC Video Retrieval Evaluation: TRECVID
http://trecvid.nist.gov/
Caltech 256
http://www.vision.caltech.edu/Image_Datasets/Caltech256/
ImageNet (1400 万画像,22k クラス): http://www.image-net.org/
Large Scale Visual Recognition Challenge 2012 (ILSVRC2012)
http://www.image-net.org/challenges/LSVRC/2012/
Tiny Image Dataset (8000 万画像.ノイズ多し)
http://horatio.cs.nyu.edu/mit/tiny/data/index.html
CIFAR-10 and CIFAR-100 (tiny image から作った綺麗なデータ)
http://www.cs.utoronto.ca/~kriz/cifar.html
SUN dataset (シーン認識):
http://people.csail.mit.edu/jxiao/SUN/
The Chars74K dataset (環境文字データ)
http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/
(13)
物体認識
画像と映像の認識技術の概要
Object Recognition の発展
70 年代 : 線画解釈(画像処理が中心)
80 年代前半:知識ベース型システム
80 年代後半:3 次元の復元, モデルベース
90 年代:顔認識,固有空間法
90 年代後半:局所特徴量 (local feature) と機械学習
(machine learning) の登場
200X 年代:データベースの充実,Bag of Features の登場
2010 年前後:Big Data 時代の到来,Super Vector,Deep
learning の登場
特徴量 · 機械学習の発展,およびデータベース構築が Object
Recognition の研究の発展に大きく貢献している
(14)
物体認識
機械による画像 · 映像認識
画像 · 映像認識は基本的にはパターン認識で解く
観測されたパターンを予め定められた複数の概念のうちの一つに
対応させる (識別する) 処理 [10]
¨
©




 
!#$%
'(!)
01#$%
'(2)
3
4
5
6
789@
AB
(15)
物体認識
機械による画像 · 映像認識
パターン認識の工学モデル [10]
CDEF GHIPF
QRSTF
QRUV
QRF
W
PX
Y`
abcdef
本当にこのモデルで良いか,という疑問はある
(16)
物体認識
機械による画像 · 映像認識
識別部の目的
1x
2x
ghi gp i p hi
gqi
ghp
ghi
gp
i
p
hi
hp
qi
ghi gp i p hi
gqi
ghp
ghi
gp
i
p
hi
hp
qi
ghi gp i p hi
gqi
ghp
ghi
gp
i
p
hi
hp
qi
ghi gp i p hi
gqi
ghp
ghi
gp
i
p
hi
hp
qi
ghi gp i p hi
gqi
ghp
ghi
gp
i
p
hi
hp
qi
1x
2x
未知パターンを精度良く識別できる (汎化能力の高い) 識別
境界を引くこと
(17)
物体認識
機械による画像 · 映像認識
理想的な識別方法
ベイズ決定則 (Bayes decision rule)
max
j
P(ωj|x) = P(ωk|x) ⇒ x ∈ ωk ここで P(ωj|x) =
P(ωj)p(x|ωj)
j P(ωj)p(x|ωj)
P(ωj): パターンを観測する前のクラス ωj の生起確率 (事前確率)
P(ωj|x): パターン x を観測した後の ωj の生起確率 (事後確率)
p(x|ωj): ωj における x の分布 (確率密度関数)
p(x|ωj) を精度良く推定することが難しい (大量データが得られれ
ば別)
(18)
物体認識
機械による画像 · 映像認識
画像 · 映像認識で特に問題となる工学的課題
L
0=θ 20=θ 40=θ 300=θ 320=θ 340=θ
θ
0=θ
20=θ
40=θ
幾何学的変動は画素空間では非線形な多様体をなす [11]
このような変動を吸収したり,多様体を近似したりするため
の特徴量や識別法の開発が必要
(19)
物体認識
機械による画像 · 映像認識
大量データを用いたアプローチ
解決法 1: 大量画像を用いる
rstuvvwxyw€ ‚ wxsƒƒ„… †‡xx‡uˆ‚‡ˆ‰ ‡†w‘’ r xwv “w‚w‘‚ ”uvˆuˆ•–wvw†‚v‡— uy˜—‚€™™ dref€ g……„s
twv‚ h€i…… hi…€……… hi€………€………
32 × 32 の 8000 万枚のカラー画像を使用 [12]
k-nearest neighbor で認識.物体検出も可能
More data beats better algorithms
(20)
物体認識
機械による画像 · 映像認識
大量データを用いたアプローチ
32 × 32 ピクセルの画像例
32 × 32 ピクセルでも gist を認識できる
一方で物体を独立させると認識できない
(21)
物体認識
機械による画像 · 映像認識
局所特徴量を用いた物体認識
解決法 2: 局所特徴量を用いる
局所特徴量の代表格と言えば SIFT (Scale-Invariant Feature
Transform) [13]
SIFT では特徴点の検出と特徴量の記述を行う
検出した特徴点に対して,画像の回転,スケール変化,照明
変化等に頑健な特徴量を求める (アフィン変換に完全に不変
ではない)
開発者は David Lowe (http://people.cs.ubc.ca/~lowe/)
(22)
物体認識
機械による画像 · 映像認識
局所特徴量を用いた物体認識
SIFT のアルゴリズム (発表では省略します)
SIFT は特徴点 (keypoint) の検出 (detection) と特徴量の記述
(description) に処理が分けられる
detection
Step1: スケールと keypoint の検出
Step2: keypoint のローカライズ
description
Step3: オリエンテーションの算出
Step4: 特徴量の記述
Step1:DoG 処理により keypoint を検出
Step2:余分な keypoint の削除とサブピクセル推定
Step3:keypoint のオリエンテーション算出
Step4:keypoint の特徴量の記述
(23)
物体認識
機械による画像 · 映像認識
局所特徴量を用いた物体認識
Step1 : DoG 処理を利用した keypoint 検出
Difference-of-Gaussian (DoG) 処理に基づくスケールスペースにお
ける極値探索により keypoint の位置とスケールを決定
入力画像を I(u, v),スケール σ のガウス関数を
G(x, y, σ) = 1
2πσ exp(−(x2 + y2)/2σ2) とする
I(u, v) と G(x, y, σ) を畳み込んだ平滑化画像を L(u, v, σ) と
する
DoG 画像を算出:D(u, v, σ) = L(u, v, kσ) − L(u, v, σ)
藤吉弘亘, “Gradient ベースの特徴抽出 - SIFT と HOG -,” 情処研報 (2007) より引用
(24)
物体認識
機械による画像 · 映像認識
局所特徴量を用いた物体認識
DoG 画像からの極値(極大値または極小値)の検出
注目画素 (青) の DoG 値をスケール空間の 26 近傍 (赤) と比較
藤吉弘亘, “Gradient ベースの特徴抽出 - SIFT と HOG -,” 情処研報 (2007) より引用
注目画素が極値の場合,keypoint 候補として検出し,そのときの
σ をその keypoint 候補のスケールとする
スケールに対する不変性を獲得できる
(25)
物体認識
機械による画像 · 映像認識
局所特徴量を用いた物体認識
Step2 : Keypoint の localize
keypoint に向かない点
エッジ上の点:開口問題 (aperture problem)
DoG 値の小さい点:ノイズに影響されやすい
⇒ 主曲率とコントラストに基づく安定した keypoint の絞り込み
藤吉弘亘, “Gradient ベースの特徴抽出 - SIFT と HOG -,” 情処研報 (2007) より引用
(26)
物体認識
機械による画像 · 映像認識
局所特徴量を用いた物体認識
Step3 : オリエンテーションの算出
絞り込まれた keypoint の特徴量が,回転に対して不変となるよう
オリエンテーション(方向)を算出する
keypoint が検出された平滑画像 L(u, v) の勾配強度 m(u, v) と
勾配方向 θ(u, v) を以下のように求める:
m(u, v) = fu(u, v)2 + fv(u, v)2
θ(u, v) = arctan
fv(u, v)
fu(u, v)
ただし
fu(u, v) = L(u + 1, v) − L(u − 1, v)
fv(u, v) = L(u, v + 1) − L(u, v − 1)
局所領域の重み付き方向ヒストグラムを以下で算出
hθ′ =
x y
G(x, y, σ) · m(x, y) · δ(θ′
, θ(x, y))
(27)
物体認識
機械による画像 · 映像認識
局所特徴量を用いた物体認識
局所領域の重み方向ヒストグラムの算出
藤吉弘亘, “一般物体認識のための局所特徴量 (SIFT と
HOG),” PCSJ/IMPS2008 ナイトセッション (2008) より
引用
全方向を 36 方向に離散化
keypoint のスケールに対応
する領域から勾配を算出
勾配強度とガウス関数との
積を重みとしてヒストグラ
ムに加える
ヒストグラムのピークを持
つ方向をその keypoint の代
表的なオリエンテーション
とする
(28)
物体認識
機械による画像 · 映像認識
局所特徴量を用いた物体認識
Step4 : keypoint の特徴量の記述
Step3 のオリエンテーションを利用して各 keypoint で回転に不変な特徴
量を記述する
keypoint の特徴量記述領域をオリエンテーション方向に回転する
(図上段)
keypoint を中心,スケールを半径とした円領域を求める (図下段左)
円領域中の勾配方向の頻度を 4 ブロック毎に 8 方向のヒストグラ
ムで表す (図下段右):128 次元ベクトル
(29)
物体認識
機械による画像 · 映像認識
局所特徴量を用いた物体認識
同じ物体間の対応点探索
藤吉弘亘, “一般物体認識のための局所特徴量 (SIFT と HOG),” PCSJ/IMPS2008 ナイトセッション (2008) より引用
(30)
物体認識
機械による画像 · 映像認識
局所特徴量を用いた物体認識
同一クラス内で異なる物体間の対応点探索
藤吉弘亘, “一般物体認識のための局所特徴量 (SIFT と HOG),” PCSJ/IMPS2008 ナイトセッション (2008) より引用
SIFT 特徴量は Identification に向いているが Object Categorization
には向いていない ⇒ Bog of Features アプローチの利用
(31)
物体認識
機械による画像 · 映像認識
局所特徴量を用いた物体認識
Bag of Features (BoF) [14]
各局所特徴量に最も類似した代表的な特徴量 (visual word) の出現
頻度で画像を特徴付ける
jklmnloopqrstuvwxypz{||l}~€‚‚ƒ
(32)
物体認識
機械による画像 · 映像認識
局所特徴量を用いた物体認識
BoF の流れ
1 局所特徴量の算出
全ての学習画像から SIFT 特徴量等の局所特徴量を算出
2 クラスタリング(ベクトル量子化)
得られた全ての局所特徴量を k-means 法により k 個のクラスタに
分割する (各クラスタの重心を visual word,visual alphabet と呼ぶ)
3 画像のヒストグラム表現
ある画像に対して,その画像の個々の局所特徴量と k 個のクラス
タの重心との距離を測り,最近傍のクラスタへ投票を行うことで,
k 次元のヒストグラムを計算する
4 識別器の構築
全ての学習画像をヒストグラムで表現した後,識別器を構築する
5 テスト画像のカテゴリー分類
テスト画像についても visual word を使って k 次元ヒストグラムを
作成し,そのヒストグラムを特徴としてクラス分類する
(33)
物体認識
機械による画像 · 映像認識
局所特徴量を用いた物体認識
Gaussian Mixture Model (GMM)
k-means の替わりに GMM も良く用いられる
p(x) =
k
i=1
πiN(x|mi, Σi)
モデルへの尤度を投票値とする soft-assignment を実現可能
super vector の作成に利用
(34)
物体認識
機械による画像 · 映像認識
局所特徴量を用いた物体認識
SIFT や BoF の拡張
SURF: http://www.vision.ee.ethz.ch/~surf/
Affine Invariant Keypoint [15]
Sparse coding [16]: Sparse Coding により一つの局所特徴を複数
word へ割り当てる
Max pooling [17]: 各 visual word について割り当てられた局所特徴
のスコアの最大値を特徴ベクトルの成分とするもの
VLAD [18]: 各 visual word に帰属する局所特徴量 (原点は重心) の
平均ベクトルを連結したもの
Super vector coding [19]: BoF と VLAD を組み合わせた特徴量
GMM Supervectors [20]: TRECVID2011 の優勝チームはこれを用
いている [21]
Fisher vector [22]: 局所特徴の平均に加え分散も用いる
(35)
物体認識
機械による画像 · 映像認識
局所特徴量を用いた物体認識
BoF や Super-Vector は何をしているのか?
文献 [23] より転載
局所特徴量が成す非線形多様体 (左図) を近似しようとして
いる
BoF は階段状 (右図),super vector coding は超平面の組合せ
(中央図) で近似しようとしている
(36)
物体認識
機械による画像 · 映像認識
直接的なアプローチ
解決法 3: 変形パターンを作ってしまう
Tangent Vector による変形の近似 [24]
„…†‡ˆ†‰
Š‹Œˆ Ž…ˆ
„‘…†Ž’“‘”…‰‹“†Ž “’ •
„‘–ˆ ‘“‰…‰‹“†Ž “’ •
—˜ ™š ™›œš ›œš š



„…†‡ˆ†‰
žˆ‰“‘
Ÿ  —˜ —˜
›¡ ¢ ™¢ ™›¡
£ £ £ £
¡—˜
(37)
物体認識
機械による画像 · 映像認識
直接的なアプローチ
Tangent Vector の種類 (接ベクトル)
¤
¥
¦
¦
§
§
¦
¦
¨
©ª«¬­®¯°­«±²® ³ª«¬­®¯°­«±²® ´µ­°±®¶ ·²«­«±²® ¸¹±¯
º»¼²¬½­«±²®
¾±­¶²®­°
º»¼²¬½­«±²®
¿À±µÁ®»¯¯
º»¼²¬½­«±²®
¦
回転,移動,スケール,ひずみ等の変形を再現できる
(38)
物体認識
機械による画像 · 映像認識
直接的なアプローチ
Tangent Distance
Tangent Vector による変形したパターン同士の最短距離は解析的
に求めることができる [24]
Â
Ã
ÄÅ
ÆÇ
ÈÉÊÉËÌË ÍÉÎÏÐÊÑÒ
ÓÔ ÕÖ×ÒÏØÒÒÊ ÐÊÍ
ÙÐÊÚÒÊÏ ÍÉÎÏÐÊÑÒ
ÛÌÑÜÉÍÒÐÊ ÍÉÎÏÐÊÑÒ
×ÒÏØÒÒÊ Â ÐÊÍ Ý
(39)
物体認識
機械による画像 · 映像認識
直接的なアプローチ
解決法 4: Deep learning による学習
特徴抽出と識別部を多層ニューラルネットで構築
元祖は福島先生のネオコグニトロン [25]
G.E. Hinton [26] により一挙に有名に
http://www4.ocn.ne.jp/~fuku_k/ より転載
(40)
物体認識
機械による画像 · 映像認識
直接的なアプローチ
Deep learning の特徴
6∼ 8 層からなるニューラルネットワーク
第一層から第三層までは教師なし学習とスパースコーディン
グにより学習
過学習を避けるための Dropout 処理等の様々な工夫
高い汎化能力.例えば MNIST [27] のエラー率:
kNN:3.1%, Tangent Distance: 1.1%,LSC+TD: 0.67%,
Deep Learning 0.23%
ニューラルネットの逆襲
http://research.preferred.jp/2012/11/deep-learning/
(41)
物体認識
機械による画像 · 映像認識
直接的なアプローチ
Deep Learning の一例
文献 [28] より転載.接ベクトルに似ている
(42)
物体認識
機械による画像 · 映像認識
直接的なアプローチ
Deep Learning は何をしているのか?
文献 [29] より転載
パターンの成す非線形多様体を上手く近似する超曲面を推定
そこへパターンを射影したのちに識別境界を引く
(43)
物体認識
幾何学的変形にロバストな環境文字認識
本研究室での最近の研究成果 [30]
文献 [31] より転載
街中の看板などに記載されている文字 (0∼ 9,a∼ z)
変動は手書き文字よりも大きい (アピアランスでやる人がい
ない)
訓練サンプル数がクラスあたり 15 枚と少ない (Deep learning
には不向き,少数サンプル問題)
(44)
物体認識
幾何学的変形にロバストな環境文字認識
Local Subspace Classifier [32]
classA
class Bdecision boundary
クラスごとに入力に近い k 近傍訓練サンプルを求める
求めた訓練サンプルだけでクラスごとに線型多様体を作成
射影長が最短となるクラスへ入力を分類
(45)
物体認識
幾何学的変形にロバストな環境文字認識
線型多様体 (linear manifold)
アフィン部分空間 (Affine subspace)
三角形の頂点は訓練サンプル
内部はそれらの線型結合.認識にこれらも用いる
(46)
物体認識
幾何学的変形にロバストな環境文字認識
訓練サンプル数を増加させる工夫
環境文字は明暗が反転する場合がある
単純にネガ画像を加えれば,訓練サンプル数は二倍に
(47)
物体認識
幾何学的変形にロバストな環境文字認識
提案手法の流れ
クラスごとに入力に近い k 近傍訓練サンプルを両側接距離で
求める
求めた訓練サンプルの近似変形サンプルを用いてクラスごと
に線型多様体を作成
入力とクラスごとの線型多様体との両側接距離を再び計算
両側接距離が最短となるクラスへ入力を分類
(48)
物体認識
幾何学的変形にロバストな環境文字認識
LSC に接距離,ネガ画像を組み合わせた場合の効果
Þßàáâã äå Þâæçèáäãé ê
ëììßãëìí îïð
接距離を組み合わせる効果よりもサンプル数を増やす効果の
方がはるかに大きい
サンプル数を増やすと,パラメータに対する認識率も安定
する
(49)
物体認識
幾何学的変形にロバストな環境文字認識
他手法との比較
Table: Chars74K における未知パターンの認識率
method accuracy [%]
LSC (k = 15) 48.4
SVM+MKL [33] 55.3
LSC+TD (k = 3) 60.4
TD 58.8
TD+PN 64.7
HoG columns [34] 66.5
LSC+TD+PN (k = 10) 69.0
Exemplar SVM [35] 69.7
State-of-the-art と同程度の認識率を達成
アピアランスベースの手法としては世界一(のはず)
(50)
物体認識
幾何学的変形にロバストな環境文字認識
本講演の内容
幾何学的不変性を獲得するための基本的なアプローチや最近
の動向について概説
本研究室で取り組んでいる局所部分空間法と接ベクトルを併
用したパターン認識に関する研究例を紹介
非常に進歩の速い分野 (半年単位ぐらい?)
画像の内容解析を行わず画像認識を行う研究もある:
例) 木村ら,“画像検索でのユーザ行動を利用した大規模画像
アノテーション,” MIRU2012
最新の手法で何でも解けるわけではない
解きたい問題の本質を見極めることが大事
(51)
物体認識
幾何学的変形にロバストな環境文字認識
参考文献 I
[1] http://pascallin.ecs.soton.ac.uk/challenges/VOC/
[2] 柳井,“一般物体認識の現状と今後,” 情報処理, vol. 48, no. SIG16(CVIM19),
pp. 1–24, 2007.
[3] K. Grauman and B. Leibe, “Visual object recognition,” Synthesis Lectures on
Artificial Intelligence and Machine Learning, Morgan  Claypool Publishers,
2011.
[4] http://opencv.jp/
[5] J. Shotton, M. Johnson, and R. Cipolla, “Semantic Texton Forests for Image
Categorization and Segmentation”, CVPR 2008.
[6] P. Yan, S.M. Khan, and M. Shah,“3D Model based Object Class Detection in An
Arbitrary View,” ICCV, 2007.
[7] http://www.vision.caltech.edu/Image_Datasets/Caltech101/
[8] 竹内龍人, “シーンの認識と探索にかかわる視覚のメカニズム,” ITE Tech. Rep.,
vol. 33, no. 24, pp.7–14, 2009.
(52)
物体認識
幾何学的変形にロバストな環境文字認識
参考文献 II
[9] Y. Sugita, “Grouping of image fragments in primary visual cortex,” Nature, 1999.
[10] 石井健一郎, 上田修功, 前田英作, 村瀬 洋, “わかりやすいパターン認識,” オーム社,
Aug. 1998.
[11] 村瀬,S.K.Nayar, “2 次元照合による 3 次元物体認識-パラメトリック固有空間法-,”
信学論, no. J77-D-II, vol. 11, pp. 2179–2187, 1994
[12] A. Torralba, et al., “80 million tiny images: A large dataset for non-parametric
object,” IEEE Tran. on PAMI, vol. 30, no. 11, pp. 1958–1970, 2008.
http://groups.csail.mit.edu/vision/TinyImages/
[13] D.G. Lowe, “Distinctive image features from scale-invariant keypoints,” Int’l J.
of Computer Vision, vol. 60, no. 2, pp. 91–110, 2004.
[14] G. Csurka, C.R. Dance, L. Fan, J. Willamowski, and C. Bray, “Visual
categorization with bags of keypoints,” ECCV, 2004.
[15] K. Mikolajczyk and C. Schmid,“Scale  Affine Invariant Interest Point
Detectors,” IJCV, vol. 60, no. 1, pp. 63–86, 2004.
(53)
物体認識
幾何学的変形にロバストな環境文字認識
参考文献 III
[16] J Yang, et al., “Linear spatial pyramid matching using sparse coding for image
classification,” CVPR 2009.
[17] Y-L. Boureau, et al., “Learning mid-Level features for recognition,” CVPR 2010.
[18] H. Jegou, et al., “Aggregating local descriptors into a compact image
representation,” CVPR 2010.
[19] Xi Zhou, et al., “Image classification using super-vector coding of local image
descriptors,” ECCV 2010
[20] W.M. Campbell, et al., “Support vector machines using GMM supervectors for
speaker verification,” IEEE Signal Processing Lett., vol. 13, pp. 308–311, 2006.
[21] N. Inoue and K. Shinoda, “A fast MAP adaptation technique for
GMMsupervector-based video semantic indexing,” ACM Multimedia, 2011.
[22] F. Perronnin and C. Dance, “Fisher kernels on visual vocabularies for image
categorization,” CVPR 2007.
[23] 原田達也, “大規模画像データを用いた一般画像認識,” SSII 2012.
http://www.isi.imi.i.u-tokyo.ac.jp/~harada/
(54)
物体認識
幾何学的変形にロバストな環境文字認識
参考文献 IV
[24] P.Y. Simard, Y. LeCun, J.S. Denker, and B. Victorri, “Transformation invariance
in pattern recognition – Tangent distance and tangent propagation,” Int’l J. of
Imaging Systems and Technology, vol. 11, no. 3, 2001.
[25] 福島邦彦,“位置ずれに影響されないパターン認識機構の神経回路のモデル - ネオコ
グニトロン -,” 信学論 A, vol. J62-A, no. 10, pp. 658–665, 1979.
[26] G.E. Hinton and R.R. Salakhutdinov, “Reducing the dimensionality of data with
neural networks,” Science, vol. 313. no. 5786, pp. 504–507, 2006.
[27] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner, “Gradient-based learning
applied to document recognition,” Intell. Signal Process., pp. 306–351, 2001.
http://yann.lecun.com/exdb/mnist/
[28] D. Ciresan, et al., “Multi-column deep neural networks for image classification,”
Proc. of CVPR, pp. 3642–3649, 2012.
[29] 岡谷貴之,“ディープラーニングと画像認識への応用,” SSII, pp. OS03-1-11, 2013.
http:
//www.vision.is.tohoku.ac.jp/index.php/download_file/view/41/136/
(55)
物体認識
幾何学的変形にロバストな環境文字認識
参考文献 V
[30] K. Higa and S. Hotta, “Local Subspace Classifier with Transformation Invariance
for Appearance-Based Character Recognition in Natural Images,” ICDAR2013, in
press, 2013.
[31] T.E. de Campos, “The Chars74K dataset,”
http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/
[32] J. Laaksonen, “Local subspace classifier,” Proc. of ICANN ’97, pp. 637–642,
1997.
[33] T.E. de Campos, B.R. Babu, and M. Varna, “Character recognition in natural
images,” Proc. of VISAPP, 2009.
[34] A. J. Newell and L.D. Griffin,“Multiscale histogram of oriented gradient
descriptors for robust character recognition,” Proc. of ICDAR2011,
pp. 1085–1089, 2011.
[35] K. Sheshadri and S.K. Divvala, “ Exemplar Driven Character Recognition in the
Wild,” British Machine Vision Conference, 2012.

Contenu connexe

Tendances

Tendances (20)

[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
 
ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018)
ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018)ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018)
ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018)
 
【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識
 
Invariant Information Clustering for Unsupervised Image Classification and Se...
Invariant Information Clustering for Unsupervised Image Classification and Se...Invariant Information Clustering for Unsupervised Image Classification and Se...
Invariant Information Clustering for Unsupervised Image Classification and Se...
 
Cv20160205
Cv20160205Cv20160205
Cv20160205
 
最新の異常検知手法(NIPS 2018)
最新の異常検知手法(NIPS 2018)最新の異常検知手法(NIPS 2018)
最新の異常検知手法(NIPS 2018)
 
(2021年8月版)深層学習によるImage Classificaitonの発展
(2021年8月版)深層学習によるImage Classificaitonの発展(2021年8月版)深層学習によるImage Classificaitonの発展
(2021年8月版)深層学習によるImage Classificaitonの発展
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
 
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
 
画像認識と深層学習
画像認識と深層学習画像認識と深層学習
画像認識と深層学習
 
HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Est...
HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Est...HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Est...
HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Est...
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
 
20160724_cv_sfm_revisited
20160724_cv_sfm_revisited20160724_cv_sfm_revisited
20160724_cv_sfm_revisited
 
[DL輪読会]High-Quality Self-Supervised Deep Image Denoising
[DL輪読会]High-Quality Self-Supervised Deep Image Denoising[DL輪読会]High-Quality Self-Supervised Deep Image Denoising
[DL輪読会]High-Quality Self-Supervised Deep Image Denoising
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
Mean Teacher
Mean TeacherMean Teacher
Mean Teacher
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)
 
【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"
 
Deformable Part Modelとその発展
Deformable Part Modelとその発展Deformable Part Modelとその発展
Deformable Part Modelとその発展
 

Similaire à 画像認識における幾何学的不変性の扱い

バイオイメージング研究のためのImageJによるデジタル画像解析入門(2011年6月版)
バイオイメージング研究のためのImageJによるデジタル画像解析入門(2011年6月版)バイオイメージング研究のためのImageJによるデジタル画像解析入門(2011年6月版)
バイオイメージング研究のためのImageJによるデジタル画像解析入門(2011年6月版)
nmaro
 
20110904cvsaisentan(shirasy) 3 4_3
20110904cvsaisentan(shirasy) 3 4_320110904cvsaisentan(shirasy) 3 4_3
20110904cvsaisentan(shirasy) 3 4_3
Yoichi Shirasawa
 
NNKproject Japanese version
NNKproject Japanese versionNNKproject Japanese version
NNKproject Japanese version
nao takatoshi
 
NNKproject Japanese version2
NNKproject Japanese version2NNKproject Japanese version2
NNKproject Japanese version2
nao takatoshi
 

Similaire à 画像認識における幾何学的不変性の扱い (20)

cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezaki
 
バイオイメージング研究のためのImageJによるデジタル画像解析入門(2011年6月版)
バイオイメージング研究のためのImageJによるデジタル画像解析入門(2011年6月版)バイオイメージング研究のためのImageJによるデジタル画像解析入門(2011年6月版)
バイオイメージング研究のためのImageJによるデジタル画像解析入門(2011年6月版)
 
ae-13. 画像理解システムの演習
ae-13. 画像理解システムの演習ae-13. 画像理解システムの演習
ae-13. 画像理解システムの演習
 
Miyazaki microoptics2013
Miyazaki microoptics2013Miyazaki microoptics2013
Miyazaki microoptics2013
 
20201010 personreid
20201010 personreid20201010 personreid
20201010 personreid
 
20110904cvsaisentan(shirasy) 3 4_3
20110904cvsaisentan(shirasy) 3 4_320110904cvsaisentan(shirasy) 3 4_3
20110904cvsaisentan(shirasy) 3 4_3
 
CycleGANによる異種モダリティ画像生成を用いた股関節MRIの筋骨格セグメンテーション
CycleGANによる異種モダリティ画像生成を用いた股関節MRIの筋骨格セグメンテーションCycleGANによる異種モダリティ画像生成を用いた股関節MRIの筋骨格セグメンテーション
CycleGANによる異種モダリティ画像生成を用いた股関節MRIの筋骨格セグメンテーション
 
CHAIN公開セミナー20200817吉田発表資料
CHAIN公開セミナー20200817吉田発表資料CHAIN公開セミナー20200817吉田発表資料
CHAIN公開セミナー20200817吉田発表資料
 
NNKproject Japanese version
NNKproject Japanese versionNNKproject Japanese version
NNKproject Japanese version
 
NNKproject Japanese version2
NNKproject Japanese version2NNKproject Japanese version2
NNKproject Japanese version2
 
CVPR Festival
CVPR FestivalCVPR Festival
CVPR Festival
 
3Dマップを活用したVisual Localization
3Dマップを活用したVisual Localization3Dマップを活用したVisual Localization
3Dマップを活用したVisual Localization
 
20160601画像電子学会
20160601画像電子学会20160601画像電子学会
20160601画像電子学会
 
ae-5. 物体検出,セグメンテーション
ae-5. 物体検出,セグメンテーションae-5. 物体検出,セグメンテーション
ae-5. 物体検出,セグメンテーション
 
先端技術とメディア表現 第4回レポートまとめ
先端技術とメディア表現 第4回レポートまとめ先端技術とメディア表現 第4回レポートまとめ
先端技術とメディア表現 第4回レポートまとめ
 
20141008物体検出器
20141008物体検出器20141008物体検出器
20141008物体検出器
 
211104 Bioc Asia workshop
211104 Bioc Asia workshop211104 Bioc Asia workshop
211104 Bioc Asia workshop
 
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...
 
LIFULL HOME'Sにおける不動産物件画像解析
LIFULL HOME'Sにおける不動産物件画像解析LIFULL HOME'Sにおける不動産物件画像解析
LIFULL HOME'Sにおける不動産物件画像解析
 
空間を認識する - 取り込みから表示まで -
空間を認識する - 取り込みから表示まで -空間を認識する - 取り込みから表示まで -
空間を認識する - 取り込みから表示まで -
 

Plus de Seiji Hotta (6)

高校生のためのニューラルネットワーク入門
高校生のためのニューラルネットワーク入門高校生のためのニューラルネットワーク入門
高校生のためのニューラルネットワーク入門
 
レポート・プレゼンの初めの一歩:プレゼン編
レポート・プレゼンの初めの一歩:プレゼン編レポート・プレゼンの初めの一歩:プレゼン編
レポート・プレゼンの初めの一歩:プレゼン編
 
情報工学を例になぜ数学を勉強するのか書いてみた
情報工学を例になぜ数学を勉強するのか書いてみた情報工学を例になぜ数学を勉強するのか書いてみた
情報工学を例になぜ数学を勉強するのか書いてみた
 
レポート・論文を書くためのほんとうにほうんとうの初めの一歩
レポート・論文を書くためのほんとうにほうんとうの初めの一歩レポート・論文を書くためのほんとうにほうんとうの初めの一歩
レポート・論文を書くためのほんとうにほうんとうの初めの一歩
 
Grl44 hotta
Grl44 hottaGrl44 hotta
Grl44 hotta
 
Tutorial のチュートリアル ~検索しても見つからないチュートリアルの仕方~
Tutorial のチュートリアル ~検索しても見つからないチュートリアルの仕方~Tutorial のチュートリアル ~検索しても見つからないチュートリアルの仕方~
Tutorial のチュートリアル ~検索しても見つからないチュートリアルの仕方~
 

画像認識における幾何学的不変性の扱い