Contenu connexe
Similaire à Information-Theoretic Metric Learning (9)
Plus de Koji Matsuda (19)
Information-Theoretic Metric Learning
- 1. Informa(on-‐Theore(c
Metric
Learning
Jason
V.
Davis,
Brian
Kulis,
Prateek
Jain,
Suvrit
Sra,
Inderjit
S.
Dhillon
(ICML
2007
best
paper)
suzukake weekend
reading
group
#2
2013/04/20
紹介者
:
matsuda
1
13/04/20
17:42版
- 2. Metric
Learningとは何か
[1
0
0
1]
[2
0
0
1]
①同クラスの事例間は近いほうが良い
②異クラスの事例間は遠いほうが良い
①
②
ユークリッド距離
分類しやすい(・∀・)
距離空間を歪める
マハラノビス距離
2
- 4. 問題設定
• マハラノビス距離を学習する
– 特徴量同士の距離を表す行列を学習する
– カーネルでない事に注意(ただ,相互に関係はある(実は等価・・・))
• カーネル
:
「データ間」の距離
• マハラノビス
:
「特徴量間」の距離
• 何のために?
– 機械学習の前処理として組み込む
• 典型的な例
:
k-‐NN
– semi-‐supervised
clustering
– 特徴選択の一般化とも言えそう
• 重み付け +
特徴量空間での回転
4
Prasanta
Chandra
Mahalanobis
1893 1972
- 5. 本論文のContribu(on
• Metric
Learning
を
LogDet
Divergence
の最適化
問題として定式化
– Bregman
Projec(onという手法に基づく効率的なアル
ゴリズムを導出
– 高速 (
O(d2)
d:次元数
),おおむね高精度
• カーネル学習との接続
– 実際には等価な問題であることを示す
• 拡張
(時間の都合上,ちょっと触れるだけ)
– カーネル化
– オンライン化
• Regret
Boundも示している
5
- 6. マハラノビス距離とは
x
:
データ点を表すベクトル
A
:
マハラノビス距離行列(正定値行列)
Aが単位行列であれば,ユークリッド距離と一致
1
0
0
1
2
0
0
1
2
1
1
1
6
- 7. 制約の表現
S
:
近いと分かっているデータ点ペアの集合
D
:
遠いと分かっているデータ点ペアの集合
これらの条件を満たすようなマハラノビス距離行列
A
を学習する
7
- 11. Bregman
Projec(onに基づく学習
• [Kulis+,
ICML’06]によりカーネル学習で用いられた手
法
• Algorithm
1はスラック変数を考慮しているため複雑
に見えるが,以下を繰り返しているだけ
1. 制約を一個ピックアップする
2. 制約を満たすように距離行列を修正する
計算量:
それぞれの射影に
O(d2),
c個の制約を一巡するのにはO(cd2)
関連研究で必要とされていた半正定値計画,
固有値分解等をとかなくて良い
収束保証はなされていないが,実験的には高速(後述)
11
制約の「方向」
更新幅
- 12. Bregman
Projec(on(イメージ)
制約1
d(xi,xj)
=
u
制約2
d(xi,xj)
=
l
β
:制約を満たす最小の更新幅(閉じた形で求まる)
射影を繰り返すことで,すべての制約を満たすAに収束する※
12
この図は清水さんのスライド hYp://www.r.dl.itc.u-‐tokyo.ac.jp/study_ml/pukiwiki/index.php?schedule%2F2008-‐07-‐24
にインスパイアされています
制約1を満たす
空間
制約2を満たす
空間
※制約が三つ以上ある場合は,すべての制約を満たす点は一般には存在しない(スラック変数の出番)
ココでmin
Dld(At,At+1)を担保
- 14. 拡張(カーネル化/オンライン化)
• カーネル化 (Φ(・)
:
(高次元への)写像関数)
• オンライン化
– Algorithm
2 ( Regret
Boundも示されている
)
– 詳細は割愛
線形カーネル
(K
=
I)
学習された(距離行列のもとでの)カーネル
新たなデータ点に対するカーネルは以下の式で計算できる
(σ:
A
–
I
の要素)
14
とおけば,Algorithm1がそのまま使える
- 15. 実験結果(k-‐NN)
UCI
Dataset
Cralify
Dataset
(baseline)
(baseline)
ソフトウェアの自動サポートのための
データセット
Informa(on
Gainで20次元に次元削減
分類アルゴリズム:4-‐NN
制約:
20
c2
ペア
(
c
:
クラス数
)
をランダムに選択×5
trial
15
- 17. まとめ /
感想 /
私見
• Metric
Learningを,LogDetダイバージェンスの最適化として定式化
– カーネル学習と等価であることを示した,拡張:カーネル化,オンライン化
• 盛りだくさんの内容!
– カーネル学習と距離学習という,漠然と関係ありそうなものを明確に接続していて爽快
– 要素技術はカーネル学習[Kulis+
ICML’06]で使われているものの踏襲のようだ
• 私見(間違っている可能性高し!)
– 線形分離できない問題ができるようになるの?
• → 単なる線形変換なのでならない. 適切にスケーリングされてない状況でerror
rate下げる効果はあるかも
– 前処理せずSVMにかけるのとどっちがいいの?
• → 多くのケースでだいたい同じくらいらしい(k-‐NNが異様に効くような状況除く)
[要出典]
– マハラノビス距離行列A
の 非対角要素(回転)にはどんな意味があるの?
• → どうなんでしょう・・・ カーネル行列Kの非対角要素には明らかに意味があるので,考えればわかるかも
– そもそも今さらkNNって・・・
• → 意外と強いっすよ.メモリに載れば+近傍探索が速ければ
– どういう時に使う?
• → 教師データが部分的にしか無い,学習されたMetricそのものを他の用途に使いたい状況など
– そもそもそもそも,線形変換が意味を持つ状況が思いつかない・・・
• → 分類器が非線形な場合(k-‐NNなど)は意味があるはず. 分類器が線形な場合は・・・誰か教えてください.
17
- 18. Further
Reading
• “Metric
and
Kernel
Learning
Using
a
Linear
Transforma(on”
[Jain+,
JMLR’12]
– 本研究を含んだジャーナル,あんまり読んでない
• “Distance
Metric
Learning:
A
Comprehensive
Survey”
[Yang,
2006]
– サーベイ論文.ちょっと古いけど,基本的な考え方は分かりそう
• “Learning
Low-‐Rank
Kernel
Matrices”[Kulis+,
ICML’06]
– 同チームによるカーネル学習の論文,基本的なアイディアは同じ
– IBM井出さんによる分かりやすい解説スライドあり
• 日本語で読めるもの
– 清水さんのスライド
– イントロ的なところは首都大小町先生による解説もあり
– “計量学習を用いた画像検索エンジンとアニメ顔類似検索v3について”
• かっこいい!
• 自然言語処理への応用例
– 類義語獲得
[Shimizu+,
Coling’08]
– Sen(ment
Analysis
における Domain
Adapta(on
[Dhillton+,
Coling’12]
– 語義曖昧性解消
[Sasaki
and
Shinnou,
SEMAPRO’12][佐々木,新納,
NLP’11]
18