SlideShare une entreprise Scribd logo
1  sur  12
Télécharger pour lire hors ligne
Session 22: Similarity Joins
担当: 白川(大阪大学)
【ICDE2014勉強会】
まずはじめに…
 Similarity Joinとはなんぞや?
 2つのデータ集合の中から類似するデータペアを全部見つけるタスク
 Self Similarity JoinとかSimilarity Self-Joinというのもあるが?
 1つのデータ集合の中から類似するデータペアを全て見つけるタスク
 やってることは似たようなもの
2 Session 22: Similarity Joins 担当:白川(大阪大学)
データ集合
A D
A H
A R
B C
B Q
類似度θ
以上のペア
Self Similarity Joinの例 ・・・
該当する
ペアを
全て列挙
Session 22: Similarity Joins の論文
DE140108.PDF
L2AP: Fast Cosine Similarity Search with Prefix
L-2 Norm Bounds
David C. Anastasiu, George Karypis
DE140143.PDF
PHiDJ: Parallel Similarity Self-Join for
High-Dimensional Vector Data with MapReduce
Sergej Fries, Brigitte Boden, Grzegorz Stepien, Thomas Seidl
DE140387.PDF
Melody-Join: Efficient Earth Mover’s Distance
Similarity Joins Using MapReduce
Jin Huang, Rui Zhang, Rajkumar Buyya, Jian Chen
3 Session 22: Similarity Joins 担当:白川(大阪大学)
研究背景とか
4 Session 22: Similarity Joins 担当:白川(大阪大学)
L2AP: Fast Cosine Similarity Search with Prefix L-2 Norm Bounds
d1 d2 d3 dm
v1 0.1 0 0.2 … 0
v2 0.2 0 0.1 … 0
v3 0 0.1 0 … 0.3
…
vn 0.3 0.1 0 … 0
{v1, v2}, {v2, vn}, …
コサイン
類似度が
θ以上
d1 → {v1, 0.1},{v2, 0.2},…,{vn, 0.3}
d2 → {v3, 0.1},…,{vn, 0.1}
d3 → {v1, 0.2},{v2, 0.1},…
…
転置索引
 超高次元かつ疎なベクトル集合を対象とし,コサイン類似度が
閾値θ以上のベクトルペアを全て見つけたい
 計算量がO(n2m2),ただしnはベクトル数,mは次元数
 よくあるやり方:転置索引を作って非零成分にのみアクセス
 ベクトルが正規化されていればdot(非零成分同士の積)で計算可能
 AllPairs [Bayardo, WWW07]
 動的索引や,見込みのないベクトルペアの早期切り捨てを行う手法
 MMJoin [Lee, DEXA10]:
切り捨てをより早期に行う拡張手法を提案
 走査中のベクトルの未走査部分を 𝑥′
として
𝑑𝑜𝑡 𝑥′, 𝑦 ≤
1
2
𝑥′ 2 +
1
2
で類似度を推測
 提案手法:L2AP*1
 コーシー=シュワルツの不等式を利用して切り捨てをさらに早期に!
 類似度の推測値 𝑑𝑜𝑡 𝑥′, 𝑦 ≤ 𝑥′ は必ず既存手法より正確
 証明: 𝑥′ − 1 2 ≥ 0 ⇒
1
2
𝑥′ 2 +
1
2
≥ 𝑥′ より,
L2APによる推測値のほうが必ずドットプロダクトの真の値に近い!
行列
提案手法
5 Session 22: Similarity Joins 担当:白川(大阪大学)
L2AP: Fast Cosine Similarity Search with Prefix L-2 Norm Bounds
(1)インデックスを動的に生成
(2)逆から走査,インデックスを用いて
類似度計算,閾値を超える見込みが
なくなったら走査を中断
各ベクトル順に(1)(2)の処理
yは正規化されているのでノルムが1
*1 ソフトウェア http://www-users.cs.umn.edu/~dragos/l2ap/
評価
 6つの実データを使って評価
nnz: 行列全体での非零成分数
mrl: 1行の平均非零成分数
mcl: 1列の平均非零成分数
 閾値 t を変えてもたいていの場合
L2APが最速!
 インデックスサイズや途中結果のデータ
サイズも減っていたので省スペース!
 BayesLSH [Satuluri, VLDB12] などの
近似手法と比べた場合でも多くの場合
L2APが勝っていた!(詳しくは論文参照)
6 Session 22: Similarity Joins 担当:白川(大阪大学)
L2AP: Fast Cosine Similarity Search with Prefix L-2 Norm Bounds
(論文より)
(論文より)
研究背景とか
 高次元なベクトル集合を対象とし,距離がε以下の
ベクトルペアを,MapReduceを使って全て見つけたい
 MR-DSJ [Seidl, BTW13]:グリッドベースの手法(同じ研究グル―プによる成果)
 d次元のベクトルをd次元のグリッドに配置,Reducerが各セルを担当
 近くのグリッドに位置するベクトル間のみ距離を計算
 緯度経度で距離計算とかなら問題ないけど,高次元だと隣接セルの数が
指数関数的に増加してしまう!
→ 通信コスト増大!
7 Session 22: Similarity Joins 担当:白川(大阪大学)
PHiDJ: Parallel Similarity Self-Join for High-Dimensional Vector Data with MapReduce
BTW:ドイツのデータベースの会議
濃い緑のセルを担当するReducerは
矢印で示したセル間を担当
2次元の場合
(論文より)
提案手法
 高次元空間をk個の次元グループに分けてMR-DSJを実行
 各次元グループでの
結果を最後に集約
 次元グループ数は次元数に
対して線形なのでだいぶマシ!
 各次元グループに対しては,よりタイトな閾値 𝜀 𝑘 = 𝜀
𝑚
𝑘 を
使うことで候補のペアを減らせる
 Q: そんなことしたら解を見逃すケース(=偽陰性)も発生するのでは?
A: ありえない,なぜなら別の次元グループの出力として得られるから
 グリッドが均等だと一部のセルにデータが偏る(MR-DSJでも問題だった)
 データが少ないところは数が均等になるよう広い範囲を担当させる
(これは本研究とは独立した問題だから詳細は省く,みたいなこと書いてて簡単な説明しかなかった…)
8 Session 22: Similarity Joins 担当:白川(大阪大学)
PHiDJ: Parallel Similarity Self-Join for High-Dimensional Vector Data with MapReduce
(論文より)
L𝑚-norm距離の場合
評価
 2次元~20次元の疑似データ&
10次元のMIRFLICKR*1データ(右図2つ)
(もっと高次元なデータでの結果が見たかった…)
 8次元ぐらいから効果が出る
 Theta-join [Okcan, SIGMOD11]より高速
(もっとも,この手法は任意のJoinが可能だが)
 MR-SimJoin [Silva, Cloud-I12]と比較(左下図)
 Flickr以外では倍ぐらい速かったが,
肝心の実データで負けるのはどうなの…
9 Session 22: Similarity Joins 担当:白川(大阪大学)
PHiDJ: Parallel Similarity Self-Join for High-Dimensional Vector Data with MapReduce
(論文より)
*1 http://press.liacs.nl/mirflickr
(論文より)(論文より)
Cloud-I 2012:VLDB 2012のワークショップ
研究背景とか
 1~3次元程度のヒストグラムの集合を対象とし,EMDがε以下
のヒストグラムペアを, MapReduceを使って全て見つけたい
 EMD (Earth Mover‘s Distance):一方のヒストグラムから他方のヒスト
グラムになるまでに要する値の総移動コスト(文字列の編集距離に似てる)
 画像検索 [Ruzon, IEEE TPAMI01],ジェスチャ認識 [Ren, ACM MM11],重複
検出 [Xu, CVPR08],確率データマイニング[Xu, VLDBJ12]など幅広い応用
10 Session 22: Similarity Joins 担当:白川(大阪大学)
Melody-Join: Efficient Earth Mover’s Distance Similarity Joins Using MapReduce
Σ(移動させる値
×属性間の距離)
ha hb
EMD(ha, hb)
=1×1+2×1=3
類似画像判別(発表スライドより)
提案手法
 ハフ空間*1に移し[Ruttenberg, VLDB12],近そうなペアのみ計算
これを3回のMapReduceジョブで並列処理させ,Similarity Join化
 1回目で各ヒストグラムをハフ空間に写像
 2回目でハフ空間の各セルについてLower
Bound(LB)に使うエラー値Cを算出
(実際の累積頻度とNormal Distributionによる回帰の誤差より算出)
 3回目で各ヒストグラムごと,各セルごとに,
A)自分の位置するセルならネイティブレコード
B)それ以外のセルでかつLBがε以下ならゲストレコード
として,ヒストグラムとセルの組をMap
 3回目のReducerが各セルを担当,ネイティブ→ネイティブ,ゲストのEMD計算
11 Session 22: Similarity Joins 担当:白川(大阪大学)
Melody-Join: Efficient Earth Mover’s Distance Similarity Joins Using MapReduce
処理の流れ(論文より)
いや説明全然分からないんだけど
とにかく,画像処理とかでよく使われるハフ空間に移すことでEMDが近そうなペア
を効率的に見つけられるので,それをMapReduceに対応させた,という感じです
*1 長さrと角度θの組の集合で表現された空間
http://ja.wikipedia.org/wiki/%E3%83%8F%E3%83%95%E5%A4%89%E6%8F%9B
ここまでの処理で近そうなペアとして残った
評価
 5つの実データセットで評価
COREL*1:Color (CC), Layout (CL)
MIRFLICKR:Vertical (MV), Horizontal (MH), Slash (MS)
(このスライドではMVの結果のみ表示)
 MR-SimJoin [Silva, SIGMOD12, Demo]と比較
 画像の数(cardinality)やEMDの閾値を変えても提案手法が常勝
12 Session 22: Similarity Joins 担当:白川(大阪大学)
Melody-Join: Efficient Earth Mover’s Distance Similarity Joins Using MapReduce
*1 http://archive.ics.uci.edu/ml/datasets/Corel+Image+Features
1つ前の論文に出てきた[Silva, Cloud-I12]と同じ手法
(論文より)(論文より)
写像関数:3種類
グリッド:4×4セル
Hadoopインスタンス:48
その他セッティング

Contenu connexe

Similaire à ICDE2014 Session 22 Similarity Joins

A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...Ace12358
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習Preferred Networks
 
CMSI計算科学技術特論A(8) 高速化チューニングとその関連技術1
CMSI計算科学技術特論A(8) 高速化チューニングとその関連技術1CMSI計算科学技術特論A(8) 高速化チューニングとその関連技術1
CMSI計算科学技術特論A(8) 高速化チューニングとその関連技術1Computational Materials Science Initiative
 
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...Ace12358
 
[Tokyor08] Rによるデータサイエンス 第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス 第2部 第3章 対応分析Yohei Sato
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)Masahiro Suzuki
 
PHPとMongoDBで学ぶ次世代データストア
PHPとMongoDBで学ぶ次世代データストアPHPとMongoDBで学ぶ次世代データストア
PHPとMongoDBで学ぶ次世代データストアTakuya Sato
 
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについてMasahiro Suzuki
 
九大_DS実践_距離とクラスタリング
九大_DS実践_距離とクラスタリング九大_DS実践_距離とクラスタリング
九大_DS実践_距離とクラスタリングRyomaBise1
 
Pgunconf ゆるいテキスト検索ふたたび - n-gram応用編
Pgunconf ゆるいテキスト検索ふたたび - n-gram応用編Pgunconf ゆるいテキスト検索ふたたび - n-gram応用編
Pgunconf ゆるいテキスト検索ふたたび - n-gram応用編Toshi Harada
 
知って得するWebで便利なpostgre sqlの3つの機能
知って得するWebで便利なpostgre sqlの3つの機能知って得するWebで便利なpostgre sqlの3つの機能
知って得するWebで便利なpostgre sqlの3つの機能Soudai Sone
 
DS Exercise Course 4
DS Exercise Course 4DS Exercise Course 4
DS Exercise Course 4大貴 末廣
 
多変量解析の一般化
多変量解析の一般化多変量解析の一般化
多変量解析の一般化Akisato Kimura
 
Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介
Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介
Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介Masayoshi Kondo
 
Semantic_Matching_AAAI16_論文紹介
Semantic_Matching_AAAI16_論文紹介Semantic_Matching_AAAI16_論文紹介
Semantic_Matching_AAAI16_論文紹介Masayoshi Kondo
 
今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)
今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)
今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)YoheiOkuyama
 
Semi-supervised Active Learning Survey
Semi-supervised Active Learning SurveySemi-supervised Active Learning Survey
Semi-supervised Active Learning SurveyYo Ehara
 

Similaire à ICDE2014 Session 22 Similarity Joins (20)

A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習
 
CMSI計算科学技術特論A(8) 高速化チューニングとその関連技術1
CMSI計算科学技術特論A(8) 高速化チューニングとその関連技術1CMSI計算科学技術特論A(8) 高速化チューニングとその関連技術1
CMSI計算科学技術特論A(8) 高速化チューニングとその関連技術1
 
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
A semantics aware-transformer_model_of_relation_linking_for_knowledge_base_qu...
 
[Tokyor08] Rによるデータサイエンス 第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス 第2部 第3章 対応分析
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
Swim_2013_02_19_jpn
Swim_2013_02_19_jpnSwim_2013_02_19_jpn
Swim_2013_02_19_jpn
 
Pfi last seminar
Pfi last seminarPfi last seminar
Pfi last seminar
 
PHPとMongoDBで学ぶ次世代データストア
PHPとMongoDBで学ぶ次世代データストアPHPとMongoDBで学ぶ次世代データストア
PHPとMongoDBで学ぶ次世代データストア
 
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
 
九大_DS実践_距離とクラスタリング
九大_DS実践_距離とクラスタリング九大_DS実践_距離とクラスタリング
九大_DS実践_距離とクラスタリング
 
Pgunconf ゆるいテキスト検索ふたたび - n-gram応用編
Pgunconf ゆるいテキスト検索ふたたび - n-gram応用編Pgunconf ゆるいテキスト検索ふたたび - n-gram応用編
Pgunconf ゆるいテキスト検索ふたたび - n-gram応用編
 
知って得するWebで便利なpostgre sqlの3つの機能
知って得するWebで便利なpostgre sqlの3つの機能知って得するWebで便利なpostgre sqlの3つの機能
知って得するWebで便利なpostgre sqlの3つの機能
 
DS Exercise Course 4
DS Exercise Course 4DS Exercise Course 4
DS Exercise Course 4
 
多変量解析の一般化
多変量解析の一般化多変量解析の一般化
多変量解析の一般化
 
Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介
Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介
Linguistic Knowledge as Memory for Recurrent Neural Networks_論文紹介
 
Semantic_Matching_AAAI16_論文紹介
Semantic_Matching_AAAI16_論文紹介Semantic_Matching_AAAI16_論文紹介
Semantic_Matching_AAAI16_論文紹介
 
今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)
今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)
今さら聞けないHadoop勉強会第2回 セントラルソフト株式会社(20120228)
 
Semi-supervised Active Learning Survey
Semi-supervised Active Learning SurveySemi-supervised Active Learning Survey
Semi-supervised Active Learning Survey
 
2016word embbed
2016word embbed2016word embbed
2016word embbed
 

Dernier

Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Hiroshi Tomioka
 

Dernier (11)

Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 

ICDE2014 Session 22 Similarity Joins

  • 1. Session 22: Similarity Joins 担当: 白川(大阪大学) 【ICDE2014勉強会】
  • 2. まずはじめに…  Similarity Joinとはなんぞや?  2つのデータ集合の中から類似するデータペアを全部見つけるタスク  Self Similarity JoinとかSimilarity Self-Joinというのもあるが?  1つのデータ集合の中から類似するデータペアを全て見つけるタスク  やってることは似たようなもの 2 Session 22: Similarity Joins 担当:白川(大阪大学) データ集合 A D A H A R B C B Q 類似度θ 以上のペア Self Similarity Joinの例 ・・・ 該当する ペアを 全て列挙
  • 3. Session 22: Similarity Joins の論文 DE140108.PDF L2AP: Fast Cosine Similarity Search with Prefix L-2 Norm Bounds David C. Anastasiu, George Karypis DE140143.PDF PHiDJ: Parallel Similarity Self-Join for High-Dimensional Vector Data with MapReduce Sergej Fries, Brigitte Boden, Grzegorz Stepien, Thomas Seidl DE140387.PDF Melody-Join: Efficient Earth Mover’s Distance Similarity Joins Using MapReduce Jin Huang, Rui Zhang, Rajkumar Buyya, Jian Chen 3 Session 22: Similarity Joins 担当:白川(大阪大学)
  • 4. 研究背景とか 4 Session 22: Similarity Joins 担当:白川(大阪大学) L2AP: Fast Cosine Similarity Search with Prefix L-2 Norm Bounds d1 d2 d3 dm v1 0.1 0 0.2 … 0 v2 0.2 0 0.1 … 0 v3 0 0.1 0 … 0.3 … vn 0.3 0.1 0 … 0 {v1, v2}, {v2, vn}, … コサイン 類似度が θ以上 d1 → {v1, 0.1},{v2, 0.2},…,{vn, 0.3} d2 → {v3, 0.1},…,{vn, 0.1} d3 → {v1, 0.2},{v2, 0.1},… … 転置索引  超高次元かつ疎なベクトル集合を対象とし,コサイン類似度が 閾値θ以上のベクトルペアを全て見つけたい  計算量がO(n2m2),ただしnはベクトル数,mは次元数  よくあるやり方:転置索引を作って非零成分にのみアクセス  ベクトルが正規化されていればdot(非零成分同士の積)で計算可能
  • 5.  AllPairs [Bayardo, WWW07]  動的索引や,見込みのないベクトルペアの早期切り捨てを行う手法  MMJoin [Lee, DEXA10]: 切り捨てをより早期に行う拡張手法を提案  走査中のベクトルの未走査部分を 𝑥′ として 𝑑𝑜𝑡 𝑥′, 𝑦 ≤ 1 2 𝑥′ 2 + 1 2 で類似度を推測  提案手法:L2AP*1  コーシー=シュワルツの不等式を利用して切り捨てをさらに早期に!  類似度の推測値 𝑑𝑜𝑡 𝑥′, 𝑦 ≤ 𝑥′ は必ず既存手法より正確  証明: 𝑥′ − 1 2 ≥ 0 ⇒ 1 2 𝑥′ 2 + 1 2 ≥ 𝑥′ より, L2APによる推測値のほうが必ずドットプロダクトの真の値に近い! 行列 提案手法 5 Session 22: Similarity Joins 担当:白川(大阪大学) L2AP: Fast Cosine Similarity Search with Prefix L-2 Norm Bounds (1)インデックスを動的に生成 (2)逆から走査,インデックスを用いて 類似度計算,閾値を超える見込みが なくなったら走査を中断 各ベクトル順に(1)(2)の処理 yは正規化されているのでノルムが1 *1 ソフトウェア http://www-users.cs.umn.edu/~dragos/l2ap/
  • 6. 評価  6つの実データを使って評価 nnz: 行列全体での非零成分数 mrl: 1行の平均非零成分数 mcl: 1列の平均非零成分数  閾値 t を変えてもたいていの場合 L2APが最速!  インデックスサイズや途中結果のデータ サイズも減っていたので省スペース!  BayesLSH [Satuluri, VLDB12] などの 近似手法と比べた場合でも多くの場合 L2APが勝っていた!(詳しくは論文参照) 6 Session 22: Similarity Joins 担当:白川(大阪大学) L2AP: Fast Cosine Similarity Search with Prefix L-2 Norm Bounds (論文より) (論文より)
  • 7. 研究背景とか  高次元なベクトル集合を対象とし,距離がε以下の ベクトルペアを,MapReduceを使って全て見つけたい  MR-DSJ [Seidl, BTW13]:グリッドベースの手法(同じ研究グル―プによる成果)  d次元のベクトルをd次元のグリッドに配置,Reducerが各セルを担当  近くのグリッドに位置するベクトル間のみ距離を計算  緯度経度で距離計算とかなら問題ないけど,高次元だと隣接セルの数が 指数関数的に増加してしまう! → 通信コスト増大! 7 Session 22: Similarity Joins 担当:白川(大阪大学) PHiDJ: Parallel Similarity Self-Join for High-Dimensional Vector Data with MapReduce BTW:ドイツのデータベースの会議 濃い緑のセルを担当するReducerは 矢印で示したセル間を担当 2次元の場合 (論文より)
  • 8. 提案手法  高次元空間をk個の次元グループに分けてMR-DSJを実行  各次元グループでの 結果を最後に集約  次元グループ数は次元数に 対して線形なのでだいぶマシ!  各次元グループに対しては,よりタイトな閾値 𝜀 𝑘 = 𝜀 𝑚 𝑘 を 使うことで候補のペアを減らせる  Q: そんなことしたら解を見逃すケース(=偽陰性)も発生するのでは? A: ありえない,なぜなら別の次元グループの出力として得られるから  グリッドが均等だと一部のセルにデータが偏る(MR-DSJでも問題だった)  データが少ないところは数が均等になるよう広い範囲を担当させる (これは本研究とは独立した問題だから詳細は省く,みたいなこと書いてて簡単な説明しかなかった…) 8 Session 22: Similarity Joins 担当:白川(大阪大学) PHiDJ: Parallel Similarity Self-Join for High-Dimensional Vector Data with MapReduce (論文より) L𝑚-norm距離の場合
  • 9. 評価  2次元~20次元の疑似データ& 10次元のMIRFLICKR*1データ(右図2つ) (もっと高次元なデータでの結果が見たかった…)  8次元ぐらいから効果が出る  Theta-join [Okcan, SIGMOD11]より高速 (もっとも,この手法は任意のJoinが可能だが)  MR-SimJoin [Silva, Cloud-I12]と比較(左下図)  Flickr以外では倍ぐらい速かったが, 肝心の実データで負けるのはどうなの… 9 Session 22: Similarity Joins 担当:白川(大阪大学) PHiDJ: Parallel Similarity Self-Join for High-Dimensional Vector Data with MapReduce (論文より) *1 http://press.liacs.nl/mirflickr (論文より)(論文より) Cloud-I 2012:VLDB 2012のワークショップ
  • 10. 研究背景とか  1~3次元程度のヒストグラムの集合を対象とし,EMDがε以下 のヒストグラムペアを, MapReduceを使って全て見つけたい  EMD (Earth Mover‘s Distance):一方のヒストグラムから他方のヒスト グラムになるまでに要する値の総移動コスト(文字列の編集距離に似てる)  画像検索 [Ruzon, IEEE TPAMI01],ジェスチャ認識 [Ren, ACM MM11],重複 検出 [Xu, CVPR08],確率データマイニング[Xu, VLDBJ12]など幅広い応用 10 Session 22: Similarity Joins 担当:白川(大阪大学) Melody-Join: Efficient Earth Mover’s Distance Similarity Joins Using MapReduce Σ(移動させる値 ×属性間の距離) ha hb EMD(ha, hb) =1×1+2×1=3 類似画像判別(発表スライドより)
  • 11. 提案手法  ハフ空間*1に移し[Ruttenberg, VLDB12],近そうなペアのみ計算 これを3回のMapReduceジョブで並列処理させ,Similarity Join化  1回目で各ヒストグラムをハフ空間に写像  2回目でハフ空間の各セルについてLower Bound(LB)に使うエラー値Cを算出 (実際の累積頻度とNormal Distributionによる回帰の誤差より算出)  3回目で各ヒストグラムごと,各セルごとに, A)自分の位置するセルならネイティブレコード B)それ以外のセルでかつLBがε以下ならゲストレコード として,ヒストグラムとセルの組をMap  3回目のReducerが各セルを担当,ネイティブ→ネイティブ,ゲストのEMD計算 11 Session 22: Similarity Joins 担当:白川(大阪大学) Melody-Join: Efficient Earth Mover’s Distance Similarity Joins Using MapReduce 処理の流れ(論文より) いや説明全然分からないんだけど とにかく,画像処理とかでよく使われるハフ空間に移すことでEMDが近そうなペア を効率的に見つけられるので,それをMapReduceに対応させた,という感じです *1 長さrと角度θの組の集合で表現された空間 http://ja.wikipedia.org/wiki/%E3%83%8F%E3%83%95%E5%A4%89%E6%8F%9B ここまでの処理で近そうなペアとして残った
  • 12. 評価  5つの実データセットで評価 COREL*1:Color (CC), Layout (CL) MIRFLICKR:Vertical (MV), Horizontal (MH), Slash (MS) (このスライドではMVの結果のみ表示)  MR-SimJoin [Silva, SIGMOD12, Demo]と比較  画像の数(cardinality)やEMDの閾値を変えても提案手法が常勝 12 Session 22: Similarity Joins 担当:白川(大阪大学) Melody-Join: Efficient Earth Mover’s Distance Similarity Joins Using MapReduce *1 http://archive.ics.uci.edu/ml/datasets/Corel+Image+Features 1つ前の論文に出てきた[Silva, Cloud-I12]と同じ手法 (論文より)(論文より) 写像関数:3種類 グリッド:4×4セル Hadoopインスタンス:48 その他セッティング