SlideShare une entreprise Scribd logo
1  sur  17
Télécharger pour lire hors ligne
Word2Vecによる次元圧縮と
重回帰分析型協調フィルタリング
藤井 流華  岡本 一志
1 2
電気通信大学 情報理工学部 総合情報学科
電気通信大学 大学院情報理工学研究科 情報学専攻
1
2
!12017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17
2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17
はじめに
!2
協調フィルタリング
情報推薦システム
アイテム(商品や店舗,記事など)の内容や特徴,

好みの度合いなどからユーザが好みそうなアイテムを予測するシステム
購入履歴やアイテムに付与されたスコアなどから,

類似ユーザ・アイテムの発見や付与されるスコアを予測する手法
?
ユーザ-アイテム行列
• Top-Nレコメンド

• スコア予測
ユーザ-アイテム行列を用いて

?のスコアを予測する
2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17
協調フィルタリングの手法
!3
モデルベース法
メモリベース法
• ユーザやアイテムの類似関係からスコアを予測する手法

• 推薦のたびに全てのユーザやアイテムについて近傍探索を実行
• 学習アルゴリズムに基づいてスコアの予測モデルを構築する手法

• 学習処理が必要だが推薦(予測)処理は低計算コスト
例 - ユーザベース協調フィルタリング

  - アイテムベース協調フィルタリング
例 - ベイジアンネットワーク

  - 行列因子分解
2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17
推薦システムにおける説明
!4
推薦システムの説明における役割 [Tintarev, 2007]
• 信頼性:ユーザのシステムに対する信頼を向上させる情報を提供

• 有効性:ユーザが良い決定を行うのを助ける情報を提供

• 透明性:なぜそのアイテムが推薦されたかの情報を提供
推薦に透明性があると,ユーザは推薦されたアイテムを好みやすい
[Herlocker+, 2000], [Shinha+, 2002], [Gedilki+, 2014]
→ 協調フィルタリングではメモリベース法が主流
モデルベース協調フィルタリングで推薦の透明性を実装
Herlocker, J. L., Konstan, J. A., and Riedl, J.: Explaining Collaborative Filtering Recommendations, Proc. of the 2000 ACM Conf. on Computer
Supported Cooperative Work, pp. 241–250, 2000
Tintarev, N.: Explaining Recommendedions, Proc. of Int. Conf. on User Modeling, pp. 470-474, 2007
Sinha, R. and Swearingen, K.: The Role of Transparency in Recommender Systems, Proc. of SIGCHI Conf. on Human Factors in Computing
Systems, pp. 830-831, 2002
Gedikli, F., Jannach, D., and MouzhiGe: How Should I Explain? A Comparison of Different Explanation Types for Recommender Systems, Int. J.
of Human-Computer Studies, Vol. 72, No. 4, pp. 367–382, 2014
2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17
モデルベース協調フィルタリング
!5
学習の計算コスト
重回帰分析 < ベイジアンネットワーク
手法 スコア予測 推薦の透明性
Matrix Factorization
非負値行列因子分解
ベイジアンネットワーク
重回帰分析
y = ↵0 + ↵1x1 + ↵2x2 + · · · + ↵nxn
2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17
研究目的
!6
協調フィルタリングにおける課題
目的アイテムのスコア予測だけでなく,

予測に影響を与える他のアイテムの推定技術の開発
• ユーザ−アイテム行列は巨大で疎性が強い

 → 学習に使用できる観測データが少なくなる傾向

• 重回帰分析は変数の数に対して観測データ数が10倍程度必要

• 想定される解決法

  - 正則化
- 次元圧縮
[P. Peduzzi+, 1995]
Peduzzi, P., Concato, J., Feinstein, A. R., and Holford, T. R.: Importance of Events Per
Independent Variable in Proportional Hazards Regression Analysis II. Accuracy and Precision of
Regression Estimates, J. of Clinical Epidemiology, Vol. 48, No. 12, pp. 1503-1510, 1995.
重回帰分析の協調フィルタリングへの応用
→ 評価されているところのみを学習する

  Word2Vecを用いることで高速に学習
2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17
重回帰分析型協調フィルタリング
!7
予測モデル(正則化法)
ˆy = ↵0 + x↵
予測モデル(次元圧縮法)
ˆy = β0 + xWβ
次元圧縮
(Word2Vec)
次元
Wn
k
X0
k
m
圧縮空間
X0
= XW
回帰式(次元圧縮法)
y
学習用ユーザ−アイテム行列
アイテム
ユ
ー
ザ X
m n
y
目的変数説明変数
y = β0 + X0
β + R(β)
正則化項
正則化項
学習用ユーザ−アイテム行列 回帰式(正則化法)
アイテム
ユ
ー
ザ X
m n
y
目的変数説明変数
正則化による方法
y = ↵0 + X↵ + R(↵)
2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17
実験目的
!8
1. 重回帰分析型協調フィルタリングのスコア予測精度を確認
→ 正則化法と次元圧縮法のスコアの予測性能を明らかにする
2. 次元圧縮法において,適切なハイパーパラメータを求める
→ 次元圧縮法において,Word2Vecのハイパーパラメータが
与える影響について検証
 重回帰分析をモデルベース協調フィルタリングとして応用し,

目的アイテムのスコア予測だけでなく,予測に影響を与える

他のアイテムの推定技術の開発
本研究の目的
2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17
実験環境( 1 / 2 )
!9
重回帰分析 Rのglmnetパッケージを使用
正則化法
• L1正則化

• L2正則化
次元圧縮法
Word2Vecで変数間の相関が想定

 → L1正則化およびL2正則化を適用
使用データ Book Crossing データセット
• ユーザが書籍につけた1~10までのスコアを集計

• ユーザ数: 11,030  書籍数: 104,596  総スコア数: 229,406

• データの収集期間: 2014年8月~9月の1週間
Word2Vecのハイパーパラメータ(次元圧縮法)
• 圧縮次元数:20~200まで20次元ずつ変化させた10種類

• 学習の最大単語数(WS):2~10まで2ずつ変化させた5種類
2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17
実験環境( 2 / 2 )
!10
回帰式の構築
汎化性能の検証
• 巨大で疎性の強いユーザ−アイテム行列

 → 評価しているユーザ数が少ない傾向

• 交差検証法では,目的変数を評価しているユーザが学習データと

テストデータの両方に含まれることを保証できない

 → 学習モデルを構築できない・予測誤差を検証できない可能性

• ブートストラップ法では,ランダムサンプリングにより学習データ
中の目的変数の数を調整できる
目的変数:評価しているユーザの多い書籍上位100件
(目的変数毎にモデル構築)説明変数:全書籍
2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17
予測精度の評価
!11
予測誤差 の計算
ブートストラップサンプリング集合
:学習用ユーザ-アイテム行列X
: 訓練集合に  を,テスト集合に を使って推定した予測誤差Xi X
: 訓練集合に  を,テスト集合に を使って推定した予測誤差Xi Xi
: 訓練集合に  を,テスト集合に を使って推定した予測誤差X X
N
{X1, X2, · · · , Xi, · · · , XN }
E(Xi, X)
E(Xi, Xi)
E(X, X)
汎化誤差 = E(X, X) +
1
N
NX
i=1
{E(Xi, X) − E(Xi, Xi)}
MAE ( Mean Absolute Error )
ˆyiyi : 真値 : 予測値
E
MAE =
1
T
TX
i=1
|yi − ˆyi| T : テストデータ数
:ブートストラップ数( =20)N
汎化誤差 経験誤差
ブートストラップ法の汎化誤差の計算
2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17
L1正則化を適用した場合の汎化誤差
!12
正則化法 次元圧縮法
ウィンドウサイズ2 ウィンドウサイズ10
• 汎化誤差の中央値について,

正則化法は1.08,次元圧縮法は1.27~1.32

• 正則化法のほうが次元圧縮法より0.19~0.24汎化誤差が小さい

• 次元圧縮法について,Word2Vecのハイパーパラメータは

スコア予測に大きく影響を与えていない
2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17
L2正則化を適用した場合の汎化誤差
!13
正則化法 次元圧縮法
ウィンドウサイズ2 ウィンドウサイズ10
• 汎化誤差の中央値について,

正則化法は1.09,次元圧縮法は1.27~1.32

• 正則化法のほうが次元圧縮法より0.18~0.23汎化誤差が小さい

• 次元圧縮法について,Word2Vecのハイパーパラメータは

スコア予測に大きく影響を与えていない
2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17
回帰係数の相関
!14
正則化法で得られる回帰係数が正しいと仮定
正則化法と次元圧縮法の回帰係数が類似
→ 正則化法よりも低い計算コストで学習できる次元圧縮法で解析が可能
正則化法と次元圧縮法の回帰係数の類似関係を確認
→ 正則化法と次元圧縮法の回帰係数の相関関係について検証
:学習用ユーザ-アイテム行列X
正則化法の回帰係数
次元圧縮法の回帰係数
X: を重回帰分析して得られた回帰係数
: をハイパーパラメータごとに重回帰分析して

 得られた回帰係数
X
2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17
正則化法と次元圧縮法の回帰係数の相関
!15
dimension k
correlation
dimension k
L1正則化
dimension k
correlation
dimension k
L2正則化
2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17
実験のまとめ
!16
1. 重回帰分析型協調フィルタリングのスコア予測精度を確認
2. 次元圧縮法において,適切なハイパーパラメータを求める
汎化誤差の中央値(正則化法:1.08~1.09,次元圧縮法:1.27~1.32)より、
正則化法・次元圧縮法どちらもスコア予測の観点では正しく動作
Word2Vecのハイパーパラメータはスコア予測に影響を与えていない
3. 正則化法と次元圧縮法の回帰係数の相関を調べる
半分の変数には正の相関が、残り半分には負の相関がある
2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17
おわりに
!17
今後の課題
• 回帰係数の相関について解析する

• 別のデータセットを用いても正しく動作するか検証する
研究のまとめ
• 目的
 重回帰分析を協調フィルタリングに応用し、スコア予測だけでなく目的
のアイテムに影響を与える他のアイテムも予測する技術の開発
• 実験
- 正則化法と次元圧縮法のスコアの予測性能を明らかにする

- 次元圧縮法において、Word2Vecのハイパーパラメータが与える影響に

 ついて検証
• 結果
- スコア予測の観点ではどちらも正しく動作

- Word2Vecのハイパーパラメータはスコア予測に影響を与えない

Contenu connexe

Tendances

データサイエンス概論第一=1-2 データのベクトル表現と集合
データサイエンス概論第一=1-2 データのベクトル表現と集合データサイエンス概論第一=1-2 データのベクトル表現と集合
データサイエンス概論第一=1-2 データのベクトル表現と集合Seiichi Uchida
 
大規模ネットワーク分析 篠田
大規模ネットワーク分析 篠田大規模ネットワーク分析 篠田
大規模ネットワーク分析 篠田Kosuke Shinoda
 
[DL輪読会]Measuring abstract reasoning in neural networks
[DL輪読会]Measuring abstract reasoning in neural networks[DL輪読会]Measuring abstract reasoning in neural networks
[DL輪読会]Measuring abstract reasoning in neural networksDeep Learning JP
 
Network analysis and visualization by Google Colaboratory
Network analysis and visualization by Google ColaboratoryNetwork analysis and visualization by Google Colaboratory
Network analysis and visualization by Google Colaboratorytm1966
 
データサイエンス概論第一=7 画像処理
データサイエンス概論第一=7 画像処理データサイエンス概論第一=7 画像処理
データサイエンス概論第一=7 画像処理Seiichi Uchida
 
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual TalksYuya Unno
 

Tendances (7)

データサイエンス概論第一=1-2 データのベクトル表現と集合
データサイエンス概論第一=1-2 データのベクトル表現と集合データサイエンス概論第一=1-2 データのベクトル表現と集合
データサイエンス概論第一=1-2 データのベクトル表現と集合
 
大規模ネットワーク分析 篠田
大規模ネットワーク分析 篠田大規模ネットワーク分析 篠田
大規模ネットワーク分析 篠田
 
[DL輪読会]Measuring abstract reasoning in neural networks
[DL輪読会]Measuring abstract reasoning in neural networks[DL輪読会]Measuring abstract reasoning in neural networks
[DL輪読会]Measuring abstract reasoning in neural networks
 
Network analysis and visualization by Google Colaboratory
Network analysis and visualization by Google ColaboratoryNetwork analysis and visualization by Google Colaboratory
Network analysis and visualization by Google Colaboratory
 
データサイエンス概論第一=7 画像処理
データサイエンス概論第一=7 画像処理データサイエンス概論第一=7 画像処理
データサイエンス概論第一=7 画像処理
 
画像処理基礎
画像処理基礎画像処理基礎
画像処理基礎
 
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks
 

Similaire à Word2Vecによる次元圧縮と重回帰分析型協調フィルタリングへの応用

[JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~
[JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~[JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~
[JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~Kenji Koshikawa
 
WWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and MiningWWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and Miningcyberagent
 
おしゃスタ@リクルート
おしゃスタ@リクルートおしゃスタ@リクルート
おしゃスタ@リクルートIssei Kurahashi
 
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...Yoshitaka Ushiku
 
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
【論文調査】XAI技術の効能を ユーザ実験で評価する研究【論文調査】XAI技術の効能を ユーザ実験で評価する研究
【論文調査】XAI技術の効能を ユーザ実験で評価する研究Satoshi Hara
 
ソフトウェアテストの再検討
ソフトウェアテストの再検討 ソフトウェアテストの再検討
ソフトウェアテストの再検討 ikedkana
 
DSP開発におけるSpark MLlibの活用
DSP開発におけるSpark MLlibの活用DSP開発におけるSpark MLlibの活用
DSP開発におけるSpark MLlibの活用Kotaro Tanahashi
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII
 
[Tokyor08] Rによるデータサイエンス 第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス 第2部 第3章 対応分析Yohei Sato
 
20180117_ICON技術セミナー4_常盤
20180117_ICON技術セミナー4_常盤20180117_ICON技術セミナー4_常盤
20180117_ICON技術セミナー4_常盤ICT_CONNECT_21
 
2014年5月21日「パーティクルフィルタの癖から知るロボットへの確率的手法の正しい適用方法」---第58回システム制御情報学会研究発表講演会チュートリアル講演
2014年5月21日「パーティクルフィルタの癖から知るロボットへの確率的手法の正しい適用方法」---第58回システム制御情報学会研究発表講演会チュートリアル講演2014年5月21日「パーティクルフィルタの癖から知るロボットへの確率的手法の正しい適用方法」---第58回システム制御情報学会研究発表講演会チュートリアル講演
2014年5月21日「パーティクルフィルタの癖から知るロボットへの確率的手法の正しい適用方法」---第58回システム制御情報学会研究発表講演会チュートリアル講演Ryuichi Ueda
 
単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類
単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類
単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類Peinan ZHANG
 
正則化による尤度比推定法を応用した多値分類器の改良
正則化による尤度比推定法を応用した多値分類器の改良正則化による尤度比推定法を応用した多値分類器の改良
正則化による尤度比推定法を応用した多値分類器の改良MasatoKikuchi4
 
輝度変化による運動錯視を用いたSSVEPベースBCI
輝度変化による運動錯視を用いたSSVEPベースBCI輝度変化による運動錯視を用いたSSVEPベースBCI
輝度変化による運動錯視を用いたSSVEPベースBCITomokiFurihara
 
TensorFlowとは? ディープラーニング (深層学習) とは?
TensorFlowとは? ディープラーニング (深層学習) とは?TensorFlowとは? ディープラーニング (深層学習) とは?
TensorFlowとは? ディープラーニング (深層学習) とは?KSK Analytics Inc.
 

Similaire à Word2Vecによる次元圧縮と重回帰分析型協調フィルタリングへの応用 (20)

分散表現を用いたリアルタイム学習型セッションベース推薦システム
分散表現を用いたリアルタイム学習型セッションベース推薦システム分散表現を用いたリアルタイム学習型セッションベース推薦システム
分散表現を用いたリアルタイム学習型セッションベース推薦システム
 
[JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~
[JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~[JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~
[JAWS2012]CRFを用いた メディア情報の抽出とLinked Data化 ~ ソーシャルメディアとマスメディアの比較事例 ~
 
yamasita m
yamasita myamasita m
yamasita m
 
Jaws2012 koshikawa
Jaws2012 koshikawaJaws2012 koshikawa
Jaws2012 koshikawa
 
Joint Inverted Indexing
Joint Inverted IndexingJoint Inverted Indexing
Joint Inverted Indexing
 
WWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and MiningWWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and Mining
 
おしゃスタ@リクルート
おしゃスタ@リクルートおしゃスタ@リクルート
おしゃスタ@リクルート
 
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
 
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
【論文調査】XAI技術の効能を ユーザ実験で評価する研究【論文調査】XAI技術の効能を ユーザ実験で評価する研究
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
 
ソフトウェアテストの再検討
ソフトウェアテストの再検討 ソフトウェアテストの再検討
ソフトウェアテストの再検討
 
DSP開発におけるSpark MLlibの活用
DSP開発におけるSpark MLlibの活用DSP開発におけるSpark MLlibの活用
DSP開発におけるSpark MLlibの活用
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
[Tokyor08] Rによるデータサイエンス 第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
[Tokyor08] Rによるデータサイエンス 第2部 第3章 対応分析
 
20180117_ICON技術セミナー4_常盤
20180117_ICON技術セミナー4_常盤20180117_ICON技術セミナー4_常盤
20180117_ICON技術セミナー4_常盤
 
2014年5月21日「パーティクルフィルタの癖から知るロボットへの確率的手法の正しい適用方法」---第58回システム制御情報学会研究発表講演会チュートリアル講演
2014年5月21日「パーティクルフィルタの癖から知るロボットへの確率的手法の正しい適用方法」---第58回システム制御情報学会研究発表講演会チュートリアル講演2014年5月21日「パーティクルフィルタの癖から知るロボットへの確率的手法の正しい適用方法」---第58回システム制御情報学会研究発表講演会チュートリアル講演
2014年5月21日「パーティクルフィルタの癖から知るロボットへの確率的手法の正しい適用方法」---第58回システム制御情報学会研究発表講演会チュートリアル講演
 
CNTK deep dive
CNTK deep diveCNTK deep dive
CNTK deep dive
 
単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類
単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類
単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類
 
正則化による尤度比推定法を応用した多値分類器の改良
正則化による尤度比推定法を応用した多値分類器の改良正則化による尤度比推定法を応用した多値分類器の改良
正則化による尤度比推定法を応用した多値分類器の改良
 
輝度変化による運動錯視を用いたSSVEPベースBCI
輝度変化による運動錯視を用いたSSVEPベースBCI輝度変化による運動錯視を用いたSSVEPベースBCI
輝度変化による運動錯視を用いたSSVEPベースBCI
 
TensorFlowとは? ディープラーニング (深層学習) とは?
TensorFlowとは? ディープラーニング (深層学習) とは?TensorFlowとは? ディープラーニング (深層学習) とは?
TensorFlowとは? ディープラーニング (深層学習) とは?
 

Plus de Okamoto Laboratory, The University of Electro-Communications

Plus de Okamoto Laboratory, The University of Electro-Communications (16)

クラウドソーシングにおける協調的な共同作業に対する組織構成システム
クラウドソーシングにおける協調的な共同作業に対する組織構成システムクラウドソーシングにおける協調的な共同作業に対する組織構成システム
クラウドソーシングにおける協調的な共同作業に対する組織構成システム
 
リンク予測に基づく共同研究者推薦システムの試作
リンク予測に基づく共同研究者推薦システムの試作リンク予測に基づく共同研究者推薦システムの試作
リンク予測に基づく共同研究者推薦システムの試作
 
Visualizing the Importance of Floor-Plan Image Features in Rent-Prediction Mo...
Visualizing the Importance of Floor-Plan Image Features in Rent-Prediction Mo...Visualizing the Importance of Floor-Plan Image Features in Rent-Prediction Mo...
Visualizing the Importance of Floor-Plan Image Features in Rent-Prediction Mo...
 
Directed Graph-based Researcher Recommendation by Random Walk with Restart an...
Directed Graph-based Researcher Recommendation by Random Walk with Restart an...Directed Graph-based Researcher Recommendation by Random Walk with Restart an...
Directed Graph-based Researcher Recommendation by Random Walk with Restart an...
 
間取り図を用いた賃料予測モデルに関する一検討
間取り図を用いた賃料予測モデルに関する一検討間取り図を用いた賃料予測モデルに関する一検討
間取り図を用いた賃料予測モデルに関する一検討
 
Development of a Collaborator Recommender System Based on Directed Graph Model
Development of a Collaborator Recommender System Based on Directed Graph ModelDevelopment of a Collaborator Recommender System Based on Directed Graph Model
Development of a Collaborator Recommender System Based on Directed Graph Model
 
Rent Prediction Models with Floor Plan Images
Rent Prediction Models with Floor Plan ImagesRent Prediction Models with Floor Plan Images
Rent Prediction Models with Floor Plan Images
 
アイテム分散表現の階層化・集約演算に基づくセッションベース推薦システム
アイテム分散表現の階層化・集約演算に基づくセッションベース推薦システムアイテム分散表現の階層化・集約演算に基づくセッションベース推薦システム
アイテム分散表現の階層化・集約演算に基づくセッションベース推薦システム
 
発売日前のレビューとPU-Learningを用いた
スパムレビュー検出
発売日前のレビューとPU-Learningを用いた
スパムレビュー検出発売日前のレビューとPU-Learningを用いた
スパムレビュー検出
発売日前のレビューとPU-Learningを用いた
スパムレビュー検出
 
数式からみるWord2Vec
数式からみるWord2Vec数式からみるWord2Vec
数式からみるWord2Vec
 
Rによるベイジアンネットワーク入門
Rによるベイジアンネットワーク入門Rによるベイジアンネットワーク入門
Rによるベイジアンネットワーク入門
 
単語の分散表現の 購買履歴への応用
単語の分散表現の 購買履歴への応用単語の分散表現の 購買履歴への応用
単語の分散表現の 購買履歴への応用
 
機関リポジトリから収集した学術論文のテキスト解析に関する一検討
機関リポジトリから収集した学術論文のテキスト解析に関する一検討機関リポジトリから収集した学術論文のテキスト解析に関する一検討
機関リポジトリから収集した学術論文のテキスト解析に関する一検討
 
Text Analysis of Academic Papers Archived in Institutional Repositories
Text Analysis of Academic Papers Archived in Institutional RepositoriesText Analysis of Academic Papers Archived in Institutional Repositories
Text Analysis of Academic Papers Archived in Institutional Repositories
 
Families of Triangular Norm Based Kernel Function and Its Application to Kern...
Families of Triangular Norm Based Kernel Function and Its Application to Kern...Families of Triangular Norm Based Kernel Function and Its Application to Kern...
Families of Triangular Norm Based Kernel Function and Its Application to Kern...
 
これから始めるディープラーニング
これから始めるディープラーニングこれから始めるディープラーニング
これから始めるディープラーニング
 

Word2Vecによる次元圧縮と重回帰分析型協調フィルタリングへの応用

  • 1. Word2Vecによる次元圧縮と 重回帰分析型協調フィルタリング 藤井 流華  岡本 一志 1 2 電気通信大学 情報理工学部 総合情報学科 電気通信大学 大学院情報理工学研究科 情報学専攻 1 2 !12017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17
  • 2. 2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17 はじめに !2 協調フィルタリング 情報推薦システム アイテム(商品や店舗,記事など)の内容や特徴, 好みの度合いなどからユーザが好みそうなアイテムを予測するシステム 購入履歴やアイテムに付与されたスコアなどから, 類似ユーザ・アイテムの発見や付与されるスコアを予測する手法 ? ユーザ-アイテム行列 • Top-Nレコメンド • スコア予測 ユーザ-アイテム行列を用いて ?のスコアを予測する
  • 3. 2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17 協調フィルタリングの手法 !3 モデルベース法 メモリベース法 • ユーザやアイテムの類似関係からスコアを予測する手法 • 推薦のたびに全てのユーザやアイテムについて近傍探索を実行 • 学習アルゴリズムに基づいてスコアの予測モデルを構築する手法 • 学習処理が必要だが推薦(予測)処理は低計算コスト 例 - ユーザベース協調フィルタリング   - アイテムベース協調フィルタリング 例 - ベイジアンネットワーク   - 行列因子分解
  • 4. 2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17 推薦システムにおける説明 !4 推薦システムの説明における役割 [Tintarev, 2007] • 信頼性:ユーザのシステムに対する信頼を向上させる情報を提供 • 有効性:ユーザが良い決定を行うのを助ける情報を提供 • 透明性:なぜそのアイテムが推薦されたかの情報を提供 推薦に透明性があると,ユーザは推薦されたアイテムを好みやすい [Herlocker+, 2000], [Shinha+, 2002], [Gedilki+, 2014] → 協調フィルタリングではメモリベース法が主流 モデルベース協調フィルタリングで推薦の透明性を実装 Herlocker, J. L., Konstan, J. A., and Riedl, J.: Explaining Collaborative Filtering Recommendations, Proc. of the 2000 ACM Conf. on Computer Supported Cooperative Work, pp. 241–250, 2000 Tintarev, N.: Explaining Recommendedions, Proc. of Int. Conf. on User Modeling, pp. 470-474, 2007 Sinha, R. and Swearingen, K.: The Role of Transparency in Recommender Systems, Proc. of SIGCHI Conf. on Human Factors in Computing Systems, pp. 830-831, 2002 Gedikli, F., Jannach, D., and MouzhiGe: How Should I Explain? A Comparison of Different Explanation Types for Recommender Systems, Int. J. of Human-Computer Studies, Vol. 72, No. 4, pp. 367–382, 2014
  • 5. 2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17 モデルベース協調フィルタリング !5 学習の計算コスト 重回帰分析 < ベイジアンネットワーク 手法 スコア予測 推薦の透明性 Matrix Factorization 非負値行列因子分解 ベイジアンネットワーク 重回帰分析 y = ↵0 + ↵1x1 + ↵2x2 + · · · + ↵nxn
  • 6. 2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17 研究目的 !6 協調フィルタリングにおける課題 目的アイテムのスコア予測だけでなく, 予測に影響を与える他のアイテムの推定技術の開発 • ユーザ−アイテム行列は巨大で疎性が強い
  → 学習に使用できる観測データが少なくなる傾向 • 重回帰分析は変数の数に対して観測データ数が10倍程度必要 • 想定される解決法   - 正則化 - 次元圧縮 [P. Peduzzi+, 1995] Peduzzi, P., Concato, J., Feinstein, A. R., and Holford, T. R.: Importance of Events Per Independent Variable in Proportional Hazards Regression Analysis II. Accuracy and Precision of Regression Estimates, J. of Clinical Epidemiology, Vol. 48, No. 12, pp. 1503-1510, 1995. 重回帰分析の協調フィルタリングへの応用 → 評価されているところのみを学習する   Word2Vecを用いることで高速に学習
  • 7. 2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17 重回帰分析型協調フィルタリング !7 予測モデル(正則化法) ˆy = ↵0 + x↵ 予測モデル(次元圧縮法) ˆy = β0 + xWβ 次元圧縮 (Word2Vec) 次元 Wn k X0 k m 圧縮空間 X0 = XW 回帰式(次元圧縮法) y 学習用ユーザ−アイテム行列 アイテム ユ ー ザ X m n y 目的変数説明変数 y = β0 + X0 β + R(β) 正則化項 正則化項 学習用ユーザ−アイテム行列 回帰式(正則化法) アイテム ユ ー ザ X m n y 目的変数説明変数 正則化による方法 y = ↵0 + X↵ + R(↵)
  • 8. 2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17 実験目的 !8 1. 重回帰分析型協調フィルタリングのスコア予測精度を確認 → 正則化法と次元圧縮法のスコアの予測性能を明らかにする 2. 次元圧縮法において,適切なハイパーパラメータを求める → 次元圧縮法において,Word2Vecのハイパーパラメータが 与える影響について検証  重回帰分析をモデルベース協調フィルタリングとして応用し, 目的アイテムのスコア予測だけでなく,予測に影響を与える 他のアイテムの推定技術の開発 本研究の目的
  • 9. 2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17 実験環境( 1 / 2 ) !9 重回帰分析 Rのglmnetパッケージを使用 正則化法 • L1正則化 • L2正則化 次元圧縮法 Word2Vecで変数間の相関が想定  → L1正則化およびL2正則化を適用 使用データ Book Crossing データセット • ユーザが書籍につけた1~10までのスコアを集計 • ユーザ数: 11,030  書籍数: 104,596  総スコア数: 229,406 • データの収集期間: 2014年8月~9月の1週間 Word2Vecのハイパーパラメータ(次元圧縮法) • 圧縮次元数:20~200まで20次元ずつ変化させた10種類 • 学習の最大単語数(WS):2~10まで2ずつ変化させた5種類
  • 10. 2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17 実験環境( 2 / 2 ) !10 回帰式の構築 汎化性能の検証 • 巨大で疎性の強いユーザ−アイテム行列
  → 評価しているユーザ数が少ない傾向 • 交差検証法では,目的変数を評価しているユーザが学習データと
 テストデータの両方に含まれることを保証できない
  → 学習モデルを構築できない・予測誤差を検証できない可能性 • ブートストラップ法では,ランダムサンプリングにより学習データ 中の目的変数の数を調整できる 目的変数:評価しているユーザの多い書籍上位100件 (目的変数毎にモデル構築)説明変数:全書籍
  • 11. 2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17 予測精度の評価 !11 予測誤差 の計算 ブートストラップサンプリング集合 :学習用ユーザ-アイテム行列X : 訓練集合に  を,テスト集合に を使って推定した予測誤差Xi X : 訓練集合に  を,テスト集合に を使って推定した予測誤差Xi Xi : 訓練集合に  を,テスト集合に を使って推定した予測誤差X X N {X1, X2, · · · , Xi, · · · , XN } E(Xi, X) E(Xi, Xi) E(X, X) 汎化誤差 = E(X, X) + 1 N NX i=1 {E(Xi, X) − E(Xi, Xi)} MAE ( Mean Absolute Error ) ˆyiyi : 真値 : 予測値 E MAE = 1 T TX i=1 |yi − ˆyi| T : テストデータ数 :ブートストラップ数( =20)N 汎化誤差 経験誤差 ブートストラップ法の汎化誤差の計算
  • 12. 2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17 L1正則化を適用した場合の汎化誤差 !12 正則化法 次元圧縮法 ウィンドウサイズ2 ウィンドウサイズ10 • 汎化誤差の中央値について,
 正則化法は1.08,次元圧縮法は1.27~1.32 • 正則化法のほうが次元圧縮法より0.19~0.24汎化誤差が小さい • 次元圧縮法について,Word2Vecのハイパーパラメータは
 スコア予測に大きく影響を与えていない
  • 13. 2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17 L2正則化を適用した場合の汎化誤差 !13 正則化法 次元圧縮法 ウィンドウサイズ2 ウィンドウサイズ10 • 汎化誤差の中央値について,
 正則化法は1.09,次元圧縮法は1.27~1.32 • 正則化法のほうが次元圧縮法より0.18~0.23汎化誤差が小さい • 次元圧縮法について,Word2Vecのハイパーパラメータは
 スコア予測に大きく影響を与えていない
  • 14. 2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17 回帰係数の相関 !14 正則化法で得られる回帰係数が正しいと仮定 正則化法と次元圧縮法の回帰係数が類似 → 正則化法よりも低い計算コストで学習できる次元圧縮法で解析が可能 正則化法と次元圧縮法の回帰係数の類似関係を確認 → 正則化法と次元圧縮法の回帰係数の相関関係について検証 :学習用ユーザ-アイテム行列X 正則化法の回帰係数 次元圧縮法の回帰係数 X: を重回帰分析して得られた回帰係数 : をハイパーパラメータごとに重回帰分析して  得られた回帰係数 X
  • 15. 2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17 正則化法と次元圧縮法の回帰係数の相関 !15 dimension k correlation dimension k L1正則化 dimension k correlation dimension k L2正則化
  • 16. 2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17 実験のまとめ !16 1. 重回帰分析型協調フィルタリングのスコア予測精度を確認 2. 次元圧縮法において,適切なハイパーパラメータを求める 汎化誤差の中央値(正則化法:1.08~1.09,次元圧縮法:1.27~1.32)より、 正則化法・次元圧縮法どちらもスコア予測の観点では正しく動作 Word2Vecのハイパーパラメータはスコア予測に影響を与えていない 3. 正則化法と次元圧縮法の回帰係数の相関を調べる 半分の変数には正の相関が、残り半分には負の相関がある
  • 17. 2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17 おわりに !17 今後の課題 • 回帰係数の相関について解析する • 別のデータセットを用いても正しく動作するか検証する 研究のまとめ • 目的  重回帰分析を協調フィルタリングに応用し、スコア予測だけでなく目的 のアイテムに影響を与える他のアイテムも予測する技術の開発 • 実験 - 正則化法と次元圧縮法のスコアの予測性能を明らかにする - 次元圧縮法において、Word2Vecのハイパーパラメータが与える影響に
  ついて検証 • 結果 - スコア予測の観点ではどちらも正しく動作 - Word2Vecのハイパーパラメータはスコア予測に影響を与えない