Contenu connexe
Similaire à 機械学習ライブラリ「Spark MLlib」で作る アニメレコメンドシステム (20)
Plus de Junichi Noda (20)
機械学習ライブラリ「Spark MLlib」で作る アニメレコメンドシステム
- 14. UserName Tweet
tanaka おそ松さん面白い
mika ガンダム面白い
tanaka おそ松最高
daken ガンダム面白い
mika ラブライブ見る
UserID Product Rate
1 1 2
2 2 1
2 3 1
3 2 1
• 協調フィルタリングに読み込ませるため右表のフォーマットに
BigQueryで加工する。(AmazonMLもAzureMLなどもこの形式)
• SparkMLlibがUserIDがIntでないといけないという制限があるため
TwitterIDは内部的にシーケンスな番号を付ける。
データの加工
- 15. 80万Twitterユーザー x 43 (2015年冬期アニメ作品数)
3440万レコードが推薦データとしてMySQLに格納
されている
MLlibで処理した結果
UserID ProductID Rate
354796 242 1.8322849817902473
354796 243 -2.5666437672644378
354796 244 0.385125554296764
354796 245 0.9550722901486512