SlideShare une entreprise Scribd logo
1  sur  29
Télécharger pour lire hors ligne
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter 
2014-09-23 
Yoshihiko Suhara 
@sleepy_yoshi 
※発表後、訓練データの獲得方法について修正しました
Large-Scale High-Precision Topic Modeling on Twitterby ShuangYang, Alek Kolcz, Andy Schlaikjer, Pankaj Gupta (Twitter, Inc.) 
•大量に蓄積されるTweetに対して、あらかじめ用意した300+種類の“ト ピック” 付与問題をマルチラベル問題として解く 
–いわゆる“Topic Model” な話ではない 
–本発表ではトピックの代わりにタグと表現 
•様々な工夫 
–訓練データの自動獲得 
–高速な特徴抽出 
–閾値のチューニング 
–タグ階層構造の利用 
–など 
•Precision 93% (37% coverage) のタグ割り当て精度を達成 
Twitterで実運用可能なレベルの高Precisionのタグ割り当て機能を実現 
1枚概要 
Industry paper 
2 
※Recall 重視の方法については別のpaperがunder review中
システム全体図(1/6) 
3
システム全体図(2/6) 訓練データは半自動獲得します 
4
システム全体図(3/6) 各タグごとに2値分類器(Logistic Regression) を用意します 
5
システム全体図(4/6) 閾値のチューニングを行います 
6
システム全体図(5/6) ユーザとのインタラクティブなインタフェースを用いて誤り事例に 対してモデルを修正する仕組みを導入しています 
7
システム全体図(6/6) 300+種類のラベルを付与するのは大変なので、タグ毎に {-1,+1} の2値ラベル付与をクラウドワーカに依頼 
8 
[Industryぽいところ] 
パラメータチューニングと 
評価に重点的に人手を利用
タクソノミの構築 ODPやFreebaseをベースに階層構造を持ったトピック分類体系 を人手で修正・構築します 
•最大6階層、300+のトピック 
階層構造の情報は分類器構築に利用(後述) 
9
テキスト分類を用いたタグ判定 様々な工夫をこらしています 
•4.1 Chatter detection 
•4.2 Training data acquisition 
•4.3 Feature extraction 
•4.4 Model pretraining 
•4.5 Relational regularization 
•4.6 Model calibration 
•4.7 Quality evaluation 
•4.8 Diagnosis and corrective learning 
•4.9 Model fine-tuning 
10
テキスト分類を用いたタグ判定 
•4.1 Chatter detection 
–単なる「おしゃべり」Tweetの除去([3]を利用) 
•4.2 Training data acquisition 
•4.3 Feature extraction 
•4.4 Model pretraining 
•4.5 Relational regularization 
•4.6 Model calibration 
•4.7 Quality evaluation 
•4.8 Diagnosis and corrective learning 
•4.9 Model fine-tuning 
11
テキスト分類を用いたタグ判定 
•4.1 Chatter detection 
•4.2 Training data acquisition 
•4.3 Feature extraction 
•4.4 Model pretraining 
•4.5 Relational regularization 
•4.6 Model calibration 
•4.7 Quality evaluation 
•4.8 Diagnosis and corrective learning 
•4.9 Model fine-tuning 
12
4.2 Training data acquisitionCo-training + PU-learning ベースの枠組みで正例、負例を判定し、訓練デー タを半自動獲得します 
•Co-training 
–特徴空間を2つに分けてそれぞれの特徴空間で分類器を構築し、一方の予 測結果を反映してもう一方の分類器のラベルありデータとして用いる半教師 あり学習 
–(1) URLベースの分類器+ (2) Tweet本文の分類器 
•PU-learning 
–現在のモデルで確信度が閾値以下の事例を負例とみなす半教師あり学習 
13 
URLを含む 
Tweetのみを対象 
※一部ラベルあり 
※タグごとに2値分類器を用意する方法ではco-training で正例を増やせれば、他タグの負例とみなせる 
安心して負例とみなせる事例を準備するためにPU-learningを使っているものと思われる
4.3 Feature extraction 単語unigramよりも高速な特徴抽出方法を利用します 
•Binary hashed byte 4gram (Byte4gram) 
–訓練データ獲得ではTweet 分類に利用 
–4byteサイズのsliding windowをd次元にハッシュ 
•d=1,000,081(?!) 
•Hashed unigram frequency (Unigram-logTF-norm) 
–訓練データ獲得ではURL 分類に利用 
–1 characterをハッシュ値に変更して、頻度の対数を利用 
14
[補足] Unigram-logTF-norm の計算方法 
SpeedyFx [13] を利用 
• 文字列をそのまま使うと文字列一致の判定コストが高い 
15
4.4 Model pretraining タグ数だけLRを用意して閾値によってタグ付与を判定する方法を採用 
•正則化項にはElastic Net regularizer(L1+L2) を利用 
正則化項 
尤度 
※300クラスのMLRって… 
正規化項(分母計算) で死ぬ 
ICML2013読み会の論文 
16
4.4 Model pretraining タグ数だけLRを用意して閾値によってタグ付与を判定する方法を採用 
•正則化項にはElastic Net regularizer(L1+L2) を利用 
正則化項 
尤度 
※300クラスのMLRって… 
正規化項(分母計算) で死ぬ 
ICML2013読み会の論文 
(Twitter社内部のライブラリをひととおり自慢し、速度が大切であることを述べたあとに) 
最適化にはバッチ学習を採用と記述 
17 
?!
テキスト分類を用いたタグ判定 
•4.1 Chatter detection 
•4.2 Training data acquisition 
•4.3 Feature extraction 
•4.4 Model pretraining 
•4.5 Relational regularization 
•4.6 Model calibration 
•4.7 Quality evaluation 
•4.8 Diagnosis and corrective learning 
•4.9 Model fine-tuning 
18
4.5 Relational regularization トピック分類体系の階層構造をパラメータ学習に利用 
•(1) Label expansion 
–対象タグの{先祖、子孫}から負例を選択しない 
–※タグごとに2値分類器を用意している 
•(2) Cost-sensitive learning 
–피푒푦, 푦푥= 푐=1 푘푒푦푐푝( 푦=푐|푥) 
•푒푦푐にはtree distance を利用 
•(3) Hierarchical regularization 
–ペナルティ項を追加: 12 휂 푐=1 푘푤푐−푤parent푐22 
性能はどれも同じくらいだったので今回は(1)を採用 
19
4.6 Model calibration 
クラウドワーカの判定結果を使って各タグの分類器の閾値を 
決定します 
事前設定の 
lower bound 
푃(푦푐 |풙) 
0 
1 
Crowd workers 
(1) 確信度毎に箱詰め20
4.6 Model calibration 
クラウドワーカの判定結果を使って各タグの分類器の閾値を 
決定します 
事前設定の 
lower bound 
푃(푦푐 |풙) 
0 
1 
Crowd workers 
1.00 
0.86 
0.72 
0.69 
0.625 
ラベル付与 
Precision 
(1) 確信度毎に箱詰め(2) 判定結果から閾値を決定21
4.6 Model calibration 
クラウドワーカの判定結果を使って各タグの分類器の閾値を 
決定します 
事前設定の 
lower bound 
푃(푦푐 |풙) 
0 
1 
Crowd workers 
1.00 
0.86 
0.72 
0.69 
0.625 
ラベル付与 
Precisionの達成目標を 
超える最も小さい閾値 
を選択 
Precision 
(1) 確信度毎に箱詰め(2) 判定結果から閾値を決定22
テキスト分類を用いたタグ判定 
•4.1 Chatter detection 
•4.2 Training data acquisition 
•4.3 Feature extraction 
•4.4 Model pretraining 
•4.5 Relational regularization 
•4.6 Model calibration 
•4.7 Quality evaluation 
•4.8 Diagnosis and corrective learning 
•4.9 Model fine-tuning 
23
4.8 Diagnosis and corrective learning 
アノテータに判定を要求し、corrective learningに基づいて 
重み判定します 
24
補足: Corrective learning [Raman+ 12] 
特徴空間の排他的な領域ごとにモデルを用意し、各モデルは 
当該領域に含まれる訓練データのみを用いて生成 
• 領域ごとにモデルを用意する分割統治モデル(学習アルゴリズム、領域 
関数は与える) 
• 追加データは対象領域のモデルのみ更新する 
モデル分割の話 
してなかったけど 
なぁ… 
25
テキスト分類を用いたタグ判定 
•4.1 Chatter detection 
•4.2 Training data acquisition 
•4.3 Feature extraction 
•4.4 Model pretraining 
•4.5 Relational regularization 
•4.6 Model calibration 
•4.7 Quality evaluation 
•4.8 Diagnosis and corrective learning 
•4.9 Model fine-tuning 
26
4.9 Model fine-tuning 
全データを使って構築したモデル푤0を事前分布として 
きれいな訓練データでモデルを学習します 
• 今回は훿はCVで決定 
27 
• きれいな訓練データの作り方については詳細記述なし
まとめ 300+種類のタグを90%+のPrecisionで推定可能なシステムを 構築しました 
•90%+ のprecisionを達成 
–Precision 93% 
–Tweet Coverage 37% 
–Topic Coverage 81% 
•本論文で使用したテクニック 
–Co-training 
–PU-learning 
–Elastic Net regularizer 
–Extreme Fast Feature Extraction 
–Threshold calibration 
–Corrective learning 
28
おしまい 
29

Contenu connexe

Tendances

それっぽく感じる機械学習
それっぽく感じる機械学習それっぽく感じる機械学習
それっぽく感じる機械学習Yuki Igarashi
 
データマイニング勉強会3
データマイニング勉強会3データマイニング勉強会3
データマイニング勉強会3Yohei Sato
 
Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識Ken Morishita
 
パターン認識 第10章 決定木
パターン認識 第10章 決定木 パターン認識 第10章 決定木
パターン認識 第10章 決定木 Miyoshi Yuya
 
機械学習を使った時系列売上予測
機械学習を使った時系列売上予測機械学習を使った時系列売上予測
機械学習を使った時系列売上予測DataRobotJP
 
アンサンブル学習
アンサンブル学習アンサンブル学習
アンサンブル学習Hidekazu Tanaka
 
[第2版] Python機械学習プログラミング 第4章
[第2版] Python機械学習プログラミング 第4章[第2版] Python機械学習プログラミング 第4章
[第2版] Python機械学習プログラミング 第4章Haruki Eguchi
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Satoshi Kato
 
機械学習 / Deep Learning 大全 (2) Deep Learning 基礎編
機械学習 / Deep Learning 大全 (2) Deep Learning 基礎編機械学習 / Deep Learning 大全 (2) Deep Learning 基礎編
機械学習 / Deep Learning 大全 (2) Deep Learning 基礎編Daiyu Hatakeyama
 
Pythonによる機械学習入門 ~Deep Learningに挑戦~
Pythonによる機械学習入門 ~Deep Learningに挑戦~Pythonによる機械学習入門 ~Deep Learningに挑戦~
Pythonによる機械学習入門 ~Deep Learningに挑戦~Yasutomo Kawanishi
 
[第2版] Python機械学習プログラミング 第5章
[第2版] Python機械学習プログラミング 第5章[第2版] Python機械学習プログラミング 第5章
[第2版] Python機械学習プログラミング 第5章Haruki Eguchi
 
ランダムフォレスト
ランダムフォレストランダムフォレスト
ランダムフォレストKinki University
 
最近のRのランダムフォレストパッケージ -ranger/Rborist-
最近のRのランダムフォレストパッケージ -ranger/Rborist-最近のRのランダムフォレストパッケージ -ranger/Rborist-
最近のRのランダムフォレストパッケージ -ranger/Rborist-Shintaro Fukushima
 
ルールベースから機械学習への道 公開用
ルールベースから機械学習への道 公開用ルールベースから機械学習への道 公開用
ルールベースから機械学習への道 公開用nishio
 
第1回 Jubatusハンズオン
第1回 Jubatusハンズオン第1回 Jubatusハンズオン
第1回 JubatusハンズオンYuya Unno
 
2013.07.15 はじパタlt scikit-learnで始める機械学習
2013.07.15 はじパタlt scikit-learnで始める機械学習2013.07.15 はじパタlt scikit-learnで始める機械学習
2013.07.15 はじパタlt scikit-learnで始める機械学習Motoya Wakiyama
 
mxnetで頑張る深層学習
mxnetで頑張る深層学習mxnetで頑張る深層学習
mxnetで頑張る深層学習Takashi Kitano
 
Jubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusOfficial
 

Tendances (20)

それっぽく感じる機械学習
それっぽく感じる機械学習それっぽく感じる機械学習
それっぽく感じる機械学習
 
データマイニング勉強会3
データマイニング勉強会3データマイニング勉強会3
データマイニング勉強会3
 
Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識
 
パターン認識 第10章 決定木
パターン認識 第10章 決定木 パターン認識 第10章 決定木
パターン認識 第10章 決定木
 
機械学習を使った時系列売上予測
機械学習を使った時系列売上予測機械学習を使った時系列売上予測
機械学習を使った時系列売上予測
 
アンサンブル学習
アンサンブル学習アンサンブル学習
アンサンブル学習
 
[第2版] Python機械学習プログラミング 第4章
[第2版] Python機械学習プログラミング 第4章[第2版] Python機械学習プログラミング 第4章
[第2版] Python機械学習プログラミング 第4章
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
 
機械学習 / Deep Learning 大全 (2) Deep Learning 基礎編
機械学習 / Deep Learning 大全 (2) Deep Learning 基礎編機械学習 / Deep Learning 大全 (2) Deep Learning 基礎編
機械学習 / Deep Learning 大全 (2) Deep Learning 基礎編
 
Pythonによる機械学習入門 ~Deep Learningに挑戦~
Pythonによる機械学習入門 ~Deep Learningに挑戦~Pythonによる機械学習入門 ~Deep Learningに挑戦~
Pythonによる機械学習入門 ~Deep Learningに挑戦~
 
[第2版] Python機械学習プログラミング 第5章
[第2版] Python機械学習プログラミング 第5章[第2版] Python機械学習プログラミング 第5章
[第2版] Python機械学習プログラミング 第5章
 
Sakusaku svm
Sakusaku svmSakusaku svm
Sakusaku svm
 
ランダムフォレスト
ランダムフォレストランダムフォレスト
ランダムフォレスト
 
最近のRのランダムフォレストパッケージ -ranger/Rborist-
最近のRのランダムフォレストパッケージ -ranger/Rborist-最近のRのランダムフォレストパッケージ -ranger/Rborist-
最近のRのランダムフォレストパッケージ -ranger/Rborist-
 
ルールベースから機械学習への道 公開用
ルールベースから機械学習への道 公開用ルールベースから機械学習への道 公開用
ルールベースから機械学習への道 公開用
 
第1回 Jubatusハンズオン
第1回 Jubatusハンズオン第1回 Jubatusハンズオン
第1回 Jubatusハンズオン
 
2013.07.15 はじパタlt scikit-learnで始める機械学習
2013.07.15 はじパタlt scikit-learnで始める機械学習2013.07.15 はじパタlt scikit-learnで始める機械学習
2013.07.15 はじパタlt scikit-learnで始める機械学習
 
Random Forests
Random ForestsRandom Forests
Random Forests
 
mxnetで頑張る深層学習
mxnetで頑張る深層学習mxnetで頑張る深層学習
mxnetで頑張る深層学習
 
Jubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組み
 

Similaire à KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter

機械学習 / Deep Learning 大全 (5) Tool編
機械学習 / Deep Learning 大全 (5) Tool編機械学習 / Deep Learning 大全 (5) Tool編
機械学習 / Deep Learning 大全 (5) Tool編Daiyu Hatakeyama
 
Talendデータ・ファブリック・ソリューションの概要
Talendデータ・ファブリック・ソリューションの概要Talendデータ・ファブリック・ソリューションの概要
Talendデータ・ファブリック・ソリューションの概要QlikPresalesJapan
 
Jubatusでマルウェア分類
Jubatusでマルウェア分類Jubatusでマルウェア分類
Jubatusでマルウェア分類Shuzo Kashihara
 
Azure Machine Learning Services 概要 - 2019年2月版
Azure Machine Learning Services 概要 - 2019年2月版Azure Machine Learning Services 概要 - 2019年2月版
Azure Machine Learning Services 概要 - 2019年2月版Daiyu Hatakeyama
 
20180729 Preferred Networksの機械学習クラスタを支える技術
20180729 Preferred Networksの機械学習クラスタを支える技術20180729 Preferred Networksの機械学習クラスタを支える技術
20180729 Preferred Networksの機械学習クラスタを支える技術Preferred Networks
 
ReviewNet_161122
ReviewNet_161122ReviewNet_161122
ReviewNet_161122shima o
 
A closer look at few shot classification
A closer look at few shot classificationA closer look at few shot classification
A closer look at few shot classificationKazuki Fujikawa
 
[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classificationDeep Learning JP
 
リバースモデリングを用いたテスト観点標準化の取り組み
リバースモデリングを用いたテスト観点標準化の取り組みリバースモデリングを用いたテスト観点標準化の取り組み
リバースモデリングを用いたテスト観点標準化の取り組みNaokiKashiwagura
 
Azure Antenna AI 概要
Azure Antenna AI 概要Azure Antenna AI 概要
Azure Antenna AI 概要Miho Yamamoto
 
rePiT2015_アジャイルソフトウェア開発教育のためのチケットシステムを用いたプロジェクト定量評価手法
rePiT2015_アジャイルソフトウェア開発教育のためのチケットシステムを用いたプロジェクト定量評価手法rePiT2015_アジャイルソフトウェア開発教育のためのチケットシステムを用いたプロジェクト定量評価手法
rePiT2015_アジャイルソフトウェア開発教育のためのチケットシステムを用いたプロジェクト定量評価手法Hiroshi Igaki
 
【Microsoft×Aidemy】初めて作る!機械学習モデルハンズオンセミナー: Designer の知っておきたい便利機能
【Microsoft×Aidemy】初めて作る!機械学習モデルハンズオンセミナー: Designer の知っておきたい便利機能【Microsoft×Aidemy】初めて作る!機械学習モデルハンズオンセミナー: Designer の知っておきたい便利機能
【Microsoft×Aidemy】初めて作る!機械学習モデルハンズオンセミナー: Designer の知っておきたい便利機能Daiyu Hatakeyama
 
Hadoop基盤上のETL構築実践例 ~多様なデータをどう扱う?~
Hadoop基盤上のETL構築実践例 ~多様なデータをどう扱う?~Hadoop基盤上のETL構築実践例 ~多様なデータをどう扱う?~
Hadoop基盤上のETL構築実践例 ~多様なデータをどう扱う?~Sotaro Kimura
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)Hideki Okada
 
メトリクスによるソフトウェア品質評価・改善および製品品質実態
メトリクスによるソフトウェア品質評価・改善および製品品質実態メトリクスによるソフトウェア品質評価・改善および製品品質実態
メトリクスによるソフトウェア品質評価・改善および製品品質実態Hironori Washizaki
 
[DL Hacks 実装]StyleNet: Generating Attractive Visual Captions with Styles
[DL Hacks 実装]StyleNet: Generating Attractive Visual Captions with Styles[DL Hacks 実装]StyleNet: Generating Attractive Visual Captions with Styles
[DL Hacks 実装]StyleNet: Generating Attractive Visual Captions with StylesDeep Learning JP
 
【de:code 2020】 アマダの Azure への取り組みと DevOPS・MLOPS 環境の構築と運用
【de:code 2020】 アマダの Azure への取り組みと DevOPS・MLOPS 環境の構築と運用【de:code 2020】 アマダの Azure への取り組みと DevOPS・MLOPS 環境の構築と運用
【de:code 2020】 アマダの Azure への取り組みと DevOPS・MLOPS 環境の構築と運用日本マイクロソフト株式会社
 
使い捨て python コードの書き方
使い捨て python コードの書き方使い捨て python コードの書き方
使い捨て python コードの書き方Sho Shimauchi
 
機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)
機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)
機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)Yaboo Oyabu
 

Similaire à KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter (20)

機械学習 / Deep Learning 大全 (5) Tool編
機械学習 / Deep Learning 大全 (5) Tool編機械学習 / Deep Learning 大全 (5) Tool編
機械学習 / Deep Learning 大全 (5) Tool編
 
Talendデータ・ファブリック・ソリューションの概要
Talendデータ・ファブリック・ソリューションの概要Talendデータ・ファブリック・ソリューションの概要
Talendデータ・ファブリック・ソリューションの概要
 
Jubatusでマルウェア分類
Jubatusでマルウェア分類Jubatusでマルウェア分類
Jubatusでマルウェア分類
 
Azure Machine Learning Services 概要 - 2019年2月版
Azure Machine Learning Services 概要 - 2019年2月版Azure Machine Learning Services 概要 - 2019年2月版
Azure Machine Learning Services 概要 - 2019年2月版
 
20180729 Preferred Networksの機械学習クラスタを支える技術
20180729 Preferred Networksの機械学習クラスタを支える技術20180729 Preferred Networksの機械学習クラスタを支える技術
20180729 Preferred Networksの機械学習クラスタを支える技術
 
ReviewNet_161122
ReviewNet_161122ReviewNet_161122
ReviewNet_161122
 
A closer look at few shot classification
A closer look at few shot classificationA closer look at few shot classification
A closer look at few shot classification
 
[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification
 
リバースモデリングを用いたテスト観点標準化の取り組み
リバースモデリングを用いたテスト観点標準化の取り組みリバースモデリングを用いたテスト観点標準化の取り組み
リバースモデリングを用いたテスト観点標準化の取り組み
 
Azure Antenna AI 概要
Azure Antenna AI 概要Azure Antenna AI 概要
Azure Antenna AI 概要
 
rePiT2015_アジャイルソフトウェア開発教育のためのチケットシステムを用いたプロジェクト定量評価手法
rePiT2015_アジャイルソフトウェア開発教育のためのチケットシステムを用いたプロジェクト定量評価手法rePiT2015_アジャイルソフトウェア開発教育のためのチケットシステムを用いたプロジェクト定量評価手法
rePiT2015_アジャイルソフトウェア開発教育のためのチケットシステムを用いたプロジェクト定量評価手法
 
【Microsoft×Aidemy】初めて作る!機械学習モデルハンズオンセミナー: Designer の知っておきたい便利機能
【Microsoft×Aidemy】初めて作る!機械学習モデルハンズオンセミナー: Designer の知っておきたい便利機能【Microsoft×Aidemy】初めて作る!機械学習モデルハンズオンセミナー: Designer の知っておきたい便利機能
【Microsoft×Aidemy】初めて作る!機械学習モデルハンズオンセミナー: Designer の知っておきたい便利機能
 
Hadoop基盤上のETL構築実践例 ~多様なデータをどう扱う?~
Hadoop基盤上のETL構築実践例 ~多様なデータをどう扱う?~Hadoop基盤上のETL構築実践例 ~多様なデータをどう扱う?~
Hadoop基盤上のETL構築実践例 ~多様なデータをどう扱う?~
 
JAWS DAYS 2022
JAWS DAYS 2022JAWS DAYS 2022
JAWS DAYS 2022
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)
 
メトリクスによるソフトウェア品質評価・改善および製品品質実態
メトリクスによるソフトウェア品質評価・改善および製品品質実態メトリクスによるソフトウェア品質評価・改善および製品品質実態
メトリクスによるソフトウェア品質評価・改善および製品品質実態
 
[DL Hacks 実装]StyleNet: Generating Attractive Visual Captions with Styles
[DL Hacks 実装]StyleNet: Generating Attractive Visual Captions with Styles[DL Hacks 実装]StyleNet: Generating Attractive Visual Captions with Styles
[DL Hacks 実装]StyleNet: Generating Attractive Visual Captions with Styles
 
【de:code 2020】 アマダの Azure への取り組みと DevOPS・MLOPS 環境の構築と運用
【de:code 2020】 アマダの Azure への取り組みと DevOPS・MLOPS 環境の構築と運用【de:code 2020】 アマダの Azure への取り組みと DevOPS・MLOPS 環境の構築と運用
【de:code 2020】 アマダの Azure への取り組みと DevOPS・MLOPS 環境の構築と運用
 
使い捨て python コードの書き方
使い捨て python コードの書き方使い捨て python コードの書き方
使い捨て python コードの書き方
 
機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)
機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)
機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)
 

Plus de sleepy_yoshi

KDD2013読み会: Direct Optimization of Ranking Measures
KDD2013読み会: Direct Optimization of Ranking MeasuresKDD2013読み会: Direct Optimization of Ranking Measures
KDD2013読み会: Direct Optimization of Ranking Measuressleepy_yoshi
 
PRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじPRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじsleepy_yoshi
 
PRML復々習レーン#14 前回までのあらすじ
PRML復々習レーン#14 前回までのあらすじPRML復々習レーン#14 前回までのあらすじ
PRML復々習レーン#14 前回までのあらすじsleepy_yoshi
 
PRML復々習レーン#13 前回までのあらすじ
PRML復々習レーン#13 前回までのあらすじPRML復々習レーン#13 前回までのあらすじ
PRML復々習レーン#13 前回までのあらすじsleepy_yoshi
 
PRML復々習レーン#12 前回までのあらすじ
PRML復々習レーン#12 前回までのあらすじPRML復々習レーン#12 前回までのあらすじ
PRML復々習レーン#12 前回までのあらすじsleepy_yoshi
 
ICML2013読み会: Distributed training of Large-scale Logistic models
ICML2013読み会: Distributed training of Large-scale Logistic modelsICML2013読み会: Distributed training of Large-scale Logistic models
ICML2013読み会: Distributed training of Large-scale Logistic modelssleepy_yoshi
 
SEXI2013読み会: Adult Query Classification for Web Search and Recommendation
SEXI2013読み会: Adult Query Classification for Web Search and RecommendationSEXI2013読み会: Adult Query Classification for Web Search and Recommendation
SEXI2013読み会: Adult Query Classification for Web Search and Recommendationsleepy_yoshi
 
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-sleepy_yoshi
 
PRML復々習レーン#11 前回までのあらすじ
PRML復々習レーン#11 前回までのあらすじPRML復々習レーン#11 前回までのあらすじ
PRML復々習レーン#11 前回までのあらすじsleepy_yoshi
 
SMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装するSMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装するsleepy_yoshi
 
PRML復々習レーン#10 前回までのあらすじ
PRML復々習レーン#10 前回までのあらすじPRML復々習レーン#10 前回までのあらすじ
PRML復々習レーン#10 前回までのあらすじsleepy_yoshi
 
PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5sleepy_yoshi
 
PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1sleepy_yoshi
 
PRML復々習レーン#9 前回までのあらすじ
PRML復々習レーン#9 前回までのあらすじPRML復々習レーン#9 前回までのあらすじ
PRML復々習レーン#9 前回までのあらすじsleepy_yoshi
 
PRML復々習レーン#7 前回までのあらすじ
PRML復々習レーン#7 前回までのあらすじPRML復々習レーン#7 前回までのあらすじ
PRML復々習レーン#7 前回までのあらすじsleepy_yoshi
 
SIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to RankSIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to Ranksleepy_yoshi
 
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5sleepy_yoshi
 
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...sleepy_yoshi
 
PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5sleepy_yoshi
 
PRML復々習レーン#3 前回までのあらすじ
PRML復々習レーン#3 前回までのあらすじPRML復々習レーン#3 前回までのあらすじ
PRML復々習レーン#3 前回までのあらすじsleepy_yoshi
 

Plus de sleepy_yoshi (20)

KDD2013読み会: Direct Optimization of Ranking Measures
KDD2013読み会: Direct Optimization of Ranking MeasuresKDD2013読み会: Direct Optimization of Ranking Measures
KDD2013読み会: Direct Optimization of Ranking Measures
 
PRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじPRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじ
 
PRML復々習レーン#14 前回までのあらすじ
PRML復々習レーン#14 前回までのあらすじPRML復々習レーン#14 前回までのあらすじ
PRML復々習レーン#14 前回までのあらすじ
 
PRML復々習レーン#13 前回までのあらすじ
PRML復々習レーン#13 前回までのあらすじPRML復々習レーン#13 前回までのあらすじ
PRML復々習レーン#13 前回までのあらすじ
 
PRML復々習レーン#12 前回までのあらすじ
PRML復々習レーン#12 前回までのあらすじPRML復々習レーン#12 前回までのあらすじ
PRML復々習レーン#12 前回までのあらすじ
 
ICML2013読み会: Distributed training of Large-scale Logistic models
ICML2013読み会: Distributed training of Large-scale Logistic modelsICML2013読み会: Distributed training of Large-scale Logistic models
ICML2013読み会: Distributed training of Large-scale Logistic models
 
SEXI2013読み会: Adult Query Classification for Web Search and Recommendation
SEXI2013読み会: Adult Query Classification for Web Search and RecommendationSEXI2013読み会: Adult Query Classification for Web Search and Recommendation
SEXI2013読み会: Adult Query Classification for Web Search and Recommendation
 
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-
 
PRML復々習レーン#11 前回までのあらすじ
PRML復々習レーン#11 前回までのあらすじPRML復々習レーン#11 前回までのあらすじ
PRML復々習レーン#11 前回までのあらすじ
 
SMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装するSMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装する
 
PRML復々習レーン#10 前回までのあらすじ
PRML復々習レーン#10 前回までのあらすじPRML復々習レーン#10 前回までのあらすじ
PRML復々習レーン#10 前回までのあらすじ
 
PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5
 
PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1
 
PRML復々習レーン#9 前回までのあらすじ
PRML復々習レーン#9 前回までのあらすじPRML復々習レーン#9 前回までのあらすじ
PRML復々習レーン#9 前回までのあらすじ
 
PRML復々習レーン#7 前回までのあらすじ
PRML復々習レーン#7 前回までのあらすじPRML復々習レーン#7 前回までのあらすじ
PRML復々習レーン#7 前回までのあらすじ
 
SIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to RankSIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to Rank
 
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
 
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
 
PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5
 
PRML復々習レーン#3 前回までのあらすじ
PRML復々習レーン#3 前回までのあらすじPRML復々習レーン#3 前回までのあらすじ
PRML復々習レーン#3 前回までのあらすじ
 

Dernier

CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 

Dernier (9)

CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 

KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter

  • 1. KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter 2014-09-23 Yoshihiko Suhara @sleepy_yoshi ※発表後、訓練データの獲得方法について修正しました
  • 2. Large-Scale High-Precision Topic Modeling on Twitterby ShuangYang, Alek Kolcz, Andy Schlaikjer, Pankaj Gupta (Twitter, Inc.) •大量に蓄積されるTweetに対して、あらかじめ用意した300+種類の“ト ピック” 付与問題をマルチラベル問題として解く –いわゆる“Topic Model” な話ではない –本発表ではトピックの代わりにタグと表現 •様々な工夫 –訓練データの自動獲得 –高速な特徴抽出 –閾値のチューニング –タグ階層構造の利用 –など •Precision 93% (37% coverage) のタグ割り当て精度を達成 Twitterで実運用可能なレベルの高Precisionのタグ割り当て機能を実現 1枚概要 Industry paper 2 ※Recall 重視の方法については別のpaperがunder review中
  • 8. システム全体図(6/6) 300+種類のラベルを付与するのは大変なので、タグ毎に {-1,+1} の2値ラベル付与をクラウドワーカに依頼 8 [Industryぽいところ] パラメータチューニングと 評価に重点的に人手を利用
  • 9. タクソノミの構築 ODPやFreebaseをベースに階層構造を持ったトピック分類体系 を人手で修正・構築します •最大6階層、300+のトピック 階層構造の情報は分類器構築に利用(後述) 9
  • 10. テキスト分類を用いたタグ判定 様々な工夫をこらしています •4.1 Chatter detection •4.2 Training data acquisition •4.3 Feature extraction •4.4 Model pretraining •4.5 Relational regularization •4.6 Model calibration •4.7 Quality evaluation •4.8 Diagnosis and corrective learning •4.9 Model fine-tuning 10
  • 11. テキスト分類を用いたタグ判定 •4.1 Chatter detection –単なる「おしゃべり」Tweetの除去([3]を利用) •4.2 Training data acquisition •4.3 Feature extraction •4.4 Model pretraining •4.5 Relational regularization •4.6 Model calibration •4.7 Quality evaluation •4.8 Diagnosis and corrective learning •4.9 Model fine-tuning 11
  • 12. テキスト分類を用いたタグ判定 •4.1 Chatter detection •4.2 Training data acquisition •4.3 Feature extraction •4.4 Model pretraining •4.5 Relational regularization •4.6 Model calibration •4.7 Quality evaluation •4.8 Diagnosis and corrective learning •4.9 Model fine-tuning 12
  • 13. 4.2 Training data acquisitionCo-training + PU-learning ベースの枠組みで正例、負例を判定し、訓練デー タを半自動獲得します •Co-training –特徴空間を2つに分けてそれぞれの特徴空間で分類器を構築し、一方の予 測結果を反映してもう一方の分類器のラベルありデータとして用いる半教師 あり学習 –(1) URLベースの分類器+ (2) Tweet本文の分類器 •PU-learning –現在のモデルで確信度が閾値以下の事例を負例とみなす半教師あり学習 13 URLを含む Tweetのみを対象 ※一部ラベルあり ※タグごとに2値分類器を用意する方法ではco-training で正例を増やせれば、他タグの負例とみなせる 安心して負例とみなせる事例を準備するためにPU-learningを使っているものと思われる
  • 14. 4.3 Feature extraction 単語unigramよりも高速な特徴抽出方法を利用します •Binary hashed byte 4gram (Byte4gram) –訓練データ獲得ではTweet 分類に利用 –4byteサイズのsliding windowをd次元にハッシュ •d=1,000,081(?!) •Hashed unigram frequency (Unigram-logTF-norm) –訓練データ獲得ではURL 分類に利用 –1 characterをハッシュ値に変更して、頻度の対数を利用 14
  • 15. [補足] Unigram-logTF-norm の計算方法 SpeedyFx [13] を利用 • 文字列をそのまま使うと文字列一致の判定コストが高い 15
  • 16. 4.4 Model pretraining タグ数だけLRを用意して閾値によってタグ付与を判定する方法を採用 •正則化項にはElastic Net regularizer(L1+L2) を利用 正則化項 尤度 ※300クラスのMLRって… 正規化項(分母計算) で死ぬ ICML2013読み会の論文 16
  • 17. 4.4 Model pretraining タグ数だけLRを用意して閾値によってタグ付与を判定する方法を採用 •正則化項にはElastic Net regularizer(L1+L2) を利用 正則化項 尤度 ※300クラスのMLRって… 正規化項(分母計算) で死ぬ ICML2013読み会の論文 (Twitter社内部のライブラリをひととおり自慢し、速度が大切であることを述べたあとに) 最適化にはバッチ学習を採用と記述 17 ?!
  • 18. テキスト分類を用いたタグ判定 •4.1 Chatter detection •4.2 Training data acquisition •4.3 Feature extraction •4.4 Model pretraining •4.5 Relational regularization •4.6 Model calibration •4.7 Quality evaluation •4.8 Diagnosis and corrective learning •4.9 Model fine-tuning 18
  • 19. 4.5 Relational regularization トピック分類体系の階層構造をパラメータ学習に利用 •(1) Label expansion –対象タグの{先祖、子孫}から負例を選択しない –※タグごとに2値分類器を用意している •(2) Cost-sensitive learning –피푒푦, 푦푥= 푐=1 푘푒푦푐푝( 푦=푐|푥) •푒푦푐にはtree distance を利用 •(3) Hierarchical regularization –ペナルティ項を追加: 12 휂 푐=1 푘푤푐−푤parent푐22 性能はどれも同じくらいだったので今回は(1)を採用 19
  • 20. 4.6 Model calibration クラウドワーカの判定結果を使って各タグの分類器の閾値を 決定します 事前設定の lower bound 푃(푦푐 |풙) 0 1 Crowd workers (1) 確信度毎に箱詰め20
  • 21. 4.6 Model calibration クラウドワーカの判定結果を使って各タグの分類器の閾値を 決定します 事前設定の lower bound 푃(푦푐 |풙) 0 1 Crowd workers 1.00 0.86 0.72 0.69 0.625 ラベル付与 Precision (1) 確信度毎に箱詰め(2) 判定結果から閾値を決定21
  • 22. 4.6 Model calibration クラウドワーカの判定結果を使って各タグの分類器の閾値を 決定します 事前設定の lower bound 푃(푦푐 |풙) 0 1 Crowd workers 1.00 0.86 0.72 0.69 0.625 ラベル付与 Precisionの達成目標を 超える最も小さい閾値 を選択 Precision (1) 確信度毎に箱詰め(2) 判定結果から閾値を決定22
  • 23. テキスト分類を用いたタグ判定 •4.1 Chatter detection •4.2 Training data acquisition •4.3 Feature extraction •4.4 Model pretraining •4.5 Relational regularization •4.6 Model calibration •4.7 Quality evaluation •4.8 Diagnosis and corrective learning •4.9 Model fine-tuning 23
  • 24. 4.8 Diagnosis and corrective learning アノテータに判定を要求し、corrective learningに基づいて 重み判定します 24
  • 25. 補足: Corrective learning [Raman+ 12] 特徴空間の排他的な領域ごとにモデルを用意し、各モデルは 当該領域に含まれる訓練データのみを用いて生成 • 領域ごとにモデルを用意する分割統治モデル(学習アルゴリズム、領域 関数は与える) • 追加データは対象領域のモデルのみ更新する モデル分割の話 してなかったけど なぁ… 25
  • 26. テキスト分類を用いたタグ判定 •4.1 Chatter detection •4.2 Training data acquisition •4.3 Feature extraction •4.4 Model pretraining •4.5 Relational regularization •4.6 Model calibration •4.7 Quality evaluation •4.8 Diagnosis and corrective learning •4.9 Model fine-tuning 26
  • 27. 4.9 Model fine-tuning 全データを使って構築したモデル푤0を事前分布として きれいな訓練データでモデルを学習します • 今回は훿はCVで決定 27 • きれいな訓練データの作り方については詳細記述なし
  • 28. まとめ 300+種類のタグを90%+のPrecisionで推定可能なシステムを 構築しました •90%+ のprecisionを達成 –Precision 93% –Tweet Coverage 37% –Topic Coverage 81% •本論文で使用したテクニック –Co-training –PU-learning –Elastic Net regularizer –Extreme Fast Feature Extraction –Threshold calibration –Corrective learning 28