Soumettre la recherche
Mettre en ligne
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
•
22 j'aime
•
7,181 vues
S
sleepy_yoshi
Suivre
2014-09-23 KDD2014勉強会の発表資料 https://atnd.org/events/55940
Lire moins
Lire la suite
Technologie
Affichage du diaporama
Signaler
Partager
Affichage du diaporama
Signaler
Partager
1 sur 29
Télécharger maintenant
Télécharger pour lire hors ligne
Recommandé
SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)
sleepy_yoshi
MLP SVM Chapter 7 分割法
MLP SVM Chapter 7 分割法
Taikai Takeda
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tatsuya Tojima
Active Learning 入門
Active Learning 入門
Shuyo Nakatani
Active Learning from Imperfect Labelers @ NIPS読み会・関西
Active Learning from Imperfect Labelers @ NIPS読み会・関西
Taku Tsuzuki
クラスタリングとレコメンデーション資料
クラスタリングとレコメンデーション資料
洋資 堅田
はてなインターン「機械学習」
はてなインターン「機械学習」
Hatena::Engineering
画像認識で物を見分ける
画像認識で物を見分ける
Kazuaki Tanida
Recommandé
SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)
sleepy_yoshi
MLP SVM Chapter 7 分割法
MLP SVM Chapter 7 分割法
Taikai Takeda
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tatsuya Tojima
Active Learning 入門
Active Learning 入門
Shuyo Nakatani
Active Learning from Imperfect Labelers @ NIPS読み会・関西
Active Learning from Imperfect Labelers @ NIPS読み会・関西
Taku Tsuzuki
クラスタリングとレコメンデーション資料
クラスタリングとレコメンデーション資料
洋資 堅田
はてなインターン「機械学習」
はてなインターン「機械学習」
Hatena::Engineering
画像認識で物を見分ける
画像認識で物を見分ける
Kazuaki Tanida
それっぽく感じる機械学習
それっぽく感じる機械学習
Yuki Igarashi
データマイニング勉強会3
データマイニング勉強会3
Yohei Sato
Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識
Ken Morishita
パターン認識 第10章 決定木
パターン認識 第10章 決定木
Miyoshi Yuya
機械学習を使った時系列売上予測
機械学習を使った時系列売上予測
DataRobotJP
アンサンブル学習
アンサンブル学習
Hidekazu Tanaka
[第2版] Python機械学習プログラミング 第4章
[第2版] Python機械学習プログラミング 第4章
Haruki Eguchi
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Satoshi Kato
機械学習 / Deep Learning 大全 (2) Deep Learning 基礎編
機械学習 / Deep Learning 大全 (2) Deep Learning 基礎編
Daiyu Hatakeyama
Pythonによる機械学習入門 ~Deep Learningに挑戦~
Pythonによる機械学習入門 ~Deep Learningに挑戦~
Yasutomo Kawanishi
[第2版] Python機械学習プログラミング 第5章
[第2版] Python機械学習プログラミング 第5章
Haruki Eguchi
Sakusaku svm
Sakusaku svm
antibayesian 俺がS式だ
ランダムフォレスト
ランダムフォレスト
Kinki University
最近のRのランダムフォレストパッケージ -ranger/Rborist-
最近のRのランダムフォレストパッケージ -ranger/Rborist-
Shintaro Fukushima
ルールベースから機械学習への道 公開用
ルールベースから機械学習への道 公開用
nishio
第1回 Jubatusハンズオン
第1回 Jubatusハンズオン
Yuya Unno
2013.07.15 はじパタlt scikit-learnで始める機械学習
2013.07.15 はじパタlt scikit-learnで始める機械学習
Motoya Wakiyama
Random Forests
Random Forests
Hironobu Fujiyoshi
mxnetで頑張る深層学習
mxnetで頑張る深層学習
Takashi Kitano
Jubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組み
JubatusOfficial
機械学習 / Deep Learning 大全 (5) Tool編
機械学習 / Deep Learning 大全 (5) Tool編
Daiyu Hatakeyama
Talendデータ・ファブリック・ソリューションの概要
Talendデータ・ファブリック・ソリューションの概要
QlikPresalesJapan
Contenu connexe
Tendances
それっぽく感じる機械学習
それっぽく感じる機械学習
Yuki Igarashi
データマイニング勉強会3
データマイニング勉強会3
Yohei Sato
Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識
Ken Morishita
パターン認識 第10章 決定木
パターン認識 第10章 決定木
Miyoshi Yuya
機械学習を使った時系列売上予測
機械学習を使った時系列売上予測
DataRobotJP
アンサンブル学習
アンサンブル学習
Hidekazu Tanaka
[第2版] Python機械学習プログラミング 第4章
[第2版] Python機械学習プログラミング 第4章
Haruki Eguchi
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Satoshi Kato
機械学習 / Deep Learning 大全 (2) Deep Learning 基礎編
機械学習 / Deep Learning 大全 (2) Deep Learning 基礎編
Daiyu Hatakeyama
Pythonによる機械学習入門 ~Deep Learningに挑戦~
Pythonによる機械学習入門 ~Deep Learningに挑戦~
Yasutomo Kawanishi
[第2版] Python機械学習プログラミング 第5章
[第2版] Python機械学習プログラミング 第5章
Haruki Eguchi
Sakusaku svm
Sakusaku svm
antibayesian 俺がS式だ
ランダムフォレスト
ランダムフォレスト
Kinki University
最近のRのランダムフォレストパッケージ -ranger/Rborist-
最近のRのランダムフォレストパッケージ -ranger/Rborist-
Shintaro Fukushima
ルールベースから機械学習への道 公開用
ルールベースから機械学習への道 公開用
nishio
第1回 Jubatusハンズオン
第1回 Jubatusハンズオン
Yuya Unno
2013.07.15 はじパタlt scikit-learnで始める機械学習
2013.07.15 はじパタlt scikit-learnで始める機械学習
Motoya Wakiyama
Random Forests
Random Forests
Hironobu Fujiyoshi
mxnetで頑張る深層学習
mxnetで頑張る深層学習
Takashi Kitano
Jubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組み
JubatusOfficial
Tendances
(20)
それっぽく感じる機械学習
それっぽく感じる機械学習
データマイニング勉強会3
データマイニング勉強会3
Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識
パターン認識 第10章 決定木
パターン認識 第10章 決定木
機械学習を使った時系列売上予測
機械学習を使った時系列売上予測
アンサンブル学習
アンサンブル学習
[第2版] Python機械学習プログラミング 第4章
[第2版] Python機械学習プログラミング 第4章
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
機械学習 / Deep Learning 大全 (2) Deep Learning 基礎編
機械学習 / Deep Learning 大全 (2) Deep Learning 基礎編
Pythonによる機械学習入門 ~Deep Learningに挑戦~
Pythonによる機械学習入門 ~Deep Learningに挑戦~
[第2版] Python機械学習プログラミング 第5章
[第2版] Python機械学習プログラミング 第5章
Sakusaku svm
Sakusaku svm
ランダムフォレスト
ランダムフォレスト
最近のRのランダムフォレストパッケージ -ranger/Rborist-
最近のRのランダムフォレストパッケージ -ranger/Rborist-
ルールベースから機械学習への道 公開用
ルールベースから機械学習への道 公開用
第1回 Jubatusハンズオン
第1回 Jubatusハンズオン
2013.07.15 はじパタlt scikit-learnで始める機械学習
2013.07.15 はじパタlt scikit-learnで始める機械学習
Random Forests
Random Forests
mxnetで頑張る深層学習
mxnetで頑張る深層学習
Jubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組み
Similaire à KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
機械学習 / Deep Learning 大全 (5) Tool編
機械学習 / Deep Learning 大全 (5) Tool編
Daiyu Hatakeyama
Talendデータ・ファブリック・ソリューションの概要
Talendデータ・ファブリック・ソリューションの概要
QlikPresalesJapan
Jubatusでマルウェア分類
Jubatusでマルウェア分類
Shuzo Kashihara
Azure Machine Learning Services 概要 - 2019年2月版
Azure Machine Learning Services 概要 - 2019年2月版
Daiyu Hatakeyama
20180729 Preferred Networksの機械学習クラスタを支える技術
20180729 Preferred Networksの機械学習クラスタを支える技術
Preferred Networks
ReviewNet_161122
ReviewNet_161122
shima o
A closer look at few shot classification
A closer look at few shot classification
Kazuki Fujikawa
[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification
Deep Learning JP
リバースモデリングを用いたテスト観点標準化の取り組み
リバースモデリングを用いたテスト観点標準化の取り組み
NaokiKashiwagura
Azure Antenna AI 概要
Azure Antenna AI 概要
Miho Yamamoto
rePiT2015_アジャイルソフトウェア開発教育のためのチケットシステムを用いたプロジェクト定量評価手法
rePiT2015_アジャイルソフトウェア開発教育のためのチケットシステムを用いたプロジェクト定量評価手法
Hiroshi Igaki
【Microsoft×Aidemy】初めて作る!機械学習モデルハンズオンセミナー: Designer の知っておきたい便利機能
【Microsoft×Aidemy】初めて作る!機械学習モデルハンズオンセミナー: Designer の知っておきたい便利機能
Daiyu Hatakeyama
Hadoop基盤上のETL構築実践例 ~多様なデータをどう扱う?~
Hadoop基盤上のETL構築実践例 ~多様なデータをどう扱う?~
Sotaro Kimura
JAWS DAYS 2022
JAWS DAYS 2022
陽平 山口
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)
Hideki Okada
メトリクスによるソフトウェア品質評価・改善および製品品質実態
メトリクスによるソフトウェア品質評価・改善および製品品質実態
Hironori Washizaki
[DL Hacks 実装]StyleNet: Generating Attractive Visual Captions with Styles
[DL Hacks 実装]StyleNet: Generating Attractive Visual Captions with Styles
Deep Learning JP
【de:code 2020】 アマダの Azure への取り組みと DevOPS・MLOPS 環境の構築と運用
【de:code 2020】 アマダの Azure への取り組みと DevOPS・MLOPS 環境の構築と運用
日本マイクロソフト株式会社
使い捨て python コードの書き方
使い捨て python コードの書き方
Sho Shimauchi
機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)
機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)
Yaboo Oyabu
Similaire à KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
(20)
機械学習 / Deep Learning 大全 (5) Tool編
機械学習 / Deep Learning 大全 (5) Tool編
Talendデータ・ファブリック・ソリューションの概要
Talendデータ・ファブリック・ソリューションの概要
Jubatusでマルウェア分類
Jubatusでマルウェア分類
Azure Machine Learning Services 概要 - 2019年2月版
Azure Machine Learning Services 概要 - 2019年2月版
20180729 Preferred Networksの機械学習クラスタを支える技術
20180729 Preferred Networksの機械学習クラスタを支える技術
ReviewNet_161122
ReviewNet_161122
A closer look at few shot classification
A closer look at few shot classification
[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification
リバースモデリングを用いたテスト観点標準化の取り組み
リバースモデリングを用いたテスト観点標準化の取り組み
Azure Antenna AI 概要
Azure Antenna AI 概要
rePiT2015_アジャイルソフトウェア開発教育のためのチケットシステムを用いたプロジェクト定量評価手法
rePiT2015_アジャイルソフトウェア開発教育のためのチケットシステムを用いたプロジェクト定量評価手法
【Microsoft×Aidemy】初めて作る!機械学習モデルハンズオンセミナー: Designer の知っておきたい便利機能
【Microsoft×Aidemy】初めて作る!機械学習モデルハンズオンセミナー: Designer の知っておきたい便利機能
Hadoop基盤上のETL構築実践例 ~多様なデータをどう扱う?~
Hadoop基盤上のETL構築実践例 ~多様なデータをどう扱う?~
JAWS DAYS 2022
JAWS DAYS 2022
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)
メトリクスによるソフトウェア品質評価・改善および製品品質実態
メトリクスによるソフトウェア品質評価・改善および製品品質実態
[DL Hacks 実装]StyleNet: Generating Attractive Visual Captions with Styles
[DL Hacks 実装]StyleNet: Generating Attractive Visual Captions with Styles
【de:code 2020】 アマダの Azure への取り組みと DevOPS・MLOPS 環境の構築と運用
【de:code 2020】 アマダの Azure への取り組みと DevOPS・MLOPS 環境の構築と運用
使い捨て python コードの書き方
使い捨て python コードの書き方
機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)
機械学習プロジェクトにおける Cloud AI Platform の使い方 (2018-11-19)
Plus de sleepy_yoshi
KDD2013読み会: Direct Optimization of Ranking Measures
KDD2013読み会: Direct Optimization of Ranking Measures
sleepy_yoshi
PRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじ
sleepy_yoshi
PRML復々習レーン#14 前回までのあらすじ
PRML復々習レーン#14 前回までのあらすじ
sleepy_yoshi
PRML復々習レーン#13 前回までのあらすじ
PRML復々習レーン#13 前回までのあらすじ
sleepy_yoshi
PRML復々習レーン#12 前回までのあらすじ
PRML復々習レーン#12 前回までのあらすじ
sleepy_yoshi
ICML2013読み会: Distributed training of Large-scale Logistic models
ICML2013読み会: Distributed training of Large-scale Logistic models
sleepy_yoshi
SEXI2013読み会: Adult Query Classification for Web Search and Recommendation
SEXI2013読み会: Adult Query Classification for Web Search and Recommendation
sleepy_yoshi
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-
sleepy_yoshi
PRML復々習レーン#11 前回までのあらすじ
PRML復々習レーン#11 前回までのあらすじ
sleepy_yoshi
SMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装する
sleepy_yoshi
PRML復々習レーン#10 前回までのあらすじ
PRML復々習レーン#10 前回までのあらすじ
sleepy_yoshi
PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5
sleepy_yoshi
PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1
sleepy_yoshi
PRML復々習レーン#9 前回までのあらすじ
PRML復々習レーン#9 前回までのあらすじ
sleepy_yoshi
PRML復々習レーン#7 前回までのあらすじ
PRML復々習レーン#7 前回までのあらすじ
sleepy_yoshi
SIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to Rank
sleepy_yoshi
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
sleepy_yoshi
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
sleepy_yoshi
PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5
sleepy_yoshi
PRML復々習レーン#3 前回までのあらすじ
PRML復々習レーン#3 前回までのあらすじ
sleepy_yoshi
Plus de sleepy_yoshi
(20)
KDD2013読み会: Direct Optimization of Ranking Measures
KDD2013読み会: Direct Optimization of Ranking Measures
PRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#14 前回までのあらすじ
PRML復々習レーン#14 前回までのあらすじ
PRML復々習レーン#13 前回までのあらすじ
PRML復々習レーン#13 前回までのあらすじ
PRML復々習レーン#12 前回までのあらすじ
PRML復々習レーン#12 前回までのあらすじ
ICML2013読み会: Distributed training of Large-scale Logistic models
ICML2013読み会: Distributed training of Large-scale Logistic models
SEXI2013読み会: Adult Query Classification for Web Search and Recommendation
SEXI2013読み会: Adult Query Classification for Web Search and Recommendation
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-
PRML復々習レーン#11 前回までのあらすじ
PRML復々習レーン#11 前回までのあらすじ
SMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装する
PRML復々習レーン#10 前回までのあらすじ
PRML復々習レーン#10 前回までのあらすじ
PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 前回までのあらすじ
PRML復々習レーン#9 前回までのあらすじ
PRML復々習レーン#7 前回までのあらすじ
PRML復々習レーン#7 前回までのあらすじ
SIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to Rank
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 前回までのあらすじ
PRML復々習レーン#3 前回までのあらすじ
Dernier
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
Dernier
(9)
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
1.
KDD2014勉強会: Large-Scale High-Precision
Topic Modeling on Twitter 2014-09-23 Yoshihiko Suhara @sleepy_yoshi ※発表後、訓練データの獲得方法について修正しました
2.
Large-Scale High-Precision Topic
Modeling on Twitterby ShuangYang, Alek Kolcz, Andy Schlaikjer, Pankaj Gupta (Twitter, Inc.) •大量に蓄積されるTweetに対して、あらかじめ用意した300+種類の“ト ピック” 付与問題をマルチラベル問題として解く –いわゆる“Topic Model” な話ではない –本発表ではトピックの代わりにタグと表現 •様々な工夫 –訓練データの自動獲得 –高速な特徴抽出 –閾値のチューニング –タグ階層構造の利用 –など •Precision 93% (37% coverage) のタグ割り当て精度を達成 Twitterで実運用可能なレベルの高Precisionのタグ割り当て機能を実現 1枚概要 Industry paper 2 ※Recall 重視の方法については別のpaperがunder review中
3.
システム全体図(1/6) 3
4.
システム全体図(2/6) 訓練データは半自動獲得します 4
5.
システム全体図(3/6) 各タグごとに2値分類器(Logistic Regression)
を用意します 5
6.
システム全体図(4/6) 閾値のチューニングを行います 6
7.
システム全体図(5/6) ユーザとのインタラクティブなインタフェースを用いて誤り事例に 対してモデルを修正する仕組みを導入しています
7
8.
システム全体図(6/6) 300+種類のラベルを付与するのは大変なので、タグ毎に {-1,+1}
の2値ラベル付与をクラウドワーカに依頼 8 [Industryぽいところ] パラメータチューニングと 評価に重点的に人手を利用
9.
タクソノミの構築 ODPやFreebaseをベースに階層構造を持ったトピック分類体系 を人手で修正・構築します
•最大6階層、300+のトピック 階層構造の情報は分類器構築に利用(後述) 9
10.
テキスト分類を用いたタグ判定 様々な工夫をこらしています •4.1
Chatter detection •4.2 Training data acquisition •4.3 Feature extraction •4.4 Model pretraining •4.5 Relational regularization •4.6 Model calibration •4.7 Quality evaluation •4.8 Diagnosis and corrective learning •4.9 Model fine-tuning 10
11.
テキスト分類を用いたタグ判定 •4.1 Chatter
detection –単なる「おしゃべり」Tweetの除去([3]を利用) •4.2 Training data acquisition •4.3 Feature extraction •4.4 Model pretraining •4.5 Relational regularization •4.6 Model calibration •4.7 Quality evaluation •4.8 Diagnosis and corrective learning •4.9 Model fine-tuning 11
12.
テキスト分類を用いたタグ判定 •4.1 Chatter
detection •4.2 Training data acquisition •4.3 Feature extraction •4.4 Model pretraining •4.5 Relational regularization •4.6 Model calibration •4.7 Quality evaluation •4.8 Diagnosis and corrective learning •4.9 Model fine-tuning 12
13.
4.2 Training data
acquisitionCo-training + PU-learning ベースの枠組みで正例、負例を判定し、訓練デー タを半自動獲得します •Co-training –特徴空間を2つに分けてそれぞれの特徴空間で分類器を構築し、一方の予 測結果を反映してもう一方の分類器のラベルありデータとして用いる半教師 あり学習 –(1) URLベースの分類器+ (2) Tweet本文の分類器 •PU-learning –現在のモデルで確信度が閾値以下の事例を負例とみなす半教師あり学習 13 URLを含む Tweetのみを対象 ※一部ラベルあり ※タグごとに2値分類器を用意する方法ではco-training で正例を増やせれば、他タグの負例とみなせる 安心して負例とみなせる事例を準備するためにPU-learningを使っているものと思われる
14.
4.3 Feature extraction
単語unigramよりも高速な特徴抽出方法を利用します •Binary hashed byte 4gram (Byte4gram) –訓練データ獲得ではTweet 分類に利用 –4byteサイズのsliding windowをd次元にハッシュ •d=1,000,081(?!) •Hashed unigram frequency (Unigram-logTF-norm) –訓練データ獲得ではURL 分類に利用 –1 characterをハッシュ値に変更して、頻度の対数を利用 14
15.
[補足] Unigram-logTF-norm の計算方法
SpeedyFx [13] を利用 • 文字列をそのまま使うと文字列一致の判定コストが高い 15
16.
4.4 Model pretraining
タグ数だけLRを用意して閾値によってタグ付与を判定する方法を採用 •正則化項にはElastic Net regularizer(L1+L2) を利用 正則化項 尤度 ※300クラスのMLRって… 正規化項(分母計算) で死ぬ ICML2013読み会の論文 16
17.
4.4 Model pretraining
タグ数だけLRを用意して閾値によってタグ付与を判定する方法を採用 •正則化項にはElastic Net regularizer(L1+L2) を利用 正則化項 尤度 ※300クラスのMLRって… 正規化項(分母計算) で死ぬ ICML2013読み会の論文 (Twitter社内部のライブラリをひととおり自慢し、速度が大切であることを述べたあとに) 最適化にはバッチ学習を採用と記述 17 ?!
18.
テキスト分類を用いたタグ判定 •4.1 Chatter
detection •4.2 Training data acquisition •4.3 Feature extraction •4.4 Model pretraining •4.5 Relational regularization •4.6 Model calibration •4.7 Quality evaluation •4.8 Diagnosis and corrective learning •4.9 Model fine-tuning 18
19.
4.5 Relational regularization
トピック分類体系の階層構造をパラメータ学習に利用 •(1) Label expansion –対象タグの{先祖、子孫}から負例を選択しない –※タグごとに2値分類器を用意している •(2) Cost-sensitive learning –피푒푦, 푦푥= 푐=1 푘푒푦푐푝( 푦=푐|푥) •푒푦푐にはtree distance を利用 •(3) Hierarchical regularization –ペナルティ項を追加: 12 휂 푐=1 푘푤푐−푤parent푐22 性能はどれも同じくらいだったので今回は(1)を採用 19
20.
4.6 Model calibration
クラウドワーカの判定結果を使って各タグの分類器の閾値を 決定します 事前設定の lower bound 푃(푦푐 |풙) 0 1 Crowd workers (1) 確信度毎に箱詰め20
21.
4.6 Model calibration
クラウドワーカの判定結果を使って各タグの分類器の閾値を 決定します 事前設定の lower bound 푃(푦푐 |풙) 0 1 Crowd workers 1.00 0.86 0.72 0.69 0.625 ラベル付与 Precision (1) 確信度毎に箱詰め(2) 判定結果から閾値を決定21
22.
4.6 Model calibration
クラウドワーカの判定結果を使って各タグの分類器の閾値を 決定します 事前設定の lower bound 푃(푦푐 |풙) 0 1 Crowd workers 1.00 0.86 0.72 0.69 0.625 ラベル付与 Precisionの達成目標を 超える最も小さい閾値 を選択 Precision (1) 確信度毎に箱詰め(2) 判定結果から閾値を決定22
23.
テキスト分類を用いたタグ判定 •4.1 Chatter
detection •4.2 Training data acquisition •4.3 Feature extraction •4.4 Model pretraining •4.5 Relational regularization •4.6 Model calibration •4.7 Quality evaluation •4.8 Diagnosis and corrective learning •4.9 Model fine-tuning 23
24.
4.8 Diagnosis and
corrective learning アノテータに判定を要求し、corrective learningに基づいて 重み判定します 24
25.
補足: Corrective learning
[Raman+ 12] 特徴空間の排他的な領域ごとにモデルを用意し、各モデルは 当該領域に含まれる訓練データのみを用いて生成 • 領域ごとにモデルを用意する分割統治モデル(学習アルゴリズム、領域 関数は与える) • 追加データは対象領域のモデルのみ更新する モデル分割の話 してなかったけど なぁ… 25
26.
テキスト分類を用いたタグ判定 •4.1 Chatter
detection •4.2 Training data acquisition •4.3 Feature extraction •4.4 Model pretraining •4.5 Relational regularization •4.6 Model calibration •4.7 Quality evaluation •4.8 Diagnosis and corrective learning •4.9 Model fine-tuning 26
27.
4.9 Model fine-tuning
全データを使って構築したモデル푤0を事前分布として きれいな訓練データでモデルを学習します • 今回は훿はCVで決定 27 • きれいな訓練データの作り方については詳細記述なし
28.
まとめ 300+種類のタグを90%+のPrecisionで推定可能なシステムを 構築しました
•90%+ のprecisionを達成 –Precision 93% –Tweet Coverage 37% –Topic Coverage 81% •本論文で使用したテクニック –Co-training –PU-learning –Elastic Net regularizer –Extreme Fast Feature Extraction –Threshold calibration –Corrective learning 28
29.
おしまい 29
Télécharger maintenant