Soumettre la recherche
Mettre en ligne
KDD 2015読み会
•
1 j'aime
•
1,876 vues
正志 坪坂
Suivre
KDD 2015読み会 Diversifying Restricted Boltzmann Machine for Document Modeling
Lire moins
Lire la suite
Technologie
Signaler
Partager
Signaler
Partager
1 sur 11
Télécharger maintenant
Télécharger pour lire hors ligne
Recommandé
OnlineMatching勉強会第一回
OnlineMatching勉強会第一回
正志 坪坂
Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)
正志 坪坂
Tokyowebmining2012
Tokyowebmining2012
正志 坪坂
Recsys2014 recruit
Recsys2014 recruit
正志 坪坂
Deeplearning勉強会20160220
Deeplearning勉強会20160220
正志 坪坂
Recsys2015
Recsys2015
正志 坪坂
Introduction to contexual bandit
Introduction to contexual bandit
正志 坪坂
Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計
正志 坪坂
Recommandé
OnlineMatching勉強会第一回
OnlineMatching勉強会第一回
正志 坪坂
Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)
正志 坪坂
Tokyowebmining2012
Tokyowebmining2012
正志 坪坂
Recsys2014 recruit
Recsys2014 recruit
正志 坪坂
Deeplearning勉強会20160220
Deeplearning勉強会20160220
正志 坪坂
Recsys2015
Recsys2015
正志 坪坂
Introduction to contexual bandit
Introduction to contexual bandit
正志 坪坂
Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計
正志 坪坂
KDD2014_study
KDD2014_study
正志 坪坂
EMNLP2014_reading
EMNLP2014_reading
正志 坪坂
Contexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMining
正志 坪坂
NIPS 2012 読む会
NIPS 2012 読む会
正志 坪坂
確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング
正志 坪坂
WSDM 2016勉強会 Geographic Segmentation via latent factor model
WSDM 2016勉強会 Geographic Segmentation via latent factor model
正志 坪坂
Deeplearning輪読会
Deeplearning輪読会
正志 坪坂
Recsys2016勉強会
Recsys2016勉強会
正志 坪坂
Tokyowebmining ctr-predict
Tokyowebmining ctr-predict
正志 坪坂
Introduction to Recommender Systems 2012.1.30 Zansa #3
Introduction to Recommender Systems 2012.1.30 Zansa #3
Atsushi KOMIYA
static index pruningについて
static index pruningについて
正志 坪坂
Exreme coffee brewing 2013 summer
Exreme coffee brewing 2013 summer
Hiroko Ohki Takagi
1994年頃の電子書籍(LT『本を読む人々 Vol.3』)
1994年頃の電子書籍(LT『本を読む人々 Vol.3』)
Hiroko Ohki Takagi
Creator's night 05 31 2013
Creator's night 05 31 2013
Len Matsuyama
eXtreme Coffee Brewing 2014 summer
eXtreme Coffee Brewing 2014 summer
Hiroko Ohki Takagi
Hadoop World 2011: Large Scale Log Data Analysis for Marketing in NTT Communi...
Hadoop World 2011: Large Scale Log Data Analysis for Marketing in NTT Communi...
Kenji Hara
PRML上巻勉強会 at 東京大学 資料 第5章5.1 〜 5.3.1
PRML上巻勉強会 at 東京大学 資料 第5章5.1 〜 5.3.1
Len Matsuyama
DSIRNLP #3 LZ4 の速さの秘密に迫ってみる
DSIRNLP #3 LZ4 の速さの秘密に迫ってみる
Atsushi KOMIYA
みんなビックデータビックデータって言ってるけど 名寄せとかどうしてんの?
みんなビックデータビックデータって言ってるけど 名寄せとかどうしてんの?
Kazuaki SAKAI
計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining
計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining
Takashi J OZAKI
Recsys2018 unbiased
Recsys2018 unbiased
正志 坪坂
WSDM2018Study
WSDM2018Study
正志 坪坂
Contenu connexe
En vedette
KDD2014_study
KDD2014_study
正志 坪坂
EMNLP2014_reading
EMNLP2014_reading
正志 坪坂
Contexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMining
正志 坪坂
NIPS 2012 読む会
NIPS 2012 読む会
正志 坪坂
確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング
正志 坪坂
WSDM 2016勉強会 Geographic Segmentation via latent factor model
WSDM 2016勉強会 Geographic Segmentation via latent factor model
正志 坪坂
Deeplearning輪読会
Deeplearning輪読会
正志 坪坂
Recsys2016勉強会
Recsys2016勉強会
正志 坪坂
Tokyowebmining ctr-predict
Tokyowebmining ctr-predict
正志 坪坂
Introduction to Recommender Systems 2012.1.30 Zansa #3
Introduction to Recommender Systems 2012.1.30 Zansa #3
Atsushi KOMIYA
static index pruningについて
static index pruningについて
正志 坪坂
Exreme coffee brewing 2013 summer
Exreme coffee brewing 2013 summer
Hiroko Ohki Takagi
1994年頃の電子書籍(LT『本を読む人々 Vol.3』)
1994年頃の電子書籍(LT『本を読む人々 Vol.3』)
Hiroko Ohki Takagi
Creator's night 05 31 2013
Creator's night 05 31 2013
Len Matsuyama
eXtreme Coffee Brewing 2014 summer
eXtreme Coffee Brewing 2014 summer
Hiroko Ohki Takagi
Hadoop World 2011: Large Scale Log Data Analysis for Marketing in NTT Communi...
Hadoop World 2011: Large Scale Log Data Analysis for Marketing in NTT Communi...
Kenji Hara
PRML上巻勉強会 at 東京大学 資料 第5章5.1 〜 5.3.1
PRML上巻勉強会 at 東京大学 資料 第5章5.1 〜 5.3.1
Len Matsuyama
DSIRNLP #3 LZ4 の速さの秘密に迫ってみる
DSIRNLP #3 LZ4 の速さの秘密に迫ってみる
Atsushi KOMIYA
みんなビックデータビックデータって言ってるけど 名寄せとかどうしてんの?
みんなビックデータビックデータって言ってるけど 名寄せとかどうしてんの?
Kazuaki SAKAI
計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining
計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining
Takashi J OZAKI
En vedette
(20)
KDD2014_study
KDD2014_study
EMNLP2014_reading
EMNLP2014_reading
Contexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMining
NIPS 2012 読む会
NIPS 2012 読む会
確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング
WSDM 2016勉強会 Geographic Segmentation via latent factor model
WSDM 2016勉強会 Geographic Segmentation via latent factor model
Deeplearning輪読会
Deeplearning輪読会
Recsys2016勉強会
Recsys2016勉強会
Tokyowebmining ctr-predict
Tokyowebmining ctr-predict
Introduction to Recommender Systems 2012.1.30 Zansa #3
Introduction to Recommender Systems 2012.1.30 Zansa #3
static index pruningについて
static index pruningについて
Exreme coffee brewing 2013 summer
Exreme coffee brewing 2013 summer
1994年頃の電子書籍(LT『本を読む人々 Vol.3』)
1994年頃の電子書籍(LT『本を読む人々 Vol.3』)
Creator's night 05 31 2013
Creator's night 05 31 2013
eXtreme Coffee Brewing 2014 summer
eXtreme Coffee Brewing 2014 summer
Hadoop World 2011: Large Scale Log Data Analysis for Marketing in NTT Communi...
Hadoop World 2011: Large Scale Log Data Analysis for Marketing in NTT Communi...
PRML上巻勉強会 at 東京大学 資料 第5章5.1 〜 5.3.1
PRML上巻勉強会 at 東京大学 資料 第5章5.1 〜 5.3.1
DSIRNLP #3 LZ4 の速さの秘密に迫ってみる
DSIRNLP #3 LZ4 の速さの秘密に迫ってみる
みんなビックデータビックデータって言ってるけど 名寄せとかどうしてんの?
みんなビックデータビックデータって言ってるけど 名寄せとかどうしてんの?
計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining
計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining
Plus de 正志 坪坂
Recsys2018 unbiased
Recsys2018 unbiased
正志 坪坂
WSDM2018Study
WSDM2018Study
正志 坪坂
KDD 2016勉強会 Deep crossing
KDD 2016勉強会 Deep crossing
正志 坪坂
WSDM 2012 勉強会資料
WSDM 2012 勉強会資料
正志 坪坂
Complex network-reading 7
Complex network-reading 7
正志 坪坂
転置インデックスとTop k-query
転置インデックスとTop k-query
正志 坪坂
EMNLP 2011 reading
EMNLP 2011 reading
正志 坪坂
A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会
正志 坪坂
Cvpr2011 reading-tsubosaka
Cvpr2011 reading-tsubosaka
正志 坪坂
Icml2011 reading-sage
Icml2011 reading-sage
正志 坪坂
TokyowebminingInferNet
TokyowebminingInferNet
正志 坪坂
Infer.NETを使ってLDAを実装してみた
Infer.NETを使ってLDAを実装してみた
正志 坪坂
Plus de 正志 坪坂
(12)
Recsys2018 unbiased
Recsys2018 unbiased
WSDM2018Study
WSDM2018Study
KDD 2016勉強会 Deep crossing
KDD 2016勉強会 Deep crossing
WSDM 2012 勉強会資料
WSDM 2012 勉強会資料
Complex network-reading 7
Complex network-reading 7
転置インデックスとTop k-query
転置インデックスとTop k-query
EMNLP 2011 reading
EMNLP 2011 reading
A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会
Cvpr2011 reading-tsubosaka
Cvpr2011 reading-tsubosaka
Icml2011 reading-sage
Icml2011 reading-sage
TokyowebminingInferNet
TokyowebminingInferNet
Infer.NETを使ってLDAを実装してみた
Infer.NETを使ってLDAを実装してみた
Dernier
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
Dernier
(8)
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
KDD 2015読み会
1.
KDD 2015読み会 Diversifying
restricted boltzman machine for document modeling 坪坂正志 2015/8/22
2.
紹介論文 • Diversifying Restricted
Boltzmann Machine for document modeling • 概要 – 文章の潜在変数モデルにおいてよく起きる事象 であるメジャーなトピックはよくモデル化されるが マイナーなトピックはモデル化されないという問題 を潜在変数モデルの一つであるRBMにおいてト ピックをDiversifyするような項を導入して解決した
3.
RBMについて • 観測された単語に相当するvと隠れユニットh によって決まるエネルギー関数から決まる確 率を最適化する
4.
RBMについて • 観測された文章から隠れユニットが1になる確 率は(3)式で表せる •
ベクトルhを文章Vの潜在表現とみなすことが できる
5.
RBMの問題点 • RBMに限らずトピックモデル一般においてLong-‐ tailなトピックの検出が難しいという点がある –
例えばニュース記事であれば大多数をしめる政治な どのトピックが複数出現し、ガーデニングのような小 さなトピックは検出されない
6.
Diversify RBM • 制約項としてはトピックごとの単語ベクトル間 の角度が大きくなるように設定する
RBMに対してトピックがばらつくよ うな制約項を加える 分散を抑えることにより、各ベクト ルがまんべんなく配置される
7.
最適化 • (P1)を変形した問題(P2)を考え、A~とgを相互 に最適化する
8.
文章検索による評価 • ある文章から近い文章を探してきたときにお互いが同じカ テゴリのものかどうかで評価を行う –
RBMにおいては文章に対応する潜在表現の近いものが対応す る – DRBMが既存手法よりも高い精度となっている • DocNADE, PV(Paragraph vector)はNeural networkベースの手法 • PYTM, LIDAはべき則に基づき新しいトピックができやすくなっている モデル • DPP-‐LDAはLDAに対してDiversityが起きるようにしたモデル
9.
Long-‐tailにおける改善 • Reutersデータセットにおいてカテゴリごとに改 善率をみたところ、特にカテゴリに含まれる文 章が少ないLong-‐tailなカテゴリにおいて大幅 な精度の改善が達成できている
10.
学習されたトピックの例 • RBMにおいてはTopic 2とTopic
3およびTopic 4とTopic 5はほぼ同じものが出現している • 一方DRBMにおいてはTopic 5のJapanese eductaionの ようなマイナーなトピックが得られている
11.
まとめ • RBMに対してトピック間で単語分布がばらつく ような制約項を導入したDRBMを提案した
Télécharger maintenant