Submit Search
Upload
ACL2014読み会 isobe
•
5 likes
•
5,779 views
Masayuki Isobe
Follow
ACL2014読み会@PFI 2014.7.12
Read less
Read more
Software
Report
Share
Report
Share
1 of 17
Download now
Download to read offline
Recommended
Learning to automatically solve algebra word problems
Learning to automatically solve algebra word problems
Naoaki Okazaki
CDS/CDOs and the Gaussian Copula Formula
CDS/CDOs and the Gaussian Copula Formula
kkoenen
iOS Contact List Application Tutorial
iOS Contact List Application Tutorial
Ishara Amarasekera
Acl読み会2014
Acl読み会2014
tempra28
ACL2014読み会:Fast and Robust Neural Network Joint Models for Statistical Machin...
ACL2014読み会:Fast and Robust Neural Network Joint Models for Statistical Machin...
Hiroyuki TOKUNAGA
A Common Database Approach for OLTP and OLAP Using an In-Memory Column Database
A Common Database Approach for OLTP and OLAP Using an In-Memory Column Database
Ishara Amarasekera
ACL読み会2014@PFI "Less Grammar, More Features"
ACL読み会2014@PFI "Less Grammar, More Features"
nozyh
ACL2014 Reading: [Zhang+] "Kneser-Ney Smoothing on Expected Count" and [Pickh...
ACL2014 Reading: [Zhang+] "Kneser-Ney Smoothing on Expected Count" and [Pickh...
Shuyo Nakatani
Recommended
Learning to automatically solve algebra word problems
Learning to automatically solve algebra word problems
Naoaki Okazaki
CDS/CDOs and the Gaussian Copula Formula
CDS/CDOs and the Gaussian Copula Formula
kkoenen
iOS Contact List Application Tutorial
iOS Contact List Application Tutorial
Ishara Amarasekera
Acl読み会2014
Acl読み会2014
tempra28
ACL2014読み会:Fast and Robust Neural Network Joint Models for Statistical Machin...
ACL2014読み会:Fast and Robust Neural Network Joint Models for Statistical Machin...
Hiroyuki TOKUNAGA
A Common Database Approach for OLTP and OLAP Using an In-Memory Column Database
A Common Database Approach for OLTP and OLAP Using an In-Memory Column Database
Ishara Amarasekera
ACL読み会2014@PFI "Less Grammar, More Features"
ACL読み会2014@PFI "Less Grammar, More Features"
nozyh
ACL2014 Reading: [Zhang+] "Kneser-Ney Smoothing on Expected Count" and [Pickh...
ACL2014 Reading: [Zhang+] "Kneser-Ney Smoothing on Expected Count" and [Pickh...
Shuyo Nakatani
ACL読み会2014@PFI "Two Knives Cut Better Than One: Chinese Word Segmentation w...
ACL読み会2014@PFI "Two Knives Cut Better Than One: Chinese Word Segmentation w...
Preferred Networks
ACL読み会@PFI “How to make words with vectors: Phrase generation in distributio...
ACL読み会@PFI “How to make words with vectors: Phrase generation in distributio...
Yuya Unno
DeconvNet, DecoupledNet, TransferNet in Image Segmentation
DeconvNet, DecoupledNet, TransferNet in Image Segmentation
NamHyuk Ahn
Tutorial-DeepLearning-PCSJ-IMPS2016
Tutorial-DeepLearning-PCSJ-IMPS2016
Takayoshi Yamashita
Semantic segmentation
Semantic segmentation
Takuya Minagawa
20150930
20150930
nlab_utokyo
論文紹介: Fast R-CNN&Faster R-CNN
論文紹介: Fast R-CNN&Faster R-CNN
Takashi Abe
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Daiki Shimada
CVPR 2016 まとめ v1
CVPR 2016 まとめ v1
cvpaper. challenge
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)
Takanori Ogata
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
nlab_utokyo
ECCV 2016 まとめ
ECCV 2016 まとめ
cvpaper. challenge
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)
cvpaper. challenge
オープンソースを用いたドローンの自律制御ソフトウェア技術
オープンソースを用いたドローンの自律制御ソフトウェア技術
Masayuki Isobe
関数型プログラミングとモナド
関数型プログラミングとモナド
Masayuki Isobe
ジャパンドローンセミナー
ジャパンドローンセミナー
Masayuki Isobe
AIBOX DroneBrain 製品パンフレット
AIBOX DroneBrain 製品パンフレット
Masayuki Isobe
ファイブソリューションズデベロッパーネットワーク
ファイブソリューションズデベロッパーネットワーク
Masayuki Isobe
ドローン向けソフトウェア事業
ドローン向けソフトウェア事業
Masayuki Isobe
RDF/OWLの概要及びOSS実装、及び活用イメージについて
RDF/OWLの概要及びOSS実装、及び活用イメージについて
Masayuki Isobe
第三回機械学習アルゴリズム実装会イントロダクション
第三回機械学習アルゴリズム実装会イントロダクション
Masayuki Isobe
CasperJSを使って任意のWebサイトを電子書籍化する方法
CasperJSを使って任意のWebサイトを電子書籍化する方法
Masayuki Isobe
More Related Content
Viewers also liked
ACL読み会2014@PFI "Two Knives Cut Better Than One: Chinese Word Segmentation w...
ACL読み会2014@PFI "Two Knives Cut Better Than One: Chinese Word Segmentation w...
Preferred Networks
ACL読み会@PFI “How to make words with vectors: Phrase generation in distributio...
ACL読み会@PFI “How to make words with vectors: Phrase generation in distributio...
Yuya Unno
DeconvNet, DecoupledNet, TransferNet in Image Segmentation
DeconvNet, DecoupledNet, TransferNet in Image Segmentation
NamHyuk Ahn
Tutorial-DeepLearning-PCSJ-IMPS2016
Tutorial-DeepLearning-PCSJ-IMPS2016
Takayoshi Yamashita
Semantic segmentation
Semantic segmentation
Takuya Minagawa
20150930
20150930
nlab_utokyo
論文紹介: Fast R-CNN&Faster R-CNN
論文紹介: Fast R-CNN&Faster R-CNN
Takashi Abe
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Daiki Shimada
CVPR 2016 まとめ v1
CVPR 2016 まとめ v1
cvpaper. challenge
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)
Takanori Ogata
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
nlab_utokyo
ECCV 2016 まとめ
ECCV 2016 まとめ
cvpaper. challenge
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)
cvpaper. challenge
Viewers also liked
(13)
ACL読み会2014@PFI "Two Knives Cut Better Than One: Chinese Word Segmentation w...
ACL読み会2014@PFI "Two Knives Cut Better Than One: Chinese Word Segmentation w...
ACL読み会@PFI “How to make words with vectors: Phrase generation in distributio...
ACL読み会@PFI “How to make words with vectors: Phrase generation in distributio...
DeconvNet, DecoupledNet, TransferNet in Image Segmentation
DeconvNet, DecoupledNet, TransferNet in Image Segmentation
Tutorial-DeepLearning-PCSJ-IMPS2016
Tutorial-DeepLearning-PCSJ-IMPS2016
Semantic segmentation
Semantic segmentation
20150930
20150930
論文紹介: Fast R-CNN&Faster R-CNN
論文紹介: Fast R-CNN&Faster R-CNN
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
CVPR 2016 まとめ v1
CVPR 2016 まとめ v1
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
ECCV 2016 まとめ
ECCV 2016 まとめ
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)
More from Masayuki Isobe
オープンソースを用いたドローンの自律制御ソフトウェア技術
オープンソースを用いたドローンの自律制御ソフトウェア技術
Masayuki Isobe
関数型プログラミングとモナド
関数型プログラミングとモナド
Masayuki Isobe
ジャパンドローンセミナー
ジャパンドローンセミナー
Masayuki Isobe
AIBOX DroneBrain 製品パンフレット
AIBOX DroneBrain 製品パンフレット
Masayuki Isobe
ファイブソリューションズデベロッパーネットワーク
ファイブソリューションズデベロッパーネットワーク
Masayuki Isobe
ドローン向けソフトウェア事業
ドローン向けソフトウェア事業
Masayuki Isobe
RDF/OWLの概要及びOSS実装、及び活用イメージについて
RDF/OWLの概要及びOSS実装、及び活用イメージについて
Masayuki Isobe
第三回機械学習アルゴリズム実装会イントロダクション
第三回機械学習アルゴリズム実装会イントロダクション
Masayuki Isobe
CasperJSを使って任意のWebサイトを電子書籍化する方法
CasperJSを使って任意のWebサイトを電子書籍化する方法
Masayuki Isobe
ScrapyとPhantomJSを用いたスクレイピングDSL
ScrapyとPhantomJSを用いたスクレイピングDSL
Masayuki Isobe
第二回機械学習アルゴリズム実装会 - LDA
第二回機械学習アルゴリズム実装会 - LDA
Masayuki Isobe
ブランディング指標の数値化について
ブランディング指標の数値化について
Masayuki Isobe
TEDxTitech 2013 speech material
TEDxTitech 2013 speech material
Masayuki Isobe
Rec sys2013 reading_isobe
Rec sys2013 reading_isobe
Masayuki Isobe
広告ナビゲータ・広告シミュレータ
広告ナビゲータ・広告シミュレータ
Masayuki Isobe
rzmq
rzmq
Masayuki Isobe
Uuyアドテクセミナー
Uuyアドテクセミナー
Masayuki Isobe
第12回モヤLT発表資料
第12回モヤLT発表資料
Masayuki Isobe
Tokyo.R 26 LT isobe
Tokyo.R 26 LT isobe
Masayuki Isobe
Tokyo r 25_lt_isobe
Tokyo r 25_lt_isobe
Masayuki Isobe
More from Masayuki Isobe
(20)
オープンソースを用いたドローンの自律制御ソフトウェア技術
オープンソースを用いたドローンの自律制御ソフトウェア技術
関数型プログラミングとモナド
関数型プログラミングとモナド
ジャパンドローンセミナー
ジャパンドローンセミナー
AIBOX DroneBrain 製品パンフレット
AIBOX DroneBrain 製品パンフレット
ファイブソリューションズデベロッパーネットワーク
ファイブソリューションズデベロッパーネットワーク
ドローン向けソフトウェア事業
ドローン向けソフトウェア事業
RDF/OWLの概要及びOSS実装、及び活用イメージについて
RDF/OWLの概要及びOSS実装、及び活用イメージについて
第三回機械学習アルゴリズム実装会イントロダクション
第三回機械学習アルゴリズム実装会イントロダクション
CasperJSを使って任意のWebサイトを電子書籍化する方法
CasperJSを使って任意のWebサイトを電子書籍化する方法
ScrapyとPhantomJSを用いたスクレイピングDSL
ScrapyとPhantomJSを用いたスクレイピングDSL
第二回機械学習アルゴリズム実装会 - LDA
第二回機械学習アルゴリズム実装会 - LDA
ブランディング指標の数値化について
ブランディング指標の数値化について
TEDxTitech 2013 speech material
TEDxTitech 2013 speech material
Rec sys2013 reading_isobe
Rec sys2013 reading_isobe
広告ナビゲータ・広告シミュレータ
広告ナビゲータ・広告シミュレータ
rzmq
rzmq
Uuyアドテクセミナー
Uuyアドテクセミナー
第12回モヤLT発表資料
第12回モヤLT発表資料
Tokyo.R 26 LT isobe
Tokyo.R 26 LT isobe
Tokyo r 25_lt_isobe
Tokyo r 25_lt_isobe
ACL2014読み会 isobe
1.
ACL2014 読み会 2014.7.12 A
Semiparametric Gaussian Copula Regression Model for Predicting Financial Risks from Earnings Calls Masayuki Isobe / 礒部 正幸 / @chiral Adfive, Inc. http://69.195.124.161/~aclwebor/anthology//P/P14/P14-1109.pdf
2.
自己紹介 • 礒部正幸(いそべ まさゆき) •
職業: ソフトウェアエンジニア • 現在: アドファイブ(株) 代表 http://www.adfive.net – 現体制: 代表1名 + 外注数名 : お問い合わせ – 自社製品: モバイルO2Oアプリ/オウンドメディア/アドサーバ – 受託業務: システムコンサルティング/システム開発/データ分析 • 東工大卒 (B:情報工学科、M:計算工学専攻) – 記号的統計モデリング言語PRISMを用いた将棋プレイヤのモデル化 – コンピュータ将棋選手権、ACM-ICPCに出ていました。 • インターネット活動 – TwitterID: @chiral – (ブログ:アドファイブ日記) http://d.hatena.ne.jp/isobe1978/ • 「機械学習ハッカソン」主催: http://mlhackathon.connpass.com/ • 最近の興味: – メディアビジネスに革命を起こす「コンテンツ編集の機械化」 – Google Nowみたいな「O2Oの世界を制覇」するテクノロジ
3.
論文の概要 • 株式公開企業のearnings call(決算報告書)をテキス ト解析 •
対象企業の将来の金融リスクを分析する – 具体的には、文書公開後1週間の株価変動 • 数理モデルとしてcopula(コピュラ)を使用 – 事前分布不要、分布の仮定も不要 – ノンパラで補間(カーネル密度推定)して積分するのでス ムーズ • 従来のBoWベースのテキスト回帰よりパフォーマン スが大きく改善した なぜコピュラみたいな方法を使ってるのかについての私の想像: 回帰の平均部分のフィットネスよりも、変動の振れ幅(リスク)の分析にフォーカスを当て たいので金融リスク評価で使われるcopulaを持ち出した、ということだと思われる。
4.
イントロダクション • 株価の履歴をもとに(テクニカルに)将来予測する方法 はよくある • 証券報告書に記載された文章を解析して予測にいかす 方法は出始めたばかり •
また、金融の世界で発展した統計手法を機械学習に持 ち込む動きも出てきている • 本研究はそれらの2つの動きを踏まえたもの • セミパラメトリックなガウスコピュラという方法を提案 – あとで説明します • 線形モデルや非線形なSVMをbaselineとしたとき にoutperformした上にデータセットに対しても炉 バストだった
5.
関連研究 • アニュアルレポートベースの研究 – テキストを線形SVM回帰に掛けて株価のボラティリティ予測をするもの [Kogan
et al. (2009)] – 同様の手法だがセンチメントに焦点をあてたもの [Wang et al., 2013] – テキスト回帰を文書のランキング問題に置き換えるアプローチ [Tsai and Wang (2013)] • 決算報告(Earnings call)ベースの研究 – 株価予測をとりあえず2値予測としてやったもの [Xie et al. (2013)] • ソーシャルメディアベースの研究 – ソーシャルメディアデータで株価予測 [Bollen et al., 2011; Zhang et al., 2011] • テキストベースだが株価以外の予測 – 映画レビューから売り上げ予測 [Joshi et al., 2010] – 地域別の語彙特性(方言?) [Joshi et al., 2010] – レストランメニューから食材価格の予測 [Chahuneau et al., 2012] → 課題は、説明変数同士の関係を直接分析できないこと。
6.
(おまけ)コピュラの補足(1) • コピュラとは何ぞや • 多変量分布関数を、各変数の周辺分布関数と、変数間の相 互作用(=コピュラ)に一意に分解できる •
上式の右辺を見ると周辺分布を経由しているので、コピュラ Cは[0,1]^nで一様分布するn次元確率変数を、[0,1]にマップ する関数として定義できる (分布関数の多変量化って感じ?)
7.
(おまけ)コピュラの補足(2) • コピュラC(X1,X2,…,Xn)の性質 – 引数のいずれかの実現値がゼロならC=0 –
一つのXiを除いてほかがすべてX=1ならC=Fi(Xi) (FiはXiの周辺分布) → 分布関数を自然に多変量化したらこうなる、みたいな感じ? • コピュラの一意性についての注意 – 各周辺分布と同時分布が所与の時にCは一意に決まる – 同時分布だけでは分解の方法は一意にならない • 例えば、多変量正規分布は「一様な周辺分布+ガウスコピュラ」と「単変量ガウス 分布+ガウスコピュラ」のいずれにもばらせる • 私の調べる限りでは、コピュラの部分は分析しやすいものを使い、一変量の周辺 分布のところを柔軟にとるという分解が一般的な使われ方っぽかった • 実際、紹介論文では周辺分布をノンパラメトリックにカーネル密度推定を適用し、 コピュラは性質がよくわかっているガウスコピュラを使っている • 「リスク資産を抱き合わせした証券」のリスク分析によく使われている – 組み入れた各資産の分布を周辺分布とし、コピュラを使ってそれらを 同時分布化する – ガウスコピュラを盲目的に使ったせいでリーマンショックが起きたとも
8.
(おまけ)コピュラの補足(3) • スクラーの定理(周辺分布とコピュラの分解において、コピュ ラからみるとパラメータが一様分布する確率変数とみなせる こと)の直感的説明 Fi Xi 密度関数 fi Xi 分布関数 ・密度が薄いところは刻み幅が細かく、 密度が高いところは刻み幅があらくなるので、 どんな密度でも分布関数を通すと、定義域 において[0,1]で一様分布する確率変数となる よって[0,1]^nで一様分布 する変数を[0,1]にマップ することだけを考えれば 済んでしまう
9.
ガウスコピュラによるテキスト回帰(1) • 各変量(BoWのWに相当)の密度関数はカーネル密度推定 でノンパラメトリックに設定 – カーネル関数はbox関数([-1,1]で1/2を取る関数)を定数スケールさせ たもの •
密度関数から周辺分布への変換は普通の累積分布関数 • 相互作用の部分にはガウスコピュラを採用 – こちらはパラメトリック(次ページ) ※ yはラベル (回帰の目的変数) を上記同様に密度 推定したもの ←スムージング のため
10.
ガウスコピュラによるテキスト回帰(2) • ガウスコピュラのパラメータは平均=0, 分散共分散行列=Σ •
Σを最尤推定する (計算量はO(nlogn) : n=単語の種類数) • そのΣが分かれば、yの条件付き分布や期待値が分かる • しかし(Σは最尤推定でビシッと決まったのに)期待値は計算量がかなりで かいのでMCMCでサンプリングして求める方法がよく採られる • だが本研究ではとりあえずガウスコピュラの最大値(と書いてあるが意味 合いは同時分布の最大値)を取るF(y)をサンプルすることにした(単語の 種類だけ次元があるのでかなりデカい) • F(y)がサンプリングできたら単調増加なのでyに戻すだけ
11.
ガウスコピュラによるテキスト回帰(3) • アルゴリズムとしてまとめると、 (1) 単語素性とかをboxカーネルで密度推定。目的変数も同様 に密度推定でスムージング (2)1でつくった密度関数から分布関数を得る (3)ガウスコピュラのΣを最尤推定する (4)Σと、テスト用の説明変数(からの素性)を用いて、ガウスコ ピュラの最大値を取るyをサンプリング (1~3が学習、4がテスト)
12.
データセット • USの証券市場での四半期報告書のデータセット、リーマン ショック前(2006-2009),リーマンショック(2009),リーマンショッ ク後(2009-)の3つ • 通常のメディア記事と比べて文書が長い(WSJなら数百 ワードなのに対して、7千とかある) •
フォーマルな書き方をしている部分と、質疑応答のような形 式がフリーな部分が1文書中に混ざっている
13.
株価予測と評価方法 • 株価のボラティリティを予測 • 1日のリターンを
ri とし • τ日後のボラティリティ を、予測する yの予測値を実データに照らして スピアマンの順位相関係数とケンドールのτ(これも順位相関)で評価する (発表者注:ボラティリティも、上がるか下がるか、どのくらい戻るか、みたいな話が株価では大 事なので仮に恣意的だったとしても順位相関を使うことの合理性があるといえそう。論文による と、ピアソン相関係数よりも仮定が弱くロバストなんだそうな)
14.
実験結果(対データボリューム) ・過学習を回避できている
15.
実験結果(対素性の数) ・同じ素性数でのパフォーマンスは優ってそう ・スケーラビリティも少しよくなっている
16.
定性的な考察 (参考:リーマンショックは2008年9月です) ・リーマンショック前の報告書のワードの中で、もっともボラティリティ (目的変数y)との相関性が高かったのは、2008年の報告書に現れる 単語だった。(事後とはいえ、これはすごいですね) ・リーマンショック直後の2008末から2009に掛けて報告書に現れた リスクワードは、リーマンショック前とあまり変わらなかったが、 それがボラティリティにより大きな影響を与えていることが分かった (これも面白いです) ・それ以降のいわゆる回復期においては、revenueという単語が ボラティリティと相関が高かった。(これも当たり前だけど面白い)
17.
ディスカッション • 本手法のメリットは3つ – BoWベースのトピックモデリングは調整するパラメータが少ない利点 があるが、それとと比べて本手法も周辺分布に関してはノンパラだし トピックモデルみたいなディリクレ分布という構造を仮定(発表者注:N 次元単体への制約のこと)しないぶん、自由度も高い –
逆に変量間の関係についてはパラメトリックであり、無限の自由度を 許していないぶん分かることも多くなりバランスがよい。ガウスコピュ ラのΣの推定は次元nに対してO(nlogn)と効率も良い – 確率変数同士に独立性の仮定を置かないところから出発し、コピュラ を求めると変数間の関係性についての情報が得られるので、その情 報を使って予測モデルを効率的にすることが可能 • Future Work – より大きなデータセット。今回は並列分散は不要だった。 – 過学習の回避。ノイズの影響があるので、コピュラを改良したい。 – この手法を磨いて、NLPの本丸への適用も狙っていきたい。
Download now