SlideShare a Scribd company logo
1 of 17
Download to read offline
ACL2014 読み会 2014.7.12
A Semiparametric Gaussian Copula Regression Model
for Predicting Financial Risks from Earnings Calls
Masayuki Isobe / 礒部 正幸 / @chiral
Adfive, Inc.
http://69.195.124.161/~aclwebor/anthology//P/P14/P14-1109.pdf
自己紹介
• 礒部正幸(いそべ まさゆき)
• 職業: ソフトウェアエンジニア
• 現在: アドファイブ(株) 代表 http://www.adfive.net
– 現体制: 代表1名 + 外注数名 : お問い合わせ
– 自社製品: モバイルO2Oアプリ/オウンドメディア/アドサーバ
– 受託業務: システムコンサルティング/システム開発/データ分析
• 東工大卒 (B:情報工学科、M:計算工学専攻)
– 記号的統計モデリング言語PRISMを用いた将棋プレイヤのモデル化
– コンピュータ将棋選手権、ACM-ICPCに出ていました。
• インターネット活動
– TwitterID: @chiral
– (ブログ:アドファイブ日記) http://d.hatena.ne.jp/isobe1978/
• 「機械学習ハッカソン」主催: http://mlhackathon.connpass.com/
• 最近の興味:
– メディアビジネスに革命を起こす「コンテンツ編集の機械化」
– Google Nowみたいな「O2Oの世界を制覇」するテクノロジ
論文の概要
• 株式公開企業のearnings call(決算報告書)をテキス
ト解析
• 対象企業の将来の金融リスクを分析する
– 具体的には、文書公開後1週間の株価変動
• 数理モデルとしてcopula(コピュラ)を使用
– 事前分布不要、分布の仮定も不要
– ノンパラで補間(カーネル密度推定)して積分するのでス
ムーズ
• 従来のBoWベースのテキスト回帰よりパフォーマン
スが大きく改善した
なぜコピュラみたいな方法を使ってるのかについての私の想像:
回帰の平均部分のフィットネスよりも、変動の振れ幅(リスク)の分析にフォーカスを当て
たいので金融リスク評価で使われるcopulaを持ち出した、ということだと思われる。
イントロダクション
• 株価の履歴をもとに(テクニカルに)将来予測する方法
はよくある
• 証券報告書に記載された文章を解析して予測にいかす
方法は出始めたばかり
• また、金融の世界で発展した統計手法を機械学習に持
ち込む動きも出てきている
• 本研究はそれらの2つの動きを踏まえたもの
• セミパラメトリックなガウスコピュラという方法を提案
– あとで説明します
• 線形モデルや非線形なSVMをbaselineとしたとき
にoutperformした上にデータセットに対しても炉
バストだった
関連研究
• アニュアルレポートベースの研究
– テキストを線形SVM回帰に掛けて株価のボラティリティ予測をするもの
[Kogan et al. (2009)]
– 同様の手法だがセンチメントに焦点をあてたもの [Wang et al., 2013]
– テキスト回帰を文書のランキング問題に置き換えるアプローチ [Tsai and
Wang (2013)]
• 決算報告(Earnings call)ベースの研究
– 株価予測をとりあえず2値予測としてやったもの [Xie et al. (2013)]
• ソーシャルメディアベースの研究
– ソーシャルメディアデータで株価予測 [Bollen et al., 2011; Zhang et al., 2011]
• テキストベースだが株価以外の予測
– 映画レビューから売り上げ予測 [Joshi et al., 2010]
– 地域別の語彙特性(方言?) [Joshi et al., 2010]
– レストランメニューから食材価格の予測 [Chahuneau et al., 2012]
→ 課題は、説明変数同士の関係を直接分析できないこと。
(おまけ)コピュラの補足(1)
• コピュラとは何ぞや
• 多変量分布関数を、各変数の周辺分布関数と、変数間の相
互作用(=コピュラ)に一意に分解できる
• 上式の右辺を見ると周辺分布を経由しているので、コピュラ
Cは[0,1]^nで一様分布するn次元確率変数を、[0,1]にマップ
する関数として定義できる (分布関数の多変量化って感じ?)
(おまけ)コピュラの補足(2)
• コピュラC(X1,X2,…,Xn)の性質
– 引数のいずれかの実現値がゼロならC=0
– 一つのXiを除いてほかがすべてX=1ならC=Fi(Xi) (FiはXiの周辺分布)
→ 分布関数を自然に多変量化したらこうなる、みたいな感じ?
• コピュラの一意性についての注意
– 各周辺分布と同時分布が所与の時にCは一意に決まる
– 同時分布だけでは分解の方法は一意にならない
• 例えば、多変量正規分布は「一様な周辺分布+ガウスコピュラ」と「単変量ガウス
分布+ガウスコピュラ」のいずれにもばらせる
• 私の調べる限りでは、コピュラの部分は分析しやすいものを使い、一変量の周辺
分布のところを柔軟にとるという分解が一般的な使われ方っぽかった
• 実際、紹介論文では周辺分布をノンパラメトリックにカーネル密度推定を適用し、
コピュラは性質がよくわかっているガウスコピュラを使っている
• 「リスク資産を抱き合わせした証券」のリスク分析によく使われている
– 組み入れた各資産の分布を周辺分布とし、コピュラを使ってそれらを
同時分布化する
– ガウスコピュラを盲目的に使ったせいでリーマンショックが起きたとも
(おまけ)コピュラの補足(3)
• スクラーの定理(周辺分布とコピュラの分解において、コピュ
ラからみるとパラメータが一様分布する確率変数とみなせる
こと)の直感的説明
Fi
Xi
密度関数
fi
Xi
分布関数
・密度が薄いところは刻み幅が細かく、
密度が高いところは刻み幅があらくなるので、
どんな密度でも分布関数を通すと、定義域
において[0,1]で一様分布する確率変数となる
よって[0,1]^nで一様分布
する変数を[0,1]にマップ
することだけを考えれば
済んでしまう
ガウスコピュラによるテキスト回帰(1)
• 各変量(BoWのWに相当)の密度関数はカーネル密度推定
でノンパラメトリックに設定
– カーネル関数はbox関数([-1,1]で1/2を取る関数)を定数スケールさせ
たもの
• 密度関数から周辺分布への変換は普通の累積分布関数
• 相互作用の部分にはガウスコピュラを採用
– こちらはパラメトリック(次ページ) ※ yはラベル
(回帰の目的変数)
を上記同様に密度
推定したもの
←スムージング
のため
ガウスコピュラによるテキスト回帰(2)
• ガウスコピュラのパラメータは平均=0, 分散共分散行列=Σ
• Σを最尤推定する (計算量はO(nlogn) : n=単語の種類数)
• そのΣが分かれば、yの条件付き分布や期待値が分かる
• しかし(Σは最尤推定でビシッと決まったのに)期待値は計算量がかなりで
かいのでMCMCでサンプリングして求める方法がよく採られる
• だが本研究ではとりあえずガウスコピュラの最大値(と書いてあるが意味
合いは同時分布の最大値)を取るF(y)をサンプルすることにした(単語の
種類だけ次元があるのでかなりデカい)
• F(y)がサンプリングできたら単調増加なのでyに戻すだけ
ガウスコピュラによるテキスト回帰(3)
• アルゴリズムとしてまとめると、
(1) 単語素性とかをboxカーネルで密度推定。目的変数も同様
に密度推定でスムージング
(2)1でつくった密度関数から分布関数を得る
(3)ガウスコピュラのΣを最尤推定する
(4)Σと、テスト用の説明変数(からの素性)を用いて、ガウスコ
ピュラの最大値を取るyをサンプリング
(1~3が学習、4がテスト)
データセット
• USの証券市場での四半期報告書のデータセット、リーマン
ショック前(2006-2009),リーマンショック(2009),リーマンショッ
ク後(2009-)の3つ
• 通常のメディア記事と比べて文書が長い(WSJなら数百
ワードなのに対して、7千とかある)
• フォーマルな書き方をしている部分と、質疑応答のような形
式がフリーな部分が1文書中に混ざっている
株価予測と評価方法
• 株価のボラティリティを予測
• 1日のリターンを ri とし
• τ日後のボラティリティ
を、予測する
yの予測値を実データに照らして
スピアマンの順位相関係数とケンドールのτ(これも順位相関)で評価する
(発表者注:ボラティリティも、上がるか下がるか、どのくらい戻るか、みたいな話が株価では大
事なので仮に恣意的だったとしても順位相関を使うことの合理性があるといえそう。論文による
と、ピアソン相関係数よりも仮定が弱くロバストなんだそうな)
実験結果(対データボリューム)
・過学習を回避できている
実験結果(対素性の数)
・同じ素性数でのパフォーマンスは優ってそう
・スケーラビリティも少しよくなっている
定性的な考察
(参考:リーマンショックは2008年9月です)
・リーマンショック前の報告書のワードの中で、もっともボラティリティ
(目的変数y)との相関性が高かったのは、2008年の報告書に現れる
単語だった。(事後とはいえ、これはすごいですね)
・リーマンショック直後の2008末から2009に掛けて報告書に現れた
リスクワードは、リーマンショック前とあまり変わらなかったが、
それがボラティリティにより大きな影響を与えていることが分かった
(これも面白いです)
・それ以降のいわゆる回復期においては、revenueという単語が
ボラティリティと相関が高かった。(これも当たり前だけど面白い)
ディスカッション
• 本手法のメリットは3つ
– BoWベースのトピックモデリングは調整するパラメータが少ない利点
があるが、それとと比べて本手法も周辺分布に関してはノンパラだし
トピックモデルみたいなディリクレ分布という構造を仮定(発表者注:N
次元単体への制約のこと)しないぶん、自由度も高い
– 逆に変量間の関係についてはパラメトリックであり、無限の自由度を
許していないぶん分かることも多くなりバランスがよい。ガウスコピュ
ラのΣの推定は次元nに対してO(nlogn)と効率も良い
– 確率変数同士に独立性の仮定を置かないところから出発し、コピュラ
を求めると変数間の関係性についての情報が得られるので、その情
報を使って予測モデルを効率的にすることが可能
• Future Work
– より大きなデータセット。今回は並列分散は不要だった。
– 過学習の回避。ノイズの影響があるので、コピュラを改良したい。
– この手法を磨いて、NLPの本丸への適用も狙っていきたい。

More Related Content

Viewers also liked

ACL読み会2014@PFI "Two Knives Cut Better Than One: Chinese Word Segmentation w...
ACL読み会2014@PFI  "Two Knives Cut Better Than One: Chinese Word Segmentation w...ACL読み会2014@PFI  "Two Knives Cut Better Than One: Chinese Word Segmentation w...
ACL読み会2014@PFI "Two Knives Cut Better Than One: Chinese Word Segmentation w...Preferred Networks
 
ACL読み会@PFI “How to make words with vectors: Phrase generation in distributio...
ACL読み会@PFI “How to make words with vectors: Phrase generation in distributio...ACL読み会@PFI “How to make words with vectors: Phrase generation in distributio...
ACL読み会@PFI “How to make words with vectors: Phrase generation in distributio...Yuya Unno
 
DeconvNet, DecoupledNet, TransferNet in Image Segmentation
DeconvNet, DecoupledNet, TransferNet in Image SegmentationDeconvNet, DecoupledNet, TransferNet in Image Segmentation
DeconvNet, DecoupledNet, TransferNet in Image SegmentationNamHyuk Ahn
 
Tutorial-DeepLearning-PCSJ-IMPS2016
Tutorial-DeepLearning-PCSJ-IMPS2016Tutorial-DeepLearning-PCSJ-IMPS2016
Tutorial-DeepLearning-PCSJ-IMPS2016Takayoshi Yamashita
 
論文紹介: Fast R-CNN&Faster R-CNN
論文紹介: Fast R-CNN&Faster R-CNN論文紹介: Fast R-CNN&Faster R-CNN
論文紹介: Fast R-CNN&Faster R-CNNTakashi Abe
 
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Daiki Shimada
 
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)Takanori Ogata
 
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーDeep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーnlab_utokyo
 
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)cvpaper. challenge
 

Viewers also liked (13)

ACL読み会2014@PFI "Two Knives Cut Better Than One: Chinese Word Segmentation w...
ACL読み会2014@PFI  "Two Knives Cut Better Than One: Chinese Word Segmentation w...ACL読み会2014@PFI  "Two Knives Cut Better Than One: Chinese Word Segmentation w...
ACL読み会2014@PFI "Two Knives Cut Better Than One: Chinese Word Segmentation w...
 
ACL読み会@PFI “How to make words with vectors: Phrase generation in distributio...
ACL読み会@PFI “How to make words with vectors: Phrase generation in distributio...ACL読み会@PFI “How to make words with vectors: Phrase generation in distributio...
ACL読み会@PFI “How to make words with vectors: Phrase generation in distributio...
 
DeconvNet, DecoupledNet, TransferNet in Image Segmentation
DeconvNet, DecoupledNet, TransferNet in Image SegmentationDeconvNet, DecoupledNet, TransferNet in Image Segmentation
DeconvNet, DecoupledNet, TransferNet in Image Segmentation
 
Tutorial-DeepLearning-PCSJ-IMPS2016
Tutorial-DeepLearning-PCSJ-IMPS2016Tutorial-DeepLearning-PCSJ-IMPS2016
Tutorial-DeepLearning-PCSJ-IMPS2016
 
Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
 
20150930
2015093020150930
20150930
 
論文紹介: Fast R-CNN&Faster R-CNN
論文紹介: Fast R-CNN&Faster R-CNN論文紹介: Fast R-CNN&Faster R-CNN
論文紹介: Fast R-CNN&Faster R-CNN
 
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
 
CVPR 2016 まとめ v1
CVPR 2016 まとめ v1CVPR 2016 まとめ v1
CVPR 2016 まとめ v1
 
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)
 
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーDeep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
 
ECCV 2016 まとめ
ECCV 2016 まとめECCV 2016 まとめ
ECCV 2016 まとめ
 
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)
 

More from Masayuki Isobe

オープンソースを用いたドローンの自律制御ソフトウェア技術
オープンソースを用いたドローンの自律制御ソフトウェア技術オープンソースを用いたドローンの自律制御ソフトウェア技術
オープンソースを用いたドローンの自律制御ソフトウェア技術Masayuki Isobe
 
関数型プログラミングとモナド
関数型プログラミングとモナド関数型プログラミングとモナド
関数型プログラミングとモナドMasayuki Isobe
 
ジャパンドローンセミナー
ジャパンドローンセミナージャパンドローンセミナー
ジャパンドローンセミナーMasayuki Isobe
 
AIBOX DroneBrain 製品パンフレット
AIBOX DroneBrain 製品パンフレットAIBOX DroneBrain 製品パンフレット
AIBOX DroneBrain 製品パンフレットMasayuki Isobe
 
ファイブソリューションズデベロッパーネットワーク
ファイブソリューションズデベロッパーネットワークファイブソリューションズデベロッパーネットワーク
ファイブソリューションズデベロッパーネットワークMasayuki Isobe
 
ドローン向けソフトウェア事業
ドローン向けソフトウェア事業ドローン向けソフトウェア事業
ドローン向けソフトウェア事業Masayuki Isobe
 
RDF/OWLの概要及びOSS実装、及び活用イメージについて
RDF/OWLの概要及びOSS実装、及び活用イメージについてRDF/OWLの概要及びOSS実装、及び活用イメージについて
RDF/OWLの概要及びOSS実装、及び活用イメージについてMasayuki Isobe
 
第三回機械学習アルゴリズム実装会イントロダクション
第三回機械学習アルゴリズム実装会イントロダクション第三回機械学習アルゴリズム実装会イントロダクション
第三回機械学習アルゴリズム実装会イントロダクションMasayuki Isobe
 
CasperJSを使って任意のWebサイトを電子書籍化する方法
CasperJSを使って任意のWebサイトを電子書籍化する方法CasperJSを使って任意のWebサイトを電子書籍化する方法
CasperJSを使って任意のWebサイトを電子書籍化する方法Masayuki Isobe
 
ScrapyとPhantomJSを用いたスクレイピングDSL
ScrapyとPhantomJSを用いたスクレイピングDSLScrapyとPhantomJSを用いたスクレイピングDSL
ScrapyとPhantomJSを用いたスクレイピングDSLMasayuki Isobe
 
第二回機械学習アルゴリズム実装会 - LDA
第二回機械学習アルゴリズム実装会 - LDA第二回機械学習アルゴリズム実装会 - LDA
第二回機械学習アルゴリズム実装会 - LDAMasayuki Isobe
 
ブランディング指標の数値化について
ブランディング指標の数値化についてブランディング指標の数値化について
ブランディング指標の数値化についてMasayuki Isobe
 
TEDxTitech 2013 speech material
TEDxTitech 2013 speech materialTEDxTitech 2013 speech material
TEDxTitech 2013 speech materialMasayuki Isobe
 
Rec sys2013 reading_isobe
Rec sys2013 reading_isobeRec sys2013 reading_isobe
Rec sys2013 reading_isobeMasayuki Isobe
 
広告ナビゲータ・広告シミュレータ
広告ナビゲータ・広告シミュレータ広告ナビゲータ・広告シミュレータ
広告ナビゲータ・広告シミュレータMasayuki Isobe
 
Uuyアドテクセミナー
UuyアドテクセミナーUuyアドテクセミナー
UuyアドテクセミナーMasayuki Isobe
 
第12回モヤLT発表資料
第12回モヤLT発表資料第12回モヤLT発表資料
第12回モヤLT発表資料Masayuki Isobe
 

More from Masayuki Isobe (20)

オープンソースを用いたドローンの自律制御ソフトウェア技術
オープンソースを用いたドローンの自律制御ソフトウェア技術オープンソースを用いたドローンの自律制御ソフトウェア技術
オープンソースを用いたドローンの自律制御ソフトウェア技術
 
関数型プログラミングとモナド
関数型プログラミングとモナド関数型プログラミングとモナド
関数型プログラミングとモナド
 
ジャパンドローンセミナー
ジャパンドローンセミナージャパンドローンセミナー
ジャパンドローンセミナー
 
AIBOX DroneBrain 製品パンフレット
AIBOX DroneBrain 製品パンフレットAIBOX DroneBrain 製品パンフレット
AIBOX DroneBrain 製品パンフレット
 
ファイブソリューションズデベロッパーネットワーク
ファイブソリューションズデベロッパーネットワークファイブソリューションズデベロッパーネットワーク
ファイブソリューションズデベロッパーネットワーク
 
ドローン向けソフトウェア事業
ドローン向けソフトウェア事業ドローン向けソフトウェア事業
ドローン向けソフトウェア事業
 
RDF/OWLの概要及びOSS実装、及び活用イメージについて
RDF/OWLの概要及びOSS実装、及び活用イメージについてRDF/OWLの概要及びOSS実装、及び活用イメージについて
RDF/OWLの概要及びOSS実装、及び活用イメージについて
 
第三回機械学習アルゴリズム実装会イントロダクション
第三回機械学習アルゴリズム実装会イントロダクション第三回機械学習アルゴリズム実装会イントロダクション
第三回機械学習アルゴリズム実装会イントロダクション
 
CasperJSを使って任意のWebサイトを電子書籍化する方法
CasperJSを使って任意のWebサイトを電子書籍化する方法CasperJSを使って任意のWebサイトを電子書籍化する方法
CasperJSを使って任意のWebサイトを電子書籍化する方法
 
ScrapyとPhantomJSを用いたスクレイピングDSL
ScrapyとPhantomJSを用いたスクレイピングDSLScrapyとPhantomJSを用いたスクレイピングDSL
ScrapyとPhantomJSを用いたスクレイピングDSL
 
第二回機械学習アルゴリズム実装会 - LDA
第二回機械学習アルゴリズム実装会 - LDA第二回機械学習アルゴリズム実装会 - LDA
第二回機械学習アルゴリズム実装会 - LDA
 
ブランディング指標の数値化について
ブランディング指標の数値化についてブランディング指標の数値化について
ブランディング指標の数値化について
 
TEDxTitech 2013 speech material
TEDxTitech 2013 speech materialTEDxTitech 2013 speech material
TEDxTitech 2013 speech material
 
Rec sys2013 reading_isobe
Rec sys2013 reading_isobeRec sys2013 reading_isobe
Rec sys2013 reading_isobe
 
広告ナビゲータ・広告シミュレータ
広告ナビゲータ・広告シミュレータ広告ナビゲータ・広告シミュレータ
広告ナビゲータ・広告シミュレータ
 
rzmq
rzmqrzmq
rzmq
 
Uuyアドテクセミナー
UuyアドテクセミナーUuyアドテクセミナー
Uuyアドテクセミナー
 
第12回モヤLT発表資料
第12回モヤLT発表資料第12回モヤLT発表資料
第12回モヤLT発表資料
 
Tokyo.R 26 LT isobe
Tokyo.R 26 LT isobeTokyo.R 26 LT isobe
Tokyo.R 26 LT isobe
 
Tokyo r 25_lt_isobe
Tokyo r 25_lt_isobeTokyo r 25_lt_isobe
Tokyo r 25_lt_isobe
 

ACL2014読み会 isobe