ACL2014読み会 isobe

ACL2014 読み会 2014.7.12
A Semiparametric Gaussian Copula Regression Model
for Predicting Financial Risks from Earnings Calls
Masayuki Isobe / 礒部正幸 / @chiral
Adfive, Inc.
http://69.195.124.161/~aclwebor/anthology//P/P14/P14-1109.pdf

自己紹介
• 礒部正幸（いそべまさゆき）
• 職業：ソフトウェアエンジニア
• 現在：アドファイブ（株）代表 http://www.adfive.net
– 現体制：代表１名 + 外注数名 : お問い合わせ
– 自社製品：モバイルO2Oアプリ/オウンドメディア/アドサーバ
– 受託業務：システムコンサルティング/システム開発/データ分析
• 東工大卒（B：情報工学科、M：計算工学専攻）
– 記号的統計モデリング言語PRISMを用いた将棋プレイヤのモデル化
– コンピュータ将棋選手権、ACM-ICPCに出ていました。
• インターネット活動
– TwitterID: @chiral
– （ブログ：アドファイブ日記） http://d.hatena.ne.jp/isobe1978/
• 「機械学習ハッカソン」主催： http://mlhackathon.connpass.com/
• 最近の興味：
– メディアビジネスに革命を起こす「コンテンツ編集の機械化」
– Google Nowみたいな「O2Oの世界を制覇」するテクノロジ

論文の概要
• 株式公開企業のearnings call（決算報告書）をテキス
ト解析
• 対象企業の将来の金融リスクを分析する
– 具体的には、文書公開後１週間の株価変動
• 数理モデルとしてcopula（コピュラ）を使用
– 事前分布不要、分布の仮定も不要
– ノンパラで補間（カーネル密度推定）して積分するのでス
ムーズ
• 従来のBoWベースのテキスト回帰よりパフォーマン
スが大きく改善した
なぜコピュラみたいな方法を使ってるのかについての私の想像：
回帰の平均部分のフィットネスよりも、変動の振れ幅（リスク）の分析にフォーカスを当て
たいので金融リスク評価で使われるcopulaを持ち出した、ということだと思われる。

イントロダクション
• 株価の履歴をもとに（テクニカルに）将来予測する方法
はよくある
• 証券報告書に記載された文章を解析して予測にいかす
方法は出始めたばかり
• また、金融の世界で発展した統計手法を機械学習に持
ち込む動きも出てきている
• 本研究はそれらの２つの動きを踏まえたもの
• セミパラメトリックなガウスコピュラという方法を提案
– あとで説明します
• 線形モデルや非線形なSVMをbaselineとしたとき
にoutperformした上にデータセットに対しても炉
バストだった

関連研究
• アニュアルレポートベースの研究
– テキストを線形SVM回帰に掛けて株価のボラティリティ予測をするもの
[Kogan et al. (2009)]
– 同様の手法だがセンチメントに焦点をあてたもの [Wang et al., 2013]
– テキスト回帰を文書のランキング問題に置き換えるアプローチ [Tsai and
Wang (2013)]
• 決算報告（Earnings call）ベースの研究
– 株価予測をとりあえず２値予測としてやったもの [Xie et al. (2013)]
• ソーシャルメディアベースの研究
– ソーシャルメディアデータで株価予測 [Bollen et al., 2011; Zhang et al., 2011]
• テキストベースだが株価以外の予測
– 映画レビューから売り上げ予測［Joshi et al., 2010］
– 地域別の語彙特性（方言？） [Joshi et al., 2010]
– レストランメニューから食材価格の予測 [Chahuneau et al., 2012]
→ 課題は、説明変数同士の関係を直接分析できないこと。

（おまけ）コピュラの補足（１）
• コピュラとは何ぞや
• 多変量分布関数を、各変数の周辺分布関数と、変数間の相
互作用（＝コピュラ）に一意に分解できる
• 上式の右辺を見ると周辺分布を経由しているので、コピュラ
Ｃは［0,1］^nで一様分布するn次元確率変数を、[0,1]にマップ
する関数として定義できる（分布関数の多変量化って感じ？）

（おまけ）コピュラの補足（２）
• コピュラC（X1,X2,…,Xn）の性質
– 引数のいずれかの実現値がゼロならＣ＝０
– 一つのXiを除いてほかがすべてX=1ならC=Fi(Xi) (FiはXiの周辺分布)
→ 分布関数を自然に多変量化したらこうなる、みたいな感じ？
• コピュラの一意性についての注意
– 各周辺分布と同時分布が所与の時にＣは一意に決まる
– 同時分布だけでは分解の方法は一意にならない
• 例えば、多変量正規分布は「一様な周辺分布＋ガウスコピュラ」と「単変量ガウス
分布＋ガウスコピュラ」のいずれにもばらせる
• 私の調べる限りでは、コピュラの部分は分析しやすいものを使い、一変量の周辺
分布のところを柔軟にとるという分解が一般的な使われ方っぽかった
• 実際、紹介論文では周辺分布をノンパラメトリックにカーネル密度推定を適用し、
コピュラは性質がよくわかっているガウスコピュラを使っている
• 「リスク資産を抱き合わせした証券」のリスク分析によく使われている
– 組み入れた各資産の分布を周辺分布とし、コピュラを使ってそれらを
同時分布化する
– ガウスコピュラを盲目的に使ったせいでリーマンショックが起きたとも

（おまけ）コピュラの補足（３）
• スクラーの定理（周辺分布とコピュラの分解において、コピュ
ラからみるとパラメータが一様分布する確率変数とみなせる
こと）の直感的説明
Fi
Xi
密度関数
fi
Xi
分布関数
・密度が薄いところは刻み幅が細かく、
密度が高いところは刻み幅があらくなるので、
どんな密度でも分布関数を通すと、定義域
において[0,1]で一様分布する確率変数となる
よって[0,1]^nで一様分布
する変数を[0,1]にマップ
することだけを考えれば
済んでしまう

ガウスコピュラによるテキスト回帰（１）
• 各変量（BoWのWに相当）の密度関数はカーネル密度推定
でノンパラメトリックに設定
– カーネル関数はbox関数([-1,1]で1/2を取る関数)を定数スケールさせ
たもの
• 密度関数から周辺分布への変換は普通の累積分布関数
• 相互作用の部分にはガウスコピュラを採用
– こちらはパラメトリック（次ページ） ※ yはラベル
（回帰の目的変数）
を上記同様に密度
推定したもの
←スムージング
のため

ガウスコピュラによるテキスト回帰（２）
• ガウスコピュラのパラメータは平均=0, 分散共分散行列=Σ
• Σを最尤推定する（計算量はO(nlogn) : n＝単語の種類数）
• そのΣが分かれば、yの条件付き分布や期待値が分かる
• しかし（Σは最尤推定でビシッと決まったのに）期待値は計算量がかなりで
かいのでＭＣＭＣでサンプリングして求める方法がよく採られる
• だが本研究ではとりあえずガウスコピュラの最大値（と書いてあるが意味
合いは同時分布の最大値）を取るF(y)をサンプルすることにした（単語の
種類だけ次元があるのでかなりデカい）
• F(y)がサンプリングできたら単調増加なのでyに戻すだけ

ガウスコピュラによるテキスト回帰（３）
• アルゴリズムとしてまとめると、
（１）単語素性とかをboxカーネルで密度推定。目的変数も同様
に密度推定でスムージング
（２）１でつくった密度関数から分布関数を得る
（３）ガウスコピュラのΣを最尤推定する
（４）Σと、テスト用の説明変数（からの素性）を用いて、ガウスコ
ピュラの最大値を取るyをサンプリング
（１～３が学習、４がテスト）

データセット
• USの証券市場での四半期報告書のデータセット、リーマン
ショック前（2006-2009）,リーマンショック(2009),リーマンショッ
ク後(2009-)の３つ
• 通常のメディア記事と比べて文書が長い（ＷＳＪなら数百
ワードなのに対して、７千とかある）
• フォーマルな書き方をしている部分と、質疑応答のような形
式がフリーな部分が１文書中に混ざっている

株価予測と評価方法
• 株価のボラティリティを予測
• １日のリターンを ri とし
• τ日後のボラティリティ
を、予測する
yの予測値を実データに照らして
スピアマンの順位相関係数とケンドールのτ（これも順位相関）で評価する
（発表者注：ボラティリティも、上がるか下がるか、どのくらい戻るか、みたいな話が株価では大
事なので仮に恣意的だったとしても順位相関を使うことの合理性があるといえそう。論文による
と、ピアソン相関係数よりも仮定が弱くロバストなんだそうな）

実験結果（対データボリューム）
・過学習を回避できている

実験結果（対素性の数）
・同じ素性数でのパフォーマンスは優ってそう
・スケーラビリティも少しよくなっている

定性的な考察
（参考：リーマンショックは２００８年９月です）
・リーマンショック前の報告書のワードの中で、もっともボラティリティ
（目的変数y）との相関性が高かったのは、２００８年の報告書に現れる
単語だった。（事後とはいえ、これはすごいですね）
・リーマンショック直後の2008末から2009に掛けて報告書に現れた
リスクワードは、リーマンショック前とあまり変わらなかったが、
それがボラティリティにより大きな影響を与えていることが分かった
（これも面白いです）
・それ以降のいわゆる回復期においては、revenueという単語が
ボラティリティと相関が高かった。（これも当たり前だけど面白い）

ディスカッション
• 本手法のメリットは３つ
– BoWベースのトピックモデリングは調整するパラメータが少ない利点
があるが、それとと比べて本手法も周辺分布に関してはノンパラだし
トピックモデルみたいなディリクレ分布という構造を仮定（発表者注：N
次元単体への制約のこと）しないぶん、自由度も高い
– 逆に変量間の関係についてはパラメトリックであり、無限の自由度を
許していないぶん分かることも多くなりバランスがよい。ガウスコピュ
ラのΣの推定は次元ｎに対してO(nlogn)と効率も良い
– 確率変数同士に独立性の仮定を置かないところから出発し、コピュラ
を求めると変数間の関係性についての情報が得られるので、その情
報を使って予測モデルを効率的にすることが可能
• Future Work
– より大きなデータセット。今回は並列分散は不要だった。
– 過学習の回避。ノイズの影響があるので、コピュラを改良したい。
– この手法を磨いて、ＮＬＰの本丸への適用も狙っていきたい。

ACL2014読み会 isobe

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (13)

More from Masayuki Isobe

More from Masayuki Isobe (20)

ACL2014読み会 isobe