統計学勉強会#2

変数間の関係を捉えたいあなたへ 
統計学勉強会#2 
Hidehisa Arai (@kaggle_araisan) 
出典: https://scikit-learn.org/stable/auto_examples/applications/plot_stock_market.html

自己紹介 
2
● Hidehisa Arai (Twitter: @kaggle_araisan)
 
 
● この春大学院(航空宇宙工学専攻)を卒業しました
 
 
● 大学院では表現学習の研究をしていました
 
 
● NABLASという会社で働いていました
 
○ 異常検知などをしていました 
○ 今日の話はそのときの調査内容が主です
 
 
● 趣味: Kaggle, 散歩...

背景 
3
多変数データ間の関係を捉えたいという需要は生物情報・経済・機械システムなど多くの分野にある
生物情報学での活用例: タンパク質の構造推定   (複雑な)機械システムでの活用例:  
異常検知・原因特定補助  
タンパク質を構成するアミノ酸のうち近接している部
位は共進化†
を起こすという仮説をもとに、近接部位
の予測を行う 
†
共進化: ペアの片方が変異した際、構造を保つためもう片方のペアも変異する
こと  
アミノ酸配列コンタクトマップ
(よく知らない・・・) 
正常な変数間の関係を学習しておきそこからの乖
離を異常とみなす。異常はセンサの関係ネットワー
クを伝播するという仮説から真因の特定に変数間
の関係を用いる 
直接相関グラフの構築
相関異常度による
異常検知
参考: https://www.pnas.org/content/108/49/E1293 参考: https://latent-dynamics.net/01/2010_LD_Ide.pdf

おことわり 
4
● 因果は扱わない 
○ 因果探索という分野になる、難しい 
○ 仮定が強いことが多いので研究レベル？ビジネスでの運用はされているの
だろうか？ 
○ NOTEARS†
というやつが面白いらしい 
 
● 理論的な話はあんまりしない 
○ 私自身があまり理解していない部分も結構ある 
○ (むしろ教えて欲しい) 
 
● 網羅的ではない(と思う) 
○ 多分抜けがあるし、かなり偏っている 
○ こういうのもあるよ！というのはぜひ教えてください！ 
†
https://github.com/xunzheng/notears

5
相関 
偏相関 
HSIC 
Distance
Correlation 
Partial Distance
Correlation 
相互情報量(MI) 
MIC 
Squared-loss Mutual
Information 
非線形 
Graphical
Lasso  
sGMRFmix  
TVGL 
他の変数の影
響を除去 
時間発展を考慮 
線形 
HSICLasso  
Overview
l1
-LSMI 
スパース性 
CMI 
PMI

着目点① - 線形と非線形 
6
ピアソンの積率相関では下段のような関係は捉えられない  
● 相互情報量ベースの手法  
○ Mutual Information 
○ Maximal Information Coefficient(MIC)  
■ 「21世紀の相関」 
○ Squared-loss Mutual Information(SMI)  
○ Conditional Mutual Information(CMI)  
○ Part Mutual Information(PMI)  
● カーネル法使うやつ(よく理解できてない)  
○ Hilbert-Schmidt Information Criteria(HSIC)  
● Distance 〇〇(よく理解できてない)  
○ (Partial) Distance Correlation  
○ (Partial) Distance Covariance  
○ カーネル法使うやつの特殊ケースらしい †
 
線形  非線形 
● ピアソンの積率相関  
● 偏相関 
● Graphical Lasso 
†
https://www.ism.ac.jp/~fukumizu/OsakaU2014/OsakaU_6kernelMean.pdf

着目点① - 非線形な手法 
7
相互情報量をベースとするもの   データ点を別の空間に射影した上で共分散
(のようなもの)を評価する  
離散 
連続 
密度推定 
連続な場合は適当な分割で離散化をした上で計
算をする、など 
離散化の恣意性を排除するために全ての分割を
試し一番いいものを選ぶ(MIC)  
内積計算がカーネル関数の評価で行える空間で
共分散作用素のノルムを独立性の指標とする
(=> HSIC)

着目点② - 他の変数の影響 
8
二変数の間の関係は他の変数の影響を受けて現れる「見せかけの関係」の場合がある  
この例では、身長と算数の
点数が学年という変数の影
響を受けて高い相関を示す  
出典: R for Biologists SchoolChildrenMathsデータセット
https://www.ecarleton.ca/mod/folder/view.php?id=641
統計的消去(線形) 
条件付き独立性の検定(非線形)  
学年に対する標準身長・標
準的な算数の点数を線形
回帰で求めて元の変数(身
長・算数の点数)から引き、
残差の間の相関を計算  
参考 https://hoxo-m.hatenablog.com/entry/20130711/p1
条件付き相互情報量(Conditional Mutual
Information)などを評価

着目点② - 他の変数の影響 - 偏相関 
9
多変数(4以上とする)の場合、いちいち統計的消去を行えない→実は精度行列から求まる  
分散共分散行列
精度行列
逆行列の関係
相関行列(直接相関+疑似相関)
偏相関行列(直接相関)
データから定義通り計算
1. 逆行列計算で得る
2. 最適化計算で直接計算
(後述)
分散共分散行列から計算
1. 精度行列から計算
2. 相関行列から計算

着目点③ - スパース性 - Graphical Lasso 
10
偏相関はノイズの影響により完全に0になることは少ない→正則化でスパースにする  
データが多変量正規分布から生成されている、とい
う仮定をおいて、最尤法でパラメータ(精度行列)を
推定 
正規分布のPDFは精度行列で表せる   尤度関数 
対数尤度関数 
と書くことにする 
定数  とかける
+L1正則化 
出典: scikit-learn document
Sparse inverse covariance estimation
https://scikit-learn.org/stable/auto_examples/covariance/plot_sparse_c
ov.html#sphx-glr-auto-examples-covariance-plot-sparse-cov-py

着目点③ - スパース性 - 非線形な特徴選択法 
11
特徴選択などに用いることができる関連度自動決定(ARD)手法  
HSICLasso 
(超)高次元(1,000~)、少データ(~数百)における特徴選択で効果を発揮  
Bioinformaticsなどでよくあるシナリオらしい  
出典: https://ibisml.org/archive/ibis2012/D_day2.pdf

着目点④ - 時間発展 
12
機械システムなどではシステムの状態が変化することがある→変数の関係も変化  
sGMRFmix  Time-Varying Graphical Lasso(TVGL)  
複数のモードを持つようなシステム向けの異常検知手
法。Graphical Lasso + Gaussian Mixture Modelのよう
な感じ。モードごとに疎な偏相関を計算できる  
Graphical Lassoで推定される精度行列が各時刻で違
うものだとした上で、近接する精度行列が類似するよう
にん制約を課して最適化  
GLassoの目的関数  時間発展の仕方に
関する制約 
出典: https://dl.acm.org/doi/10.1145/3097983.3098037
出典: https://ide-research.net/papers/2016_ICDM_Ide.pdf

13
手法  非線形  他の変数の影響除去
  スパース性  時間発展  実装  備考 
相関  ❌  ❌  ❌  ❌  -  - 
偏相関  ❌  ✔  ❌  ❌  - 
次元が少ないとGLassoとほぼ同等の結果が得ら
れる 
Graphical Lasso  ❌  ✔  ✔  ❌ 
Python: sklearnにある 
R: glasso 
正規分布の仮定を逸脱すると計算が発散する
(正則化を強めるといい) 
MI  ✔  ❌  ❌  ❌ 
Python: 離散 , 連続 
R: infotheo 
- 
MIC  ✔  ❌  ❌  ❌ 
Python: minepy 
R: minerva 
- 
(Partial) dCor  ✔  ✔  ❌  ❌ 
Python: dcor 
R: energy 
False Positiveが多い
 
CMI  ✔  ✔  ❌  ❌ 
Python: NPEET, CCMI 
R: infotheo 
False Negativeが多いらしい(使ったことがな
い) 
HSIC  ✔  ❌  ❌  ❌ 
Python: hyppo 
R: dHSIC 
データ点数が多い時はつらい,O(n
3
) 
HSICLasso  ✔  ❌  ✔  ❌  Python: pyHSICLasso, cdt  割とよかった 
sGMRFmix  ❌  ✔  ✔  ✔ 
Python: sGMRFmix 
R: sGMRFmix 
外れ値の処理などが重要っぽい
 
TVGL  ❌  ✔  ✔  ✔  Python: tvgl  なぜか実装がPython2

参考・出典 
14
Reshef, David N., et al. "Detecting novel associations in large data
sets." science 334.6062 (2011): 1518-1524.
MIC 
HSIC 
https://www.jst.go.jp/kisoken/aip/program/inter/vol2_sympo/slides/par
t1_2_yamada.pdf
Gretton, Arthur, et al. "Measuring statistical dependence with
Hilbert-Schmidt norms." International conference on algorithmic
learning theory. Springer, Berlin, Heidelberg, 2005.
https://www.ism.ac.jp/~fukumizu/OsakaU2014/OsakaU_6kernelMea
n.pdf
dCor 
https://towardsdatascience.com/introducing-distance-correlation-a-su
perior-correlation-metric-d569dc8900c7
Székely, Gábor J., Maria L. Rizzo, and Nail K. Bakirov. "Measuring
and testing dependence by correlation of distances." The annals of
statistics 35.6 (2007): 2769-2794.
Friedman, Jerome, Trevor Hastie, and Robert Tibshirani. "Sparse
inverse covariance estimation with the graphical lasso." Biostatistics
9.3 (2008): 432-441.
Graphical Lasso 
Witten, Daniela M., Jerome H. Friedman, and Noah Simon. "New
insights and faster computations for the graphical lasso." Journal of
Computational and Graphical Statistics 20.4 (2011): 892-900.
sGMRFmix 
Idé, Tsuyoshi, Ankush Khandelwal, and Jayant Kalagnanam. "Sparse
Gaussian Markov random field mixtures for anomaly detection." 2016
IEEE 16th International Conference on Data Mining (ICDM). IEEE,
2016.
TVGL 
Hallac, David, et al. "Network inference via the time-varying graphical
lasso." Proceedings of the 23rd ACM SIGKDD International
Conference on Knowledge Discovery and Data Mining. 2017.

参考・出典 
15
LSMI 
CMI 
PMI 
HSICLasso 
Jitkrittum, Wittawat, Hirotaka Hachiya, and Masashi Sugiyama. "Feature
Selection via< mos00099. jpg> 1-Penalized Squared-Loss Mutual
Information." IEICE TRANSACTIONS on Information and Systems 96.7
(2013): 1513-1524.
Novovičová, Jana, et al. "Conditional mutual information based feature
selection for classification task." Iberoamerican Congress on Pattern
Recognition. Springer, Berlin, Heidelberg, 2007.
Mukherjee, Sudipto, Himanshu Asnani, and Sreeram Kannan. "CCMI:
Classifier based conditional mutual information estimation." Uncertainty
in Artificial Intelligence. PMLR, 2020.
Zhao, Juan, et al. "Part mutual information for quantifying direct
associations in networks." Proceedings of the National Academy of
Sciences 113.18 (2016): 5130-5135.
Yamada, Makoto, et al. "High-dimensional feature selection by
feature-wise kernelized lasso." Neural computation 26.1 (2014):
185-207.
https://github.com/riken-aip/pyHSICLasso

統計学勉強会#2

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à 統計学勉強会#2

Similaire à 統計学勉強会#2 (20)

統計学勉強会#2