SlideShare une entreprise Scribd logo
1  sur  15
Télécharger pour lire hors ligne
変数間の関係を捉えたいあなたへ

統計学勉強会#2

Hidehisa Arai (@kaggle_araisan)

出典: https://scikit-learn.org/stable/auto_examples/applications/plot_stock_market.html


自己紹介

2
● Hidehisa Arai (Twitter: @kaggle_araisan)




● この春大学院(航空宇宙工学専攻)を卒業しました




● 大学院では表現学習の研究をしていました




● NABLASという会社で働いていました


○ 異常検知などをしていました

○ 今日の話はそのときの調査内容が主です




● 趣味: Kaggle, 散歩...

背景

3
多変数データ間の関係を捉えたいという需要は生物情報・ 経済・機械システムなど多くの分野にある
生物情報学での活用例: タンパク質の構造推定 
 (複雑な)機械システムでの活用例: 

異常検知・原因特定補助 

タンパク質を構成するアミノ酸のうち近接している部
位は共進化†
を起こすという仮説をもとに、近接部位
の予測を行う

†
共進化: ペアの片方が変異した際、構造を保つためもう片方のペアも変異する
こと 

アミノ酸配列 コンタクトマップ
(よく知らない・・・)

正常な変数間の関係を学習しておきそこからの乖
離を異常とみなす。異常はセンサの関係ネットワー
クを伝播するという仮説から真因の特定に変数間
の関係を用いる

直接相関グラフの構築
相関異常度による
異常検知
参考: https://www.pnas.org/content/108/49/E1293 参考: https://latent-dynamics.net/01/2010_LD_Ide.pdf
おことわり

4
● 因果は扱わない

○ 因果探索という分野になる、難しい

○ 仮定が強いことが多いので研究レベル?ビジネスでの運用はされているの
だろうか?

○ NOTEARS†
というやつが面白いらしい



● 理論的な話はあんまりしない

○ 私自身があまり理解していない部分も結構ある

○ (むしろ教えて欲しい)



● 網羅的ではない(と思う)

○ 多分抜けがあるし、かなり偏っている

○ こういうのもあるよ!というのはぜひ教えてください!

†
https://github.com/xunzheng/notears
5
相関

偏相関

HSIC

Distance
Correlation

Partial Distance
Correlation

相互情報量(MI)

MIC

Squared-loss Mutual
Information

非線形

Graphical
Lasso 

sGMRFmix 

TVGL

他の変数の影
響を除去

時間発展を考慮

線形

HSICLasso 

Overview
l1
-LSMI

スパース性

CMI

PMI

着目点① - 線形と非線形

6
ピアソンの積率相関では下段のような関係は捉えられない 

● 相互情報量ベースの手法 

○ Mutual Information

○ Maximal Information Coefficient(MIC) 

■ 「21世紀の相関」

○ Squared-loss Mutual Information(SMI) 

○ Conditional Mutual Information(CMI) 

○ Part Mutual Information(PMI) 

● カーネル法使うやつ(よく理解できてない) 

○ Hilbert-Schmidt Information Criteria(HSIC) 

● Distance 〇〇(よく理解できてない) 

○ (Partial) Distance Correlation 

○ (Partial) Distance Covariance 

○ カーネル法使うやつの特殊ケースらしい †


線形
 非線形

● ピアソンの積率相関 

● 偏相関

● Graphical Lasso

†
https://www.ism.ac.jp/~fukumizu/OsakaU2014/OsakaU_6kernelMean.pdf
着目点① - 非線形な手法

7
相互情報量をベースとするもの 
 データ点を別の空間に射影した上で共分散
(のようなもの)を評価する 

離散

連続

密度推定

連続な場合は適当な分割で離散化をした上で計
算をする、など

離散化の恣意性を排除するために全ての分割を
試し一番いいものを選ぶ(MIC) 

内積計算がカーネル関数の評価で行える空間で
共分散作用素のノルムを独立性の指標とする
(=> HSIC)

着目点② - 他の変数の影響

8
二変数の間の関係は他の変数の影響を受けて現れる「見せかけの関係」の場合がある 

この例では、身長と算数の
点数が学年という変数の影
響を受けて高い相関を示す 

出典: R for Biologists SchoolChildrenMathsデータセット
https://www.ecarleton.ca/mod/folder/view.php?id=641
統計的消去(線形)

条件付き独立性の検定(非線形) 

学年に対する標準身長・標
準的な算数の点数を線形
回帰で求めて元の変数(身
長・算数の点数)から引き、
残差の間の相関を計算 

参考 https://hoxo-m.hatenablog.com/entry/20130711/p1
条件付き相互情報量(Conditional Mutual
Information)などを評価 

着目点② - 他の変数の影響 - 偏相関

9
多変数(4以上とする)の場合、いちいち統計的消去を行えない→実は精度行列から求まる 

分散共分散行列
精度行列
逆行列の関係
相関行列(直接相関+疑似相関)
偏相関行列(直接相関)
データから定義通り計算
1. 逆行列計算で得る
2. 最適化計算で直接計算
(後述)
分散共分散行列から計算
1. 精度行列から計算
2. 相関行列から計算
着目点③ - スパース性 - Graphical Lasso

10
偏相関はノイズの影響により完全に0になることは少ない→正則化でスパースにする 

データが多変量正規分布から生成されている、とい
う仮定をおいて、最尤法でパラメータ(精度行列)を
推定

正規分布のPDFは精度行列で表せる 
 尤度関数

対数尤度関数

と書くことにする

定数
 とかける
+L1正則化

出典: scikit-learn document
Sparse inverse covariance estimation
https://scikit-learn.org/stable/auto_examples/covariance/plot_sparse_c
ov.html#sphx-glr-auto-examples-covariance-plot-sparse-cov-py
着目点③ - スパース性 - 非線形な特徴選択法

11
特徴選択などに用いることができる関連度自動決定(ARD)手法 

HSICLasso

(超)高次元(1,000~)、少データ(~数百)における特徴選択で効果を発揮 

Bioinformaticsなどでよくあるシナリオらしい 

出典: https://ibisml.org/archive/ibis2012/D_day2.pdf
着目点④ - 時間発展

12
機械システムなどではシステムの状態が変化することがある→変数の関係も変化 

sGMRFmix
 Time-Varying Graphical Lasso(TVGL) 

複数のモードを持つようなシステム向けの異常検知手
法。Graphical Lasso + Gaussian Mixture Modelのよう
な感じ。モードごとに疎な偏相関を計算できる 

Graphical Lassoで推定される精度行列が各時刻で違
うものだとした上で、近接する精度行列が類似するよう
にん制約を課して最適化 

GLassoの目的関数
 時間発展の仕方に
関する制約

出典: https://dl.acm.org/doi/10.1145/3097983.3098037
出典: https://ide-research.net/papers/2016_ICDM_Ide.pdf
13
手法
 非線形
 他の変数の影響除去

 スパース性
 時間発展
 実装
 備考

相関
 ❌
 ❌
 ❌
 ❌
 -
 -

偏相関
 ❌
 ✔
 ❌
 ❌
 -

次元が少ないとGLassoとほぼ同等の結果が得ら
れる

Graphical Lasso
 ❌
 ✔
 ✔
 ❌

Python: sklearnにある

R: glasso

正規分布の仮定を逸脱すると計算が発散する
(正則化を強めるといい)

MI
 ✔
 ❌
 ❌
 ❌

Python: 離散 , 連続

R: infotheo

-

MIC
 ✔
 ❌
 ❌
 ❌

Python: minepy

R: minerva

-

(Partial) dCor
 ✔
 ✔
 ❌
 ❌

Python: dcor

R: energy

False Positiveが多い


CMI
 ✔
 ✔
 ❌
 ❌

Python: NPEET, CCMI

R: infotheo

False Negativeが多いらしい(使ったことがな
い)

HSIC
 ✔
 ❌
 ❌
 ❌

Python: hyppo

R: dHSIC

データ点数が多い時はつらい,O(n
3
)

HSICLasso
 ✔
 ❌
 ✔
 ❌
 Python: pyHSICLasso, cdt
 割とよかった

sGMRFmix
 ❌
 ✔
 ✔
 ✔

Python: sGMRFmix

R: sGMRFmix

外れ値の処理などが重要っぽい


TVGL
 ❌
 ✔
 ✔
 ✔
 Python: tvgl
 なぜか実装がPython2


参考・出典

14
Reshef, David N., et al. "Detecting novel associations in large data
sets." science 334.6062 (2011): 1518-1524.
MIC

HSIC

https://www.jst.go.jp/kisoken/aip/program/inter/vol2_sympo/slides/par
t1_2_yamada.pdf
Gretton, Arthur, et al. "Measuring statistical dependence with
Hilbert-Schmidt norms." International conference on algorithmic
learning theory. Springer, Berlin, Heidelberg, 2005.
https://www.ism.ac.jp/~fukumizu/OsakaU2014/OsakaU_6kernelMea
n.pdf
dCor

https://towardsdatascience.com/introducing-distance-correlation-a-su
perior-correlation-metric-d569dc8900c7
Székely, Gábor J., Maria L. Rizzo, and Nail K. Bakirov. "Measuring
and testing dependence by correlation of distances." The annals of
statistics 35.6 (2007): 2769-2794.
Friedman, Jerome, Trevor Hastie, and Robert Tibshirani. "Sparse
inverse covariance estimation with the graphical lasso." Biostatistics
9.3 (2008): 432-441.
Graphical Lasso

Witten, Daniela M., Jerome H. Friedman, and Noah Simon. "New
insights and faster computations for the graphical lasso." Journal of
Computational and Graphical Statistics 20.4 (2011): 892-900.
sGMRFmix

Idé, Tsuyoshi, Ankush Khandelwal, and Jayant Kalagnanam. "Sparse
Gaussian Markov random field mixtures for anomaly detection." 2016
IEEE 16th International Conference on Data Mining (ICDM). IEEE,
2016.
TVGL

Hallac, David, et al. "Network inference via the time-varying graphical
lasso." Proceedings of the 23rd ACM SIGKDD International
Conference on Knowledge Discovery and Data Mining. 2017.
参考・出典

15
LSMI

CMI

PMI

HSICLasso

Jitkrittum, Wittawat, Hirotaka Hachiya, and Masashi Sugiyama. "Feature
Selection via< mos00099. jpg> 1-Penalized Squared-Loss Mutual
Information." IEICE TRANSACTIONS on Information and Systems 96.7
(2013): 1513-1524.
Novovičová, Jana, et al. "Conditional mutual information based feature
selection for classification task." Iberoamerican Congress on Pattern
Recognition. Springer, Berlin, Heidelberg, 2007.
Mukherjee, Sudipto, Himanshu Asnani, and Sreeram Kannan. "CCMI:
Classifier based conditional mutual information estimation." Uncertainty
in Artificial Intelligence. PMLR, 2020.
Zhao, Juan, et al. "Part mutual information for quantifying direct
associations in networks." Proceedings of the National Academy of
Sciences 113.18 (2016): 5130-5135.
Yamada, Makoto, et al. "High-dimensional feature selection by
feature-wise kernelized lasso." Neural computation 26.1 (2014):
185-207.
https://github.com/riken-aip/pyHSICLasso

Contenu connexe

Tendances

最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門joisino
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?Fumihiko Takahashi
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類Shintaro Fukushima
 
PRML輪読#8
PRML輪読#8PRML輪読#8
PRML輪読#8matsuolab
 
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)Satoshi Hara
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language ModelsDeep Learning JP
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
 
4 データ間の距離と類似度
4 データ間の距離と類似度4 データ間の距離と類似度
4 データ間の距離と類似度Seiichi Uchida
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法Deep Learning JP
 
データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度Seiichi Uchida
 
Active Learning と Bayesian Neural Network
Active Learning と Bayesian Neural NetworkActive Learning と Bayesian Neural Network
Active Learning と Bayesian Neural NetworkNaoki Matsunaga
 
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展Shiga University, RIKEN
 
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化gree_tech
 
変数同士の関連_MIC
変数同士の関連_MIC変数同士の関連_MIC
変数同士の関連_MICShushi Namba
 
最適化計算の概要まとめ
最適化計算の概要まとめ最適化計算の概要まとめ
最適化計算の概要まとめYuichiro MInato
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)RyuichiKanoh
 

Tendances (20)

最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
 
MICの解説
MICの解説MICの解説
MICの解説
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
 
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
 
PRML輪読#8
PRML輪読#8PRML輪読#8
PRML輪読#8
 
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
4 データ間の距離と類似度
4 データ間の距離と類似度4 データ間の距離と類似度
4 データ間の距離と類似度
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
 
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM) 一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
 
データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度
 
Active Learning と Bayesian Neural Network
Active Learning と Bayesian Neural NetworkActive Learning と Bayesian Neural Network
Active Learning と Bayesian Neural Network
 
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
 
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化
 
変数同士の関連_MIC
変数同士の関連_MIC変数同士の関連_MIC
変数同士の関連_MIC
 
最適化計算の概要まとめ
最適化計算の概要まとめ最適化計算の概要まとめ
最適化計算の概要まとめ
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 

Similaire à 統計学勉強会#2

科学技術イノベーション政策におけるBig-Dataの利活用促進 SPIAS: SciREX 政策形成インテリジェント支援システムの構想
科学技術イノベーション政策におけるBig-Dataの利活用促進 SPIAS: SciREX 政策形成インテリジェント支援システムの構想科学技術イノベーション政策におけるBig-Dataの利活用促進 SPIAS: SciREX 政策形成インテリジェント支援システムの構想
科学技術イノベーション政策におけるBig-Dataの利活用促進 SPIAS: SciREX 政策形成インテリジェント支援システムの構想scirexcenter
 
(2020.9) 機械学習による化学反応の予測と設計
(2020.9) 機械学習による化学反応の予測と設計(2020.9) 機械学習による化学反応の予測と設計
(2020.9) 機械学習による化学反応の予測と設計Ichigaku Takigawa
 
ナレッジグラフとオントロジー
ナレッジグラフとオントロジーナレッジグラフとオントロジー
ナレッジグラフとオントロジーUniversity of Tsukuba
 
[2019-03-14] JSPP19 深層学習による植物注釈タスクとPublic Cloud活用法
[2019-03-14] JSPP19 深層学習による植物注釈タスクとPublic Cloud活用法[2019-03-14] JSPP19 深層学習による植物注釈タスクとPublic Cloud活用法
[2019-03-14] JSPP19 深層学習による植物注釈タスクとPublic Cloud活用法Eli Kaminuma
 
データサイエンティストのつくり方
データサイエンティストのつくり方データサイエンティストのつくり方
データサイエンティストのつくり方Shohei Hido
 
機械学習品質管理・保証の動向と取り組み
機械学習品質管理・保証の動向と取り組み機械学習品質管理・保証の動向と取り組み
機械学習品質管理・保証の動向と取り組みShintaro Fukushima
 
オープンサイエンス〜情報と公共図書館の接点
オープンサイエンス〜情報と公共図書館の接点オープンサイエンス〜情報と公共図書館の接点
オープンサイエンス〜情報と公共図書館の接点Ui Ikeuchi
 
Data Visualization Japan Meetup 2018: 長く変化に対応する
Data Visualization Japan Meetup 2018: 長く変化に対応するData Visualization Japan Meetup 2018: 長く変化に対応する
Data Visualization Japan Meetup 2018: 長く変化に対応するKeiichiro Ono
 
(2017.8.27) Elasticsearchと科学技術ビッグデータが切り拓く日本の知の俯瞰と発見
(2017.8.27) Elasticsearchと科学技術ビッグデータが切り拓く日本の知の俯瞰と発見(2017.8.27) Elasticsearchと科学技術ビッグデータが切り拓く日本の知の俯瞰と発見
(2017.8.27) Elasticsearchと科学技術ビッグデータが切り拓く日本の知の俯瞰と発見Mitsutoshi Kiuchi
 
20180117_ICON技術セミナー4_常盤
20180117_ICON技術セミナー4_常盤20180117_ICON技術セミナー4_常盤
20180117_ICON技術セミナー4_常盤ICT_CONNECT_21
 
オープンデータを使った新しいビジネスモデルの可能性(データビジネス創造フォーラム)
オープンデータを使った新しいビジネスモデルの可能性(データビジネス創造フォーラム)オープンデータを使った新しいビジネスモデルの可能性(データビジネス創造フォーラム)
オープンデータを使った新しいビジネスモデルの可能性(データビジネス創造フォーラム)Tetsuro Toyoda
 
altmetrics - measuring research impact on the web
altmetrics - measuring research impact on the webaltmetrics - measuring research impact on the web
altmetrics - measuring research impact on the webKeita Bando
 
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Preferred Networks
 
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...Deep Learning JP
 
戦略的創造研究推進事業の戦略目標策定におけるサイエンスマップ等のデータ活用例の紹介
戦略的創造研究推進事業の戦略目標策定におけるサイエンスマップ等のデータ活用例の紹介戦略的創造研究推進事業の戦略目標策定におけるサイエンスマップ等のデータ活用例の紹介
戦略的創造研究推進事業の戦略目標策定におけるサイエンスマップ等のデータ活用例の紹介scirexcenter
 
論文紹介: "MolGAN: An implicit generative model for small molecular graphs"
論文紹介: "MolGAN: An implicit generative model for small molecular graphs"論文紹介: "MolGAN: An implicit generative model for small molecular graphs"
論文紹介: "MolGAN: An implicit generative model for small molecular graphs"Ryohei Suzuki
 
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太Preferred Networks
 

Similaire à 統計学勉強会#2 (20)

科学技術イノベーション政策におけるBig-Dataの利活用促進 SPIAS: SciREX 政策形成インテリジェント支援システムの構想
科学技術イノベーション政策におけるBig-Dataの利活用促進 SPIAS: SciREX 政策形成インテリジェント支援システムの構想科学技術イノベーション政策におけるBig-Dataの利活用促進 SPIAS: SciREX 政策形成インテリジェント支援システムの構想
科学技術イノベーション政策におけるBig-Dataの利活用促進 SPIAS: SciREX 政策形成インテリジェント支援システムの構想
 
(2020.9) 機械学習による化学反応の予測と設計
(2020.9) 機械学習による化学反応の予測と設計(2020.9) 機械学習による化学反応の予測と設計
(2020.9) 機械学習による化学反応の予測と設計
 
ナレッジグラフとオントロジー
ナレッジグラフとオントロジーナレッジグラフとオントロジー
ナレッジグラフとオントロジー
 
[2019-03-14] JSPP19 深層学習による植物注釈タスクとPublic Cloud活用法
[2019-03-14] JSPP19 深層学習による植物注釈タスクとPublic Cloud活用法[2019-03-14] JSPP19 深層学習による植物注釈タスクとPublic Cloud活用法
[2019-03-14] JSPP19 深層学習による植物注釈タスクとPublic Cloud活用法
 
データサイエンティストのつくり方
データサイエンティストのつくり方データサイエンティストのつくり方
データサイエンティストのつくり方
 
機械学習品質管理・保証の動向と取り組み
機械学習品質管理・保証の動向と取り組み機械学習品質管理・保証の動向と取り組み
機械学習品質管理・保証の動向と取り組み
 
オープンサイエンス〜情報と公共図書館の接点
オープンサイエンス〜情報と公共図書館の接点オープンサイエンス〜情報と公共図書館の接点
オープンサイエンス〜情報と公共図書館の接点
 
Data Visualization Japan Meetup 2018: 長く変化に対応する
Data Visualization Japan Meetup 2018: 長く変化に対応するData Visualization Japan Meetup 2018: 長く変化に対応する
Data Visualization Japan Meetup 2018: 長く変化に対応する
 
(2017.8.27) Elasticsearchと科学技術ビッグデータが切り拓く日本の知の俯瞰と発見
(2017.8.27) Elasticsearchと科学技術ビッグデータが切り拓く日本の知の俯瞰と発見(2017.8.27) Elasticsearchと科学技術ビッグデータが切り拓く日本の知の俯瞰と発見
(2017.8.27) Elasticsearchと科学技術ビッグデータが切り拓く日本の知の俯瞰と発見
 
20180117_ICON技術セミナー4_常盤
20180117_ICON技術セミナー4_常盤20180117_ICON技術セミナー4_常盤
20180117_ICON技術セミナー4_常盤
 
オープンデータを使った新しいビジネスモデルの可能性(データビジネス創造フォーラム)
オープンデータを使った新しいビジネスモデルの可能性(データビジネス創造フォーラム)オープンデータを使った新しいビジネスモデルの可能性(データビジネス創造フォーラム)
オープンデータを使った新しいビジネスモデルの可能性(データビジネス創造フォーラム)
 
バイオサイエンス分野における機械学習応用研究の最新動向
バイオサイエンス分野における機械学習応用研究の最新動向バイオサイエンス分野における機械学習応用研究の最新動向
バイオサイエンス分野における機械学習応用研究の最新動向
 
altmetrics - measuring research impact on the web
altmetrics - measuring research impact on the webaltmetrics - measuring research impact on the web
altmetrics - measuring research impact on the web
 
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
 
LODチャレンジ Japan 2013 審査員特別賞 ライフサイエンス賞
LODチャレンジ Japan 2013 審査員特別賞 ライフサイエンス賞LODチャレンジ Japan 2013 審査員特別賞 ライフサイエンス賞
LODチャレンジ Japan 2013 審査員特別賞 ライフサイエンス賞
 
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
 
戦略的創造研究推進事業の戦略目標策定におけるサイエンスマップ等のデータ活用例の紹介
戦略的創造研究推進事業の戦略目標策定におけるサイエンスマップ等のデータ活用例の紹介戦略的創造研究推進事業の戦略目標策定におけるサイエンスマップ等のデータ活用例の紹介
戦略的創造研究推進事業の戦略目標策定におけるサイエンスマップ等のデータ活用例の紹介
 
Sgepss2013 koyama
Sgepss2013 koyamaSgepss2013 koyama
Sgepss2013 koyama
 
論文紹介: "MolGAN: An implicit generative model for small molecular graphs"
論文紹介: "MolGAN: An implicit generative model for small molecular graphs"論文紹介: "MolGAN: An implicit generative model for small molecular graphs"
論文紹介: "MolGAN: An implicit generative model for small molecular graphs"
 
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
 

統計学勉強会#2

  • 1. 変数間の関係を捉えたいあなたへ
 統計学勉強会#2
 Hidehisa Arai (@kaggle_araisan)
 出典: https://scikit-learn.org/stable/auto_examples/applications/plot_stock_market.html 

  • 2. 自己紹介
 2 ● Hidehisa Arai (Twitter: @kaggle_araisan) 
 
 ● この春大学院(航空宇宙工学専攻)を卒業しました 
 
 ● 大学院では表現学習の研究をしていました 
 
 ● NABLASという会社で働いていました 
 ○ 異常検知などをしていました
 ○ 今日の話はそのときの調査内容が主です 
 
 ● 趣味: Kaggle, 散歩...

  • 3. 背景
 3 多変数データ間の関係を捉えたいという需要は生物情報・ 経済・機械システムなど多くの分野にある 生物情報学での活用例: タンパク質の構造推定 
 (複雑な)機械システムでの活用例: 
 異常検知・原因特定補助 
 タンパク質を構成するアミノ酸のうち近接している部 位は共進化† を起こすという仮説をもとに、近接部位 の予測を行う
 † 共進化: ペアの片方が変異した際、構造を保つためもう片方のペアも変異する こと 
 アミノ酸配列 コンタクトマップ (よく知らない・・・)
 正常な変数間の関係を学習しておきそこからの乖 離を異常とみなす。異常はセンサの関係ネットワー クを伝播するという仮説から真因の特定に変数間 の関係を用いる
 直接相関グラフの構築 相関異常度による 異常検知 参考: https://www.pnas.org/content/108/49/E1293 参考: https://latent-dynamics.net/01/2010_LD_Ide.pdf
  • 4. おことわり
 4 ● 因果は扱わない
 ○ 因果探索という分野になる、難しい
 ○ 仮定が強いことが多いので研究レベル?ビジネスでの運用はされているの だろうか?
 ○ NOTEARS† というやつが面白いらしい
 
 ● 理論的な話はあんまりしない
 ○ 私自身があまり理解していない部分も結構ある
 ○ (むしろ教えて欲しい)
 
 ● 網羅的ではない(と思う)
 ○ 多分抜けがあるし、かなり偏っている
 ○ こういうのもあるよ!というのはぜひ教えてください!
 † https://github.com/xunzheng/notears
  • 5. 5 相関
 偏相関
 HSIC
 Distance Correlation
 Partial Distance Correlation
 相互情報量(MI)
 MIC
 Squared-loss Mutual Information
 非線形
 Graphical Lasso 
 sGMRFmix 
 TVGL
 他の変数の影 響を除去
 時間発展を考慮
 線形
 HSICLasso 
 Overview l1 -LSMI
 スパース性
 CMI
 PMI

  • 6. 着目点① - 線形と非線形
 6 ピアソンの積率相関では下段のような関係は捉えられない 
 ● 相互情報量ベースの手法 
 ○ Mutual Information
 ○ Maximal Information Coefficient(MIC) 
 ■ 「21世紀の相関」
 ○ Squared-loss Mutual Information(SMI) 
 ○ Conditional Mutual Information(CMI) 
 ○ Part Mutual Information(PMI) 
 ● カーネル法使うやつ(よく理解できてない) 
 ○ Hilbert-Schmidt Information Criteria(HSIC) 
 ● Distance 〇〇(よく理解できてない) 
 ○ (Partial) Distance Correlation 
 ○ (Partial) Distance Covariance 
 ○ カーネル法使うやつの特殊ケースらしい † 
 線形
 非線形
 ● ピアソンの積率相関 
 ● 偏相関
 ● Graphical Lasso
 † https://www.ism.ac.jp/~fukumizu/OsakaU2014/OsakaU_6kernelMean.pdf
  • 7. 着目点① - 非線形な手法
 7 相互情報量をベースとするもの 
 データ点を別の空間に射影した上で共分散 (のようなもの)を評価する 
 離散
 連続
 密度推定
 連続な場合は適当な分割で離散化をした上で計 算をする、など
 離散化の恣意性を排除するために全ての分割を 試し一番いいものを選ぶ(MIC) 
 内積計算がカーネル関数の評価で行える空間で 共分散作用素のノルムを独立性の指標とする (=> HSIC)

  • 8. 着目点② - 他の変数の影響
 8 二変数の間の関係は他の変数の影響を受けて現れる「見せかけの関係」の場合がある 
 この例では、身長と算数の 点数が学年という変数の影 響を受けて高い相関を示す 
 出典: R for Biologists SchoolChildrenMathsデータセット https://www.ecarleton.ca/mod/folder/view.php?id=641 統計的消去(線形)
 条件付き独立性の検定(非線形) 
 学年に対する標準身長・標 準的な算数の点数を線形 回帰で求めて元の変数(身 長・算数の点数)から引き、 残差の間の相関を計算 
 参考 https://hoxo-m.hatenablog.com/entry/20130711/p1 条件付き相互情報量(Conditional Mutual Information)などを評価 

  • 9. 着目点② - 他の変数の影響 - 偏相関
 9 多変数(4以上とする)の場合、いちいち統計的消去を行えない→実は精度行列から求まる 
 分散共分散行列 精度行列 逆行列の関係 相関行列(直接相関+疑似相関) 偏相関行列(直接相関) データから定義通り計算 1. 逆行列計算で得る 2. 最適化計算で直接計算 (後述) 分散共分散行列から計算 1. 精度行列から計算 2. 相関行列から計算
  • 10. 着目点③ - スパース性 - Graphical Lasso
 10 偏相関はノイズの影響により完全に0になることは少ない→正則化でスパースにする 
 データが多変量正規分布から生成されている、とい う仮定をおいて、最尤法でパラメータ(精度行列)を 推定
 正規分布のPDFは精度行列で表せる 
 尤度関数
 対数尤度関数
 と書くことにする
 定数
 とかける +L1正則化
 出典: scikit-learn document Sparse inverse covariance estimation https://scikit-learn.org/stable/auto_examples/covariance/plot_sparse_c ov.html#sphx-glr-auto-examples-covariance-plot-sparse-cov-py
  • 11. 着目点③ - スパース性 - 非線形な特徴選択法
 11 特徴選択などに用いることができる関連度自動決定(ARD)手法 
 HSICLasso
 (超)高次元(1,000~)、少データ(~数百)における特徴選択で効果を発揮 
 Bioinformaticsなどでよくあるシナリオらしい 
 出典: https://ibisml.org/archive/ibis2012/D_day2.pdf
  • 12. 着目点④ - 時間発展
 12 機械システムなどではシステムの状態が変化することがある→変数の関係も変化 
 sGMRFmix
 Time-Varying Graphical Lasso(TVGL) 
 複数のモードを持つようなシステム向けの異常検知手 法。Graphical Lasso + Gaussian Mixture Modelのよう な感じ。モードごとに疎な偏相関を計算できる 
 Graphical Lassoで推定される精度行列が各時刻で違 うものだとした上で、近接する精度行列が類似するよう にん制約を課して最適化 
 GLassoの目的関数
 時間発展の仕方に 関する制約
 出典: https://dl.acm.org/doi/10.1145/3097983.3098037 出典: https://ide-research.net/papers/2016_ICDM_Ide.pdf
  • 13. 13 手法
 非線形
 他の変数の影響除去 
 スパース性
 時間発展
 実装
 備考
 相関
 ❌
 ❌
 ❌
 ❌
 -
 -
 偏相関
 ❌
 ✔
 ❌
 ❌
 -
 次元が少ないとGLassoとほぼ同等の結果が得ら れる
 Graphical Lasso
 ❌
 ✔
 ✔
 ❌
 Python: sklearnにある
 R: glasso
 正規分布の仮定を逸脱すると計算が発散する (正則化を強めるといい)
 MI
 ✔
 ❌
 ❌
 ❌
 Python: 離散 , 連続
 R: infotheo
 -
 MIC
 ✔
 ❌
 ❌
 ❌
 Python: minepy
 R: minerva
 -
 (Partial) dCor
 ✔
 ✔
 ❌
 ❌
 Python: dcor
 R: energy
 False Positiveが多い 
 CMI
 ✔
 ✔
 ❌
 ❌
 Python: NPEET, CCMI
 R: infotheo
 False Negativeが多いらしい(使ったことがな い)
 HSIC
 ✔
 ❌
 ❌
 ❌
 Python: hyppo
 R: dHSIC
 データ点数が多い時はつらい,O(n 3 )
 HSICLasso
 ✔
 ❌
 ✔
 ❌
 Python: pyHSICLasso, cdt
 割とよかった
 sGMRFmix
 ❌
 ✔
 ✔
 ✔
 Python: sGMRFmix
 R: sGMRFmix
 外れ値の処理などが重要っぽい 
 TVGL
 ❌
 ✔
 ✔
 ✔
 Python: tvgl
 なぜか実装がPython2 

  • 14. 参考・出典
 14 Reshef, David N., et al. "Detecting novel associations in large data sets." science 334.6062 (2011): 1518-1524. MIC
 HSIC
 https://www.jst.go.jp/kisoken/aip/program/inter/vol2_sympo/slides/par t1_2_yamada.pdf Gretton, Arthur, et al. "Measuring statistical dependence with Hilbert-Schmidt norms." International conference on algorithmic learning theory. Springer, Berlin, Heidelberg, 2005. https://www.ism.ac.jp/~fukumizu/OsakaU2014/OsakaU_6kernelMea n.pdf dCor
 https://towardsdatascience.com/introducing-distance-correlation-a-su perior-correlation-metric-d569dc8900c7 Székely, Gábor J., Maria L. Rizzo, and Nail K. Bakirov. "Measuring and testing dependence by correlation of distances." The annals of statistics 35.6 (2007): 2769-2794. Friedman, Jerome, Trevor Hastie, and Robert Tibshirani. "Sparse inverse covariance estimation with the graphical lasso." Biostatistics 9.3 (2008): 432-441. Graphical Lasso
 Witten, Daniela M., Jerome H. Friedman, and Noah Simon. "New insights and faster computations for the graphical lasso." Journal of Computational and Graphical Statistics 20.4 (2011): 892-900. sGMRFmix
 Idé, Tsuyoshi, Ankush Khandelwal, and Jayant Kalagnanam. "Sparse Gaussian Markov random field mixtures for anomaly detection." 2016 IEEE 16th International Conference on Data Mining (ICDM). IEEE, 2016. TVGL
 Hallac, David, et al. "Network inference via the time-varying graphical lasso." Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2017.
  • 15. 参考・出典
 15 LSMI
 CMI
 PMI
 HSICLasso
 Jitkrittum, Wittawat, Hirotaka Hachiya, and Masashi Sugiyama. "Feature Selection via< mos00099. jpg> 1-Penalized Squared-Loss Mutual Information." IEICE TRANSACTIONS on Information and Systems 96.7 (2013): 1513-1524. Novovičová, Jana, et al. "Conditional mutual information based feature selection for classification task." Iberoamerican Congress on Pattern Recognition. Springer, Berlin, Heidelberg, 2007. Mukherjee, Sudipto, Himanshu Asnani, and Sreeram Kannan. "CCMI: Classifier based conditional mutual information estimation." Uncertainty in Artificial Intelligence. PMLR, 2020. Zhao, Juan, et al. "Part mutual information for quantifying direct associations in networks." Proceedings of the National Academy of Sciences 113.18 (2016): 5130-5135. Yamada, Makoto, et al. "High-dimensional feature selection by feature-wise kernelized lasso." Neural computation 26.1 (2014): 185-207. https://github.com/riken-aip/pyHSICLasso