SlideShare une entreprise Scribd logo
1  sur  31
Télécharger pour lire hors ligne
2015/11/14
WACODE 3rd
BAHSICアルゴリズムによる
⾮非線形データからの特徴選択
@nakaneko143
⾃自⼰己紹介
•  所属:理理化学研究所  情報基盤センター
– バイオインフォマティクス
研究開発ユニット (http://bit.riken.jp/)
•  テクニカルスタッフ
–  Galaxyによる解析パイプラインGUI化
–  Single-Cell RNA-Seq 解析
和光市イメージキャラクター
「わこうっち」
⾮非線形データの次元圧縮⼿手法
前回のテーマ
http://www.slideshare.net/mikayoshimura50/150905-wacode-2nd
次元圧縮の⽬目的
次元圧縮は、
“データの本質的な構造”を
わかりやすくする⼿手法
http://cdn.intechopen.com/pdfs-wm/19147.pdf
最終的には、
データが⽰示す「意味」
を解釈したい
ステップ1:特徴抽出
Feature Extraction
データを説明するために必要な特徴を
全体から抽出すること
Principal component analysis
Semidefinite embedding
Multifactor dimensionality reduction
Multilinear subspace learning
Nonlinear dimensionality reduction
Isomap
Kernel PCA
Multilinear PCA
Latent semantic analysis
Partial least squares
Independent component analysis
Autoencoder https://en.wikipedia.org/wiki/Feature_extraction
沢⼭山ある
(次元圧縮は
その⼀一⼿手法)
ステップ2:特徴選択
Feature Selection
抽出した特徴の集合のうち、
意味のあるものを選択すること
•  例例:DNAマイクロアレイやRNA-Seqの
発現データから、結果に影響⼒力力のある
未知の遺伝⼦子を検出する
https://en.wikipedia.org/wiki/Feature_selection
©和光市
今回のテーマ
⾮非線形データの特徴選択
〜~BAHSICアルゴリズム
今回の⽬目次
1.  線形データの特徴選択
2.  従来⼿手法 (SVM)
3. BAHSICアルゴリズム
4. 性能⽐比較
©和光市
線形データの特徴選択
•  主成分分析(PCA) の場合
– 主成分スコアから因⼦子負荷量量を計算
X軸
Y軸
主成分軸
主成分スコア
正規化した
データ
•  主成分スコア:正規化した
元データ⾏行行列列×固有ベクトルで
得られる射影後の座標
•  因⼦子負荷量量:正規化した
元データ⾏行行列列と
第N主成分スコアとの相関係数
第N主成分に強く関係
→相関が⼤大きくなる
線形データの特徴選択
•  主成分分析(PCA) の場合
– 主成分スコアから因⼦子負荷量量を計算
•  主成分スコア = 正規化した元データ⾏行行列列×
固有ベクトルで得られるPC1, PC2…
X軸
Y軸
主成分軸
主成分スコア
正規化した
データ
★因⼦子負荷量量★
正規化した元データ⾏行行列列と
第N主成分スコアとの
相関係数
主成分に強く関与している
→相関が⼤大きい
⾮非線形データでは適⽤用できない
例例)カーネルPCA
主成分分析を⾏行行うデータ空間は元のデータ空間ではない
(詳細は後述)
©和光市
従来⼿手法(SVM)
•  Vapnik et.al,1995
•  ⾮非線形データでの代表的な特徴選択⼿手法
•  ★SVMの原理理
•  2クラスを分離離する最も良良い
識識別⾯面を求める  
•  ⽬目的関数は、カーネルのような
⾮非線形の場合にも適⽤用できる
•  ★特徴選択
•  識識別に重要なデータ点のみを
選べばよい
http://docs.opencv.org/2.4/doc/tutorials/ml/
introduction_to_svm/introduction_to_svm.html
従来⼿手法(SVM)
•  Vapnik et.al,1995
•  ⾮非線形データでの代表的な特徴選択⼿手法
•  ★SVMの原理理
•  2クラスを分離離する最も良良い
識識別⾯面を求める  
•  ⽬目的関数は、カーネルのような
⾮非線形の場合にも適⽤用できる
•  ★特徴選択
•  識識別に重要なデータ点のみを
選べばよい
http://docs.opencv.org/2.4/doc/tutorials/ml/
introduction_to_svm/introduction_to_svm.html
マルチクラス(多群)には適⽤用できない
SVMは基本的に2クラス分類器
※マルチクラス適⽤用可能な改良良版SVMも
存在するが、決定打はまだ?
©和光市
今回のモチベーション
•  実際の解析データでは⾮非線形、
マルチクラスな性質のものが多い
•  特徴抽出⼿手法は⾊色々ある
•  特徴選択⼿手法でいいものはないだろうか
BAHSICアルゴリズム
•  Backward elimination using
Hilbert-Schmidt Independence Criterion
•  直訳:ヒルベルトシュミット独⽴立立性基準を
⽤用いた逆⽅方向消去法
•  Journal of Machine Learning Research 13 (2012)
1393-1434
•  ⻑⾧長所
– ⾮非線形データ、マルチクラス対応の特徴選択
– ロバストネスである
ヒルベルトシュミット
独⽴立立性基準  とは何か
•  空間の独⽴立立性をはかる基準
– 特徴空間とクラスラベル空間をイメージ
– もっとも相関するような要素を特徴空間から選ぶ
– BAHSICは↑のアルゴリズム
•  数式など詳細は
「カーネル法⼊入⾨門(朝倉書店)」
の9章をご参照ください
[前提] カーネル法
•  データを⾼高次元の特徴空間に写像する⼿手法
•  カーネルPCA
– 固有値問題はPCAと共通で、
共分散⾏行行列列Sを、特徴空間の内積⾏行行列列
(カーネル関数値)に置き換えたもの
http://www.murata.eb.waseda.ac.jp/researches/kernel
xi
xj
Φ
特徴写像
Φ(xi )
Φ(xj )
[前提] カーネル関数と正定値性
– 特徴写像Φ(X)を、Hの特徴ベクトルとみなす
– カーネルとは内積をデータから計算する関数
– カーネル関数は対称性と正定値性をみたす
Φ :Ω → Η
特徴写像 特徴空間
Φ(Χi ),Φ(Χj ) =k(Χi,Χj )
cicj
i, j=1
n
∑ k(xi, xj ) ≥ 0k(x, y) = k(y, x)
※x, y, c は任意とする
→カーネルトリック
[前提] ヒルベルト空間
•  乱暴暴に⾔言うと、
「内積を定義したベクトル空間」
•  厳密には
– 無限次元空間
– 完備性が保証されている
•  …今回はスキップ
©和光市
[前提] 再⽣生核ヒルベルト空間
•  再⽣生性をもつヒルベルト空間
– 空間Hが集合Xの関数f で構成され、
任意の  x ∈ X に対しカーネルkx があるとき
– fとkx の内積は  f(x) の値に等しい  =再⽣生性
– カーネルトリックを導くのはこの性質
f,k(⋅, x) Η
=f (x)
Φ(x),Φ(y) =k(x, y)
f,g = αi
i=1
m
∑ k(⋅, xj ), βi
i=1
m
∑ k(⋅, xj )
= αi
j=1
m
∑ βi
i=1
m
∑ k(⋅, xi ),k(⋅, xj )
= αi
j=1
m
∑ βj
i=1
m
∑ k(xj, xi )
核=カーネル
[前提] 再⽣生核ヒルベルト空間
•  テンソル積 = 空間の積がつくる新たな空間
2つの正定値カーネルk1,k2と対応する
再⽣生核ヒルベルト空間をH1,H2とする
Ø H1,H2のテンソル積は、カーネルの積空間
k(x,x’) = k1(x,x’)k2(x,x’) である
•  積空間のカーネルも正定値性をみたす
•  よって、再⽣生核ヒルベルト空間のテンソル積は、
カーネルで陽に表せる(超重要)
Η1⊗Η2
これらの前提が意味すること
•  再⽣生核ヒルベルト空間上で、
確率率率分布に関する推論論ができる
– よって分布の均⼀一性、独⽴立立性、依存性、
条件付き独⽴立立性or依存性  を測る問題も
解決できる
ユークリッド空間 再⽣生核ヒルベルト空間
平均 平均
共分散 相互共分散作⽤用素
標本共分散 標本相互共分散作⽤用素
ヒルベルトシュミット独⽴立立性基準
…共分散&線形作⽤用素の発展
再⽣生核ヒルベルト空間における表現
平均
共分散
ˆm(n)
k
=
1
n
k(⋅, Xi )
i=1
n
∑ =
1
n
Φ(Xi )
i=1
n
∑
(Ω, B): 測度度空間
X, Y: Ω に値をとる確率率率変数, k: Ω上の可測な正定値カーネル
cov[ f (X),g(Y)]=
E[ f (X)g(Y)]− E[ f (X)]E[g(Y)] = g,ΣYX f HY
相互共分散作⽤用素
ΣYX
http://www.ism.ac.jp/~fukumizu/OsakaU2014/OsakaU_6kernelMean.pdf
•  相互共分散作⽤用素はヒルベルトシュミット
ノルムによって、グラム⾏行行列列の計算になる
※定理理より
HSICはX,Yの独⽴立立性を判定できる基準となる
HSIC(HY , Hx,PrYX ) = ˆΣ(n)
YX
HS
2
= (n −1)−2
Tr(GxGY )
ΣYX = EYX [(Ψ(Y)−µY )⊗ (Φ(X)−µX )]
G: 中⼼心化グラム⾏行行列列
HSICと独⽴立立性の関係
X ⊥ Y ⇔ ΣYX = 0 ⇔ HISC(X,Y) = 0
(xi, yi ){ }i=1
n
Pr:
HSICの応⽤用例例
1.  独⽴立立成分分析
– 分解後の成分同⼠士が最も独⽴立立になるようにする
2.  次元削減、特徴選択
– ⼊入⼒力力と出⼒力力の独⽴立立性
•  最も独⽴立立なものを取り除く =次元圧縮
•  最も従属なものを選ぶ =特徴選択
3.  クラスタリング
– ⼊入⼒力力と最も従属になるようなラベルを付与
1) Journal of Machine Learning Research 3 (2002) 1-48
2) Algorithmic Learning Theory 3734 (2005) 63-77
Bibliometrics (2007) 823-830
3) Journal of Machine Learning Research (2004) 73-99
遺伝⼦子発現データからの特徴選択
•  Gene selection via
the BAHSIC family of algorithms
– Bioinformatics (2007) 23 (13): i490-i498.
– HSICを⽤用いた逆⽅方向消去法(BAHSIC)
アルゴリズムによる特徴選択
– 28 microarray datasets
•  15:2クラス, 13:マルチクラス
•  次元数 ~∼2000 to 25000
– ~∼50 and 300 samples
BAHSICアルゴリズム
[特徴 (フルセット)] : ⼊入⼒力力  
[特徴 (選択済み)] : 出⼒力力  
カーネルのpram最適化
Sに含まれる特徴のうち
{j} を除いたものでHSICを計算
★ 除く特徴は多すぎても少なすぎても良良くない
→ 各イテレーションで全体の10%の特徴を除くくらいが良良いらしい
Bioinformatics (2007) 23 (13): i490-i498.
⽐比較結果-1
BAHSIC Other
線形
カーネル
ガウス
カーネル
距離離 SVM Norm
SVM
相互
情報量量
Linear
Data
6 6 6 6 6 6
6 6 6 6 6 6
Non-
Linear
Data
1934 6 6 1721 30 6
2041 7 6 1802 33 6
★ ⼈人為的にアーティファクトな遺伝⼦子を10個加えて、
特徴選択 →ランキングの中央値を算出
★ 10未満であれば、その⼿手法は良良く検出できている
Table 3/ Bioinformatics (2007) 23 (13): i490-i498.
⽐比較結果-2 (all BAHSIC)
線形
カーネル
ガウス
カーネル
距離離線形
カーネル
Dataset A
Dataset B
★ X軸:トップランクgeneの発現量量 Y軸:最も相関の低いgeneの発現量量
Figure 2/ Bioinformatics (2007) 23 (13): i490-i498.
Results & 所感
•  線形識識別可能なデータ
– BAHSIC + 線形カーネルが最も良良い
•  ⾮非線形データ + マルチクラス
– BAHSIC + ガウスカーネル  or 距離離、
相互情報量量が適切切 (それ以外は壊滅的)
•  気になる点
– カーネルでのパラメータの影響
– 計算時間の⽐比較
– 便便利利そうなのにあまり普及していない理理由
⼿手元の発現データで試した
BAHSICのRコード:
Principal component analysis-based unsupervised feature extraction
applied to in silico drug discovery for posttraumatic stress disorder-
mediated heart disease (BMC Bioinformatics 2015, 16:139)
※⽥田⼝口先⽣生の論論⽂文(ありがとうございます)
2-class 3-class + unknown subtype
参考⽂文献、URL
•  カーネル法⼊入⾨門  ─正定値カーネルによる
データ解析─ (福⽔水健次    著)
•  カーネル多変量量解析―⾮非線形データ解析
の新しい展開 (⾚赤穂  昭太郎郎  著)
•  カーネル法のトレンド:
⾮非線形化から統計的検定へ
– ICML2007勉強会  東⼯工⼤大
ありがとうございました ©和光市

Contenu connexe

En vedette

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

En vedette (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

BAHSICアルゴリズムによる非線形データからの特徴選択