SlideShare a Scribd company logo
1 of 32
入門 異常検知
ーこれを読めば異常検知がわかるー
筑波大学 社会工学類4年
廣田菜月
異常検知の基本的なことについてお話します!
1
内容
2
• 異常ってなに?
• 異常が検知できたら何が嬉しい?
• どうやって異常を検知するの?
データの確率分布の学習方法と異常の定義
• 異常検知の流れ〜ホテリング𝑻 𝟐
法〜
そもそも異常って何?
3
4
異常とは?
「仲間から値が外れている」タイプの異常
外れ値 ”時系列的な”外れ値
<井手剛,杉山将.”時系列データのさまざまな異常の例”異常検知と変化検知.講談社,2016,P3>
5
異常とは?
「観測値のふるまいが変化した」タイプの異常
変化点 変化点or外れ値
<井手剛,杉山将.”時系列データのさまざまな異常の例”異常検知と変化検知.講談社,2016,P3>
異常が検知できたら何が嬉しい?
6
7
これが嬉しい!
製造の現場
製品の欠陥を捉える ー> 早急な対処が可能に.
ビジネスの現場
売上の変化を捉える ー> いち早く次の一手を打てる.
8
実際の応用例
• ネットワークへの侵入検知
• クレジットカードの不正使用の検知
• 疾病の流行の検知
• 流行トピックの検出
とにかく色々な分野で使われている.
知って損はない!
どうやって異常を検知するの?
9
10
異常検知における2つの問題
1. データの確率分布をどう学習するか.
2. 異常の度合いをどう定義するか.
問題1 データの確率分布をどう学習する?
11
12
データの性質に応じた学習手法がある
• 標本は正規分布に従う?従わない?
ー>ホテリング𝑇2
法、ガウス過程回帰
• 多変数あるときはどうすれば良い?
ー>単純ベイズ法
• 外れ値?変化点?
ー>近傍法、部分空間法
とにかく手法はさまざま
13
重要なポイント
これらを考慮して手法を決定すべし!
• データの性質は?
• ラベルあり?なし?
• どんな異常を検出したい?
問題2 異常の度合いをどう定義する?
14
15
ラベルつきデータにおけるネイマン・ピアソン決定則
𝒟 = { 𝑥 1 , 𝑦 1 , { 𝑥 2 , 𝑦 2 , ‥‥, 𝑥 𝑁 , 𝑦 𝑁 }
𝑀次元ベクトル𝓍と異常かどうかを示すラベル𝑦(異常なら𝑦 = 1)について
𝑁個の標本を含む訓練データが与えられたとする
ネイマン・ピアソン決定則
ln
𝑝(𝑥′|𝑦=1,𝒟)
𝑝(𝑥′|𝑦=0,𝒟)
が所定の閾値を超えたらy=1と判定
𝒑(𝒙′
|𝒚 = 𝟎, 𝓓)
𝒑(𝒙′
|𝒚 = 𝟏, 𝓓)
異常時の分布
正常時の分布
𝓍’
16
ラベルなしデータにおけるシャノン情報量
𝒟 = {𝑥 1
, 𝑥 2
, ‥‥, 𝑥(𝑁)
}
𝑀次元ベクトル𝓍について
𝑁個の標本を含む訓練データが与えられたとする
シャノン情報量
異常度𝛼(𝓍’)=−ln 𝑝 (𝓍’|𝒟)
𝒑(𝒙′
|𝒚 = 𝟎, 𝓓)
正常時の分布
𝓍’
出現確率の高い観測値は異常度が低い.
17
異常検知における2つの問題
1. データの確率分布をどう学習するか.
ー>データの性質によって手法が異なります!
2. 異常の度合いをどう定義するか.
ー>異常の定義に当てはめればいいだけ!
実際に異常を検知してみよう!
〜ホテリング𝑻 𝟐
法による異常検知〜
18
まず、どんな時に使うの?
19
20
重要なポイント(再挙)
これらを考慮して手法を決定すべし!
• データの性質は?
• ラベルあり?なし?
• どんな異常を検出したい?
21
ホテリングのT2法の場合
• データの性質は?
ー> 各標本が独立に次の確率密度関数(正規分布)に従う.
• ラベルあり?なし? ー> なくてOK
• どんな異常を検出したい ー> 外れ値の検出
𝑁(𝑥|𝜇, ∑) ≡
Σ
−
1
2
2 𝜋
𝑀
2
ex p −
1
2
𝒙 − 𝝁 ⊺ Σ −1 𝒙 − 𝝁
1.データの確率分布を学習しよう
22
23
ホテリングのT2法による異常検知
各標本が独立に次の確率密度関数(正規分布)に従う.
𝑁(𝑥|𝜇, ∑) ≡
Σ
−
1
2
2 𝜋
𝑀
2
exp −
1
2
𝒙 − 𝝁 ⊺ Σ −1 𝒙 − 𝝁
𝑥(観測値),𝑀(次元)は既知のもの.
𝜇(平均), ∑(共分散行列)が決まればデータの確率分布を学習できる.
パラメータμ,Σを決める
24
25
パラメータを決める(最尤推定)
• 共分散行列Σ 、平均𝝁をデータ𝐷から決めるために最尤推定を行う
𝐷の対数尤度 𝐿 𝝁, Σ 𝐷 = ln
𝑛=1
𝑁
𝑁 𝒙(n)
𝝁, Σ =
𝑛=1
𝑁
ln 𝑁 𝒙(n)
𝝁, Σ
• これを最大化するような𝝁, Σがこの場合の最尤推定である
𝝁 =
1
𝑁
𝑛−1
𝑁
𝒙(n)
Σ ≡
1
𝑁
𝑛=1
𝑁
𝒙(n)
− 𝝁 𝒙(n)
− 𝝁
⊺
相加平均
26
データ𝐷を表現する確率密度関数が得られた!
𝑝 𝒙 𝑫 = 𝑁 𝒙 𝝁, Σ
2.異常度を計算しよう
27
28
ホテリングのT2法における異常度&異常判定
異常度 𝑎 𝒙′
= (𝒙′
− 𝝁)⊺
Σ −1
(𝒙′
− 𝝁)
※観測値に関係のない定数を無視
観測値𝑥′の異常度𝑎 𝑥′ > 設定した閾値𝑎 𝑡ℎ のとき異常
• 異常度の定義に当てはめる
• 異常判定
自分で決めることができます!
まとめ
29
30
異常検知とは?
データの性質を考慮して手法を決定することが大事!
手法は既に整っている.
1. データの確率分布をどう学習するか
2. 異常ないし変化の度合いをどう定義するか
2つの問題に向き合うこと!
異常検知と変化検知
31
Chapter1 異常検知・変化検知の基本的な考え方
Chapter2 ホテリングのT2法による異常検知
Chapter3 単純ベイス法による異常検知
Chapter4 近傍法による異常検知
Chapter5 混合分布モデルによる遂次更新型異常検知
Chapter6 サポートベクトルデータ記述法による異常検知
Chapter7 方向データの異常検知
Chapter8 ガウス過程回帰による異常検知
Chapter9 部分空間法による変化検知
Chapter10 疎構造学習による異常検知
Chapter11 密度比推定による異常検知
Chapter12 密度比推定による変化検知
今
回
の
内
容
井手剛,杉山将.異常検知と変化検知.
講談社,2016,178P

More Related Content

What's hot

時系列解析の使い方 - TokyoWebMining #17
時系列解析の使い方 - TokyoWebMining #17時系列解析の使い方 - TokyoWebMining #17
時系列解析の使い方 - TokyoWebMining #17horihorio
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法Deep Learning JP
 
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性Ichigaku Takigawa
 
XAI (説明可能なAI) の必要性
XAI (説明可能なAI) の必要性XAI (説明可能なAI) の必要性
XAI (説明可能なAI) の必要性西岡 賢一郎
 
論文紹介「A Perspective View and Survey of Meta-Learning」
論文紹介「A Perspective View and Survey of Meta-Learning」論文紹介「A Perspective View and Survey of Meta-Learning」
論文紹介「A Perspective View and Survey of Meta-Learning」Kota Matsui
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門tmtm otm
 
時系列分析による異常検知入門
時系列分析による異常検知入門時系列分析による異常検知入門
時系列分析による異常検知入門Yohei Sato
 
SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​
SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​
SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​SSII
 
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII
 
テキストマイニング講義資料
テキストマイニング講義資料テキストマイニング講義資料
テキストマイニング講義資料Kosuke Sato
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明Satoshi Hara
 
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Hideki Tsunashima
 
ICLR2020 オンライン読み会 Deep Semi-Supervised Anomaly Detection
ICLR2020 オンライン読み会 Deep Semi-Supervised Anomaly DetectionICLR2020 オンライン読み会 Deep Semi-Supervised Anomaly Detection
ICLR2020 オンライン読み会 Deep Semi-Supervised Anomaly DetectionYamato OKAMOTO
 
パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化Miyoshi Yuya
 
セミパラメトリック推論の基礎
セミパラメトリック推論の基礎セミパラメトリック推論の基礎
セミパラメトリック推論の基礎Daisuke Yoneoka
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoderSho Tatsuno
 
「診断精度研究のメタ分析」の入門
「診断精度研究のメタ分析」の入門「診断精度研究のメタ分析」の入門
「診断精度研究のメタ分析」の入門yokomitsuken5
 
パターン認識と機械学習入門
パターン認識と機械学習入門パターン認識と機械学習入門
パターン認識と機械学習入門Momoko Hayamizu
 
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論Taiji Suzuki
 

What's hot (20)

時系列解析の使い方 - TokyoWebMining #17
時系列解析の使い方 - TokyoWebMining #17時系列解析の使い方 - TokyoWebMining #17
時系列解析の使い方 - TokyoWebMining #17
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
 
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
 
XAI (説明可能なAI) の必要性
XAI (説明可能なAI) の必要性XAI (説明可能なAI) の必要性
XAI (説明可能なAI) の必要性
 
論文紹介「A Perspective View and Survey of Meta-Learning」
論文紹介「A Perspective View and Survey of Meta-Learning」論文紹介「A Perspective View and Survey of Meta-Learning」
論文紹介「A Perspective View and Survey of Meta-Learning」
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
時系列分析による異常検知入門
時系列分析による異常検知入門時系列分析による異常検知入門
時系列分析による異常検知入門
 
SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​
SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​
SSII2020TS: 機械学習モデルの判断根拠の説明​ 〜 Explainable AI 研究の近年の展開 〜​
 
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
 
テキストマイニング講義資料
テキストマイニング講義資料テキストマイニング講義資料
テキストマイニング講義資料
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
 
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
 
ICLR2020 オンライン読み会 Deep Semi-Supervised Anomaly Detection
ICLR2020 オンライン読み会 Deep Semi-Supervised Anomaly DetectionICLR2020 オンライン読み会 Deep Semi-Supervised Anomaly Detection
ICLR2020 オンライン読み会 Deep Semi-Supervised Anomaly Detection
 
パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化
 
セミパラメトリック推論の基礎
セミパラメトリック推論の基礎セミパラメトリック推論の基礎
セミパラメトリック推論の基礎
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
「診断精度研究のメタ分析」の入門
「診断精度研究のメタ分析」の入門「診断精度研究のメタ分析」の入門
「診断精度研究のメタ分析」の入門
 
パターン認識と機械学習入門
パターン認識と機械学習入門パターン認識と機械学習入門
パターン認識と機械学習入門
 
Lucas kanade法について
Lucas kanade法についてLucas kanade法について
Lucas kanade法について
 
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
 

Similar to 入門 異常検知 -これを読めば異常検知がわかる-

2 6.ゼロ切断・過剰モデル
2 6.ゼロ切断・過剰モデル2 6.ゼロ切断・過剰モデル
2 6.ゼロ切断・過剰モデルlogics-of-blue
 
Tokyo r15 異常検知入門
Tokyo r15 異常検知入門Tokyo r15 異常検知入門
Tokyo r15 異常検知入門Yohei Sato
 
臨床医からみた医学統計
臨床医からみた医学統計臨床医からみた医学統計
臨床医からみた医学統計Noriyuki Katsumata
 
診断研究のメタアナリシスをやってみる(みたい)。
診断研究のメタアナリシスをやってみる(みたい)。診断研究のメタアナリシスをやってみる(みたい)。
診断研究のメタアナリシスをやってみる(みたい)。Takashi Fujiwara
 
スクリーニング検査の落とし穴
スクリーニング検査の落とし穴スクリーニング検査の落とし穴
スクリーニング検査の落とし穴SR WS
 

Similar to 入門 異常検知 -これを読めば異常検知がわかる- (6)

臨床推論入門
臨床推論入門臨床推論入門
臨床推論入門
 
2 6.ゼロ切断・過剰モデル
2 6.ゼロ切断・過剰モデル2 6.ゼロ切断・過剰モデル
2 6.ゼロ切断・過剰モデル
 
Tokyo r15 異常検知入門
Tokyo r15 異常検知入門Tokyo r15 異常検知入門
Tokyo r15 異常検知入門
 
臨床医からみた医学統計
臨床医からみた医学統計臨床医からみた医学統計
臨床医からみた医学統計
 
診断研究のメタアナリシスをやってみる(みたい)。
診断研究のメタアナリシスをやってみる(みたい)。診断研究のメタアナリシスをやってみる(みたい)。
診断研究のメタアナリシスをやってみる(みたい)。
 
スクリーニング検査の落とし穴
スクリーニング検査の落とし穴スクリーニング検査の落とし穴
スクリーニング検査の落とし穴
 

入門 異常検知 -これを読めば異常検知がわかる-

Editor's Notes

  1. 一番一般的な枠組み
  2. 一番一般的な枠組み