SageMakerを使った異常検知

SageMakerを使った
異常検知
2021.06.30 山口凌平

自己紹介
山口凌平
異音検知の研究開発@Hmcomm
- 工場パイプラインの異音検知をやっています
SNS
- Twitter : @6111Ryo
最近やっていること
- Flutterの勉強
趣味
- 料理：お店の味を再現することが生きがいです
AWS Certified Machine Learning Speciality
1

本日話すこと
異常検知とは？
異常検知がどのようなものか整理します．
定義は？
学習方法は？
価値は？
SageMakerで
異常検知をするには？
SageMakerを使った異常検知の方法を紹介
します．
2

異常検知の定義
データの中から「ほかとは違うもの」を見つけ出す技術
「異常」
・外れ値（Outlier）
・変化点（Change point）
・逸脱（Deviation）
・誤作動（Fault）
・侵入（Intrusion）
・詐欺（Fraud）
システムや状況によって様々な異常がある
4

異常検知は基本的には教師なし学習
理由
①そもそも，異常データは無い
②異常データは多種多様で全てを網羅できない
5

理由
特に工場や医療の現場では
正常データの数 >>>>>> 異常データの数
となってしまう....
6

理由
問題設定として
「正常 or 異常」＝＞「正常 or 正常でない」
としたほうが筋が良い
あらゆる状態あらゆる状態
正常
異常A
異常B
異常C
異常D
正常
正常でない
学習学習
「正常/異常」をモデリング「正常/正常でない」をモデリング
7

異常検知のステップ
STEP4 モデルの検証
STEP3 閾値の設定
STEP2 異常度の定義
STEP1 特徴抽出とモデル構築
データ D
8

p(x|D, θ)
機械学習や統計解析を使用して分布モデルを求める
モデルを使い特徴量抽出を行う
D：データ
θ：パラメータ
9

誤差関数や負の対数尤度を使用して異常度を算出
異常度
10

異常/正常を判定するための閾値を設定
ホテリング理論や分位点を用いたりします
異常度
閾値
正常異常
11

AUCやなどを用いてモデルの精度を検証
TPR
(True
Positive
Rate)
FPR
(False Positive Rate)
12

異常検知は2次価値をもたらす手法
マイク
カメラ
センサー
異常？正常？
データの１次価値
IoTによって得られたデータ
収集・蓄積・可視化される
意思決定
１次価値データが役に立つのは非常に限定的
13

マイク
カメラ
センサー
異常？正常？
意思決定
２次価値を創生することで社会全般に
大きな確信をもたらすことにつながる
異常検知
モデル
データの２次価値
1次価値をもつデータを解析
データに潜んでいる規則性や相関性を発見し
結果を予測
14

マイク
カメラ
センサー
意思決定
異常検知
モデル
データの２次価値
1次価値をもつデータを解析
データに潜んでいる規則性や相関性を発見し
結果を予測
SageMaker
を使ってよりシステム化
15

SageMakerを使った異常検知
16

SagaMakerを使った異常検知
データ加工・前処理
組み込みアルゴリズムを
使用
ジャンプスタートを使用自分アルゴリズムを使用
モデルをエンドポイン
トに展開
モデルを使って推論
17

組み込みアルゴリズムを使った方法
18

ランダムカットフォレスト(RCF)
多次元データセット内の異常なデータポイントを検出するための教師なしアルゴリズム
1. サンプルを同サイズに分割
1. 各ツリーでルートノードを初期化
1. データの境界ボックスを計算し，ランダムな次
元を選択し，超平面の”カット”位置をランダム
に決定する
1. カットしたデータを整理し，新たなサブツリー
を定義する
1. 各サブツリーでツリーの各葉が単一ポイントを
表すように 3,4を繰り返す
19

に決定する
を定義する
20

に決定する
を定義する
21

に決定する
を定義する
22

に決定する
を定義する
異常スコアはツリーの深さに反比例するようになる
23

JumpStartを使った方法
24

SageMaker JumpStartとは
- 2020年12月にリリースされたサービス
- 公開されている事前学習済みモデルを簡単にファインチューンできる
- textモデル（59個）
- visionモデル（124個）
- システムのソリューションが公開されている（16個）
独自のモデルを開発する必要がない場合 / 手元のデータを既存のモデルで試した
い場合はかなり有効なサービス
25

SageMaker JumpStartとは
- 2020年12月にリリースされたサービス
- 公開されている事前学習済みモデルを簡単にファインチューンできる
- textモデル（59個）
- visionモデル（124個）
- システムのソリューションが公開されている（16個）
独自のモデルを開発する必要がない場合 / 手元のデータを既存のモデルで試した
い場合はかなり有効なサービス
マウスで何回かポチポチするだけ
JumpStartに用意されている事前学習済みモデルを使って
簡単に異常検知アルゴリズムを使えないか...??
26

OEを使った異常検知
OE（Outlier Exposure）と呼ばれる外部データを使った異常検知手法
- 実際の問題では異常サンプルの分布が事前に分からない
- OEデータセットを与え，正常サンプルが学習された分布であるかどうかを検
出できるような経験則を学習する
Outlier Exposure
normal data
?
?
?
?
normal data
異常サンプルは不明
27
まだ，うまくいっていませんが紹介します！

Outlier Exposure
normal data
?
?
?
?
normal data
異常サンプルは不明
28
こっちの分布を使って学習をする

Outlier Exposure
normal data
DNN
Outlier 1 Outlier 2
Outlier 3 Outlier 4
normal
(in-distribution)
not normal
(out-of-distribution)
cross entropy etc..
29
異常スコア：
not normalの確率値
・・・

自作アルゴリズムを使った方法
組み込みアルゴリズムでは
画像などは異常検知をすることができない
30

AutoEncoder
画像の異常検知の基本的なもの
・学習：入力画像を復元させるように学習
・異常スコア：入力と出力の差
31

書くコードはちょっとだけ
使いたいフレームワーク
異常検知アルゴリズム
を実装したスクリプト
必要なのはこの部分
fitでトレーニング
32

おわりに
JAWS-UG AI/ML で異常検知についての
様々なユースケースや異常検知システムについて議論できると嬉しいです :)
thanks :)
33

SageMakerを使った異常検知

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

SageMakerを使った異常検知

Notes de l'éditeur