SlideShare une entreprise Scribd logo
1  sur  85
Télécharger pour lire hors ligne
®
© 2014 MapR Technologies 1
© MapR Technologies, confidential
®
何を探すかよく分かっていないもの
を見つける方法

異常検知
2014 年 10 月 14 日
®
© 2014 MapR Technologies 2
異常検知:
何を探すかよく分かっていないものを見つける方法
Ted Dunning, MapR Technologies チーフアプリケーションアーキテクト
Email tdunning@mapr.com tdunning@apache.org
Twitter @Ted_Dunning
Ellen Friedman, コンサルタント/コメンテータ
Email ellenf@apache.org
Twitter @Ellen_Friedman
®
© 2014 MapR Technologies 3
MapR の厚意により e-book が入手可
http://bit.ly/1jQ9QuL
A New Look at Anomaly Detection
Ted Dunning、Ellen Friedman 著、2014 年 6 月出版(オライリーより)
®
© 2014 MapR Technologies 4
Practical Machine Learning シリーズ (オライリー)
•  機械学習はメインストリームになりつつある
•  実際のビジネス環境を考慮に入れた実用的なアプローチが必要:
–  価値創造までの時間 (Time to Value)
–  限られたリソース
–  データの入手可能性
–  システム開発・運用を行うチームの専門知識とコスト
•  費やす労力に対して大きな効果をもたらすアプローチを探す
®
© 2014 MapR Technologies 5
異常検知!
®
© 2014 MapR Technologies 6
誰が異常検知を必要としているか?
スマートメーターを利用
している公益事業提供者
®
© 2014 MapR Technologies 7
誰が異常検知を必要としているか?
工場の組立ラインからの
フィードバック
®
© 2014 MapR Technologies 8
誰が異常検知を必要としているか?
通信ネットワークの
データトラフィックの監視
®
© 2014 MapR Technologies 9
異常検知とは何か?
•  まれに起きる出来事を発見することが目的
–  特に、起きるべきではない事象
•  他の人々が気づく前に問題を見つける
–  特に、顧客にとっての問題を起こす前に
•  なぜ難しいのか?
–  異常がどのようなものか(まだ)分からない
®
© 2014 MapR Technologies 10
異常を見つけてください
®
© 2014 MapR Technologies 11
異常を見つけてください
かなり異常に
見える
®
© 2014 MapR Technologies 12
異常を見つけてください
本当の異常の方、ご起
立いただけますか?
®
© 2014 MapR Technologies 13
基本となる考え方:

まず “正常な状態” を見つける!
®
© 2014 MapR Technologies 14
異常検知のステップ
•  モデルを構築: モデルを学習させるためのデータを収集・処理する
•  機械学習モデルを使用し、何が通常のパターンかを見極める
•  この通常パターンからどれだけ乖離したときに異常とみなすかを決定
する
•  異常検知モデルを使用して新しいデータの異常を検知する
–  発見のためのクラスタリング等の手法が役に立つ
®
© 2014 MapR Technologies 15
異常のアラートを設定するのはどれほど難しいか?
グレーのデータが通常の出来事の値、x が異常値
しきい値をどこに設定するか?
®
© 2014 MapR Technologies 16
基本となる考え方:

適応的しきい値の設定!
®
© 2014 MapR Technologies 17
実際に何をしているか
•  何かが起きたときに行動を起こしたい
(死ぬ/落ち込む/何もしないとトラブルになる)
•  しかし、行動を起こすには高くつく
•  したがって、誤ったアラームが上がりすぎると困る
•  さらに、検出もれがありすぎても困る
•  警告を出すために設定する適切なしきい値は何か?
–  コストとのトレードオフが必要
®
© 2014 MapR Technologies 18
もう一度見てみましょう
®
© 2014 MapR Technologies 19
もう一度見てみましょう
99.9 パーセンタイル
®
© 2014 MapR Technologies 20
新しいアルゴリズム: t-digest!
®
© 2014 MapR Technologies 21
オンライン
サマライザ
99.9 パーセンタイル
t
x > t ? アラーム !
x
そんなの簡単でしょう?
®
© 2014 MapR Technologies 22
散発的なイベントにおける異常検知
0.0 0.2 0.4 0.6 0.8 1.0
05000100001500020000
pnorm(centroids[order(centroids)])
counts[order(centroids)]
®
© 2014 MapR Technologies 23
t-Digest の利用
•  Apache Mahout はオンラインパーセントタイル推定値として t-digest
を利用している
–  極端に飛び出た値に対しては非常に高精度
–  Mahout バージョン 0.9 の新機能
•  t-digest は他でも利用可能
–  streamlib の中(github 上のオープンソースライブラリ)
–  スタンドアローン(github および Maven Central)
•  異常検知って大したことではないのでは?
•  これで問題は解決したように見える
®
© 2014 MapR Technologies 24
もう実装済み? Etsy Skyline?
®
© 2014 MapR Technologies 25
これはどうか?
0 5 10 15
−20246810
offset+noise+pulse1+pulse2
A
B
®
© 2014 MapR Technologies 26
モデルデルタ異常検知
オンライン
サマライザ
δ > t ?
99.9 パーセンタイル
t
アラーム !
モデル
-
+ δ
®
© 2014 MapR Technologies 27
内部の事情
•  モデルデルタ異常検知器は実際のところ単なる確率変数の和
–  すでに知っているモデル
–  そして正規分布に従う誤差
•  出力(デルタ)は(おおよそ)和の分布の対数確率(実際には δ2)
•  確率分布を思い浮かべればよい
•  しかし散発的なイベントがあるシステムでどのように異常検知を扱え
ばよいか?
®
© 2014 MapR Technologies 28
異常を見つけてください
異常?
®
© 2014 MapR Technologies 29
おそらく違う !
®
© 2014 MapR Technologies 30
ウォーリーをさがせ !
これが本当の異常
®
© 2014 MapR Technologies 31
通常は単なる通常ではない
•  何が通常かを表す モデル が欲しい
•  モデルに合致しないものを 異常 とする
•  シンプルなシグナルであれば、モデルもシンプルになり得る …
•  実世界ではそれほどぴったり当てはまることはない
x ~ N(0,ε)
®
© 2014 MapR Technologies 32
ウィンドウを適用する
®
© 2014 MapR Technologies 33
ウィンドウを適用する
®
© 2014 MapR Technologies 34
ウィンドウを適用する
®
© 2014 MapR Technologies 35
ウィンドウを適用する
®
© 2014 MapR Technologies 36
ウィンドウを適用する
®
© 2014 MapR Technologies 37
ウィンドウを適用する
®
© 2014 MapR Technologies 38
ウィンドウを適用する
®
© 2014 MapR Technologies 39
ウィンドウを適用する
®
© 2014 MapR Technologies 40
ウィンドウを適用する
®
© 2014 MapR Technologies 41
ウィンドウを適用する
®
© 2014 MapR Technologies 42
ウィンドウを適用する
®
© 2014 MapR Technologies 43
ウィンドウを適用する
®
© 2014 MapR Technologies 44
ウィンドウを適用する
®
© 2014 MapR Technologies 45
ウィンドウを適用する
®
© 2014 MapR Technologies 46
ウィンドウを適用する
®
© 2014 MapR Technologies 47
世界の窓
•  ウィンドウを適用したシグナルのセットはオリジナルのシグナルに対
するよいモデル
•  クラスタリングによりプロトタイプを見つけることができる
–  スパースコーディングを使った優れた手法を利用可能
•  結果は形状の辞書
•  新しいシグナルは辞書から形状を平行移動、拡大縮小、追加すること
によりエンコードできる
®
© 2014 MapR Technologies 48
最もよく現れる形状(心電図)
®
© 2014 MapR Technologies 49
再構成されたシグナル
オリジナル
のシグナル
再構成された
シグナル
再構成エラー
< 1 bit / サンプル
®
© 2014 MapR Technologies 50
異常
1次元の異常検出のための従
来の手法は再構成エラーに対
して有効
®
© 2014 MapR Technologies 51
異常をクローズアップ
あって欲しくない心臓の動き
モデルが予期していない心臓
の動き
®
© 2014 MapR Technologies 52
異なる種類の異常
®
© 2014 MapR Technologies 53
モデルデルタ異常検知
オンライン
サマライザ
δ > t ?
99.9 パーセンタイル
t
アラーム !
モデル
-
+ δ
®
© 2014 MapR Technologies 54
内部の事情
•  モデルデルタ異常検知器は実際のところ単なる確率変数の和	
–  すでに知っているモデル	
–  そして正規分布に従う誤差	
•  出力(デルタ)は(おおよそ)和の分布の対数確率(実際には δ2)	
•  確率分布を思い浮かべればよい
®
© 2014 MapR Technologies 55
散発的なイベントにおける異常!
®
© 2014 MapR Technologies 56
eビジネスのサイトに対する散発的な Web トラフィック
トラフィックが停止もしくは遅延しているのは何
らかの問題があったからかどうかを知ることは
重要…
しかしサイトへの訪問の間隔は通常
変動する
最後のイベントからどれくらい経過し
たら気にし始めるべきだろうか?
®
© 2014 MapR Technologies 57
eビジネスのサイトに対する散発的な Web トラフィック
トラフィックが停止もしくは遅延しているのは何
らかの問題があったからかどうかを知ることは
重要…
しかしサイトへの訪問の間隔は通常
変動する
そして、どうやったらあなたの会社の
CEOを安心して眠らせることができる
だろうか?
®
© 2014 MapR Technologies 58
基本的な考え方:

イベントの時間間隔は評価可能な

役立つものに変換することができる!
®
© 2014 MapR Technologies 59
散発的なイベント: 通常と異常のパターンを見つける
•  時間間隔は絶対時間よりもはるかに役に立つ
•  カウントは確率モデルに直接結びつかない
•  時間間隔は log ρ
•  これは非常に重要
®
© 2014 MapR Technologies 60
イベントのストリーム(タイミング)
•  様々なタイプのイベントが不規則な間隔で到着する
–  ポワソン分布を仮定する
•  頻度が期待値と比較して変化したかどうかが重要
–  これは間隔の変化として現れる
•  できる限り早くアラートを上げたい
®
© 2014 MapR Technologies 61
イベント時間を異常値に変換
99.9 パーセンタイル
99.99パーセンタイル
®
© 2014 MapR Technologies 62
しかし現実にはイベントの

発生頻度はしばしば変化する!
®
© 2014 MapR Technologies 63
時間間隔は散発的なイベントをモデリングするための鍵
®
© 2014 MapR Technologies 64
モデルに従いスケールされた間隔が問題を解決する
®
© 2014 MapR Technologies 65
モデルデルタ異常検知
オンライン
サマライザ
δ > t ?
99.9 パーセンタイル
t
アラーム !
モデル
-
+ δ
log p
®
© 2014 MapR Technologies 66
散発的なイベントにおける異常検知
Incoming
events
99.97%-ile
Alarm
Δn
Rate
predictor
Rate
history
t-digest
δ>t
ti δ λ(ti-ti-n)
λ
t
®
© 2014 MapR Technologies 67
散発的なイベントにおける異常検知
Incoming
events
99.97%-ile
Alarm
Δn
Rate
predictor
Rate
history
t-digest
δ>t
ti δ λ(ti-ti-n)
λ
t
®
© 2014 MapR Technologies 68
一週間ずらしてみる: シンプルなレート予測器
Nov 02 Nov 07 Nov 12 Nov 17 Nov 22 Nov 27 Dec 02
0100200300400500
Main Page Traffic
Date
Hits(x1000)
A B C D
®
© 2014 MapR Technologies 69
ポアソン分布
•  イベントの時間間隔は指数分布
•  つまり、長い遅延は指数関数的にまれ
•  もし λ がわかれば、良いしきい値を選択できる
–  もしくはしきい値を経験的に選択できる
Δt ~ λe−λt
P(Δt > T) = e−λT
−logP(Δt > T) = λT
®
© 2014 MapR Technologies 70
季節性は難しい問題
Nov 17 Nov 27 Dec 07 Dec 17 Dec 27
02468
Christmas Traffic
Date
Hits/1000
®
© 2014 MapR Technologies 71
もう少し何かが必要 …
Nov 17 Nov 27 Dec 07 Dec 17 Dec 27
02468
Christmas Traffic
Date
Hits/1000
®
© 2014 MapR Technologies 72
より良いレート予測器が必要…
Incoming
events
99.97%-ile
Alarm
Δn
Rate
predictor
Rate
history
t-digest
δ>t
ti δ λ(ti-ti-n)
λ
t
®
© 2014 MapR Technologies 73
散発的なイベントのための新しいレート予測器
Predictor
variables
Target
variable
2008-11-23 13:00:00 681 638 491 445 614 545
2008-11-23 14:00:00 755 681 638 491 705 614
2008-11-23 15:00:00 887 755 681 638 687 705
2008-11-23 16:00:00 964 887 755 681 842 687
Date/time
y
Current
rate
x1
1 hour
ago
x2
2 hours
ago
x3
3 hours
ago
x4
24 hours
ago
x5
48 hours
ago
®
© 2014 MapR Technologies 74
適応的モデリングによる予測の改善
Dec 17 Dec 19 Dec 21 Dec 23 Dec 25 Dec 27 Dec 29
02468
Christmas Prediction
Date
Hits(x1000)
®
© 2014 MapR Technologies 75
異常検知 + 分類 à 有効な組み合わせ
•  新しいデータの中で異常を検出するために異常検知モデルを利用
–  発見のためのクラスタリングのような手法が役に立つことも
•  一度システムでよくできたモデルが手に入れば、これらをタグ付けす
るために分類を行うことも有効
•  新しい異常を見つけるために異常検知モデルを使い続ける
®
© 2014 MapR Technologies 76
まとめ(順不同)
•  異常検知は確率モデルで取り扱うのがベスト
•  -log p は異常の評価値に変換するのに適した方法
•  適応的分位点推定 (t-digest) はしきい値の自動設定に有効
®
© 2014 MapR Technologies 77
まとめ
•  システムごとに異なるモデルが必要
•  継続的時系列
–  シグナルモデルを構築するためのスパースコーディング
•  時間イベント
–  ポワソン分布の変動レートに基づくレートモデル
–  分離レートモデル
•  ラベル付きのイベント
–  言語モデル
–  隠れマルコフモデル
®
© 2014 MapR Technologies 78
なぜ異常検知を使うのか?
®
© 2014 MapR Technologies 79
覚えておいてください…
•  通常をモデルして、
それから異常を見つける
•  適応的しきい値のための
t-digest
•  複雑なパターンのための
確率モデル
-
0 5 10 15
−20246810
offset+noise+pulse1+pulse2
A
B
®
© 2014 MapR Technologies 80
Dec 17 Dec 19 Dec 21 Dec 23 Dec 25 Dec 27 Dec 29
02468
Christmas Prediction
Date
Hits(x1000)
覚えておいてください…
•  時間間隔は散発的イベントの
ための鍵
•  季節性のあるレートを予測する
ための複雑な時間シフト
•  連続するイベントによりフィッ
シング攻撃が明らかになる
®
© 2014 MapR Technologies 81
MapR の厚意により e-book が入手可
http://bit.ly/1jQ9QuL
A New Look at Anomaly Detection
Ted Dunning、Ellen Friedman 著、2014 年 6 月出版(オライリーより)
®
© 2014 MapR Technologies 82
10月に出版予定: Time Series Databases
Ted Dunning、Ellen Friedman 著、2014 年 10 月出版(オライリーより)
TimeSeries
Databases
Ted Dunning &
Ellen Friedman
New Ways to Store and Access
®
© 2014 MapR Technologies 83
本日はご来場ありがとうございました!!
®
© 2014 MapR Technologies 84
© MapR Technologies, confidential ®
®
© 2014 MapR Technologies 85
Sandbox!

Contenu connexe

Tendances

【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
 
KDD Cup 2021 時系列異常検知コンペ 参加報告
KDD Cup 2021 時系列異常検知コンペ 参加報告KDD Cup 2021 時系列異常検知コンペ 参加報告
KDD Cup 2021 時系列異常検知コンペ 参加報告GentaYoshimura
 
学習時に使ってはいないデータの混入「リーケージを避ける」
学習時に使ってはいないデータの混入「リーケージを避ける」学習時に使ってはいないデータの混入「リーケージを避ける」
学習時に使ってはいないデータの混入「リーケージを避ける」西岡 賢一郎
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)Deep Learning JP
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)Shota Imai
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...joisino
 
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門ryosuke-kojima
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報Deep Learning JP
 
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明Satoshi Hara
 
3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)Toru Tamaki
 
Data-centricなML開発
Data-centricなML開発Data-centricなML開発
Data-centricなML開発Takeshi Suzuki
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAGIRobots
 
先端技術とメディア表現1 #FTMA15
先端技術とメディア表現1 #FTMA15先端技術とメディア表現1 #FTMA15
先端技術とメディア表現1 #FTMA15Yoichi Ochiai
 
Anomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたAnomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたぱんいち すみもと
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Yamato OKAMOTO
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)Satoshi Hara
 
機械学習で泣かないためのコード設計
機械学習で泣かないためのコード設計機械学習で泣かないためのコード設計
機械学習で泣かないためのコード設計Takahiro Kubo
 

Tendances (20)

【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
KDD Cup 2021 時系列異常検知コンペ 参加報告
KDD Cup 2021 時系列異常検知コンペ 参加報告KDD Cup 2021 時系列異常検知コンペ 参加報告
KDD Cup 2021 時系列異常検知コンペ 参加報告
 
学習時に使ってはいないデータの混入「リーケージを避ける」
学習時に使ってはいないデータの混入「リーケージを避ける」学習時に使ってはいないデータの混入「リーケージを避ける」
学習時に使ってはいないデータの混入「リーケージを避ける」
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
 
グラフニューラルネットワーク入門
グラフニューラルネットワーク入門グラフニューラルネットワーク入門
グラフニューラルネットワーク入門
 
強化学習6章
強化学習6章強化学習6章
強化学習6章
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
 
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
 
3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)
 
Data-centricなML開発
Data-centricなML開発Data-centricなML開発
Data-centricなML開発
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
 
先端技術とメディア表現1 #FTMA15
先端技術とメディア表現1 #FTMA15先端技術とメディア表現1 #FTMA15
先端技術とメディア表現1 #FTMA15
 
Anomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたAnomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめた
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
 
機械学習で泣かないためのコード設計
機械学習で泣かないためのコード設計機械学習で泣かないためのコード設計
機械学習で泣かないためのコード設計
 

En vedette

機械学習を用いた異常検知入門
機械学習を用いた異常検知入門機械学習を用いた異常検知入門
機械学習を用いた異常検知入門michiaki ito
 
FIT2012招待講演「異常検知技術のビジネス応用最前線」
FIT2012招待講演「異常検知技術のビジネス応用最前線」FIT2012招待講演「異常検知技術のビジネス応用最前線」
FIT2012招待講演「異常検知技術のビジネス応用最前線」Shohei Hido
 
単純ベイズ法による異常検知 #ml-professional
単純ベイズ法による異常検知  #ml-professional単純ベイズ法による異常検知  #ml-professional
単純ベイズ法による異常検知 #ml-professionalAi Makabi
 
異常検知と変化検知 7章方向データの異常検知
異常検知と変化検知 7章方向データの異常検知異常検知と変化検知 7章方向データの異常検知
異常検知と変化検知 7章方向データの異常検知智文 中野
 
異常検知と変化検知 第4章 近傍法による異常検知
異常検知と変化検知 第4章 近傍法による異常検知異常検知と変化検知 第4章 近傍法による異常検知
異常検知と変化検知 第4章 近傍法による異常検知Ken'ichi Matsui
 
Anomaly detection in deep learning
Anomaly detection in deep learningAnomaly detection in deep learning
Anomaly detection in deep learningAdam Gibson
 
ルールベースから機械学習への道 公開用
ルールベースから機械学習への道 公開用ルールベースから機械学習への道 公開用
ルールベースから機械学習への道 公開用nishio
 
実戦投入する機械学習
実戦投入する機械学習実戦投入する機械学習
実戦投入する機械学習Takahiro Kubo
 
トピックモデルを用いた 潜在ファッション嗜好の推定
トピックモデルを用いた 潜在ファッション嗜好の推定トピックモデルを用いた 潜在ファッション嗜好の推定
トピックモデルを用いた 潜在ファッション嗜好の推定Takashi Kaneda
 
パターン認識 第10章 決定木
パターン認識 第10章 決定木 パターン認識 第10章 決定木
パターン認識 第10章 決定木 Miyoshi Yuya
 
はじめてでもわかるベイズ分類器 -基礎からMahout実装まで-
はじめてでもわかるベイズ分類器 -基礎からMahout実装まで-はじめてでもわかるベイズ分類器 -基礎からMahout実装まで-
はじめてでもわかるベイズ分類器 -基礎からMahout実装まで-Naoki Yanai
 
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築Tatsuya Tojima
 
機械学習の理論と実践
機械学習の理論と実践機械学習の理論と実践
機械学習の理論と実践Preferred Networks
 
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual TalksYuya Unno
 
マップアールが考える企業システムにおける分析プラットフォームの進化 - 2014/06/27 Data Scientist Summit 2014
マップアールが考える企業システムにおける分析プラットフォームの進化 - 2014/06/27 Data Scientist Summit 2014マップアールが考える企業システムにおける分析プラットフォームの進化 - 2014/06/27 Data Scientist Summit 2014
マップアールが考える企業システムにおける分析プラットフォームの進化 - 2014/06/27 Data Scientist Summit 2014MapR Technologies Japan
 
逆らえない大きな流れ: 次世代のエンタープライズアーキテクチャ
逆らえない大きな流れ: 次世代のエンタープライズアーキテクチャ逆らえない大きな流れ: 次世代のエンタープライズアーキテクチャ
逆らえない大きな流れ: 次世代のエンタープライズアーキテクチャMapR Technologies Japan
 
第5章混合分布モデルによる逐次更新型異常検知
第5章混合分布モデルによる逐次更新型異常検知第5章混合分布モデルによる逐次更新型異常検知
第5章混合分布モデルによる逐次更新型異常検知Tetsuma Tada
 
第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知Chika Inoshita
 

En vedette (20)

機械学習を用いた異常検知入門
機械学習を用いた異常検知入門機械学習を用いた異常検知入門
機械学習を用いた異常検知入門
 
FIT2012招待講演「異常検知技術のビジネス応用最前線」
FIT2012招待講演「異常検知技術のビジネス応用最前線」FIT2012招待講演「異常検知技術のビジネス応用最前線」
FIT2012招待講演「異常検知技術のビジネス応用最前線」
 
単純ベイズ法による異常検知 #ml-professional
単純ベイズ法による異常検知  #ml-professional単純ベイズ法による異常検知  #ml-professional
単純ベイズ法による異常検知 #ml-professional
 
異常検知と変化検知 7章方向データの異常検知
異常検知と変化検知 7章方向データの異常検知異常検知と変化検知 7章方向データの異常検知
異常検知と変化検知 7章方向データの異常検知
 
異常検知と変化検知 第4章 近傍法による異常検知
異常検知と変化検知 第4章 近傍法による異常検知異常検知と変化検知 第4章 近傍法による異常検知
異常検知と変化検知 第4章 近傍法による異常検知
 
Anomaly detection in deep learning
Anomaly detection in deep learningAnomaly detection in deep learning
Anomaly detection in deep learning
 
決定木学習
決定木学習決定木学習
決定木学習
 
ルールベースから機械学習への道 公開用
ルールベースから機械学習への道 公開用ルールベースから機械学習への道 公開用
ルールベースから機械学習への道 公開用
 
実戦投入する機械学習
実戦投入する機械学習実戦投入する機械学習
実戦投入する機械学習
 
トピックモデルを用いた 潜在ファッション嗜好の推定
トピックモデルを用いた 潜在ファッション嗜好の推定トピックモデルを用いた 潜在ファッション嗜好の推定
トピックモデルを用いた 潜在ファッション嗜好の推定
 
パターン認識 第10章 決定木
パターン認識 第10章 決定木 パターン認識 第10章 決定木
パターン認識 第10章 決定木
 
はじめてでもわかるベイズ分類器 -基礎からMahout実装まで-
はじめてでもわかるベイズ分類器 -基礎からMahout実装まで-はじめてでもわかるベイズ分類器 -基礎からMahout実装まで-
はじめてでもわかるベイズ分類器 -基礎からMahout実装まで-
 
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
 
機械学習の理論と実践
機械学習の理論と実践機械学習の理論と実践
機械学習の理論と実践
 
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks
 
マップアールが考える企業システムにおける分析プラットフォームの進化 - 2014/06/27 Data Scientist Summit 2014
マップアールが考える企業システムにおける分析プラットフォームの進化 - 2014/06/27 Data Scientist Summit 2014マップアールが考える企業システムにおける分析プラットフォームの進化 - 2014/06/27 Data Scientist Summit 2014
マップアールが考える企業システムにおける分析プラットフォームの進化 - 2014/06/27 Data Scientist Summit 2014
 
逆らえない大きな流れ: 次世代のエンタープライズアーキテクチャ
逆らえない大きな流れ: 次世代のエンタープライズアーキテクチャ逆らえない大きな流れ: 次世代のエンタープライズアーキテクチャ
逆らえない大きな流れ: 次世代のエンタープライズアーキテクチャ
 
第5章混合分布モデルによる逐次更新型異常検知
第5章混合分布モデルによる逐次更新型異常検知第5章混合分布モデルによる逐次更新型異常検知
第5章混合分布モデルによる逐次更新型異常検知
 
第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知
 
時系列の世界の時系列データ
時系列の世界の時系列データ時系列の世界の時系列データ
時系列の世界の時系列データ
 

Plus de MapR Technologies Japan

Fast Data を扱うためのデザインパターン
Fast Data を扱うためのデザインパターンFast Data を扱うためのデザインパターン
Fast Data を扱うためのデザインパターンMapR Technologies Japan
 
MapR 5.2: MapR コンバージド・コミュニティ・エディションを使いこなす
MapR 5.2: MapR コンバージド・コミュニティ・エディションを使いこなすMapR 5.2: MapR コンバージド・コミュニティ・エディションを使いこなす
MapR 5.2: MapR コンバージド・コミュニティ・エディションを使いこなすMapR Technologies Japan
 
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...MapR Technologies Japan
 
ストリーミングアーキテクチャ: State から Flow へ - 2016/02/08 Hadoop / Spark Conference Japan ...
ストリーミングアーキテクチャ: State から Flow へ - 2016/02/08 Hadoop / Spark Conference Japan ...ストリーミングアーキテクチャ: State から Flow へ - 2016/02/08 Hadoop / Spark Conference Japan ...
ストリーミングアーキテクチャ: State から Flow へ - 2016/02/08 Hadoop / Spark Conference Japan ...MapR Technologies Japan
 
MapR Streams & MapR コンバージド・データ・プラットフォーム
MapR Streams & MapR コンバージド・データ・プラットフォームMapR Streams & MapR コンバージド・データ・プラットフォーム
MapR Streams & MapR コンバージド・データ・プラットフォームMapR Technologies Japan
 
Spark Streaming の基本とスケールする時系列データ処理 - Spark Meetup December 2015/12/09
Spark Streaming の基本とスケールする時系列データ処理 - Spark Meetup December 2015/12/09Spark Streaming の基本とスケールする時系列データ処理 - Spark Meetup December 2015/12/09
Spark Streaming の基本とスケールする時系列データ処理 - Spark Meetup December 2015/12/09MapR Technologies Japan
 
Apache Drill で日本語を扱ってみよう + オープンデータ解析
Apache Drill で日本語を扱ってみよう + オープンデータ解析Apache Drill で日本語を扱ってみよう + オープンデータ解析
Apache Drill で日本語を扱ってみよう + オープンデータ解析MapR Technologies Japan
 
Drilling into Data with Apache Drill - Tokyo Apache Drill Meetup 2015/11/12
Drilling into Data with Apache Drill - Tokyo Apache Drill Meetup 2015/11/12Drilling into Data with Apache Drill - Tokyo Apache Drill Meetup 2015/11/12
Drilling into Data with Apache Drill - Tokyo Apache Drill Meetup 2015/11/12MapR Technologies Japan
 
HBase と Drill - 緩い型付けの SQL がいかに NoSQL に適しているか
HBase と Drill - 緩い型付けの SQL がいかに NoSQL に適しているかHBase と Drill - 緩い型付けの SQL がいかに NoSQL に適しているか
HBase と Drill - 緩い型付けの SQL がいかに NoSQL に適しているかMapR Technologies Japan
 
Apache Drill でオープンデータを分析してみる - db tech showcase Sapporo 2015 2015/09/11
Apache Drill でオープンデータを分析してみる - db tech showcase Sapporo 2015 2015/09/11Apache Drill でオープンデータを分析してみる - db tech showcase Sapporo 2015 2015/09/11
Apache Drill でオープンデータを分析してみる - db tech showcase Sapporo 2015 2015/09/11MapR Technologies Japan
 
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15MapR Technologies Japan
 
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11MapR Technologies Japan
 
Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11
Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11
Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11MapR Technologies Japan
 
Apache Drill を利用した実データの分析
Apache Drill を利用した実データの分析Apache Drill を利用した実データの分析
Apache Drill を利用した実データの分析MapR Technologies Japan
 
Apache Drill でたしなむ セルフサービスデータ探索 - 2014/11/06 Cloudera World Tokyo 2014 LTセッション
Apache Drill でたしなむ セルフサービスデータ探索 - 2014/11/06 Cloudera World Tokyo 2014 LTセッションApache Drill でたしなむ セルフサービスデータ探索 - 2014/11/06 Cloudera World Tokyo 2014 LTセッション
Apache Drill でたしなむ セルフサービスデータ探索 - 2014/11/06 Cloudera World Tokyo 2014 LTセッションMapR Technologies Japan
 
Apache Drill: Rethinking SQL for Big data – Don’t Compromise on Flexibility o...
Apache Drill: Rethinking SQL for Big data – Don’t Compromise on Flexibility o...Apache Drill: Rethinking SQL for Big data – Don’t Compromise on Flexibility o...
Apache Drill: Rethinking SQL for Big data – Don’t Compromise on Flexibility o...MapR Technologies Japan
 
実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ...
実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ...実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ...
実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ...MapR Technologies Japan
 
エンタープライズ NoSQL/HBase プラットフォーム – MapR M7 エディション - db tech showcase 大阪 2014 201...
エンタープライズ NoSQL/HBase プラットフォーム – MapR M7 エディション - db tech showcase 大阪 2014 201...エンタープライズ NoSQL/HBase プラットフォーム – MapR M7 エディション - db tech showcase 大阪 2014 201...
エンタープライズ NoSQL/HBase プラットフォーム – MapR M7 エディション - db tech showcase 大阪 2014 201...MapR Technologies Japan
 

Plus de MapR Technologies Japan (20)

Fast Data を扱うためのデザインパターン
Fast Data を扱うためのデザインパターンFast Data を扱うためのデザインパターン
Fast Data を扱うためのデザインパターン
 
MapR 5.2: MapR コンバージド・コミュニティ・エディションを使いこなす
MapR 5.2: MapR コンバージド・コミュニティ・エディションを使いこなすMapR 5.2: MapR コンバージド・コミュニティ・エディションを使いこなす
MapR 5.2: MapR コンバージド・コミュニティ・エディションを使いこなす
 
Drill超簡単チューニング
Drill超簡単チューニングDrill超簡単チューニング
Drill超簡単チューニング
 
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
 
ストリーミングアーキテクチャ: State から Flow へ - 2016/02/08 Hadoop / Spark Conference Japan ...
ストリーミングアーキテクチャ: State から Flow へ - 2016/02/08 Hadoop / Spark Conference Japan ...ストリーミングアーキテクチャ: State から Flow へ - 2016/02/08 Hadoop / Spark Conference Japan ...
ストリーミングアーキテクチャ: State から Flow へ - 2016/02/08 Hadoop / Spark Conference Japan ...
 
MapR Streams & MapR コンバージド・データ・プラットフォーム
MapR Streams & MapR コンバージド・データ・プラットフォームMapR Streams & MapR コンバージド・データ・プラットフォーム
MapR Streams & MapR コンバージド・データ・プラットフォーム
 
Spark Streaming の基本とスケールする時系列データ処理 - Spark Meetup December 2015/12/09
Spark Streaming の基本とスケールする時系列データ処理 - Spark Meetup December 2015/12/09Spark Streaming の基本とスケールする時系列データ処理 - Spark Meetup December 2015/12/09
Spark Streaming の基本とスケールする時系列データ処理 - Spark Meetup December 2015/12/09
 
Apache Drill で日本語を扱ってみよう + オープンデータ解析
Apache Drill で日本語を扱ってみよう + オープンデータ解析Apache Drill で日本語を扱ってみよう + オープンデータ解析
Apache Drill で日本語を扱ってみよう + オープンデータ解析
 
Drilling into Data with Apache Drill - Tokyo Apache Drill Meetup 2015/11/12
Drilling into Data with Apache Drill - Tokyo Apache Drill Meetup 2015/11/12Drilling into Data with Apache Drill - Tokyo Apache Drill Meetup 2015/11/12
Drilling into Data with Apache Drill - Tokyo Apache Drill Meetup 2015/11/12
 
HBase と Drill - 緩い型付けの SQL がいかに NoSQL に適しているか
HBase と Drill - 緩い型付けの SQL がいかに NoSQL に適しているかHBase と Drill - 緩い型付けの SQL がいかに NoSQL に適しているか
HBase と Drill - 緩い型付けの SQL がいかに NoSQL に適しているか
 
Apache Drill でオープンデータを分析してみる - db tech showcase Sapporo 2015 2015/09/11
Apache Drill でオープンデータを分析してみる - db tech showcase Sapporo 2015 2015/09/11Apache Drill でオープンデータを分析してみる - db tech showcase Sapporo 2015 2015/09/11
Apache Drill でオープンデータを分析してみる - db tech showcase Sapporo 2015 2015/09/11
 
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15
 
Hadoop によるゲノム解読
Hadoop によるゲノム解読Hadoop によるゲノム解読
Hadoop によるゲノム解読
 
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
 
Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11
Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11
Apache Drill で JSON 形式の オープンデータを分析してみる - db tech showcase Tokyo 2015 2015/06/11
 
Apache Drill を利用した実データの分析
Apache Drill を利用した実データの分析Apache Drill を利用した実データの分析
Apache Drill を利用した実データの分析
 
Apache Drill でたしなむ セルフサービスデータ探索 - 2014/11/06 Cloudera World Tokyo 2014 LTセッション
Apache Drill でたしなむ セルフサービスデータ探索 - 2014/11/06 Cloudera World Tokyo 2014 LTセッションApache Drill でたしなむ セルフサービスデータ探索 - 2014/11/06 Cloudera World Tokyo 2014 LTセッション
Apache Drill でたしなむ セルフサービスデータ探索 - 2014/11/06 Cloudera World Tokyo 2014 LTセッション
 
Apache Drill: Rethinking SQL for Big data – Don’t Compromise on Flexibility o...
Apache Drill: Rethinking SQL for Big data – Don’t Compromise on Flexibility o...Apache Drill: Rethinking SQL for Big data – Don’t Compromise on Flexibility o...
Apache Drill: Rethinking SQL for Big data – Don’t Compromise on Flexibility o...
 
実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ...
実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ...実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ...
実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Conference ...
 
エンタープライズ NoSQL/HBase プラットフォーム – MapR M7 エディション - db tech showcase 大阪 2014 201...
エンタープライズ NoSQL/HBase プラットフォーム – MapR M7 エディション - db tech showcase 大阪 2014 201...エンタープライズ NoSQL/HBase プラットフォーム – MapR M7 エディション - db tech showcase 大阪 2014 201...
エンタープライズ NoSQL/HBase プラットフォーム – MapR M7 エディション - db tech showcase 大阪 2014 201...
 

異常検知 - 何を探すかよく分かっていないものを見つける方法

  • 1. ® © 2014 MapR Technologies 1 © MapR Technologies, confidential ® 何を探すかよく分かっていないもの を見つける方法
 異常検知 2014 年 10 月 14 日
  • 2. ® © 2014 MapR Technologies 2 異常検知: 何を探すかよく分かっていないものを見つける方法 Ted Dunning, MapR Technologies チーフアプリケーションアーキテクト Email tdunning@mapr.com tdunning@apache.org Twitter @Ted_Dunning Ellen Friedman, コンサルタント/コメンテータ Email ellenf@apache.org Twitter @Ellen_Friedman
  • 3. ® © 2014 MapR Technologies 3 MapR の厚意により e-book が入手可 http://bit.ly/1jQ9QuL A New Look at Anomaly Detection Ted Dunning、Ellen Friedman 著、2014 年 6 月出版(オライリーより)
  • 4. ® © 2014 MapR Technologies 4 Practical Machine Learning シリーズ (オライリー) •  機械学習はメインストリームになりつつある •  実際のビジネス環境を考慮に入れた実用的なアプローチが必要: –  価値創造までの時間 (Time to Value) –  限られたリソース –  データの入手可能性 –  システム開発・運用を行うチームの専門知識とコスト •  費やす労力に対して大きな効果をもたらすアプローチを探す
  • 5. ® © 2014 MapR Technologies 5 異常検知!
  • 6. ® © 2014 MapR Technologies 6 誰が異常検知を必要としているか? スマートメーターを利用 している公益事業提供者
  • 7. ® © 2014 MapR Technologies 7 誰が異常検知を必要としているか? 工場の組立ラインからの フィードバック
  • 8. ® © 2014 MapR Technologies 8 誰が異常検知を必要としているか? 通信ネットワークの データトラフィックの監視
  • 9. ® © 2014 MapR Technologies 9 異常検知とは何か? •  まれに起きる出来事を発見することが目的 –  特に、起きるべきではない事象 •  他の人々が気づく前に問題を見つける –  特に、顧客にとっての問題を起こす前に •  なぜ難しいのか? –  異常がどのようなものか(まだ)分からない
  • 10. ® © 2014 MapR Technologies 10 異常を見つけてください
  • 11. ® © 2014 MapR Technologies 11 異常を見つけてください かなり異常に 見える
  • 12. ® © 2014 MapR Technologies 12 異常を見つけてください 本当の異常の方、ご起 立いただけますか?
  • 13. ® © 2014 MapR Technologies 13 基本となる考え方:
 まず “正常な状態” を見つける!
  • 14. ® © 2014 MapR Technologies 14 異常検知のステップ •  モデルを構築: モデルを学習させるためのデータを収集・処理する •  機械学習モデルを使用し、何が通常のパターンかを見極める •  この通常パターンからどれだけ乖離したときに異常とみなすかを決定 する •  異常検知モデルを使用して新しいデータの異常を検知する –  発見のためのクラスタリング等の手法が役に立つ
  • 15. ® © 2014 MapR Technologies 15 異常のアラートを設定するのはどれほど難しいか? グレーのデータが通常の出来事の値、x が異常値 しきい値をどこに設定するか?
  • 16. ® © 2014 MapR Technologies 16 基本となる考え方:
 適応的しきい値の設定!
  • 17. ® © 2014 MapR Technologies 17 実際に何をしているか •  何かが起きたときに行動を起こしたい (死ぬ/落ち込む/何もしないとトラブルになる) •  しかし、行動を起こすには高くつく •  したがって、誤ったアラームが上がりすぎると困る •  さらに、検出もれがありすぎても困る •  警告を出すために設定する適切なしきい値は何か? –  コストとのトレードオフが必要
  • 18. ® © 2014 MapR Technologies 18 もう一度見てみましょう
  • 19. ® © 2014 MapR Technologies 19 もう一度見てみましょう 99.9 パーセンタイル
  • 20. ® © 2014 MapR Technologies 20 新しいアルゴリズム: t-digest!
  • 21. ® © 2014 MapR Technologies 21 オンライン サマライザ 99.9 パーセンタイル t x > t ? アラーム ! x そんなの簡単でしょう?
  • 22. ® © 2014 MapR Technologies 22 散発的なイベントにおける異常検知 0.0 0.2 0.4 0.6 0.8 1.0 05000100001500020000 pnorm(centroids[order(centroids)]) counts[order(centroids)]
  • 23. ® © 2014 MapR Technologies 23 t-Digest の利用 •  Apache Mahout はオンラインパーセントタイル推定値として t-digest を利用している –  極端に飛び出た値に対しては非常に高精度 –  Mahout バージョン 0.9 の新機能 •  t-digest は他でも利用可能 –  streamlib の中(github 上のオープンソースライブラリ) –  スタンドアローン(github および Maven Central) •  異常検知って大したことではないのでは? •  これで問題は解決したように見える
  • 24. ® © 2014 MapR Technologies 24 もう実装済み? Etsy Skyline?
  • 25. ® © 2014 MapR Technologies 25 これはどうか? 0 5 10 15 −20246810 offset+noise+pulse1+pulse2 A B
  • 26. ® © 2014 MapR Technologies 26 モデルデルタ異常検知 オンライン サマライザ δ > t ? 99.9 パーセンタイル t アラーム ! モデル - + δ
  • 27. ® © 2014 MapR Technologies 27 内部の事情 •  モデルデルタ異常検知器は実際のところ単なる確率変数の和 –  すでに知っているモデル –  そして正規分布に従う誤差 •  出力(デルタ)は(おおよそ)和の分布の対数確率(実際には δ2) •  確率分布を思い浮かべればよい •  しかし散発的なイベントがあるシステムでどのように異常検知を扱え ばよいか?
  • 28. ® © 2014 MapR Technologies 28 異常を見つけてください 異常?
  • 29. ® © 2014 MapR Technologies 29 おそらく違う !
  • 30. ® © 2014 MapR Technologies 30 ウォーリーをさがせ ! これが本当の異常
  • 31. ® © 2014 MapR Technologies 31 通常は単なる通常ではない •  何が通常かを表す モデル が欲しい •  モデルに合致しないものを 異常 とする •  シンプルなシグナルであれば、モデルもシンプルになり得る … •  実世界ではそれほどぴったり当てはまることはない x ~ N(0,ε)
  • 32. ® © 2014 MapR Technologies 32 ウィンドウを適用する
  • 33. ® © 2014 MapR Technologies 33 ウィンドウを適用する
  • 34. ® © 2014 MapR Technologies 34 ウィンドウを適用する
  • 35. ® © 2014 MapR Technologies 35 ウィンドウを適用する
  • 36. ® © 2014 MapR Technologies 36 ウィンドウを適用する
  • 37. ® © 2014 MapR Technologies 37 ウィンドウを適用する
  • 38. ® © 2014 MapR Technologies 38 ウィンドウを適用する
  • 39. ® © 2014 MapR Technologies 39 ウィンドウを適用する
  • 40. ® © 2014 MapR Technologies 40 ウィンドウを適用する
  • 41. ® © 2014 MapR Technologies 41 ウィンドウを適用する
  • 42. ® © 2014 MapR Technologies 42 ウィンドウを適用する
  • 43. ® © 2014 MapR Technologies 43 ウィンドウを適用する
  • 44. ® © 2014 MapR Technologies 44 ウィンドウを適用する
  • 45. ® © 2014 MapR Technologies 45 ウィンドウを適用する
  • 46. ® © 2014 MapR Technologies 46 ウィンドウを適用する
  • 47. ® © 2014 MapR Technologies 47 世界の窓 •  ウィンドウを適用したシグナルのセットはオリジナルのシグナルに対 するよいモデル •  クラスタリングによりプロトタイプを見つけることができる –  スパースコーディングを使った優れた手法を利用可能 •  結果は形状の辞書 •  新しいシグナルは辞書から形状を平行移動、拡大縮小、追加すること によりエンコードできる
  • 48. ® © 2014 MapR Technologies 48 最もよく現れる形状(心電図)
  • 49. ® © 2014 MapR Technologies 49 再構成されたシグナル オリジナル のシグナル 再構成された シグナル 再構成エラー < 1 bit / サンプル
  • 50. ® © 2014 MapR Technologies 50 異常 1次元の異常検出のための従 来の手法は再構成エラーに対 して有効
  • 51. ® © 2014 MapR Technologies 51 異常をクローズアップ あって欲しくない心臓の動き モデルが予期していない心臓 の動き
  • 52. ® © 2014 MapR Technologies 52 異なる種類の異常
  • 53. ® © 2014 MapR Technologies 53 モデルデルタ異常検知 オンライン サマライザ δ > t ? 99.9 パーセンタイル t アラーム ! モデル - + δ
  • 54. ® © 2014 MapR Technologies 54 内部の事情 •  モデルデルタ異常検知器は実際のところ単なる確率変数の和 –  すでに知っているモデル –  そして正規分布に従う誤差 •  出力(デルタ)は(おおよそ)和の分布の対数確率(実際には δ2) •  確率分布を思い浮かべればよい
  • 55. ® © 2014 MapR Technologies 55 散発的なイベントにおける異常!
  • 56. ® © 2014 MapR Technologies 56 eビジネスのサイトに対する散発的な Web トラフィック トラフィックが停止もしくは遅延しているのは何 らかの問題があったからかどうかを知ることは 重要… しかしサイトへの訪問の間隔は通常 変動する 最後のイベントからどれくらい経過し たら気にし始めるべきだろうか?
  • 57. ® © 2014 MapR Technologies 57 eビジネスのサイトに対する散発的な Web トラフィック トラフィックが停止もしくは遅延しているのは何 らかの問題があったからかどうかを知ることは 重要… しかしサイトへの訪問の間隔は通常 変動する そして、どうやったらあなたの会社の CEOを安心して眠らせることができる だろうか?
  • 58. ® © 2014 MapR Technologies 58 基本的な考え方:
 イベントの時間間隔は評価可能な
 役立つものに変換することができる!
  • 59. ® © 2014 MapR Technologies 59 散発的なイベント: 通常と異常のパターンを見つける •  時間間隔は絶対時間よりもはるかに役に立つ •  カウントは確率モデルに直接結びつかない •  時間間隔は log ρ •  これは非常に重要
  • 60. ® © 2014 MapR Technologies 60 イベントのストリーム(タイミング) •  様々なタイプのイベントが不規則な間隔で到着する –  ポワソン分布を仮定する •  頻度が期待値と比較して変化したかどうかが重要 –  これは間隔の変化として現れる •  できる限り早くアラートを上げたい
  • 61. ® © 2014 MapR Technologies 61 イベント時間を異常値に変換 99.9 パーセンタイル 99.99パーセンタイル
  • 62. ® © 2014 MapR Technologies 62 しかし現実にはイベントの
 発生頻度はしばしば変化する!
  • 63. ® © 2014 MapR Technologies 63 時間間隔は散発的なイベントをモデリングするための鍵
  • 64. ® © 2014 MapR Technologies 64 モデルに従いスケールされた間隔が問題を解決する
  • 65. ® © 2014 MapR Technologies 65 モデルデルタ異常検知 オンライン サマライザ δ > t ? 99.9 パーセンタイル t アラーム ! モデル - + δ log p
  • 66. ® © 2014 MapR Technologies 66 散発的なイベントにおける異常検知 Incoming events 99.97%-ile Alarm Δn Rate predictor Rate history t-digest δ>t ti δ λ(ti-ti-n) λ t
  • 67. ® © 2014 MapR Technologies 67 散発的なイベントにおける異常検知 Incoming events 99.97%-ile Alarm Δn Rate predictor Rate history t-digest δ>t ti δ λ(ti-ti-n) λ t
  • 68. ® © 2014 MapR Technologies 68 一週間ずらしてみる: シンプルなレート予測器 Nov 02 Nov 07 Nov 12 Nov 17 Nov 22 Nov 27 Dec 02 0100200300400500 Main Page Traffic Date Hits(x1000) A B C D
  • 69. ® © 2014 MapR Technologies 69 ポアソン分布 •  イベントの時間間隔は指数分布 •  つまり、長い遅延は指数関数的にまれ •  もし λ がわかれば、良いしきい値を選択できる –  もしくはしきい値を経験的に選択できる Δt ~ λe−λt P(Δt > T) = e−λT −logP(Δt > T) = λT
  • 70. ® © 2014 MapR Technologies 70 季節性は難しい問題 Nov 17 Nov 27 Dec 07 Dec 17 Dec 27 02468 Christmas Traffic Date Hits/1000
  • 71. ® © 2014 MapR Technologies 71 もう少し何かが必要 … Nov 17 Nov 27 Dec 07 Dec 17 Dec 27 02468 Christmas Traffic Date Hits/1000
  • 72. ® © 2014 MapR Technologies 72 より良いレート予測器が必要… Incoming events 99.97%-ile Alarm Δn Rate predictor Rate history t-digest δ>t ti δ λ(ti-ti-n) λ t
  • 73. ® © 2014 MapR Technologies 73 散発的なイベントのための新しいレート予測器 Predictor variables Target variable 2008-11-23 13:00:00 681 638 491 445 614 545 2008-11-23 14:00:00 755 681 638 491 705 614 2008-11-23 15:00:00 887 755 681 638 687 705 2008-11-23 16:00:00 964 887 755 681 842 687 Date/time y Current rate x1 1 hour ago x2 2 hours ago x3 3 hours ago x4 24 hours ago x5 48 hours ago
  • 74. ® © 2014 MapR Technologies 74 適応的モデリングによる予測の改善 Dec 17 Dec 19 Dec 21 Dec 23 Dec 25 Dec 27 Dec 29 02468 Christmas Prediction Date Hits(x1000)
  • 75. ® © 2014 MapR Technologies 75 異常検知 + 分類 à 有効な組み合わせ •  新しいデータの中で異常を検出するために異常検知モデルを利用 –  発見のためのクラスタリングのような手法が役に立つことも •  一度システムでよくできたモデルが手に入れば、これらをタグ付けす るために分類を行うことも有効 •  新しい異常を見つけるために異常検知モデルを使い続ける
  • 76. ® © 2014 MapR Technologies 76 まとめ(順不同) •  異常検知は確率モデルで取り扱うのがベスト •  -log p は異常の評価値に変換するのに適した方法 •  適応的分位点推定 (t-digest) はしきい値の自動設定に有効
  • 77. ® © 2014 MapR Technologies 77 まとめ •  システムごとに異なるモデルが必要 •  継続的時系列 –  シグナルモデルを構築するためのスパースコーディング •  時間イベント –  ポワソン分布の変動レートに基づくレートモデル –  分離レートモデル •  ラベル付きのイベント –  言語モデル –  隠れマルコフモデル
  • 78. ® © 2014 MapR Technologies 78 なぜ異常検知を使うのか?
  • 79. ® © 2014 MapR Technologies 79 覚えておいてください… •  通常をモデルして、 それから異常を見つける •  適応的しきい値のための t-digest •  複雑なパターンのための 確率モデル - 0 5 10 15 −20246810 offset+noise+pulse1+pulse2 A B
  • 80. ® © 2014 MapR Technologies 80 Dec 17 Dec 19 Dec 21 Dec 23 Dec 25 Dec 27 Dec 29 02468 Christmas Prediction Date Hits(x1000) 覚えておいてください… •  時間間隔は散発的イベントの ための鍵 •  季節性のあるレートを予測する ための複雑な時間シフト •  連続するイベントによりフィッ シング攻撃が明らかになる
  • 81. ® © 2014 MapR Technologies 81 MapR の厚意により e-book が入手可 http://bit.ly/1jQ9QuL A New Look at Anomaly Detection Ted Dunning、Ellen Friedman 著、2014 年 6 月出版(オライリーより)
  • 82. ® © 2014 MapR Technologies 82 10月に出版予定: Time Series Databases Ted Dunning、Ellen Friedman 著、2014 年 10 月出版(オライリーより) TimeSeries Databases Ted Dunning & Ellen Friedman New Ways to Store and Access
  • 83. ® © 2014 MapR Technologies 83 本日はご来場ありがとうございました!!
  • 84. ® © 2014 MapR Technologies 84 © MapR Technologies, confidential ®
  • 85. ® © 2014 MapR Technologies 85 Sandbox!