Ce diaporama a bien été signalé.
Le téléchargement de votre SlideShare est en cours. ×

スライディングスケッチについて

Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité

Consultez-les par la suite

1 sur 14 Publicité

Plus De Contenu Connexe

Similaire à スライディングスケッチについて (20)

Plus récents (20)

Publicité

スライディングスケッチについて

  1. 1. Sliding Sketches: A Framework using Time Zones for Data Stream Processing in Sliding Windows 2022/12/9 Author: Xiangyang Gou, Long He, Yinda Zhang, Ke Wang, Xilai Liu, Tong Yang, Yi Wang, Bin Cui https://dl.acm.org/doi/10.1145/3394486.3403144 Ryutaro Yamakawa 1
  2. 2. 2 • リアルタイムでのデータストリームの処理は, 2020年から多くのアプリケーションで重要なト レンド ー 例として侵入検知システムや金融システム ー データストリームは大きなデータであり,それを送信 したり保管するのはコストになる ー スケッチはデータストリームのサマリーとして使われ ている確率的なデータ構造 ー データストリームをアプリケーションに即座に反映さ せたい,それを解決するモデルがスライディングウィ ンドウモデル 研究背景
  3. 3. 3 • スライディングウィンドウ内の情報取得の近似 的な問い合わせは,多く存在する ー スライディングウィンドウ内の項目eの頻度を取得す るためのクエリで,使われているスケッチはECM sketch, splitter windowed count-min sketchなどが存在 ー 今回はCount-Min sketchに限定 • https://en.wikipedia.org/wiki/Count%E2%80%93min_sketch ー 今まではスライディングウィンドウに問い合わせを行 うと同期的なゆえに頻度の誤差が大きくなる 既存手法
  4. 4. 4 • スライディングスケッチ(Sliding Sketch)を様々な スケッチを用いているスライディングウィンド ウに適用して,従来のスケッチよりも低い誤差, 速さになっていることを実験の結果より示す. • スライディングスケッチ ー スキャンを用いて非同期で異なる期間を保存する ー スライディングウィンドウのバケットというデータ構 造があり,それをスキャンを行ってバケットにマッピ ング ー 小さなメモリ使用量で高い精度を持つ ー 頻度の問い合わせの平均エラー率は,最新のスライデ ィングウィンドウに比べて40~50倍低い 研究目的
  5. 5. 5 • 配列の各要素はバケットBを持つ,配列はk個の 等しい大きさのセグメントに分割 • 更新するときは,下記の図のように項目eに対応 した各セグメントのバケット1つを更新 • 取り出すときは,Count-Minの場合は項目eにした 各セグメント1つの中で一番小さいものを取得 k-hash modelというSketch
  6. 6. 6 • k-hash modelをスライディングウィンドウに適用 • バケットの中には2つの要素を持ち,それぞれ 𝐵𝑛𝑒𝑤,𝐵𝑜𝑙𝑑とする • バケットに格納される情報はDayと呼ばれる情報 スライディングスケッチモデル
  7. 7. 7 • 更新 ー 項目eを挿入するため,各セグメントにひとつずつkの ハッシュ関数を持つバケットの𝐵𝑛𝑒𝑤に格納 • スキャン ー 古い情報を削除する ー 新しい要素が到着するたびにスキャンポインタをイン クリメントして,配列の数と同じになったら削除する ー 削除処理はスキャンポインタが到達したバケットは 𝐵𝑛𝑒𝑤の要素を𝐵𝑜𝑙𝑑に代入し, 𝐵𝑛𝑒𝑤に0(ゼロ)を代入 ー 配列の最後までポインタが到達したら最初に戻る ー スキャンポイントは下記のように円状になる スライディングスケッチモデル
  8. 8. 8 • Count-Minでの頻度取り扱い ー k個のすべてのセグメントから𝐵𝑖 𝑛𝑒𝑤 + 𝐵𝑖 𝑜𝑙𝑑 (1 ≦ 𝑖 ≦ 𝑘) の数値のうち最も小さいものを取り出し,頻度の近似 を算出 ー メリットとして頻度が真の値よりも小さくなる可能性 はない スライディングスケッチモデル
  9. 9. 9 • δは誤差に影響 • δはDayがどの程度経過したかを表す,δ= 1 3 は1日 が 1 3 経過したことと同義 • δにより,Query timeであるTの位置からスライデ ィングウィンドウの範囲がわかる • 下記の図は,δ= 1 3 のときのスライディングウィン ドウの範囲である スライディングスケッチの誤差
  10. 10. 10 • δの位置はスキャンポインタの位置をq,バケッ トの今いる場所をp,mをスライディングウィン ドウの長さとしたときに以下の式で表す スライディングスケッチの誤差
  11. 11. 11 • p<qのとき,p=2,q=3,m=4のときδ= 1 4 となり 1 4 経過し た.ピンクの部分が経過している. • p≧qのとき,p=3,q=1,m=4のときδ= 1 2 となり 1 2 経過 した.ピンクの部分が経過している. スライディングスケッチの誤差
  12. 12. 12 • δの範囲でスライディングウィンドウの範囲が決 まるので,正確性が決まる • Count-Minでは頻度の問い合わせで過大推定誤差 がある ー 理由としては1~ 𝑘+2 𝑘 のスライディングウィンドウの範 囲を結果を返すため • スライディングウィンドウより大きいサイズを探索して知る ので過大推定誤差がある • ただし真の値は下回らない スライディングスケッチの精度
  13. 13. 13 • Average Relative Error(ARE:平均相対誤差) ー 折れ線グラフのSI-CM(水色)のグラフ ー 様々なデータセットに適用してAREをみる • SI-CMはメモリを増やしても,AREがあまり変化がないのがわ かる • 元よりこのフレームワークを適用した場合は1MB程度でARE が1より小さくなっている Count-Min Sketchでの評価
  14. 14. 14 • Insertion Speed(挿入速度) ー 折れ線グラフのSI-CM(水色)のグラフ ー AREと同様様々なデータセットに適用 ー 比較対象の他のスケッチよりも速い ー Memoryを1MBから4MBへ増やすと速さが1Mbpsから 0.5Mbpsまで落ちている ー この事象についての考察はない Count-Min Sketchでの評価

×