Web フィルタリング最前線: 「「検閲回避」回避」 角田孝昭2. はじめに
⾃⼰紹介
l ⾓⽥ 孝昭(つのだ たかあき)
• 技術本部 秋葉原ラボ
• ⾃然⾔語処理研究 → 博⼠(⼯学)→ 現職
l おしごと
• アメブロ、タップル誕⽣を中⼼とした
スパム‧不正利⽤対策、サービス健全化
• 機械学習‧⾃然⾔語処理系のタスク諸々
• 秋葉原ラボ主催の勉強会で写真を撮りに⾏く係 📸
l しゅみ: 写真, ⾳ゲー, スマブラSP
2
3. はじめに
本発表で取り上げる論⽂
1. Hongyu Gong, Yuchen Li, Suma Bhat, Pramod Viswanath, 2019.
Context-Sensitive Malicious Spelling Error Correction. WWW-2019.
• コンテンツフィルターを回避するために「敢えて」スペルミスをしている投稿を発⾒
(例: stupid → stup*d, stupi.d と書き換えるなど)
2. Longtao Huang, Ting Ma, Junyu Lin, Jizhong Han, Songlin Hu, 2019.
A Multimodal Text Matching Model for Obfuscated Language Identification
in Adversarial Communication. WWW-2019.
• コンテンツフィルターを回避するために隠語化している投稿を発⾒
(例: 爆弾 → ⽕暴⼸単 と書き換えるなど)
3
WWW-2019 から最先端のフィルタリング論⽂を2本紹介
★ 本資料の⽂献番号 (例: [1]) は各論⽂で利⽤している番号になります
6. はじめに
コンテンツフィルター 「「回避」回避」 とは?
l フィルター回避を狙う⼩細⼯に対応する
• スペル誤り単語を発⾒‧訂正してから判定 [論⽂①]
• 周辺の単語や視覚的類似性などの情報を利⽤して判定 [論⽂②]
l
• スペル誤り‧難読化などの復元性能ではなく、有害コンテンツの
検知性能で有効性を検証している
⁃ [論⽂①] メールスパム検出、⼈種差別‧性差別ツイート検出
⁃ [論⽂②] 有害ツイート検出(Weibo)
• ただし、2つの論⽂では⼿法の枠組みが⼤きく異なる
論⽂①では前処理として訂正、論⽂②では訂正(復元)をしない等
6
両論⽂のポイント
11. 紹介論⽂1:Context-SensitiveMaliciousSpellingErrorCorrection
提案⼿法: 周辺⽂脈を参照した候補語スコア付け
l 単語の分散表現 (embedding) の2つの特徴を利⽤
1. phrase ベクトルは構成単語ベクトルの線形結合で近似できる [31]
例:
2. 単語がある⽂脈に合う場合、単語と⽂脈のベクトルは類似している [10]
l 単語 c と⽂脈 Tp の距離 dist を次のように考える (式 (1); (2), (3) は解説略)
11
hate_group ⇡ hate + group
dist(c,Tp) = min
{ai }
1
|| c ||2
||
p
ÿ
i= p,i,0
ai i c ||2
2
(正規化項)
Σ 内が最⼩になるような
都合の良い係数達
⽂脈
(前後 p 単語)
⽂脈語の
単語ベクトル
候補語の
単語ベクトル
候補語
(stupid, stud, …)
周辺語の単語ベクトル (の定数倍) との
ユークリッド距離の和を
最終的な距離と考える
非常にざっくり言えば
単語が文脈 Tp にどの程度
合ってるかを見ている
15. 紹介論⽂2:
A Multimodal Text Matching Model for Obfuscated
Language Identification in Adversarial Communication
15
Longtao Huang, Ting Ma, Junyu Lin, Jizhong Han,
Songlin Hu, 2019.
22. Webフィルタリング最前線:「「検閲回避」回避」
まとめと雑感
l まとめ
• フィルターを回避する試みに対応した2つの論⽂を紹介
• 問題は類似しているが、⼿法は割と異なる
l 雑感 〜健全化対応に携わる発表者からの若⼲の私⾒を添えて〜
• 今回は主要でなかった部分にも改善の余地はある
⁃ [論⽂①] 「辞書」の作り⽅、後段の分類器、…
⁃ [論⽂②] NG ワードリストの作成‧拡張、…
• 絶対的な性能は悪くないが、タスク的には 100% に近付ける必要がある
抜け⽳がバレると⼀瞬で広がり、時既に遅し… / ⾃動フィルター化は ≒ 100% でないと難しい
• フィルタリングはまだ取り組むべき問題の⼀つ
単純にディープラーニングに突っ込めば解消する問題ではない。データも集めにくい
22