3. • Netflixの映画評価データベースを使った公開タスク事件:
Narayanan, A., Shmatikov, V. (2008) Robust De-anonymization of Large Sparse
Datasets, Proc. of the 2008 IEEE Symposium on Security and Privacy, 111-125
という論文が以下のような匿名性の崩壊現象を示しました。
このデータベースは、50万人のユーザがのべ1億件の映画評価を行った
データベース。1人あたり8本を評価したデータで評価実験タスクが公開され、
参加者が募集されました。
評価した日が3日程度誤差があるとすると
• 2本の映画評価が知られると、60%のユーザが識別され、
• 4本の映画評価が知られると90%のユーザが識別されます
– 識別とは個人を特定できないが、同一人物のデータだと認識された状態で
あり、外部のデータと突き合わせると個人特定につながりやすい
• これによって、Netflix公開タスクは中止に追い込まれました。
あらまし
Narayanan2008:Robust De-anonymization of
Large Sparse Datasets