Contenu connexe
Plus de Junpei Kawamoto (13)
位置情報解析のためのプライバシ保護手法
- 2. 動機
ビッグデータ
企業や自治体が大量のデータを保持
GPS情報,購買履歴,メディカルレコード,etc.
これらのデータを解析するメリット
道路事情(渋滞や事故が多い通りはどこか?)
などが効率的に取得
市民の経済活動 可能と期待されている
プライバシ問題
個々人のプライバシに関わるデータを含んでいる
誰がいつどこを訪問したのか?
何を買ったのか? etc.
個々人のプライバシに配慮しつつ
社会にとって有益な情報を取得することが求められている
2 CSIS DAYS 2012 2012/11/3
- 3. 今回注目したトピック
位置情報データ
いつ誰がどこを訪問したのかというデータ
モバイル端末のGPSなどから取得可能
頻出訪問地点セットの抽出問題
よく訪問されている点の集合を探す
○○というエリアに行ったことがある人は
△△というエリアにも訪れやすい
3 CSIS DAYS 2012 2012/11/3
- 4. 頻出訪問地点セットの抽出におけるプライバシ
解析に用いた位置情報から個人が特定されないこと
訪問地点の組から個人が特定される攻撃を問題とする
訪問履歴(10月31日, 14-15時)
T1: {東京, 渋谷}
T2: {東京, 渋谷, 原宿}
T3: {品川, 渋谷} アリスの訪問地点と一致
T4: {品川, 渋谷, 原宿}
攻撃者が
「10月31日にアリスが {東京, 渋谷, 原宿} を訪問」
と知っていると T2 がアリスと特定できてしまう
4 CSIS DAYS 2012 2012/11/3
- 5. 頻出訪問地点セットの抽出におけるプライバシ
集合データに対する匿名性
He らの主張†によると どの組合せも最低 k 個存在すべき
組合せの k-匿名性が必要
「渋谷」や「原宿」を「渋谷区」にまとめる
訪問履歴(10月31日, 14-15時)
T1: {東京, 渋谷区}
アリスの訪問地点と一致
T2: {東京, 渋谷区}
T3: {品川, 渋谷区}
T4: {品川, 渋谷区} k=2 の例
アリスが T1, T2 のどちらか特定不可能
†Yeye He, Jeffrey F. Naughton: Anonymization of Set-Valued Data via Top-Down, Local
Generalization. PVLDB 2(1): 934-945 (2009)
5 CSIS DAYS 2012 2012/11/3
- 6. 既存手法の問題点
エリアのまとめ方の問題
渋谷と原宿を渋谷区にまとめるなど近いエリアで併合
少数が離れたエリアを訪問した場合どうすべきか?
訪問履歴(10月31日, 14-15時)
T1: {東京, 渋谷}
T2: {東京, 渋谷, 横浜}
T3: {品川, 渋谷}
T4: {品川, 渋谷, 原宿}
渋谷と横浜を併せる場合
頻出訪問地点を調べた結果が不明瞭になる
東京と渋谷を同時に訪問する人が多いのか?
それとも東京と横浜を同時に訪問する人が多いのか?
6 CSIS DAYS 2012 2012/11/3
- 7. 提案手法
問題点のまとめ
一点でも離れた
その点を含んだ組合せが
点があると
「k個以上存在すること」を満足させる
ために他の密な集団が犠牲になる
基本アイデア
最終的に得たいのは頻出訪問地点の組
少人数が訪れた離れたエリアは予め取り除く
l-抑制: l人未満しか訪れない点を取り除く
7 CSIS DAYS 2012 2012/11/3
- 8. 評価実験
実験に用いたデータ
人の流れデータ†
人々の動きが活発な通勤時間 (6am-8am)
首都圏南西部から 1 万人をランダムに抽出
データの形式と事前処理
元データは(日時,緯度,経度)の三つ組み
プライバシ保護のためユーザ識別子は取り除いた
緯度・経度は 2km×2km のグリッドに変換
†http://pflow.csis.u-tokyo.ac.jp/index-j.html
8 CSIS DAYS 2012 2012/11/3
- 9. 評価実験の結果
頻出地点の発見には宇野らの LCM† を利用
未匿名化 2 匿名を保証
1抑制2匿名 10抑制10匿名
を保証 を保証
msup = 300
同色 = 同じアイテムセット
†http://research.nii.ac.jp/~uno/codes-j.htm
9 CSIS DAYS 2012 2012/11/3
- 10. まとめと今後の展開
頻出訪問地点の発見におけるプライバシ問題
抑制を用いた既存手法の改良
マイナーなエリアは頻出訪問地点には含まれない
マイナーエリアを予め取り除いても結果には影響しない
人の流れデータを用いた実験によって効果を検証
他の問題への応用を考えている
プライバシを考慮した主導線の発見
プライバシを考慮した渋滞・事故発生地点の発見
10 CSIS DAYS 2012 2012/11/3