Scis2014 匿名化(最終版)
- 9. 加工方法の例:k 匿名化
— 開示データからの個人識別を防ぐための匿名化モデル
—
[Sweeney 02] k-Anonymity: A Model for Protecting Privacy
— 準識別情報つまりB属性の情報について、共通の組み合わせを持つレコード
が少なくともk個以上存在する時、開示データはk 匿名性をみたすと言う
— k 匿名化
— 属性の一般化や秘匿などにより、k 匿名性をみたすように、共通の準識別情
報( B属性の情報)の組み合わせを持つ複数のレコード集合を構成すること
趣味
1
2
3
4
5
6
7
8
9
1800005
1800012
1800003
1810015
1810015
1810013
1800003
1800021
1800001
1800099
男
男
男
女
女
女
男
男
男
男
39
32
37
40
46
43
50
52
60
66
アニメ
アニメ
アニメ
映画
アニメ
ドラマ
映画
ドラマ
ドラマ
時代劇
10
№
3匿名化
郵便番号
性別
年齢
趣味
1
2
3
18000**
18000**
18000**
男
男
男
3*
3*
3*
アニメ
アニメ
アニメ
4
5
6
18100**
18100**
18100**
女
女
女
4*
4*
4*
9
10
18000**
18000**
18000**
18000**
男
男
男
男
ここでは、
郵便番号・性別・年齢 7
に注目
8
3
映画
アニメ
ドラマ
3
50以上
映画
50以上
ドラマ
50以上
ドラマ
50以上
時代劇
4
:)
年齢
:)
性別
:)
郵便番号
:(
№
3-匿名性(郵便番号・性別・年齢)
9
- 10. 完全な k 匿名化データ以外は公開できない
— 少しでも情報を残してよいとすると、別データと組み合わせ
が可能な危険性がある
⇒ どの準識別子( B属性の情報)に対しても k 匿名性を満た
したデータ以外は公開しない以外に方法はない
3-匿名性(*)
郵便番号
3-匿名性(郵便番号・性別・年齢)
郵便番号
性別
年齢
趣味
18000**
18000**
18000**
男
男
男
3*
3*
3*
アニメ
アニメ
アニメ
18100**
18100**
18100**
女
女
女
4*
4*
4*
映画
アニメ
ドラマ
場合によっては、個人特定可能なデータが残る、こ
んなにわかりやすければ消すだろうが、1人だとす
ると、再識別可能な可能性が残る
性別
年齢
18000**
18000**
18000**
男
男
男
3*
3*
3*
18100**
18100**
18100**
女
女
女
4*
4*
4*
18000**
18000**
18000**
18000**
男
男
男
男
50以上
50以上
50以上
50以上
10
- 12. 加えて問題が
— 他にどういう問題が残るのか
— 誰かに不利な統計情報というものは残る
— 例)新大久保のヘイトスピーチ
— 準識別子(B属性の情報)の性質やその項目がプライバシーにデリ
ケートか
— 例)匿名化はされたがポルノを買った群と明示された
— そのデータに入っているかどうかの推測のしやすさ
— k/n 全体のデータ量nとkの値に適切なものがありそう
3-匿名性(*)
郵便番号
この匿名データに
入っているかどうか
の推測のしやすさ
男
男
男
3*
3*
3*
18100**
18100**
18100**
匿名化データ
年齢
18000**
18000**
18000**
性別
女
女
女
4*
4*
4*
18000**
18000**
18000**
18000**
男
男
男
男
50以上
50以上
50以上
50以上
全体の量nとk人
に依存
こういう情報なら
いいがデリケー
トな準識別や項
目もありそう
ある人に不利な統
計情報として公開
される可能性
12