マイニング探検会#07

2010年10月22日
＠東京大学アントレプレナープラザ会議室

プライバシー保護データマイニング
(PPDM): データマイニング研究の
最前線
東京大学情報基盤センター
学術情報研究部門特任講師／
株式会社リッテル最高技術責任者
清田陽司

データマイニングの現況
• データ蓄積のコストが劇的に低下している
– 常時接続はいまや当たり前
– 1TBytesのハードディスクは1万円以下
• コンピューター資源が容易に入手可能
– 市販のPCでもそこそこできたりする
– パブリッククラウドも使える
• ツールも整備されてきた
– オープンソースソフトでもできる (R、GETAssoc、…)

課題
• 使いやすい形で蓄積するのは簡単ではない
– ハードディスクの肥やしでは意味がない
– 商用データウェアハウスは超高価
• そんなに簡単に有用な結果は出ない
– 大量の試行錯誤必須
• プライバシー保護とどうやって両立する？
– トレードオフ問題

そもそも、プライバシー保護って？
• 個人情報保護法 (2005年制定)
– 個人情報＝個人を特定可能な情報
• 氏名、性別、生年月日、住所、電話番号、職業、年収、
家族構成、IPアドレス、メールアドレス…
– 「個人情報保護の有益性に配慮しつつ、個人の
権利利益を保護」
• 業界ごとの倫理規程
– cf. 図書館の自由に関する宣言
• プライバシー≠個人情報
– 利用履歴、検索キーワード、メールの内容などは
プライバシーに該当

ちょっとした疑問
• 定性的な議論は多くなされている
– ○○という情報は公開すべきか否か？
• 定量的な議論があまりなされていない？
– 「データの有益性」と「個人の権利利益保護」のト
レードオフならば、両者の比較のために定量化は
不可欠では？
– 飛行機や薬品のリスクも定量的に議論されている
• 「個人情報を公開しない」は「プライバシー保
護」の十分条件ではない

link attack の例
• Massachussetts州知事の医療記録が公開情報から特
定可能
– MA では、収集した医療データをサニタイズして公開して
いる左円内
– 一方、選挙の投票者名簿は公開右円内

• 両者をつきあわせると
• 6 人が知事と同じ生年月日
うち3 人が男
うち1 人が同じzipcode

• 1990年の the US 1990 census dataによれば
– 87% の人が (zipcode, 性別, 生年月日)によって一意特定可能

プライバシー保護データマイニング
(PPDM)
• 2002～2006年頃から導入された概念
• キーワード
– k-匿名性（k-anonymity）
– l -多様性（l-diversity）
– t-closeness

動機
• 複数の組織がプライシーに係わるクリティカルなデー
タを持ち、場合によっては公開している
– microdata (vs. aggregated macrodata) と呼ばれる詳細
データが解析やマイニングに利用される状況である。（米
国では公開は法令で義務化 )
• microdata の保護のため sanitized（不要部分の削除な
ど）
– 例えば、explicit identifiers (Social Security Number, 氏名,
電話番号) の削除

• しかし、それで十分か？
• 否! link attacksの脅威
– 公開データからプライバシー情報を推測できる可能性あ
り

microdataのプライバシー
 microdataの属性
 explicit identifiers は削除
 quasi identifiers （QI＝擬ID)は個人特定に利用可能
 sensitive attributes は sensitive 情報を持つ
identifier quasi identifiers sensitive
Name Birthdate Sex Zipcode Disease
Andre 21/1/79 male 53715 Flu
Beth 10/1/81 female 55410 Hepatitis
Carol 1/10/44 female 90210 Brochitis
Dan 21/2/84 male 02174 Sprained
Ankle
Ellen 19/4/72 female 02237 AIDS

プライバシー保護の目標は、個人をsensitive
情報から特定できないようにすること

k-匿名性（k-anonymity）
 k-匿名性によるプライバシー保護, Sweeney and Samarati [S01,
S02a, S02b]
 k-匿名性: 個人を他のk-1 人に紛れさせる
 つまり、公開された microdata においては、Quasi Identifier:QI の値
が同一の個人は少なくともk 人存在することを保証
 よって、link attackでも個人特定の確率は 1/k

 実現方法
 一般化 and 抑圧
 当面はデータの値の perturbation（摂動）は考えない。摂動は、後に差
分プライバシーのところで活用されることになる

 プライバシーとデータマイニングにおける有用性のトレードオフ
 必要以上に匿名化しない

k-匿名性の例
匿名化手法
 一般化
 例えば、対象分野のデータは抽象度によって階層化されているなら、
上の階層のデータを公開
 抑圧
 特異性のあるデータ項目は削除

original microdata 2-anonymous data

Birthdate Sex Zipcode Birthdate Sex Zipcode
21/1/79 male 53715 */1/79 person 5****
group 1
10/1/79 female 55410 */1/79 person 5****
1/10/44 female 90210 suppressed 1/10/44 female 90210
21/2/83 male 02274 */*/8* male 022**
group 2
19/4/82 male 02237 */*/8* male 022**

k-匿名性の問題点
 k-匿名性の例
 Homogeneityによる攻撃: 最終グループは全員 cancer
 背景知識による攻撃: 第1グループで、日本人は心臓疾患にかかりにくいことが知
られていると。。。

microdata 4-anonymous data

∗
id Zipcode Sex National. Disease id Zipcode Sex National. Disease

∗
1 13053 28 Russian Heart Disease 1 130** <30 Heart Disease

∗
2 13068 29 American Heart Disease 2 130** <30 Heart Disease

∗
3 13068 21 Japanese Viral Infection 3 130** <30 Viral Infection

∗
4 13053 23 American Viral Infection 4 130** <30 Viral Infection

∗
5 14853 50 Indian Cancer 5 1485* ≥40 Cancer

∗
6 14853 55 Russian Heart Disease 6 1485* ≥40 Heart Disease

∗
7 14850 47 American Viral Infection 7 1485* ≥40 Viral Infection

∗
8 14850 49 American Viral Infection 8 1485* ≥40 Viral Infection

∗
9 13053 31 American Cancer 9 130** 3∗ Cancer

∗
10 13053 37 Indian Cancer 10 130** 3∗ Cancer

∗
11 13068 36 Japanese Cancer 11 130** 3∗ Cancer
12 13068 35 American Cancer 12 130** 3∗ Cancer

l-多様性
[MGK+06]

 各グループにおいて sensitiveなデータの値がうまく
管理されていることを目指す
 homogeneity 攻撃を防ぐ
 背景知識攻撃を防ぐ

l-多様性 (簡単な定義)
あるグループが l-多様性を持つとは、
そのグループ内では少なくともl種類の
sensitive なデータ値が存在する

• group内にl種類のsensitiveな値があり、できるだけ均等に出現するこ
とが望ましい。

t-closeness
 l-多様性があっても、ある属性がaの確率99%,bの確率
1%というように偏りが激しいと、プライバシーは危険
 ２つのグループ（上記a属性のグループとb属性のグルー
プ）は、sensitive データの分布における距離と、全属性
の分布における距離が t 以下であるとき、 t-closeness
である。
 上記の分布間の距離としては、属性を各次元としてにお
いてEarth Mover’s distance(EMD)を用いる
P = ( p1 , p2 ,.., pm ), Q = (q1 , q2 ,.., qm ), 　dij = distance between pi and q j : given
fij = flow bewteen pi and q：　
j

fijを変化させて∑i =1 ∑ j =1 dij fij 最適化したのがEMD
m m

EMD(P, Q ) = min ∑i =1 ∑ j =1 dij fij
m m

f ij

pi − ∑ j =1 fij + ∑ j =1 f ji = qi
m m
s.t. fij ≥ 0 1 ≤ i ≤ m,1 ≤ j ≤ m ,

∑ ∑ f = ∑i =1 pi = ∑i =1 qi = 1
m m m m
14 i =1 j =1 ij

まとめ
• プライバシー保護は、「情報を公開しない」こ
とで実現されるわけではない
– 公益に資するために公開しなければならない情
報もある
– ほかの機関の情報とあわせることでプライバシー
が侵害されてしまうこともあり得る
• 法の精神に従うならば、柔軟に考えてもよい
のかも
– 「国民の知る自由を守り、ひろげていく」という考
え方に合致する方向であれば、それを推進する
責任がある

k-anonymity, l-diversity, t-closenessの
参考文献
• LeFevre, K., DeWitt, D.J., Ramakrishnan, R. Incognito: Efficient Full-domain
k-Anonymity. SIGMOD, 2005.
• LeFevre, K., DeWitt, D.J., Ramakrishnan, R. Mondrian Multidimensional k-
Anonymity. ICDE, 2006.
• Samarati, P. Protecting Respondents' Identities in Microdata Release. IEEE
TKDE, 13(6):1010-1027, 2001.
• Sweeney, L. k-Anonymity: A Model for Protecting Privacy. International
Journal on Uncertainty, Fuzziness and Knowledge-based Systems, 2002.
• Sweeney, L. k-Anonymity: Achieving k-Anonymity Privacy Protection using
Generalization and Suppression. International Journal on Uncertainty,
Fuzziness and Knowledge-based Systems, 2002.
• Ninghui Li,Tiancheng Li,Venkatasubramanian, S. “t-Closeness: Privacy
Beyond k-Anonymity and –Diversity”. ICDE2007, pp.106-115, 2007.

16

マイニング探検会#07

Recommended

Recommended

More Related Content

More from Yoji Kiyota

More from Yoji Kiyota (20)

Recently uploaded

Recently uploaded (7)

マイニング探検会#07