SlideShare une entreprise Scribd logo
1  sur  20
Télécharger pour lire hors ligne
Statistical Disclosure Control 
の紹介 
Twitter ID @Wakamatz
ものまね鳥をまねる会 
 「ものまね鳥をまねる」という論理パズルの本の読書会 
を主宰している。 
 論理パズルを解きながらSKIコンビネータ論理を学ぶ。
1.オープンデータの隆盛 
 近年、ビッグデータ活用の合言葉のもとにオープン 
データがあちこちでなされるようになりました。 
 データの開示には個人情報漏えいのリスクが伴い 
ます。 
 データ開示リスクを防ぐための手法として 
SDC(Statistical Disclosure Control)を紹介しま 
す。
2.SDCの対象 
 microdata: 
 個別の情報(個人、世帯、組織別の情報) 
 対義語:aggregated macrodata(全体の統計情報)
3.データの種類 
 Direct Identity: 
 単体で個人、世帯、組織を正確に識別できる情報 
 例)社会保障番号、個人名、会社名、住所など 
 Key variables: 
 組み合わせることで個人、世帯、組織を正確に識別できる情報 
 例)性別、年齢、地域、職業など 
 Non-identifying variables 
 上記の2つ以外のデータ
4.SDCのトピック 
1.開示リスクの計測 
k-Anonimity, l-Diversity, etc 
2.microdataの匿名化の方法 
Recoding, Local Suppression, Post-randomization, 
etc 
3.元のデータと修正後のデータの比較
5.開示リスクの計測 
開示リスクを評価するためには、評価に直接影響を 
与える key variables を適切に選択することが不 
可欠である。
5.1.頻度カウント 
Key Variablesの組合せについての発生頻度からリ 
スクを計算する。 
年齢地域性別学歴リスクFk 
1 1 2 2 1 0.017 110.0 
2 1 2 1 1 0.022 84.5 
3 3 3 1 5 0.177 17.0 
4 4 3 1 4 0.012 541.0 
5 4 3 1 1 0.297 8.0 
6 6 2 1 5 0.402 5.0
5.2.k-匿名性(k-Anonimity) 
Key Variablesの組合せごとの頻度の最小値 
性別人種Fk 
1 1 1 3 
2 1 1 3 
3 1 1 3 
4 2 2 3 
5 2 2 3 
6 2 2 3 
3-anonimity 
性別人種Fk 
1 1 1 2 
2 1 1 2 
3 1 2 2 
4 1 2 2 
5 2 2 2 
6 2 2 2 
2-anonimity
5.3.l-多様性(l-Diversity) 
Key Variablesの組合せごとのsensitive variablesの 
数 
性別人種Sen Fk ldiv 
1 1 1 50 3 2 
2 1 1 50 3 2 
3 1 1 42 3 2 
性別人種Sen Fk ldiv 
1 2 2 62 2 1 
2 2 2 62 2 1 
2-diversity 1-diversity
5.4.連続値をとるKey Variablesに対する 
リスクの計測 
・外部データベースとのマッチングにより個人識別が 
可能になる可能性がある。 
・距離ベースでリスクを計測する。
6.匿名化手法 
匿名化手法として、一般的に次の2種類がある。 
1.決定的手法 
Recoding, Local Suppression, etc 
2.確率的手法 
Swapping, PRAM
6.1.Recoding 
複数のカテゴリーを組み合わせてより情報の少ないカテゴ 
リーにまとめる。 
例)年齢 
10代、20代、・・・、70代、80代以上 
よく使われるのが上と下でRecodingをすること。 
たとえば年齢では、下は20歳未満、上は80代以上
6.2.Local Suppression 
k-anonimityを実現するために用いられる。 
k-anonimityを達成するために、達成できないグルー 
プのデータを隠蔽する
6.3.Post-randomization 
Key variablesの各カテゴリー間を一定の確率で移動 
させる。 
たとえば男と女の間で移動する確率を次のようにす 
る。 
男→男:0.85 男→女:0.15 
女→男:0.20 男→女:0.80
6.4.連続値をとるKey Variablesに対する 
匿名化手法 
1. Microaggregation 
適当なクラスタリングによりグループ分けしてそれぞれのグループ 
ないで平均値をデータとする。 
2. Adding Noise 
3. Shuffling 
Num1 Num2 Num3 Mic1 Mic2 Mic3 
1 0.30 0.400 4 0.65 0.850 8.5 
2 0.12 0.220 22 0.15 0.510 15.0 
3 0.18 0.800 8 0.15 0.510 15.0 
4 1.90 9.00 91 1.45 1.150 52.5 
5 1.00 1.300 13 0.65 0.850 8.5 
6 1.00 1.400 14 1.45 1.150 52.5
7.データユーティリティと情報損失の計測 
データ匿名化を適用すると、一般的にデータユーティ 
リティが下がり、情報損失が発生する。 
匿名化手法を評価するために、データユーティリティ 
と情報損失を計測する。。
7.1.一般的な評価法 
1.IL1s 
IL1=1/pΣjΣi|xij-xij'|/√2Sj 
 ただし、xijは変更前、xij'は変更後のkey variables
8.ワークフロー
9.参考文献 
CRANのSDCの手法を実装したパッケージ 
http://cran.r-project.org/web/packages/sdcMicro/ 
そのリファレンス・・・Introduction to Statistical Disclosure Control (SDC) 
http://cran.r-project.org/web/packages/sdcMicro/vignettes/sdc_guidelines.pdf 
東京大学 中山 裕志 「プライバシー保護データマイニング」 
http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/labintro/2010PPDM-summary.pdf 
東京大学 竹村 彰通 「統計的開示抑制について」 
http://park.itc.u-tokyo.ac.jp/atstat/takemura-talks/090704-takemura-ppdm.pdf

Contenu connexe

Similaire à 安全なデータ公開のために

経済学のための実践的データ分析 3.データの可用性とプライバシー
経済学のための実践的データ分析 3.データの可用性とプライバシー経済学のための実践的データ分析 3.データの可用性とプライバシー
経済学のための実践的データ分析 3.データの可用性とプライバシーYasushi Hara
 
20120628ビッグデータとプライバシー
20120628ビッグデータとプライバシー20120628ビッグデータとプライバシー
20120628ビッグデータとプライバシーUEHARA, Tetsutaro
 
分散型サイエンスの誕生と可能性
分散型サイエンスの誕生と可能性分散型サイエンスの誕生と可能性
分散型サイエンスの誕生と可能性Hiro Hamada
 
20130203北大・ビッグデータとプライバシー
20130203北大・ビッグデータとプライバシー20130203北大・ビッグデータとプライバシー
20130203北大・ビッグデータとプライバシーUEHARA, Tetsutaro
 
Kobe sec#11 summary
Kobe sec#11 summaryKobe sec#11 summary
Kobe sec#11 summaryYukio NAGAO
 

Similaire à 安全なデータ公開のために (7)

経済学のための実践的データ分析 3.データの可用性とプライバシー
経済学のための実践的データ分析 3.データの可用性とプライバシー経済学のための実践的データ分析 3.データの可用性とプライバシー
経済学のための実践的データ分析 3.データの可用性とプライバシー
 
20120628ビッグデータとプライバシー
20120628ビッグデータとプライバシー20120628ビッグデータとプライバシー
20120628ビッグデータとプライバシー
 
分散型サイエンスの誕生と可能性
分散型サイエンスの誕生と可能性分散型サイエンスの誕生と可能性
分散型サイエンスの誕生と可能性
 
欧米各国におけるヘルスケア個人情報の扱い
欧米各国におけるヘルスケア個人情報の扱い欧米各国におけるヘルスケア個人情報の扱い
欧米各国におけるヘルスケア個人情報の扱い
 
20130203北大・ビッグデータとプライバシー
20130203北大・ビッグデータとプライバシー20130203北大・ビッグデータとプライバシー
20130203北大・ビッグデータとプライバシー
 
6 1security3
6 1security36 1security3
6 1security3
 
Kobe sec#11 summary
Kobe sec#11 summaryKobe sec#11 summary
Kobe sec#11 summary
 

安全なデータ公開のために