Soumettre la recherche
Mettre en ligne
安全なデータ公開のために
•
1 j'aime
•
657 vues
W
Wakamatz
Suivre
安全なデータ公開のために - Statistical Disclosure Control -
Lire moins
Lire la suite
Données & analyses
Signaler
Partager
Signaler
Partager
1 sur 20
Télécharger maintenant
Télécharger pour lire hors ligne
Recommandé
安全なデータ公開のために
安全なデータ公開のために
Tsugio Wakamatsu
潜入 Deep Web 犯罪者の思考を探る
潜入 Deep Web 犯罪者の思考を探る
Noriaki Hayashi
Snsプレゼン
Snsプレゼン
lagoon3939
会社でPowershell
会社でPowershell
kobexr
IT Pro のための PowerShell スクリプティング
IT Pro のための PowerShell スクリプティング
Kazuki Takai
Windows PowerShell によるWindows Server 管理の自動化 v4.0 2014.03.13 更新版
Windows PowerShell によるWindows Server 管理の自動化 v4.0 2014.03.13 更新版
junichi anno
PowerShellが苦手だった男がPowerShellを愛するようになるまで
PowerShellが苦手だった男がPowerShellを愛するようになるまで
Kazuhiro Matsushima
学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」
学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」
Hiroshi Nakagawa
Recommandé
安全なデータ公開のために
安全なデータ公開のために
Tsugio Wakamatsu
潜入 Deep Web 犯罪者の思考を探る
潜入 Deep Web 犯罪者の思考を探る
Noriaki Hayashi
Snsプレゼン
Snsプレゼン
lagoon3939
会社でPowershell
会社でPowershell
kobexr
IT Pro のための PowerShell スクリプティング
IT Pro のための PowerShell スクリプティング
Kazuki Takai
Windows PowerShell によるWindows Server 管理の自動化 v4.0 2014.03.13 更新版
Windows PowerShell によるWindows Server 管理の自動化 v4.0 2014.03.13 更新版
junichi anno
PowerShellが苦手だった男がPowerShellを愛するようになるまで
PowerShellが苦手だった男がPowerShellを愛するようになるまで
Kazuhiro Matsushima
学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」
学術会議 ITシンポジウム資料「プライバシー保護技術の概観と展望」
Hiroshi Nakagawa
経済学のための実践的データ分析 3.データの可用性とプライバシー
経済学のための実践的データ分析 3.データの可用性とプライバシー
Yasushi Hara
20120628ビッグデータとプライバシー
20120628ビッグデータとプライバシー
UEHARA, Tetsutaro
分散型サイエンスの誕生と可能性
分散型サイエンスの誕生と可能性
Hiro Hamada
欧米各国におけるヘルスケア個人情報の扱い
欧米各国におけるヘルスケア個人情報の扱い
Eiji Sasahara, Ph.D., MBA 笹原英司
20130203北大・ビッグデータとプライバシー
20130203北大・ビッグデータとプライバシー
UEHARA, Tetsutaro
6 1security3
6 1security3
Yuki Fujino Oita Univ.
Kobe sec#11 summary
Kobe sec#11 summary
Yukio NAGAO
Contenu connexe
Similaire à 安全なデータ公開のために
経済学のための実践的データ分析 3.データの可用性とプライバシー
経済学のための実践的データ分析 3.データの可用性とプライバシー
Yasushi Hara
20120628ビッグデータとプライバシー
20120628ビッグデータとプライバシー
UEHARA, Tetsutaro
分散型サイエンスの誕生と可能性
分散型サイエンスの誕生と可能性
Hiro Hamada
欧米各国におけるヘルスケア個人情報の扱い
欧米各国におけるヘルスケア個人情報の扱い
Eiji Sasahara, Ph.D., MBA 笹原英司
20130203北大・ビッグデータとプライバシー
20130203北大・ビッグデータとプライバシー
UEHARA, Tetsutaro
6 1security3
6 1security3
Yuki Fujino Oita Univ.
Kobe sec#11 summary
Kobe sec#11 summary
Yukio NAGAO
Similaire à 安全なデータ公開のために
(7)
経済学のための実践的データ分析 3.データの可用性とプライバシー
経済学のための実践的データ分析 3.データの可用性とプライバシー
20120628ビッグデータとプライバシー
20120628ビッグデータとプライバシー
分散型サイエンスの誕生と可能性
分散型サイエンスの誕生と可能性
欧米各国におけるヘルスケア個人情報の扱い
欧米各国におけるヘルスケア個人情報の扱い
20130203北大・ビッグデータとプライバシー
20130203北大・ビッグデータとプライバシー
6 1security3
6 1security3
Kobe sec#11 summary
Kobe sec#11 summary
安全なデータ公開のために
1.
Statistical Disclosure Control
の紹介 Twitter ID @Wakamatz
2.
ものまね鳥をまねる会 「ものまね鳥をまねる」という論理パズルの本の読書会
を主宰している。 論理パズルを解きながらSKIコンビネータ論理を学ぶ。
3.
1.オープンデータの隆盛 近年、ビッグデータ活用の合言葉のもとにオープン
データがあちこちでなされるようになりました。 データの開示には個人情報漏えいのリスクが伴い ます。 データ開示リスクを防ぐための手法として SDC(Statistical Disclosure Control)を紹介しま す。
4.
2.SDCの対象 microdata:
個別の情報(個人、世帯、組織別の情報) 対義語:aggregated macrodata(全体の統計情報)
5.
3.データの種類 Direct
Identity: 単体で個人、世帯、組織を正確に識別できる情報 例)社会保障番号、個人名、会社名、住所など Key variables: 組み合わせることで個人、世帯、組織を正確に識別できる情報 例)性別、年齢、地域、職業など Non-identifying variables 上記の2つ以外のデータ
6.
4.SDCのトピック 1.開示リスクの計測 k-Anonimity,
l-Diversity, etc 2.microdataの匿名化の方法 Recoding, Local Suppression, Post-randomization, etc 3.元のデータと修正後のデータの比較
7.
5.開示リスクの計測 開示リスクを評価するためには、評価に直接影響を 与える
key variables を適切に選択することが不 可欠である。
8.
5.1.頻度カウント Key Variablesの組合せについての発生頻度からリ
スクを計算する。 年齢地域性別学歴リスクFk 1 1 2 2 1 0.017 110.0 2 1 2 1 1 0.022 84.5 3 3 3 1 5 0.177 17.0 4 4 3 1 4 0.012 541.0 5 4 3 1 1 0.297 8.0 6 6 2 1 5 0.402 5.0
9.
5.2.k-匿名性(k-Anonimity) Key Variablesの組合せごとの頻度の最小値
性別人種Fk 1 1 1 3 2 1 1 3 3 1 1 3 4 2 2 3 5 2 2 3 6 2 2 3 3-anonimity 性別人種Fk 1 1 1 2 2 1 1 2 3 1 2 2 4 1 2 2 5 2 2 2 6 2 2 2 2-anonimity
10.
5.3.l-多様性(l-Diversity) Key Variablesの組合せごとのsensitive
variablesの 数 性別人種Sen Fk ldiv 1 1 1 50 3 2 2 1 1 50 3 2 3 1 1 42 3 2 性別人種Sen Fk ldiv 1 2 2 62 2 1 2 2 2 62 2 1 2-diversity 1-diversity
11.
5.4.連続値をとるKey Variablesに対する リスクの計測
・外部データベースとのマッチングにより個人識別が 可能になる可能性がある。 ・距離ベースでリスクを計測する。
12.
6.匿名化手法 匿名化手法として、一般的に次の2種類がある。 1.決定的手法
Recoding, Local Suppression, etc 2.確率的手法 Swapping, PRAM
13.
6.1.Recoding 複数のカテゴリーを組み合わせてより情報の少ないカテゴ リーにまとめる。
例)年齢 10代、20代、・・・、70代、80代以上 よく使われるのが上と下でRecodingをすること。 たとえば年齢では、下は20歳未満、上は80代以上
14.
6.2.Local Suppression k-anonimityを実現するために用いられる。
k-anonimityを達成するために、達成できないグルー プのデータを隠蔽する
15.
6.3.Post-randomization Key variablesの各カテゴリー間を一定の確率で移動
させる。 たとえば男と女の間で移動する確率を次のようにす る。 男→男:0.85 男→女:0.15 女→男:0.20 男→女:0.80
16.
6.4.連続値をとるKey Variablesに対する 匿名化手法
1. Microaggregation 適当なクラスタリングによりグループ分けしてそれぞれのグループ ないで平均値をデータとする。 2. Adding Noise 3. Shuffling Num1 Num2 Num3 Mic1 Mic2 Mic3 1 0.30 0.400 4 0.65 0.850 8.5 2 0.12 0.220 22 0.15 0.510 15.0 3 0.18 0.800 8 0.15 0.510 15.0 4 1.90 9.00 91 1.45 1.150 52.5 5 1.00 1.300 13 0.65 0.850 8.5 6 1.00 1.400 14 1.45 1.150 52.5
17.
7.データユーティリティと情報損失の計測 データ匿名化を適用すると、一般的にデータユーティ リティが下がり、情報損失が発生する。
匿名化手法を評価するために、データユーティリティ と情報損失を計測する。。
18.
7.1.一般的な評価法 1.IL1s IL1=1/pΣjΣi|xij-xij'|/√2Sj
ただし、xijは変更前、xij'は変更後のkey variables
19.
8.ワークフロー
20.
9.参考文献 CRANのSDCの手法を実装したパッケージ http://cran.r-project.org/web/packages/sdcMicro/
そのリファレンス・・・Introduction to Statistical Disclosure Control (SDC) http://cran.r-project.org/web/packages/sdcMicro/vignettes/sdc_guidelines.pdf 東京大学 中山 裕志 「プライバシー保護データマイニング」 http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/labintro/2010PPDM-summary.pdf 東京大学 竹村 彰通 「統計的開示抑制について」 http://park.itc.u-tokyo.ac.jp/atstat/takemura-talks/090704-takemura-ppdm.pdf
Télécharger maintenant