SlideShare a Scribd company logo
1 of 16
Download to read offline
2010年10月22日
@東京大学アントレプレナープラザ会議室




  プライバシー保護データマイニング
  (PPDM): データマイニング研究の
            最前線
      東京大学情報基盤センター
     学術情報研究部門 特任講師/
    株式会社リッテル 最高技術責任者
          清田 陽司
データマイニングの現況
• データ蓄積のコストが劇的に低下している
 – 常時接続はいまや当たり前
 – 1TBytesのハードディスクは1万円以下
• コンピューター資源が容易に入手可能
 – 市販のPCでもそこそこできたりする
 – パブリッククラウドも使える
• ツールも整備されてきた
 – オープンソースソフトでもできる (R、GETAssoc、…)
課題
• 使いやすい形で蓄積するのは簡単ではない
 – ハードディスクの肥やしでは意味がない
 – 商用データウェアハウスは超高価
• そんなに簡単に有用な結果は出ない
 – 大量の試行錯誤必須
• プライバシー保護とどうやって両立する?
 – トレードオフ問題
そもそも、プライバシー保護って?
• 個人情報保護法 (2005年制定)
 – 個人情報=個人を特定可能な情報
   • 氏名、性別、生年月日、住所、電話番号、職業、年収、
     家族構成、IPアドレス、メールアドレス…
 – 「個人情報保護の有益性に配慮しつつ、個人の
   権利利益を保護」
• 業界ごとの倫理規程
 – cf. 図書館の自由に関する宣言
• プライバシー≠個人情報
 – 利用履歴、検索キーワード、メールの内容などは
   プライバシーに該当
ちょっとした疑問
• 定性的な議論は多くなされている
 – ○○という情報は公開すべきか否か?
• 定量的な議論があまりなされていない?
 – 「データの有益性」と「個人の権利利益保護」のト
   レードオフならば、両者の比較のために定量化は
   不可欠では?
 – 飛行機や薬品のリスクも定量的に議論されている
• 「個人情報を公開しない」は「プライバシー保
  護」の十分条件ではない
link attack の例
• Massachussetts州知事の医療記録が公開情報から特
  定可能
 – MA では、収集した医療データを サニタイズして公開して
   いる 左円内
 – 一方、選挙の投票者名簿は公開 右円内

• 両者をつきあわせると
  • 6 人が知事と同じ生年月日
    うち3 人が男
    うち1 人が同じzipcode

• 1990年の the US 1990 census dataによれば
   – 87% の人が (zipcode, 性別, 生年月日)によって一意特定可能
プライバシー保護データマイニング
       (PPDM)
• 2002~2006年頃から導入された概念
• キーワード
 – k-匿名性(k-anonymity)
 – l -多様性(l-diversity)
 – t-closeness
動機
• 複数の組織がプライシーに係わるクリティカルなデー
  タ を持ち、場合によっては公開している
  – microdata (vs. aggregated macrodata) と呼ばれる詳細
    データが解析やマイニングに利用される状況である。(米
    国では公開は法令で義務化 )
• microdata の保護のため sanitized(不要部分の削除な
  ど)
  – 例えば、explicit identifiers (Social Security Number, 氏名,
    電話番号) の削除

• しかし、それで十分か?
• 否! link attacksの脅威
  – 公開データからプライバシー情報を推測できる可能性あ
    り
microdataのプライバシー
   microdataの属性
       explicit identifiers は削除
       quasi identifiers (QI=擬ID)は個人特定に利用可能
       sensitive attributes は sensitive 情報を持つ
           identifier             quasi identifiers       sensitive
           Name         Birthdate    Sex        Zipcode   Disease
           Andre        21/1/79      male       53715     Flu
           Beth         10/1/81      female     55410     Hepatitis
           Carol        1/10/44      female     90210     Brochitis
           Dan          21/2/84      male       02174     Sprained
                                                          Ankle
           Ellen        19/4/72      female     02237     AIDS


        プライバシー保護の目標は、個人をsensitive
          情報から特定できないようにすること
k-匿名性(k-anonymity)
   k-匿名性によるプライバシー保護, Sweeney and Samarati [S01,
    S02a, S02b]
   k-匿名性: 個人を他のk-1 人に紛れさせる
       つまり、 公開された microdata においては、Quasi Identifier:QI の値
        が同一の個人は少なくともk 人存在することを保証
       よって、link attackでも個人特定の確率は 1/k

   実現方法
       一般化 and 抑圧
       当面はデータの値の perturbation(摂動)は考えない。摂動は、後に差
        分プライバシーのところで活用されることになる

   プライバシーとデータマイニングにおける有用性のトレードオフ
       必要以上に匿名化しない
k-匿名性 の例
匿名化手法
 一般化
        例えば、対象分野のデータは抽象度によって階層化されているなら、
         上の階層のデータを公開
    抑圧
        特異性のあるデータ項目は削除

              original microdata                      2-anonymous data

    Birthdate    Sex          Zipcode              Birthdate Sex      Zipcode
    21/1/79      male         53715                */1/79    person   5****
                                         group 1
    10/1/79      female       55410                */1/79    person   5****
    1/10/44      female       90210     suppressed 1/10/44   female   90210
    21/2/83      male         02274                */*/8*    male     022**
                                         group 2
    19/4/82      male         02237                */*/8*    male     022**
k-匿名性の問題点
         k-匿名性 の例
         Homogeneityによる攻撃: 最終グループは全員 cancer
         背景知識による攻撃: 第1グループで、日本人は心臓疾患にかかりにくいことが知
          られていると。。。


                       microdata                                     4-anonymous data


                                                                              ∗
id       Zipcode Sex     National.      Disease        id   Zipcode Sex   National.        Disease

                                                                              ∗
 1        13053  28       Russian    Heart Disease      1    130**  <30                 Heart Disease

                                                                              ∗
 2        13068  29      American    Heart Disease      2    130**  <30                 Heart Disease

                                                                              ∗
 3        13068   21     Japanese    Viral Infection    3    130**  <30                 Viral Infection

                                                                              ∗
 4        13053  23      American    Viral Infection    4    130**  <30                 Viral Infection

                                                                              ∗
 5        14853  50       Indian         Cancer         5    1485* ≥40                      Cancer

                                                                              ∗
 6        14853  55       Russian    Heart Disease      6    1485* ≥40                  Heart Disease

                                                                              ∗
 7        14850  47      American    Viral Infection    7    1485* ≥40                  Viral Infection

                                                                              ∗
 8        14850  49      American    Viral Infection    8    1485* ≥40                  Viral Infection

                                                                              ∗
 9        13053   31     American        Cancer         9    130**   3∗                     Cancer

                                                                              ∗
10        13053  37       Indian         Cancer        10    130**   3∗                     Cancer

                                                                              ∗
11        13068  36      Japanese        Cancer        11    130**   3∗                     Cancer
12        13068  35      American        Cancer        12    130**   3∗                     Cancer
l-多様性
[MGK+06]

   各グループにおいて sensitiveなデータの値がうまく
    管理されていることを目指す
     homogeneity 攻撃を防ぐ
     背景知識攻撃を防ぐ

                  l-多様性 (簡単な定義)
       あるグループが l-多様性を持つとは、
       そのグループ内では少なくともl種類の
       sensitive なデータ値が存在する

• group内にl種類のsensitiveな値があり、できるだけ均等に出現するこ
  とが望ましい。
t-closeness
    l-多様性があっても、ある属性がaの確率99%,bの確率
     1%というように偏りが激しいと、プライバシーは危険
    2つのグループ(上記a属性のグループとb属性のグルー
     プ)は、sensitive データの分布における距離と、全属性
     の分布における距離が t 以下であるとき、 t-closeness
     である。
    上記の分布間の距離としては、属性を各次元としてにお
     いてEarth Mover’s distance(EMD)を用いる
       P = ( p1 , p2 ,.., pm ), Q = (q1 , q2 ,.., qm ),  dij = distance between pi and q j : given
         fij = flow bewteen pi and q: 
                                    j

         fijを変化させて∑i =1 ∑ j =1 dij fij 最適化したのがEMD
                                 m       m



         EMD(P, Q ) = min ∑i =1 ∑ j =1 dij fij
                                     m       m

                          f ij


                                                         pi − ∑ j =1 fij + ∑ j =1 f ji = qi
                                                                 m            m
         s.t.   fij ≥ 0       1 ≤ i ≤ m,1 ≤ j ≤ m    ,

                ∑ ∑           f = ∑i =1 pi = ∑i =1 qi = 1
                   m      m              m       m
    14             i =1   j =1 ij
まとめ
• プライバシー保護は、「情報を公開しない」こ
  とで実現されるわけではない
 – 公益に資するために公開しなければならない情
   報もある
 – ほかの機関の情報とあわせることでプライバシー
   が侵害されてしまうこともあり得る
• 法の精神に従うならば、柔軟に考えてもよい
  のかも
 – 「国民の知る自由を守り、ひろげていく」という考
   え方に合致する方向であれば、それを推進する
   責任がある
k-anonymity, l-diversity, t-closenessの
               参考文献
• LeFevre, K., DeWitt, D.J., Ramakrishnan, R. Incognito: Efficient Full-domain
  k-Anonymity. SIGMOD, 2005.
• LeFevre, K., DeWitt, D.J., Ramakrishnan, R. Mondrian Multidimensional k-
  Anonymity. ICDE, 2006.
• Samarati, P. Protecting Respondents' Identities in Microdata Release. IEEE
  TKDE, 13(6):1010-1027, 2001.
• Sweeney, L. k-Anonymity: A Model for Protecting Privacy. International
  Journal on Uncertainty, Fuzziness and Knowledge-based Systems, 2002.
• Sweeney, L. k-Anonymity: Achieving k-Anonymity Privacy Protection using
  Generalization and Suppression. International Journal on Uncertainty,
  Fuzziness and Knowledge-based Systems, 2002.
• Ninghui Li,Tiancheng Li,Venkatasubramanian, S. “t-Closeness: Privacy
  Beyond k-Anonymity and –Diversity”. ICDE2007, pp.106-115, 2007.

                                      16

More Related Content

More from Yoji Kiyota

「HOME'Sデータセット」を活用した不動産物件画像への深層学習の適用の取り組み
「HOME'Sデータセット」を活用した不動産物件画像への深層学習の適用の取り組み「HOME'Sデータセット」を活用した不動産物件画像への深層学習の適用の取り組み
「HOME'Sデータセット」を活用した不動産物件画像への深層学習の適用の取り組み
Yoji Kiyota
 
Code4Lib JAPANカンファレンス2016 in 大阪
Code4Lib JAPANカンファレンス2016 in 大阪Code4Lib JAPANカンファレンス2016 in 大阪
Code4Lib JAPANカンファレンス2016 in 大阪
Yoji Kiyota
 

More from Yoji Kiyota (20)

「LIFULL HOME'Sデータセット」提供を通じた不動産テック分野のオープンイノベーション
「LIFULL HOME'Sデータセット」提供を通じた不動産テック分野のオープンイノベーション「LIFULL HOME'Sデータセット」提供を通じた不動産テック分野のオープンイノベーション
「LIFULL HOME'Sデータセット」提供を通じた不動産テック分野のオープンイノベーション
 
論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討
論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討
論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討
 
LIFULL HOME'Sにおける不動産物件画像解析
LIFULL HOME'Sにおける不動産物件画像解析LIFULL HOME'Sにおける不動産物件画像解析
LIFULL HOME'Sにおける不動産物件画像解析
 
第10回ARG WI2研究会 株式会社LIFULL 技術報告
第10回ARG WI2研究会 株式会社LIFULL 技術報告第10回ARG WI2研究会 株式会社LIFULL 技術報告
第10回ARG WI2研究会 株式会社LIFULL 技術報告
 
SoC2017 不動産テックの研究課題
SoC2017 不動産テックの研究課題SoC2017 不動産テックの研究課題
SoC2017 不動産テックの研究課題
 
超高齢社会における地域課題の複雑さと「ネットワークが創発する知能」研究への期待 ―不動産・介護・医療分野を例として―
超高齢社会における地域課題の複雑さと「ネットワークが創発する知能」研究への期待 ―不動産・介護・医療分野を例として―超高齢社会における地域課題の複雑さと「ネットワークが創発する知能」研究への期待 ―不動産・介護・医療分野を例として―
超高齢社会における地域課題の複雑さと「ネットワークが創発する知能」研究への期待 ―不動産・介護・医療分野を例として―
 
IEEE DSAA 2017投稿呼びかけ
IEEE DSAA 2017投稿呼びかけIEEE DSAA 2017投稿呼びかけ
IEEE DSAA 2017投稿呼びかけ
 
住居選択支援を目的としたAI技術適用の試み -ソーシャルメディアへのクラウドソーシング適用および物件画像への深層学習適用-
住居選択支援を目的としたAI技術適用の試み -ソーシャルメディアへのクラウドソーシング適用および物件画像への深層学習適用-住居選択支援を目的としたAI技術適用の試み -ソーシャルメディアへのクラウドソーシング適用および物件画像への深層学習適用-
住居選択支援を目的としたAI技術適用の試み -ソーシャルメディアへのクラウドソーシング適用および物件画像への深層学習適用-
 
ライフイベントの決断を支えるオープンイノベーションの取り組み
ライフイベントの決断を支えるオープンイノベーションの取り組みライフイベントの決断を支えるオープンイノベーションの取り組み
ライフイベントの決断を支えるオープンイノベーションの取り組み
 
学際領域としての不動産の研究を活性化させるために
学際領域としての不動産の研究を活性化させるために学際領域としての不動産の研究を活性化させるために
学際領域としての不動産の研究を活性化させるために
 
「HOME'Sデータセット」を通じた不動産分野の研究活性化
「HOME'Sデータセット」を通じた不動産分野の研究活性化「HOME'Sデータセット」を通じた不動産分野の研究活性化
「HOME'Sデータセット」を通じた不動産分野の研究活性化
 
「HOME'Sデータセット」を活用した不動産物件画像への深層学習の適用の取り組み
「HOME'Sデータセット」を活用した不動産物件画像への深層学習の適用の取り組み「HOME'Sデータセット」を活用した不動産物件画像への深層学習の適用の取り組み
「HOME'Sデータセット」を活用した不動産物件画像への深層学習の適用の取り組み
 
Code4Lib JAPANカンファレンス2016 in 大阪
Code4Lib JAPANカンファレンス2016 in 大阪Code4Lib JAPANカンファレンス2016 in 大阪
Code4Lib JAPANカンファレンス2016 in 大阪
 
人生の意思決定を支える社会インフラとしての図書館
人生の意思決定を支える社会インフラとしての図書館人生の意思決定を支える社会インフラとしての図書館
人生の意思決定を支える社会インフラとしての図書館
 
「HOME'Sデータセット」提供を通じた不動産領域におけるオープンイノベーション促進の取り組み
「HOME'Sデータセット」提供を通じた不動産領域におけるオープンイノベーション促進の取り組み「HOME'Sデータセット」提供を通じた不動産領域におけるオープンイノベーション促進の取り組み
「HOME'Sデータセット」提供を通じた不動産領域におけるオープンイノベーション促進の取り組み
 
Mining User Experience through Crowdsourcing: A Property Search Behavior Corp...
Mining User Experience through Crowdsourcing: A Property Search Behavior Corp...Mining User Experience through Crowdsourcing: A Property Search Behavior Corp...
Mining User Experience through Crowdsourcing: A Property Search Behavior Corp...
 
不動産物件データセットを用いた研究開発事例と、大学との共同研究の取り組みの紹介
不動産物件データセットを用いた研究開発事例と、大学との共同研究の取り組みの紹介不動産物件データセットを用いた研究開発事例と、大学との共同研究の取り組みの紹介
不動産物件データセットを用いた研究開発事例と、大学との共同研究の取り組みの紹介
 
「HOME'Sデータセット」提供開始の背景 〜産学間データ共有の課題〜
「HOME'Sデータセット」提供開始の背景 〜産学間データ共有の課題〜「HOME'Sデータセット」提供開始の背景 〜産学間データ共有の課題〜
「HOME'Sデータセット」提供開始の背景 〜産学間データ共有の課題〜
 
JSAI2015 ツイートタイムラインへの 階層的クラウドソーシングの適用による 住まい探しユーザの背景ニーズ理解
JSAI2015 ツイートタイムラインへの階層的クラウドソーシングの適用による住まい探しユーザの背景ニーズ理解JSAI2015 ツイートタイムラインへの階層的クラウドソーシングの適用による住まい探しユーザの背景ニーズ理解
JSAI2015 ツイートタイムラインへの 階層的クラウドソーシングの適用による 住まい探しユーザの背景ニーズ理解
 
人工知能学会誌 2015年5月号 特集「イノベーションとAI研究」
人工知能学会誌 2015年5月号 特集「イノベーションとAI研究」人工知能学会誌 2015年5月号 特集「イノベーションとAI研究」
人工知能学会誌 2015年5月号 特集「イノベーションとAI研究」
 

Recently uploaded

Recently uploaded (7)

Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 

マイニング探検会#07

  • 1. 2010年10月22日 @東京大学アントレプレナープラザ会議室 プライバシー保護データマイニング (PPDM): データマイニング研究の 最前線 東京大学情報基盤センター 学術情報研究部門 特任講師/ 株式会社リッテル 最高技術責任者 清田 陽司
  • 2. データマイニングの現況 • データ蓄積のコストが劇的に低下している – 常時接続はいまや当たり前 – 1TBytesのハードディスクは1万円以下 • コンピューター資源が容易に入手可能 – 市販のPCでもそこそこできたりする – パブリッククラウドも使える • ツールも整備されてきた – オープンソースソフトでもできる (R、GETAssoc、…)
  • 3. 課題 • 使いやすい形で蓄積するのは簡単ではない – ハードディスクの肥やしでは意味がない – 商用データウェアハウスは超高価 • そんなに簡単に有用な結果は出ない – 大量の試行錯誤必須 • プライバシー保護とどうやって両立する? – トレードオフ問題
  • 4. そもそも、プライバシー保護って? • 個人情報保護法 (2005年制定) – 個人情報=個人を特定可能な情報 • 氏名、性別、生年月日、住所、電話番号、職業、年収、 家族構成、IPアドレス、メールアドレス… – 「個人情報保護の有益性に配慮しつつ、個人の 権利利益を保護」 • 業界ごとの倫理規程 – cf. 図書館の自由に関する宣言 • プライバシー≠個人情報 – 利用履歴、検索キーワード、メールの内容などは プライバシーに該当
  • 5. ちょっとした疑問 • 定性的な議論は多くなされている – ○○という情報は公開すべきか否か? • 定量的な議論があまりなされていない? – 「データの有益性」と「個人の権利利益保護」のト レードオフならば、両者の比較のために定量化は 不可欠では? – 飛行機や薬品のリスクも定量的に議論されている • 「個人情報を公開しない」は「プライバシー保 護」の十分条件ではない
  • 6. link attack の例 • Massachussetts州知事の医療記録が公開情報から特 定可能 – MA では、収集した医療データを サニタイズして公開して いる 左円内 – 一方、選挙の投票者名簿は公開 右円内 • 両者をつきあわせると • 6 人が知事と同じ生年月日 うち3 人が男 うち1 人が同じzipcode • 1990年の the US 1990 census dataによれば – 87% の人が (zipcode, 性別, 生年月日)によって一意特定可能
  • 7. プライバシー保護データマイニング (PPDM) • 2002~2006年頃から導入された概念 • キーワード – k-匿名性(k-anonymity) – l -多様性(l-diversity) – t-closeness
  • 8. 動機 • 複数の組織がプライシーに係わるクリティカルなデー タ を持ち、場合によっては公開している – microdata (vs. aggregated macrodata) と呼ばれる詳細 データが解析やマイニングに利用される状況である。(米 国では公開は法令で義務化 ) • microdata の保護のため sanitized(不要部分の削除な ど) – 例えば、explicit identifiers (Social Security Number, 氏名, 電話番号) の削除 • しかし、それで十分か? • 否! link attacksの脅威 – 公開データからプライバシー情報を推測できる可能性あ り
  • 9. microdataのプライバシー  microdataの属性  explicit identifiers は削除  quasi identifiers (QI=擬ID)は個人特定に利用可能  sensitive attributes は sensitive 情報を持つ identifier quasi identifiers sensitive Name Birthdate Sex Zipcode Disease Andre 21/1/79 male 53715 Flu Beth 10/1/81 female 55410 Hepatitis Carol 1/10/44 female 90210 Brochitis Dan 21/2/84 male 02174 Sprained Ankle Ellen 19/4/72 female 02237 AIDS プライバシー保護の目標は、個人をsensitive 情報から特定できないようにすること
  • 10. k-匿名性(k-anonymity)  k-匿名性によるプライバシー保護, Sweeney and Samarati [S01, S02a, S02b]  k-匿名性: 個人を他のk-1 人に紛れさせる  つまり、 公開された microdata においては、Quasi Identifier:QI の値 が同一の個人は少なくともk 人存在することを保証  よって、link attackでも個人特定の確率は 1/k  実現方法  一般化 and 抑圧  当面はデータの値の perturbation(摂動)は考えない。摂動は、後に差 分プライバシーのところで活用されることになる  プライバシーとデータマイニングにおける有用性のトレードオフ  必要以上に匿名化しない
  • 11. k-匿名性 の例 匿名化手法  一般化  例えば、対象分野のデータは抽象度によって階層化されているなら、 上の階層のデータを公開  抑圧  特異性のあるデータ項目は削除 original microdata 2-anonymous data Birthdate Sex Zipcode Birthdate Sex Zipcode 21/1/79 male 53715 */1/79 person 5**** group 1 10/1/79 female 55410 */1/79 person 5**** 1/10/44 female 90210 suppressed 1/10/44 female 90210 21/2/83 male 02274 */*/8* male 022** group 2 19/4/82 male 02237 */*/8* male 022**
  • 12. k-匿名性の問題点  k-匿名性 の例  Homogeneityによる攻撃: 最終グループは全員 cancer  背景知識による攻撃: 第1グループで、日本人は心臓疾患にかかりにくいことが知 られていると。。。 microdata 4-anonymous data ∗ id Zipcode Sex National. Disease id Zipcode Sex National. Disease ∗ 1 13053 28 Russian Heart Disease 1 130** <30 Heart Disease ∗ 2 13068 29 American Heart Disease 2 130** <30 Heart Disease ∗ 3 13068 21 Japanese Viral Infection 3 130** <30 Viral Infection ∗ 4 13053 23 American Viral Infection 4 130** <30 Viral Infection ∗ 5 14853 50 Indian Cancer 5 1485* ≥40 Cancer ∗ 6 14853 55 Russian Heart Disease 6 1485* ≥40 Heart Disease ∗ 7 14850 47 American Viral Infection 7 1485* ≥40 Viral Infection ∗ 8 14850 49 American Viral Infection 8 1485* ≥40 Viral Infection ∗ 9 13053 31 American Cancer 9 130** 3∗ Cancer ∗ 10 13053 37 Indian Cancer 10 130** 3∗ Cancer ∗ 11 13068 36 Japanese Cancer 11 130** 3∗ Cancer 12 13068 35 American Cancer 12 130** 3∗ Cancer
  • 13. l-多様性 [MGK+06]  各グループにおいて sensitiveなデータの値がうまく 管理されていることを目指す  homogeneity 攻撃を防ぐ  背景知識攻撃を防ぐ l-多様性 (簡単な定義) あるグループが l-多様性を持つとは、 そのグループ内では少なくともl種類の sensitive なデータ値が存在する • group内にl種類のsensitiveな値があり、できるだけ均等に出現するこ とが望ましい。
  • 14. t-closeness  l-多様性があっても、ある属性がaの確率99%,bの確率 1%というように偏りが激しいと、プライバシーは危険  2つのグループ(上記a属性のグループとb属性のグルー プ)は、sensitive データの分布における距離と、全属性 の分布における距離が t 以下であるとき、 t-closeness である。  上記の分布間の距離としては、属性を各次元としてにお いてEarth Mover’s distance(EMD)を用いる P = ( p1 , p2 ,.., pm ), Q = (q1 , q2 ,.., qm ),  dij = distance between pi and q j : given fij = flow bewteen pi and q:  j fijを変化させて∑i =1 ∑ j =1 dij fij 最適化したのがEMD m m EMD(P, Q ) = min ∑i =1 ∑ j =1 dij fij m m f ij pi − ∑ j =1 fij + ∑ j =1 f ji = qi m m s.t. fij ≥ 0 1 ≤ i ≤ m,1 ≤ j ≤ m , ∑ ∑ f = ∑i =1 pi = ∑i =1 qi = 1 m m m m 14 i =1 j =1 ij
  • 15. まとめ • プライバシー保護は、「情報を公開しない」こ とで実現されるわけではない – 公益に資するために公開しなければならない情 報もある – ほかの機関の情報とあわせることでプライバシー が侵害されてしまうこともあり得る • 法の精神に従うならば、柔軟に考えてもよい のかも – 「国民の知る自由を守り、ひろげていく」という考 え方に合致する方向であれば、それを推進する 責任がある
  • 16. k-anonymity, l-diversity, t-closenessの 参考文献 • LeFevre, K., DeWitt, D.J., Ramakrishnan, R. Incognito: Efficient Full-domain k-Anonymity. SIGMOD, 2005. • LeFevre, K., DeWitt, D.J., Ramakrishnan, R. Mondrian Multidimensional k- Anonymity. ICDE, 2006. • Samarati, P. Protecting Respondents' Identities in Microdata Release. IEEE TKDE, 13(6):1010-1027, 2001. • Sweeney, L. k-Anonymity: A Model for Protecting Privacy. International Journal on Uncertainty, Fuzziness and Knowledge-based Systems, 2002. • Sweeney, L. k-Anonymity: Achieving k-Anonymity Privacy Protection using Generalization and Suppression. International Journal on Uncertainty, Fuzziness and Knowledge-based Systems, 2002. • Ninghui Li,Tiancheng Li,Venkatasubramanian, S. “t-Closeness: Privacy Beyond k-Anonymity and –Diversity”. ICDE2007, pp.106-115, 2007. 16