Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

genomeprivacysurvey_arai_1403

4 211 vues

Publié le

  • Soyez le premier à commenter

genomeprivacysurvey_arai_1403

  1. 1. 個人ゲノムのプライバシと プライバシ保護技術 2014/3 理化学研究所情報基盤センター 基礎科学特別研究員 荒井ひろみ 1
  2. 2. 個人ゲノム情報利用における   プライバシリスク
  3. 3. 個人ゲノム情報の取り扱いにおける   プライバシ問題 •  健康医療情報と紐づいたゲノム情報を多件数収 集することで,疾患原因遺伝子の特定等の研究 が進むと期待   •  ゲノム情報は個人のプライバシに関わる情報   –  個人の体質や疾患リスク,家系などのsensi&veな情 報を含む   ➡他人に知られることにより不利益を生む可能性 •  遺伝子情報を用いた保険/就業差別の危険性など ➡「知りたくない(知らぬが仏)」権利も? ➡プライバシを保護した利用が求められる!
  4. 4. 現状の個人ゲノムデータの取り扱い •  学術研究に用いられた個人ゲノム情報はある規 則の下で共有されている   –  研究成果の公開   –  ゲノム情報は提供者との同意の下で(2次)利用   •  明示的な識別子を削除した上2次利用することが多い   •  研究用のpersonal  genome  DBは dbGAP,  ICGCなど   –  情報の利用は審査が必要   –  情報公開/アクセス権の制御の基準はunder  discussion     •  メディカルレコードよりも厳重に守るべき?(NHGRI  policy   recommenda&on)   •  最近はSNSやゲノム検査サービス等でもゲノム情 報やその二次情報が利用される  
  5. 5. 現状の個人ゲノムデータの取り扱い 個人 研究機関/事業者等 個人 データ 統計 データ 分析 公共 公開 ゲノム情報   (医療情報   健康情報等) 匿名 データ 加工 研究者 守秘義務   開示 利用申請 遺伝子検査,   医療機関を通じた   診断等が   個人に返されることも   成果の公開
  6. 6. ゲノムデータのプライバシ保護 •  秘匿すべき情報はiden&fica&on(ゲノムと社会的個人の紐 付け)と考えられている   –  (anonymizeしたと思われていた)公開データからDe-­‐ iden&fica&onされた例が多数報告   ➡   –  データ公開ポリシーの再考の機運   –  ゲノム情報利用の同意においてリスクについて説明する必要 (Privacy  and  Progress  in  whole  genome  sequencing,  USA)   •  最近はSNS,情報共有/収集サービスの勃興   –  Facebook(個人情報),geni.com(家系),OpenSNP(SNP)  等   –  Quasi-­‐iden&fierの個人特定力が予想しにくくなる(SNSの情報を 利用することにより個人特定が可能になる)可能性?  
  7. 7. ゲノム情報のプライバシリスク •  これまで主に情報開示におけるプライベート 情報漏洩リスクが指摘されている   •  ゲノムの特徴に起因するプライバシリスク     多様性 連鎖不平衡 遺伝 個人特定   センシティブ情報推定   公開情報   個人ゲノム   推定に用いる情報 用いる特徴 推定する内容
  8. 8. ゲノムの特徴:個人ゲノムの多様性 •  ゲノムには数々の多型が存在   – 一塩基多型(SNP),コピー数多型(CNV),マイクロ サテライト(STR)等   – 体質等の表現型の個人差に影響   – DNA  profiling,遺伝マーカー等に使われることも  
  9. 9. 多様性に起因するプライバシリスク例:   GWASの成果からの個人特定 •  ゲノム同士の照合   –  45SNPを使った個人レコードの照合[Paks&s  2010] 等   •  公開されたGWAS(個人ゲノムと疾患や量的形質との 関連を統計的に調べる研究)の成果とターゲット人物 のゲノム情報から,そのターゲット人物のゲノムが GWASに用いられたかを推定   –  レアなSNPを持つターゲット[Homer  2008]   –  あるSNPの組を持つターゲット.GWAS研究の統計パラ メータと連鎖不均衡(LD,一緒に遺伝しやすいSNPset)を利 用 [Wang  2009]   –  あるSNPの組を持つターゲット.Effect  sizeを利用[Im  2012]  
  10. 10. ゲノムの特徴:連鎖不平衡(LD) •  複数の多型=遺伝マーカーまたは対立遺伝 子に相関が見られる現象   •  ある特定の多型や対立遺伝子の組み合わせ (Haplotype)の頻度が有意に高くなる  
  11. 11. LDに起因するプライバシリスク:   遺伝メカニズムを利用したセンシティブ情報の推定 •  連鎖についての既存知識を利用   –  JimWatson’sの非公開ゲノム部分を推定して Alzheimerリスクを評価[Nyholt  2009]   •  APOE(アルツハイマーと関連する遺伝子)を隠して出版   •  近傍のTOMM40等の遺伝子とLD情報からAPOEのgenotype を推定   –  疾患関連遺伝子をかくして出版しても,それと連鎖し て遺伝するDNAの情報から疾患関連遺伝子の遺伝 子型が推測される[Marchini  2010]    
  12. 12. ゲノムの特徴:遺伝性 •  両親から同じ遺伝子を2つずつ受け継ぐ   •  例外:Y染色体は父親由来,ミトコンドリアDNA は母親由来  
  13. 13. 遺伝に起因するプライバシリスク:   家系などを利用したセンシティブ情報推定 •  家系   – Y染色体上のSTRマーカーで姓を推定[Gymrek   2013]   •  血縁者   – Icelandにおける血縁者ゲノムを用いた個人ゲノ ム推定,医療履歴との紐付け[Kaiser  2013]   •  推定対象者の同意を得られない限り使用禁止 by   Iceland’s  Data  Protec&on  Authority  
  14. 14. 遺伝に起因するプライバシリスク:
 Surname inference from Y-chromosome
 [Gymrek 2013] •  Y染色体は父から息子に必ず継承される ➡お およそ姓と同じように継承される   •  Y染色体の継承をhaplotypeで追跡   –  Haplotype  :同一染色体上で統計学的に見て関連のある、つまり 遺伝的に連鎖している多型(SNPなど)の組合せ   •  家系-­‐haplotypeのデータベースなどと照合して祖先を推定 できる   –  照合は容易ではない:   •  Y-­‐STR照合はルーチン化されていないので専門知識が必要   •  照合や姓の引き継ぎのエラーがある   –  他にも、ミトコンドリア(母系)や常染色体でオープン DBがある    
  15. 15. マーカーが合致する   姓を検索 bit.ly/craig_venter_haplotype_updated Dr,Yaniv  Erlich  の講演より
  16. 16. その他のプライバシリスク •  システム利用者による漏洩   – PGPのDBにユーザーがupした圧縮ファイルにうっ かりiden&fierが入っていた(現在は警告済)   •  DBのIDのランダム化に失敗   – 公開マイクロデータに振られた疑似IDが元のDB の特徴を保持[Kaufman  2011]   •  ゲノム以外の分子生物学的個人情報   – ExpressionからSNPを推定[Shadt  2012]  
  17. 17. 最近の新たな脅威:   Crowdsourceによる情報収集.公開 •  phenotypeつきの家系図をSNS(Geni.com)と Y-­‐STRなどの情報から作成(ASGH2013)   •  OpenSNP などの公開レポジトリ   •  Exogen  などのデータ収集企業   •  23andMe,  Sophia  gene&csなどのゲノム検査 サービス   ➡実名と結びついたゲノムや家系情報の収集 が進行,今後利用されうる
  18. 18. 一般人参加型のゲノムプロジェクト •  Exogen:DNAの損傷度合いのデータを収集
  19. 19. Pros/cons •  crowdsourceの情報収集力はあなどれない   – Geni.comのデータから13  million  人の家系を15th   centuryまでさかのぼって作成 [Erlich  ASGH2013]   •  個人情報保護の懸念   – もしサービス会社が倒産したら?   – 2次利用はどこまでされるのか?   – 不正利用された場合に追跡,責任追及できるの か?  
  20. 20. プライバシを保護するためには? •  現状の対策   –  USA:HIPPAによって健康情報として保護.   –  DB等への提供は同意のもと.   –  Personal  Genome  Projectでは“open  consent”: リスクを unknownなものについても理解した上での同意,公開   •  ゲノム情報の利用を促進するためのいくつかの記事/コン セプトペーパー   –  データの有用性を考えればプライバシ保護は不要?[Angrist   2013]   –  何らかのプライバシ保護の工夫が必要/有用.秘密計算や差 分プライバシなどの活用の提言[Greenbaum  2011,Erlich  2013]   •  荒井の考え:   –  プライバシ漏洩リスクを正しく評価し,適切に制度設計   –  状況の変化に対応
  21. 21. ゲノム情報利用の難しさ(1) •  いわゆるパーソナルデータ利用でよく見られるモデル 個人 事業者 個人 データ 匿名 データ 加工 データを利用する第三者 公開/販売 行動履歴等 個人データの   推定を防ぎたい   (再識別,センシティブ   情報の推定) 推定攻撃を補助する 外部知識:   SNS等から収集した  個人情報   データに関する一般的 知識 等
  22. 22. ゲノム情報利用の難しさ(2) •  パーソナルゲノムデータ利用で考えられるモデルはよ り複雑 個人 研究機関/事業者 個人 データ 統計 データ 分析 公共 公開 ゲノム情報   医療情報   健康情報 ゲノム検査   結果等 匿名 データ 加工 研究者 守秘義務   開示 利用申請 医療に関する   遺伝情報 遺伝情報に   基づいた   診断     医療機関 個人データの   推定を防ぎたい   (何を防ぎたい?)
  23. 23. ゲノム情報利用の難しさ(3) •  パーソナルゲノムデータ利用では考慮すべきリスクや コントロールすべき情報も多い 個人 研究機関/事業者 個人 データ 統計 データ 分析 公共 公開 ゲノム情報   医療情報   健康情報 ゲノム検査   結果等 匿名 データ 加工 研究者   (事業者?) 守秘義務   開示 利用申請 知りたくない   かもしれない 医療に関する   遺伝情報 遺伝情報に   基づいた   診断     ? ? 医療機関 個人データの   推定を防ぎたい   (何を防ぎたい?) 推定攻撃を補助する 外部知識:   SNS等から収集した  個人情報   家系情報,遺伝学 ケースによっては 統計量の開示に リスク  
  24. 24. ゲノムをプライバシを保護して利用するには? •  情報公開の際のプライバシリスクを正しく評 価,理解する   – 未知なリスクや新たに生じるリスクは?新しい サービスもどんどん生じている...   – 総てのリスクを完全につぶすことは困難   •  法律や倫理とも擦り合わせをしないと...   •  プライバシ保護技術を使うことでリスクを減ら せるかも  
  25. 25. プライバシ保護データマイニング
  26. 26. Mo&va&ng  example  (1)  :   複数DBを集約した解析 •  プライバシの問題で,複数の組織が保有する個人データを共有, 紐付け.解析することは容易ではない(個人の同意をとる,匿名化 を行う,など...)ことを克服できないか   病院DB ゲノムDB 診療履歴とゲノム情報の紐づけ ゲノムDB 複数ヒトゲノムDBを 集約した解析
  27. 27. Mo&va&ng  example  (2)  :   ゲノム検査 •  ゲノム情報や検体をゲノム検査企業=他人に渡しているが, ユーザーのプライバシは適切に保護されているか? 検体 ゲノム 情報 検査   アルゴリズム 検査   結果 ゲノム検査企業 ゲノムDB 蓄積,利用
  28. 28. Mo&va&ng  example  (3)  :   ヒトゲノムを用いた研究の成果公開 •  ゲノム情報の解析についてのレポートからは個人ゲノムの 情報は漏れないのか? ゲノムDB ○○市のゲノムコホート のデータを使って   疾患リスクとなるSNPを 発見!発表しよう!   論文 △病の疾患リスク SNPについての詳細 な実験プロトコルつき のレポート   研究者 SNSなどから 得られる   個人情報 ○○市の金田さん のゲノムは...   金田さんの   ストーカー
  29. 29. プライバシ保護データマイニングとは •  秘匿したいプライベートな情報をある安全性基準(匿 名性,完全秘匿など)を守って活用するための技術   –  暗号やセキュリティの「1bitも情報をもらさない」とは異なり, 参加者の欲求に合せた基準を使う   –  基本的には積極的にプライベート情報を推定攻撃する攻 撃者を基準に安全性を議論する SNSのデータと合せたら30%の 人が照合できた!Aさんは病院 に通っているから持病ありそう   攻撃者 Hackingの   知識のない人 氏名を消した   個人の   行動履歴   個人とデータが紐づいていない から誰がどこに行ったかなんて わからないよ...   SNS  
  30. 30. データ利活用とプライバシのトレードオフ •  各情報所有者に分散保持されている情報を共有,利活用したい B社 C社 データの共同分析 データベース問い合わせ クラウドへの保管,分析の委託 ユーザーに公開 統計情報 データの開示
  31. 31. データ利活用とプライバシのトレードオフ •  一方、秘密情報を含むデータの共有は難しい B社 C社 データの共同分析 データベース問い合わせ クラウドへの保管,分析の委託 ウェブサイトで開 統計情報 データの開示 SNPと病気の因果関係を 知りたいが   個人の病歴を他機関に 知られてはいけない.. カルテの情報を問 い合わせたいが 研究ターゲットを 知られたくない.. データの管理,分析を 委託したいけれど,   個人情報が含まれて いるから渡せない... 集めたデータから得ら れる知見を開示したい. でも開示内容からの   個人情報漏洩が心配
  32. 32. データ利活用とプライバシのトレードオフ •  一方、秘密情報を含むデータの共有は難しい B社 C社 データの共同分析 データベース問い合わせ クラウドへの保管,分析の委託 ウェブサイトで開 統計情報 データの開示 SNPと病気の因果関係を 知りたいが   個人の病歴を他機関に 知られてはいけない.. カルテの情報を問 い合わせたいが 研究ターゲットを 知られたくない.. データの管理,分析を 委託したいけれど,   個人情報が含まれて いるから渡せない... 集めたデータから得ら れる知見を開示したい. でも開示内容からの   個人情報漏洩が心配 秘密検索による クエリの秘匿 秘密計算   /匿名化 暗号化DB 出力プライバシ保護 プライバシ保護データマイニング技術   (実際には法律、制度、運用と協力)で   利用したい  
  33. 33. PPDMのタスク分類 プライバシ保護データ開示(出力プライバシの一種) raw data sanitized data mining process output raw data mining process output raw data mining process raw output sanitized output data owner <private> <public> 秘匿分散計算(MPC) data owners 出力プライバシ Inference attack ができない Inference attackできない <private> <public> <private> <public>
  34. 34. 秘匿分散計算(MPC)

  35. 35. Secure Multi-Party Computation (MPC) } MPCとは } 秘密のデータを持つ複数の参加者が,自分のデータを秘匿し たままそれらを入力とするある関数の値だけ得ることができる ようなプロトコル } 達成すべき安全性は,攻撃のされ方の仮定や証明の方式等 暗号学的にはいろいろと定義があります(今回は立ち入りませ ん) } 実現できること(fが何か) } 一般の関数 or 特定の関数 Alice Bob MPC xA xB yA yB xA,xBを入力とし f(xA,xB)=(yA,yB)を出力とす るMPC
  36. 36. MPCを実現するアプローチの代表例(1):   秘密分散法 •  秘密分散法のアプローチ:データを複数個に分 割し,それぞれを異なるパーティーに渡す(分散) ことで秘密にする   •  分散データを用いて基礎的な演算及びその組み 合わせを可能にする   –  (n,k)-­‐閾値法 n個のデータを分散,そのうちk個以上 集めると復元可能     –  実現可能な演算:足し算,掛け算など    
  37. 37. 秘密分散法((5,3)-­‐しきい値分散の模式図) ゲノムDB 秘密分散ゲノム DB(1) 秘密分散ゲノム DB(5) 無情報な乱数に 暗号化 一カ所ハックできたけど 何もわからない...   秘密分散ゲノム DB(2) ゲノム情報を5つに 分割.もし2つ壊れ ても3つあれば   復元できる! 秘密計算   分析アルゴリズム をリクエスト) 分析結果だけ 返します ゲノムDB 複数のDBが   参加できる
  38. 38. 秘密分散法の実用例:   複数でGWAS解析[Kamm  2013] •  秘密分散ベースのフレームワークsharemindを 用いGWASタスクの一部を実現   – 分割表の構築と統計的検定が秘密計算可能   – 約26万SNP,1080donor  を対象とした分析   •  分散DBへのuploadは30分程度   •  t検定が約2.5時間(non-­‐secureだと14s)  
  39. 39. MPCを実現するアプローチの代表例(2):   暗号プロトコル •  暗号のアプローチ:目的のデータ処理タスクに応 じて暗号文の操作,やり取りのみで演算を達成 するプロトコルの作成   •  準同型性公開鍵暗号等をビルディングブロック に用いる   –  公開鍵暗号の一種で,暗号文のメッセージの通信が 安全 –  秘密鍵の所有者が自分のアクセス可能な暗号文の み解読可能   –  加法または乗法について準同型(暗号文のまま平文 の加算や乗算が可能)  
  40. 40. 加法準同型性公開鍵暗号を用いた   暗号プロトコル例模式図 秘密鍵を持っていないので   盗聴しても何もわからない...   秘密計算で 遺伝子検査   暗号化   検査結果 検査結果 秘密鍵 公開鍵 暗号化 復号 遺伝子検査   アルゴリズム   ユーザー   暗号文のままの加算が可能    例: paillier暗号の場合   “5”の暗号文 “3”の暗号文 * → “8”の暗号文
  41. 41. 暗号プロトコルの実用例:   GenoDroid[De  Cristofaro  2012] •  Private  Set  Intersec&on  (PSI)  を ベースに複数種類の検査を実現   秘密計算で 遺伝子検査   暗号化   検査結果 検査結果 秘密鍵 公開鍵 暗号化 復号 ユーザー1   スマートフォンに自分 のゲノムのデータを 入れておく ゲノム情報 暗号化   ゲノム情報 計算サーバー  
  42. 42. 暗号プロトコルの実用例2:   プライバシ保護化合物データベース検索   (joint  work  w/  AIST) クエリー 送信 a80511de ab252354 c1f04cc1d 1a194 ・・・   b96c0546a 202207f5c 834d44de 7ad1 暗号化状態の検索結 果を受信後,復号化 暗号化 送信 暗号文の状 態で類似検 索 •  計算量も含めた現実的な秘匿検索プロトコルを提案 –  定式化の工夫 (計算コストを下げ、かつプライバシ保護のために既存の化合物検索を 個数のカウント問題に書き換える) –  加法準同型暗号のみで目的の計算を達成する方式の提案 •  商用アプリケーションの数少ない例 –  化合物検索としては世界初 詳しくは...    荒井ら 検索行動におけるプライバシ保護 第26回人工知能学会全国大会    縫田ら 加法準同型暗号を用いた化合物データベースの秘匿検索プロトコル コンピュータセキュリティシ ンポジウム 2012  (CSS2012)  など  
  43. 43. 8個 検索者の問い合わせ内容および化合物DBの 中身を秘匿したマッチング   化合物Aの類似化合物が 豊富なデータベースを買い たい… 3個 100個 化合物Aはコストをかけて探 索した新薬のターゲットだか らだれにも教えたくないしな ぁ… A社 B社 C社 宣伝したいが 売り物だから 中身を公開す るわけには... データベースを 売りたい! 化合物Aの類似化合物数 必要最低限の 情報交換で   双方の欲求を 満たしたい
  44. 44. 化合物の類似度指標 }  フィンガープリント }  化合物を部分構造のセット(フィンガープリント 集合)で記述 ➡化合物情報をビットベクトルで表現できる Fa     Fb     NH2OH OH N H CH3 0   1   1   1   0   1   1   0   1   0   N H O N N= 化合物aの 特徴の集合 化合物bの 特徴の集合 フィンガープリント集合 •  Tversky index –  化合物の類似性の評価に用いられる指標 –  対応するビットの一致を考慮した指標. –  0~1の値をとり,係数が大きいとお互いが類似. ex: Tanimoto index (α=β=1), Dice index (α=β=0.5) Ta,b = | Fa ∩Fb | | Fa ∩Fb |+α | Fa ∩Fb |+β | Fa ∩Fb |
  45. 45. シーズ 化合物A プライバシ化合物DB検索への要望 •  研究者の要望 –  クエリの情報は1bitも漏らさない •  DBの要望 –  最低限の情報しか渡したくない       ➡相手の欲求する情報の有無だけ応える •  双方の要望 –  少ない通信回数,計算コスト,正確な答え ? 類似の化合物 があるか? 類似度が閾値よりも 高い化合物の個数 お互い秘匿したい ・・・   検索者 化合物DB
  46. 46. プライバシ化合物DB検索を使うと...   }  加法準同型性公開鍵暗号を用いる }  基本方針:secure  intersec&on  cardinality  protocol   [Freedman  04]の応用   }  Tversky indexがしきい値より高い化合物の個数を返す }  Tversky indexに特化しているため高速化できる シーズ 化合物A ? 類似の化合物 があるか? 類似度が閾値よりも 高い化合物の個数 PPDM ・・・   検索者 化合物DB 通信の安全   (盗聴不可能) 化合物の個数の情 報以外解読できない   受け取ったメッセージ から情報を得ない 必要要件を 全部満たす
  47. 47. 出力プライバシ

  48. 48. 情報開示とプライバシ保護 •  秘密を含むデータ由来の情報の開示(データマイニングの結果 やクエリ応答など)   –  データ保持者はユーザーにとって有益な情報を開示したい   –  開示情報はあるプライバシ保護基準を満たしていてほしい   トレードオフをできるだけ解消したい   raw data mining process raw output sanitized output Recall:出力プライバシの保護 Inference attack ある基準以上の攻撃は不可能にしたい
  49. 49. 出力プライバシ保護 •  出力を用いたプライベート情報の攻撃   •  データxを入力とし,ある関数f(x)が出力されるとする.  攻撃者Aがf(x)を用いてデータxに推測攻撃を行う.   •  出力プライバシの保護   •  f(x)にプライバシ保護処理を施したf’(x)を出力   •  f’(x)(を用いた推測攻撃)は何らかのプライバシ保護 基準を満たす   record A+r  A A+r  B A+r  C … A 1 0 1 … B 0 1 1 … … f’(x) プライベートな情報 はわからない 推測攻撃を防ぐ例 A
  50. 50. プライバシを保護したデータ出版(匿名化) •  Microdata(個票)の開示において,プライバシを 保護したい   –  何をどうすればプライバシ保護?   –  プライバシ保護の方法,安全性の保証は?   raw data sanitized data data owner <private> <public> Inference attack 例:カルテ情報を出版するようなときに   DBは「誰がどの病気か」は知られたくない   ユーザーは患者についてDMしたい.   例えば「性別,年齢と病気の関連」等  
  51. 51. 既存の主な匿名化技術 「匿名化」とは:テーブルをある匿名化基準を満 たすように改変すること   •  単純匿名化(すみ塗り匿名化)   – Iden&fierの削除   •  高度匿名化   – k匿名[Sweeny02]   – l多様性[Machanavajjhala07] ...などなど   •  特徴   – 推定攻撃に弱い  
  52. 52. 単純匿名化 •  氏名などの明示的識別情報(iden&ier)の削除   raw data sanitized data data owner <private> <public> Inference attack 名前を消した からOK!!
  53. 53. 単純匿名化データのプライバシ漏洩例 •  Id墨塗りによるデータ出版におけるプライバシ漏えい     }  Link attack [Sweeny02] }  Massachussetts州知事の医療記録が    医療データ(氏名は排除)と選挙の投票者 名簿から特定可能 }  両者の共有属性をつきあわせると   知事の医療記録が一意に特定  }  1990年のthe US 1990 census dataによれば87% の人が (zipcode, 性別, 生年月日)によって一意特定可能 高梨さん   心臓病だ..
  54. 54. 単純匿名化データのプライバシ漏洩例 •  Id墨塗りによるデータ出版におけるプライバシ漏えい     }  Link attack [Sweeny02] }  Massachussetts州知事の医療記録が    医療データ(氏名は排除)と選挙の投票者 名簿から特定可能 }  両者の共有属性をつきあわせると   知事の医療記録が一意に特定  }  1990年のthe US 1990 census dataによれば87% の人が (zipcode, 性別, 生年月日)によって一意特定可能 高梨さん   心臓病だ.. 情報化社会ではSNSなどによって個人に関す る情報の多くがsearchableになっており,       「他の情報とリンクする」など積極的な推測 攻撃がどんどん強力になってきている 
  55. 55. 単純匿名化の脅威 Link  asackされる要因は何か?    -­‐(明示的な)iden&fierではないと思っていたも のを突き合わせることで個々のmicrodataがリン クされてしまう   •  Quasi-­‐iden&fier:複数の組み合わせによって iden&fierとして機能する情報   •  何がQuasi-­‐iden&fierか,link  asackを防ぐ匿名 化を行うにはどうしたらよいか?  
  56. 56. Quasi-­‐iden&fierに配慮した匿名化の例:   HIPAAによる健康情報の保護 •  健康情報は匿名化de-­‐iden&fiedされれば 利用 してよい –  SAFE  HARBOR  では,匿名化は,法によって決められ ている18の個人認識項目(名前、住所、出生日など の(quasi-­‐)iden&fier)の除去が欲求されている   –  USではsex,  age,ethnic  group,  stateだけでは一意なレ コードは0.25%以下と報告されている  [Benitez10]   •  Note:遺伝的データはHIPAAによって保護される 健康情報   –  遺伝的データはこの18項目に含まれていないことに 注意   –  対策が考えられている模様
  57. 57. K匿名化 •  k-­‐匿名化:  同じquasi-­‐iden&fierを持つレコード がk個以上存在するようにレコードを一般化/ 削除   quasi-­‐iden&fier 削除 抽象化 3匿名 4匿名 3匿名
  58. 58. K匿名化のプライバシ保護の限界 •  背景知識を考慮していない   •  Sensi&ve情報は保護されていない   – Homogeneityなどによる(対策としてl多様性など)   削除 抽象化 3匿名 4匿名 3匿名 女性は胃潰瘍になりにくい と知られているとすると,   2匿名に近い 結局40代関東の人は糖尿 業だとばれてしまう
  59. 59. 高度匿名化の難しさ •  Quasi-­‐iden&fierの多いデータだとk匿名,l多 様性等を達成する高度匿名化が困難   •  データ件数が多いと匿名化の計算が重くなる   •  何がquasi-­‐iden&fierか?   •  外部知識を用いた攻撃が多岐にわたる
  60. 60. 例:ゲノム情報のプライバシの難しさ •  (quasi-­‐)iden&fierであり秘匿情報も含む   •  未だにゲノム情報から引き出せる個人に関する情報が未知数   •  サイズが大きい   [Malin05]より 識別子を削除/加工し個人の特定を防ぐ ゲノム情報から quasi-­‐iden&fierとな りうる身体的/社会 的特徴を推定   ➡   De-­‐iden&fica&onが   可能?   例:社会的情報とゲノム情報をセットで出版したい場合  
  61. 61. 個票データ以外の出力プライバシ •  匿名化の特徴   – 匿名化では守ることのできる情報は限られている   – データの抽象化とプライバシ保護のトレードオフ がある   •  これまで,統計値などの個票データは安全と 考えられてきた   •  では,そもそもある程度処理したデータ(統計 値など)の出版は安全だろうか?どうやったら 安全に扱えるだろうか?
  62. 62. 匿名化以外のプライバシ保護方法 •  ランダム化   –  差分プライバシ[Dwork  2006]を満たすノイズなど   •  クエリ監査[Nabar  2008]   –  クエリ応答(=ある出版タスク)の内容を監査,秘密 情報を高い確率で推測できる応答をするクエリを評 価,拒否   –  拒否から情報が漏洩することも   Decide  respond  or  refuse queries 顧客 a b c w/  Yoko 42 3 89 20代女性の購入する 洗剤は? さっき20代の購入 する洗剤を答えた から拒否 クエリ監査  
  63. 63. 例:集約クエリ応答 •  集約クエリ   –  実数値DBにおいて,あるレコードサブセットについて のsum/max/median などの問い合わせ   顧客 Item   A Item   B Item   C … A 1 0 1 … B 0 1 1 … … 統計量を開示 ある集団につい ての問い合わせ 20代の購入す る商品は? 顧客 a b c 20代 女 42 3 89
  64. 64. プライバシ漏洩例:集約クエリ応答 •  漏洩がおきうるクエリの例   – 特定の個人に関するクエリ   – 少人数の集団に関するクエリ   – 差分がわずかな2つのクエリ   顧客 Item   A Item   B Item   C … A 1 0 1 … B 0 1 1 … … 20代の購 入する商 品は? 顧客 a b c Group  20 42 3 89 Group  20  w/o  B 41 3 88 20代女性 の購入する 商品は? 20代男性はBさんだけ だからBさんはaとcを 買ったんだな... 統計量を開示 ある集団につい ての問い合わせ
  65. 65. ランダム化によるプライバシ保護   •  単純なノイズはプライバシ保護が困難   – クエリの繰り返し➡ノイズの確率分布が推定   •  攻撃者が外部知識をもつとさらに攻撃耐性が 低くなる...   •  では,どのようなノイズをのせればよいか?   – 最近のトレンドは”差分プライバシ”  
  66. 66. 差分プライバシの方針   •  レコードが1つ異なるあらゆる2対のデータベースの応答が ほとんど区別がつかない              ➡データを登録してもよい気にさせる   ➡データを受け取った人が何を学んだかは気にしていない     w/   Alice w/o   Alice 似たような応答 ある応答Xについて、    DB  w/Alice がXを出力する確率と   DB  w/o  Alice がXを出力する確率の   確率の比がある基準を満たす
  67. 67. 差分プライバシ(定義) D  (w/  Alice) D’  (w/o  Alice) … S … ほぼ同じ確率   (比でバウンド) Randomized  func&on DB output Κ(D)  ∈S Κ(D)  ∈S Κ(D)  ∈S / [Dwork06]より 「ある出力Dを出す元のDBの確率の比がある基準を満たす」がrandomized   func&on  K  によって実現される場合のフォーマルな定義  
  68. 68. 差分プライバシを実現する関数例:   ラプラスノイズ 1レコード異なる2つのDBの出力f(x)の最大の差をsensi&vity  Δf  とし,下記のノイズをのせるとε-­‐差分プライバシが達成される     (一般にはexponen&al  mechanism[Mcsherry07]で実現)   at  most      &mes   f(x)=100の場合 のDB出力の   確率分布    f(x)=101 の場合   D  (w/  Alice) D’  (w/o  Alice) ノイズの確率分布例、Δf=1,  ε=ln2の場合   f (x)+Y,Y ~ (Lap(Δf /ε))
  69. 69. ノイズ幅と安全性 想定される出力データのドメインが広いほどノイズが大きくなる   •  センシティビティ:1レコードのによる出力の差の最大値Δf.   ノイズが大きいほど安全性は高い   •  セキュリティパラメータε:小さいほどプライバシが保護されるが, ノイズは大きい,   at  most      &mes   f(x)=100の場合 のDB出力の   確率分布    f(x)=101 の場合   D  (w/  Alice) D’  (w/o  Alice) ノイズの確率分布例、Δf=1,  ε=ln2の場合  
  70. 70. 差分プライバシの特徴 •  ノイズを加えるのでu&lity-­‐privacyトレードオフ がある   – できるだけトレードオフを解消したいというのが一 つのトピック   •  連続値出力の場合はセンシティビティを評価 できれば処理が楽(ラプラスノイズをのせるだ け)   •  離散の場合はランダム化の計算量が多くなる 場合も.  
  71. 71. 出力プライバシ保護:既存の主要なアプローチ(まとめ) アプローチ 匿名化 [Sweeny02]etc. 差分プライベート[Dwork06]な ランダムノイズ クエリ監査 [Nabar08] 基準 匿名性/センシ ティブ情報保護 ノイズをのせるメカニズムが  差分プライバシを満たす 出力からの推定 確率が基準以下 対応する 出力形式 データテーブル 統計量,データテーブル,   PCAやItem  set  miningなど 集約クエリ   SQLクエリ 操作 一般化,削除 Exponen&al   mechanism[Mcsherry06]に   従うランダムノイズ 出力抑制 利点 ノイズが入らな い データ内容によらず操作可能   (ドメインとクエリ形式を使用)   連続値の場合計算量が小さい ノイズが入らない 弱点 高次元データ に対する有用 性の低下   計算量大 ノイズによる不正確な応答   離散値の場合,計算量   入力データの性質による安全 性低下の問題(NFL定理) 対応可能な問題 が少ない   頻繁な抑制
  72. 72. おわりに まとめ   •  ゲノム情報利用の現状におけるリスク,議論   •  秘匿したい情報を含むデータ利用におけるプライバシ リスクおよびプライバシ保護データマイニング   展望   •  ゲノム情報などの生体分子情報を医療や健康情報に 利用するためには?   –  公共に開示可能な情報のガイドライン   –  アクセス制御のガイドライン   –  プライバシ保護技術による利活用により,プライバシの問 題をスマートに解決?  
  73. 73. 参考文献 [Angrist2013]  Misha  Angrist.  Gene&c  privacy  needs  a  more  nuanced  approach.  Nature,   494:7,2013.   [Benitez  and  Malin2010]  Kathleen  Benitez  and  Bradley  Malin.  Evalua&ng  re-­‐iden&fica&on  risks   with  respect  to  the  hipaa  privacy  rule.  Journal  of  the  American  Medical  Informa&cs  Associa&on,   17(2):169–177,  2010.   [De  Cristofaro  et  al.2012]  Emiliano  De  Cristofaro,  Sky  Faber,  Paolo  Gas&,  and  Gene  Tsudik.   Genodroid:  are  privacy-­‐preserving  genomic  tests  ready  for  prime  &me?  In  Proceedings  of  the   2012  ACM  workshop  on  Privacy  in  the  electronic  society,  pages  97–108.  ACM,  2012.   [Dwork  et  al.2006]  C.  Dwork,  F.  McSherry,  K.  Nissim,  and  A.  Smith.  Calibra&ng  noise  to  sensi&vity   in  private  data  analysis.  Theory  of  Cryptography,  pages  265–284,  2006.   [Erlich  and  Narayanan2013]  Yaniv  Erlich  and  Arvind  Narayanan.  Routes  for  breaching  and   protec&ng  gene&c  privacy.  arXiv  preprint  arXiv:1310.3197,  2013.   [Greenbaum  et  al.2011]  Dov  Greenbaum,  Andrea  Sboner,  Xinmeng  Jasmine  Mu,  and  Mark   Gerstein.  Genomics  and  privacy:  implica&ons  of  the  new  reality  of  closed  data  for  the  field.  PLoS   computa&onal  biology,  7(12),  2011.   [Gymrek  et  al.2013]  Melissa  Gymrek,  Amy  L  McGuire,  David  Golan,  Eran  Halperin,  and  Yaniv   Erlich.  Iden&fying  personal  genomes  by  surname  inference.  Science,  339(6117):321–324,  2013.  
  74. 74. 参考文献 [Homer  et  al.2008]  Nils  Homer,  Szabolcs  Szelinger,  Margot  Redman,  David  Duggan,  Waibhav   Tembe,  Jill  Muehling,  John  V  Pearson,  Dietrich  A  Stephan,  Stanley  F  Nelson,  and  David  W  Craig.   Resolving  individuals  contribu&ng  trace  amounts  of  dna  to  highly  complex  mixtures  using  high-­‐ density  snp  genotyping  microarrays.  PLoS  gene&cs,  4(8):e1000167,  2008.   [Im  et  al.2012]  Hae  Kyung  Im,  Eric  R  Gamazon,  Dan  L  Nicolae,  and  Nancy  J  Cox.  On  sharing   quan&ta&ve  trait  gwas  results  in  an  era  of  mul&ple-­‐omics  data  and  the  limits  of  genomic  privacy.   The  American  Journal  of  Human  Gene&cs,  90(4):591–598,  2012.   [Kaiser2013]  Jocelyn  Kaiser.  Agency  nixes  decode’s  new  data-­‐mining  plan.  Science,  340(6139): 1388–1389,  2013.   [Kamm  et  al.2013]  Liina  Kamm,  Dan  Bogdanov,  Sven  Laur,  and  Jaak  Vilo.  A  new  way  to  protect   privacy  in  large-­‐scale  genome-­‐wide  associa&on  studies.  Bioinforma&cs,  29(7):886–893,  2013.   [Kong  et  al.2008]  Augus&ne  Kong,  Gisli  Masson,  Michael  L  Frigge,  Arnaldur  Gylfason,  Pasha   Zusmanovich,  Gudmar  Thorleifsson,  Pall  I  Olason,  Andres  Ingason,  Stacy  Steinberg,  Thorunn   Rafnar,  et  al.  Detec&on  of  sharing  by  descent,  long-­‐range  phasing  and  haplotype  imputa&on.   Nature  gene&cs,  40(9):1068–1075,  2008.   [Machanavajjhala  et  al.2007]  Ashwin  Machanavajjhala,  Daniel  Kifer,  Johannes  Gehrke,  and   Muthuramakrishnan  Venkitasubramaniam.  L-­‐diversity:  Privacy  beyond  k-­‐anonymity.  ACM  Trans.   Knowl.  Discov.  Data,  1(1),  March  2007.  
  75. 75. 参考文献 [Malin2005]  Bradley  A  Malin.  An  evalua&on  of  the  current  state  of  genomic  data  privacy  protec&on   technology  and  a  roadmap  for  the  future.  Journal  of  the  American  Medical  Informa&cs  Associa&on,   12(1):28–34,  2005.   [Marchini  and  Howie2010]  Jonathan  Marchini  and  Bryan  Howie.  Genotype  imputa&on  for  genome-­‐wide   associa&on  studies.  Nature  Reviews  Gene&cs,  11(7):499–511,  2010.   [Nabar  et  al.2008]  S.U.  Nabar,  K.  Kenthapadi,  N.  Mishra,  and  R.  Motwani.  A  survey  of  query  audi&ng   techniques  for  data  privacy.  Privacy-­‐Preserving  Data  Mining,  pages  415–431,  2008.   [Nyholt  et  al.2009]  DR  Nyholt,  CE  Yu,  and  PM  Visscher.  On  jim  watson’s  apoe  status:  gene&c   informa&on  is  hard  to  hide.  European  journal  of  human  gene&cs:  EJHG,  17(2):147–149,  2009.   [Paks&s  et  al.2010]  Andrew  J  Paks&s,  William  C  Speed,  Rixun  Fang,  Fiona  CL  Hyland,  Manohar  R  Furtado,   Judith  R  Kidd,  and  Kenneth  K  Kidd.  Snps  for  a  universal  individual  iden&fica&on  panel.  Human  gene&cs,   127(3):315–324,  2010.   [Schadt  et  al.2012]  Eric  E  Schadt,  Sangsoon  Woo,  and  Ke  Hao.  Bayesian  method  to  predict  individual   snp  genotypes  from  gene  expression  data.  Nature  gene&cs,  44(5):603–608,  2012.   [Sweeney2002]  L.  Sweeney.  Achieving  k-­‐anonymity  privacy  protec&on  using  generaliza&on  and   suppression.  Interna&onal  Journal  of  Uncertainty  Fuzziness  and  Knowledge-­‐Based  Systems,  10(5):571– 588,  2002.   [Wang  et  al.2009]  RuiWang,  Yong  Fuga  Li,  XiaoFengWang,  Haixu  Tang,  and  Xiaoyong  Zhou.  Learning   your  iden&ty  and  disease  from  research  papers:  informa&on  leaks  in  genome  wide  associa&on  study.  In   Proceedings  of  the  16th  ACM  conference  on  Computer  and  communica&ons  security,  534–544.  ACM,  

×