情報検索における質問者のプライバシー保護 :Private Information Retrieval

情報検索における質問者の
プライバシー保護
中川裕志
（東京大学）

情報検索における
利用者プライバシー保護の動機
 プライバシー保護というとデータベース中の個人情報の保護
ばかりに注目が集まりますが、それだけじゃない！
• Knowledge-based scheme to create privacy-preserving but semantically-related queries for web
search engines
– David Sanchez, Jordi Castella-Roca, Alexandre Viejo
– Information Sciences, http://dx.doi.org/10.1016/j.ins.2012.06.025
• 米国では、インターネット企業は利用者プロファイルを法執行当局に販売
している。犯罪、紛争に関して
– 例えば、AOLは１月あたり、１０００件の要求、
– Facebookは１日当たり１０から20要求に応えている。
– 米国Yahooは会員のアカウント、電子メール、を1件当たり30から40ドルで売り渡している。
• こういった販売はインターネット業者にとってかなりの収入であるが、利用者へ
の見返りはない。
• さらに悪徳業者が盗み出す可能性も大いにあり得る。
• こんな事情なので、検索エンジンに利用者は、自分のアイデンティを検索エン
ジンに知られないようにする技術を研究し実用化する必要が出てきている。

検索エンジンから
保護したい情報は何か？
Anonymity:検索質問から質問者を推定されたくな
い
 Tor (onion routing)で保護
 複数人の質問者を混ぜて検索する方法
Obfuscation(曖昧化）:質問者は知られるが、検索
質問を保護
保護したいのは :
– 検索質問を構成する単語集合
– 抽象的には検索意図
– Web検索の場合が多い

質問者の発信位置を匿名化
• 位置情報を使ったサービス（地図表示など）
において、個人の発信位置をサービスプロバ
イダに知られたくないという需要あり。
• 信頼できる仲介者：Tursted Third Party:TPPを
介する方法
• 位置情報を利用する
• ユーザ TTP サービスプロバイダ
利用者ID,位置情報
応答
TPPが変換した利用者ID,
位置情報
応答

位置情報をグループに紛れさせる
• 信頼できる仲介者：Tursted Third Party:TPPがいない場合は信頼できる利用者で
グループを作ってサービスを利用
• L(n)はID=nの利用者の位置情報。IDはスマホ番号
• ID=1から順に位置情報を追加してk人目がサービス要求
• ただし、リクエストを受け取った利用者のID(=m)だけ記憶しておき、結果の集合
（下の図では[Res(1),Res(2),Res(3),Res(4)]）をID=mに送り返す。注：①…⑧
• 次の利用者に送るとき、L(n)の順番を入れ替えると、利用者同士でもResと利用者
の対応は分からないようにできる。
– （順番入れ替えは自分だけ持っているので、自分に対応するResだけは認識できる。）
• k-匿名化のような効果がある。
ID=1
ID=２
ID=3
ID=４
[１，L(1)]
[L(1),2,L(2)] [L(1),2,L(2),3,L(3)]
サービスリクエストリスト
[L(1),L(2),L(3),L(4),4]
サービス結果リスト
[Res(1),Res(2),
Res(3),Res(4)]
[Res(1),Res(2),
Res(3),Res(4)]
[Res(1),Res(2),
Res(3),Res(4)]
[Res(1),Res(2),
Res(3),Res(4)]
位置情報を用いる
サービスプロバイ
ダ
①
②
③
④
⑤
⑥⑦
⑧

質問者の検索意図を検索エンジンから保護したい
 データベース検索で質問者の検索質問（検索意図）も保護したい
 企業研究者の研究開発における検索質問では、その検索質問が
存在すること自体を隠したい
– 例：化合物AとBのペアが質問であること自体。このペアを知られると、
企業の開発目的が推定されてしまう。
• どの会社かは重要ではないかも。
 この観点からの研究成果は私にはまだ見つかっていない。
データベース
データベース中
のプライバシー
保護したい
検索質問
検索者のプライバシー保護
したい
企業研究者の研究開発にお
ける検索質問は企業秘密

以上の例を参考にして、
要因を分析しなおしてみると：
保護したい情報、質問の長さと構造、保護手法
• 保護したい情報
– 質問者を識別する情報
• インターネットID、氏名
• 質問者の質問を発信した場所の位置情報
• 質問した時刻
– 質問内容
• 次のスライド
– 質問があったこと自体

• 質問の長さと構造
– 単語の場合
– 1単語
– 2単語以上の単語集合
– 構造を持つ単語集合：順序のある列、あるいは文
– 位置情報、数値情報などデータの場合

• 質問内容の保護手法
– 文を単語分割して別々の質問に分解
• 別々の質問への応答たちから、適切な結果を切り出す作
業が必要
– 質問に紛らわしい単語（ノイズ）を混ぜる
– 質問の単語を意味的に類似した別単語で置き換え
• これらは、Obfuscationとも言われる。

検索エンジンに質問者の真の質問Rを
見破られない方法の概観
質問者のプロファイル：X＝第iトピックの
生起確率𝑝𝑖からなる多項分布で表される
ダミー
質問生
成：DGS
Internet
意味分類
アルゴリ
ズム
R,R,R D,R,D,D,R
R:真の質問
D:ダミー質問
：DGSが生成
Q,Q,Q
検索エンジンには
同じような質問Q
に見える
意味分類
アルゴリ
ズム
プロファイ
ル精錬器
X
Y
ダミー質問
分類器
プロとダミーの
ループで学習したZ
Q、Q
ダミーと
して廃棄
Q、Q
真の質
問として
プロファ
イル更新
検索エンジン
（攻撃者でもある）質問者
YはXの
推定値

前のページの図の補足説明
質問者は真の質問Rにダミー質問生成：DGSで生
成したダミーDを混ぜて、(R+D)Qとして検索エ
ンジン（＝攻撃者）に送る。
検索エンジンは、送られてきた質問Qをから質問
者の質問プロファイルZを学習し、このプロファイ
ルを利用して、真の質問とダミーを分類
したがって、質問者はダミーを見破られないよう
にしたい。また、自分のプロファイルも検索エン
ジンに推定されないようにしたい。

• 前のスライドに示した概観に沿ういくつかのシ
ステムを以下のスライドでは評価していきま
す。

TrackMeNot:TMN
• TrackMeNot 2006
– D. C. Howe and H. Nissenbaum. Available:http://mrl.nyu.edu/~dhowe/trackmenot
• TrackMeNot: Enhancing the privacy of Web Search
– Vincent Toubiana, Lakshminarayanan , Subramanian, and Helen Nissenbaum，arXive:1109.4677, 2011
• 質問にノイズを混ぜる方法のベースライン的存在
– ブラウザ（firefox,Google Chrome）に組み込むユーザ側のツール
 検索エンジンは質問者プロファイルを推定している
• 目的
– １．Obfuscated(曖昧化)された質問と真の質問が検索エンジン側
に区別できないようにすること＝ indistinguishability
• TMNでは、indistinguishability つまり、検索エンジンが質問者プロファ
イルを正確に推定できないようにすることが狙い。
– ２．SNSなどのサイドチャネルを使った攻撃から質問者が特定さ
れないように守ること

TMNのトピック公開型の質問曖昧化
• すべての語彙（異なる種類の単語）を多数(n種類）のトピック 𝑇1, ⋯ , 𝑇𝑛 に
分類
– 𝑇𝑖 は実体は同じトピックに属する単語の集合であることに注意
• 全語彙をトピック毎に分類するのは大変なので、既存のトピック分類辞書（シ
ソーラス）である。
• TMNではトピックを表すためにYahoo!の公開しているcategories, sub-
categoriesを用いた。
 このようにトピックは公開されているので、攻撃者は質問がどのトピックに関
するものかは知ることができる。
• TMNは質問者の質問を長期間観察し、トピック毎に分類を行う。また、ト
ピックにおいて質問に使う単語を頻度分布を得ておく。
• 質問中の単語がトピック𝑇𝑖 に属するときは、 𝑇𝑖 中の別の単語を追加する
か置き換えるかする。このとき、上記の単語頻度分布に沿うように単語
選択する。
  トピック内で何を狙って検索しているか分かりにくくなる

TMNのトピック非公開型の質問曖昧化
• すべての語彙（異なる種類の単語）を多数(n種類）のトピッ
ク 𝑇1, ⋯ , 𝑇𝑛 に分類。
– ただし、１個の単語が複数のトピックに属することがある（曖昧
化）
– 𝑇𝑖 は実体は同じトピックに属する単語の集合であることに注意
 質問中の単語がトピック𝑇𝑖に属するときは、類似のトピック
𝑇𝑗 𝑗 ≠ 𝑖 、例えば、親categoryだが違うsub-category、を複
数選択して、それらの中の別の単語を追加。
 質問がどのトピックに属するか攻撃者にはわかりにくい。
 ただし、質問を構成する単語数が増加、あるいは質問数が増
加するので、ネットワーク負荷は重く、全体に重たい動きトピッ
ク内で何を狙って検索しているか分かりにくくなる

Side Channel:個人識別のために使える
質問以外の情報
• 質問の時間履歴に現れるトラフィックのパタン
• 質問者のキーストローク
• 真の質問の場合は、その結果に表れるリンク
をクリックしたり、コンテンツのダウンロードす
ること多し
• TMNではこういった情報も隠す。

GooPIR: h(k)-Private Information
Retrieval
– Josep Domingo-Ferrer, Agusti Solanas, and Jordi Castell`a-Roca. h(k)-private information
retrieval from privacy uncooperative queryable databases. Online Information Review,
33(4):720–744, 2009.
• GooPIRもTMNと同じように公開された辞書からダミー
質問を作る。
• h(k)-PIR : 質問数＝kの関数h(k)に対して、攻撃者から
ランダムに見える R のエントロピー H(R) ≥ h(k) を満
たすPIR.
– ダミー質問がk-1個、真の質問が1個であることに注意
• log(k)-PIRでは、攻撃者が質問をダミーと見なす確率
＝（k-1)/k、真の質問と見なす確率＝1/k のとき、完
全にindistinguishableとなる。

• ダミー質問分類器は、質問のpopularity(一般的によく
質問される度合い）を用いて、ダミーかどうか判断する。
• GooPIRでは、k-1個のダミー質問を、真の質問と同じレ
ベルのpopularityを持つように選び、対抗する。
– GooPIR はPopularityを一般テキスト（＝web、およびpublic
な辞書）での出現頻度に比例すると見なす。
– 質問者の質問の頻度が一般テキストの単語の出現頻度
より高くなって、攻撃者に見破られることを防ぐために、一
般テキストの単語頻度分布は固定しておく。 ところ
が。。。

• 質問列t1,t2,t3を比較して、類似のカテゴリの単語を集
めると、デル、アップル、マックがまとめられ、これら
が真の質問Rだと見破られかねない
検索エンジン
（攻撃者でもあ
りうる）
ｔ３
Q,Q,Q
ｔ２
Q,Q,Q
ｔ１
Q,Q,Q
D: ベルト
D: 空港
R: デル
D: 株式 D: 演歌
D: 空室D: シャワー
R: マックR: アップル
ｔ１
ｔ3ｔ2
賢い攻撃者だと、こんな攻撃もあるだろう

Plausibly Deniable Search：PDS
– Mummoorthy Murugesan and Chris Clifton. Providing privacy through
plausibly deniable search. In SDM, pages 768–779. SIAM, 2009.
• PDSは真の質問をcanonical queriesで置き換える処理を加えた。
•  canonical queries の作り方がキーポイント
• ダミー質問集合𝑆 = 𝑄1, ⋯ , 𝑄 𝑘 ただし、1個は真の質問R
• canonical queries 作成の3つの制約
1. 任意の𝑄𝑖(𝑖 = 1, … , 𝑘)から𝑆を等確率で生成できる
2. 𝑆 中の𝑄𝑖は全て別のトピックを表す
3. 𝑆 中の𝑄𝑖は全て、質問者の質問として尤もらしい(plausible)
 3番目の制約が一番実現が難しいので、次のスライドのような工
夫をしている。

質問1
質問2
質問3
質問4
質問6
質問5 質問7
質問n-1
質問n
単語１単語２単語m
質問1 １００
質問２０１１
⋱
質問ｎ１０１
第1特異
値
⋱
第r特
異値ほとんどの
要素＝０
ほとんどの
要素＝０
SVDでｒ個の
意味に分解
質問q
既存の大規模質問vs単語行列
意味分解した質問q’
このq’に近接する質
問をダミーとして抽
出
q’ とダミーを検
索エンジンに送る
密集している質問
たちからダミーを
選ぶと攻撃者はダ
ミーを認識しにくい
SVDによる意味空間
SVDによる意味空間
ダミー選択では以下に
注意
ダミー
大雑把なアイデア（正確には次のペー
ジからの数理モデルをご覧ください

canonical queries 生成アルゴリズム
1. Webから収集した大規模質問集合から、（質問 vs 単語）行
列 𝐴: （𝑛 × 𝑚）を作る。（質問＝単語の集合）
2. AにLSI(Latent Semantic Indexing)を適用
1. SVD（特異値分解）𝐴 = 𝑈𝑆𝑉 𝑇
• 𝑆は𝑟次元の対角行列。ただし、𝑟𝑎𝑛𝑘 𝐴 = 𝑟
– 単語を次元とした多次元空間𝐴を意味を次元とする意味空間𝑆に写像
• 𝑈は𝑛 × 𝑛行列で𝑈 𝑇
𝑈 = 𝑈𝑈 𝑇
= I 単位行列
• 𝑈は𝑚 × 𝑚行列で𝑉 𝑇
𝑉 = 𝑉𝑉 𝑇
= I 単位行列
2. 𝑈𝑟は𝑈の最初の𝑟列、𝑆 𝑟は𝑆の非ゼロ特異値からなる正方行列
3. 質問𝑞に出現した単語の部分だけ１とした質問ベクトルを 𝑞
4. 𝑞′ = 𝑞 𝑇
𝑈𝑟 𝑆−1
𝑟は𝑞で表される質問をSVDの結果の意味空間へ
写像したもの
次ページにつづく

つづき
3. 元になった文書集合にΔ回以上出現した単語および
単語対を抽出（実験ではΔ＝500）
4. 3．で抽出した単語（対）を前記の式： 𝑞′ = 𝑞 𝑇 𝑈𝑟 𝑆−1
𝑟
で意味空間に写像。
5. 4．の写像で構成した空間中の点（ベクトル）集合を
空間中での距離を用いてKD-treeで表現する
6. 与えられた質問を構成する各単語および各単語対を
意味空間に写像し、5．のKD-treeにおいて近接する２
つのベクトルを選び、これを canonical queries とする。
 canonical queries は元の質問の代理質問として意味
的に十分に機能する。すなわち、元質問と同じような
検索結果を得ることができる。

canonical queriesの性能
• 元の質問をそのまま使ってweb検索した場合の上位20個
の検索結果のうち、何％をここで紹介したアルゴリズムで
作ったcanonical qieriesでも検索できたかというと、
• 約半数で上位100以内の上記20位以内は少なくとも6個以
上は含まれた
• 上位500位までの中だと、上記20位以内は平均11個含ま
れ、69％の場合は6個以上含まれていた。
• これを多いと思うか少ないと思うかは微妙なところ。

次の問題は「任意の𝑄𝑖(𝑖 = 1, . . , 𝑘)から𝑆を等確率で生成できる」
という性質(plausible deniable)を実現する質問集合を作ること
Deniableなquery set の生成法
• ダミー質問の多様性は意味空間での距離で表現できる。
• 尤もらしさ(plausibility)はどうするか？
 意味空間において元の質問の近辺に多くの質問が存在する、つ
まり密度の高さ、で定義する。
 そこで意味空間に写像された二つの質問𝑞1 , 𝑞2 間で定義
される dissimilarity(dis)を使う。次のページ参照

• 𝑒𝑑𝑖𝑠𝑡 𝑞1, 𝑞2 = 𝑞1 − 𝑞2 2
• 𝑞 2 = 𝑖 𝑞 𝑖 2
• 𝑛ℎ𝑐 𝑞 = 𝑐𝑜𝑢𝑛𝑡 𝑞, 𝑄 𝐿, 𝐻𝐶𝑈𝐵𝐸 𝑞, 𝛿
– 𝑄 𝐿は計算対象の文書集合
– 𝐻𝐶𝑈𝐵𝐸 𝑞, 𝛿 は𝑞 𝑖 ± 𝛿 𝑖 で定義される超立方体なので、
𝑛ℎ𝑐 𝑞 はその内部に含まれる点の数
• 𝑑𝑖𝑠 𝑞1, 𝑞2 = 1 − 𝑒𝑑𝑖𝑠𝑡 𝑞1, 𝑞2 𝛼 +
𝑞1 2− 𝑞2 2
β
+
𝑛ℎ𝑐 𝑞1 − 𝑛ℎ𝑐 𝑞2 𝛾
– 𝛼 = 𝑀𝑎𝑥 𝑒𝑑𝑖𝑠𝑡 𝑞𝑖, 𝑞 𝑗 , ∀𝑖, 𝑗
– 𝛽 = 𝑀𝑎𝑥 𝑞𝑖 2 − 𝑞 𝑗 2
, ∀𝑖, 𝑗
– 𝛾 = 𝑀𝑎𝑥 , 𝑛ℎ𝑐 𝑞𝑖 − 𝑛ℎ𝑐 𝑞 𝑗 ∀𝑖, 𝑗

まとめると
1. 質問者の質問qに対して、cosine距離が一番
近い canonical queries を抽出する
2. canonical queriesの各々𝑞𝑖 に対して、
dissimilarity: 𝑑𝑖𝑠 𝑞𝑖, 𝑞 の小さい 𝑞を選出す
る。
3. canonical queries と2.の結果で抽出した 𝑞を
ランダムな順番で検索エンジンに送る。
4. 検索エンジンの検索結果のうち元の質問q
に対するものだけを選び出す。

Optimized Query Forgery for Private
Information Retrieval(OQF-PIR)
– David Rebollo-Monedero and Jordi Forn´e. Optimized query forgery for
private information retrieval. IEEE Transactions on Information Theory,
56(9):4631–4642, 2010.
• 検索エンジン（＝攻撃者）は、質問を真の質問かダミー質問かを見
分けるとき
• 質問者の過去の質問から得たプロファイルを利用する。つまり、質
問者のプロファイルXから生成されそうな質問なら真の質問、一般
的なweb利用者のプロファイルWから生成されたとするとき、ミー
質問と見なす。
• そこで、XとWを適当な割合で混合したプロファイルになるようなダ
ミー質問を生成する。詳細な数学的モデルは後に述べる。

PIRの性能評価指標
• 以下のスライドではPIRの有力な評価指標を
いくつか紹介します。
• 一般的な評価指標は難しいので、目的ごとの
評価指標となります。

PIRの性能評価指標：攻撃者を欺く確率
• 出典：TrackMeNot: Enhancing the privacy of Web
Search
– Vincent Toubiana, Lakshminarayanan , Subramanian,
and Helen Nissenbaum，arXive:1109.4677, 2011
 データベースに特定の質問者の質問にダミー質問を
混ぜて、質問したとき
データベース管理者が、長期間、質問
を観察したとき、混ぜ物質問を見破れる
かどうかという評価指標を提案
ダミー質問生成器：obfuscater

この評価基準の記法
 
 
 
 
 
値者のした質問数の推定攻撃者の推定した質問
質問数　された攻撃者の推定した生成
質問者のした質問数　　質問数生成された
の生起確率事象
側）　　け取ったデータベース　　攻撃者＝質問を受　　　　（
質問と見なす事象攻撃者が質問を
となる確率
したという事象を生成したと断定質問生成器が：攻撃者が
を生成したという事象質問生成器が：
質問生成器の出力：
問：質問生成器の作った質
　質問者のした質問：
:
~
ダミー:
~
:,ダミー:
:
note!
ダミー:
1:
)1(ダミー
ダミー
,,,,,ダミー
,,ダミー
,,,
11
1
1
Y
X
YX
ObObP
Ob
AAP
AqA
qG
qqqqOH
qqH
qqH
iqiq
iqiiq
iiq
XYYY
XYY
Y











ダミー質問の識別不可能性
   
YX
X
GObAPGObAPOHq qiqiqiqii ~~
~
||,


 攻撃者が質問𝑞𝑖をダミー質問を疑っているとき、その質問が
ダミーであろう𝐺 𝑞𝑖となかろう 𝐺 𝑞𝑖と、ダミー質問と判断する=
𝐴 𝑞𝑖確率は同じ。
 攻撃者が、単発の質問がダミーか真かを見分けられないと
いう定義
 𝑋, 𝑌は攻撃者の推定した値であることに注意！

妥当な疑い：Reasonable Doubt
    


 ObAPHq qii ,
ダミー
真の質問
質問であると疑う以上なら攻撃者が　　すなわち、
ないという閾値であることを許容でき＝質問者が発した質問
偽質問生成器が、攻撃者に対して全ての真の質問をダ
ミー質問と見誤らせるほど狡猾なダミー質問が作れると
いう定義
 妥当な疑いの計算法は次のページ

Reasonable Doubtの計算法
       
   
 
 
 
 
 
 
ある。質問生成器には既知では数は注：質問者の真の質問
デルも可能。が質問者毎に異なるモ注　：
による。表す確率と攻撃者の疑い深さを質問者の真の質問数
は攻撃者が推定した質問数き質問生成器が生成すべつまり、
　　　　　　　
　　　　　※　　
　だから
　　※　　　　　　　
　　　ゆえに　
ダミー
~
ダミーダミー
~
,
~
~
,
~~
~
~
,
~~
~
,,
~~
~
|
Y
ObP
ObPY
X
Y
ObP
ObPY
XHq
ObP
Y
YYXHq
YXYX
ObP
Y
XHq
ObP
YX
X
HqObAPHq
ObP
YX
X
ObPObAPObAP
i
i
i
iqii
qiqi
























PIRの性能評価指標：KL-divergence版
OQF-PIRの数理モデルの詳細
• 出典：Optimized Query Forgery for Private Information Retrieval
– David Rebollo-Monedero and Jordi Forné
– IEEE TRANSACTIONS ON INFORMATION THEORY, VOL. 56, NO. 9, 2010 4631-4641
 データベースに特定の質問者の質問に偽物の質問を混ぜて、質問したとき
 データベース管理者が、長期間、質問を観察したとき、混ぜ物質問
を見破れるかどうかという評価指標を提案
 一般的な利用者の質問の要素毎の確率密度関数をpとする。
 質問単語の分布例： 𝑝 情報 = .5, 𝑝 検索 = .3, 𝑝 知能 = .2
 特定の質問者の質問の要素毎の確率密度関数をqとする。
 質問単語の分布例： q 情報 = .2, 𝑝 検索 = .0, 𝑝 知能 = .8
 特定の質問者のダミー質問の要素毎の確率密度関数をrとする。
 質問単語の分布例： r 情報 = .2, 𝑟 検索 = .6, 𝑟 知能 = .2

PIRの性能評価指標
• 質問者の本来の質問と、混ぜたダミー質問の割合を
各々1 − 𝜌, 𝜌とすると、
• 偽質問を混ぜた質問の混合確率分布の密度関数：
1 − 𝜌 𝑝 + 𝜌𝑟 と、
• 一般的な利用者の質問の確率分布の密度関数：𝑝
• の確率分布としての見分けにくさをPIRの性能評価指
標とする方法を以下に説明

記法
• 質問に現れる要素の種類𝑛個。つまり
質問の要素 ∈ 1,2, … , 𝑛
– 例えば、テキスト検索なら単語の種類数、位置情報
なら位置座標
• 𝑝 = 𝑝1,⋯, 𝑝 𝑛 : 一般的な質問における各要素の
出現頻度分布の密度関数
• 𝑞 = 𝑞1,⋯, 𝑞 𝑛 :あるユーザの質問における各要
素の出現頻度分布の密度関数
• 𝑟 = 𝑟1,⋯, 𝑟𝑛 :ユーザが作った真の質問要素で
はないダミー要素の出現頻度分布の密度関数

評価指標:プライバシーリスク
• KL-divergenceの定義：𝐷 𝑞||𝑝 = 𝑖 𝑞 𝑖 𝑙𝑜𝑔
𝑞 𝑖
𝑝 𝑖
• 0 ≤ 𝜌 ≤ 1を質問の冗長度とし、ダミー質問単語を𝜌の割合で混ぜた
ダミー質問の
確率密度関数: 𝑠 = 1 − 𝜌 𝑞 + 𝜌𝑟 としたときのリスク定義：
• プライバシーリスク：𝑅 = 𝐷 𝑠||𝑝 = 𝐷 1 − 𝜌 𝑞 + 𝜌𝑟||𝑝
• プライバシー冗長度： 𝑅 𝜌 = 𝑚𝑖𝑛 𝑟 𝐷 𝑠||𝑝 = 𝑚𝑖𝑛 𝑟 𝐷 1 − 𝜌 𝑞 +

簡単な例
• 𝑝が𝑛個の等確率な単語分布 1 𝑛 , … . , 1 𝑛 だ
とすると、 𝐻をエントロピーとして
• 𝑅 = 𝐷 1 − 𝜌 𝑞 + 𝜌𝑟||𝑝
= 𝑙𝑛
1
𝑛
− 𝐻 1 − 𝜌 𝑞 + 𝜌𝑟
• 𝑅 𝜌 = 𝑚𝑖𝑛 𝑟 𝐷 1 − 𝜌 𝑞 + 𝜌𝑟||𝑝 を実現する
𝑟は𝐻 1 − 𝜌 𝑞 + 𝜌𝑟 を最大にする𝑟なので、各
単語の確率が等しい場合なので、
𝑞 = 𝑞1, ⋯ , 𝑞 𝑛 とすると𝑟𝑖 =
1
𝜌
1
𝑛
+ 𝜌 − 1 𝑞𝑖

一般の場合の𝑅 𝜌 の性質
• ∀𝑖 𝑝𝑖 > 0, 𝑞𝑖 > 0 とする。
• また、
𝑞1
𝑝1
≤
𝑞2
𝑝2
≤ ⋯ ≤
𝑞 𝑛
𝑝 𝑛
という順番に𝑝𝑖, 𝑞𝑖が並んでいるとする
– 以下の議論では𝜌の値が
𝑞 𝑖
𝑝 𝑖
𝑖 = 1, . . , 𝑛 のどれかに近いよう
な想定で話が進んでいることに注意してください。
• 𝑅 𝜌 = 𝑚𝑖𝑛 𝑟 𝐷 1 − 𝜌 𝑞 + 𝜌𝑟||𝑝 より
• 𝑅 0 = 𝐷 𝑞||𝑝
• 𝑅 1 = 𝑚𝑖𝑛 𝑟 𝐷 𝑟||𝑝 = 0
• よって、0 < 𝜌 < 1の場合の𝑅 𝜌 の振る舞いを知りたい。これにつ
いて以下の定理がある

• 定理： 𝑅 𝜌 は非増大かつ凸:すなわち
• 証明：
• 直観的には、𝑅 𝜌 = 𝑚𝑖𝑛 𝑟 𝐷 1 − 𝜌 𝑞 + 𝜌𝑟||𝑝 なので、𝜌が大きくなると、𝑚𝑖𝑛 𝑟
が実現するような適当な𝑟を選んで、 1 − 𝜌 𝑞 + 𝜌𝑟を𝑝により近い確率分布にでき
るので、KL-divergence：Dは小さくできるから。
• 凸性は素直な計算で証明できる。
• 証明の詳細は出典：Optimized Query Forgery for Private Information Retrievalの
4634ページ
𝑅 𝜌 の性質に関する定理１
          11 RRR

Critical 𝜌すなわち𝜌 𝑐𝑟𝑖𝑡
• 𝑅 0 = 𝐷 𝑞||𝑝 と 𝑅 1 = 0 より 𝑅 𝜌 = 0 となる最小の𝜌 が
[0,1]区間に存在する。そのような𝜌 = 𝜌 𝑐𝑟𝑖𝑡 とする。（下図、参照）
• 𝜌 𝑐𝑟𝑖𝑡 = 1 − 𝑚𝑎𝑥𝑖
𝑝 𝑖
𝑞 𝑖
= 1 −
𝑝 𝑛
𝑞 𝑛
> 0
– なぜなら、もし
𝑝 𝑛
𝑞 𝑛
> 1,すなわち𝑝 𝑛 > 𝑞 𝑛 とすると
𝑞1
𝑝1
≤
𝑞2
𝑝2
≤
⋯ ≤
𝑞 𝑛
𝑝 𝑛
により∀𝑖 𝑝𝑖> 𝑞𝑖 なので
– 1 = 𝑝𝑖 > 𝑞𝑖 = 1 で矛盾
𝑅 𝜌
𝐷 𝑞||𝑝
𝜌 𝑐𝑟𝑖𝑡 1 𝜌

• 定理：𝜌 ≥ 𝜌 𝑐𝑟𝑖𝑡 のとき𝑅 𝜌 = 0
このとき最適な偽質問の確率分布の密度
関数 𝑟∗
=
1
𝜌
𝑝 + 1 −
1
𝜌
𝑞
証明：
• 詳細は出典：Optimized Query Forgery for Private Information Retrievalの4635
ページ
• 簡単な計算により、𝑟∗の第𝑖成分の値𝑟𝑖
∗
=
𝑝 𝑖 𝑞 𝑛−𝑝 𝑛 𝑞 𝑖
𝑞 𝑛−𝑝 𝑛
𝑅 𝜌 の性質に関する定理2

• 𝜌の値が与えられた場合（つまり定理3の（２）の場合）
、𝑅 𝜌 の最小化問題の解の構成法が以下の定理で与
えられる
• まず𝑃𝑗 = 𝑘=1
𝑗
𝑝 𝑘, 𝑄𝑗 = 𝑘=1
𝑗
𝑞 𝑘つまり１から𝑗までの分
布関数とする。
• for 𝑖 = 1, … , 𝑛 𝜌𝑖 = 1 −
𝑝 𝑖
𝑃 𝑖 𝑞 𝑖+𝑝 𝑖 1−𝑄 𝑖
• 𝜌 𝑛+1 = 1, そして、𝜌1 = 0, 𝜌 𝑛 = 1 −
𝑝 𝑛
𝑞 𝑛
= 𝜌 𝑐𝑟𝑖𝑡
• 定理を読むにあたって注目すべきは、𝜌 ∈
𝜌𝑖, 𝜌𝑖+1 という𝜌の条件

定理3：
（１） 1, ⋯ , 𝑛 − 1 中のどの 𝑖 についても 𝜌𝑖 ≤ 𝜌𝑖+1
（２）任意の𝑖 ∈ 1, 𝑛 において∀𝜌 ∈ 𝜌𝑖, 𝜌𝑖+1 に対して最適な 𝑟 = 𝑟∗
は以下の式で求まる。
𝑗 ∈ 1, 𝑖 に対しては 1 − 𝜌 𝑞 𝑗 + 𝜌𝑟∗
𝑗 =
𝑝 𝑗
𝑃 𝑗
1 − 𝜌 𝑄𝑖 + 𝜌
𝑗 ∈ 𝑖 + 1, 𝑛 に対しては 𝑟∗
𝑗 = 0
（３）与えられた𝑝, 𝑞, 𝜌に対する𝑅 𝜌 はこうして求めた 𝑟を用いれば
𝐷 1 − 𝜌 𝑞 + 𝜌 𝑟|| 𝑝 として求まる。
ただし、 𝑝 = 𝑃𝑖, 𝑝𝑖+1, … , 𝑝 𝑛 、 𝑞 = 𝑄𝑖, 𝑞𝑖+1, … , 𝑞 𝑛 、 𝑟 = 1,0, … , 0

• この定理によれば、偽質問の混合率𝜌を決め
れば、偽質問生成の元になる確率分布の密
度関数が繰り返し計算で求まる。
– 探索なしで閉じた式で定義されているところに価
値あり
証明：
• 詳細な証明は出典：Optimized Query Forgery for Private
Information Retrievalの4636-4637ページ
• ただし、証明自体はかなり込み入っていて難しい。
• キーポイントになるのは次のlemma

だいぶ省略しますが、lemmaの概要は以下のようです。
 
    
     
   
 
 
  



 



















i
j
i
j jj
j
j
i
ii
n
n
i iii
n
i ii
n
i ii
fx
nij
ijf
x
fnib
ffnia
ff
xfxR
xxi
xf
1 1
1*
1
*
1
1
1
*1*
1
1
1
,,10
,,1
0)(
,001,,1)(
00ii
1,,0max,i
1and0subject to
minimize





かつ　　
てものいずれの場合に対し
に対して
かに対して
とする。このとき、
は存在し、この問題の一意的な解
に対して　　という最適化問題




lemma
定理3(2)の
𝑗 ∈ 1, 𝑖 に対応
𝑗 ∈ 𝑖 + 1, 𝑛 に対応

• 証明の大筋は、lemmaの最適化対象のfi に以下の関数を当
てはめることによっている。
         
     
 
   
 
 
 
     得られる。　　　■　　という定理の式が
に代入してまとめるとをこの
　より　
によって保証されはの条件
を適用。として
　　　
とおくと　　　
i
ii
ii
i
i
ii
i
j j
n
n
n
ii
ii
i
ii
ii
i ii
i
ii
i ii
P
Qp
rq
P
Q
QP
f
p
q
p
q
fflemma
lemma
qp
fr
p
rq
rf
rf
p
rq
rqprqD

































































1
1
)(#
1
1
ln1
11exp
1
00
)(#
11exp
,1
1
ln
1
ln1||1
*
1
1
1
1
1
1
*


• TrackMeNot: Enhancing the privacy of Web Search
– Vincent Toubiana, Lakshminarayanan , Subramanian, and Helen Nissenbaum，
arXive:1109.4677, 2011
• h(k)-private information retrieval from privacy uncooperative queryable databases.
-- Josep Domingo-Ferrer, Agusti Solanas, and Jordi Castell`a-Roca.
-- Online Information Review, 33(4):720–744, 2009.
• Embellishing Text Search Queries To Protect User Privacy
– HweeHwa, Pang Xuhua Ding, Xiaokui Xiao
• Optimized Query Forgery for Private Information Retrieval
– David Rebollo-Monedero and Jordi Forné
– IEEE TRANSACTIONS ON INFORMATION THEORY, VOL. 56, NO. 9, 2010 4631-4641
• Providing privacy through plausibly deniable search.
-- Mummoorthy Murugesan and Chris Clifton.
-- In SDM, pages 768–779. SIAM, 2009.
• OB-PWS: Obfuscation-Based PrivateWeb Search
– Ero Balsa, Carmela Troncoso and Claudia Diaz
– 2012 IEEE Symposium on Security and Privacy. 491-506
参考文献（一部再掲）

参考文献（一部再掲）
• Distributed system for private web search with untrusted partners
– Cristina Romero-Tris, Jordi Castella-Roca, Alexandre Viejo
– Computer Networks :journal homepage: www.elsevier.com/locate/comnet , 2014
• Enhancing Deniability against Query-Logs
– Avi Arampatzis, Pavlos Efraimidis, and George Drosatos
– Advances in Information Retrieval Volume 6611 of the series Lecture Notes in Computer
Science pp 117-128
• A query scrambler for search privacy on the internet
– Avi Arampatzis • Pavlos S. Efraimidis • George Dros
– Inf Retrieval (2013) 16:657–679
• Noise Injection for Search Privacy Protection
– Shaozhi Ye, Felix Wu, Raju Pandey, and Hao Chen
– 2009 IEEE ICCSE

情報検索における質問者のプライバシー保護 :Private Information Retrieval

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à 情報検索における質問者のプライバシー保護 :Private Information Retrieval

Similaire à 情報検索における質問者のプライバシー保護 :Private Information Retrieval (9)

Plus de Hiroshi Nakagawa

Plus de Hiroshi Nakagawa (20)