Contenu connexe Plus de Deep Learning JP (20) [DL輪読会]実世界のゲームにおける推移性と非推移性1. DEEP LEARNING JP
[DL Papers]
実世界のゲームにおける推移性と非推移性
Toru Fujino, UTokyo, SCSLab
http://deeplearning.jp/
1
3. 書誌情報
• メインで読んだ論文
• W. M. Czarnecki et al. Real World Games Look Like Spinning Tops. arXiv.
2020 (DeepMind)
• 補助的に読んだ論文
• D. Balduzzi et al. Open-ended Learning in Symmetric Zero-sum Games.
ICML. 2019. (DeepMind)
• 今回読めなかったけど, 関連しそうな論文 (両方DeepMind)
• D. Balduzzi et al. Re-evaluating Evaluation. NeurIPS. 2018
• S. Omidshafiei et al. Navigating the Landscape of Games. arXiv. 2020.
5. 推移性 (律) とは
• 定義
For all 𝑎, 𝑏, 𝑐 ∈ 𝑋, if 𝑎 𝑅 𝑏 and 𝑏 𝑅 𝑐, then 𝑎 𝑅 𝑐
• 例
• 選好における推移律
• りんごがみかんより好き, みかんがレモンより好き -> りんごがレモンより好き
• ゲームの戦略の強さにおける推移律
• 戦略Aが戦略Bよりも強い, 戦略Bが戦略Cよりも強い -> 戦略Aが戦略Cよりも強い
7. 関数形によるゲームの定式化 [Balduzzi et al. 2019]
• プレイヤー数が2人のゼロサム・ゲームは, 両プレイヤーの戦略を入力として受
け取り勝敗結果を出力とする関数とみなすことができる.
• Functional-form games (FFGs) によるゲームの定式化
• v, wはニューラルネットのパラメータなど.
8. 関数形による推移的なゲームの定式化 [Balduzzi et al. 2019]
• ゲームが推移的であるとき, 戦略の強さを表すrating関数f が存在し, その引き算
によりゲームの勝敗を求めることができる.
• 推移的なゲームを一般化したものは単調な (monotonic) ゲームと呼ばれる.
• σは何らかの単調増加関数.
16. 実際のゲームは推移性と非推移性の2つの軸を持つ [Czarnecki et al. 2020]
• Games of Skill仮説.
• ゲームの戦略の分布を可視化すると右図の
様になる, という仮説.
• 縦軸が推移性, 横軸が非推移性を表す.
• 下の方の層では, 強い非推移性が見られる.
• 同じくらいの強さの多様な戦略が存在する.
• わざと負ける戦略も一番下に存在する.
• 層が上がっていくにつれて非推移性の程度
は弱くなっていく.
18. k-layered finite Game of Skill [Czarnecki et al. 2020]
• まずは単純化したケースを考えてみる.
• 戦略の集合がk個の層に分解でき, それぞれの相
関では推移性が成り立つ場合.
• 同じ層の中では非推移性が成り立つ.
• 推移性の観点では同じ強さだが, それぞれ相性
の善し悪しがある.
19. Population-basedの最適化 [Czarnecki et al. 2020]
• 単一の相手ではなく, 戦略の集合に対して最適化を繰り返す方法.
• 最初の戦略の集合のサイズを 層のサイズよりも
大きく設定することで, 非推移的な戦略の集合を包含することがで
きる.
• こうすることで, 新しく生成されていく戦略が「ある層のすべての戦
略に勝る戦略である」ことが保証される.
20. Nash clusteringの導入 [Czarnecki et al. 2020]
• 実際のゲームはk-layered Games of Skillのようにきれいな層に分けることはで
きない.
• 層間に戦略の非推移性が存在する.
• Nash clustering
• 戦略の集合から, エントロピーが最大となるNash均衡を構成する戦略のクラスター (
集合) を順に取り出していく.
• 取り出したクラスターを順に並べたとき, このクラスター (集合) 間では推移的な関
係が成り立っている (理由は後述).
• (C1, C2, ..., CN)
21. Population-baseの評価 [Balduzzi et al. 2019]
• クラスター (集合) 間での強さの比較をするために, 集合baseの評価尺度を導入
する.
• Relative population performance (RPP)
• Aは2つの戦略の集合間の利得行列.
• 2つの戦略の集合間のNash均衡における利得値.
22. RPPの計算例: じゃんけん
• じゃんけんの利得行列
• RPP({石, はさみ}, {石}) の場合, RPPはゼロ.
• RPP({石, はさみ, 紙}, {石}) の場合, RPPはε^2
• 相手の集合内の要素に勝てる要素をもつ集合だとRPPは高くなる.
• 集合のサイズが大きくなるほどRPPは高くなる.
24. Population-baseの最適化により, Nash clusteringの観点で推移的な進歩
が保証される [Czarnecki et al. 2020]
• 各iterationのpopulationに少なくともNash clusterが一つ含まれていれば, 次の
iterationでより強いclusterの戦略が追加される.
• つまり各iterationでclusterが包含されるくらいの大きなpopulationで学習させれば,
推移的な観点から強くなっていくことができる (たぶん).
• 証明はよくわからず.
• AlphaStar [Vinyals et al. 2019] でも (非明示的に) 同様のアイデアが使用され
ている.
26. サンプリングによるGames of Skillの検証
• 実際のゲームがGames of Skillのような形状を持つのかを検証する.
• OXゲーム, 囲碁 (3x3, 4x4), StarCraft, Discゲーム, etc.
• それぞれのゲームにおいて, 推移的な強さの異なる戦略をモンテカルロ木探索に
よりサンプリング.
• そしてそれぞれの戦略に対してランダムシードを変えることにより多様な戦略を
複製.
• そしてすべての戦略間の利得行列を作成し, Nash clustering等を求める.
28. 人工的なゲームはGames of Skillの形をしていない
• Disc Game: 非推移的なゲーム
• Elo Game: 単調 (Monotonic) なゲーム
• Blotto: 非推移的な資源配分ゲーム
• 2人のプレイヤーが一定量の資源を決められた数の区画に自由に割り当てる.
• それぞれの区画において資源を多く配分したプレイヤーがその区画を獲得する.
• 獲得した区画の数が多い方のプレイヤーの勝ち.
35. 参考文献
• [Silver et al. 2018] A general reinforcement learning algorithm that
masters chess, shogi, and Go through self-play. Science. 2018.
• [Vinyals et al. 2019] Grandmaster level in StarCraft II using multi-agent
reinforcement learning. Nature. 2019.
• [Balduzzi et al. 2019] Open-ended Learning in Symmetric Zero-sum
Games. ICML. 2019.
• [Czarnecki et al. 2020] Real World Games Look Like Spinning Tops. arXiv.
2020.