Outracing champion Gran Turismo drivers with deep reinforcement learning

Copyright © 2020 調和系工学研究室 - 北海道大学大学院情報科学研究院情報理工学部門複合情報工学分野 – All rights reserved.
Outracing champion Gran Turismo drivers
with deep reinforcement learning
2022/09/12(月)
北海道大学大学院情報科学研究院
情報理工学部門複合情報工学分野調和系工学研究室
M1 清水雅之

2
論文情報
• タイトル
– Outracing champion Gran Turismo drivers with deep
reinforcement learning
• 著者
– Peter R. Wurman, Samuel Barrett , Kenta Kawamoto, James MacGlashan, Kaushik
Subramanian, Thomas J. Walsh, Roberto Capobianco , Alisa Devlic, Franziska Eckert,
Florian Fuchs, Leilani Gilpin, Piyush Khandelwal, Varun Kompella, HaoChih Lin, Patrick
MacAlpine, Declan Oller, Takuma Seno, Craig Sherstan, Michael D. Thomure, Houmehr
Aghabozorgi, Leon Barrett, Rory Douglas, Dion Whitehead, Peter Dürr, Peter Stone,
Michael Spranger & Hiroaki Kitano
• 発表
– Nature(2021)
• 論文URL
– https://www.nature.com/articles/s41586-021-04357-7

3
概要
• PlayStation4(PS4)用ゲームソフトGran Turismo (GT) Sportを用い
て深層強化学習エージェントと人間のプロが対決
– 実際のレースカーの非線形制御の課題を忠実に再現
• 最先端のモデルフリーの深層強化学習アルゴリズム＋ミックス
シナリオ
– 卓越したスピードと優れた戦術を組み合わせた統合制御方策を学習
– スポーツマンシップを守りつつ競争力のある報酬関数を構築
• 本論文のエージェント、Gran Turismo Sophy(GT Sophy)は世界
最高のGTのドライバー4人と直接対決の末、勝利

4
背景
• 深層強化学習(DRL)はAtari, Go, StarCraft, Dotaといった分野でAI
の進歩のカギとなる要素
• DRLがロボット工学などに影響を与えるには複雑な物理システ
ムでの成功が必要
• ロボット工学の多くのアプリケーションでは、人間の規範を正
確に規定することなく人間と近い距離で対話する必要あり
– 自動車レースは、その一例となる分野
– 複雑で非線形なダイナミクスを持つ車両を、相手と数インチの距
離でリアルタイムに制御
– 現実的なシミュレーションが可能であり機械学習的なアプローチ
による実験が可能

5
関連研究
• 近年は実際のサイズ、スケール、シミュレーションを活用した自律走
行レースの研究が盛ん
• 一般的には、事前に軌道を計算[1,2]し、モデル予測制御を用いて軌道
を実行[3,4]
– わずかなモデリングエラーが致命的になることも
– ドライバーの数が増えるとモデリング精度に対する要求は更に増加
• モデリング上の複雑さを回避するために機械学習を用いた様々な方法
を模索
– 教師あり学習を使った車両ダイナミクスのモデル化[5,6,7]、模倣学習[8]、進化的アプ
ローチ[9]、強化学習[10]
• いくつかの研究では、単独走行で人間を凌駕したり、単純な追い越し
シナリオに進展
• しかし、最高レベルのレースに取り組んだものはない
1. Theodosis, P. A. & Gerdes, J. C. In Dynamic Systems and Control ConferenceVol. 45295, 235–241 (American Society of Mechanical Engineers, 2012).
2. Funke, J. et al. In 2012 IEEE Intelligent Vehicles Symposium 541–547 (IEEE, 2012).
3. Laurense, V. A., Goh, J. Y. & Gerdes, J. C. In 2017 American Control Conference (ACC) 5586–5591 (IEEE, 2017).
4. . Kritayakirana, K. & Gerdes, J. C. Autonomous vehicle control at the limits of handling. Int. J. Veh. Auton. Syst. 10, 271–296 (2012).
5. Spielberg, N. A., Brown, M., Kapania, N. R., Kegelman, J. C. & Gerdes, J. C. Neural network vehicle models for high-performance automated driving. Sci. Robot. 4, eaaw1975 (2019).
6. Williams, G., Drews, P., Goldfain, B., Rehg, J. M. & Theodorou, E. A. Information-theoretic model predictive control: theory and applications to autonomous driving. IEEE Trans. Robot. 34, 1603–1622 (2018).
7. Rutherford, S. J. & Cole, D. J. Modelling nonlinear vehicle dynamics with neural networks. Int. J. Veh. Des. 53, 260–287 (2010).
8. Pomerleau, D. A. In Robot Learning (eds Connell, J. H. & Mahadevan, S.) 19–43 (Springer, 1993).
9. Togelius, J. & Lucas, S. M. In 2006 IEEE International Conference on Evolutionary Computation 1187–1194 (IEEE, 2006).
10. Pyeatt, L. D. & Howe, A. E. Learning to race: experiments with a simulated race car. In Proc. Eleventh International FLAIRS Conference 357–361 (AAAI, 1998).

6
レーサーに必要な能力
1. 車両のコントロール
– 自分のマシンのダイナミクスとレースの舞台となるコースの特性
を詳細に理解
2. レース戦術
– 追い越しや防御のための戦術的なスキル
– わずかな誤差もせず高速で正確な操作
3. レースのマナー
– スポーツマンシップに則った緻密なルール
4. レース戦略
– いつ、どのようにパスを試みるかを決定

7
提案手法
• チャンピオンレベルのレーシングエージェント、
Gran Turismo Sophy(GT Sophy)を構築
– モデルフリー、オフポリシー深層強化学習アルゴリズムQR-SACを
開発
• SAC[11,12]をN-step報酬[13]を扱うように修正
• 将来の報酬の期待値をそれらの報酬の確率分布[14]で表現
– PlayStation4(PS4)用ゲームソフトGran Turismo (GT) Sport
(https://www.gran-turismo.com/us/ )において人間のトップドライ
バーと渡り合うために開発
11. Haarnoja, T., Zhou, A., Abbeel, P. & Levine, S. In Proc. 35th International Conference on Machine Learning 1856–1865 (PMLR, 2018).
12. Haarnoja, T. et al. Soft actor-critic algorithms and applications. Preprint at https://arxiv. org/abs/1812.05905 (2018).
13. Mnih, V. et al. In Proc. 33rd International Conference on Machine Learning 1928–1937 (PMLR, 2016).
14. Dabney, W., Rowland, M., Bellemare, M. G. & Munos, R. In 32nd AAAI Conference on Artificial Intelligence (AAAI, 2018)

1. エージェントは方策に基づ
き行動を決定
2. エージェントは行動をゲー
ムに送る
3. エージェントは次状態を
ゲームから受け取る
4. エージェントは報酬を計算
し、状態、行動、報酬の組
(𝑠𝑡, 𝑎𝑡, 𝑠𝑡+1, 𝑟𝑡+1)をTrainarに
送る
5. TrainarはそれをERBに格納
6. 一定ステップごとにQ関数
と方策関数を更新し、1へ
学習プロセス 8
1
2 3
4
5
図1 学習プロセス

9
観測値と行動
3次元速度
3次元角加速度
3次元加速度
各タイヤの荷重
タイヤのスリップ角
コース上のスカラー進行(sin成分とcos成分で表現)
コース表面の傾斜
コース中心線に対する車両の向き
先のコースを記述する(左、中央、右)コース点
車両接触フラグ
スリップストリームスカラー
相対重心位置
相対速度
相対加速度
• 前方車用と後方車
用の2つのリスト
• エージェントから
の距離が近い順に
リストに格納
タイムトライアルレース
タイムトライアルの観測値
＋
• 行動
行動値
加速度変更
(加速とブレーキ)
[-1,1]
ステアリング操作 [-1,1]
• 観測値
コースの各辺と中心線に沿って等間隔に
配置された60個の3次元点として符号化
点群の間隔は現在の速度の関数
常に次の6秒間の移動距離
図2 コースセグメント

10
報酬設計
• 報酬－以下の要素を線形結合
報酬表記式
Course progress 𝑅𝑐𝑝
Off-course penalty 𝑅𝑠𝑜𝑐 or
𝑅𝑙𝑜𝑐
Wall penalty 𝑅𝑤
Tyre-slip penalty 𝑅𝑡𝑠
Passing bonus 𝑅𝑝𝑠
Any-collision penalty 𝑅𝑐
Rear-end penalty 𝑅𝑟
Unsporting-collision
penalty
𝑅𝑢𝑐
𝑠𝑙: 中心線距離
𝑠𝑜:累積オフコース時間
𝑠𝑘𝑝ℎ: 速度
𝑠𝑤: 累積の壁との接触時間
𝑠𝑡𝑠𝑟,𝑖: i番目のタイヤのスリップ率
𝑠𝑡𝑠𝜃,𝑖: i番目の前方方向からのスリップ角
𝑠𝐿𝑖
: 相手iまでの投影中心線符号付距離(m)
𝟏𝑏,𝑓: bm以上fm以下にある時の指標となる関数
𝟏>0(𝑠𝑙,𝑖
′
− 𝑠𝑙
′
): 相手iがエージェントより前にいるか
𝑠𝑣: エージェントの速度ベクトル 𝑠𝑣,𝑖: 相手iの速度ベクトル
𝑢 𝑠, 𝑖 : 非スポーツ的衝突
𝑠𝑐,𝑖: エージェントが相手iに衝突したとき1

11
学習時の工夫
1. 対戦相手は過去の実験から集められたエージェント
とゲームに内蔵された(比較的遅い)AIを混合
– ゲームへのRLの応用の多くはself-play(エージェント同士で対決)
– 人間と対決する際の不正確さへの備えが不十分に
– レースには、あるプレイヤーが最適でない選択をすると、他のプ
レイヤーにペナルティが課せられるという特徴
• ゼロサムゲームにはない(例: 囲碁、チェス)
図3 対戦相手によるチームスコアと衝突回数の変化
横軸: 4v4チームスコア
縦軸: 衝突回数
• 内蔵されたAIのみ
• 攻撃的すぎる行動
• 衝突が多い
• 攻撃的な対戦相手
• 消極的な行動
• 衝突は少ない
• 積極性に欠ける走行
• ベースライン
• 積極性と安全性のバランスを取っ
た行動

12
学習時の工夫
2. 特定のスキルを習得するために「ミックスシナリ
オ」を開発
– フルトラックシナリオ＋特殊シナリオ
– 特殊シナリオでは各サーキットで重要なシチュエーションを抽出
– そのシチュエーションを変化(相手の挙動を変化)させたシナリオを
作成
図4 フルトラックシナリオ(上)と特殊シナリオ(下)
図5 シナリオ別チームスコア図6 シナリオ別スキル成功率
Grid start→レース開始前の隊列順位
Slipstream→前走車の後ろを走ることによって
自車にかかる空気抵抗を軽減
chicane→マシンの速度を落とす目的でつくられ
た鋭い角度のS字コーナー

13
学習時の工夫
例) slingshot pass

14
実験設定
• 以下の3種類のトラックを使用
Sarthe
13629m
Maggiore
5809m
Seaside
5209m
図8 実験で使用したトラック

15
実験
• 実験1 タイムトライアルレース
– 世界のトップドライバー3人(各トラックで1人ずつ) vs GT
Sophy
– 人間のドライバーはGT Sophyのゴーストが見えた状態で走
行
– 人間のドライバーはGT Sophyのベストタイムを超えること
を目指す
図9 タイムアタック映像

16
実験
• 実験2 4v4 レース
– 世界トップの人間操縦車4台 vs GT Sophy操縦車4台でレース
– 3つのトラックで1レースずつ
– 予選のベストタイムに基づき奇数(1, 3, 5, 7)または偶数(2, 4,
6, 8)順位でスタート
– 3レースのポイントの合計を競う
RACES TRUCKS CARS LAPS
RACE 1 Dragon Trail Seaside Mercedes AMG GT S ‘15 4
RACE 2 Lago Maggiore GP Porsche 911 RSR(991) ‘17 6
GRAND FINAL the Circuit de la Sarthe Red Bull X2019 Competition 7
RACES 1st 2nd 3rd 4th 5th 6th 7th 8th
RACE 1/2 10 8 6 5 4 3 2 1
GRAND FINAL 20 16 12 10 8 6 4 2
表1 レース、トラック、車両、ラップ数
表2 順位ポイント

17
強化学習設定
ハイパーパラメータ値
隠れ層1 2048
隠れ層2 2048
隠れ層3 2048
隠れ層4 2048
Dropout率 (Policy関数のみ)0.1
活性化関数 ReLU
最適化関数 Adam
学習率 Q関数: 5 × 10−5
Policy関数: 2.5 × 10−5
SACエントロピー温度 0.01
ミニバッチサイズ 1024
バッファサイズ 107
1epoch 6000step
• 1step: 10hz(100ms)
• 1エピソード: 150秒
• 学習終了条件: コンマ数秒でラップタイムが上がらなくなる
表3 各パラメータ設定

18
強化学習設定
• 報酬の各要素の重み
表4 トラックごとの各報酬要素の重み

19
学習設定
• 訓練シナリオ
– 1v0 ,1v1, 1v2, 1v3, 1v7
– コース位置、初期速度、車間距離、対戦相手のポリシーを
ランダム
– タイムトライアル: 10台のPS4で学習
– レース: 21台のPS4で学習
図10 訓練シナリオ(Sartheの例)

20
訓練結果
人間のドライバーのベストタイムのヒストグラム
• GT Sophyの100試行のタイムのヒストグラム
• 番号は人間のトップ5のベストタイム
Maggiore Seaside
Sarthe

21
実験1 結果
• 3つのトラック全てにおいてGT Sophyは世界トップの
3人の人間のドライバーよりもタイムが速かった
勝敗人間 - GT Sophy win!
表5 トラックごとの各ドライバーのタイムトライアルの結果

22
実験2 結果
• 凡例は最終順位とポイント
• グラフの急激な減少は以下を表す
1. コントロールを失った
2. コースアウト
3. ペナルティを受けた
• GT Sophyは3レースともに1, 2位を独占
• グラフよりGT Sophyが少しでもリード
すると人間のドライバーはそれ以降追
い越せないことが確認
最終ポイント人間 52 - GT Sophy 104 win!
図12 各トラックでのレース展開
横軸: レース時間
縦軸: 先頭車両との時間差

23
実験2 結果
人間のドライバー GT Sophy
https://www.youtube.com/watch?v=HOtvZQZJJ5M&t=885s

24
まとめ
• 自動車レースのシミュレーションでGT Sophyは人間のプロを超
えるレース技術を獲得
– 自動車レースのシミュレーションはリアルで複雑な物理的環境で
リアルタイムかつ継続的な制御が要求される領域
• この成功は様々な車種やコースで人間のトップレーサーを凌駕
するAIエージェントが育成可能であることを示した
– これが初の成功
• GT Sophyはレースゲームをより楽しくし、プロドライバーの育
成に使用され、更には新たなレース技術を発見する可能性を持
つ
• この環境における深層強化学習の成功は、ロボット工学、ド
ローン、自律走行車などに影響を与える可能性を示唆

Outracing champion Gran Turismo drivers with deep reinforcement learning

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à Outracing champion Gran Turismo drivers with deep reinforcement learning

Similaire à Outracing champion Gran Turismo drivers with deep reinforcement learning (20)

Plus de harmonylab

Plus de harmonylab (20)

Outracing champion Gran Turismo drivers with deep reinforcement learning