SlideShare une entreprise Scribd logo
1  sur  24
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Outracing champion Gran Turismo drivers
with deep reinforcement learning
2022/09/12(月)
北海道大学 大学院情報科学研究院
情報理工学部門 複合情報工学分野 調和系工学研究室
M1 清水雅之
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
2
論文情報
• タイトル
– Outracing champion Gran Turismo drivers with deep
reinforcement learning
• 著者
– Peter R. Wurman, Samuel Barrett , Kenta Kawamoto, James MacGlashan, Kaushik
Subramanian, Thomas J. Walsh, Roberto Capobianco , Alisa Devlic, Franziska Eckert,
Florian Fuchs, Leilani Gilpin, Piyush Khandelwal, Varun Kompella, HaoChih Lin, Patrick
MacAlpine, Declan Oller, Takuma Seno, Craig Sherstan, Michael D. Thomure, Houmehr
Aghabozorgi, Leon Barrett, Rory Douglas, Dion Whitehead, Peter Dürr, Peter Stone,
Michael Spranger & Hiroaki Kitano
• 発表
– Nature(2021)
• 論文URL
– https://www.nature.com/articles/s41586-021-04357-7
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
3
概要
• PlayStation4(PS4)用ゲームソフトGran Turismo (GT) Sportを用い
て深層強化学習エージェントと人間のプロが対決
– 実際のレースカーの非線形制御の課題を忠実に再現
• 最先端のモデルフリーの深層強化学習アルゴリズム+ミックス
シナリオ
– 卓越したスピードと優れた戦術を組み合わせた統合制御方策を学習
– スポーツマンシップを守りつつ競争力のある報酬関数を構築
• 本論文のエージェント、Gran Turismo Sophy(GT Sophy)は世界
最高のGTのドライバー4人と直接対決の末、勝利
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
4
背景
• 深層強化学習(DRL)はAtari, Go, StarCraft, Dotaといった分野でAI
の進歩のカギとなる要素
• DRLがロボット工学などに影響を与えるには複雑な物理システ
ムでの成功が必要
• ロボット工学の多くのアプリケーションでは、人間の規範を正
確に規定することなく人間と近い距離で対話する必要あり
– 自動車レースは、その一例となる分野
– 複雑で非線形なダイナミクスを持つ車両を、相手と数インチの距
離でリアルタイムに制御
– 現実的なシミュレーションが可能であり機械学習的なアプローチ
による実験が可能
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
5
関連研究
• 近年は実際のサイズ、スケール、シミュレーションを活用した自律走
行レースの研究が盛ん
• 一般的には、事前に軌道を計算[1,2]し、モデル予測制御を用いて軌道
を実行[3,4]
– わずかなモデリングエラーが致命的になることも
– ドライバーの数が増えるとモデリング精度に対する要求は更に増加
• モデリング上の複雑さを回避するために機械学習を用いた様々な方法
を模索
– 教師あり学習を使った車両ダイナミクスのモデル化[5,6,7]、模倣学習[8]、進化的アプ
ローチ[9]、強化学習[10]
• いくつかの研究では、単独走行で人間を凌駕したり、単純な追い越し
シナリオに進展
• しかし、最高レベルのレースに取り組んだものはない
1. Theodosis, P. A. & Gerdes, J. C. In Dynamic Systems and Control ConferenceVol. 45295, 235–241 (American Society of Mechanical Engineers, 2012).
2. Funke, J. et al. In 2012 IEEE Intelligent Vehicles Symposium 541–547 (IEEE, 2012).
3. Laurense, V. A., Goh, J. Y. & Gerdes, J. C. In 2017 American Control Conference (ACC) 5586–5591 (IEEE, 2017).
4. . Kritayakirana, K. & Gerdes, J. C. Autonomous vehicle control at the limits of handling. Int. J. Veh. Auton. Syst. 10, 271–296 (2012).
5. Spielberg, N. A., Brown, M., Kapania, N. R., Kegelman, J. C. & Gerdes, J. C. Neural network vehicle models for high-performance automated driving. Sci. Robot. 4, eaaw1975 (2019).
6. Williams, G., Drews, P., Goldfain, B., Rehg, J. M. & Theodorou, E. A. Information-theoretic model predictive control: theory and applications to autonomous driving. IEEE Trans. Robot. 34, 1603–1622 (2018).
7. Rutherford, S. J. & Cole, D. J. Modelling nonlinear vehicle dynamics with neural networks. Int. J. Veh. Des. 53, 260–287 (2010).
8. Pomerleau, D. A. In Robot Learning (eds Connell, J. H. & Mahadevan, S.) 19–43 (Springer, 1993).
9. Togelius, J. & Lucas, S. M. In 2006 IEEE International Conference on Evolutionary Computation 1187–1194 (IEEE, 2006).
10. Pyeatt, L. D. & Howe, A. E. Learning to race: experiments with a simulated race car. In Proc. Eleventh International FLAIRS Conference 357–361 (AAAI, 1998).
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
6
レーサーに必要な能力
1. 車両のコントロール
– 自分のマシンのダイナミクスとレースの舞台となるコースの特性
を詳細に理解
2. レース戦術
– 追い越しや防御のための戦術的なスキル
– わずかな誤差もせず高速で正確な操作
3. レースのマナー
– スポーツマンシップに則った緻密なルール
4. レース戦略
– いつ、どのようにパスを試みるかを決定
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
7
提案手法
• チャンピオンレベルのレーシングエージェント、
Gran Turismo Sophy(GT Sophy)を構築
– モデルフリー、オフポリシー深層強化学習アルゴリズムQR-SACを
開発
• SAC[11,12]をN-step報酬[13]を扱うように修正
• 将来の報酬の期待値をそれらの報酬の確率分布[14]で表現
– PlayStation4(PS4)用ゲームソフトGran Turismo (GT) Sport
(https://www.gran-turismo.com/us/ )において人間のトップドライ
バーと渡り合うために開発
11. Haarnoja, T., Zhou, A., Abbeel, P. & Levine, S. In Proc. 35th International Conference on Machine Learning 1856–1865 (PMLR, 2018).
12. Haarnoja, T. et al. Soft actor-critic algorithms and applications. Preprint at https://arxiv. org/abs/1812.05905 (2018).
13. Mnih, V. et al. In Proc. 33rd International Conference on Machine Learning 1928–1937 (PMLR, 2016).
14. Dabney, W., Rowland, M., Bellemare, M. G. & Munos, R. In 32nd AAAI Conference on Artificial Intelligence (AAAI, 2018)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
1. エージェントは方策に基づ
き行動を決定
2. エージェントは行動をゲー
ムに送る
3. エージェントは次状態を
ゲームから受け取る
4. エージェントは報酬を計算
し、状態、行動、報酬の組
(𝑠𝑡, 𝑎𝑡, 𝑠𝑡+1, 𝑟𝑡+1)をTrainarに
送る
5. TrainarはそれをERBに格納
6. 一定ステップごとにQ関数
と方策関数を更新し、1へ
学習プロセス 8
1
2 3
4
5
図1 学習プロセス
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
9
観測値と行動
3次元速度
3次元角加速度
3次元加速度
各タイヤの荷重
タイヤのスリップ角
コース上のスカラー進行(sin成分とcos成分で表現)
コース表面の傾斜
コース中心線に対する車両の向き
先のコースを記述する(左、中央、右)コース点
車両接触フラグ
スリップストリームスカラー
相対重心位置
相対速度
相対加速度
• 前方車用と後方車
用の2つのリスト
• エージェントから
の距離が近い順に
リストに格納
タイムトライアル レース
タイムトライアルの観測値
+
• 行動
行動 値
加速度変更
(加速とブレーキ)
[-1,1]
ステアリング操作 [-1,1]
• 観測値
コースの各辺と中心線に沿って等間隔に
配置された60個の3次元点として符号化
点群の間隔は現在の速度の関数
常に次の6秒間の移動距離
図2 コースセグメント
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
10
報酬設計
• 報酬-以下の要素を線形結合
報酬 表記 式
Course progress 𝑅𝑐𝑝
Off-course penalty 𝑅𝑠𝑜𝑐 or
𝑅𝑙𝑜𝑐
Wall penalty 𝑅𝑤
Tyre-slip penalty 𝑅𝑡𝑠
Passing bonus 𝑅𝑝𝑠
Any-collision penalty 𝑅𝑐
Rear-end penalty 𝑅𝑟
Unsporting-collision
penalty
𝑅𝑢𝑐
𝑠𝑙: 中心線距離
𝑠𝑜:累積オフコース時間
𝑠𝑘𝑝ℎ: 速度
𝑠𝑤: 累積の壁との接触時間
𝑠𝑡𝑠𝑟,𝑖: i番目のタイヤのスリップ率
𝑠𝑡𝑠𝜃,𝑖: i番目の前方方向からのスリップ角
𝑠𝐿𝑖
: 相手iまでの投影中心線符号付距離(m)
𝟏𝑏,𝑓: bm以上fm以下にある時の指標となる関数
𝟏>0(𝑠𝑙,𝑖
′
− 𝑠𝑙
′
): 相手iがエージェントより前にいるか
𝑠𝑣: エージェントの速度ベクトル 𝑠𝑣,𝑖: 相手iの速度ベクトル
𝑢 𝑠, 𝑖 : 非スポーツ的衝突
𝑠𝑐,𝑖: エージェントが相手iに衝突したとき1
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
11
学習時の工夫
1. 対戦相手は過去の実験から集められたエージェント
とゲームに内蔵された(比較的遅い)AIを混合
– ゲームへのRLの応用の多くはself-play(エージェント同士で対決)
– 人間と対決する際の不正確さへの備えが不十分に
– レースには、あるプレイヤーが最適でない選択をすると、他のプ
レイヤーにペナルティが課せられるという特徴
• ゼロサムゲームにはない(例: 囲碁、チェス)
図3 対戦相手によるチームスコアと衝突回数の変化
横軸: 4v4チームスコア
縦軸: 衝突回数
• 内蔵されたAIのみ
• 攻撃的すぎる行動
• 衝突が多い
• 攻撃的な対戦相手
• 消極的な行動
• 衝突は少ない
• 積極性に欠ける走行
• ベースライン
• 積極性と安全性のバランスを取っ
た行動
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
12
学習時の工夫
2. 特定のスキルを習得するために「ミックスシナリ
オ」を開発
– フルトラックシナリオ+特殊シナリオ
– 特殊シナリオでは各サーキットで重要なシチュエーションを抽出
– そのシチュエーションを変化(相手の挙動を変化)させたシナリオを
作成
図4 フルトラックシナリオ(上)と特殊シナリオ(下)
図5 シナリオ別チームスコア 図6 シナリオ別スキル成功率
Grid start→レース開始前の隊列順位
Slipstream→前走車の後ろを走ることによって
自車にかかる空気抵抗を軽減
chicane→マシンの速度を落とす目的でつくられ
た鋭い角度のS字コーナー
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
13
学習時の工夫
例) slingshot pass
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
14
実験設定
• 以下の3種類のトラックを使用
Sarthe
13629m
Maggiore
5809m
Seaside
5209m
図8 実験で使用したトラック
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
15
実験
• 実験1 タイムトライアルレース
– 世界のトップドライバー3人(各トラックで1人ずつ) vs GT
Sophy
– 人間のドライバーはGT Sophyのゴーストが見えた状態で走
行
– 人間のドライバーはGT Sophyのベストタイムを超えること
を目指す
図9 タイムアタック映像
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
16
実験
• 実験2 4v4 レース
– 世界トップの人間操縦車4台 vs GT Sophy操縦車4台でレース
– 3つのトラックで1レースずつ
– 予選のベストタイムに基づき奇数(1, 3, 5, 7)または偶数(2, 4,
6, 8)順位でスタート
– 3レースのポイントの合計を競う
RACES TRUCKS CARS LAPS
RACE 1 Dragon Trail Seaside Mercedes AMG GT S ‘15 4
RACE 2 Lago Maggiore GP Porsche 911 RSR(991) ‘17 6
GRAND FINAL the Circuit de la Sarthe Red Bull X2019 Competition 7
RACES 1st 2nd 3rd 4th 5th 6th 7th 8th
RACE 1/2 10 8 6 5 4 3 2 1
GRAND FINAL 20 16 12 10 8 6 4 2
表1 レース、トラック、車両、ラップ数
表2 順位ポイント
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
17
強化学習設定
ハイパーパラメータ 値
隠れ層1 2048
隠れ層2 2048
隠れ層3 2048
隠れ層4 2048
Dropout率 (Policy関数のみ)0.1
活性化関数 ReLU
最適化関数 Adam
学習率 Q関数: 5 × 10−5
Policy関数: 2.5 × 10−5
SACエントロピー温度 0.01
ミニバッチサイズ 1024
バッファサイズ 107
1epoch 6000step
• 1step: 10hz(100ms)
• 1エピソード: 150秒
• 学習終了条件: コンマ数秒でラップタイムが上がらなくなる
表3 各パラメータ設定
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
18
強化学習設定
• 報酬の各要素の重み
表4 トラックごとの各報酬要素の重み
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
19
学習設定
• 訓練シナリオ
– 1v0 ,1v1, 1v2, 1v3, 1v7
– コース位置、初期速度、車間距離、対戦相手のポリシーを
ランダム
– タイムトライアル: 10台のPS4で学習
– レース: 21台のPS4で学習
図10 訓練シナリオ(Sartheの例)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
20
訓練結果
人間のドライバーのベストタイムのヒストグラム
• GT Sophyの100試行のタイムのヒストグラム
• 番号は人間のトップ5のベストタイム
Maggiore Seaside
Sarthe
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
21
実験1 結果
• 3つのトラック全てにおいてGT Sophyは世界トップの
3人の人間のドライバーよりもタイムが速かった
勝敗 人間 - GT Sophy win!
表5 トラックごとの各ドライバーのタイムトライアルの結果
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
22
実験2 結果
• 凡例は最終順位とポイント
• グラフの急激な減少は以下を表す
1. コントロールを失った
2. コースアウト
3. ペナルティを受けた
• GT Sophyは3レースともに1, 2位を独占
• グラフよりGT Sophyが少しでもリード
すると人間のドライバーはそれ以降追
い越せないことが確認
最終ポイント 人間 52 - GT Sophy 104 win!
図12 各トラックでのレース展開
横軸: レース時間
縦軸: 先頭車両との時間差
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
23
実験2 結果
人間のドライバー GT Sophy
https://www.youtube.com/watch?v=HOtvZQZJJ5M&t=885s
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
24
まとめ
• 自動車レースのシミュレーションでGT Sophyは人間のプロを超
えるレース技術を獲得
– 自動車レースのシミュレーションはリアルで複雑な物理的環境で
リアルタイムかつ継続的な制御が要求される領域
• この成功は様々な車種やコースで人間のトップレーサーを凌駕
するAIエージェントが育成可能であることを示した
– これが初の成功
• GT Sophyはレースゲームをより楽しくし、プロドライバーの育
成に使用され、更には新たなレース技術を発見する可能性を持
つ
• この環境における深層強化学習の成功は、ロボット工学、ド
ローン、自律走行車などに影響を与える可能性を示唆

Contenu connexe

Tendances

【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展Deep Learning JP
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs Deep Learning JP
 
機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018Takahiro Kubo
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用Yasunori Ozaki
 
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs	(gMLP)[DL輪読会]Pay Attention to MLPs	(gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)Deep Learning JP
 
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論Taiji Suzuki
 
時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証Masaharu Kinoshita
 
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けてSSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けてSSII
 
Semi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learningSemi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learningYusuke Uchida
 
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
[DL輪読会]EfficientDet: Scalable and Efficient Object DetectionDeep Learning JP
 
【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral Cloning【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral CloningDeep Learning JP
 
最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925小川 雄太郎
 
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太Preferred Networks
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Yoshitaka Ushiku
 
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展Deep Learning JP
 
Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査Kazuyuki Miyazawa
 
[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement LearningDeep Learning JP
 
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action DiffusionDeep Learning JP
 
[DL輪読会] Residual Attention Network for Image Classification
[DL輪読会] Residual Attention Network for Image Classification[DL輪読会] Residual Attention Network for Image Classification
[DL輪読会] Residual Attention Network for Image ClassificationDeep Learning JP
 
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII
 

Tendances (20)

【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
 
機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
 
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs	(gMLP)[DL輪読会]Pay Attention to MLPs	(gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)
 
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
 
時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証
 
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けてSSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
 
Semi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learningSemi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learning
 
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
 
【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral Cloning【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral Cloning
 
最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925
 
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
 
Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査
 
[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning
 
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
 
[DL輪読会] Residual Attention Network for Image Classification
[DL輪読会] Residual Attention Network for Image Classification[DL輪読会] Residual Attention Network for Image Classification
[DL輪読会] Residual Attention Network for Image Classification
 
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
 

Similaire à Outracing champion Gran Turismo drivers with deep reinforcement learning

マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究harmonylab
 
深層強化学習による自動運転車両の経路探索に関する研究
深層強化学習による自動運転車両の経路探索に関する研究深層強化学習による自動運転車両の経路探索に関する研究
深層強化学習による自動運転車両の経路探索に関する研究harmonylab
 
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...harmonylab
 
交差点の交通流におけるシミュレーション環境 を用いた深層強化学習に関する研究
 交差点の交通流におけるシミュレーション環境   を用いた深層強化学習に関する研究 交差点の交通流におけるシミュレーション環境   を用いた深層強化学習に関する研究
交差点の交通流におけるシミュレーション環境 を用いた深層強化学習に関する研究harmonylab
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究harmonylab
 
深層強化学習による自動運転車両の追い越し行動の実現に関する研究
深層強化学習による自動運転車両の追い越し行動の実現に関する研究深層強化学習による自動運転車両の追い越し行動の実現に関する研究
深層強化学習による自動運転車両の追い越し行動の実現に関する研究harmonylab
 
SIGSPATIAL 2020 参加報告資料
SIGSPATIAL 2020 参加報告資料SIGSPATIAL 2020 参加報告資料
SIGSPATIAL 2020 参加報告資料Tomoki Saito
 
RCカーを用いた自動運転車両シミュレーション環境に関する研究
RCカーを用いた自動運転車両シミュレーション環境に関する研究RCカーを用いた自動運転車両シミュレーション環境に関する研究
RCカーを用いた自動運転車両シミュレーション環境に関する研究harmonylab
 
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face RecognitionArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face Recognitionharmonylab
 
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...harmonylab
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...harmonylab
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究harmonylab
 
アプリケーションの性能最適化の実例1
アプリケーションの性能最適化の実例1 アプリケーションの性能最適化の実例1
アプリケーションの性能最適化の実例1 RCCSRENKEI
 
Towards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly DetectionTowards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detectionharmonylab
 
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-IdentificationFeature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-Identificationharmonylab
 
灯油配送計画の最適化に向けた ヒューリスティクスの開発に関する研究
灯油配送計画の最適化に向けた ヒューリスティクスの開発に関する研究灯油配送計画の最適化に向けた ヒューリスティクスの開発に関する研究
灯油配送計画の最適化に向けた ヒューリスティクスの開発に関する研究harmonylab
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...harmonylab
 
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究harmonylab
 

Similaire à Outracing champion Gran Turismo drivers with deep reinforcement learning (20)

マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 
深層強化学習による自動運転車両の経路探索に関する研究
深層強化学習による自動運転車両の経路探索に関する研究深層強化学習による自動運転車両の経路探索に関する研究
深層強化学習による自動運転車両の経路探索に関する研究
 
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
 
交差点の交通流におけるシミュレーション環境 を用いた深層強化学習に関する研究
 交差点の交通流におけるシミュレーション環境   を用いた深層強化学習に関する研究 交差点の交通流におけるシミュレーション環境   を用いた深層強化学習に関する研究
交差点の交通流におけるシミュレーション環境 を用いた深層強化学習に関する研究
 
修士論文
修士論文修士論文
修士論文
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
深層強化学習による自動運転車両の追い越し行動の実現に関する研究
深層強化学習による自動運転車両の追い越し行動の実現に関する研究深層強化学習による自動運転車両の追い越し行動の実現に関する研究
深層強化学習による自動運転車両の追い越し行動の実現に関する研究
 
SIGSPATIAL 2020 参加報告資料
SIGSPATIAL 2020 参加報告資料SIGSPATIAL 2020 参加報告資料
SIGSPATIAL 2020 参加報告資料
 
RCカーを用いた自動運転車両シミュレーション環境に関する研究
RCカーを用いた自動運転車両シミュレーション環境に関する研究RCカーを用いた自動運転車両シミュレーション環境に関する研究
RCカーを用いた自動運転車両シミュレーション環境に関する研究
 
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face RecognitionArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
 
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
アプリケーションの性能最適化の実例1
アプリケーションの性能最適化の実例1 アプリケーションの性能最適化の実例1
アプリケーションの性能最適化の実例1
 
Towards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly DetectionTowards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detection
 
RAPiD
RAPiDRAPiD
RAPiD
 
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-IdentificationFeature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
 
灯油配送計画の最適化に向けた ヒューリスティクスの開発に関する研究
灯油配送計画の最適化に向けた ヒューリスティクスの開発に関する研究灯油配送計画の最適化に向けた ヒューリスティクスの開発に関する研究
灯油配送計画の最適化に向けた ヒューリスティクスの開発に関する研究
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
 

Plus de harmonylab

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也harmonylab
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究harmonylab
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...harmonylab
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究harmonylab
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究harmonylab
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backboneharmonylab
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Modelsharmonylab
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimationharmonylab
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Modelsharmonylab
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimationharmonylab
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Modelsharmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究harmonylab
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究harmonylab
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究harmonylab
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究harmonylab
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Gridharmonylab
 
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...harmonylab
 
A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...harmonylab
 
深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究harmonylab
 
Emotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANEmotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANharmonylab
 

Plus de harmonylab (20)

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Grid
 
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...
 
A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...
 
深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究
 
Emotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANEmotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GAN
 

Outracing champion Gran Turismo drivers with deep reinforcement learning

  • 1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Outracing champion Gran Turismo drivers with deep reinforcement learning 2022/09/12(月) 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 調和系工学研究室 M1 清水雅之
  • 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 2 論文情報 • タイトル – Outracing champion Gran Turismo drivers with deep reinforcement learning • 著者 – Peter R. Wurman, Samuel Barrett , Kenta Kawamoto, James MacGlashan, Kaushik Subramanian, Thomas J. Walsh, Roberto Capobianco , Alisa Devlic, Franziska Eckert, Florian Fuchs, Leilani Gilpin, Piyush Khandelwal, Varun Kompella, HaoChih Lin, Patrick MacAlpine, Declan Oller, Takuma Seno, Craig Sherstan, Michael D. Thomure, Houmehr Aghabozorgi, Leon Barrett, Rory Douglas, Dion Whitehead, Peter Dürr, Peter Stone, Michael Spranger & Hiroaki Kitano • 発表 – Nature(2021) • 論文URL – https://www.nature.com/articles/s41586-021-04357-7
  • 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 3 概要 • PlayStation4(PS4)用ゲームソフトGran Turismo (GT) Sportを用い て深層強化学習エージェントと人間のプロが対決 – 実際のレースカーの非線形制御の課題を忠実に再現 • 最先端のモデルフリーの深層強化学習アルゴリズム+ミックス シナリオ – 卓越したスピードと優れた戦術を組み合わせた統合制御方策を学習 – スポーツマンシップを守りつつ競争力のある報酬関数を構築 • 本論文のエージェント、Gran Turismo Sophy(GT Sophy)は世界 最高のGTのドライバー4人と直接対決の末、勝利
  • 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 4 背景 • 深層強化学習(DRL)はAtari, Go, StarCraft, Dotaといった分野でAI の進歩のカギとなる要素 • DRLがロボット工学などに影響を与えるには複雑な物理システ ムでの成功が必要 • ロボット工学の多くのアプリケーションでは、人間の規範を正 確に規定することなく人間と近い距離で対話する必要あり – 自動車レースは、その一例となる分野 – 複雑で非線形なダイナミクスを持つ車両を、相手と数インチの距 離でリアルタイムに制御 – 現実的なシミュレーションが可能であり機械学習的なアプローチ による実験が可能
  • 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 5 関連研究 • 近年は実際のサイズ、スケール、シミュレーションを活用した自律走 行レースの研究が盛ん • 一般的には、事前に軌道を計算[1,2]し、モデル予測制御を用いて軌道 を実行[3,4] – わずかなモデリングエラーが致命的になることも – ドライバーの数が増えるとモデリング精度に対する要求は更に増加 • モデリング上の複雑さを回避するために機械学習を用いた様々な方法 を模索 – 教師あり学習を使った車両ダイナミクスのモデル化[5,6,7]、模倣学習[8]、進化的アプ ローチ[9]、強化学習[10] • いくつかの研究では、単独走行で人間を凌駕したり、単純な追い越し シナリオに進展 • しかし、最高レベルのレースに取り組んだものはない 1. Theodosis, P. A. & Gerdes, J. C. In Dynamic Systems and Control ConferenceVol. 45295, 235–241 (American Society of Mechanical Engineers, 2012). 2. Funke, J. et al. In 2012 IEEE Intelligent Vehicles Symposium 541–547 (IEEE, 2012). 3. Laurense, V. A., Goh, J. Y. & Gerdes, J. C. In 2017 American Control Conference (ACC) 5586–5591 (IEEE, 2017). 4. . Kritayakirana, K. & Gerdes, J. C. Autonomous vehicle control at the limits of handling. Int. J. Veh. Auton. Syst. 10, 271–296 (2012). 5. Spielberg, N. A., Brown, M., Kapania, N. R., Kegelman, J. C. & Gerdes, J. C. Neural network vehicle models for high-performance automated driving. Sci. Robot. 4, eaaw1975 (2019). 6. Williams, G., Drews, P., Goldfain, B., Rehg, J. M. & Theodorou, E. A. Information-theoretic model predictive control: theory and applications to autonomous driving. IEEE Trans. Robot. 34, 1603–1622 (2018). 7. Rutherford, S. J. & Cole, D. J. Modelling nonlinear vehicle dynamics with neural networks. Int. J. Veh. Des. 53, 260–287 (2010). 8. Pomerleau, D. A. In Robot Learning (eds Connell, J. H. & Mahadevan, S.) 19–43 (Springer, 1993). 9. Togelius, J. & Lucas, S. M. In 2006 IEEE International Conference on Evolutionary Computation 1187–1194 (IEEE, 2006). 10. Pyeatt, L. D. & Howe, A. E. Learning to race: experiments with a simulated race car. In Proc. Eleventh International FLAIRS Conference 357–361 (AAAI, 1998).
  • 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 6 レーサーに必要な能力 1. 車両のコントロール – 自分のマシンのダイナミクスとレースの舞台となるコースの特性 を詳細に理解 2. レース戦術 – 追い越しや防御のための戦術的なスキル – わずかな誤差もせず高速で正確な操作 3. レースのマナー – スポーツマンシップに則った緻密なルール 4. レース戦略 – いつ、どのようにパスを試みるかを決定
  • 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 7 提案手法 • チャンピオンレベルのレーシングエージェント、 Gran Turismo Sophy(GT Sophy)を構築 – モデルフリー、オフポリシー深層強化学習アルゴリズムQR-SACを 開発 • SAC[11,12]をN-step報酬[13]を扱うように修正 • 将来の報酬の期待値をそれらの報酬の確率分布[14]で表現 – PlayStation4(PS4)用ゲームソフトGran Turismo (GT) Sport (https://www.gran-turismo.com/us/ )において人間のトップドライ バーと渡り合うために開発 11. Haarnoja, T., Zhou, A., Abbeel, P. & Levine, S. In Proc. 35th International Conference on Machine Learning 1856–1865 (PMLR, 2018). 12. Haarnoja, T. et al. Soft actor-critic algorithms and applications. Preprint at https://arxiv. org/abs/1812.05905 (2018). 13. Mnih, V. et al. In Proc. 33rd International Conference on Machine Learning 1928–1937 (PMLR, 2016). 14. Dabney, W., Rowland, M., Bellemare, M. G. & Munos, R. In 32nd AAAI Conference on Artificial Intelligence (AAAI, 2018)
  • 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 1. エージェントは方策に基づ き行動を決定 2. エージェントは行動をゲー ムに送る 3. エージェントは次状態を ゲームから受け取る 4. エージェントは報酬を計算 し、状態、行動、報酬の組 (𝑠𝑡, 𝑎𝑡, 𝑠𝑡+1, 𝑟𝑡+1)をTrainarに 送る 5. TrainarはそれをERBに格納 6. 一定ステップごとにQ関数 と方策関数を更新し、1へ 学習プロセス 8 1 2 3 4 5 図1 学習プロセス
  • 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 9 観測値と行動 3次元速度 3次元角加速度 3次元加速度 各タイヤの荷重 タイヤのスリップ角 コース上のスカラー進行(sin成分とcos成分で表現) コース表面の傾斜 コース中心線に対する車両の向き 先のコースを記述する(左、中央、右)コース点 車両接触フラグ スリップストリームスカラー 相対重心位置 相対速度 相対加速度 • 前方車用と後方車 用の2つのリスト • エージェントから の距離が近い順に リストに格納 タイムトライアル レース タイムトライアルの観測値 + • 行動 行動 値 加速度変更 (加速とブレーキ) [-1,1] ステアリング操作 [-1,1] • 観測値 コースの各辺と中心線に沿って等間隔に 配置された60個の3次元点として符号化 点群の間隔は現在の速度の関数 常に次の6秒間の移動距離 図2 コースセグメント
  • 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 10 報酬設計 • 報酬-以下の要素を線形結合 報酬 表記 式 Course progress 𝑅𝑐𝑝 Off-course penalty 𝑅𝑠𝑜𝑐 or 𝑅𝑙𝑜𝑐 Wall penalty 𝑅𝑤 Tyre-slip penalty 𝑅𝑡𝑠 Passing bonus 𝑅𝑝𝑠 Any-collision penalty 𝑅𝑐 Rear-end penalty 𝑅𝑟 Unsporting-collision penalty 𝑅𝑢𝑐 𝑠𝑙: 中心線距離 𝑠𝑜:累積オフコース時間 𝑠𝑘𝑝ℎ: 速度 𝑠𝑤: 累積の壁との接触時間 𝑠𝑡𝑠𝑟,𝑖: i番目のタイヤのスリップ率 𝑠𝑡𝑠𝜃,𝑖: i番目の前方方向からのスリップ角 𝑠𝐿𝑖 : 相手iまでの投影中心線符号付距離(m) 𝟏𝑏,𝑓: bm以上fm以下にある時の指標となる関数 𝟏>0(𝑠𝑙,𝑖 ′ − 𝑠𝑙 ′ ): 相手iがエージェントより前にいるか 𝑠𝑣: エージェントの速度ベクトル 𝑠𝑣,𝑖: 相手iの速度ベクトル 𝑢 𝑠, 𝑖 : 非スポーツ的衝突 𝑠𝑐,𝑖: エージェントが相手iに衝突したとき1
  • 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 11 学習時の工夫 1. 対戦相手は過去の実験から集められたエージェント とゲームに内蔵された(比較的遅い)AIを混合 – ゲームへのRLの応用の多くはself-play(エージェント同士で対決) – 人間と対決する際の不正確さへの備えが不十分に – レースには、あるプレイヤーが最適でない選択をすると、他のプ レイヤーにペナルティが課せられるという特徴 • ゼロサムゲームにはない(例: 囲碁、チェス) 図3 対戦相手によるチームスコアと衝突回数の変化 横軸: 4v4チームスコア 縦軸: 衝突回数 • 内蔵されたAIのみ • 攻撃的すぎる行動 • 衝突が多い • 攻撃的な対戦相手 • 消極的な行動 • 衝突は少ない • 積極性に欠ける走行 • ベースライン • 積極性と安全性のバランスを取っ た行動
  • 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 12 学習時の工夫 2. 特定のスキルを習得するために「ミックスシナリ オ」を開発 – フルトラックシナリオ+特殊シナリオ – 特殊シナリオでは各サーキットで重要なシチュエーションを抽出 – そのシチュエーションを変化(相手の挙動を変化)させたシナリオを 作成 図4 フルトラックシナリオ(上)と特殊シナリオ(下) 図5 シナリオ別チームスコア 図6 シナリオ別スキル成功率 Grid start→レース開始前の隊列順位 Slipstream→前走車の後ろを走ることによって 自車にかかる空気抵抗を軽減 chicane→マシンの速度を落とす目的でつくられ た鋭い角度のS字コーナー
  • 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 13 学習時の工夫 例) slingshot pass
  • 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 14 実験設定 • 以下の3種類のトラックを使用 Sarthe 13629m Maggiore 5809m Seaside 5209m 図8 実験で使用したトラック
  • 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 15 実験 • 実験1 タイムトライアルレース – 世界のトップドライバー3人(各トラックで1人ずつ) vs GT Sophy – 人間のドライバーはGT Sophyのゴーストが見えた状態で走 行 – 人間のドライバーはGT Sophyのベストタイムを超えること を目指す 図9 タイムアタック映像
  • 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 16 実験 • 実験2 4v4 レース – 世界トップの人間操縦車4台 vs GT Sophy操縦車4台でレース – 3つのトラックで1レースずつ – 予選のベストタイムに基づき奇数(1, 3, 5, 7)または偶数(2, 4, 6, 8)順位でスタート – 3レースのポイントの合計を競う RACES TRUCKS CARS LAPS RACE 1 Dragon Trail Seaside Mercedes AMG GT S ‘15 4 RACE 2 Lago Maggiore GP Porsche 911 RSR(991) ‘17 6 GRAND FINAL the Circuit de la Sarthe Red Bull X2019 Competition 7 RACES 1st 2nd 3rd 4th 5th 6th 7th 8th RACE 1/2 10 8 6 5 4 3 2 1 GRAND FINAL 20 16 12 10 8 6 4 2 表1 レース、トラック、車両、ラップ数 表2 順位ポイント
  • 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 17 強化学習設定 ハイパーパラメータ 値 隠れ層1 2048 隠れ層2 2048 隠れ層3 2048 隠れ層4 2048 Dropout率 (Policy関数のみ)0.1 活性化関数 ReLU 最適化関数 Adam 学習率 Q関数: 5 × 10−5 Policy関数: 2.5 × 10−5 SACエントロピー温度 0.01 ミニバッチサイズ 1024 バッファサイズ 107 1epoch 6000step • 1step: 10hz(100ms) • 1エピソード: 150秒 • 学習終了条件: コンマ数秒でラップタイムが上がらなくなる 表3 各パラメータ設定
  • 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 18 強化学習設定 • 報酬の各要素の重み 表4 トラックごとの各報酬要素の重み
  • 19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 19 学習設定 • 訓練シナリオ – 1v0 ,1v1, 1v2, 1v3, 1v7 – コース位置、初期速度、車間距離、対戦相手のポリシーを ランダム – タイムトライアル: 10台のPS4で学習 – レース: 21台のPS4で学習 図10 訓練シナリオ(Sartheの例)
  • 20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 20 訓練結果 人間のドライバーのベストタイムのヒストグラム • GT Sophyの100試行のタイムのヒストグラム • 番号は人間のトップ5のベストタイム Maggiore Seaside Sarthe
  • 21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 21 実験1 結果 • 3つのトラック全てにおいてGT Sophyは世界トップの 3人の人間のドライバーよりもタイムが速かった 勝敗 人間 - GT Sophy win! 表5 トラックごとの各ドライバーのタイムトライアルの結果
  • 22. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 22 実験2 結果 • 凡例は最終順位とポイント • グラフの急激な減少は以下を表す 1. コントロールを失った 2. コースアウト 3. ペナルティを受けた • GT Sophyは3レースともに1, 2位を独占 • グラフよりGT Sophyが少しでもリード すると人間のドライバーはそれ以降追 い越せないことが確認 最終ポイント 人間 52 - GT Sophy 104 win! 図12 各トラックでのレース展開 横軸: レース時間 縦軸: 先頭車両との時間差
  • 23. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 23 実験2 結果 人間のドライバー GT Sophy https://www.youtube.com/watch?v=HOtvZQZJJ5M&t=885s
  • 24. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 24 まとめ • 自動車レースのシミュレーションでGT Sophyは人間のプロを超 えるレース技術を獲得 – 自動車レースのシミュレーションはリアルで複雑な物理的環境で リアルタイムかつ継続的な制御が要求される領域 • この成功は様々な車種やコースで人間のトップレーサーを凌駕 するAIエージェントが育成可能であることを示した – これが初の成功 • GT Sophyはレースゲームをより楽しくし、プロドライバーの育 成に使用され、更には新たなレース技術を発見する可能性を持 つ • この環境における深層強化学習の成功は、ロボット工学、ド ローン、自律走行車などに影響を与える可能性を示唆