SlideShare une entreprise Scribd logo
1  sur  32
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Efficient Deep Reinforcement Learning with
Imitative Expert Priors for Autonomous
Driving
2022/07/05(火)
北海道大学 大学院情報科学研究院
情報理工学部門 複合情報工学分野 調和系工学研究室
M1 清水雅之
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
論文情報
• タイトル
– Efficient Deep Reinforcement Learning with Imitative Expert
Priors for Autonomous Driving
• 著者
– Zhiyu Huang, Jingda Wu, Chen Lv
• 発表
– IEEE Transactions on Neural Networks and Learning Systems
2022
• 論文URL
– https://ieeexplore.ieee.org/document/9694460
• Github
– https://github.com/MCZhi/Expert-Prior-RL
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
3
概要・背景
• 深層強化学習(DRL)は人間のような自律走行を実現す
るための有望な方法
• DRLの実際の応用の妨げとなっているのはサンプル
効率の低さと報酬関数の設計の難しさ
• DRLに人間の事前情報を組み込むことで、これらの
問題を解消する新しいフレームワークを提案
• 2つの都市交通シナリオ(無防備左折、環状交差点)で
実験し、既存の手法と比較して最も良い性能を示し
た
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
4
提案手法
• 以下の主要3ステップで構成
1. エキスパートの実演
2. 方策導出
3. RL
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
5
提案手法
• ステップ1 エキスパートの実演
– 人間のエキスパートがタスクを実演し、その動作を状態-行
動の組の系列として符号化
• ステップ2 方策導出
– 実演データをもとに模倣エキスパート方策を導出
• 人間のエキスパートがその状態で実行する行動分布
• 価値関数に不一致ペナルティを加えるか、エージェントの方策との間
の分布の不一致を正則化することで、RLエージェントの学習過程を導
くために適用
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
6
提案手法
• ステップ2 方策導出 (続き)
– 方策導出の際には、(1)方策の不確実性、(2)エキスパートの
方策のモデルの不確実性を推定
① 方策の不確実性
– 同じ状態でも異なる実行可能な行動を取る
– 人間のエキスパートが行動を生成する際の潜在的なランダ
ム性に由来
– 行動に関するパラメトリック確率分布のパラメータを出力
• 行動はガウス分布、𝐚𝑡~𝒩(𝜇𝜃 𝐬𝑡 , 𝜎𝜃
2
(𝐬𝑡))
• 最尤法によりエキスパート方策を学習
𝜇𝜃:予測平均
𝜎𝜃
2
:予測分散
c: 定数
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
7
提案手法
② モデルの不確実性
– 学習データセットに含まれないデータは、予測平均と予測
分散が不確実で信頼できない
– モデルがその行動出力に確信を持っているかを定量化
– 評価指標としてディープアンサンブル法を採用
• 計算効率が良く、実装が簡単
– 異なるランダムな初期化とデータ次数で学習したM個のネッ
トワーク(確率的方策)のアンサンブルを採用
– 全てのネットワーク(𝜃𝑖はi番目のネットワークのパラメータ)
の結果をガウス混合分布に結合
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
8
提案手法
3. RL
– エージェント方策が模倣エキスパート方策に向かうように
正則化できる修正Actor-Criticを提案
– 2つのQネットワーク(𝑄𝜙1
, 𝑄𝜙2
)、価値関数ネットワーク(𝑉𝜓 )、
確率的方策ネットワーク(𝜋𝜃)の4つのネットワークを学習
Qネットワークの更新
i = 1,2
D: リプレイバッファ
𝑉𝑡𝑎𝑟𝑔: 目標値関数
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
9
提案手法
価値関数ネットワークの更新
方策ネットワークの更新
行動は𝐚𝑡~𝜋𝜃(・|𝑠𝑡)からサンプリング
𝑠𝑡はリプレイバッファ参照
学習したエージェント方策 𝜋𝜃をエキスパート方策 𝜋E
に対して正則化するアプローチを追加
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
10
価値ペナルティ
• 報酬関数にペナルティ項を追加
– 𝛼:温度パラメータ
– 𝐷:行動に関する2つの分布間の発散度を測る確率指標
• KLダイバージェンスを選択
ペナルティ項付き価値関数の更新
𝐷𝐾𝐿: KLダイバージェンスの標本推定値
𝜋𝜃(・| 𝑠𝑡):学習した方策
𝜋𝐸
(・| 𝑠𝑡):エキスパート方策
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
11
価値ペナルティ
• 方策ネットワークの更新
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
12
方策制約
• 方策最適化の際に,学習された方策とエキスパート
方策の間の偏差を小さな値で明示的に制約
方策学習の制約付き最適化
𝜖:KLダイバージェンスの許容量
学習された方策がエキスパート方策と近いことを表す
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
13
方策制約
• 手順(𝜃と𝜆に対して勾配降下)
1. 以下の式を解く
2. 制約違反なら𝜆を更新
3. 方策ネットワークを更新
𝜆 ≥ 0
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
14
実験設定
• SMARTSシミュレーションプラットフォームを使用
• 都市走行シナリオは以下の2種類
1. 無保護左折
• 重い交通量の中で信号機による規制なし
• 対面4車線の道路を横断、一番右の車線に到達して幹線道路に左折
• 操作が容易(速度制御中心)
2. 環状交差点
• 衝突回避、渋滞回避のための車線変更などの操作が必要
無保護左折 環状交差点
S
S
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
15
実験設定
• ドライバー設定
– 速度分布、操縦の不完全性、交差点での待ち時間の焦り、協力の
意思をランダムな範囲で選択
• 訓練設定
– 20種類の交通流を生成
– 各エピソード開始時に、初期状態(スポーン場所など)をランダムに
生成
– AMD Ryzen 3900X CPU
– シミュレーション間隔は0.1秒
– 1ステップ:0.1秒
– 1エピソード:無保護左折 40秒
環状交差点 60秒
– 合計100,000ステップ学習
• テスト設定
– 訓練で作成したものとは別に50種類の交通流を生成
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
16
MDPの定式化
• 状態空間
– 自車両を中心とした32m×32mの正方形領域の鳥瞰図画像
• RGB画像
• サイズ:80×80×3
• 検出領域:0.4m/pixel
– 時間ステップt-2,t-1,t(tは現在の
時間ステップ)の3枚の画像を重ねた
ものを使用
• 状態空間の形状:80×80×9
• 行動空間
道路
自車両
周辺車両
縦方向の運動(目標速度𝑉𝑡)
[m/s]
横方向の運動(車線変更𝐿𝑡)
[0,10] [-1,1]に正規化 左車線へ移動 𝐿𝑡 = −1 [-1,-1/3]
車線維持 𝐿𝑡 = 0 [-1/3,1/3]
右車線へ移動 𝐿𝑡 = 1 [1/3,1]
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
17
MDPの定式化
• 報酬関数
– rcollision:衝突した場合-1、それ以外0
– rgoal:ゴール時1、それ以外0
– rspeed:車両の速度
– ベースラインRLアルゴリズムの性能向上
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
18
実装の詳細
• ニューラルネットワークの構造
活性化関数:ReLU
最適化関数:Adam
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
19
ハイパーパラメータ
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
20
エキスパートデモ
• シミュレータ上で人間のエキスパートが都市走行タスクを実行
– 攻撃的、保守的など様々な行動をデモ
• エキスパートデモンストレーションデータとして収集
– 状態は[0,1]に、行動は[-1,1]に正規化
• 1人称視点で走行環境を観察
• 操作可能な行動
1. 縦方向
• スピードアップ(速度を2m/s上げる)
• スローダウン(速度を2m/s下げる)
2. 横方向(デフォルトは現在の車線維持)
• 左車線への変更
• 右車線への変更
• 用意する軌跡の数
– 環状交差点:40個
– 無保護左折
• 攻撃的、保守的ともに40個 エキスパートの視点
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
21
比較ベースライン手法
• SAC
– 最新のオフポリシーRLアルゴリズム
• PPO
– 最新のオンポリシーRLアルゴリズム
• GAIL(Generative adversarial imitation learning)
• Behavioral Cloning(BC)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
22
アンサンブルエキスパート方策モデル
• 5つの単一方策ネットワークを学習
– ネットワーク重みの初期化、データセットのシャッフルに
は異なるランダムシードを使用
• アンサンブルの各ネットワークは100エポック分学習
• エキスパートの行動は離散値であるため、これに小
さな正規分布の乱数を加算
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
23
訓練結果
• ランダムシードを変えて10回試行
• 平均成功率で学習性能を評価
– (過去20回の成功したエピソード数)/20
結果
• 提案手法の性能が最も高い
• SACと比べてサンプル効率約70%↑
• 保守的な行動の学習は攻撃的な行動の学習よ
り難しい
考察
• 保守的な行動
• 十分なギャップを見つけるために停止す
ることが非常に微妙な行動
• いつ横断を開始するかについて曖昧さが
ある
• 攻撃的な行動
• 環境車両は安全要件に反していても自車
両に譲る→これを利用
左折(A)
左折(C)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
24
訓練結果
環状交差点
結果
• 提案手法の成功率が最も高い
• SACと比較してサンプル効率約60%↑
• 方策制約法より価値ペナルティ法の方が有利
考察
• 環境からの報酬フィードバックが疎であり、報酬に追加的なフィードバッ
クを加えることで、行動や状態の価値をより良く推定できる可能性がある
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
25
テスト結果
異なる学習手法のテスト成功率(%)
異なる学習手法のテスト時間(s)
結果
• 提案手法が最もテスト成功率が高
い
• 他の手法と同じ学習ステップ数で
より高いサンプル効率
• SACの行動は攻撃的であるため、
安全性が犠牲に
• 提案手法は安全性と効率性のバラ
ンスを示す人間の専門家や、異な
る運転スタイルから学習可能
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
26
車両の動的状態分析
無保護左折における異なる方策での車両挙動
速度 加速度 曲率
提案手法(A)
提案手法(C)
SAC
低速で交差点通過
交差点で停止
十分なクリアランスを待つ
非常に不安定
安定
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
27
車両の動的状態分析
環状における異なる方策での車両挙動
速度 加速度 曲率
提案手法
SAC
減速して進入 退出時に減速
頻繁な減速
不安定
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
28
模倣エキスパート方策の効果
1. 不確実性の推定
– 以下の3つの方法を比較
1. 提案手法(方策の不確実性+モデルの不確実性)
2. 方策の不確実性のみを考慮したガウス分布方策
3. 不確実性を固定したガウス分布方策
– 単一の政策ネットワークから平均値をとり,分布の標準
偏差を定数とする
2. 訓練サンプル数
– デモのサンプル数を以下の3種類で変化
1. 10個
2. 20個
3. 40個
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
29
模倣エキスパート方策の効果
1. 不確実性の推定
平
均
成
功
率
左折(C)
左折(A) 環状交差点
• 大きな差はなし
• 行動が単純であるため
• 提案手法以外は異なる
試行間でばらつき
• 提案手法は他の2つよ
りも良い結果
異なる手法のテスト成功率(%)
難易度が上がるほど違いが顕著
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
30
模倣エキスパート方策の効果
2. 訓練サンプル数
左折(A) 左折(C) 環状交差点
平
均
成
功
率
• サンプル数が多いほどエキスパート
方策の学習に有効
• 問題の難易度が上がるほど顕著
• 訓練サンプルを増やすことで,RLエー
ジェントの行動を正則化するための行
動分布をより正確に提供できる
異なるサンプル数のテスト成功率(%)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
31
考察
• 提案手法はサンプル効率の低さと、報酬関数の設計
が困難さというRLの問題に対して有効
• しかし、欠点もいくつかある
1. 人間のエキスパートのハイレベルな判断を実証データとし
て用いていること
• 軌道のみが利用可能な実世界のシナリオに対してスケールしない
2. より多くのハイパーパラメータが導入されており、最良の
性能を達成するための調整に時間がかかる
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
32
まとめ
• 人間の事前知識とDRLを組み込んだフレームワーク
を提案し、自律走行シナリオに適用
• 学習結果からベースラインアルゴリズムと比較して、
最高の性能を達成しサンプル効率も大幅に改善
• 学習した運転方針を様々な交通状況下でテストした
結果、最も高い成功率を確認

Contenu connexe

Similaire à Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autonomous Driving

ArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face RecognitionArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face Recognitionharmonylab
 
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究harmonylab
 
Semi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture SearchSemi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture Searchharmonylab
 
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-IdentificationFeature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-Identificationharmonylab
 
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...harmonylab
 
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...harmonylab
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究harmonylab
 
Personalized Fashion Recommendation from Personal Social Media Data An Item t...
Personalized Fashion Recommendation from Personal Social Media Data An Item t...Personalized Fashion Recommendation from Personal Social Media Data An Item t...
Personalized Fashion Recommendation from Personal Social Media Data An Item t...harmonylab
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Gridharmonylab
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究harmonylab
 
深層強化学習による自動運転車両の経路探索に関する研究
深層強化学習による自動運転車両の経路探索に関する研究深層強化学習による自動運転車両の経路探索に関する研究
深層強化学習による自動運転車両の経路探索に関する研究harmonylab
 
交差点の交通流におけるシミュレーション環境 を用いた深層強化学習に関する研究
 交差点の交通流におけるシミュレーション環境   を用いた深層強化学習に関する研究 交差点の交通流におけるシミュレーション環境   を用いた深層強化学習に関する研究
交差点の交通流におけるシミュレーション環境 を用いた深層強化学習に関する研究harmonylab
 
2021 09 29_dl_hirata
2021 09 29_dl_hirata2021 09 29_dl_hirata
2021 09 29_dl_hirataharmonylab
 
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated TextAll That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Textharmonylab
 
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic ArithmeticZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmeticharmonylab
 
Emotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANEmotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANharmonylab
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究harmonylab
 
You Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasksharmonylab
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Modelsharmonylab
 

Similaire à Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autonomous Driving (20)

ArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face RecognitionArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
 
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
 
Semi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture SearchSemi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture Search
 
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-IdentificationFeature Erasing and Diffusion Network for Occluded Person Re-Identification
Feature Erasing and Diffusion Network for Occluded Person Re-Identification
 
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
 
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 
Personalized Fashion Recommendation from Personal Social Media Data An Item t...
Personalized Fashion Recommendation from Personal Social Media Data An Item t...Personalized Fashion Recommendation from Personal Social Media Data An Item t...
Personalized Fashion Recommendation from Personal Social Media Data An Item t...
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Grid
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
深層強化学習による自動運転車両の経路探索に関する研究
深層強化学習による自動運転車両の経路探索に関する研究深層強化学習による自動運転車両の経路探索に関する研究
深層強化学習による自動運転車両の経路探索に関する研究
 
交差点の交通流におけるシミュレーション環境 を用いた深層強化学習に関する研究
 交差点の交通流におけるシミュレーション環境   を用いた深層強化学習に関する研究 交差点の交通流におけるシミュレーション環境   を用いた深層強化学習に関する研究
交差点の交通流におけるシミュレーション環境 を用いた深層強化学習に関する研究
 
2021 09 29_dl_hirata
2021 09 29_dl_hirata2021 09 29_dl_hirata
2021 09 29_dl_hirata
 
RAPiD
RAPiDRAPiD
RAPiD
 
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated TextAll That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
 
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic ArithmeticZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic
 
Emotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GANEmotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GAN
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
You Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple TasksYou Only Learn One Representation: Unified Network for Multiple Tasks
You Only Learn One Representation: Unified Network for Multiple Tasks
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 

Plus de harmonylab

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也harmonylab
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究harmonylab
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...harmonylab
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究harmonylab
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究harmonylab
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backboneharmonylab
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Modelsharmonylab
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimationharmonylab
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Modelsharmonylab
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimationharmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究harmonylab
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究harmonylab
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究harmonylab
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究harmonylab
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...harmonylab
 
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...harmonylab
 
A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...harmonylab
 
Towards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly DetectionTowards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detectionharmonylab
 
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...harmonylab
 
2022年度調和系工学研究室配属説明会資料
2022年度調和系工学研究室配属説明会資料2022年度調和系工学研究室配属説明会資料
2022年度調和系工学研究室配属説明会資料harmonylab
 

Plus de harmonylab (20)

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...
 
A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...
 
Towards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly DetectionTowards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detection
 
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
 
2022年度調和系工学研究室配属説明会資料
2022年度調和系工学研究室配属説明会資料2022年度調和系工学研究室配属説明会資料
2022年度調和系工学研究室配属説明会資料
 

Dernier

業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 

Dernier (8)

業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 

Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autonomous Driving

  • 1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autonomous Driving 2022/07/05(火) 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 調和系工学研究室 M1 清水雅之
  • 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 論文情報 • タイトル – Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autonomous Driving • 著者 – Zhiyu Huang, Jingda Wu, Chen Lv • 発表 – IEEE Transactions on Neural Networks and Learning Systems 2022 • 論文URL – https://ieeexplore.ieee.org/document/9694460 • Github – https://github.com/MCZhi/Expert-Prior-RL
  • 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 3 概要・背景 • 深層強化学習(DRL)は人間のような自律走行を実現す るための有望な方法 • DRLの実際の応用の妨げとなっているのはサンプル 効率の低さと報酬関数の設計の難しさ • DRLに人間の事前情報を組み込むことで、これらの 問題を解消する新しいフレームワークを提案 • 2つの都市交通シナリオ(無防備左折、環状交差点)で 実験し、既存の手法と比較して最も良い性能を示し た
  • 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 4 提案手法 • 以下の主要3ステップで構成 1. エキスパートの実演 2. 方策導出 3. RL
  • 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 5 提案手法 • ステップ1 エキスパートの実演 – 人間のエキスパートがタスクを実演し、その動作を状態-行 動の組の系列として符号化 • ステップ2 方策導出 – 実演データをもとに模倣エキスパート方策を導出 • 人間のエキスパートがその状態で実行する行動分布 • 価値関数に不一致ペナルティを加えるか、エージェントの方策との間 の分布の不一致を正則化することで、RLエージェントの学習過程を導 くために適用
  • 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 6 提案手法 • ステップ2 方策導出 (続き) – 方策導出の際には、(1)方策の不確実性、(2)エキスパートの 方策のモデルの不確実性を推定 ① 方策の不確実性 – 同じ状態でも異なる実行可能な行動を取る – 人間のエキスパートが行動を生成する際の潜在的なランダ ム性に由来 – 行動に関するパラメトリック確率分布のパラメータを出力 • 行動はガウス分布、𝐚𝑡~𝒩(𝜇𝜃 𝐬𝑡 , 𝜎𝜃 2 (𝐬𝑡)) • 最尤法によりエキスパート方策を学習 𝜇𝜃:予測平均 𝜎𝜃 2 :予測分散 c: 定数
  • 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 7 提案手法 ② モデルの不確実性 – 学習データセットに含まれないデータは、予測平均と予測 分散が不確実で信頼できない – モデルがその行動出力に確信を持っているかを定量化 – 評価指標としてディープアンサンブル法を採用 • 計算効率が良く、実装が簡単 – 異なるランダムな初期化とデータ次数で学習したM個のネッ トワーク(確率的方策)のアンサンブルを採用 – 全てのネットワーク(𝜃𝑖はi番目のネットワークのパラメータ) の結果をガウス混合分布に結合
  • 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 8 提案手法 3. RL – エージェント方策が模倣エキスパート方策に向かうように 正則化できる修正Actor-Criticを提案 – 2つのQネットワーク(𝑄𝜙1 , 𝑄𝜙2 )、価値関数ネットワーク(𝑉𝜓 )、 確率的方策ネットワーク(𝜋𝜃)の4つのネットワークを学習 Qネットワークの更新 i = 1,2 D: リプレイバッファ 𝑉𝑡𝑎𝑟𝑔: 目標値関数
  • 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 9 提案手法 価値関数ネットワークの更新 方策ネットワークの更新 行動は𝐚𝑡~𝜋𝜃(・|𝑠𝑡)からサンプリング 𝑠𝑡はリプレイバッファ参照 学習したエージェント方策 𝜋𝜃をエキスパート方策 𝜋E に対して正則化するアプローチを追加
  • 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 10 価値ペナルティ • 報酬関数にペナルティ項を追加 – 𝛼:温度パラメータ – 𝐷:行動に関する2つの分布間の発散度を測る確率指標 • KLダイバージェンスを選択 ペナルティ項付き価値関数の更新 𝐷𝐾𝐿: KLダイバージェンスの標本推定値 𝜋𝜃(・| 𝑠𝑡):学習した方策 𝜋𝐸 (・| 𝑠𝑡):エキスパート方策
  • 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 11 価値ペナルティ • 方策ネットワークの更新
  • 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 12 方策制約 • 方策最適化の際に,学習された方策とエキスパート 方策の間の偏差を小さな値で明示的に制約 方策学習の制約付き最適化 𝜖:KLダイバージェンスの許容量 学習された方策がエキスパート方策と近いことを表す
  • 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 13 方策制約 • 手順(𝜃と𝜆に対して勾配降下) 1. 以下の式を解く 2. 制約違反なら𝜆を更新 3. 方策ネットワークを更新 𝜆 ≥ 0
  • 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 14 実験設定 • SMARTSシミュレーションプラットフォームを使用 • 都市走行シナリオは以下の2種類 1. 無保護左折 • 重い交通量の中で信号機による規制なし • 対面4車線の道路を横断、一番右の車線に到達して幹線道路に左折 • 操作が容易(速度制御中心) 2. 環状交差点 • 衝突回避、渋滞回避のための車線変更などの操作が必要 無保護左折 環状交差点 S S
  • 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 15 実験設定 • ドライバー設定 – 速度分布、操縦の不完全性、交差点での待ち時間の焦り、協力の 意思をランダムな範囲で選択 • 訓練設定 – 20種類の交通流を生成 – 各エピソード開始時に、初期状態(スポーン場所など)をランダムに 生成 – AMD Ryzen 3900X CPU – シミュレーション間隔は0.1秒 – 1ステップ:0.1秒 – 1エピソード:無保護左折 40秒 環状交差点 60秒 – 合計100,000ステップ学習 • テスト設定 – 訓練で作成したものとは別に50種類の交通流を生成
  • 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 16 MDPの定式化 • 状態空間 – 自車両を中心とした32m×32mの正方形領域の鳥瞰図画像 • RGB画像 • サイズ:80×80×3 • 検出領域:0.4m/pixel – 時間ステップt-2,t-1,t(tは現在の 時間ステップ)の3枚の画像を重ねた ものを使用 • 状態空間の形状:80×80×9 • 行動空間 道路 自車両 周辺車両 縦方向の運動(目標速度𝑉𝑡) [m/s] 横方向の運動(車線変更𝐿𝑡) [0,10] [-1,1]に正規化 左車線へ移動 𝐿𝑡 = −1 [-1,-1/3] 車線維持 𝐿𝑡 = 0 [-1/3,1/3] 右車線へ移動 𝐿𝑡 = 1 [1/3,1]
  • 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 17 MDPの定式化 • 報酬関数 – rcollision:衝突した場合-1、それ以外0 – rgoal:ゴール時1、それ以外0 – rspeed:車両の速度 – ベースラインRLアルゴリズムの性能向上
  • 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 18 実装の詳細 • ニューラルネットワークの構造 活性化関数:ReLU 最適化関数:Adam
  • 19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 19 ハイパーパラメータ
  • 20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 20 エキスパートデモ • シミュレータ上で人間のエキスパートが都市走行タスクを実行 – 攻撃的、保守的など様々な行動をデモ • エキスパートデモンストレーションデータとして収集 – 状態は[0,1]に、行動は[-1,1]に正規化 • 1人称視点で走行環境を観察 • 操作可能な行動 1. 縦方向 • スピードアップ(速度を2m/s上げる) • スローダウン(速度を2m/s下げる) 2. 横方向(デフォルトは現在の車線維持) • 左車線への変更 • 右車線への変更 • 用意する軌跡の数 – 環状交差点:40個 – 無保護左折 • 攻撃的、保守的ともに40個 エキスパートの視点
  • 21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 21 比較ベースライン手法 • SAC – 最新のオフポリシーRLアルゴリズム • PPO – 最新のオンポリシーRLアルゴリズム • GAIL(Generative adversarial imitation learning) • Behavioral Cloning(BC)
  • 22. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 22 アンサンブルエキスパート方策モデル • 5つの単一方策ネットワークを学習 – ネットワーク重みの初期化、データセットのシャッフルに は異なるランダムシードを使用 • アンサンブルの各ネットワークは100エポック分学習 • エキスパートの行動は離散値であるため、これに小 さな正規分布の乱数を加算
  • 23. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 23 訓練結果 • ランダムシードを変えて10回試行 • 平均成功率で学習性能を評価 – (過去20回の成功したエピソード数)/20 結果 • 提案手法の性能が最も高い • SACと比べてサンプル効率約70%↑ • 保守的な行動の学習は攻撃的な行動の学習よ り難しい 考察 • 保守的な行動 • 十分なギャップを見つけるために停止す ることが非常に微妙な行動 • いつ横断を開始するかについて曖昧さが ある • 攻撃的な行動 • 環境車両は安全要件に反していても自車 両に譲る→これを利用 左折(A) 左折(C)
  • 24. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 24 訓練結果 環状交差点 結果 • 提案手法の成功率が最も高い • SACと比較してサンプル効率約60%↑ • 方策制約法より価値ペナルティ法の方が有利 考察 • 環境からの報酬フィードバックが疎であり、報酬に追加的なフィードバッ クを加えることで、行動や状態の価値をより良く推定できる可能性がある
  • 25. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 25 テスト結果 異なる学習手法のテスト成功率(%) 異なる学習手法のテスト時間(s) 結果 • 提案手法が最もテスト成功率が高 い • 他の手法と同じ学習ステップ数で より高いサンプル効率 • SACの行動は攻撃的であるため、 安全性が犠牲に • 提案手法は安全性と効率性のバラ ンスを示す人間の専門家や、異な る運転スタイルから学習可能
  • 26. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 26 車両の動的状態分析 無保護左折における異なる方策での車両挙動 速度 加速度 曲率 提案手法(A) 提案手法(C) SAC 低速で交差点通過 交差点で停止 十分なクリアランスを待つ 非常に不安定 安定
  • 27. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 27 車両の動的状態分析 環状における異なる方策での車両挙動 速度 加速度 曲率 提案手法 SAC 減速して進入 退出時に減速 頻繁な減速 不安定
  • 28. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 28 模倣エキスパート方策の効果 1. 不確実性の推定 – 以下の3つの方法を比較 1. 提案手法(方策の不確実性+モデルの不確実性) 2. 方策の不確実性のみを考慮したガウス分布方策 3. 不確実性を固定したガウス分布方策 – 単一の政策ネットワークから平均値をとり,分布の標準 偏差を定数とする 2. 訓練サンプル数 – デモのサンプル数を以下の3種類で変化 1. 10個 2. 20個 3. 40個
  • 29. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 29 模倣エキスパート方策の効果 1. 不確実性の推定 平 均 成 功 率 左折(C) 左折(A) 環状交差点 • 大きな差はなし • 行動が単純であるため • 提案手法以外は異なる 試行間でばらつき • 提案手法は他の2つよ りも良い結果 異なる手法のテスト成功率(%) 難易度が上がるほど違いが顕著
  • 30. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 30 模倣エキスパート方策の効果 2. 訓練サンプル数 左折(A) 左折(C) 環状交差点 平 均 成 功 率 • サンプル数が多いほどエキスパート 方策の学習に有効 • 問題の難易度が上がるほど顕著 • 訓練サンプルを増やすことで,RLエー ジェントの行動を正則化するための行 動分布をより正確に提供できる 異なるサンプル数のテスト成功率(%)
  • 31. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 31 考察 • 提案手法はサンプル効率の低さと、報酬関数の設計 が困難さというRLの問題に対して有効 • しかし、欠点もいくつかある 1. 人間のエキスパートのハイレベルな判断を実証データとし て用いていること • 軌道のみが利用可能な実世界のシナリオに対してスケールしない 2. より多くのハイパーパラメータが導入されており、最良の 性能を達成するための調整に時間がかかる
  • 32. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 32 まとめ • 人間の事前知識とDRLを組み込んだフレームワーク を提案し、自律走行シナリオに適用 • 学習結果からベースラインアルゴリズムと比較して、 最高の性能を達成しサンプル効率も大幅に改善 • 学習した運転方針を様々な交通状況下でテストした 結果、最も高い成功率を確認