交差点の交通流におけるシミュレーション環境を用いた深層強化学習に関する研究

Copyright © 2020 調和系⼯学研究室 - 北海道⼤学⼤学院情報科学研究院情報理⼯学部⾨複合情報⼯学分野 – All rights reserved.
交差点の交通流におけるシミュレーション環境
を⽤いた深層強化学習に関する研究
修⼠2年織⽥智⽮
北海道⼤学⼤学院情報科学研究院
情報理⼯学部⾨複合情報⼯学分野調和系⼯学研究室

2
背景
交通渋滞は⼤きな社会問題
各国の1年間の経済損失
• アメリカ合衆国: $166 Billion [1]
• ⽇本 : 12兆円 [2]
• ヨーロッパ : EUR 100 billion [3]
⾃動運転やV2V（⾞々間通信）の普及
• ⽇本政府は2025年に完全⾃動運転を⽬標[4]
• 世界中の会社が⾃動運転技術を開発，実⽤化
• ITS専⽤周波数を活⽤した⾞⾞間通信システム[5]
（CVSS:Connected Vehicles Support Systems）
[1] David Schrank, B.E., Lomax, T.: 2019 urban mobility report (2019), https://static.tti.tamu.edu/tti.tamu.edu/documents/mobility-report-2019.pdf
[2] Performance Management of Road Administration in Japan, https://www.mlit.go.jp/road/management-e/index.html
[3] An official website of the European Union MOBILITY AND TRANSPORT, https://ec.europa.eu/transport/themes/urban/urban_mobility_en
[4] https://www.kantei.go.jp/jp/singi/it2/kettei/pdf/20210615/roadmap. pdf
[5] ⾞⾞間通信システム, TOYOTA, https://toyota.jp/technology/safety/itsconnect/
【ITS Connect】右折時注意喚起
（⾞⾞間通信システム）[5]

3
渋滞の発⽣原因の代表例
• 交通は都市部などの⼀部エリアに集中
• その中の特定箇所の交通容量を超える交通需要が
流⼊すると渋滞が発⽣
• 交差点はそのボトルネックの代表例
交通容量1600 [台/時]
交通容量 700 [台/時]
交通容量1600 [台/時]
交通容量のボトルネック例
交差点に着⽬し交通容量の改善を⽬指す

4
交差点の渋滞改善
渋滞を改善する研究は2種類
• 環境側からのアプローチ（例: 信号制御)
• ⾞を直接制御するアプローチ（例: ⾞間距離制御）
のアプローチには限界
• 例: 信号には⻩⾊，全⽅向⾚の無駄な時間が存在
⾃⽴分散な意思決定で渋滞の改善
交差点の交通容量の改善は難しい
• ⼗字交差点4⽅向，速度⼀定，各最⼤3台の条件で
1677万通りの場合の数
ルールベースではなく強化学習

5
関連研究
交通シミュレーション
• Simulation of Urban Mobility(SUMO) [6]
強化学習
• Advantage Actor-Critic [7]
交通渋滞
• Flow Project [8]
• Emergence of intersection rules [9]
• Maintaining safety on highways [10]
Simulation of Urban Mobility (SUMO)
https://www.eclipse.org/sumo/
[6] P. A. Lopez et al., “Microscopic Traffic Simulation using SUMO,” 2018, [Online]. Available: https://elib.dlr.de/124092/.
[7] Mnih, V…, (2016). Asynchronous Methods for Deep Reinforcement Learning. Proceedings of The 33rd International Conference on Machine Learning
[8] C. Wu, A. Kreidieh, K. Parvate, E. Vinitsky, and A. M. Bayen, “Flow: A Modular Learning Framework for Autonomy in Traffic,” Oct. 2017, [Online].
Available: http://arxiv.org/abs/1710.05465.
[9] A. Pal, J. Philion, Y.-H. Liao, and S. Fidler, “Emergent Road Rules In Multi-Agent Driving Environments,” Nov. 2020, [Online]. Available:
http://arxiv.org/abs/2011.10753.
[10] M. Schutera, N. Goby, D. Neumann, and M. Reischl, “Transfer Learning versus Multi-agent Learning regarding Distributed Decision-Making in
Highway Traffic,” Oct. 2018, [Online]. Available: http://arxiv.org/abs/1810.08515.
Flow project figure eight

6
理想的な⾏動例
• 優先度を変更することにより，交通量が増加する例
– 全台速度⼀定，交差点進⼊→通過に1stepと仮定
4 step
car D
car C
タイミングチャート
Car A Car B Car C
t t + 1 t + 2
Car D
t + 3
Car C Car A Car B
t t + 1 t + 2
Car D
t + 3
静的なルール
理想
car A
car B
静的なルールと理想的な⾏動の⽐較

7
理想的な⾏動例
• 優先度を変更することにより，交通量が増加する例
3 step
理想的な⾏動により，交通容量が増加
car D
car C
タイミングチャート
Car A Car B Car C
t t + 1 t + 2
Car D
t + 3
Car C Car A Car B
t t + 1 t + 2
Car D
t + 3
静的なルール
理想
car A
強化学習対象車
car B

8
Harmo Traffic Simulator
• 運動⽅程式を⽤いてモデル化
• 速度，ステアリング⾓を制御
• ⾞間距離は最適速度模型[11]を
⽤いて決定
• 交差点での⾃⾝の優先度変更
可能
⾞の状態
優先度変更
⾏動
優先度変更⾏動
譲られる
Harmo Traffic Simulator
⾃動運転⾞両を再現した
シミュレータを開発
[11] M. Bando, K. Hasebe, A. Nakayama, A. Shibata, and Y. Sugiyama, Phys.
Rev. E 51, 1035 (1995).
タイミングチャートで⽰した
優先度変更⾏動の獲得

9
強化学習アーキテクチャ
• Advantage Actor-Critic[7]を⽤いた分散強化学習
• 並列にエピソードの軌跡を収集
• ⼀定数エピソードの軌跡を貯め，⽅策関数を更新
パラメータ値
学習ステップ数 8M
学習対象⾞ 1台
並列数 8
バッファサイズ 16K
[7] Mnih, V…, (2016). Asynchronous Methods for Deep Reinforcement Learning. Proceedings of The 33rd International Conference on Machine Learning

10
環境設定
• 南北⽅向に優先道路
• ⾞の⽣成場所を予め設定
優先道路
(優先度 +3)
優先度: 0
優先度: 5 (2+3)
優先度: 4 (1+3)
優先度: 2
優先度: 1
優先度: 3 (0+3)
Spawn points
0.6 m/s
0.6 m/s
0.6 m/s

11
強化学習設定
エピソード設定
• 交差点進⼊前⼀定stepから開始
• 交差点進⼊後観測をすべて0ベクトル
• 全台が交差点通過後エピソード終了
強化学習
対象車
エピソード前
強化学習
対象車
強化学習
対象車
エピソード中エピソード終了

12
強化学習設定
⾏動空間
• 2値: ⾏動なし or 優先度最低
観測空間
• 各⾞先頭3台の状態を相対的に⼊⼒
– ⽅向
– 速度
– 交差点までの距離
報酬
• 常に負の定数
• 強化学習⾏動を取った場合，最⼤4step分の負の報酬
（⾏動してもしなくて良い場合はノイズ）

13
エピソードの割合調査
優先度変更⾏動が有効な初期状態がどの程度存在
するか調査
• 南北⽅向に限定した状況で、譲る⾏動と譲らない⾏動
の 4096×2 通りの⾏動を記録し分析
強化学習⾏動
⾞の状態

14
南北に限定した場合の全通り結果
分析結果
• 変化なし: 2912 / 4096 (71.0%)
• 優先度変更⾏動によって向上: 552 / 4096 (13.5%)
• 優先度変更⾏動によって悪化: 631 / 4096 (15.4%)
step数の差
頻度
⼤部分が0
等しくサンプリングすると不均衡

15
アップサンプリング
事前に優先度変更⾏動によって向上した初期状態を
すべて格納
初期状態 A
初期状態 B
全初期状態
OR
単純アップサンプリングを⽤いて学習
𝑝
𝑝 = サンプリング割合 ∈ [0, 1]
1 − 𝑝
初期状態
事前に作成
重み付きでアップ
サンプリング
選ばれた初期状態
で強化学習実⾏

16
⽐較のためのベースライン
初期状態を⼀様乱数（サンプリング割合0.0）で
強化学習
• 南北⽅向のみの4096通りで実験
評価⽅法
• 予め全通り譲る⾏動・譲らない⾏動の報酬を記録
• Ground truth: 譲る⾏動によって報酬が改善したエピソー
ドにラベル1
• Prediction: 強化学習モデルによって報酬が改善した
エピソードにラベル1
混同⾏列
各種評価指標

17
アップサンプリングの性能評価
ベースラインとアップサンプリングを⽐較
• サンプリング割合:なし, 0.2, 0.3, 0.4と⽐較
各種評価指標とその増減
アップサンプリングにより⼤幅な改善
サンプリング
割合
ラベル Precision 差 Recall 差 F1-score 差
なし 1 0.67 0.00 0.01
0.2 1 0.93 +0.26 0.50 +0.50 0.65 +0.64
0.3 1 0.88 +0.21 0.81 +0.81 0.84 +0.83
0.4 1 0.90 +0.23 0.95 +0.95 0.93 +0.92

18
カウントベースアルゴリズム
アップサンプリングでは場合の数の増加に弱い
改善した初期状態 A
改善した初期状態 B
効果的なエピソード
バケット
過去に1度だけ実⾏済
エピソード: 報酬の辞書
初期状態 1, 報酬: -6.75
初期状態 2, 報酬: -8.20
全初期状態
OR 初期状態 1
① 過去に実⾏があるか確認
(ない場合追加）
② 改善した場合
バケット移動
初期状態 1,報酬: -6.50
全初期状態からの場合
のみ次のステップへ
𝑝
1 − 𝑝
𝑝 = サンプリング割合 ∈ [0, 1]
事前に正解ラベルが不要な対処法を提案

19
カウントベースアルゴリズムの性能評価
カウントベースアルゴリズムの各種指標の⽐較
• サンプリング割合:なし, 0.2, 0.3, 0.4と⽐較
カウントベースアルゴリズムもアップサンプリング同様に
⼤幅な改善
サンプリング
割合
なし 1 0.67 0.00 0.01
0.2 1 0.92 +0.25 0.73 +0.73 0.82 +0.81
0.3 1 0.94 +0.27 0.72 +0.72 0.82 +0.81
0.4 1 0.94 +0.27 0.71 +0.71 0.81 +0.80

20
カウントベースアルゴリズムの性能評価
学習の推移
• 縦軸: 全台が交差点を出るまでの4096通り（全通り）の平均
ステップ数
• 横軸: 強化学習のステップ数
強化学習なし: 全台が静的ルールに従った場合
最適⽅策: 全台が理想的な⽅策で⾏動した場合
アップサンプリングカウントベースアルゴリズム
強化学習なしの
ライン
最適⽅策の
ライン

21
場合の数増加
カウントベースアルゴリズムが4096から場合の
数が増加した場合の性能調査
• 3⽅向最⼤3台 (262,144)
• 4⽅向最⼤3台 (16,777,216)
評価⽅法
• 前回のように全通りは難しい
• 乱数シードを固定し，1万の初期状態をサンプリング
• 予めサンプリングしたエピソードを全通り調査し
正解ラベルを設定

22
サンプリングしたエピソード
サンプリングした1万のエピソードを全通り調査し，
強化学習が有効な数を調査
シードを固定しサンプリングした初期状態の内訳
評価に妥当な数がサンプリングできている

23
3⽅向結果
3⽅向最⼤3台(262,144通り)の設定での実験結果
• サンプリング割合:なし, 0.2, 0.3, 0.4と⽐較
場合の数が増加しても改善
サンプリング
割合
なし 1 0.41 0.00 0.01
0.2 1 0.89 +0.48 0.37 +0.37 0.53 +0.52
0.3 1 0.93 +0.52 0.23 +0.23 0.37 +0.36
0.4 1 0.90 +0.49 0.19 +0.19 0.31 +0.30

24
4⽅向結果
4⽅向最⼤3台(16,777,216通り)の設定での実験結果
• サンプリング割合:なし, 0.2, 0.3, 0.4と⽐較
サンプリング割合が増えるに従って改善
サンプリング
割合
なし 1 0.28 0.01 0.02
0.2 1 0.18 -0.10 0.01 0.00 0.01 -0.01
0.3 1 0.69 +0.41 0.06 +0.05 0.11 +0.09
0.4 1 0.91 +0.63 0.45 +0.44 0.60 +0.58

25
場合の数の増加学習の推移
学習の推移
• 縦軸: サンプリングした1万のエピソードの平均ステップ数
• 横軸: 強化学習のステップ数
強化学習なし: 全台が静的ルールに従った場合
最適⽅策: 全台が理想的な⽅策で⾏動した場合
強化学習なしの
ライン
最適⽅策の
ライン
3⽅向 4⽅向

本研究の社会実装への問題点
• ⾞同⼠の通信
• ⾃動運転⾞両の普及
• 本研究のシミュレータで再現できていない部分
26
実社会への応⽤可能性
• : 既にITS Connectなど社会
実装が進んでおり実現可能
• : より現実に近い環境で学習・
評価によって実現可能
FURUNO ⾞々間通信製品
https://www.furuno.com/jp/gnss/case/furuno04
社会実装へ向けての次のステップ:
現実に近い環境での検証が必要

27
結論
• ⾃動運転を再現した優先度が変更可能なシミュレータ
を開発
• 観測するエピソードが不均衡な場合に効果的な
カウントベースアルゴリズムを提案
• タイミングチャートの譲り合い⾏動が，現実の交通の
特徴を捉えた表現であることを⽰した
• 優先度変更⾏動を⾞々間通信することにより
交通容量の増加可能性を⽰した

28
研究業績
国際学会（査読あり⼝頭発表）(2件)
• Tomoya Oda, Soichiro Yokoyama, Tomohisa Yamashita, Hidenori Kawamura, Takayuki Wara-
bino, Tomohiko Ogishi and Hideaki Tanaka, Deep Reinforcement Learning for Smooth Traffic
Flow at An Intersection, 26th International Symposium on Artificial Life and Robotics (AROB
26th 2021), Online
• Tomoya Oda, Soichiro Yokoyama, Tomohisa Yamashita, Hidenori Kawamura, Takayuki Wara-
bino, Tomohiko Ogishi and Hideaki Tanaka, Development of a Traffic-Simulation Environment
Using RC Cars, Frontiers of Multi-Agent Systems (FMAS2020), Online
国内学会（査読なし⼝頭発表）(1件）
• 織⽥智⽮, 横⼭想⼀郎, ⼭下倫央, 川村秀憲, 蕨野貴之, ⼤岸智彦, ⽥中英明, RC カーを⽤いた⾃
動運転⾞両シミュレーション環境の構築, 第20回複雑系マイクロシンポジウム, 06, オンライ
ン (2021)
発表予定（1件）
国内学会（査読なし⼝頭発表）
• 織⽥智⽮, 横⼭想⼀郎, ⼭下倫央, 川村秀憲(北海道⼤学), 蕨野貴之, ⼤岸智彦, ⽥中英明(KDDI
総合研究所), RCカーを⽤いた⾃動運転⾞両シミュレーション環境に関する研究,社会システ
ムと情報技術研究ウィーク(WSSIT), 虻⽥郡留寿都村(2022)
受賞（1件）
• 優秀プレゼンテーション賞（第20回複雑系マイクロシンポジウム）

交差点の交通流におけるシミュレーション環境を用いた深層強化学習に関する研究

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à 交差点の交通流におけるシミュレーション環境を用いた深層強化学習に関する研究

Similaire à 交差点の交通流におけるシミュレーション環境を用いた深層強化学習に関する研究 (20)

Plus de harmonylab

Plus de harmonylab (20)