Soumettre la recherche
Mettre en ligne
交差点の交通流におけるシミュレーション環境 を用いた深層強化学習に関する研究
•
0 j'aime
•
908 vues
H
harmonylab
Suivre
交差点の交通流におけるシミュレーション環境 を用いた深層強化学習に関する研究
Lire moins
Lire la suite
Sciences
Signaler
Partager
Signaler
Partager
1 sur 28
Télécharger maintenant
Télécharger pour lire hors ligne
Recommandé
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
harmonylab
深層強化学習による自動運転車両の経路探索に関する研究
深層強化学習による自動運転車両の経路探索に関する研究
harmonylab
深層強化学習による自動運転車両の追い越し行動の実現に関する研究
深層強化学習による自動運転車両の追い越し行動の実現に関する研究
harmonylab
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
歩行支援機能を有する前腕支持型四輪歩行器の開発に関する研究
歩行支援機能を有する前腕支持型四輪歩行器の開発に関する研究
harmonylab
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
克海 納谷
報酬設計と逆強化学習
報酬設計と逆強化学習
Yusuke Nakata
Recommandé
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
harmonylab
深層強化学習による自動運転車両の経路探索に関する研究
深層強化学習による自動運転車両の経路探索に関する研究
harmonylab
深層強化学習による自動運転車両の追い越し行動の実現に関する研究
深層強化学習による自動運転車両の追い越し行動の実現に関する研究
harmonylab
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
歩行支援機能を有する前腕支持型四輪歩行器の開発に関する研究
歩行支援機能を有する前腕支持型四輪歩行器の開発に関する研究
harmonylab
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
克海 納谷
報酬設計と逆強化学習
報酬設計と逆強化学習
Yusuke Nakata
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
Deep Learning JP
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
Daichi Kitamura
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
佑 甲野
[DL輪読会]Inverse Constrained Reinforcement Learning
[DL輪読会]Inverse Constrained Reinforcement Learning
Deep Learning JP
Outracing champion Gran Turismo drivers with deep reinforcement learning
Outracing champion Gran Turismo drivers with deep reinforcement learning
harmonylab
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
灯油配送計画の最適化に向けた ヒューリスティクスの開発に関する研究
灯油配送計画の最適化に向けた ヒューリスティクスの開発に関する研究
harmonylab
ICML 2020 最適輸送まとめ
ICML 2020 最適輸送まとめ
ohken
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
佑 甲野
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
Deep Learning JP
最近のDQN
最近のDQN
mooopan
強化学習5章
強化学習5章
hiroki yamaoka
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
Taiji Suzuki
PredCNN: Predictive Learning with Cascade Convolutions
PredCNN: Predictive Learning with Cascade Convolutions
harmonylab
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Yusuke Nakata
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
MIRU2016 チュートリアル
MIRU2016 チュートリアル
Shunsuke Ono
自動運転車のためのDeep Q-Networkを用いた 譲り合いに関する研究
自動運転車のためのDeep Q-Networkを用いた 譲り合いに関する研究
harmonylab
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
harmonylab
修士論文
修士論文
harmonylab
Contenu connexe
Tendances
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
Deep Learning JP
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
Daichi Kitamura
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
佑 甲野
[DL輪読会]Inverse Constrained Reinforcement Learning
[DL輪読会]Inverse Constrained Reinforcement Learning
Deep Learning JP
Outracing champion Gran Turismo drivers with deep reinforcement learning
Outracing champion Gran Turismo drivers with deep reinforcement learning
harmonylab
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
灯油配送計画の最適化に向けた ヒューリスティクスの開発に関する研究
灯油配送計画の最適化に向けた ヒューリスティクスの開発に関する研究
harmonylab
ICML 2020 最適輸送まとめ
ICML 2020 最適輸送まとめ
ohken
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
佑 甲野
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
Deep Learning JP
最近のDQN
最近のDQN
mooopan
強化学習5章
強化学習5章
hiroki yamaoka
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
Taiji Suzuki
PredCNN: Predictive Learning with Cascade Convolutions
PredCNN: Predictive Learning with Cascade Convolutions
harmonylab
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Yusuke Nakata
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
MIRU2016 チュートリアル
MIRU2016 チュートリアル
Shunsuke Ono
自動運転車のためのDeep Q-Networkを用いた 譲り合いに関する研究
自動運転車のためのDeep Q-Networkを用いた 譲り合いに関する研究
harmonylab
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
Tendances
(20)
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
独立低ランク行列分析に基づくブラインド音源分離(Blind source separation based on independent low-rank...
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
[DL輪読会]Inverse Constrained Reinforcement Learning
[DL輪読会]Inverse Constrained Reinforcement Learning
Outracing champion Gran Turismo drivers with deep reinforcement learning
Outracing champion Gran Turismo drivers with deep reinforcement learning
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
灯油配送計画の最適化に向けた ヒューリスティクスの開発に関する研究
灯油配送計画の最適化に向けた ヒューリスティクスの開発に関する研究
ICML 2020 最適輸送まとめ
ICML 2020 最適輸送まとめ
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
最近のDQN
最近のDQN
強化学習5章
強化学習5章
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
PredCNN: Predictive Learning with Cascade Convolutions
PredCNN: Predictive Learning with Cascade Convolutions
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
MIRU2016 チュートリアル
MIRU2016 チュートリアル
自動運転車のためのDeep Q-Networkを用いた 譲り合いに関する研究
自動運転車のためのDeep Q-Networkを用いた 譲り合いに関する研究
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
Similaire à 交差点の交通流におけるシミュレーション環境 を用いた深層強化学習に関する研究
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
harmonylab
修士論文
修士論文
harmonylab
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
harmonylab
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
harmonylab
RAPiD
RAPiD
harmonylab
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
harmonylab
Outfit net fashion outfit recommendation with attention based multiple instan...
Outfit net fashion outfit recommendation with attention based multiple instan...
harmonylab
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
harmonylab
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
harmonylab
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
harmonylab
A Generalist Agent
A Generalist Agent
harmonylab
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
harmonylab
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
harmonylab
Semi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture Search
harmonylab
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
harmonylab
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
harmonylab
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Grid
harmonylab
Self-supervised Learning of Adversarial Example:Towards Good Generalizations...
Self-supervised Learning of Adversarial Example:Towards Good Generalizations...
harmonylab
新たなモビリティサービスの動向
新たなモビリティサービスの動向
Masaki Ito
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
harmonylab
Similaire à 交差点の交通流におけるシミュレーション環境 を用いた深層強化学習に関する研究
(20)
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
修士論文
修士論文
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
RAPiD
RAPiD
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
Outfit net fashion outfit recommendation with attention based multiple instan...
Outfit net fashion outfit recommendation with attention based multiple instan...
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
Fine Grained Fashion Similarity Prediction by Attribute Specific Embedding Le...
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
A Generalist Agent
A Generalist Agent
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
Semi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture Search
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Grid
Self-supervised Learning of Adversarial Example:Towards Good Generalizations...
Self-supervised Learning of Adversarial Example:Towards Good Generalizations...
新たなモビリティサービスの動向
新たなモビリティサービスの動向
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text
Plus de harmonylab
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究 千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究 千坂知也
harmonylab
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
harmonylab
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
harmonylab
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
harmonylab
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
harmonylab
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
harmonylab
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
harmonylab
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
harmonylab
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
harmonylab
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
harmonylab
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
harmonylab
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
harmonylab
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
harmonylab
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
harmonylab
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
harmonylab
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...
harmonylab
A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...
harmonylab
深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究
harmonylab
Emotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GAN
harmonylab
Towards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detection
harmonylab
Plus de harmonylab
(20)
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究 千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究 千坂知也
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on the Generation of Clothing Captions Highlighting the Differences b...
A Study on Clothing Recommendation Information Presentation System Based on C...
A Study on Clothing Recommendation Information Presentation System Based on C...
深層学習を用いたバス乗客画像の属性推定 に関する研究
深層学習を用いたバス乗客画像の属性推定 に関する研究
Emotionally Intelligent Fashion Design Using CNN and GAN
Emotionally Intelligent Fashion Design Using CNN and GAN
Towards Total Recall in Industrial Anomaly Detection
Towards Total Recall in Industrial Anomaly Detection
交差点の交通流におけるシミュレーション環境 を用いた深層強化学習に関する研究
1.
Copyright © 2020
調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 交差点の交通流におけるシミュレーション環境 を⽤いた深層強化学習に関する研究 修⼠2年 織⽥ 智⽮ 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 調和系⼯学研究室
2.
Copyright © 2020
調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 2 背景 交通渋滞は⼤きな社会問題 各国の1年間の経済損失 • アメリカ合衆国: $166 Billion [1] • ⽇本 : 12兆円 [2] • ヨーロッパ : EUR 100 billion [3] ⾃動運転やV2V(⾞々間通信)の普及 • ⽇本政府は2025年に完全⾃動運転を⽬標[4] • 世界中の会社が⾃動運転技術を開発,実⽤化 • ITS専⽤周波数を活⽤した⾞⾞間通信システム[5] (CVSS:Connected Vehicles Support Systems) [1] David Schrank, B.E., Lomax, T.: 2019 urban mobility report (2019), https://static.tti.tamu.edu/tti.tamu.edu/documents/mobility-report-2019.pdf [2] Performance Management of Road Administration in Japan, https://www.mlit.go.jp/road/management-e/index.html [3] An official website of the European Union MOBILITY AND TRANSPORT, https://ec.europa.eu/transport/themes/urban/urban_mobility_en [4] https://www.kantei.go.jp/jp/singi/it2/kettei/pdf/20210615/roadmap. pdf [5] ⾞⾞間通信システム, TOYOTA, https://toyota.jp/technology/safety/itsconnect/ 【ITS Connect】右折時注意喚起 (⾞⾞間通信システム)[5]
3.
Copyright © 2020
調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 3 渋滞の発⽣原因の代表例 • 交通は都市部などの⼀部エリアに集中 • その中の特定箇所の交通容量を超える交通需要が 流⼊すると渋滞が発⽣ • 交差点はそのボトルネックの代表例 交通容量1600 [台/時] 交通容量 700 [台/時] 交通容量1600 [台/時] 交通容量のボトルネック例 交差点に着⽬し交通容量の改善を⽬指す
4.
Copyright © 2020
調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 4 交差点の渋滞改善 渋滞を改善する研究は2種類 • 環境側からのアプローチ(例: 信号制御) • ⾞を直接制御するアプローチ(例: ⾞間距離制御) のアプローチには限界 • 例: 信号には⻩⾊,全⽅向⾚の無駄な時間が存在 ⾃⽴分散な意思決定で渋滞の改善 交差点の交通容量の改善は難しい • ⼗字交差点4⽅向,速度⼀定,各最⼤3台の条件で 1677万通りの場合の数 ルールベースではなく強化学習
5.
Copyright © 2020
調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 5 関連研究 交通シミュレーション • Simulation of Urban Mobility(SUMO) [6] 強化学習 • Advantage Actor-Critic [7] 交通渋滞 • Flow Project [8] • Emergence of intersection rules [9] • Maintaining safety on highways [10] Simulation of Urban Mobility (SUMO) https://www.eclipse.org/sumo/ [6] P. A. Lopez et al., “Microscopic Traffic Simulation using SUMO,” 2018, [Online]. Available: https://elib.dlr.de/124092/. [7] Mnih, V…, (2016). Asynchronous Methods for Deep Reinforcement Learning. Proceedings of The 33rd International Conference on Machine Learning [8] C. Wu, A. Kreidieh, K. Parvate, E. Vinitsky, and A. M. Bayen, “Flow: A Modular Learning Framework for Autonomy in Traffic,” Oct. 2017, [Online]. Available: http://arxiv.org/abs/1710.05465. [9] A. Pal, J. Philion, Y.-H. Liao, and S. Fidler, “Emergent Road Rules In Multi-Agent Driving Environments,” Nov. 2020, [Online]. Available: http://arxiv.org/abs/2011.10753. [10] M. Schutera, N. Goby, D. Neumann, and M. Reischl, “Transfer Learning versus Multi-agent Learning regarding Distributed Decision-Making in Highway Traffic,” Oct. 2018, [Online]. Available: http://arxiv.org/abs/1810.08515. Flow project figure eight
6.
Copyright © 2020
調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 6 理想的な⾏動例 • 優先度を変更することにより,交通量が増加する例 – 全台速度⼀定,交差点進⼊→通過に1stepと仮定 4 step car D car C タイミングチャート Car A Car B Car C t t + 1 t + 2 Car D t + 3 Car C Car A Car B t t + 1 t + 2 Car D t + 3 静的なルール 理想 car A car B 静的なルールと理想的な⾏動の⽐較
7.
Copyright © 2020
調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 7 理想的な⾏動例 • 優先度を変更することにより,交通量が増加する例 3 step 理想的な⾏動により,交通容量が増加 car D car C タイミングチャート Car A Car B Car C t t + 1 t + 2 Car D t + 3 Car C Car A Car B t t + 1 t + 2 Car D t + 3 静的なルール 理想 car A 強化学習対象車 car B
8.
Copyright © 2020
調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 8 Harmo Traffic Simulator • 運動⽅程式を⽤いてモデル化 • 速度,ステアリング⾓を制御 • ⾞間距離は最適速度模型[11]を ⽤いて決定 • 交差点での⾃⾝の優先度変更 可能 ⾞の状態 優先度変更 ⾏動 優先度変更⾏動 譲られる Harmo Traffic Simulator ⾃動運転⾞両を再現した シミュレータを開発 [11] M. Bando, K. Hasebe, A. Nakayama, A. Shibata, and Y. Sugiyama, Phys. Rev. E 51, 1035 (1995). タイミングチャートで⽰した 優先度変更⾏動の獲得
9.
Copyright © 2020
調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 9 強化学習アーキテクチャ • Advantage Actor-Critic[7]を⽤いた分散強化学習 • 並列にエピソードの軌跡を収集 • ⼀定数エピソードの軌跡を貯め,⽅策関数を更新 パラメータ 値 学習ステップ数 8M 学習対象⾞ 1台 並列数 8 バッファサイズ 16K [7] Mnih, V…, (2016). Asynchronous Methods for Deep Reinforcement Learning. Proceedings of The 33rd International Conference on Machine Learning
10.
Copyright © 2020
調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 10 環境設定 • 南北⽅向に優先道路 • ⾞の⽣成場所を予め設定 優先道路 (優先度 +3) 優先度: 0 優先度: 5 (2+3) 優先度: 4 (1+3) 優先度: 2 優先度: 1 優先度: 3 (0+3) Spawn points 0.6 m/s 0.6 m/s 0.6 m/s
11.
Copyright © 2020
調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 11 強化学習設定 エピソード設定 • 交差点進⼊前⼀定stepから開始 • 交差点進⼊後観測をすべて0ベクトル • 全台が交差点通過後エピソード終了 強化学習 対象車 エピソード前 強化学習 対象車 強化学習 対象車 エピソード中 エピソード終了
12.
Copyright © 2020
調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 12 強化学習設定 ⾏動空間 • 2値: ⾏動なし or 優先度最低 観測空間 • 各⾞先頭3台の状態を相対的に⼊⼒ – ⽅向 – 速度 – 交差点までの距離 報酬 • 常に負の定数 • 強化学習⾏動を取った場合,最⼤4step分の負の報酬 (⾏動してもしなくて良い場合はノイズ)
13.
Copyright © 2020
調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 13 エピソードの割合調査 優先度変更⾏動が有効な初期状態がどの程度存在 するか調査 • 南北⽅向に限定した状況で、譲る⾏動と譲らない⾏動 の 4096×2 通りの⾏動を記録し分析 強化学習⾏動 ⾞の状態
14.
Copyright © 2020
調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 14 南北に限定した場合の全通り結果 分析結果 • 変化なし: 2912 / 4096 (71.0%) • 優先度変更⾏動によって向上: 552 / 4096 (13.5%) • 優先度変更⾏動によって悪化: 631 / 4096 (15.4%) step数の差 頻度 ⼤部分が0 等しくサンプリングすると不均衡
15.
Copyright © 2020
調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 15 アップサンプリング 事前に優先度変更⾏動によって向上した初期状態を すべて格納 初期状態 A 初期状態 B 全初期状態 OR 単純アップサンプリングを⽤いて学習 𝑝 𝑝 = サンプリング割合 ∈ [0, 1] 1 − 𝑝 初期状態 事前に作成 重み付きでアップ サンプリング 選ばれた初期状態 で強化学習実⾏
16.
Copyright © 2020
調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 16 ⽐較のためのベースライン 初期状態を⼀様乱数(サンプリング割合0.0)で 強化学習 • 南北⽅向のみの4096通りで実験 評価⽅法 • 予め全通り譲る⾏動・譲らない⾏動の報酬を記録 • Ground truth: 譲る⾏動によって報酬が改善したエピソー ドにラベル1 • Prediction: 強化学習モデルによって報酬が改善した エピソードにラベル1 混同⾏列 各種評価指標
17.
Copyright © 2020
調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 17 アップサンプリングの性能評価 ベースラインとアップサンプリングを⽐較 • 南北⽅向のみの4096通りで実験 • サンプリング割合:なし, 0.2, 0.3, 0.4と⽐較 各種評価指標とその増減 アップサンプリングにより⼤幅な改善 サンプリング 割合 ラベル Precision 差 Recall 差 F1-score 差 なし 1 0.67 0.00 0.01 0.2 1 0.93 +0.26 0.50 +0.50 0.65 +0.64 0.3 1 0.88 +0.21 0.81 +0.81 0.84 +0.83 0.4 1 0.90 +0.23 0.95 +0.95 0.93 +0.92
18.
Copyright © 2020
調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 18 カウントベースアルゴリズム アップサンプリングでは場合の数の増加に弱い 改善した初期状態 A 改善した初期状態 B 効果的なエピソード バケット 過去に1度だけ実⾏済 エピソード: 報酬の辞書 初期状態 1, 報酬: -6.75 初期状態 2, 報酬: -8.20 全初期状態 OR 初期状態 1 ① 過去に実⾏があるか確認 (ない場合追加) ② 改善した場合 バケット移動 初期状態 1,報酬: -6.50 全初期状態からの場合 のみ次のステップへ 𝑝 1 − 𝑝 𝑝 = サンプリング割合 ∈ [0, 1] 事前に正解ラベルが不要な対処法を提案
19.
Copyright © 2020
調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 19 カウントベースアルゴリズムの性能評価 カウントベースアルゴリズムの各種指標の⽐較 • 南北⽅向のみの4096通りで実験 • サンプリング割合:なし, 0.2, 0.3, 0.4と⽐較 カウントベースアルゴリズムもアップサンプリング同様に ⼤幅な改善 サンプリング 割合 ラベル Precision 差 Recall 差 F1-score 差 なし 1 0.67 0.00 0.01 0.2 1 0.92 +0.25 0.73 +0.73 0.82 +0.81 0.3 1 0.94 +0.27 0.72 +0.72 0.82 +0.81 0.4 1 0.94 +0.27 0.71 +0.71 0.81 +0.80 各種評価指標とその増減
20.
Copyright © 2020
調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 20 カウントベースアルゴリズムの性能評価 学習の推移 • 縦軸: 全台が交差点を出るまでの4096通り(全通り)の平均 ステップ数 • 横軸: 強化学習のステップ数 強化学習なし: 全台が静的ルールに従った場合 最適⽅策: 全台が理想的な⽅策で⾏動した場合 アップサンプリング カウントベースアルゴリズム 強化学習なしの ライン 最適⽅策の ライン
21.
Copyright © 2020
調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 21 場合の数増加 カウントベースアルゴリズムが4096から場合の 数が増加した場合の性能調査 • 3⽅向最⼤3台 (262,144) • 4⽅向最⼤3台 (16,777,216) 評価⽅法 • 前回のように全通りは難しい • 乱数シードを固定し,1万の初期状態をサンプリング • 予めサンプリングしたエピソードを全通り調査し 正解ラベルを設定
22.
Copyright © 2020
調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 22 サンプリングしたエピソード サンプリングした1万のエピソードを全通り調査し, 強化学習が有効な数を調査 シードを固定しサンプリングした初期状態の内訳 評価に妥当な数がサンプリングできている
23.
Copyright © 2020
調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 23 3⽅向 結果 3⽅向最⼤3台(262,144通り)の設定での実験結果 • サンプリング割合:なし, 0.2, 0.3, 0.4と⽐較 場合の数が増加しても改善 サンプリング 割合 ラベル Precision 差 Recall 差 F1-score 差 なし 1 0.41 0.00 0.01 0.2 1 0.89 +0.48 0.37 +0.37 0.53 +0.52 0.3 1 0.93 +0.52 0.23 +0.23 0.37 +0.36 0.4 1 0.90 +0.49 0.19 +0.19 0.31 +0.30 各種評価指標とその増減
24.
Copyright © 2020
調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 24 4⽅向 結果 4⽅向最⼤3台(16,777,216通り)の設定での実験結果 • サンプリング割合:なし, 0.2, 0.3, 0.4と⽐較 サンプリング割合が増えるに従って改善 サンプリング 割合 ラベル Precision 差 Recall 差 F1-score 差 なし 1 0.28 0.01 0.02 0.2 1 0.18 -0.10 0.01 0.00 0.01 -0.01 0.3 1 0.69 +0.41 0.06 +0.05 0.11 +0.09 0.4 1 0.91 +0.63 0.45 +0.44 0.60 +0.58 各種評価指標とその増減
25.
Copyright © 2020
調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 25 場合の数の増加 学習の推移 学習の推移 • 縦軸: サンプリングした1万のエピソードの平均ステップ数 • 横軸: 強化学習のステップ数 強化学習なし: 全台が静的ルールに従った場合 最適⽅策: 全台が理想的な⽅策で⾏動した場合 強化学習なしの ライン 最適⽅策の ライン 3⽅向 4⽅向
26.
Copyright © 2020
調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 本研究の社会実装への問題点 • ⾞同⼠の通信 • ⾃動運転⾞両の普及 • 本研究のシミュレータで再現できていない部分 26 実社会への応⽤可能性 • : 既にITS Connectなど社会 実装が進んでおり実現可能 • : より現実に近い環境で学習・ 評価によって実現可能 FURUNO ⾞々間通信製品 https://www.furuno.com/jp/gnss/case/furuno04 社会実装へ向けての次のステップ: 現実に近い環境での検証が必要
27.
Copyright © 2020
調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 27 結論 • ⾃動運転を再現した優先度が変更可能なシミュレータ を開発 • 観測するエピソードが不均衡な場合に効果的な カウントベースアルゴリズムを提案 • タイミングチャートの譲り合い⾏動が,現実の交通の 特徴を捉えた表現であることを⽰した • 優先度変更⾏動を⾞々間通信することにより 交通容量の増加可能性を⽰した
28.
Copyright © 2020
調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. Copyright © 2020 調和系⼯学研究室 - 北海道⼤学 ⼤学院情報科学研究院 情報理⼯学部⾨ 複合情報⼯学分野 – All rights reserved. 28 研究業績 国際学会(査読あり ⼝頭発表)(2件) • Tomoya Oda, Soichiro Yokoyama, Tomohisa Yamashita, Hidenori Kawamura, Takayuki Wara- bino, Tomohiko Ogishi and Hideaki Tanaka, Deep Reinforcement Learning for Smooth Traffic Flow at An Intersection, 26th International Symposium on Artificial Life and Robotics (AROB 26th 2021), Online • Tomoya Oda, Soichiro Yokoyama, Tomohisa Yamashita, Hidenori Kawamura, Takayuki Wara- bino, Tomohiko Ogishi and Hideaki Tanaka, Development of a Traffic-Simulation Environment Using RC Cars, Frontiers of Multi-Agent Systems (FMAS2020), Online 国内学会(査読なし ⼝頭発表)(1件) • 織⽥智⽮, 横⼭想⼀郎, ⼭下倫央, 川村秀憲, 蕨野貴之, ⼤岸智彦, ⽥中英明, RC カーを⽤いた⾃ 動運転⾞両シミュレーション環境の構築, 第20回複雑系マイクロシンポジウム, 06, オンライ ン (2021) 発表予定(1件) 国内学会(査読なし ⼝頭発表) • 織⽥智⽮, 横⼭想⼀郎, ⼭下倫央, 川村秀憲(北海道⼤学), 蕨野 貴之, ⼤岸智彦, ⽥中英明(KDDI 総合研究所), RCカーを⽤いた⾃動運転⾞両シミュレーション環境に関する研究,社会システ ムと情報技術研究ウィーク(WSSIT), 虻⽥郡留寿都村(2022) 受賞(1件) • 優秀プレゼンテーション賞(第20回複雑系マイクロシンポジウム)
Télécharger maintenant