Soumettre la recherche
Mettre en ligne
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
•
Télécharger en tant que PPTX, PDF
•
0 j'aime
•
1,620 vues
Deep Learning JP
Suivre
2022/12/2 Deep Learning JP http://deeplearning.jp/seminar-2/
Lire moins
Lire la suite
Technologie
Signaler
Partager
Signaler
Partager
1 sur 21
Télécharger maintenant
Recommandé
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
Fumihiko Takahashi
HiPPO/S4解説
HiPPO/S4解説
Morpho, Inc.
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
tmtm otm
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
Deep Learning JP
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
Recommandé
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
Fumihiko Takahashi
HiPPO/S4解説
HiPPO/S4解説
Morpho, Inc.
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
tmtm otm
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
Deep Learning JP
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
深層学習の数理
深層学習の数理
Taiji Suzuki
Semantic segmentation
Semantic segmentation
Takuya Minagawa
【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
cvpaper. challenge
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
Deep Learning JP
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?
Masanao Ochi
【DL輪読会】Free Lunch for Few-shot Learning: Distribution Calibration
【DL輪読会】Free Lunch for Few-shot Learning: Distribution Calibration
Deep Learning JP
Graph Attention Network
Graph Attention Network
Takahiro Kubo
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
データに内在する構造をみるための埋め込み手法
データに内在する構造をみるための埋め込み手法
Tatsuya Shirakawa
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
Takuji Tahara
グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題
joisino
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
Deep Learning JP
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
GAN(と強化学習との関係)
GAN(と強化学習との関係)
Masahiro Suzuki
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
Deep Learning JP
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
Deep Learning JP
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence Modeling
Yasunori Ozaki
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
Contenu connexe
Tendances
深層学習の数理
深層学習の数理
Taiji Suzuki
Semantic segmentation
Semantic segmentation
Takuya Minagawa
【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
cvpaper. challenge
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
Deep Learning JP
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?
Masanao Ochi
【DL輪読会】Free Lunch for Few-shot Learning: Distribution Calibration
【DL輪読会】Free Lunch for Few-shot Learning: Distribution Calibration
Deep Learning JP
Graph Attention Network
Graph Attention Network
Takahiro Kubo
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
データに内在する構造をみるための埋め込み手法
データに内在する構造をみるための埋め込み手法
Tatsuya Shirakawa
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
Takuji Tahara
グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題
joisino
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
Deep Learning JP
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
GAN(と強化学習との関係)
GAN(と強化学習との関係)
Masahiro Suzuki
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
Deep Learning JP
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
Deep Learning JP
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence Modeling
Yasunori Ozaki
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
Deep Learning JP
Tendances
(20)
深層学習の数理
深層学習の数理
Semantic segmentation
Semantic segmentation
【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?
【DL輪読会】Free Lunch for Few-shot Learning: Distribution Calibration
【DL輪読会】Free Lunch for Few-shot Learning: Distribution Calibration
Graph Attention Network
Graph Attention Network
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
データに内在する構造をみるための埋め込み手法
データに内在する構造をみるための埋め込み手法
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
GAN(と強化学習との関係)
GAN(と強化学習との関係)
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
Plus de Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
Deep Learning JP
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
Plus de Deep Learning JP
(20)
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
1.
A Time Series
is Worth 64 Words: Long-term Forecasting with Transformers 岡田 領 / Ryo Okada
2.
書誌情報 • ICML2023 Boarerline •
多変量時系列予測と自己教師あり学習のための効果的なTransformer(パッチ分割とチャネ ル独立) • (タイトルはVITの”An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale”より) • 時系列長期予測.評価は高くないが,性能が出ている.
3.
背景と関連研究 • 時系列でのTransformer • Informer,
Autoformer, FEDFormer.. • Attentionの複雑性を軽減し,長期予測で性能向上,有効性が示されてきた • Are Transformers Effective for Time Series Forecasting?, 2022.5 Arxiv • 非常に単純な線形モデルがTransformerモデルを超える性能 • 時系列予測におけるTransformerの有用性に疑問を投げかけている • Accepted to AAAI 2023
4.
Are Transformers Effective
for Time Series Forecasting? • Itelated multi-step予測(IMS) • 1ステップ毎の予測器を学習し,反復してマルチステップの予測に適用 • 長期予測において誤差が蓄積していく欠点 • Direct multi-step 予測(DMS) • 一度にマルチステップ分予測するように学習 • 今までTransformerベースモデルと比較されていた非Transformerベースライ ンは自己回帰,IMS予測のもの • 単純な線形のDMSモデルを用意して,Transformerベースと比較.
5.
Are Transformers Effective
for Time Series Forecasting? • Linear • 単純な1線形層 • NLinear • 分布シフトに対応するため正規化 • DLinear • トレンドや季節性を扱う分解機構 を組み合わせたもの
6.
• 線形モデルがTransformerを凌ぐ予測性能
7.
今回紹介する論文の概要 • 本論文ではパッチ分割とチャネル独立によってTransformerの有効性を再度示す • PatchTSTの提案 •
時系列のTransformerで用いられてこなかったパッチ分割 • パッチの塊に分割することで計算量が分割分削減される • 入力系列が短くなるので長期の履歴も参照しやすくなる • パッチをマスクすることで自己教師あり学習にも効果 • (多変量時系列を分割して)単時系列でTransformerに入力する • 単時系列にすることでアテンションマップの柔軟性が上がる(系列ごと個別に パターン化できる) • 複雑性が落ちるので,学習が容易になる(少ないデータで収束)
8.
提案手法 モデル構造・教師あり設定 • 多変量時系列の次元(チャネル)を 分割 • チャネル毎独立にTransformer(バ ニラ)に入力. •
パッチの長さP,ストライドSでパッ チN個に分割 • MSE lossで訓練
9.
提案手法 表現学習(自己教師あり学習)設定 • 教師あり設定と同じTransformerエ ンコーダ(予測ヘッドだけ変更) • パッチをランダムでマスク •
非重複にパッチ分割(マスク箇所の 情報が他で含まれないように) • マスクされたパッチを再構成するた めにMSE lossで訓練
10.
実験 • 多変量の時系列予測の評価 • ベースライン •
SOTAトランスフォーマーベースモデル • FEDformer, Autoformer, Informer, Pyraformer, LogTrans • 非トランスフォーマー • DLinear • MSEとMAEで評価
11.
実験結果 多変量長期予測 • 多変量の長期予測 • 提案手法は全てのtransfomer ベースモデルのベースライン を凌駕 •
大規模データセット( Weather、Traffic、Electricity )やILIデータセットにおいて DLinearモデルより優れた性能
12.
実験 • 表現学習の設定 • 自己教師あり事前学習を100エポック学習 •
その後,2つのパターンで教師あり学習(それぞれ評価) • Linear Probing:モデルヘッドのみ20エポック学習 • End2end fine tuning: • モデルヘッドを10エポック更新 • ネットワーク全体を20エポック学習
13.
実験結果 教師あり学習との比較 • Linear Probingだけで教師ありと同等 •
End2Endでのファインチューニングでは全てで最も良い結果 • Open ReviewでS4との比較も追加されている(S4よりも優れた性能)
14.
実験結果 転移学習 • Electricityデータセットで事前学習→別データセットでfine tuning •
教師ありには勝てないケースもあるが,他のベースラインよりは優れている
15.
実験結果 自己教師あり学習手法との比較 • 他の自己教師あり学習手法との比較 • Transferred列:Trafficデータセットで事前学習 •
Self supervised列:ETTh1で事前学習
16.
Ablation Study • パッチとチャネル独立性の有効性
17.
Ablation Study • Windowサイズを大きくすると性能が向上する
18.
まとめ • 多変量時系列予測と自己教師あり学習のための効果的なTransformer(Patch TST) • 時系列のパッチ分割 •
チャネル独立に予測 • 表現学習の時はパッチをマスクして予測 • 長期予測で既存のベースラインより優れた性能 • 表現学習,転移学習の有効性も示した. • シンプル.結果はよい.チャネル独立がデータセットの性質によって本当に 汎用性があるのかが気になる.
19.
Appendix(Open Reviewの指摘) チャネル独立の有用性 • 適応性 •
チャネル混合型は多くの学習データを必要とする • チャネル独立はオーバーフィットしづらい
20.
• チャネル混合型の場合は全ての系列に対 して共通のアテンションを持つことにな るが,チャネル独立の場合は各時系列に 対して異なるアテンションマップを持つ • 共通なものもあれば,異なるものもある (適応性が高い)
21.
• チャネル独立の方が早く収束 • チャネルミキシングはオーバーフィッティングしている
Télécharger maintenant