【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers

A Time Series is Worth 64 Words: Long-term Forecasting with
Transformers
岡田領 / Ryo Okada

書誌情報
• ICML2023 Boarerline
• 多変量時系列予測と自己教師あり学習のための効果的なTransformer（パッチ分割とチャネ
ル独立）
• （タイトルはVITの”An Image is Worth 16x16 Words: Transformers for Image Recognition
at Scale”より）
• 時系列長期予測．評価は高くないが，性能が出ている．

背景と関連研究
• 時系列でのTransformer
• Informer, Autoformer, FEDFormer..
• Attentionの複雑性を軽減し，長期予測で性能向上,有効性が示されてきた
• Are Transformers Effective for Time Series Forecasting?, 2022.5 Arxiv
• 非常に単純な線形モデルがTransformerモデルを超える性能
• 時系列予測におけるTransformerの有用性に疑問を投げかけている
• Accepted to AAAI 2023

Are Transformers Effective for Time Series
Forecasting?
• Itelated multi-step予測（IMS）
• １ステップ毎の予測器を学習し，反復してマルチステップの予測に適用
• 長期予測において誤差が蓄積していく欠点
• Direct multi-step 予測（DMS）
• 一度にマルチステップ分予測するように学習
• 今までTransformerベースモデルと比較されていた非Transformerベースライ
ンは自己回帰，IMS予測のもの
• 単純な線形のDMSモデルを用意して，Transformerベースと比較．

Are Transformers Effective for Time Series
Forecasting?
• Linear
• 単純な１線形層
• NLinear
• 分布シフトに対応するため正規化
• DLinear
• トレンドや季節性を扱う分解機構
を組み合わせたもの

• 線形モデルがTransformerを凌ぐ予測性能

今回紹介する論文の概要
• 本論文ではパッチ分割とチャネル独立によってTransformerの有効性を再度示す
• PatchTSTの提案
• 時系列のTransformerで用いられてこなかったパッチ分割
• パッチの塊に分割することで計算量が分割分削減される
• 入力系列が短くなるので長期の履歴も参照しやすくなる
• パッチをマスクすることで自己教師あり学習にも効果
• （多変量時系列を分割して）単時系列でTransformerに入力する
• 単時系列にすることでアテンションマップの柔軟性が上がる（系列ごと個別に
パターン化できる）
• 複雑性が落ちるので，学習が容易になる（少ないデータで収束）

提案手法
モデル構造・教師あり設定
• 多変量時系列の次元（チャネル）を
分割
• チャネル毎独立にTransformer（バ
ニラ）に入力．
• パッチの長さP，ストライドSでパッ
チN個に分割
• MSE lossで訓練

提案手法
表現学習（自己教師あり学習）設定
• 教師あり設定と同じTransformerエ
ンコーダ（予測ヘッドだけ変更）
• パッチをランダムでマスク
• 非重複にパッチ分割（マスク箇所の
情報が他で含まれないように）
• マスクされたパッチを再構成するた
めにMSE lossで訓練

実験
• 多変量の時系列予測の評価
• ベースライン
• SOTAトランスフォーマーベースモデル
• FEDformer, Autoformer, Informer, Pyraformer, LogTrans
• 非トランスフォーマー
• DLinear
• MSEとMAEで評価

実験結果
多変量長期予測
• 多変量の長期予測
• 提案手法は全てのtransfomer
ベースモデルのベースライン
を凌駕
• 大規模データセット（
Weather、Traffic、Electricity
）やILIデータセットにおいて
DLinearモデルより優れた性能

実験
• 表現学習の設定
• 自己教師あり事前学習を100エポック学習
• その後，２つのパターンで教師あり学習（それぞれ評価）
• Linear Probing：モデルヘッドのみ20エポック学習
• End2end fine tuning：
• モデルヘッドを10エポック更新
• ネットワーク全体を20エポック学習

実験結果
教師あり学習との比較
• Linear Probingだけで教師ありと同等
• End2Endでのファインチューニングでは全てで最も良い結果
• Open ReviewでS4との比較も追加されている（S4よりも優れた性能）

実験結果
転移学習
• Electricityデータセットで事前学習→別データセットでfine tuning
• 教師ありには勝てないケースもあるが，他のベースラインよりは優れている

実験結果
自己教師あり学習手法との比較
• 他の自己教師あり学習手法との比較
• Transferred列：Trafficデータセットで事前学習
• Self supervised列：ETTh1で事前学習

Ablation Study
• パッチとチャネル独立性の有効性

Ablation Study
• Windowサイズを大きくすると性能が向上する

まとめ
• 多変量時系列予測と自己教師あり学習のための効果的なTransformer（Patch
TST）
• 時系列のパッチ分割
• チャネル独立に予測
• 表現学習の時はパッチをマスクして予測
• 長期予測で既存のベースラインより優れた性能
• 表現学習，転移学習の有効性も示した．
• シンプル．結果はよい．チャネル独立がデータセットの性質によって本当に
汎用性があるのかが気になる．

Appendix（Open Reviewの指摘）
チャネル独立の有用性
• 適応性
• チャネル混合型は多くの学習データを必要とする
• チャネル独立はオーバーフィットしづらい

• チャネル混合型の場合は全ての系列に対
して共通のアテンションを持つことにな
るが，チャネル独立の場合は各時系列に
対して異なるアテンションマップを持つ
• 共通なものもあれば，異なるものもある
（適応性が高い）

• チャネル独立の方が早く収束
• チャネルミキシングはオーバーフィッティングしている

【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Plus de Deep Learning JP

Plus de Deep Learning JP (20)

【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers