SlideShare une entreprise Scribd logo
1  sur  48
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
時系列予測Transfomers の精度向上手法
Tsuyoshi Ishizone(石曽根毅), Meiji University Nakamura Lab.
本日の輪読内容
• Non-stationary Transformers: Exploring the Stationarity in Time Series Forecasting
– NeurIPS’22 採択(Rating: 7, 7, 4, 4)
– 著者:Yong Liu, Haixu Wu, Jianmin Wang, Mingsheng Long(清華大学)
– 概要:時系列予測 Transformers の Attention を非定常性を考慮した De-stationary Attention
に置き換えることでベンチマークデータセットに対して精度向上を確認
– 選書理由:時系列予測で難しい非定常性を Attention ブロックで入れており,
Encoder-Decoder 構造の Transformers 全般に適用できる汎用性に興味を抱いたため
• WaveBound: Dynamic Error Bounds for Stable Time Series Forecasting
– NeurIPS’22 採択(Rating: 7, 7, 6, 5)
– 著者:Youngin Cho, Daejin Kim, Dongmin Kim, Mohammad Azam Khan, Jaegul Choo(KAIST AI)
– 概要:各時点・サンプル別に過学習を動的に抑制することで時系列予測手法の精度向上を確認
– 選書理由:シンプルな手法だが流行りの時系列予測手法では軒並み精度が向上しており,
汎用性の高さに興味を抱いたため
2
時系列予測
• 問題設定
– 時系列データ {{𝑥𝑡
𝑖
}𝑡=1
𝑇
}𝑖=1
𝑁
が given(𝑖: sample index)
– 過去の系列から将来の系列を予測
• 本日扱う手法の立ち位置(右図)
5
Transformer [Vaswani+, NIPS’17],
LogTrans [Li+, NeurIPS’21],
Informer [Zhou+, AAAI’21],
Reformer [Litaev+, ICLR’20],
Pyraformer [Liu+, ICLR’22],
Autoformer [Wu+, NeurIPS’21],
FEDformer [Zhou+, ICML’22],
ETSformer [Woo+, arXiv, 22]
Transformer 系列
LSTNet [Lai+, SIGIR’18],
DeepAR [Salinas+, Int. J. Forecast., 20]
N-BEATS [Oreshkin+, ICLR’20],
N-HiTS [Challu+, arXiv, 22]
損失ベース時系列予測手法
Non-Stationary Transformers (1本目)
WaveBound (2本目)
Non-stationary Transformers:
Exploring the Stationarity in Time Series Forecasting
7
本論文の貢献
• 近年の時系列予測手法の課題である over-stationarization(過定常化)問題 を解決!
– “定常” な時系列
• (強)定常:任意の同時分布 𝑝(𝑥𝑡−𝑤, ⋯ , 𝑥𝑡) が時間に依存しない
• 弱定常:平均ベクトル 𝑬 𝒙𝒕 と分散共分散行列 𝑽[𝒙𝒕] が時間に依存しない
– (今回はわかりやすさのため弱定常で説明するが,厳密には強定常のことを定常という)
– ほとんどの時系列は非定常
• 時間区間に依存して分布シフトが起きているイメージ
• 非定常な時系列は扱いづらいので,前処理で定常化を行うことが多い
• 弱定常の場合,正規化をイメージすれば良い
– 過定常化(over-stationarization)
• 定常化した時系列に基づく予測モデルでは,非定常性による予測の差異を捉えきれないこと
8
提案枠組み
• Transformer の Attention を非定常性を考慮した De-stationary Attention に置き換える
9
Normalization / De-normalization
• Normalization
– 変数別に sequence length 方向に正規化
𝑖: sample size, 𝑆: sequence length
• De-normalization
– 予測を保存しておいた統計量から非正規化
10
De-stationary Attention
11
(あるべき) 非定常な attention:
定常な key 𝐾′, query 𝑄′ との関係式:
(標準偏差が変数に依らないと仮定した正規化の式)
(Query の線形性)
Scaling scalar Shifting vector
De-stationary Attention
12
非定常な key 𝐾, query 𝑄 と定常な key 𝐾′, query 𝑄′ との関係式:
Scaling scalar Shifting vector
Scaling scalar と Shifting vector を非定常な原系列 𝑥 から計算:
提案枠組み(再掲)
• Transformer の Attention を非定常性を考慮した De-stationary Attention に置き換える
13
実験内容
• データセット(いずれも時系列予測のベンチマークデータセット)
• ベースライン手法
– 深層時系列予測手法:Autoformer, Pyraformer, Informer, LogTrans, Reformer, LSTNet
– 単変量時系列予測手法:N-HiTS, N-BEATS, ARIMA
• 評価指標
– MSE(平均二乗誤差),MAE(平均絶対誤差)
14
主結果
• 提案枠組みを時系列予測 Transformers 導入すると,いずれの手法でも予測誤差を削減
15
元データと予測の相対的定常性
• 時系列の定常度を ADF 検定統計量で評価(smaller ADF → higher 定常度)
• 原系列と予測系列の ADF 検定統計量の比率で相対的な定常度を評価(97~103% が好ましい)
• 通常の正規化 (Series Stationarization) や発展的な正規化 (RevIN) と異なり,
提案法 (De-stationary Attention) は原系列と同等の定常度を持つ予測が可能
→ 定常度を保存した(過定常化を抑制した)予測モデルによって予測精度が向上したと考えられる
16
WaveBound: Dynamic Error Bounds for Stable Time Series Forecasting
17
本論文の概要
• 貢献:学習時の 時系列パターンの過学習を抑制!
• 提案法:学習損失を下げる下界を時点ごとに動的に決め,損失を近づける
– Cf.) flooding [Ishida+, ICML’20]: 学習損失を下げる下界を事前に決め,損失の時間平均を近づける
– Cf.) flooding (modified): 学習損失を下げる下界を事前に決め,時間ごとに損失を近づける
18
経験リスクの比較
19
手法 経験リスク
通常
flooding (original)
flooding (modified)
WaveBound
(提案法)
N: サンプル数
M: 予測時点数
K: 次元数
時間平均
(事前に決める)
損失の下界
時点別の損失
(動的に決める)
損失の下界
提案法:WaveBound
20
損失の下界を計算するためのネットワーク
予測モデル (Source network) の指数移動平均(EMA)でパラメータを決定
予測モデルの学習損失がテスト損失より下に
束縛できるよう ϵ ≪ 1 を導入
主結果
• データセット
– NS Transformers と同様の
ベンチマーク6つ
• 多くの時系列予測手法で予
測誤差の削減を確認
21
ECL データセットでの予測誤差比較
• Flooding では予測誤差が振動している
→ Flooding では一様な損失下界であり時間依存性を反映していない.
学習データへの過適合を抑えきれておらず,予測が不安定になりやすい
• WaveBound では予測誤差の振動が抑えられている
→ WaveBound は学習データへの過適合を抑え,予測を安定させる効果
22
ETTh1 データセットでの損失曲面比較
• Filter normalization [Li+, NIPS’18] で損失曲面を可視化
• WaveBound を使用した方がより flat な曲面を形成
→ flat な損失曲面の方が汎化性能が高いことが一般に知られており [Park+, ICLR’22],
WaveBound によって汎化性能が引き上げられたと考えられる
23
まとめ・感想
• 時系列予測 Transfomers の予測精度を向上させる試みを2つ紹介
– Non-stationary Transfomers:過定常化を抑制する注意機構を導入
– WaveBound:汎化誤差を抑えるための損失下界を適応的に決定
• Non-stationary Transformers
– 平均・分散を非定常に調整した注意機構を提案しており,より高次の統計量にも議論は拡張できそう
– Encoder-Decoder に入力する前の正規化(定常化)はマスト
• 正規化時に input length S=96 を固定しており,
非定常に焦点を当てている論文なので区間幅 S に関する議論を深めて欲しかった
• WaveBound
– Appendix で時系列生成モデルや時空間予測モデルに対する精度向上の事例もあり,今後の発展を期待
• Teacher-Student モデルの枠組みに近いため,蒸留分野からの発展がありそう
24
まとめ・感想
• 汎用的な時系列基盤モデルの構築は難しい
– 画像や言語では大規模事前学習済みモデルからの転移学習 / fine-tuning である程度性能が出る
– 時系列では,非定常性(分布シフト)と過学習の容易さからまだ難しい
• 時系列で汎化が難しいのも非定常性が一因
• 今回紹介した論文は非定常性と汎化に立ち向かっており,今後の発展が期待される
– 表現空間に落とすとしたら区間ごとに1つの表現とすることになるが,区間の区切り方が非自明
• 周波数空間に落とし込めば異なる区間幅でも1つの表現にできるが,非定常性からどこまでの区間を周波数
変換すべきかが非自明
• 他分野への波及
– 動画像は系列データであるが,画像 (computer vision) 側から大規模モデルが発展
• 時系列と動画像の multi-modal な表現によって,センサ時系列の非定常性を汲み取れる可能性
– 世界モデルの世界が動的に変わる場合(工学応用ではあまりなさそう,RL の非工学応用?),
非定常性を取り入れた内部モデルが発展してくる可能性 25
References (時系列予測 Transformers)
• [Vaswani+, NIPS’17] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin.
Attention is all you need. In NIPS, 2017.
• [Li+, NeurIPS’19] S. Li, X. Jin, Y. Xuan, X. Zhou, W. Chen, Y. Wang, and X. Yan. Enhancing the locality and breaking the
memory bottleneck of transformer on time series forecasting. In NeurIPS, 2019.
• [Zhou+, AAAI’21] H. Zhou, S. Zhang, J. Peng, S. Zhang, J. Li, H. Xiong, and W. Zhang. Informer: Beyond efficient
transformer for long sequence time-series forecasting. In AAAI, 2021.
• [Kitaev+, ICLR’20] N. Kitaev, L. Kaiser, and A. Levskaya. Reformer: The efficient transformer. In ICLR, 2020.
• [Liu+, ICLR’22] S. Liu, H. Yu, C. Liao, J. Li, W. Lin, A. XLiu, and S. Dustdar. Pyraformer: Low-complexity pyramidal attention
for long-range time series modeling and forecasting. In ICLR, 2022.
• [Wu+, NeurIPS’21] H. Wu, J. Xu, J. Wang, and M. Long. Autoformer: Decomposition transformers with Auto-Correlation for
long-term series forecasting. In NeurIPS, 2021.
• [Zhou+, ICML’22] T. Zhou, Z. Ma, Q. Wen, X. Wang, L. Sun, and R. Jin. FEDformer: Frequency enhanced decomposed
transformer for long-term series forecasting. In ICML, 2022.
• [Woo+, arXiv, 22] G. Woo, C. Liu, D. Sahoo, A. Kumar, and S. C. H. Hoi. Etsformer: Exponential smoothing transformers for
time-series forecasting. arXiv preprint arXiv:1406.1078, 2022.
26
References (Others)
• [Lai+, SIGIR’18] G. Lai, W. Chang, Y. Yang, and H. Liu. Modeling long- and short-term temporal patterns with deep neural networks. In SIGIR, 2018.
• [Salinas+, Int. J. Forecast., 20] D. Salinas, V. Flunkert, J. Gasthaus, and T. Januschowski. DeepAR: Probabilistic forecasting with autoregressive
recurrent networks. Int. J. Forecast., Vol. 36, 3, pp.1181-1191, 2020.
• [Oreshkin+, ICLR’20] B. N. Oreshkin, D. Carpov, N. Chapados, and Y. Bengio. N-BEATS: neural basis expansion analysis for interpretable time series
forecasting. In ICLR, 2020.
• [Challu+, arXiv, 22] C. Challu, K. G. Olivares, B. N. Oreshkin, F. Garza, M. Mergenthaler, and A. Dubrawski. N-hits: Neural hierarchical interpolation for
time series forecasting. arXiv preprint arXiv:2201.12886, 2022.
• [Ishida+, ICML’20] T. Ishida, I. Yamane, T. Sakai, G. Niu, and M. Sugiyama. Do We Need Zero Training Loss After Achieving Zero Training Error? In
ICML, 2020.
• [Li+, NIPS’18] H. Li, Z. Xu, G. Taylor, C. Studer, and T. Goldstein. Visualizing the Loss Landscape of Neural Nets. In NIPS, 2018.
• [Park+, ICLR’22] N. Park and S. Kim. How do vision transformers work? In ICLR, 2022.
• [Ogasawara+, IJCNN’10] E. Ogasawara, L. C. Martinez, D. de Oliveira, G. Zimbrão, G. L. Pappa, and M. Mattoso. Adaptive Normalization: A novel data
normalization approach for non-stationary time series. In IJCNN, Barcelona, Spain, 2010, pp. 1-8, doi: 10.1109/IJCNN.2010.5596746.
• [Passalis+, IEEE TNNLS’20] N. Passalis, A. Tefas, J. Kanniainen, M. Gabbouj, and A. Iosifidis. Deep Adaptive Input Normalization for Time Series
Forecasting. In IEEE TNNLS, vol. 31, no. 9, pp. 3760-3765, Sept. 2020, doi: 10.1109/TNNLS.2019.2944933.
• [Kim+, ICLR’22] T. Kim, J. Kim, Y. Tae, C. Park, J. Choi, and J. Choo. Reversible Instance Normalization for Accurate Time-Series Forecasting
against Distribution Shift. In ICLR, 2022.
27
ご清聴ありがとうございました!
28
Appendix
29
時系列データの定常化
• Adaptive Normalization [Ogasawara+, IJCNN’10]
– 移動平均 → 排反区間に分割 → 外れ値除去 → 区間別に正規化
• DAIN [Passalis+, IEEE TNNLS’20]
– Adaptive Shift,Adaptive Scaling を NN で sample-wise で求める
• RevIN [Kim+, ICLR’22]
– 入力系列を Instance Normalization → 予測器で予測 → De-normalization した損失で誤差伝播
30
RevIN [Kim+, ICLR’22]
31
データセット
• ETT (Electricity Transformer Temperature): 中国69地点・2年間 (2016~2018) の変圧器の油温や電
力負荷 (ETTh1 & ETTh2: hourly, ETTm1 & ETTm2: every 15 minutes)
• ECL (Electricity): 321顧客・2年間 (2012~2014) の電力使用量 (hourly)
• Exchange: 8カ国・27年間 (1990~2016) の為替レート (daily)
• Traffic:サンフランシスコ港862箇所・48ヶ月 (2015~2016) の道路占有率 (hourly)
• Weather: 全米1600箇所・4年間 (2010~2013) の21気象指標 (every 10 minutes)
• ILI: 米国・20年間 (2002~2021) のインフルエンザ様疾患患者 (weekly)
32
NS Transformers の主結果
• Ours (vanilla Transformer w/
proposed.) が最良
– Vanilla Transformer に提案法を導
入しただけでも,
既存法を凌駕することの証左
33
NS Transformers の他正規化手法との比較
• 既存法 (RevIN) とナイーブな標準化
(Series Stationarization) を凌駕
34
NS Transformers の Ablation Study
• 提案法 (Stat+DeAttn) が最良な
ケースが多い
– Stat: 定常化・非定常化
– DeFF: 正規化時の平均・分散を
Transformer のFeed-Forward NN
に入力
– DeAttn:Attention を
De-stationary Attention に置換
35
NS Transformers の査読者との議論
• Attention 後の MLP に正規化時の平均・分散を入れるだけではダメなのか?
– 提案法は過定常化問題の知見に基づくものである
• Scaling scalar τ, Shifting vector Δ は正規化時の平均・分散を直接使ってはダメなのか?
– データに依存した deep features であるため MLP を通す必要がある
• 正規化したものを “定常化時系列” と述べるのは不適切では?
– 「定常度合いを高めること」を定常化 (stationarization) として述べる
36
Filter-wise Normalization [Li+, NIPS’18]
• 各層の各フィルタ別に正規化した2つのランダムベクトルを用いて,
3次元的に損失曲面を可視化する手法
37
非定常性を扱う RevIN [Kim+, ICLR’22] との組み合わせ
• RevIN 単体よ
りも誤差の減
少を確認
38
EMA Model 単体との比較
• EMA model 単体(Without Bound)より,target network として EMA model を用いる提案法
(WaveBound (Indiv.))の方が予測誤差減少
39
WaveBound 査読者との議論
• α,εはどうやって選ぶのか?
– α:0.99, 0.999, 0.9999 から選択.実験では更新速度確保のため 0.99 を選択
– ε:0.01, 0.001 から選択. εに対する堅牢性を確認済み
• 時系列予測モデル(TSF)で過適合が起きていることの証左は?
– 合成データセットに対して TSF は容易に過適合が生じることを確認
• 計算コスト・メモリコストは?
– 学習時間は 1.1~1.5 倍,学習時に必要なメモリは数%上昇
• 学習時に損失が高ければ EMA 損失も高くなり,bound にならないのでは?
– EMA モデルは原モデルのアンサンブルとして機能するため,査読者が心配する状況は滅多にない
– εを導入することで irreducible error に近づけられる
40
LogTrans [Li+, NeurIPS’19]
• 長期依存性を捉えるため,遠くの情報は徐々に疎にして attention する
41
Informer [Zhou+, AAAI’20]
• 長期系列を予測できるようにするため,層を経るたびに MaxPool して情報を圧縮
42
Reformer [Kitaev+, ICLR’20]
• attention の計算を同じハッシュ値の要素をまとめることで簡略化
• ハッシュ値はランダムな回転行列をかけた時の所属領域で決定 43
Pyraformer [Liu+, ICLR’22]
• 徐々に時間解像度を引き上げて attention を行っていく
44
Autoformer [Wu+, NeurIPS’21]
• フーリエ変換(FFT)して attention を取ることで,周期的な類似性を捉えた予測が可能に
45
FEDformer [Zhou+, ICML’22]
• M 周波数モードを強調する FEB-fと
M 周波数モードでの注意機構である
FEA-f を導入
46
ETSformer [Woo+, arXiv, 22]
• 指数移動平均で attention weight を決める Exponential Smoothing Attention 機構と
top-K 周波数の情報に縮約した Frequency Attention 機構を導入
47
LSTNet [Lai+, SIGIR’18]
• 深層モデル(CNN+LSTM)と自己回帰モデル(AR)を組み合わせた予測
48
DeepAR [Salinas+, Int. J. Forecast., 20]
• AR パラメータを RNN で構成して時系列予測
49
N-BEATS [Oreshkin+, ICLR’20]
• 各ブロックで予測
(forecast)と現時点の最
良推定(backcast)を計
算し,情報を統合
50
N-HiTS [Challu+, arXiv, 22]
• N-BEATS に multi-rate signal sampling を導入
• 異なるカーネルサイズで MaxPool することで所望の scale の情報を各ブロックで学習 51

Contenu connexe

Tendances

Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence ModelingDeep Learning JP
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門Kawamoto_Kazuhiko
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用Yoshitaka Ushiku
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion ModelsDeep Learning JP
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理Taiji Suzuki
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習Deep Learning JP
 
【DL輪読会】Dropout Reduces Underfitting
【DL輪読会】Dropout Reduces Underfitting【DL輪読会】Dropout Reduces Underfitting
【DL輪読会】Dropout Reduces UnderfittingDeep Learning JP
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイDeep Learning JP
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?Fumihiko Takahashi
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAGIRobots
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformercvpaper. challenge
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてSho Takase
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解するAtsukiYamaguchi1
 
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?Masanao Ochi
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent ImaginationDeep Learning JP
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化Yusuke Uchida
 

Tendances (20)

Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
【DL輪読会】Dropout Reduces Underfitting
【DL輪読会】Dropout Reduces Underfitting【DL輪読会】Dropout Reduces Underfitting
【DL輪読会】Dropout Reduces Underfitting
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
 
研究効率化Tips Ver.2
研究効率化Tips Ver.2研究効率化Tips Ver.2
研究効率化Tips Ver.2
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解する
 
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 

Similaire à 【DL輪読会】時系列予測 Transfomers の精度向上手法

[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for PredictionDeep Learning JP
 
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Daiki Shimada
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響NU_I_TODALAB
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...Deep Learning JP
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2Hirokatsu Kataoka
 
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...Toru Fujino
 
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...MasanoriSuganuma
 
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】Naoki Hayashi
 
PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装Shohei Taniguchi
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential EquationsDeep Learning JP
 
PredCNN: Predictive Learning with Cascade Convolutions
PredCNN: Predictive Learning with Cascade ConvolutionsPredCNN: Predictive Learning with Cascade Convolutions
PredCNN: Predictive Learning with Cascade Convolutionsharmonylab
 
量子アニーリングを用いたクラスタ分析 (QIT32)
量子アニーリングを用いたクラスタ分析 (QIT32)量子アニーリングを用いたクラスタ分析 (QIT32)
量子アニーリングを用いたクラスタ分析 (QIT32)Shu Tanaka
 
Deep uncertainty quantification a machine learning approach for weather fore...
Deep uncertainty quantification  a machine learning approach for weather fore...Deep uncertainty quantification  a machine learning approach for weather fore...
Deep uncertainty quantification a machine learning approach for weather fore...harmonylab
 
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...MasanoriSuganuma
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~nlab_utokyo
 

Similaire à 【DL輪読会】時系列予測 Transfomers の精度向上手法 (16)

[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
 
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
 
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
 
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
 
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
【招待講演】パラメータ制約付き行列分解のベイズ汎化誤差解析【StatsML若手シンポ2020】
 
PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
 
PredCNN: Predictive Learning with Cascade Convolutions
PredCNN: Predictive Learning with Cascade ConvolutionsPredCNN: Predictive Learning with Cascade Convolutions
PredCNN: Predictive Learning with Cascade Convolutions
 
量子アニーリングを用いたクラスタ分析 (QIT32)
量子アニーリングを用いたクラスタ分析 (QIT32)量子アニーリングを用いたクラスタ分析 (QIT32)
量子アニーリングを用いたクラスタ分析 (QIT32)
 
Deep uncertainty quantification a machine learning approach for weather fore...
Deep uncertainty quantification  a machine learning approach for weather fore...Deep uncertainty quantification  a machine learning approach for weather fore...
Deep uncertainty quantification a machine learning approach for weather fore...
 
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...When NAS Meets Robustness:In Search of Robust Architectures againstAdversar...
When NAS Meets Robustness: In Search of Robust Architectures against Adversar...
 
20150414seminar
20150414seminar20150414seminar
20150414seminar
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
 

Plus de Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

Plus de Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Dernier

Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Hiroshi Tomioka
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 

Dernier (11)

Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 

【DL輪読会】時系列予測 Transfomers の精度向上手法

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ 時系列予測Transfomers の精度向上手法 Tsuyoshi Ishizone(石曽根毅), Meiji University Nakamura Lab.
  • 2. 本日の輪読内容 • Non-stationary Transformers: Exploring the Stationarity in Time Series Forecasting – NeurIPS’22 採択(Rating: 7, 7, 4, 4) – 著者:Yong Liu, Haixu Wu, Jianmin Wang, Mingsheng Long(清華大学) – 概要:時系列予測 Transformers の Attention を非定常性を考慮した De-stationary Attention に置き換えることでベンチマークデータセットに対して精度向上を確認 – 選書理由:時系列予測で難しい非定常性を Attention ブロックで入れており, Encoder-Decoder 構造の Transformers 全般に適用できる汎用性に興味を抱いたため • WaveBound: Dynamic Error Bounds for Stable Time Series Forecasting – NeurIPS’22 採択(Rating: 7, 7, 6, 5) – 著者:Youngin Cho, Daejin Kim, Dongmin Kim, Mohammad Azam Khan, Jaegul Choo(KAIST AI) – 概要:各時点・サンプル別に過学習を動的に抑制することで時系列予測手法の精度向上を確認 – 選書理由:シンプルな手法だが流行りの時系列予測手法では軒並み精度が向上しており, 汎用性の高さに興味を抱いたため 2
  • 3. 時系列予測 • 問題設定 – 時系列データ {{𝑥𝑡 𝑖 }𝑡=1 𝑇 }𝑖=1 𝑁 が given(𝑖: sample index) – 過去の系列から将来の系列を予測 • 本日扱う手法の立ち位置(右図) 5 Transformer [Vaswani+, NIPS’17], LogTrans [Li+, NeurIPS’21], Informer [Zhou+, AAAI’21], Reformer [Litaev+, ICLR’20], Pyraformer [Liu+, ICLR’22], Autoformer [Wu+, NeurIPS’21], FEDformer [Zhou+, ICML’22], ETSformer [Woo+, arXiv, 22] Transformer 系列 LSTNet [Lai+, SIGIR’18], DeepAR [Salinas+, Int. J. Forecast., 20] N-BEATS [Oreshkin+, ICLR’20], N-HiTS [Challu+, arXiv, 22] 損失ベース時系列予測手法 Non-Stationary Transformers (1本目) WaveBound (2本目)
  • 4. Non-stationary Transformers: Exploring the Stationarity in Time Series Forecasting 7
  • 5. 本論文の貢献 • 近年の時系列予測手法の課題である over-stationarization(過定常化)問題 を解決! – “定常” な時系列 • (強)定常:任意の同時分布 𝑝(𝑥𝑡−𝑤, ⋯ , 𝑥𝑡) が時間に依存しない • 弱定常:平均ベクトル 𝑬 𝒙𝒕 と分散共分散行列 𝑽[𝒙𝒕] が時間に依存しない – (今回はわかりやすさのため弱定常で説明するが,厳密には強定常のことを定常という) – ほとんどの時系列は非定常 • 時間区間に依存して分布シフトが起きているイメージ • 非定常な時系列は扱いづらいので,前処理で定常化を行うことが多い • 弱定常の場合,正規化をイメージすれば良い – 過定常化(over-stationarization) • 定常化した時系列に基づく予測モデルでは,非定常性による予測の差異を捉えきれないこと 8
  • 6. 提案枠組み • Transformer の Attention を非定常性を考慮した De-stationary Attention に置き換える 9
  • 7. Normalization / De-normalization • Normalization – 変数別に sequence length 方向に正規化 𝑖: sample size, 𝑆: sequence length • De-normalization – 予測を保存しておいた統計量から非正規化 10
  • 8. De-stationary Attention 11 (あるべき) 非定常な attention: 定常な key 𝐾′, query 𝑄′ との関係式: (標準偏差が変数に依らないと仮定した正規化の式) (Query の線形性) Scaling scalar Shifting vector
  • 9. De-stationary Attention 12 非定常な key 𝐾, query 𝑄 と定常な key 𝐾′, query 𝑄′ との関係式: Scaling scalar Shifting vector Scaling scalar と Shifting vector を非定常な原系列 𝑥 から計算:
  • 10. 提案枠組み(再掲) • Transformer の Attention を非定常性を考慮した De-stationary Attention に置き換える 13
  • 11. 実験内容 • データセット(いずれも時系列予測のベンチマークデータセット) • ベースライン手法 – 深層時系列予測手法:Autoformer, Pyraformer, Informer, LogTrans, Reformer, LSTNet – 単変量時系列予測手法:N-HiTS, N-BEATS, ARIMA • 評価指標 – MSE(平均二乗誤差),MAE(平均絶対誤差) 14
  • 12. 主結果 • 提案枠組みを時系列予測 Transformers 導入すると,いずれの手法でも予測誤差を削減 15
  • 13. 元データと予測の相対的定常性 • 時系列の定常度を ADF 検定統計量で評価(smaller ADF → higher 定常度) • 原系列と予測系列の ADF 検定統計量の比率で相対的な定常度を評価(97~103% が好ましい) • 通常の正規化 (Series Stationarization) や発展的な正規化 (RevIN) と異なり, 提案法 (De-stationary Attention) は原系列と同等の定常度を持つ予測が可能 → 定常度を保存した(過定常化を抑制した)予測モデルによって予測精度が向上したと考えられる 16
  • 14. WaveBound: Dynamic Error Bounds for Stable Time Series Forecasting 17
  • 15. 本論文の概要 • 貢献:学習時の 時系列パターンの過学習を抑制! • 提案法:学習損失を下げる下界を時点ごとに動的に決め,損失を近づける – Cf.) flooding [Ishida+, ICML’20]: 学習損失を下げる下界を事前に決め,損失の時間平均を近づける – Cf.) flooding (modified): 学習損失を下げる下界を事前に決め,時間ごとに損失を近づける 18
  • 16. 経験リスクの比較 19 手法 経験リスク 通常 flooding (original) flooding (modified) WaveBound (提案法) N: サンプル数 M: 予測時点数 K: 次元数 時間平均 (事前に決める) 損失の下界 時点別の損失 (動的に決める) 損失の下界
  • 17. 提案法:WaveBound 20 損失の下界を計算するためのネットワーク 予測モデル (Source network) の指数移動平均(EMA)でパラメータを決定 予測モデルの学習損失がテスト損失より下に 束縛できるよう ϵ ≪ 1 を導入
  • 18. 主結果 • データセット – NS Transformers と同様の ベンチマーク6つ • 多くの時系列予測手法で予 測誤差の削減を確認 21
  • 19. ECL データセットでの予測誤差比較 • Flooding では予測誤差が振動している → Flooding では一様な損失下界であり時間依存性を反映していない. 学習データへの過適合を抑えきれておらず,予測が不安定になりやすい • WaveBound では予測誤差の振動が抑えられている → WaveBound は学習データへの過適合を抑え,予測を安定させる効果 22
  • 20. ETTh1 データセットでの損失曲面比較 • Filter normalization [Li+, NIPS’18] で損失曲面を可視化 • WaveBound を使用した方がより flat な曲面を形成 → flat な損失曲面の方が汎化性能が高いことが一般に知られており [Park+, ICLR’22], WaveBound によって汎化性能が引き上げられたと考えられる 23
  • 21. まとめ・感想 • 時系列予測 Transfomers の予測精度を向上させる試みを2つ紹介 – Non-stationary Transfomers:過定常化を抑制する注意機構を導入 – WaveBound:汎化誤差を抑えるための損失下界を適応的に決定 • Non-stationary Transformers – 平均・分散を非定常に調整した注意機構を提案しており,より高次の統計量にも議論は拡張できそう – Encoder-Decoder に入力する前の正規化(定常化)はマスト • 正規化時に input length S=96 を固定しており, 非定常に焦点を当てている論文なので区間幅 S に関する議論を深めて欲しかった • WaveBound – Appendix で時系列生成モデルや時空間予測モデルに対する精度向上の事例もあり,今後の発展を期待 • Teacher-Student モデルの枠組みに近いため,蒸留分野からの発展がありそう 24
  • 22. まとめ・感想 • 汎用的な時系列基盤モデルの構築は難しい – 画像や言語では大規模事前学習済みモデルからの転移学習 / fine-tuning である程度性能が出る – 時系列では,非定常性(分布シフト)と過学習の容易さからまだ難しい • 時系列で汎化が難しいのも非定常性が一因 • 今回紹介した論文は非定常性と汎化に立ち向かっており,今後の発展が期待される – 表現空間に落とすとしたら区間ごとに1つの表現とすることになるが,区間の区切り方が非自明 • 周波数空間に落とし込めば異なる区間幅でも1つの表現にできるが,非定常性からどこまでの区間を周波数 変換すべきかが非自明 • 他分野への波及 – 動画像は系列データであるが,画像 (computer vision) 側から大規模モデルが発展 • 時系列と動画像の multi-modal な表現によって,センサ時系列の非定常性を汲み取れる可能性 – 世界モデルの世界が動的に変わる場合(工学応用ではあまりなさそう,RL の非工学応用?), 非定常性を取り入れた内部モデルが発展してくる可能性 25
  • 23. References (時系列予測 Transformers) • [Vaswani+, NIPS’17] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin. Attention is all you need. In NIPS, 2017. • [Li+, NeurIPS’19] S. Li, X. Jin, Y. Xuan, X. Zhou, W. Chen, Y. Wang, and X. Yan. Enhancing the locality and breaking the memory bottleneck of transformer on time series forecasting. In NeurIPS, 2019. • [Zhou+, AAAI’21] H. Zhou, S. Zhang, J. Peng, S. Zhang, J. Li, H. Xiong, and W. Zhang. Informer: Beyond efficient transformer for long sequence time-series forecasting. In AAAI, 2021. • [Kitaev+, ICLR’20] N. Kitaev, L. Kaiser, and A. Levskaya. Reformer: The efficient transformer. In ICLR, 2020. • [Liu+, ICLR’22] S. Liu, H. Yu, C. Liao, J. Li, W. Lin, A. XLiu, and S. Dustdar. Pyraformer: Low-complexity pyramidal attention for long-range time series modeling and forecasting. In ICLR, 2022. • [Wu+, NeurIPS’21] H. Wu, J. Xu, J. Wang, and M. Long. Autoformer: Decomposition transformers with Auto-Correlation for long-term series forecasting. In NeurIPS, 2021. • [Zhou+, ICML’22] T. Zhou, Z. Ma, Q. Wen, X. Wang, L. Sun, and R. Jin. FEDformer: Frequency enhanced decomposed transformer for long-term series forecasting. In ICML, 2022. • [Woo+, arXiv, 22] G. Woo, C. Liu, D. Sahoo, A. Kumar, and S. C. H. Hoi. Etsformer: Exponential smoothing transformers for time-series forecasting. arXiv preprint arXiv:1406.1078, 2022. 26
  • 24. References (Others) • [Lai+, SIGIR’18] G. Lai, W. Chang, Y. Yang, and H. Liu. Modeling long- and short-term temporal patterns with deep neural networks. In SIGIR, 2018. • [Salinas+, Int. J. Forecast., 20] D. Salinas, V. Flunkert, J. Gasthaus, and T. Januschowski. DeepAR: Probabilistic forecasting with autoregressive recurrent networks. Int. J. Forecast., Vol. 36, 3, pp.1181-1191, 2020. • [Oreshkin+, ICLR’20] B. N. Oreshkin, D. Carpov, N. Chapados, and Y. Bengio. N-BEATS: neural basis expansion analysis for interpretable time series forecasting. In ICLR, 2020. • [Challu+, arXiv, 22] C. Challu, K. G. Olivares, B. N. Oreshkin, F. Garza, M. Mergenthaler, and A. Dubrawski. N-hits: Neural hierarchical interpolation for time series forecasting. arXiv preprint arXiv:2201.12886, 2022. • [Ishida+, ICML’20] T. Ishida, I. Yamane, T. Sakai, G. Niu, and M. Sugiyama. Do We Need Zero Training Loss After Achieving Zero Training Error? In ICML, 2020. • [Li+, NIPS’18] H. Li, Z. Xu, G. Taylor, C. Studer, and T. Goldstein. Visualizing the Loss Landscape of Neural Nets. In NIPS, 2018. • [Park+, ICLR’22] N. Park and S. Kim. How do vision transformers work? In ICLR, 2022. • [Ogasawara+, IJCNN’10] E. Ogasawara, L. C. Martinez, D. de Oliveira, G. Zimbrão, G. L. Pappa, and M. Mattoso. Adaptive Normalization: A novel data normalization approach for non-stationary time series. In IJCNN, Barcelona, Spain, 2010, pp. 1-8, doi: 10.1109/IJCNN.2010.5596746. • [Passalis+, IEEE TNNLS’20] N. Passalis, A. Tefas, J. Kanniainen, M. Gabbouj, and A. Iosifidis. Deep Adaptive Input Normalization for Time Series Forecasting. In IEEE TNNLS, vol. 31, no. 9, pp. 3760-3765, Sept. 2020, doi: 10.1109/TNNLS.2019.2944933. • [Kim+, ICLR’22] T. Kim, J. Kim, Y. Tae, C. Park, J. Choi, and J. Choo. Reversible Instance Normalization for Accurate Time-Series Forecasting against Distribution Shift. In ICLR, 2022. 27
  • 27. 時系列データの定常化 • Adaptive Normalization [Ogasawara+, IJCNN’10] – 移動平均 → 排反区間に分割 → 外れ値除去 → 区間別に正規化 • DAIN [Passalis+, IEEE TNNLS’20] – Adaptive Shift,Adaptive Scaling を NN で sample-wise で求める • RevIN [Kim+, ICLR’22] – 入力系列を Instance Normalization → 予測器で予測 → De-normalization した損失で誤差伝播 30
  • 29. データセット • ETT (Electricity Transformer Temperature): 中国69地点・2年間 (2016~2018) の変圧器の油温や電 力負荷 (ETTh1 & ETTh2: hourly, ETTm1 & ETTm2: every 15 minutes) • ECL (Electricity): 321顧客・2年間 (2012~2014) の電力使用量 (hourly) • Exchange: 8カ国・27年間 (1990~2016) の為替レート (daily) • Traffic:サンフランシスコ港862箇所・48ヶ月 (2015~2016) の道路占有率 (hourly) • Weather: 全米1600箇所・4年間 (2010~2013) の21気象指標 (every 10 minutes) • ILI: 米国・20年間 (2002~2021) のインフルエンザ様疾患患者 (weekly) 32
  • 30. NS Transformers の主結果 • Ours (vanilla Transformer w/ proposed.) が最良 – Vanilla Transformer に提案法を導 入しただけでも, 既存法を凌駕することの証左 33
  • 31. NS Transformers の他正規化手法との比較 • 既存法 (RevIN) とナイーブな標準化 (Series Stationarization) を凌駕 34
  • 32. NS Transformers の Ablation Study • 提案法 (Stat+DeAttn) が最良な ケースが多い – Stat: 定常化・非定常化 – DeFF: 正規化時の平均・分散を Transformer のFeed-Forward NN に入力 – DeAttn:Attention を De-stationary Attention に置換 35
  • 33. NS Transformers の査読者との議論 • Attention 後の MLP に正規化時の平均・分散を入れるだけではダメなのか? – 提案法は過定常化問題の知見に基づくものである • Scaling scalar τ, Shifting vector Δ は正規化時の平均・分散を直接使ってはダメなのか? – データに依存した deep features であるため MLP を通す必要がある • 正規化したものを “定常化時系列” と述べるのは不適切では? – 「定常度合いを高めること」を定常化 (stationarization) として述べる 36
  • 34. Filter-wise Normalization [Li+, NIPS’18] • 各層の各フィルタ別に正規化した2つのランダムベクトルを用いて, 3次元的に損失曲面を可視化する手法 37
  • 35. 非定常性を扱う RevIN [Kim+, ICLR’22] との組み合わせ • RevIN 単体よ りも誤差の減 少を確認 38
  • 36. EMA Model 単体との比較 • EMA model 単体(Without Bound)より,target network として EMA model を用いる提案法 (WaveBound (Indiv.))の方が予測誤差減少 39
  • 37. WaveBound 査読者との議論 • α,εはどうやって選ぶのか? – α:0.99, 0.999, 0.9999 から選択.実験では更新速度確保のため 0.99 を選択 – ε:0.01, 0.001 から選択. εに対する堅牢性を確認済み • 時系列予測モデル(TSF)で過適合が起きていることの証左は? – 合成データセットに対して TSF は容易に過適合が生じることを確認 • 計算コスト・メモリコストは? – 学習時間は 1.1~1.5 倍,学習時に必要なメモリは数%上昇 • 学習時に損失が高ければ EMA 損失も高くなり,bound にならないのでは? – EMA モデルは原モデルのアンサンブルとして機能するため,査読者が心配する状況は滅多にない – εを導入することで irreducible error に近づけられる 40
  • 38. LogTrans [Li+, NeurIPS’19] • 長期依存性を捉えるため,遠くの情報は徐々に疎にして attention する 41
  • 39. Informer [Zhou+, AAAI’20] • 長期系列を予測できるようにするため,層を経るたびに MaxPool して情報を圧縮 42
  • 40. Reformer [Kitaev+, ICLR’20] • attention の計算を同じハッシュ値の要素をまとめることで簡略化 • ハッシュ値はランダムな回転行列をかけた時の所属領域で決定 43
  • 41. Pyraformer [Liu+, ICLR’22] • 徐々に時間解像度を引き上げて attention を行っていく 44
  • 42. Autoformer [Wu+, NeurIPS’21] • フーリエ変換(FFT)して attention を取ることで,周期的な類似性を捉えた予測が可能に 45
  • 43. FEDformer [Zhou+, ICML’22] • M 周波数モードを強調する FEB-fと M 周波数モードでの注意機構である FEA-f を導入 46
  • 44. ETSformer [Woo+, arXiv, 22] • 指数移動平均で attention weight を決める Exponential Smoothing Attention 機構と top-K 周波数の情報に縮約した Frequency Attention 機構を導入 47
  • 45. LSTNet [Lai+, SIGIR’18] • 深層モデル(CNN+LSTM)と自己回帰モデル(AR)を組み合わせた予測 48
  • 46. DeepAR [Salinas+, Int. J. Forecast., 20] • AR パラメータを RNN で構成して時系列予測 49
  • 47. N-BEATS [Oreshkin+, ICLR’20] • 各ブロックで予測 (forecast)と現時点の最 良推定(backcast)を計 算し,情報を統合 50
  • 48. N-HiTS [Challu+, arXiv, 22] • N-BEATS に multi-rate signal sampling を導入 • 異なるカーネルサイズで MaxPool することで所望の scale の情報を各ブロックで学習 51

Notes de l'éditeur

  1. WaveBound, Non-stationary Transformers の二本立て
  2. 定常化の手法
  3. 世界として気象を扱うなど 世界モデルは現状工学的な応用が主であるが,非工学に拡張してきたときに起こりそう
  4. 非定常性が必要なシナリオの議論