Contenu connexe
Plus de Hayahide Yamagishi (16)
[ML論文読み会資料] Training RNNs as Fast as CNNs
- 1. Training RNNs as Fast as CNNs
Tao Lei, Yu Zhang and Yoav Artzi
arXiv 2017/09 (11月版を紹介)
M1 山岸駿秀
- 4. SRU
● 入力: X = {x1
, … , xt
, … , xn
} (xt
はd次元のベクトル)
● 各重み行列 W は d×d次元
● ゲート
○ Forget gate: f
○ Reset gate: r
● メモリセルct
をもつ
○ これは並列化できない
- 6. 実際の計算
● U(n × (minibatch_size) × 3d次元)の行列で代用
● LSTM: 各時刻で行列積を4回計算
● SRU: 全時刻で1回だけ計算
- 9. 実験
● 5つの実験
○ Classification
○ Question Answering
○ Language Modeling
○ Neural Machine Translation
○ Speech Recognition(省略)
● 共通の設定
○ GPU: GeForce GTX1070、Cuda 8.0
○ 処理速度は学習時に計測
○ 引用がない結果は著者がPyTorchで再実装 (SRUもPyTorch)
○ Dropoutは時間軸方向にもかける
- 10. 実験1: Classification
● 6つの実験
○ Movie review sentiment
○ Subjectivity
○ Customer review polarity
○ TREC question type
○ MPQA polarity
○ SST
● 文が入力(各単語の分散表現はGoogle Newsで学習)
○ 1000億語あるコーパス
- 15. 実験2: Question Answering
● Data: SQuAD (Stanford Question Answering Dataset)
○ 質問と回答のペアが10万対
○ Wikipediaより抽出
● 設定
○ Document Reader model [Chen+ ACL2017] で使われている
LSTMをSRUにする
○ 隠れ層の次元: 128
○ dropoutの確率は一番良かったものを選択
■ SRU = 0.2、LSTM = 0.3
○ F値とExact Matchで測定
- 17. 実験3: Language Modeling
● Data: Penn Treebank corpus
● 設定
○ dropout: 0.75
○ SGD(学習率1.0にして、175 epoch以降を0.98倍していく)
○ 300 epoch
○ g( )は恒等変換
- 20. 実験4: Machine Translation
● Data: WMT2014 英独翻訳
○ 400万文対
○ newstest2012と2013をdev、2014をtestに使用
● OpenNMT-pyを書き換えてSRUにした
○ Luongのattention
○ 前の隠れ層ht-1
(h~
t-1
では)を入力するが並列化のため未入力
○ 隠れ層の次元: 500