Publicité
Publicité

Contenu connexe

Similaire à ORDERED NEURONS: INTEGRATING TREE STRUCTURES INTO RECURRENT NEURAL NETWORKS(20)

Publicité

ORDERED NEURONS: INTEGRATING TREE STRUCTURES INTO RECURRENT NEURAL NETWORKS

  1. Ordered Neurons Integrating Tree Structures into Recurrent Neural Network pdf (openreview.net) 1
  2. まとめ 1. LSTMの精度を向上させるための新しいモデルの紹介 2. 新しい活性化関数cumaxとON-LSTMの提案 3. 言語モデル,教師なし構文解析などのタスクで優れた結果 既存研究との違い • LSTMの忘却ゲートと入力ゲートに新しい項を追加 • 特徴量を階層的に獲得 • 構文木における根から葉までの情報を動的に割り当て 提案のウリ(利点・貢献)・問題点 1. cumax関数を用いたLSTMで構文木情報を考慮 2. 構文解析で高い精度 3. 文長に対して高いロバスト性 1. 入力部,出力部に近い層としてはあまり有効では無い 評価の仮説と評価方法・結果 1. 構文木情報は自然言語タスクで有用 忘却ゲートと入力ゲートに構文木情報を追加して実験 2. 構文の情報を確保したい構文解析系のタスクで評価 先行研究と同じハイパーパラメータで評価 高い精度を報告 評価方法・結果についての議論と課題 1. WSJやWSJ10を利用 2. 専門家のアノテーションと比較しても高い一貫性 1. 入力部や出力部に近いとローカルな情報を獲得しすぎる 2. 句構造等を利用するタスクの最初の処理として有用 3. softmaxの改善として見ることが可能 読むべき関連研究 1. Linzen et al(2016) 2. Rippel et al(2014) 3. Marvin & Linzen(2018) ORDERED NEURONS INTEGRATING TREE STRUCTURES INTO RECURRENT NEURAL NETWORK Yikang Shen,Shawn Tan, Alessandro Sordoni, Aaron Courville ICLR 2019 (Best Paper) 2
  3. Introduction 3  自然言語は階層的構造を持っている 人手でアノテーションされた構文木例  木構造をニューラルネットワークの言語モデルに加えることは重要  高い抽象度で階層表現の獲得  離れた位置の依存関係の獲得  大量の学習データの必要性を減少 構文情報 文  構文解析などのタスクで高い精度 ON-LSTM
  4. モチベーション 4  木構造を学習する際に各ノードの特徴を学習したい  親ノードは複数のトークンの特徴にまたがってほしい  子ノードの特徴は更新したい
  5. モチベーション 5  木構造を学習する際に各ノードの特徴を学習したい 親ノードは変化しない S → S 子ノードは変化する NP → VP N → V  親ノードは複数のトークンの特徴にまたがってほしい  子ノードの特徴は更新したい
  6. 標準LSTM 6 σ σ σ tanh × × + × tanh 𝑐𝑡 𝑓𝑡 𝑖𝑡 𝑐𝑡 𝑐𝑡−1 ℎ𝑡−1 𝑥𝑡 𝑜𝑡 ℎ𝑡 ℎ𝑡 ℎ𝑡 𝑐𝑡 0~1を出力 σ tanh -1~1を出力
  7. 標準LSTM 7 σ σ σ tanh × × + × tanh 忘却ゲート 入力ゲート 𝑐𝑡 𝑓𝑡 𝑖𝑡 0~1を出力 σ tanh -1~1を出力 𝑐𝑡 𝑐𝑡−1 ℎ𝑡−1 𝑥𝑡 𝑜𝑡 ℎ𝑡 ℎ𝑡 ℎ𝑡 𝑐𝑡
  8. ON-LSTM 8 σ σ σ tanh × × + × tanh cumax cumax × 1- - - + × × + Order Neurons Gate 𝑖𝑡 𝑐𝑡 𝑓𝑡 𝑐𝑡 𝑐𝑡−1 ℎ𝑡−1 𝑥𝑡 𝑜𝑡 ℎ𝑡 ℎ𝑡 ℎ𝑡 𝑐𝑡
  9. ON-LSTM 9 σ σ σ tanh × × + × tanh cumax cumax × 1- - - + × × + 𝑖𝑡 𝑐𝑡 𝑓𝑡 𝑓𝑡 𝑖𝑡 ω𝑡 𝑓𝑡 𝑖𝑡 𝑐𝑡 𝑐𝑡−1 ℎ𝑡−1 𝑥𝑡 𝑜𝑡 ℎ𝑡 ℎ𝑡 𝑐𝑡
  10. ON-LSTM 10 σ σ σ tanh × × + × tanh cumax cumax × 1- - - + × × + 忘却ゲート 入力ゲート 𝑖𝑡 𝑐𝑡 𝑓𝑡 𝑓𝑡 𝑖𝑡 ω𝑡 𝑓𝑡 𝑖𝑡 𝑐𝑡 𝑐𝑡−1 ℎ𝑡−1 𝑥𝑡 𝑜𝑡 ℎ𝑡 ℎ𝑡 𝑐𝑡
  11. 11 cumax 累積Softmax関数 cumax 𝑔𝑘 = 𝑒𝑥𝑖 𝑗=1 𝑁 𝑒𝑥𝑗 𝑔𝑘 = 𝑘′≦ 𝑘 𝑔𝑘 ex) N =10 Softmax  仕切りの役割を持たせることができる 活性化関数cumax (cumulative softmax) 𝑥𝑖 Softmax 各トークンの出力 cumax 仕切り  高い値が出力された後は連続して高い値を出力 𝑥𝑖 仕切り
  12. ON-LSTM 12 σ σ σ tanh × × + × tanh cumax cumax × 1- - - + × × + 忘却ゲート 入力ゲート 𝑖𝑡 𝑐𝑡 𝑓𝑡 𝑓𝑡 𝑖𝑡 ω𝑡 𝑓𝑡 𝑖𝑡 𝑐𝑡 𝑐𝑡−1 ℎ𝑡−1 𝑥𝑡 𝑜𝑡 ℎ𝑡 ℎ𝑡 𝑐𝑡
  13. ON-LSTM 忘却ゲート 13 σ × cumax × - × + 𝑓𝑡 𝑓𝑡 ω𝑡 𝑓𝑡 cumax 1- 𝑖𝑡 𝑐𝑡−1 ℎ𝑡−1 𝑥𝑡 𝑓𝑡 𝑖𝑡 ω𝑡 重複部分を導出 必ずしも反転しない
  14. ON-LSTM 忘却ゲート 14 σ × cumax × - × + 𝑓𝑡 𝑓𝑡 ω𝑡 𝑓𝑡 cumax 1- 𝑖𝑡 𝑐𝑡−1 ℎ𝑡−1 𝑥𝑡 𝑓𝑡 ω𝑡 重複部分を削除 ω𝑡 忘れるべき情報とω𝑡の重複部分を導出 𝑓𝑡
  15. ON-LSTM 忘却ゲート 15 σ × cumax × - × + 𝑓𝑡 𝑓𝑡 ω𝑡 𝑓𝑡 cumax 1- 𝑖𝑡 𝑐𝑡−1 ℎ𝑡−1 𝑥𝑡 これらの和が𝑓𝑡になる 𝑓𝑡 𝑓𝑡 比較 𝑓𝑡 構文木情報を考慮
  16. ON-LSTM 入力ゲート 16 σ tanh × + cumax 1- - + × 𝑖𝑡 𝑐𝑡 𝑖𝑡 ω𝑡 𝑖𝑡 𝑐𝑡 × cumax 𝑓𝑡 𝑓𝑡 𝑖𝑡 ω𝑡 重複部分を導出 必ずしも反転しない
  17. ON-LSTM 入力ゲート 17 σ tanh × + cumax 1- - + × 𝑖𝑡 𝑐𝑡 𝑖𝑡 ω𝑡 𝑖𝑡 𝑐𝑡 × cumax 𝑓𝑡 𝑖𝑡 ω𝑡 重複部分を削除 ω𝑡 残すべき情報とω𝑡の重複部分を導出 𝑖𝑡
  18. ON-LSTM 入力ゲート 18 σ tanh × + cumax 1- - + × 𝑖𝑡 𝑐𝑡 𝑖𝑡 ω𝑡 𝑖𝑡 𝑐𝑡 × cumax 𝑓𝑡 これらの和が𝑖𝑡になる 𝑖𝑡 𝑖𝑡 比較 𝑖𝑡 構文木情報を考慮
  19. ON-LSTM 19 σ σ σ tanh × × + × tanh cumax cumax × 1- - - + × × + 忘却ゲート 入力ゲート 𝑖𝑡 𝑐𝑡 𝑓𝑡 𝑓𝑡 𝑖𝑡 ω𝑡 𝑓𝑡 𝑖𝑡 𝑐𝑡 𝑐𝑡−1 ℎ𝑡−1 𝑥𝑡 𝑜𝑡 ℎ𝑡 ℎ𝑡 𝑐𝑡
  20. 実験 言語モデリング Penn TreeBankで評価 ハイパーパラメータはMerityらのモデル(2017)に合わせたものを使用 スキップコネクションやパラメータ数を増やすことなく高い精度 隠れ層数1150 隠れ層サイズ 400 ON-LSTM 3層 総パラメータ 2500万 次の単語を予測するタスク 20
  21. 実験 教師無し構文解析 専門家のアノテーションと比較 WSJ10とWSJで評価 WSJ10 10単語以下 7422文 WSJ 文長制限なし 2416文 21 1層目と3層目は入力と出力に直接関与  ローカルな情報を獲得しすぎている? 文長の違うWSJで高い精度  文の長さに対するロバスト性
  22. 実験 教師無し構文解析 専門家のアノテーションと比較 WSJ10とWSJで評価 WSJ10 10単語以下 7422文 WSJ 文長制限なし 2416文 21 ADJP(形容詞句),NP(名詞句),PP(前置詞句)などで高い精度  句構造を使いたいタスクで有用
  23. 実験 23 教師無し構文解析 専門家のアノテーションと比較 学習済みの言語モデルを用いて構文解析木を推定 各時刻tで 𝑑𝑡= 𝐷𝑚 − 𝑘=1 𝐷𝑚 𝑓𝑡𝑘 を算出 𝐷𝑚: 隠れ層の次元数 ① ② 𝑑𝑡についてソート,値が大きなt,t+1 の組から順に分割して木を構築 ‘I enjoy reading books’の𝑑𝑡を考える I enjoy reading books 𝑑1 𝑑2 𝑑3 𝑑4 I enjoy reading books .
  24. 実験 24 教師無し構文解析 専門家のアノテーションと比較 学習済みの言語モデルを用いて構文解析木を推定 各時刻tで 𝑑𝑡= 𝐷𝑚 − 𝑘=1 𝐷𝑚 𝑓𝑡𝑘 を算出 𝐷𝑚: 隠れ層の次元数 ① ② 𝑑𝑡についてソート,値が大きなt,t+1 の組から順に分割して木を構築 ‘I enjoy reading books’の𝑑𝑡を考える 𝑑1 𝑑2 𝑑3 𝑑4 I enjoy reading books I enjoy reading books . .
  25. 実験 25 教師無し構文解析 専門家のアノテーションと比較 学習済みの言語モデルを用いて構文解析木を推定 各時刻tで 𝑑𝑡= 𝐷𝑚 − 𝑘=1 𝐷𝑚 𝑓𝑡𝑘 を算出 𝐷𝑚: 隠れ層の次元数 ① ② 𝑑𝑡についてソート,値が大きなt,t+1 の組から順に分割して木を構築 ‘I enjoy reading books’の𝑑𝑡を考える 𝑑1 𝑑2 𝑑3 𝑑4 I enjoy reading books I enjoy reading books . .
  26. 実験 26 教師無し構文解析 専門家のアノテーションと比較 学習済みの言語モデルを用いて構文解析木を推定 各時刻tで 𝑑𝑡= 𝐷𝑚 − 𝑘=1 𝐷𝑚 𝑓𝑡𝑘 を算出 𝐷𝑚: 隠れ層の次元数 ① ② 𝑑𝑡についてソート,値が大きなt,t+1 の組から順に分割して木を構築 ‘I enjoy reading books’の𝑑𝑡を考える 𝑑1 𝑑2 𝑑3 𝑑4 I enjoy reading books I enjoy reading books . .
  27. 実験 27 教師無し構文解析 専門家のアノテーションと比較 学習済みの言語モデルを用いて構文解析木を推定 各時刻tで 𝑑𝑡= 𝐷𝑚 − 𝑘=1 𝐷𝑚 𝑓𝑡𝑘 を算出 𝐷𝑚: 隠れ層の次元数 ① ② 𝑑𝑡についてソート,値が大きなt,t+1 の組から順に分割して木を構築 ‘I enjoy reading books’の𝑑𝑡を考える 𝑑1 𝑑2 𝑑3 𝑑4 I enjoy reading books I enjoy reading books . .
  28. 実験 28 ターゲットを絞った構文解析 Marvin&Linzen(2018)が提案したタスク
  29. 実験 29 論理的推論 Test Accuracy Length of Sequence TreeLSTMは入力にGround Truthがあるため強い 論理関係を抽出するタスク  文長が3以上で優れた結果
  30. Conclusion 新しい活性化関数cumaxと新しい特徴抽出器ON-LSTMを提案 構文木の特徴を獲得 構文解析系のタスクで高い精度 句構造を利用するタスクで使える 30
Publicité