Accueil
Explorer
Soumettre la recherche
Mettre en ligne
S’identifier
S’inscrire
Publicité
Check these out next
Recurrent Neural Network
KozoChikai
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
Yuki Tomo
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Ohsawa Goodfellow
A scalable probablistic classifier for language modeling: ACL 2011 読み会
正志 坪坂
Query and output generating words by querying distributed word representatio...
ryoma yoshimura
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
禎晃 山崎
dont_count_predict_in_acl2014
Sho Takase
Generalized data augmentation for low resource translation
platinum-vallay
1
sur
30
Top clipped slide
ORDERED NEURONS: INTEGRATING TREE STRUCTURES INTO RECURRENT NEURAL NETWORKS
15 Mar 2022
•
0 j'aime
0 j'aime
×
Soyez le premier à aimer ceci
afficher plus
•
92 vues
vues
×
Nombre de vues
0
Sur Slideshare
0
À partir des intégrations
0
Nombre d'intégrations
0
Télécharger maintenant
Télécharger pour lire hors ligne
Signaler
Données & analyses
https://openreview.net/pdf?id=B1l6qiR5F7 の解説論文。備忘録
RI
Suivre
System engineer
Publicité
Publicité
Publicité
Recommandé
文献紹介:SemEval-2012 Task 1: English Lexical Simplification
Tomoyuki Kajiwara
632 vues
•
25 diapositives
2015 08 survey
marujirou
3.1K vues
•
15 diapositives
Minimally Supervised Classification to Semantic Categories using Automaticall...
sakaizawa
381 vues
•
21 diapositives
Segmenting Sponteneous Japanese using MDL principle
Yusuke Matsubara
669 vues
•
18 diapositives
Paper: seq2seq 20190320
Yusuke Fujimoto
172 vues
•
30 diapositives
Distributed Representations of Sentences and Documents
sakaizawa
1.7K vues
•
23 diapositives
Contenu connexe
Présentations pour vous
(11)
Recurrent Neural Network
KozoChikai
•
47 vues
EMNLP 2015 読み会 @ 小町研 "Morphological Analysis for Unsegmented Languages using ...
Yuki Tomo
•
1K vues
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Ohsawa Goodfellow
•
5.6K vues
A scalable probablistic classifier for language modeling: ACL 2011 読み会
正志 坪坂
•
3.7K vues
Query and output generating words by querying distributed word representatio...
ryoma yoshimura
•
327 vues
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
禎晃 山崎
•
317 vues
dont_count_predict_in_acl2014
Sho Takase
•
1.9K vues
Generalized data augmentation for low resource translation
platinum-vallay
•
220 vues
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
Deep Learning JP
•
20.3K vues
読解支援@2015 06-05
sekizawayuuki
•
149 vues
単語分散表現を用いた多層 Denoising Auto-Encoder による評価極性分類
Peinan ZHANG
•
2.1K vues
Similaire à ORDERED NEURONS: INTEGRATING TREE STRUCTURES INTO RECURRENT NEURAL NETWORKS
(20)
深層学習による自然言語処理の研究動向
STAIR Lab, Chiba Institute of Technology
•
37.5K vues
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
STAIR Lab, Chiba Institute of Technology
•
2.8K vues
Approximate Scalable Bounded Space Sketch for Large Data NLP
Koji Matsuda
•
2K vues
Extract and edit
禎晃 山崎
•
167 vues
言語処理系入門1
Kenta Hattori
•
3.3K vues
第64回情報科学談話会(岡﨑 直観 准教授)
gsis gsis
•
1.3K vues
Jubatusの特徴変換と線形分類器の仕組み
JubatusOfficial
•
6.9K vues
Deep learning勉強会20121214ochi
Ohsawa Goodfellow
•
26.8K vues
Learning to forget continual prediction with lstm
Fujimoto Keisuke
•
56.5K vues
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
Takashi YAMAMURA
•
229 vues
2021 10-07 kdd2021読み会 uc phrase
Tatsuya Shirakawa
•
3.7K vues
全力解説!Transformer
Arithmer Inc.
•
7.4K vues
Chainer with natural language processing hands on
Ogushi Masaya
•
2.8K vues
Ordered neurons integrating tree structures into recurrent neural networks
Kazuki Fujikawa
•
152 vues
文献紹介:Recursive Deep Models for Semantic Compositionality Over a Sentiment Tre...
Shohei Okada
•
1.1K vues
Character word lstm language models
浩気 西山
•
254 vues
日本語テキスト音声合成のための句境界予測モデルの検討
Kosuke Futamata
•
49 vues
[ACL2018読み会資料] Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use C...
Hayahide Yamagishi
•
445 vues
BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈
順也 山口
•
4.1K vues
Neural Models for Information Retrieval
Keisuke Umezawa
•
1.6K vues
Publicité
Dernier
(20)
43圣玛丽大学.pdf
dsadasd17
•
2 vues
#国外留学文凭购买York U假毕业证书
fc2c0f2b1mymailol
•
2 vues
18联邦大学.pdf
dsadasd17
•
2 vues
52魁北克大学.pdf
fdhrtf
•
0 vue
13UIUC.pdf
fdhrtf
•
0 vue
238-金门大学.pdf
dsadasd17
•
2 vues
#国外文凭办理Seneca学位证成绩单
08e9d7528d5drman
•
3 vues
2渥太华大学.pdf
dsadasd17
•
3 vues
#国外留学文凭购买Brandon假毕业证书
fc2c0f2b1mymailol
•
2 vues
25戴尔豪斯大学.pdf
fdhrtf
•
0 vue
6.帝国理工.pdf
fdhrtf
•
0 vue
46圣文森山大学.pdf
dsadasd17
•
2 vues
22.诺丁汉大学.pdf
dsadasd17
•
2 vues
51西雅图大学.pdf
dsadasd17
•
2 vues
32华盛顿大学.pdf
dsadasd17
•
2 vues
26中央昆士兰大学.pdf
fdhrtf
•
0 vue
74拉萨尔学院.pdf
dsadasd17
•
2 vues
Santa2022振り返り 〜初めてのチームマージ〜
Tomoki Yoshida
•
12 vues
207-南达科他大学.pdf
fdhrtf
•
0 vue
#国外留学文凭购买约克大学假毕业证书
fc2c0f2b1mymailol
•
2 vues
ORDERED NEURONS: INTEGRATING TREE STRUCTURES INTO RECURRENT NEURAL NETWORKS
Ordered Neurons Integrating Tree
Structures into Recurrent Neural Network pdf (openreview.net) 1
まとめ 1. LSTMの精度を向上させるための新しいモデルの紹介 2. 新しい活性化関数cumaxとON-LSTMの提案 3.
言語モデル,教師なし構文解析などのタスクで優れた結果 既存研究との違い • LSTMの忘却ゲートと入力ゲートに新しい項を追加 • 特徴量を階層的に獲得 • 構文木における根から葉までの情報を動的に割り当て 提案のウリ(利点・貢献)・問題点 1. cumax関数を用いたLSTMで構文木情報を考慮 2. 構文解析で高い精度 3. 文長に対して高いロバスト性 1. 入力部,出力部に近い層としてはあまり有効では無い 評価の仮説と評価方法・結果 1. 構文木情報は自然言語タスクで有用 忘却ゲートと入力ゲートに構文木情報を追加して実験 2. 構文の情報を確保したい構文解析系のタスクで評価 先行研究と同じハイパーパラメータで評価 高い精度を報告 評価方法・結果についての議論と課題 1. WSJやWSJ10を利用 2. 専門家のアノテーションと比較しても高い一貫性 1. 入力部や出力部に近いとローカルな情報を獲得しすぎる 2. 句構造等を利用するタスクの最初の処理として有用 3. softmaxの改善として見ることが可能 読むべき関連研究 1. Linzen et al(2016) 2. Rippel et al(2014) 3. Marvin & Linzen(2018) ORDERED NEURONS INTEGRATING TREE STRUCTURES INTO RECURRENT NEURAL NETWORK Yikang Shen,Shawn Tan, Alessandro Sordoni, Aaron Courville ICLR 2019 (Best Paper) 2
Introduction 3 自然言語は階層的構造を持っている 人手でアノテーションされた構文木例 木構造をニューラルネットワークの言語モデルに加えることは重要
高い抽象度で階層表現の獲得 離れた位置の依存関係の獲得 大量の学習データの必要性を減少 構文情報 文 構文解析などのタスクで高い精度 ON-LSTM
モチベーション 4 木構造を学習する際に各ノードの特徴を学習したい 親ノードは複数のトークンの特徴にまたがってほしい
子ノードの特徴は更新したい
モチベーション 5 木構造を学習する際に各ノードの特徴を学習したい 親ノードは変化しない S →
S 子ノードは変化する NP → VP N → V 親ノードは複数のトークンの特徴にまたがってほしい 子ノードの特徴は更新したい
標準LSTM 6 σ σ σ tanh × × + × tanh 𝑐𝑡 𝑓𝑡
𝑖𝑡 𝑐𝑡 𝑐𝑡−1 ℎ𝑡−1 𝑥𝑡 𝑜𝑡 ℎ𝑡 ℎ𝑡 ℎ𝑡 𝑐𝑡 0~1を出力 σ tanh -1~1を出力
標準LSTM 7 σ σ σ tanh × × + × tanh 忘却ゲート
入力ゲート 𝑐𝑡 𝑓𝑡 𝑖𝑡 0~1を出力 σ tanh -1~1を出力 𝑐𝑡 𝑐𝑡−1 ℎ𝑡−1 𝑥𝑡 𝑜𝑡 ℎ𝑡 ℎ𝑡 ℎ𝑡 𝑐𝑡
ON-LSTM 8 σ σ σ tanh × × + × tanh cumax
cumax × 1- - - + × × + Order Neurons Gate 𝑖𝑡 𝑐𝑡 𝑓𝑡 𝑐𝑡 𝑐𝑡−1 ℎ𝑡−1 𝑥𝑡 𝑜𝑡 ℎ𝑡 ℎ𝑡 ℎ𝑡 𝑐𝑡
ON-LSTM 9 σ σ σ tanh × × + × tanh cumax
cumax × 1- - - + × × + 𝑖𝑡 𝑐𝑡 𝑓𝑡 𝑓𝑡 𝑖𝑡 ω𝑡 𝑓𝑡 𝑖𝑡 𝑐𝑡 𝑐𝑡−1 ℎ𝑡−1 𝑥𝑡 𝑜𝑡 ℎ𝑡 ℎ𝑡 𝑐𝑡
ON-LSTM 10 σ σ σ tanh × × + × tanh cumax
cumax × 1- - - + × × + 忘却ゲート 入力ゲート 𝑖𝑡 𝑐𝑡 𝑓𝑡 𝑓𝑡 𝑖𝑡 ω𝑡 𝑓𝑡 𝑖𝑡 𝑐𝑡 𝑐𝑡−1 ℎ𝑡−1 𝑥𝑡 𝑜𝑡 ℎ𝑡 ℎ𝑡 𝑐𝑡
11 cumax 累積Softmax関数 cumax 𝑔𝑘 = 𝑒𝑥𝑖 𝑗=1 𝑁 𝑒𝑥𝑗 𝑔𝑘
= 𝑘′≦ 𝑘 𝑔𝑘 ex) N =10 Softmax 仕切りの役割を持たせることができる 活性化関数cumax (cumulative softmax) 𝑥𝑖 Softmax 各トークンの出力 cumax 仕切り 高い値が出力された後は連続して高い値を出力 𝑥𝑖 仕切り
ON-LSTM 12 σ σ σ tanh × × + × tanh cumax
cumax × 1- - - + × × + 忘却ゲート 入力ゲート 𝑖𝑡 𝑐𝑡 𝑓𝑡 𝑓𝑡 𝑖𝑡 ω𝑡 𝑓𝑡 𝑖𝑡 𝑐𝑡 𝑐𝑡−1 ℎ𝑡−1 𝑥𝑡 𝑜𝑡 ℎ𝑡 ℎ𝑡 𝑐𝑡
ON-LSTM 忘却ゲート 13 σ × cumax × - × + 𝑓𝑡 𝑓𝑡 ω𝑡 𝑓𝑡 cumax 1- 𝑖𝑡 𝑐𝑡−1 ℎ𝑡−1 𝑥𝑡 𝑓𝑡 𝑖𝑡 ω𝑡 重複部分を導出 必ずしも反転しない
ON-LSTM 忘却ゲート 14 σ × cumax × - × + 𝑓𝑡 𝑓𝑡 ω𝑡 𝑓𝑡 cumax 1- 𝑖𝑡 𝑐𝑡−1 ℎ𝑡−1 𝑥𝑡 𝑓𝑡 ω𝑡 重複部分を削除 ω𝑡 忘れるべき情報とω𝑡の重複部分を導出 𝑓𝑡
ON-LSTM 忘却ゲート 15 σ × cumax × - × + 𝑓𝑡 𝑓𝑡 ω𝑡 𝑓𝑡 cumax 1- 𝑖𝑡 𝑐𝑡−1 ℎ𝑡−1 𝑥𝑡 これらの和が𝑓𝑡になる 𝑓𝑡 𝑓𝑡 比較 𝑓𝑡 構文木情報を考慮
ON-LSTM 入力ゲート 16 σ tanh × + cumax 1- -
+ × 𝑖𝑡 𝑐𝑡 𝑖𝑡 ω𝑡 𝑖𝑡 𝑐𝑡 × cumax 𝑓𝑡 𝑓𝑡 𝑖𝑡 ω𝑡 重複部分を導出 必ずしも反転しない
ON-LSTM 入力ゲート 17 σ tanh × + cumax 1- -
+ × 𝑖𝑡 𝑐𝑡 𝑖𝑡 ω𝑡 𝑖𝑡 𝑐𝑡 × cumax 𝑓𝑡 𝑖𝑡 ω𝑡 重複部分を削除 ω𝑡 残すべき情報とω𝑡の重複部分を導出 𝑖𝑡
ON-LSTM 入力ゲート 18 σ tanh × + cumax 1- -
+ × 𝑖𝑡 𝑐𝑡 𝑖𝑡 ω𝑡 𝑖𝑡 𝑐𝑡 × cumax 𝑓𝑡 これらの和が𝑖𝑡になる 𝑖𝑡 𝑖𝑡 比較 𝑖𝑡 構文木情報を考慮
ON-LSTM 19 σ σ σ tanh × × + × tanh cumax
cumax × 1- - - + × × + 忘却ゲート 入力ゲート 𝑖𝑡 𝑐𝑡 𝑓𝑡 𝑓𝑡 𝑖𝑡 ω𝑡 𝑓𝑡 𝑖𝑡 𝑐𝑡 𝑐𝑡−1 ℎ𝑡−1 𝑥𝑡 𝑜𝑡 ℎ𝑡 ℎ𝑡 𝑐𝑡
実験 言語モデリング Penn TreeBankで評価 ハイパーパラメータはMerityらのモデル(2017)に合わせたものを使用 スキップコネクションやパラメータ数を増やすことなく高い精度 隠れ層数1150 隠れ層サイズ
400 ON-LSTM 3層 総パラメータ 2500万 次の単語を予測するタスク 20
実験 教師無し構文解析 専門家のアノテーションと比較 WSJ10とWSJで評価 WSJ10
10単語以下 7422文 WSJ 文長制限なし 2416文 21 1層目と3層目は入力と出力に直接関与 ローカルな情報を獲得しすぎている? 文長の違うWSJで高い精度 文の長さに対するロバスト性
実験 教師無し構文解析 専門家のアノテーションと比較 WSJ10とWSJで評価 WSJ10
10単語以下 7422文 WSJ 文長制限なし 2416文 21 ADJP(形容詞句),NP(名詞句),PP(前置詞句)などで高い精度 句構造を使いたいタスクで有用
実験 23 教師無し構文解析 専門家のアノテーションと比較 学習済みの言語モデルを用いて構文解析木を推定 各時刻tで 𝑑𝑡=
𝐷𝑚 − 𝑘=1 𝐷𝑚 𝑓𝑡𝑘 を算出 𝐷𝑚: 隠れ層の次元数 ① ② 𝑑𝑡についてソート,値が大きなt,t+1 の組から順に分割して木を構築 ‘I enjoy reading books’の𝑑𝑡を考える I enjoy reading books 𝑑1 𝑑2 𝑑3 𝑑4 I enjoy reading books .
実験 24 教師無し構文解析 専門家のアノテーションと比較 学習済みの言語モデルを用いて構文解析木を推定 各時刻tで 𝑑𝑡=
𝐷𝑚 − 𝑘=1 𝐷𝑚 𝑓𝑡𝑘 を算出 𝐷𝑚: 隠れ層の次元数 ① ② 𝑑𝑡についてソート,値が大きなt,t+1 の組から順に分割して木を構築 ‘I enjoy reading books’の𝑑𝑡を考える 𝑑1 𝑑2 𝑑3 𝑑4 I enjoy reading books I enjoy reading books . .
実験 25 教師無し構文解析 専門家のアノテーションと比較 学習済みの言語モデルを用いて構文解析木を推定 各時刻tで 𝑑𝑡=
𝐷𝑚 − 𝑘=1 𝐷𝑚 𝑓𝑡𝑘 を算出 𝐷𝑚: 隠れ層の次元数 ① ② 𝑑𝑡についてソート,値が大きなt,t+1 の組から順に分割して木を構築 ‘I enjoy reading books’の𝑑𝑡を考える 𝑑1 𝑑2 𝑑3 𝑑4 I enjoy reading books I enjoy reading books . .
実験 26 教師無し構文解析 専門家のアノテーションと比較 学習済みの言語モデルを用いて構文解析木を推定 各時刻tで 𝑑𝑡=
𝐷𝑚 − 𝑘=1 𝐷𝑚 𝑓𝑡𝑘 を算出 𝐷𝑚: 隠れ層の次元数 ① ② 𝑑𝑡についてソート,値が大きなt,t+1 の組から順に分割して木を構築 ‘I enjoy reading books’の𝑑𝑡を考える 𝑑1 𝑑2 𝑑3 𝑑4 I enjoy reading books I enjoy reading books . .
実験 27 教師無し構文解析 専門家のアノテーションと比較 学習済みの言語モデルを用いて構文解析木を推定 各時刻tで 𝑑𝑡=
𝐷𝑚 − 𝑘=1 𝐷𝑚 𝑓𝑡𝑘 を算出 𝐷𝑚: 隠れ層の次元数 ① ② 𝑑𝑡についてソート,値が大きなt,t+1 の組から順に分割して木を構築 ‘I enjoy reading books’の𝑑𝑡を考える 𝑑1 𝑑2 𝑑3 𝑑4 I enjoy reading books I enjoy reading books . .
実験 28 ターゲットを絞った構文解析 Marvin&Linzen(2018)が提案したタスク
実験 29 論理的推論 Test Accuracy Length of Sequence TreeLSTMは入力にGround
Truthがあるため強い 論理関係を抽出するタスク 文長が3以上で優れた結果
Conclusion 新しい活性化関数cumaxと新しい特徴抽出器ON-LSTMを提案 構文木の特徴を獲得 構文解析系のタスクで高い精度 句構造を利用するタスクで使える 30
Publicité