17. Bidirectional LSTM-CRF Models for Sequence Tagging
17
LSTMとCRFの組みわせによって固有表現抽出タスクを試みた
最初の研究。
Bi-LSTMとCRFを組み合わせることでPOS, chunking, 固有表現
抽出タスクでSOTAを達成した。
単語レベルのembeddingと特徴両エンジニアリングによって得
られる特徴量の両方を組み合わせて予測を行なっている。
whether has non initial capital letters
whether has punctuation
letter prefixes and suffixes (with window size of 2 to 5)…
結局特徴量エンジニアリングをしているのでありがたみ浅い
19. ベストなアーキテクチャーは?
19
Lample et al. の比較とPeirsman のブログ「Named Entity
Recognition and the Road to Deep Learning」の比較。
Bi-LSTMは使った方がよさそう。
学習済みの分散表現もかなり効く。
文字レベルのembeddingとCRFはそこまで大きな効果をも
たらさない?
http://nlp.town/blog/ner-and-the-road-to-deep-learning/
20. 最近の動向
20
Shen et al. (2018) の「Deep Active Learning For Named
Entity」 @ ICLR2018 が詳しい。
CNNをLSTMやGRUに変えたり。
特徴量エンジニアリングを文字ベースDNNに置
換したり。
最近流行りのDilated CNN使ったり。
二つの論点
だいだいCRF使ってない?
そんなに大量にデータあるの?
https://arxiv.org/pdf/1707.05928.pdf
21. Deep Active Learning For Named Entity
21
CRFをLSTMに置換して訓練時間を短縮
Active Learning を適用することでデータ数
を約1/4にしながらも、ほぼSOTAを達成。
[感想]
時系列からの特徴量抽出はもはやLSTMの専
売特許ではなく、出力が次の出力に影響を与
える場合にのみ使えば良さそう。
CRFを完全にだいたいするためには出力も
BiLSTMにするべきでは?
23. Deep Active Learning
23
かつての、Active Learningは少量のデータ
セットで学習がそこそこうまくいくことが前提と
されていた。
Wang et al. (2016)が画像分類をCNNで解く
タスクにおいて初めてActive Learningを用いた。
学習機の確信度が低いものを優先的
に選ぶ + 確信度の高いものは除外
Zhang et al. (2017)は文書分類をCNNで解く
タスクに関してActive Learningを用いた。
埋め込み空間に大きな影響を与える
サンプルを優先的に選ぶ。
Gal et al. (2017)は深層学習用にベイジアン
ベースのサンプリング手法を提案
https://arxiv.org/pdf/1701.03551.pdf
https://arxiv.org/pdf/1606.04212.pdf
24. Deep Active Learning For Named Entity
24
Shen et al. (2018)は系列タグ付け問題に対して
Active Learningを用いた。
Least Confidence
Maximum Normalized Log-Probability
Bayesian Active Learning by Disagreement
SUBMODular optimization problem
https://arxiv.org/pdf/1707.05928.pdf