NLPにおける再現性
- 11. 10
どうすればよい?
l 「ちゃんとやっているよ感」が大事 (多分)
l なるべく条件をしっかり書く
• AppendixでOK
• 可読な設定ファイルをsupplementary materialとしてつけ
てくれてもOK
l Rebuttal 時の根拠
• 査読者が言っていることが正しそうか
vs 著者が言っていることが正しそうか
• Meta-reviewer を味方につけたい
=> でも reviewer 見てないし...
=> でも meta-reviewer も見てないし...fin.
- 22. 21
[余談] Testset tuning
l DNNになって比較的簡単に恣意的な結果をだせ
るようになった
ÞTestset-tuning疑惑の論文が散見されるように
なった??? (この値本当に出る?)
Þとはいえ,難しい問題が...
これは絶対にやってはいけない
- 23. 22
Random seedで複数回評価
l 5回(できれば10回)Random Seedを変えて
実験
l 平均を報告
l (検定をするなら)Non-parametric な検定
• かなり厳しい設定の検定
=> これで有意差がでるならよいと考える
1 2 3 4 5 Ave
21.5 20.9 21.4 20.9 21.8 21.30
21.1 20.8 21.7 21.1 21.0 21.14