SlideShare une entreprise Scribd logo
1  sur  24
NLP2022 Workshop
NLPにおける再現性
東北大学 データ駆動科学・AI教育研究センター
鈴木 潤
2022.03.18
1
l 話題
l DNN手法の再現が難しい問題
l SOTAとの比較問題
l モデル選択
• Testset-tuning
l Random Seed
2
[注意事項]
1. 現時点でわかっている範囲での解釈なので,今
後の研究成果によっては,ここで話したやり方
がよくない可能性があると思います.
2. 個人的な意見を含むので,異論は普通にありえ
ます.あくまで一つの観点からの参考意見とい
う位置づけで聞いてほしいと思います.
3. 与えられた状況の中で最善を目指して試行錯誤
している途中の現時点のやり方になります.
3
l DNN手法の再現が難しい問題
4
DNNの学習の再現性
l 比較:SVM
l 制約付き凸関数
l 大域的最適解
l 使うツールが違っても
えられる解は大体同じ
l ハイパラは基本一つ
l DNN
l 複雑な非凸関数
l 局所解がたくさんある
l ツールが違うと結果が変
わる可能性
l ハイパラたくさん
5
多くの理由で再現しない
l Random Seed
l GPU
l Library version
l Driver version
l 並列処理
l ...
6
多くの理由で再現しない
l Random Seed
https://arxiv.org/abs/2109.08203
https://arxiv.org/abs/2002.06305
7
多くの理由で再現しない
l GPU
https://arxiv.org/abs/2106.11872
8
多くの理由で再現しない
l 並列処理
l GPUは非同期で並列処理をしている (場合が多い) の
で計算結果が毎回変わる可能性がある
l そもそも学習したモデルが局所解まで到達して
ないのでは疑惑?
l => (学習問題としては) 何を学習したのだろう?
9
DNNの学習の再現性
l 無理でしょ...
l 再現しないものに対して再現を求められても
ねぇ...
l 自分ではどうにもできないことは一旦諦める
10
どうすればよい?
l 「ちゃんとやっているよ感」が大事 (多分)
l なるべく条件をしっかり書く
• AppendixでOK
• 可読な設定ファイルをsupplementary materialとしてつけ
てくれてもOK
l Rebuttal 時の根拠
• 査読者が言っていることが正しそうか
vs 著者が言っていることが正しそうか
• Meta-reviewer を味方につけたい
=> でも reviewer 見てないし...
=> でも meta-reviewer も見てないし...fin.
11
従来法が再現しない場合
l 重要な比較手法は手元の実験設定で追実験をす
る (方が良いとおもっている...)
l 様々な理由で基本論文の値は再現しないことを前提
• 公平な比較をするために同じ環境で比較したい
l 論文の報告値と再現実験の値を両方載せる
• Appendixでもよい
l 再現しない理由をかく
12
l SOTAとの比較問題
13
SOTAとの比較問題
l (何かの手法を提案する際に) なぜSOTA手法と
比較しなくてはいけないのか?
14
SOTAとの比較問題
l (何かの手法を提案する際に) なぜSOTA手法と
比較しなくてはいけないのか?
l ? みんなSOTA手法が大好きだから!
l ? NLPは応用よりの分野だから結果が全て!
l ? SOTA手法に勝たないと論文通らないから!
現在のACL系の査読規定で
は,「SOTAと比べてない
から落とすわ!」という
reviewはダメレビュー扱い
https://aclrollingreview.org/reviewertutorial#6-check-for-lazy-thinking
15
SOTAとの比較問題
l (何かの手法を提案する際に) なぜSOTA手法と
比較しなくてはいけないのか?
l 性能が向上する理由は排他的ではない
l => 提案する方法論が解決したい問題は実は既に解決
されている可能性がある
俺様の手法がSOTA!
提案法が主張する効果がこれまでにまだ
得られていないことを示す (ために「いま一
番イケていると思われる方法」と比べて効果があるこ
とを示す)
Þ たまたま比較手法 (○○法) がいま一番良
い結果をだしていたから一番よい結果に
なった,ぐらいの気持ち
16
SOTAとの比較問題
l (何かの手法を提案する際に) なぜSOTA手法と
比較しなくてはいけないのか?
l => しなくてもいいよね
• 言い方 (書き方) 問題
提案法により
△△ベンチマークデータ
の性能が向上した
比較手法である従来法 (○○法)
では xx の課題があるが,提案
法によりその課題を解決(軽
減)することで△△ベンチマー
クデータの性能が向上した
めちゃくちゃ強い主張ではないかもしれないが
これで十分論文は採録されるチャンスはある
17
l モデル選択
18
モデル選択
l 開発データを使う l 一定回数まわす
このモデルを取る?
このモデルを取る?
学習のロス
開発データの性能
19
モデル選択
l 開発データによるモデル選択(early stopping)
このモデルを取る? l 本当に大丈夫?
l 開発データによるモデル選
択自体が悪いわけではない
20
モデル選択
l 開発データによるモデル選択(early stopping)
l どうしたら良い?
• 開発データによる選択
(Early stopping) しなくて
も良い設定にする
– そもそもlossの設計 (または
学習の設定)が悪い可能性
• あきらめる
– 開発が下がってもそれはそ
れと思う
l なるべく多く回して学習
Lossがあまり変わらない
ところまで回す
21
[余談] Testset tuning
l DNNになって比較的簡単に恣意的な結果をだせ
るようになった
ÞTestset-tuning疑惑の論文が散見されるように
なった??? (この値本当に出る?)
Þとはいえ,難しい問題が...
これは絶対にやってはいけない
22
Random seedで複数回評価
l 5回(できれば10回)Random Seedを変えて
実験
l 平均を報告
l (検定をするなら)Non-parametric な検定
• かなり厳しい設定の検定
=> これで有意差がでるならよいと考える
1 2 3 4 5 Ave
21.5 20.9 21.4 20.9 21.8 21.30
21.1 20.8 21.7 21.1 21.0 21.14
23
まとめ
l 実験結果が同じにならない様々な要因
l 自分にどうにもできないことは一旦あきらめる...
l 重要な比較手法は可能な限り再実験
l 比較手法は適切に(なるべく業界標準の良い方法)
l Lossの設計または学習の設定を確認
l 開発データで性能が下がらない設定をみつける?
l 乱数初期値を変えて複数回実験
l 検定もしておく?
他にもまだある気がするけど今日はこの辺で...

Contenu connexe

Tendances

Rでisomap(多様体学習のはなし)
Rでisomap(多様体学習のはなし)Rでisomap(多様体学習のはなし)
Rでisomap(多様体学習のはなし)
Kohta Ishikawa
 

Tendances (20)

研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
Pythonではじめる OpenAI Gymトレーニング
Pythonではじめる OpenAI GymトレーニングPythonではじめる OpenAI Gymトレーニング
Pythonではじめる OpenAI Gymトレーニング
 
coordinate descent 法について
coordinate descent 法についてcoordinate descent 法について
coordinate descent 法について
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
新分野に飛び入って半年で業績を作るには
新分野に飛び入って半年で業績を作るには新分野に飛び入って半年で業績を作るには
新分野に飛び入って半年で業績を作るには
 
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
 
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
[DL輪読会]Understanding deep learning requires rethinking generalization
[DL輪読会]Understanding deep learning requires rethinking generalization[DL輪読会]Understanding deep learning requires rethinking generalization
[DL輪読会]Understanding deep learning requires rethinking generalization
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
EEG analysis (nonlinear)
EEG analysis (nonlinear)EEG analysis (nonlinear)
EEG analysis (nonlinear)
 
楽しい研究のために今からできること 〜新しく研究を始める皆さんへ〜
楽しい研究のために今からできること 〜新しく研究を始める皆さんへ〜楽しい研究のために今からできること 〜新しく研究を始める皆さんへ〜
楽しい研究のために今からできること 〜新しく研究を始める皆さんへ〜
 
機械学習 入門
機械学習 入門機械学習 入門
機械学習 入門
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
 
Prml6
Prml6Prml6
Prml6
 
Rでisomap(多様体学習のはなし)
Rでisomap(多様体学習のはなし)Rでisomap(多様体学習のはなし)
Rでisomap(多様体学習のはなし)
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
 

Dernier

Dernier (12)

Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 

NLPにおける再現性