Loss Landscapes are All You Need: Neural Network Generalization Can Be Explained Without the Implicit Bias of Gradient Descent

17 May 2023

深層学習の汎化性を説明する「暗黙的正則化」の起源に関する論文．従来は確率的勾配降下法などの最適化アルゴリズムがその起源であると考えられてきたが，本論文ではアルゴリズムに依らず損失関数の形状に起因する効果であると主張する．

基本情報

@inproceedings{
chiang2023loss,
title={Loss Landscapes are All You Need: Neural Network Generalization Can Be Explained Without the Implicit Bias of Gradient Descent},
author={Ping-yeh Chiang and Renkun Ni and David Yu Miller and Arpit Bansal and Jonas Geiping and Micah Goldblum and Tom Goldstein},
booktitle={The Eleventh International Conference on Learning Representations },
year={2023},
url={https://openreview.net/forum?id=QC10RmRbZy9}
}

論文リンク

OpenReview

著者・所属

Ping-yeh Chiang, Renkun Ni, David Yu Miller, Arpit Bansal, Jonas Geiping, Micah Goldblum, Tom Goldstein (UMD, NYU, MPI SWS)

新規性

深層学習における暗黙的正則化の起源は最適化アルゴリズムではなく損失関数の形状にあることを実験的に検証した．特に，汎化する局所解の体積は汎化しない局所解の体積よりも大きいとする「体積仮説」を検証し肯定的な結論を得た．

手法

Guess & Check (G&C)
- 要するにランダムサンプリング，パラメータ空間に定めた超立方体から一様にサンプリングする
- 訓練精度が１００%になるまでランダムにパラメータを引き続ける

G&Cは一様サンプリングなので，あるパラメータ領域が選択される確率はその領域の体積に比例する．したがって，G&Cで得られたパラメータが（高い確率で）汎化することは体積仮説が成り立っていることを示唆する．

結果

G&CはSGDと同程度の検証精度を達成する．

議論・コメント

G&Cは損失関数の形状やその他の深層学習の性質を調べるのに面白いツールだと思った
G&CとSGDを比較するとき，それぞれのハイパーパラメータをどう設定するのが適切なのか？
- この論文からは読み取れなかった
比較する評価尺度も基本的には精度や損失しか見ていないので，もう少し詳細な分析がほしくはある

備忘録機械学習，コンピュータビジョン，時々物理

Loss Landscapes are All You Need: Neural Network Generalization Can Be Explained Without the Implicit Bias of Gradient Descent

基本情報

論文リンク

著者・所属

新規性

手法

結果

議論・コメント

関連文献

Tags

備忘録 機械学習，コンピュータビジョン，時々物理

Loss Landscapes are All You Need: Neural Network Generalization Can Be Explained Without the Implicit Bias of Gradient Descent

基本情報

論文リンク

著者・所属

新規性

手法

結果

議論・コメント

関連文献

Tags

Related Posts

On Convergence of Adam for Stochastic Optimization under Relaxed Assumptions 11 Feb 2024

End-to-End Temporal Action Detection with 1B Parameters Across 1000 Frames. (arXiv:2311.17241v1 [cs.CV]) 08 Feb 2024

Region-Based Representations Revisited 07 Feb 2024

備忘録機械学習，コンピュータビジョン，時々物理