The Implicit Bias of Minima Stability in Multivariate Shallow ReLU Networks. (arXiv:2306.17499v1 [cs.LG])

13 Jul 2023

ReLU NNの暗黙的バイアスに関する研究．SGDで到達できる解の滑らかさを評価した．さらに，普遍近似定理を解の安定性の観点から議論，勾配法の安定解となり得る1隠れ層NNでは近似できないが，2隠れ層NNなら近似できる関数が存在すること（深さ分離）を示した．一方，ソボレフな関数に限れば，1隠れ層NNの安定解が任意の関数を近似できることを示した．

基本情報

@misc{nacson2023implicit,
      title={The Implicit Bias of Minima Stability in Multivariate Shallow ReLU Networks}, 
      author={Mor Shpigel Nacson and Rotem Mulayoff and Greg Ongie and Tomer Michaeli and Daniel Soudry},
      year={2023},
      eprint={2306.17499},
      archivePrefix={arXiv},
      primaryClass={cs.LG}
}

論文リンク

arXiv

著者・所属

Mor Shpigel Nacson, Rotem Mulayoff, Greg Ongie, Tomer Michaeli, Daniel Soudry (Technion, Marquette)

新規性

SGDで到達できる解関数の滑らかさ（損失関数の滑らかさではない）については，1変数関数の場合について評価した先行研究があるが，本研究では多変数の場合にそれを拡張した．

また，普遍近似定理に解の安定性の観点を持ち込んだ．従来の普遍近似定理はNNで表現できる関数のクラスは，別のあるクラスに属する任意の関数を近似できるか，という問いに答えるものだが，損失関数の最小化によって「NNで表現できる関数」の全てに到達できるとは限らない．本論文では，「NNで表現できる関数」の集合の部分集合として，「損失関数の安定な局所解となり得る関数」の集合を考え，これに属する関数で近似できるクラスを議論した．結論としては，安定な2層NNでは近似できないが安定な3層NNでは近似できる連続関数が存在すること（深さ分離，depth separation），十分になめらかな関数に限れば安定な2層NNだけで近似できることを示した．

備忘録機械学習，コンピュータビジョン，時々物理

The Implicit Bias of Minima Stability in Multivariate Shallow ReLU Networks. (arXiv:2306.17499v1 [cs.LG])

基本情報

論文リンク

著者・所属

新規性

手法

結果

議論・コメント

関連文献

Tags

備忘録 機械学習，コンピュータビジョン，時々物理

The Implicit Bias of Minima Stability in Multivariate Shallow ReLU Networks. (arXiv:2306.17499v1 [cs.LG])

基本情報

論文リンク

著者・所属

新規性

手法

結果

議論・コメント

関連文献

Tags

Related Posts

On Convergence of Adam for Stochastic Optimization under Relaxed Assumptions 11 Feb 2024

End-to-End Temporal Action Detection with 1B Parameters Across 1000 Frames. (arXiv:2311.17241v1 [cs.CV]) 08 Feb 2024

Region-Based Representations Revisited 07 Feb 2024

備忘録機械学習，コンピュータビジョン，時々物理