Beyond NTK with Vanilla Gradient Descent: A Mean-Field Analysis of Neural Networks with Polynomial Width Samples and Time

10 Jul 2023

NTKに対する深層学習の優位性を示す先行研究では何らかの修正をしたSGDを解析しているのに対して，本研究ではSGDそのものの解析を行い，4次活性関数を持つ2層NNがNTKよりも優位な標本複雑度を持つことを示した．

基本情報

@misc{mahankali2023ntk,
      title={Beyond NTK with Vanilla Gradient Descent: A Mean-Field Analysis of Neural Networks with Polynomial Width, Samples, and Time}, 
      author={Arvind Mahankali and Jeff Z. Haochen and Kefan Dong and Margalit Glasgow and Tengyu Ma},
      year={2023},
      eprint={2306.16361},
      archivePrefix={arXiv},
      primaryClass={cs.LG}
}

論文リンク

arXiv

著者・所属

Arvind Mahankali, Jeff Z. Haochen, Kefan Dong, Margalit Glasgow, Tengyu Ma (Stanford)

備忘録機械学習，コンピュータビジョン，時々物理

Beyond NTK with Vanilla Gradient Descent: A Mean-Field Analysis of Neural Networks with Polynomial Width Samples and Time

基本情報

論文リンク

著者・所属

新規性

手法

結果

議論・コメント

関連文献

Tags

備忘録 機械学習，コンピュータビジョン，時々物理

Beyond NTK with Vanilla Gradient Descent: A Mean-Field Analysis of Neural Networks with Polynomial Width Samples and Time

基本情報

論文リンク

著者・所属

新規性

手法

結果

議論・コメント

関連文献

Tags

Related Posts

On Convergence of Adam for Stochastic Optimization under Relaxed Assumptions 11 Feb 2024

End-to-End Temporal Action Detection with 1B Parameters Across 1000 Frames. (arXiv:2311.17241v1 [cs.CV]) 08 Feb 2024

Region-Based Representations Revisited 07 Feb 2024

備忘録機械学習，コンピュータビジョン，時々物理