備忘録 機械学習,コンピュータビジョン,時々物理

Beyond NTK with Vanilla Gradient Descent: A Mean-Field Analysis of Neural Networks with Polynomial Width Samples and Time

NTKに対する深層学習の優位性を示す先行研究では何らかの修正をしたSGDを解析しているのに対して,本研究ではSGDそのものの解析を行い,4次活性関数を持つ2層NNがNTKよりも優位な標本複雑度を持つことを示した.

基本情報

@misc{mahankali2023ntk,
      title={Beyond NTK with Vanilla Gradient Descent: A Mean-Field Analysis of Neural Networks with Polynomial Width, Samples, and Time}, 
      author={Arvind Mahankali and Jeff Z. Haochen and Kefan Dong and Margalit Glasgow and Tengyu Ma},
      year={2023},
      eprint={2306.16361},
      archivePrefix={arXiv},
      primaryClass={cs.LG}
}

論文リンク

arXiv

著者・所属

  • Arvind Mahankali, Jeff Z. Haochen, Kefan Dong, Margalit Glasgow, Tengyu Ma (Stanford)

新規性

手法

結果

議論・コメント

関連文献

Tags

deep learning dynamics, mean-field theory