Beyond NTK with Vanilla Gradient Descent: A Mean-Field Analysis of Neural Networks with Polynomial Width Samples and Time
10 Jul 2023NTKに対する深層学習の優位性を示す先行研究では何らかの修正をしたSGDを解析しているのに対して,本研究ではSGDそのものの解析を行い,4次活性関数を持つ2層NNがNTKよりも優位な標本複雑度を持つことを示した.
基本情報
@misc{mahankali2023ntk,
title={Beyond NTK with Vanilla Gradient Descent: A Mean-Field Analysis of Neural Networks with Polynomial Width, Samples, and Time},
author={Arvind Mahankali and Jeff Z. Haochen and Kefan Dong and Margalit Glasgow and Tengyu Ma},
year={2023},
eprint={2306.16361},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
論文リンク
著者・所属
- Arvind Mahankali, Jeff Z. Haochen, Kefan Dong, Margalit Glasgow, Tengyu Ma (Stanford)
新規性
手法
結果
議論・コメント
関連文献
Tags
deep learning dynamics , mean-field theory