備忘録 機械学習,コンピュータビジョン,時々物理

On Convergence of Adam for Stochastic Optimization under Relaxed Assumptions

非凸な目的関数の最適化において,Adamの収束性を従来よりも緩やかな条件で示した.具体的には,損失関数のL-smoothnessの代わりにより弱い(𝐿0,𝐿𝑞)--smoothnessを仮定すること,勾配の有界性などを仮定せず勾配ノイズとしてアフィン分散ノイズを仮定すること,が特徴.また,ステップサイズを適切に選ぶとSGDにマッチする収束レートを実現する.

基本情報

会議・論文誌

cs.LG updates on arXiv.org

論文リンク

著者・所属

  • Yusu Hong Junhong Lin

新規性

  • 問題設定とAdam: 確率的最適化問題を考える。目的関数は微分可能で、勾配の推定値を返すオラクルがある。勾配の推定値はアフィン分散ノイズと呼ばれるノイズモデルに従う。Adamは過去の勾配を使って各座標ごとにステップサイズを適応的に調整するアルゴリズムである。
  • 滑らかな目的関数の場合のAdamの収束: 目的関数がL-滑らかであると仮定する。Adamは問題パラメータに依存しないステップサイズで定常点に収束することを示す。さらに、指数移動平均の減衰率を1−𝒪(1/𝑇)に設定すると、𝒪(poly(log𝑇)/√𝑇)の最適な収束率が得られることを示す。
  • 一般化された滑らかな目的関数の場合のAdamの収束: 目的関数が(𝐿0,𝐿𝑞)-滑らかであると仮定する。これはL-滑らかよりも弱い条件であり、多くの実用的な目的関数に適用できる。この場合も、Adamは定常点に収束することを示すが、ステップサイズの調整に問題パラメータが必要になる。

手法

結果

議論・コメント

関連文献

Tags

optimizer, convergence theory