小批量梯度下降算法

动量法
利用累加历史梯度信息更新梯度

自适应梯度法
自适应梯度法通过减小震荡方向步长,增大平坦方向步长来减小震荡,加速通往谷底方向。
如何区分震荡方向与平坦方向?
回答:梯度幅度的平方较大的方向是震荡方向;

Adam算法
同时使用动量与自适应梯度思想

[注]参考于北京邮电大学计算机学院 鲁鹏老师

利用累加历史梯度信息更新梯度

自适应梯度法通过减小震荡方向步长,增大平坦方向步长来减小震荡,加速通往谷底方向。
如何区分震荡方向与平坦方向?
回答:梯度幅度的平方较大的方向是震荡方向;

同时使用动量与自适应梯度思想

[注]参考于北京邮电大学计算机学院 鲁鹏老师