1 主要优化器 1.1 SGD SGD全称Stochastic Gradient Descent,随机梯度下降,1847年提出。每次选择一个mini-batch,而不是全部样本,使用梯度下降来更新模型参数。它解决了随机小批量样本的问题,但仍然有自适应学习率、容易卡在梯度较小点等问题。 1.2 SGDM SGDM即为SGD with momentum,它加入了动量机制,1986年提出