深度学习模型训练的时候，一般把epoch设置多大？

Question

模型训练的时候一般把epoch设置多大达到模型收敛，为啥设置很多还是一直不能收敛呢？acc一直在80%左右，上不去。

关注者

110

被浏览

1,027,327

epoch：训练时，所有训练数据集都训练过一次。
举个例子：
mnist 数据集有 60000 张图片作为训练数据，10000 张图片作为测试数据。假设现在选择 Batch Size = 100 对模型进行训练。迭代30000次。

每个 Epoch 要训练的图片数量：60000(训练集上的所有图像)
训练集具有的 Batch 个数： 60000/100=600
每个 Epoch 需要完成的 Batch 个数： 600
每个 Epoch 具有的 Iteration 个数： 600（完成一个Batch训练，相当于参数迭代一次）
每个 Epoch 中发生模型权重更新的次数：600
训练 10 个Epoch后，模型权重更新的次数： 600*10=6000
不同Epoch的训练，其实用的是同一个训练集的数据。第1个Epoch和第10个Epoch虽然用的都是训练集的60000图片，但是对模型的权重更新值却是完全不同的。因为不同Epoch的模型处于代价函数空间上的不同位置，模型的训练代越靠后，越接近谷底，其代价越小。
总共完成30000次迭代，相当于完成了 30000/600=50 个Epoch

综上，对于不同的数据集规模要有相应的估计，同时除了Epoch，还有可能是别的影响因素：超参数是我们控制我们模型结构、功能、效率等的调节旋钮，具体有哪些呢：

最后推荐一个可以租用GPU的地方：智星云，疫情以来一直在他们家租用GPU，环境都是配置好的，性价比很高。

by wang 约吗？ · Accepted Answer

没什么经验。。基本就是看loss，loss不往下降了，基本就到头了。然后大概确定的epoch。

你的准确度上不去，有可能是数据就是那样。

有人教我个经验就是，可以用少量数据看看能不能过拟合，能过拟合，架构就没大问题了。最后acc上不去可能的确是本来就没有那么多特征吧，