建神经网络模型哪种优化算法更好？35000次测试告诉你丨图宾根大学出品

 2024-03-26 次 

　　建神经网络模型哪种优化算法更好？35000次测试告诉你丨图宾根大学出品在运行了35000次测试后，它给出了非常全面的优化器算法分析介绍，并告诉你如何用这些基准测试，为自己的深度学习模型选择最好的优化方案。

　　而从这些优化器中的常用参数来看，α0表示初始学习率，αlo和αup代表上下界，∆t表示切换衰减样式的周期，k表示衰减因子。

　　可以看出，这些学习率的参数主要可以被分为常数、梯度下降、平滑下降、周期性、预热、超收敛等几种。

　　此外，batchsize也考虑在内（看来实验机器性能不错）。制作这些测试的目的在于，多角度考量出这些优化方法的合理性。

　　为了验证这些测试方法的稳定性，作者特意对其中一些算法进行了参数调整，下图是经典算法RMSProp和RMSProp（2）的调优结果。

　　更直接地，如果增加（性能）预算，从下图可以看出，性能的改进也会有所增加。（图中橙色为所有灰线的中值）

　　例如，AMSGrad、Mom、NAG的默认参数都存在很大的改进空间。相比而言，AMSBound由于自适应，默认参数都还非常不错，不需要再有大改进。

　　不过，虽然这份表格已经非常详细，还是有细心的网友发现了盲点：像SWA这样非常简单高效的方法，还是在分析时被遗漏了。

　　目前，作者已经在ArXiv论文页面，开源了基准测试方法的Code，感兴趣的小伙伴可戳论文地址查看~

　　Robin M. Schmidt，计算机专业研究生，主要研究方向是人工智能，感兴趣的方向在深度学习开云网址·(中国)官方网站、强化学习及优化上开云网址·(中国)官方网站。

　　Philipp Hennig开云网址·(中国)官方网站，机器学习教授，兼任马普所科学家，曾于海德堡大学和帝国理工学院修读物理，并在剑桥大学获得机器学习博士学位。

　　Frank Schneider，机器学习博士生，研究领域是机器学习的优化方法。目前在钻研深度学习的超参数，使深度神经网络的训练自动化。

　　本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容，未经账号授权，禁止随意转载。

　　本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

开云网址·(中国)官方网站