返回列表 发布新帖

稳定且受限的新强化学习SAC算法

12 0
admin 发表于 2024-12-14 02:32 | 查看全部 阅读模式

文档名:稳定且受限的新强化学习SAC算法
摘要:为解决由于固定温度SAC(SoftActorCritic)算法中存在的Q函数高估可能会导致算法陷入局部最优的问题,通过深入分析提出了一个稳定且受限的SAC算法(SCSAC:StableConstrainedSoftActorCritic).该算法通过改进最大熵目标函数修复固定温度SAC算法中的Q函数高估问题,同时增强算法在测试过程中稳定性的效果.最后,在4个OpenAIGymMujoco环境下对SCSAC算法进行了验证,实验结果表明,稳定且受限的SAC算法相比固定温度SAC算法可以有效减小Q函数高估出现的次数并能在测试中获得更加稳定的结果.

Abstract:TosolvetheproblemthatQfunctionoverestimationmaycauseSAC(SoftActorCritic)algorithmtrappedinlocaloptimalsolution,SCSAC(StableConstrainedSoftActorCritic)algorithmisproposedforperfectlyresolvingtheaboveweaknesshiddeninmaximumentropyobjectivefunctionimprovingthestabilityofStableConstrainedSoftActorCriticalgorithmintrailingprocess.TheresultofevaluatingStableConstrainedSoftActorCriticalgorithmonthesuiteofOpenAIGymMujocoenvironmentsshowslessQvalueoverestimationappearanceandmorestableresultsintrailingprocesscomparingwithSACalgorithm.

作者:海日   张兴亮   姜源   杨永健 Author:HAIRi   ZHANGXingliang   JIANGYuan   YANGYongjian
作者单位:吉林大学计算机科学与技术学院,长春130012中国移动通信集团有限公司中国移动通信集团吉林有限公司,长春130022
刊名:吉林大学学报(信息科学版) ISTIC
Journal:JournalofJilinUniversity(InformationScienceEdition)
年,卷(期):2024, 42(2)
分类号:TP301
关键词:强化学习  最大熵强化学习  Q值高估  SAC算法  
Keywords:reinforcementlearning  maximumentropyreinforcementlearning  Qvalueoverestimation  softactorcritic(SAC)algorithm  
机标分类号:TP181TP391TP242
在线出版日期:2024年5月27日
基金项目:吉林省发改委创新能力建设基金资助项目,吉林省科技发展计划重点基金资助项目稳定且受限的新强化学习SAC算法[
期刊论文]  吉林大学学报(信息科学版)--2024, 42(2)海日  张兴亮  姜源  杨永健为解决由于固定温度SAC(SoftActorCritic)算法中存在的Q函数高估可能会导致算法陷入局部最优的问题,通过深入分析提出了一个稳定且受限的SAC算法(SCSAC:StableConstrainedSoftActorCritic).该算法通过改进最大熵目...参考文献和引证文献
参考文献
引证文献
本文读者也读过
相似文献
相关博文

        稳定且受限的新强化学习SAC算法  Novel Reinforcement Learning Algorithm:Stable Constrained Soft Actor Critic

稳定且受限的新强化学习SAC算法.pdf
2024-12-14 02:32 上传
文件大小:
2.55 MB
下载次数:
60
高速下载
【温馨提示】 您好!以下是下载说明,请您仔细阅读:
1、推荐使用360安全浏览器访问本站,选择您所需的PDF文档,点击页面下方“本地下载”按钮。
2、耐心等待两秒钟,系统将自动开始下载,本站文件均为高速下载。
3、下载完成后,请查看您浏览器的下载文件夹,找到对应的PDF文件。
4、使用PDF阅读器打开文档,开始阅读学习。
5、使用过程中遇到问题,请联系QQ客服。

本站提供的所有PDF文档、软件、资料等均为网友上传或网络收集,仅供学习和研究使用,不得用于任何商业用途。
本站尊重知识产权,若本站内容侵犯了您的权益,请及时通知我们,我们将尽快予以删除。
  • 手机访问
    微信扫一扫
  • 联系QQ客服
    QQ扫一扫
2022-2025 新资汇 - 参考资料免费下载网站 最近更新浙ICP备2024084428号-1
关灯 返回顶部
快速回复 返回顶部 返回列表