返回列表 发布新帖

基于相关熵诱导度量的近端策略优化算法

23 0
admin 发表于 2024-12-14 11:41 | 查看全部 阅读模式

文档名:基于相关熵诱导度量的近端策略优化算法
摘要:在深度强化学习算法中,近端策略优化算法PPO(ProximalPolicyOptimization)在许多实验任务中表现优异,但具有自适应KL(Kullback-Leibler)散度的KL-PPO由于其不对称性而影响了KL-PPO策略更新效率,为此,提出了一种基于相关熵诱导度量的近端策略优化算法CIM-PPO(CorrentropyInducedMetric-PPO).该算法具有对称性更适合表征新旧策略的差异,能准确地进行策略更新,进而改善不对称性带来的影响.通过OpenAIgym实验测试表明,相比于主流近端策略优化算法Clip-PPO和KL-PPO算法均能获得高于50%以上的奖励,收敛速度在不同环境均有500~110回合左右的加快,同时也具有良好的鲁棒性.

作者:张会珍  王强Author:ZHANGHuizhen  WANGQiang
作者单位:东北石油大学电气信息工程学院,黑龙江大庆163318
刊名:吉林大学学报(信息科学版) ISTIC
Journal:JournalofJilinUniversity(InformationScienceEdition)
年,卷(期):2023, 41(3)
分类号:TP273
关键词:KL散度  近端策略优化(PPO)  相关熵诱导度量(CIM)  替代目标  深度强化学习  
Keywords:kullback-leibler(KL)divergence  proximalpolicyoptimization(PPO)  correntropyinducedmetric(CIM)  alternativetarget  deepreinforcementlearning  
机标分类号:
在线出版日期:2023年7月26日
基金项目:黑龙江省自然科学基金资助项目基于相关熵诱导度量的近端策略优化算法[
期刊论文]  吉林大学学报(信息科学版)--2023, 41(3)张会珍  王强在深度强化学习算法中,近端策略优化算法PPO(ProximalPolicyOptimization)在许多实验任务中表现优异,但具有自适应KL(Kullback-Leibler)散度的KL-PPO由于其不对称性而影响了KL-PPO策略更新效率,为此,提出了一种基于相...参考文献和引证文献
参考文献
引证文献
本文读者也读过
相似文献
相关博文

        基于相关熵诱导度量的近端策略优化算法  Proximal Policy Optimization Algorithm Based on Correntropy Induced Metric

基于相关熵诱导度量的近端策略优化算法.pdf
2024-12-14 11:41 上传
文件大小:
2.53 MB
下载次数:
60
高速下载
【温馨提示】 您好!以下是下载说明,请您仔细阅读:
1、推荐使用360安全浏览器访问本站,选择您所需的PDF文档,点击页面下方“本地下载”按钮。
2、耐心等待两秒钟,系统将自动开始下载,本站文件均为高速下载。
3、下载完成后,请查看您浏览器的下载文件夹,找到对应的PDF文件。
4、使用PDF阅读器打开文档,开始阅读学习。
5、使用过程中遇到问题,请联系QQ客服。

本站提供的所有PDF文档、软件、资料等均为网友上传或网络收集,仅供学习和研究使用,不得用于任何商业用途。
本站尊重知识产权,若本站内容侵犯了您的权益,请及时通知我们,我们将尽快予以删除。
  • 手机访问
    微信扫一扫
  • 联系QQ客服
    QQ扫一扫
2022-2025 新资汇 - 参考资料免费下载网站 最近更新浙ICP备2024084428号-1
关灯 返回顶部
快速回复 返回顶部 返回列表