文档名:基于相关熵诱导度量的近端策略优化算法
摘要:在深度强化学习算法中,近端策略优化算法PPO(ProximalPolicyOptimization)在许多实验任务中表现优异,但具有自适应KL(Kullback-Leibler)散度的KL-PPO由于其不对称性而影响了KL-PPO策略更新效率,为此,提出了一种基于相关熵诱导度量的近端策略优化算法CIM-PPO(CorrentropyInducedMetric-PPO).该算法具有对称性更适合表征新旧策略的差异,能准确地进行策略更新,进而改善不对称性带来的影响.通过OpenAIgym实验测试表明,相比于主流近端策略优化算法Clip-PPO和KL-PPO算法均能获得高于50%以上的奖励,收敛速度在不同环境均有500~110回合左右的加快,同时也具有良好的鲁棒性.
作者:张会珍 王强Author:ZHANGHuizhen WANGQiang
作者单位:东北石油大学电气信息工程学院,黑龙江大庆163318
刊名:吉林大学学报(信息科学版) ISTIC
Journal:JournalofJilinUniversity(InformationScienceEdition)
年,卷(期):2023, 41(3)
分类号:TP273
关键词:KL散度 近端策略优化(PPO) 相关熵诱导度量(CIM) 替代目标 深度强化学习
Keywords:kullback-leibler(KL)divergence proximalpolicyoptimization(PPO) correntropyinducedmetric(CIM) alternativetarget deepreinforcementlearning
机标分类号:
在线出版日期:2023年7月26日
基金项目:黑龙江省自然科学基金资助项目基于相关熵诱导度量的近端策略优化算法[
期刊论文] 吉林大学学报(信息科学版)--2023, 41(3)张会珍 王强在深度强化学习算法中,近端策略优化算法PPO(ProximalPolicyOptimization)在许多实验任务中表现优异,但具有自适应KL(Kullback-Leibler)散度的KL-PPO由于其不对称性而影响了KL-PPO策略更新效率,为此,提出了一种基于相...参考文献和引证文献
参考文献
引证文献
本文读者也读过
相似文献
相关博文
基于相关熵诱导度量的近端策略优化算法 Proximal Policy Optimization Algorithm Based on Correntropy Induced Metric
基于相关熵诱导度量的近端策略优化算法.pdf
- 文件大小:
- 2.53 MB
- 下载次数:
- 60
-
高速下载
|