文档名:基于深度强化学习的双置换表优化算法研究
摘要:基于深度强化学习的计算机博弈程序(如AlphaGo)已在围棋上战胜了人类世界冠军.这些算法利用可学习的价值神经网络和策略神经网络指导蒙特卡洛树的探索.为提高蒙特卡洛树的搜索性能,已提出多种改进方法,其中置换表已被证明可提高搜索效率.在此基础上,提出一种新的基于置换表的方法——基于深度强化学习的双置换表优化算法.该方法使用不同的替换策略管理双层置换表,并将六子棋的两步落子解耦为2个独立的神经网络.这不仅减小了动作空间规模,也更易于神经网络训练.以六子棋为例进行的实验结果表明,在有限的计算资源下,该方法能显著提升棋局哈希命中率和程序棋力水平.
Abstract:Computergameprogramsbasedondeepreinforcementlearning,suchasAlphaGo,havebeatenhumanworldchampionsinthegameofGo.ThesealgorithmsutilizelearnablevalueneuralnetworksandpolicyneuralnetworkstoguidetheexplorationprocessofMonteCarloTreeSearch.VariousenhancementmethodshavebeenproposedtoimprovethesearchperformanceofMonteCarlotrees,amongwhichthetranspositiontablehasbeenproventoenhancesearchefficiency.Buildinguponthisfoundation,thispaperintroducesanovelmethod,thetwo-leveltranspositiontableoptimizationalgorithmbasedondeepreinforcementlearning.Thismethodmanagestwoleveltranspositiontablesusingdistinctreplacementstrategiesanddecouplesthetwo-stepmovesofConnect6intotwoindependentneuralnetworks.Thisnotonlyreducesthescaleoftheactionspacebutalsosimplifiesneuralnetworktraining.OurexperimentalresultsusingConnect6asanexampledemonstratethisapproachsignificantlyenhancestheprogram'splayingstrengthunderlimitedcomputationalresources.
作者:王栋年 王军伟 薛世超 汪超 徐长明 Author:WANGDongnian WANGJunwei XUEShichao WANGChao XUChangming
作者单位:东北大学研究生院,河北秦皇岛066004东北大学秦皇岛分校计算机与通信工程学院,河北秦皇岛066004
刊名:重庆理工大学学报 PKU
Journal:JournalofChongqingInstituteofTechnology
年,卷(期):2024, 38(9)
分类号:TP18
关键词:深度强化学习 置换表 计算机博弈 AlphaGo 蒙特卡洛树
Keywords:deepreinforcementlearning transpositiontable computergame AlphaGo MCTS
机标分类号:TP391.9TP18G891.2
在线出版日期:2024年7月11日
基金项目:河北省自然科学基金面上项目基于深度强化学习的双置换表优化算法研究[
期刊论文] 重庆理工大学学报--2024, 38(9)王栋年 王军伟 薛世超 汪超 徐长明基于深度强化学习的计算机博弈程序(如AlphaGo)已在围棋上战胜了人类世界冠军.这些算法利用可学习的价值神经网络和策略神经网络指导蒙特卡洛树的探索.为提高蒙特卡洛树的搜索性能,已提出多种改进方法,其中置换表已被证...参考文献和引证文献
参考文献
引证文献
本文读者也读过
相似文献
相关博文
基于深度强化学习的双置换表优化算法研究 Two-level transposition table optimization algorithm based on deep reinforcement learning
基于深度强化学习的双置换表优化算法研究.pdf
- 文件大小:
- 4.97 MB
- 下载次数:
- 60
-
高速下载
|