基于深度强化学习的双置换表优化算法研究

查看全部 · 2024-12-14 12:02

文档名：基于深度强化学习的双置换表优化算法研究
摘要：基于深度强化学习的计算机博弈程序(如AlphaGo)已在围棋上战胜了人类世界冠军.这些算法利用可学习的价值神经网络和策略神经网络指导蒙特卡洛树的探索.为提高蒙特卡洛树的搜索性能,已提出多种改进方法,其中置换表已被证明可提高搜索效率.在此基础上,提出一种新的基于置换表的方法——基于深度强化学习的双置换表优化算法.该方法使用不同的替换策略管理双层置换表,并将六子棋的两步落子解耦为2个独立的神经网络.这不仅减小了动作空间规模,也更易于神经网络训练.以六子棋为例进行的实验结果表明,在有限的计算资源下,该方法能显著提升棋局哈希命中率和程序棋力水平.

Abstract：Computergameprogramsbasedondeepreinforcementlearning,suchasAlphaGo,havebeatenhumanworldchampionsinthegameofGo.ThesealgorithmsutilizelearnablevalueneuralnetworksandpolicyneuralnetworkstoguidetheexplorationprocessofMonteCarloTreeSearch.VariousenhancementmethodshavebeenproposedtoimprovethesearchperformanceofMonteCarlotrees,amongwhichthetranspositiontablehasbeenproventoenhancesearchefficiency.Buildinguponthisfoundation,thispaperintroducesanovelmethod,thetwo-leveltranspositiontableoptimizationalgorithmbasedondeepreinforcementlearning.Thismethodmanagestwoleveltranspositiontablesusingdistinctreplacementstrategiesanddecouplesthetwo-stepmovesofConnect6intotwoindependentneuralnetworks.Thisnotonlyreducesthescaleoftheactionspacebutalsosimplifiesneuralnetworktraining.OurexperimentalresultsusingConnect6asanexampledemonstratethisapproachsignificantlyenhancestheprogram'splayingstrengthunderlimitedcomputationalresources.

作者：王栋年王军伟薛世超汪超徐长明 Author：WANGDongnian WANGJunwei XUEShichao WANGChao XUChangming
作者单位：东北大学研究生院,河北秦皇岛066004东北大学秦皇岛分校计算机与通信工程学院,河北秦皇岛066004
刊名：重庆理工大学学报 PKU
Journal：JournalofChongqingInstituteofTechnology
年，卷(期)：2024, 38(9)
分类号：TP18
关键词：深度强化学习  置换表  计算机博弈  AlphaGo  蒙特卡洛树
Keywords：deepreinforcementlearning  transpositiontable  computergame  AlphaGo  MCTS
机标分类号：TP391.9TP18G891.2
在线出版日期：2024年7月11日
基金项目：河北省自然科学基金面上项目基于深度强化学习的双置换表优化算法研究[
期刊论文]  重庆理工大学学报--2024, 38(9)王栋年  王军伟  薛世超  汪超  徐长明基于深度强化学习的计算机博弈程序(如AlphaGo)已在围棋上战胜了人类世界冠军.这些算法利用可学习的价值神经网络和策略神经网络指导蒙特卡洛树的探索.为提高蒙特卡洛树的搜索性能,已提出多种改进方法,其中置换表已被证...参考文献和引证文献
参考文献
引证文献
本文读者也读过
相似文献
相关博文

基于深度强化学习的双置换表优化算法研究  Two-level transposition table optimization algorithm based on deep reinforcement learning

基于深度强化学习的双置换表优化算法研究.pdf

2024-12-14 12:02 上传

基于深度强化学习的双置换表优化算法研究.pdf

文件大小:: 4.97 MB

下载次数:: 60

高速下载

基于深度强化学习的双置换表优化算法研究

能源电力

化工

建筑工程

机械

电子信息

医药

科学