SWIPTD2D通信中基于深度强化学习的资源分配

查看全部 · 2024-12-14 14:22

文档名：SWIPTD2D通信中基于深度强化学习的资源分配
摘要：针对信道状态信息未知SWIPT-D2D((SimultaneousWirelessInformationandPowerTransferDevicetoDevice)无线通信网络环境下设备间信号干扰以及设备能量损耗问题,提出通过使用近端策略优化(ProximalPolicyOptimization,PPO)算法,在满足蜂窝用户通信质量要求的前提下同时对D2D用户的资源块、发射功率以及功率分割比三部分进行联合优化.仿真结果表明,所提算法相比于其他算法能够为D2D用户制定更好的资源分配方案,在保证蜂窝用户保持较高通信速率的同时使D2D用户获得更高的能效.同时,当环境中用户数量增加时,所提算法相比于DuelingDoubleDQN(DeepQ-Network)以及DQN算法,D2D能效分别平均提高了15.95%和23.59%,当通信网络规模变大时所提算法具有更强的鲁棒性.

Abstract：Toaddresstheproblemsofinter-devicesignalinterferenceanddeviceenergylossinachannelstateinformation-unknownsimultaneouswirelessinformationandpowertransfer-device-to-device(SWIPT-D2D)wirelesscommunicationnetworkenvironment,theauthorsproposetousetheProximalPolicyOptimization(PPO)algorithmtosatisfythecommunicationqualityrequirementsofcellularusers,whiletheresourceblock,transmitpower,andpowersplitratioofD2Dusersaresimultaneouslyreduced.Theproposedalgorithmjointlyoptimizestheresourceblock,transmitpowerandpowersplitratioofD2Duserswhilesatisfyingthecommunicationqualityrequirementsofcellularusers.SimulationresultsshowthattheproposedalgorithmcandevelopabetterresourceallocationschemeforD2Dusersthanotheralgorithms,whichcanensureahighercommunicationrateforcellularuserswhileachievinghigherenergyefficiencyforD2Dusers.Furthermore,whenthenumberofusersintheenvironmentincreases,theproposedalgorithmimprovestheD2Denergyefficiencyby15.95%and23.59%onaveragecomparedwiththeDuelingDoubleDQN(DeepQ-Network)andDQNalgorithms,respectively,andthealgorithmismorerobustwhenthecommunicationnetworksizebecomeslarger.

作者：刘兴鑫李君李正权 Author：LIUXingxin LIJun LIZhengquan
作者单位：南京信息工程大学电子与信息工程学院,南京210044无锡学院电子信息工程学院,江苏无锡214105江南大学轻工过程先进控制教育部重点实验室,江苏无锡214122;北京邮电大学网络与交换技术国家重点实验室,北京100876
刊名：电讯技术 ISTICPKU
Journal：TelecommunicationEngineering
年，卷(期)：2024, 64(5)
分类号：TN929.5
关键词：SWIPT-D2D  资源分配  深度强化学习  联合优化
Keywords：SWIPT-D2D  resourceallocation  deepreinforcementlearning  jointoptimization
机标分类号：TP391TP181TN929.5
在线出版日期：2024年6月5日
基金项目：未来网络科研基金项目SWIPT-D2D通信中基于深度强化学习的资源分配[
期刊论文]  电讯技术--2024, 64(5)刘兴鑫  李君  李正权针对信道状态信息未知SWIPT-D2D((SimultaneousWirelessInformationandPowerTransferDevicetoDevice)无线通信网络环境下设备间信号干扰以及设备能量损耗问题,提出通过使用近端策略优化(ProximalPolicyOptimi...参考文献和引证文献
参考文献
引证文献
本文读者也读过
相似文献
相关博文

SWIPT-D2D通信中基于深度强化学习的资源分配  Resource Allocation Based on Deep Reinforcement Learning in SWIPT-D2D Communication

SWIPT-D2D通信中基于深度强化学习的资源分配.pdf

2024-12-14 14:22 上传

SWIPTD2D通信中基于深度强化学习的资源分配.pdf

文件大小:: 3.74 MB

下载次数:: 60

高速下载

SWIPTD2D通信中基于深度强化学习的资源分配

能源电力

化工

建筑工程

机械

电子信息

医药

科学