医学文献 >>
  • 检索发现
  • 增强检索
知识库 >>
  • 临床诊疗知识库
  • 中医药知识库
评价分析 >>
  • 机构
  • 作者
默认
×
热搜词:
换一批
论文 期刊
取消
高级检索

检索历史 清除

融合好奇心和策略蒸馏的稀疏奖励探索机制

Sparse reward exploration mechanism fusing curiosity and policy distillation

摘要深度强化学习算法在奖励稀疏的环境下,难以通过与环境的交互学习到最优策略,因此需要构建内在奖励指导策略进行探索更新.然而,这样仍存在一些问题:1)状态分类存在的统计失准问题会造成奖励值大小被误判,使智能体(agent)学习到错误行为;2)由于预测网络识别状态信息的能力较强,内在奖励产生状态的新鲜感下降,影响了最优策略的学习效果;3)由于随机状态转移,教师策略的信息未被有效利用,降低了智能体的环境探索能力.为了解决以上问题,提出一种融合随机生成网络预测误差与哈希离散化统计的奖励构建机制RGNP-HCE(Randomly Generated Network Prediction and Hash Count Exploration),并通过蒸馏(distillation)将多教师策略的知识迁移到学生策略中.RGNP-HCE机制采用好奇心分类思想构建融合奖励:一方面在多回合间以随机生成网络预测差构建全局好奇心奖励;另一方面在单回合内以哈希离散化统计构建局部好奇心奖励,从而保证内在奖励的合理性以及策略梯度更新的正确性.此外,将多个教师策略学习到的知识通过蒸馏迁移到学生策略中,有效提升学生策略的环境探索能力.最后,在Montezuma's Revenge与Breakout测试环境中,把所提机制与当前主流的4个深度强化学习算法进行了对比实验,并执行了策略蒸馏.结果表明,相较于当前高性能的强化学习算法,RGNP-HCE机制在两个测试环境中的平均性能均有提升,且蒸馏后学生策略的平均性能又有进一步的提升,验证了RGNP-HCE机制与策略蒸馏方法对提升智能体的环境探索能力是有效的.

更多
广告
作者 王子腾 [1] 于亚新 [1] 夏子芳 [1] 乔佳琪 [1] 学术成果认领
作者单位 东北大学 计算机科学与工程学院,沈阳 110169;医学影像智能计算教育部重点实验室(东北大学),沈阳 110169 [1]
分类号 TP181
DOI 10.11772/j.issn.1001-9081.2022071116
发布时间 2023-07-27(万方平台首次上网日期,不代表论文的发表时间)
  • 浏览2
  • 下载0
计算机应用

加载中!

相似文献

  • 中文期刊
  • 外文期刊
  • 学位论文
  • 会议论文

加载中!

加载中!

加载中!

加载中!

法律状态公告日 法律状态 法律状态信息

特别提示:本网站仅提供医学学术资源服务,不销售任何药品和器械,有关药品和器械的销售信息,请查阅其他网站。

  • 客服热线:4000-115-888 转3 (周一至周五:8:00至17:00)

  • |
  • 客服邮箱:yiyao@wanfangdata.com.cn

  • 违法和不良信息举报电话:4000-115-888,举报邮箱:problem@wanfangdata.com.cn,举报专区

官方微信
万方医学小程序
new医文AI 翻译 充值 订阅 收藏 移动端

官方微信

万方医学小程序

使用
帮助
Alternate Text
调查问卷