基于兴趣函数的多样化Option-Critic算法-计算机研究与发展2024年12期-手机知网

手机知网 App

24小时专家级知识服务

自动化技术

基于兴趣函数的多样化Option-Critic算法

苏州大学计算机科学与技术学院;软件新技术与产业化协同创新中心(南京大学);符号计算与知识工程教育部重点实验室(吉林大学);江苏省计算机信息处理技术重点实验室(苏州大学) | 栗军伟刘全黄志刚徐亚鹏

开通知网号

Option框架作为分层强化学习的一种常用时序抽象方法，允许智能体在不同的时间尺度上学习策略，可以有效解决稀疏奖励问题.为了保证Option可以引导智能体访问更多的状态空间，一些方法通过引入基于互信息的内部奖励和终止函数来提升Option内部策略的多...

机　构:

苏州大学计算机科学与技术学院；软件新技术与产业化协同创新中心(南京大学)；符号计算与知识工程教育部重点实验室(吉林大学)；江苏省计算机信息处理技术重点实验室(苏州大学)；

领　域:

自动化技术；

关键词:

强化学习；时序抽象；Option框架；兴趣函数；Option-Critic算法；

开通会员更优惠，尊享更多权益

手机阅读本文

下载APP 手机查看本文

计算机研究与发展

相似文献

期刊硕士博士会议报纸

图书推荐

相关工具书