手机知网 App
24小时专家级知识服务
打 开
自动化技术
手机知网首页
文献检索
期刊
工具书
图书
我的知网
充值中心
基于兴趣函数的多样化Option-Critic算法
苏州大学计算机科学与技术学院;
软件新技术与产业化协同创新中心(南京大学);
符号计算与知识工程教育部重点实验室(吉林大学);
江苏省计算机信息处理技术重点实验室(苏州大学)
|
栗军伟
刘全
黄志刚
徐亚鹏
开通知网号
Option框架作为分层强化学习的一种常用时序抽象方法,允许智能体在不同的时间尺度上学习策略,可以有效解决稀疏奖励问题.为了保证Option可以引导智能体访问更多的状态空间,一些方法通过引入基于互信息的内部奖励和终止函数来提升Option内部策略的多...
机 构:
苏州大学计算机科学与技术学院;
软件新技术与产业化协同创新中心(南京大学);
符号计算与知识工程教育部重点实验室(吉林大学);
江苏省计算机信息处理技术重点实验室(苏州大学);
领 域:
自动化技术;
关键词:
强化学习;
时序抽象;
Option框架;
兴趣函数;
Option-Critic算法;
1
222
开通会员更优惠,尊享更多权益
下载PDF版
手机阅读本文
下载APP 手机查看本文
计算机研究与发展
2024年12期
立即查看 >
相似文献
期刊
硕士
博士
会议
报纸
加载中
更多
暂无数据
图书推荐
更多
相关工具书
更多
搜 索