DPC-DQRL:动态行为克隆约束的离线-在线双Q值强化学习-计算机应用研究2025年04期-手机知网

DPC-DQRL:动态行为克隆约束的离线-在线双Q值强化学习

南京信息工程大学计算机学院,网络空间安全学院;南京信息工程大学数字取证教育部工程研究中心 | 闫雷鸣刘健朱永昕

离线-在线强化学习旨在使用少量在线微调来提高预训练模型的性能。现有方法主要包括无约束微调与约束微调。前者往往由于分布偏移过大而导致严重的策略崩溃；后者由于保留离线约束导致性能提升缓慢，影响训练效率。为了改善上述问题，可视化对比分析两类方法的微调过程，发现不准确的Q值估计是影响性能的主要原因，并提出了一种动态策略约束的双Q值强化学习算法(DPC-DQRL)。首先，该算法设计了遵循记忆遗忘规律的动态行为克隆约束，在微调过程中动态调整约束强度；其次，构建离线-在线双Q值网络，引入离线动作价值网络参与Q值估计，提高微调过程中Q值的准确性。在Gym仿真平台使用MuJoCo物理引擎进行了Halfcheetah、Hopper、Walker2D三个经典仿真任务，使用DPC-DQRL算法微调后性能比原预训练模型分别提升47%、63%、20%,所有任务的平均归一化得分比最优基线算法提升10%。实验结果表明，DPC-DQRL在提升模型性能的同时保证了模型的稳定，与其他算法相比具有一定的优越性。

机　构:

南京信息工程大学计算机学院,网络空间安全学院；南京信息工程大学数字取证教育部工程研究中心；

领　域:

自动化技术；

关键词:

深度强化学习；离线-在线强化学习；动态策略约束；Q值估计；

格　式:

PDF原版；EPUB自适应版(需下载客户端)

0 38