集合三大类无模型强化学习算法

发布时间：2021-03-16 13:49:59 所属栏目：动态来源：互联网

导读：型数据结构。 2013 年有研究者提出使用深度强化学习玩游戏，之后不久深度强化学习又被应用于模拟机器人控制，自此以后大量新算法层出不穷。其中大部分属于无模型算法，共分为三类：深度 Q 学习（DQN）、策略梯度和 Q 值策略梯度（QPG）。由于它们依赖不同的

型数据结构。

2013 年有研究者提出使用深度强化学习玩游戏，之后不久深度强化学习又被应用于模拟机器人控制，自此以后大量新算法层出不穷。其中大部分属于无模型算法，共分为三类：深度 Q 学习（DQN）、策略梯度和 Q 值策略梯度（QPG）。由于它们依赖不同的学习机制、解决不同（但有重合）的控制问题、处理不同属性的动作集（离散或连续），因此这三类算法沿着不同的研究路线发展。目前，很少有代码库同时包含这三类算法，很多原始实现仍未公开。因此，从业者通常需要从不同的起点开始开发，潜在地为每一个感兴趣的算法或基线学习新的代码库。强化学习研究者必须花时间重新实现算法，这是一项珍贵的个人实践，但它也导致社区中的大量重复劳动，甚至成为了入门障碍。

这些算法具备很多共同的强化学习特点。近日，BAIR 发布了 rlpyt 代码库，利用三类算法之间的共性，在共享的优化基础架构上构建了这三类算法的实现。

rlpyt 库包含很多常见深度强化学习算法的模块化实现，这些实现是在深度学习库 Pytorch 中使用 Python 语言写成的。在大量已有实现中，rlpyt 对于研究者而言是更加全面的开源资源。

rlpyt 的设计初衷是为深度强化学习领域中的中小规模研究提供高吞吐量代码库。本文将简要介绍 rlpyt 的特征，及其与之前工作的关联。值得注意的是，rlpyt 基于论文《Recurrent Experience Replay in Distributed Reinforcement Learning》（R2D2）复现了 Atari 游戏领域中的近期最佳结果，不过它没有使用分布式计算基础架构来收集训练所需的数十亿游戏视频帧。本文还将介绍一个新的数据结构——namedarraytuple，它在 rlpyt 中广泛用于处理 numpy 数组集合。更多技术讨论、实现详情和使用说明，参见论文《rlpyt: A Research Code Base for Deep Reinforcement Learning in PyTorch》。

rlpyt 库的重要特征和能力包括：

以串行模式运行实验（对 debug 有帮助）；
以并行模式运行实验，具备并行采样和/或多 GPU 优化的选项；
同步或异步采样-优化（异步模式通过 replay buffer 实现）；
在环境采样中，使用 CPU 或 GPU 进行训练和/或分批动作选择；
全面支持循环智能体；
在训练过程中，执行在线或离线评估，以及智能体诊断日志记录；
在本地计算机上，启动对实验进行栈/队列（stacking / queueing）设置的程序；
模块化：易于修改和对已有组件的重用；
兼容 OpenAI Gym 环境接口。

（编辑：唐山站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

简谈局域网即时通信确	专家齐聚北京互联网大
杭州网站建设前夕公司	国产GPU厂商加入中国头