使用gitflow模式开发

Gitflow工作流通过为功能开发、发布准备和维护分配独立的分支,让发布迭代过程更流畅,非常适合用来管理大型项目的发布和维护

Soft Actor Critic

现有深度强化学习算法主要的问题有:

  • 采样难,样本利用率低:对于一般的强化学习问题,学习得到想要的策略需要的样本以百万、千万记,而绝大多数on-policy算法在策略更新后丢弃旧的样本。

Distributed RL

分布式强化学习算法可以大幅提升采样效率,加速学习速度,对于on-policy算法一定程度也能减少方差。