cs285 DRL notes lecture 10: Model-based Planning

2020-09-29

model-free强化学习忽略了状态转移概率$p(s_{t+1}|s_t,a_t)$，因为实际情况环境的模型往往无法获得或者学习。但也有一些例外：

cs285 DRL notes lecture 9: Advanced Policy Gradients

2020-09-23

本章会深入策略梯度算法，进一步学习 Natural Policy Gradient, Trust Region Policy Optimization, Proximal Policy Optimization等算法。

Git配置github和gitlab

2020-09-20

在工作中，我们经常会遇到同时使用github、gitlab、自建git服务器等，下面看一下具体如何配置。

cs285 DRL notes lecture 8: Deep RL with Q-Functions

2020-09-18

fitted q iteration与Q-Learning不同

fitted q iteration算法：当前策略收集整个数据集，然后对Q函数进行多次回归近似，接下来收集新的数据集循环这一过程。
Q-Learning（online q iteration）：一边收集数据，一边进行学习。

cs285 DRL notes lecture 7: value function methods

2020-09-16

本章学习基于值函数的强化学习方法。