cs285 DRL notes lecture 10: Model-based Planning
model-free强化学习忽略了状态转移概率$p(s_{t+1}|s_t,a_t)$,因为实际情况环境的模型往往无法获得或者学习。但也有一些例外:
model-free强化学习忽略了状态转移概率$p(s_{t+1}|s_t,a_t)$,因为实际情况环境的模型往往无法获得或者学习。但也有一些例外:
本章会深入策略梯度算法,进一步学习 Natural Policy Gradient, Trust Region Policy Optimization, Proximal Policy Optimization等算法。
在工作中,我们经常会遇到同时使用github、gitlab、自建git服务器等,下面看一下具体如何配置。
fitted q iteration与Q-Learning不同
本章学习基于值函数的强化学习方法。