cs285 DRL notes lecture 6: Actor-Critic methods 2020-09-08 cs285 回顾策略梯度算法, $$\nabla_\theta J(\theta) \simeq \frac{1}{N}\sum_{i=1}^N\left(\sum_{t=1}^T\nabla_\theta \log\pi_\theta(a_{i,t}|s_{i,t})\right)\left(\sum_{t'=t}^T r(s_{i,t'},a_{i,t'})\right)$$ 我们使用'‘reward-to-go’' 来近似在状态$s_{i,t}$采取动作 $a_{ Read more...
cs285 DRL notes chapter 3: policy gradient methods 2020-08-29 cs285 回顾强化学习的目标,我们希望获得策略的最优参数$\theta^*$, $$ \theta^*=\underset{\theta}{argmax}\mathbb{E}_{\tau\sim p_{\theta}(\tau)}[\sum_{t=1}^{t=T}r(s_t, a_t)] $$ 这实际上是一个优化问题,因此我们可以使用多种优化方法来优化这个 Read more...