cs285 DRL notes lecture 2: imitation learning
模仿学习是一种监督学习方法,行为克隆是其中的一类方法。其基本思想是从专家演示数据中学习到一个尽可能接近专家策略的行为策略。我们的数据集是依据
Git基本使用
Git是分布式版本控制系统 集中式VS分布式: 1. 集中式版本控制系统,版本库集中存放在中央服务器,必须要联网才能工作,没有历史版本库。 2. 分布式版本控制系统,版本控制系统没有“中央服务器”,每个人电脑上都是一个完整的版本库。 3. 分布式系统优势:安全性更高,不需要联网,如果中央服务器故障,任何其他一个开发人员的本地都有最新的带有历史记录的版本库。
cs285 DRL notes lecture 4: RL introduction
强化学习是一种目标导向的学习方法,通过不断试错,奖励或惩罚智能体从而使其未来更容易重复或者放弃某一动作。 强化学习中的术语介绍。 强化学习的主要