Roger Blog

让时光有力量

Vim常用命令

Vim Common Command

基本介绍   vim是Unix系统都会默认内置的一款轻量级编辑器。虽然目前有很多诸如VSCode、Sublime等图形界面文本编辑器,但对于服务器等需要远程操作且没有安装图形界面的场景,vim几乎是唯一的选择。此外,vim也支持很多定制的设置,熟练的程序员通过大量的快捷键可以极大地提高编程效率。   这里只介绍一些简单的入门命令,使初学者可以完成快速上手基本的vim操作。【注】vim默认进入...

强化学习之——DQN的变种

DQN variants

DQN的变种 Double DQN   Double DQN是于2015年发表的文章“Deep Reinforcement Learning with Double Q-learning”中提出的,目的是减少DQN中常见的“高估”(overestimation)问题。   DQN中目标Q值的计算公式为: $Q_{target}(s,a)\leftarrow r+\gamma max_{a’\...

强化学习之——DQN

DQN

DQN算法 Q-learning   Q-learning方法可以通过动态规划的方法,对Q值表进行迭代更新来实现。其具体步骤如下: 初始化一个状态-动作值映射的空表(全0); 通过与环境交互获得$(s,a,r,s’)$,在这一步需要决定要采取何种动作,如何选择动作没有唯一的正确方法(exploration vs expolitation) 使用Bellman方程近似更新$Q(s...

强化学习之——基础介绍

fundamentals

Markov决策过程   维基百科中Markov决策过程定义为一个离散时间随机控制过程,它提供了一种数学框架,用于在回报部分是随机产生,部分是由决策者控制的情况下,对决策过程进行建模。Markov决策过程是Markov链的扩展,允许进行动作选择并获得相应的奖励。   一个Markov决策过程由一个4元元组$(S, A, P_a, R_a)$构成: $S$是状态空间集合 $A$是动作...

强化学习之——算法分类

Algorithm Classification

强化学习算法分类 Model-free vs Model-based   在Model-free与Model-based中,“model”所指的都是环境的模型。对应的Model-based是指对环境建立一个模型,该模型可以根据给定的observation,给出相应的immediate reward以及next observation。我们所遇到的大多数算法都属于model-free,此时我们...

博文模板

Blog template

标题1 标题2 标题3 标题4 标题5 加粗文字块文字块 序号 子序号 子序号 序号 测试字段1 测试字段2 https://www.baidu.com 百度url 公式 行内公式 文字$\lambda_{0}$文字...