Roger Blog

让时光有力量

Vim常用命令

Vim Common Command

基本介绍 vim是Unix系统都会默认内置的一款轻量级编辑器。虽然目前有很多诸如VSCode、Sublime等图形界面文本编辑器，但对于服务器等需要远程操作且没有安装图形界面的场景，vim几乎是唯一的选择。此外，vim也支持很多定制的设置，熟练的程序员通过大量的快捷键可以极大地提高编程效率。这里只介绍一些简单的入门命令，使初学者可以完成快速上手基本的vim操作。【注】vim默认进入...

Posted by Roger on October 18, 2020

强化学习之——DQN的变种

DQN variants

DQN的变种 Double DQN Double DQN是于2015年发表的文章“Deep Reinforcement Learning with Double Q-learning”中提出的，目的是减少DQN中常见的“高估”（overestimation）问题。 DQN中目标Q值的计算公式为： $Q_{target}(s,a)\leftarrow r+\gamma max_{a’\...

Posted by Roger on October 15, 2020

强化学习之——DQN

DQN

DQN算法 Q-learning Q-learning方法可以通过动态规划的方法，对Q值表进行迭代更新来实现。其具体步骤如下：初始化一个状态-动作值映射的空表（全0）；通过与环境交互获得$(s,a,r,s’)$，在这一步需要决定要采取何种动作，如何选择动作没有唯一的正确方法（exploration vs expolitation）使用Bellman方程近似更新$Q(s...

Posted by Roger on October 7, 2020

强化学习之——基础介绍

fundamentals

Markov决策过程维基百科中Markov决策过程定义为一个离散时间随机控制过程，它提供了一种数学框架，用于在回报部分是随机产生，部分是由决策者控制的情况下，对决策过程进行建模。Markov决策过程是Markov链的扩展，允许进行动作选择并获得相应的奖励。一个Markov决策过程由一个4元元组$(S, A, P_a, R_a)$构成： $S$是状态空间集合 $A$是动作...

Posted by Roger on October 7, 2020

强化学习之——算法分类

Algorithm Classification

强化学习算法分类 Model-free vs Model-based 在Model-free与Model-based中，“model”所指的都是环境的模型。对应的Model-based是指对环境建立一个模型，该模型可以根据给定的observation，给出相应的immediate reward以及next observation。我们所遇到的大多数算法都属于model-free，此时我们...

Posted by Roger on October 7, 2020

博文模板

Blog template

标题1 标题2 标题3 标题4 标题5 加粗文字块文字块序号子序号子序号序号测试字段1 测试字段2 https://www.baidu.com 百度url 公式行内公式文字$\lambda_{0}$文字...

Posted by Roger on October 6, 2020

FEATURED TAGS

Blog RL DL Deployment Linux NLP Model Training

ABOUT ME

开始下一段旅程
On my way...
微信公众号：机器学习算法之路