1.传统上的学习方法用来如何根据高维的输入数据（视觉，语音）控制智能体依赖于手工挑选的特征表示以及线性的value function 或者policy representation。

深度学习强大的特征学习能力应用到强化学习领域是大势所趋。

然而，强化学习领域的特性对深度学习的能力发起了挑战：

1.深度学习的训练方法仍依赖大量的带label的数据集。然而。强化学习面对的是数字量reward信号，稀疏，噪音，延时。
特别是延时reward使得action 和reward 之间无法建立联系，无法确认到底是哪个action对此reward有贡献。
对于深度学习的带标签的数据集来说，其特征及label的对于关系是显而易见的。
2.大部分深度学习算法假设数据采样是独立同分布的（idd），然而强化学习面对的状态序列确实强相关的因果关系，
而且当强化学习得到的策略改变时，同一state映射到的action也会不同，
这对于假设特征于标签有一一对应关系的深度学习方法来说是个病态的问题。

本篇论文提出一种cnn，利用Qlearning及SGD训练权重，最终能够从图像数据学习到控制策略。

1.为了解决数据相关性的问题，提出经验回放机制（experience replay mechanism），随机从缓存数据中采样，时数据分布更加平滑。

Atari 2600 is a challenging RL testbed that presents agents with a high dimensional visual input (210x160 RGB video at 60Hz) and a diverse and interesting set of tasks that were designed to be difficult for humans players.

本论文设计一种神经网络模型，完全从原始的图像数据开始学习，毫无任何人工特征或先验知识，从游戏获取的reward得分会提供训练的signal。

2.backgroung

agent与环境交互过程建模：a sequence of actions, observations and rewards.

每一步，agent 从合法的actions 中选取一个action。每一步的action 传入环境，改变环境的内部状态。

然而环境可能是随机的，并且环境的内部状态是不可知的，agent只能通过传感器观察到observation，并且获取得分reward。

注意：当前的得分与先前的一系列actions有关，而且当前的action获得的reward可能发生在数千步之后。

agent无法根据当前的观察完全的理解环境状态，因此考虑用一系列的actions, observations为当前状态建模。

st=x1;a1;x2;:::;at

并根据这个序列学习agent的控制策略。

由于所有的游戏都是一个有限步数的回合，可以引入Markov decision process (MDP) ，把每个每个完整的序列作为当前状态，应用强化学习方法。

智能体的目的在于通过跟环境交互，通过观察状态选取能够最大化未来回报的行动。

未来回报定义为未来每一步乘以折扣系数，

最优的动作价值函数：依据某种策略能够最大化其未来回报的期待

最优动作价值函数服从Bellman equation

假设最优q函数已知下一个状态s'所有动作的价值，那么最优策略将选择能够最大化的动作。

许多强化学习背后的做法是通过迭代Bellman equation更新，来估计价值函数。并且该迭代算法的收敛可以得到证明，

为了提高泛化能力，采用函数拟合的方式来逼近价值函数。通常采用神经网络作为非线性拟合器。

通过最小化一个动作序列的loss训练神经网络

目标值，取决于神经网络的权重，不同于监督学习。

这个model-free的方法，通过对仿真器采样，避免的对环境模型的估计。

off-policy：following a behaviour distribution that ensures adequate exploration of the state space. In practice, the behaviour distribution is often se- lected by an ε-greedy strategy

Playing Atari with Deep Reinforcement Learning

results matching ""

No results matching ""