2.1 马尔可夫决策过程

马尔可夫决策过程是强化学习的基本问题模型之一,它能够以数学的形式来描述智能体在与环境交互的过程中学习到一个目标的过程。这里智能体充当的是做出决策或动作,并且在交互过程中学习的角色,环境指的是与智能体交互的一切外在事物,不包括智能体本身。

比如我们要学习弹钢琴,在这个过程中充当决策者和学习者的我们就是智能体,而我们的交互主体(钢琴)就是环境。当我们执行动作(弹钢琴)的时候会观测到一些信息,例如琴键的位置等,这就是状态。此外,当我们弹钢琴的时候会听到钢琴发出的声音,这就是反馈,我们通过钢琴发出的声音来判断自己弹得好不好,如果不好则反思并纠正下一次弹的动作。当然,如果这时候有一位钢琴老师在旁边指导我们,那么钢琴和老师就同时组成了环境,我们也可以在交互过程中接收老师的反馈来提高自己的弹钢琴水平。

图2-1描述了马尔可夫决策过程中智能体与环境的交互过程。智能体每一时刻都会接收环境的状态,并执行动作,进而接收到环境反馈的奖励信号和下一时刻的状态。

图2-1 马尔可夫决策过程中智能体与环境的交互过程

确切地说,智能体与环境之间是在一系列离散的时步(time step)[1]的基础上交互的,时步一般用来表示,[2]。在每个时步,智能体会观测或者接收到当前环境的状态,根据状态执行动作。执行完动作之后会收到奖励[3],同时环境也会受到动作的影响产生新的状态,并且在时步被智能体观测到。如此循环下去,我们就可以在这个交互过程中得到一串轨迹(trajectory),可表示为:


[1] 有些方法可以扩展到连续时间的情况,但为了方便,我们尽量只考虑离散时步的情况。

[2] 注意,这里的之间的时间长短是跟现实时间无关的,它取决于智能体每次交互并获得反馈所需要的时间,比如在弹钢琴的例子中,我们是能够实时接收到反馈的,但是如果我们的目标是考试拿高分的时候,每次考完试我们一般是不能立刻接收到反馈(即获得考试分数)的,这种情况下之间会显得特别漫长。

[3] 这里奖励表示成而不是,是因为此时的奖励是由动作和状态来决定的,也就是执行完动作之后才能收到奖励,因此强调是下一个时步的奖励。

其中奖励就相当于我们学习弹钢琴时收到的反馈,我们弹对了会受到老师的表扬,这相当于奖励;弹错了可能会受到老师的批评,这相当于惩罚。前面讲到马尔可夫决策过程可以描述智能体在交互过程中学到一个目标的过程,而这个目标通常是以最大化累积的奖励来呈现的。换句话说,我们的目标是使得在交互过程中得到的奖励之和尽可能大,其中表示当前交互过程中的最后一个时步,也就是最大步数,从的这一段时步我们称为一个回合(episode),比如游戏中的一局。