基于基底神经节的机器人强化学习机制研究(4)

（2）Q-学习算法（Q-Learning Algorithm）[6,7]
Q学习算法是由Watkins在1989年提出的一种无模型强化学习算法。Q学习可以看做一种增量式动态规划。它通过直接优化一个可迭代计算的动态值函数Q（s，a）来找到一个策略使得期望折扣报酬总和最大，而非TD算法中的状态值V（s）。这样，Agent在每一次的迭代中都需要考察每一个行为，可确保学习过程收敛。
（3）Sarsa算法[8]
Sarsa算法是Rummery和Niranjan于1994年提出的一种基于模型的算法，最初被称为改进的Q-学习算法。它仍然采用的是Q值迭代。Sarsa是一种在策略TD学习（on-policy TD）。Sarsa与Q-学习的差别在于Q-学习采用的是值函数的最大值进行迭代，而Sarsa则采用的是实际的Q值进行迭代。除此之外，Sarsa学习在每个学习步agent依据当前Q值确定下一个状态时的动作；而Q-学习中依赖修改后的Q值确定动作。因此称Sarsa是一种在策略TD学习。
（4）R-学习算法（R-Learning Algorithm）[8]
第一个基于平均报酬模型的强化学习算法是有Schwartz提出的R学习算法，它是一个无模型平均报酬强化学习算法，类似于Q-学习算法，用动作评价函数R（s，a）表示在状态S下执行以动作a为起点的策略π的平均校准值，随后Singh对这基本的R-学习算法进行了改进，用实际获得的报酬作为样本来估计平均报酬，并在每个时间步对平均报酬进行更新。除此之外，基于平均报酬模型的强化学习算法还有H-学习，LC学习，R-MAX学习等算法[8]。相比于基于折扣报酬的学习算法，对于基于平均报酬模型的强化学习算法研究尚不够成熟。
上述算法中，TD算法和Q-学习算法中，无需学习马尔可夫决策模型的知识，直接学习最优策略，属于典型的模型无关法。Sarsa算法先学习模型知识，后根据模型知识推导优化策略，属于基于模型法。模型无关法每次迭代计算量较小，但是由于没有充分利用学习中获取的知识，其收敛速度要比基于模型法慢的多。
2.3 研究趋势
近年来，强化学习的理论与应用研究日益受到重视，但是由于所面临真实世界的复杂性，在实际应用中仍有许多问题有待解决。目前，有关强化学习的课题得到了美国国防部、美国国家科学基金以及国家青年科学基金以及美国海军、空军研究办公室的资助。另外，德国、韩国、澳大利亚等国家的学者都在开展有关强化学习的理论和应用研究。目前，强化学习在国际上是十分活跃的研究领域，研究中的问题如下：
（1）环境的不完全感知，即部分可观马尔可夫模型问题，环境从一个状态转移到另一个状态不一定是马氏过程，若环境是非马氏过程，一些算法的学习效果可能不好，甚至不收敛[19]。
（2）连续状态和连续动作问题，通常研究的强化学习系统，其状态和动作都是有限的集合，而在实际问题中，其状态和动作往往是连续的，而连续空间的强化学习问题，目前研究的还不够深入[9]。
（3）还有探索（exploration）和利用（exploitation）问题。强化学习系统必须对这二者进行折衷处理，即获得知识和获得高回报之间进行折衷。探索对学习来说是重要的，只有通过探索才能确定最优策略，而过多的探索会降低系统的性能，甚至在某些情况下对学习产生不利的影响[3]。
近年来，随着生物学研究的发展，发现大脑皮层下的一群神经核团（基底神经节）在脊椎动物动物行为控制中发挥重要作用，新的仿生强化学习算法也成为研究热点[11]。因此，本文以基底神经节为切入点，研究机器人的强化学习机制。
2.4 基底神经节的生物学基础知识
2.4.1基底神经节
基底神经节是脊椎动物大脑皮层下一群核团的总称，又称为“基底核”，包括尾状核和豆状核（纹状体）、苍白核、黑质和底丘脑核[14]，其结构和位置如图2.2所示。基于基底神经节的机器人强化学习机制研究(4):http://www.751com.cn/zidonghua/lunwen_4084.html