simbad基于基底神经节机器人强化学习技术研究(4)

如下图所示，突触的结构可以人为的分为突触前（presynaptic element）、突触间隙（synaptic cleft）和突触后（postsynaptic element）三部分。突触前细胞的细胞膜称作突触前膜，突触后细胞的细胞膜称作突触后膜，两者之间的间隙称为突触间隙。突触前通常是一个神经元的轴突末端，呈球状膨大。突触前通常包含有线粒体和突触小泡，当突触前神经元受到刺激时，突触前会通过突触前膜释放一定浓度的突触小泡，从而刺激突触后神经元，实现信息的传递。使突触后膜产生兴奋的突触被称为兴奋性突触（excitatory synapse），反之，使突触后膜产生抑制的突触被称为抑制性突触（inhibitory synapse）。通常认为突触的兴奋和抑制，主要取决于神经递质和受体的种类。而且，同一个突触的状态并不是固定的，它可以在不同时刻表现出不同的状态。

图2.2 突触结构图

虽然医学上早就认识到，突触在神经系统中起着传递、加工和存储信息的功能，但长久以来，人们对于突触的控制机理并不十分清楚。尽管最近有消息说德国马普神经生物学研究所已经利用特殊的化学感受器系统分析的方法，研究出了突触结构的控制原理[5]。好在我们并不需要仔细去研究突触的生物控制原理，我们要做得工作是给出具有突触生物特性的数学模型，并用实际的控制实验验证这种模型是否可行。

人之所以被称作高等动物，是因为人脑具有学习和记忆功能，这一功能主要是通过神经细胞之间的联结来实现的，而两个神经细胞间的功能连接结构，即突触起着至关重要的作用，因为它能使信息从一个细胞传递到另一个细胞。研究认为，大脑学习和记忆功能与突触数目的多少紧密相关。当我们强化学习和反复记忆某种东西时，大脑中突触的数目就会增加，反之，如果突触数目减少，我们所记忆的东西就会遗忘。现在普遍认为，正是突触具有在医学上所谓的突触可塑性，人类才能够掌握学习和记忆这一重要的能力。

2．3 神经元模型

2.3.1神经元模型

神经元模型是用于模拟计算神经元生物特性的数学模型。现有的神经元模型很多，其中比较典型的一种是由McCulloch和Pitts于1943年建立的MP模型。其基本思想是：由于神经细胞的工作方式要么是兴奋，要么是抑制，所以可以通过引入硬极限函数来模拟这种机制。这种函数形式后来常被其他神经网络（如多层感知器、离散Hopfield网络）所采用。具体实现方式：由于神经元之间的信号连接强度取决于突触状态，因此在MP模型中，神经元的每个突触的活动强度用一个固定的实数即权值模拟[6]。于是每个神经元模型都可以从数十甚至数百个其他神经元接收信息，产生神经兴奋和冲动；同时，在其他条件不变的情况下，不论何种刺激，只要达到阈值以上，就能产生一个动作电位。但如果输入总和低于阈值，则不能引起任何可见的反应。能引起任何可见的反应

simbad基于基底神经节机器人强化学习技术研究(4):http://www.751com.cn/zidonghua/lunwen_72849.html