毕业论文

打赏
当前位置: 毕业论文 > 自动化 >

基于基底神经节的机器人强化学习机制研究(3)

时间:2017-03-12 16:55来源:毕业论文
本文继承人工智能的联结主义和行为主义的主要思想和方法,并且结合生物学中大脑神经核团-基底神经节的神经反射过程作用机理,对机器人强化学习过


本文继承人工智能的联结主义和行为主义的主要思想和方法,并且结合生物学中大脑神经核团-基底神经节的神经反射过程作用机理,对机器人强化学习过程进行研究。通过建模,对基底神经节在学习过程中的变化进行定性研究,并通过Simbad机器人仿真平台设计实验来研究学习的效果。
1.2 设计任务
本课题借鉴现代生物学的最新研究成果,对机器人的行为学习问题进行研究,所要完成的任务主要包括:
(1)研究基底神经节的结构和功能;
(2)研究Izhikevich尖峰神经元模型及其作用机理;
(3)研究多巴胺在条件反射过程中的活动特性及其对突触的调节作用,通过设计仿真实验验证这种调节作用的潜在应用;
(4)研究基底神经节强化学习机制的生物学基础,并在此基础上深入研究基底神经节在机器人行为序列学习中所起的作用;
(5)在机器人仿真平台上通过设计实验验证所研究方法的有效性。
1.3 论文结构安排
本文主要介绍受生物学上基底神经节启发的机器人强化学习技术,各章内容安排如下:
第一章为绪论。主要介绍本文研究的背景以及研究意义,说明详细的研究任务以及论文安排的结构层次。
第二章为强化学习以及基底神经节模型。主要介绍强化学习的概念和当前几种简单的强化学习算法,为后面介绍基于Izhikevich尖峰神经元模型的强化学习算法打下基础。并介绍基底神经节的生物学结构组成及功能,并介绍研究人员曾经建立的基底神经节的强化学习模型。随后介绍神经元的结构功能,以及神经元相关模型,并引入Izhikevich尖峰神经元模型。
第三章为基于基底神经节的强化学习算法。说明生物学中基底神经节与学习相关的神经机制,介绍Izhikevich尖峰神经元模型的相关特性,并阐述在Izhikevich尖峰神经元模型下通过多巴胺的释放来控制学习行为的模型机理。
第四章为强化学习机制的实验验证。主要介绍simbad仿真平台,以及在此仿真环境下设计的机器人走迷宫实验,分析实验结果验证基于基底神经节的强化学习算法的学习效果。
2    强化学习介绍以及基底神经节模型
2.1 强化学习概述
所谓强化学习,是指从环境状态到动作映射的学习,以使动作从环境中获得的累积奖赏值最大[5]。换句话说,强化学习是一种在与环境的交互中,利用从环境中得到的奖励或者惩罚信号来进行学习的方法,其基本思想来源于条件反射和动物学习理论。图2.1所示为强化学习的基本原理图,Agent(智能体或强化学习系统)根据环境状态s做出动作a,然后从环境得到奖赏或者惩罚r,Agent根据奖赏值r来改进动作,以获得最大奖赏值。
 
图2.1 强化学习基本原理框图
目前,强化学习面临搜索(exploration)和利用(exploitation)两难的问题。搜索是探究新的状态和动作,即获取新知识;利用则是根据环境状态选择已获得的、可以产生高回报的动作。搜索动作能够带来长期的性能改善,而利用可以帮助系统短期性能改善,但是可能收敛到局部次优解上。
2.2 几种强化学习算法
对目前的强化学习技术进行总结和分析(只对于简单的马尔可夫过程),搜索和利用两类问题各有利弊,典型的强化学习算法有如下几种:
(1)瞬时差分算法(TD-Learning Algorithm)[6,7]
TD学习是强化学习技术中最主要的学习技术之一。TD学习是蒙特卡罗思想和动态规划思想的结合,即一方面TD算法在不需要系统模型的情况下可以直接从agent经验中学习;另一方面TD算法和动态规划一样,利用估计的值函数进行迭代。TD算法是由Sutton于1988年提出的,并证明当系统满足马尔可夫属性,α绝对递减的条件下,TD算法必然收敛。但TD(0)算法,即一步TD算法存在收敛慢的问题,其原因其中agent获得奖励的瞬时奖赏值只修改相邻状态的函数估计值。更有效的方法是agent获得瞬时奖赏值可以向后回退任意步,称为TD(λ)算法,收敛速度有很大程度提高。 基于基底神经节的机器人强化学习机制研究(3):http://www.751com.cn/zidonghua/lunwen_4084.html
------分隔线----------------------------
推荐内容