蛋白质结构类预测国内外研究现状

蛋白质结构分类的概念是1976年由英国学者Chothia和Levitt提出来的。根据当时已知的31种球蛋白质晶体X射线衍射所测定的3级结构，但是这两位学者只给出结构类的定性描述，直到1986年日本学者根据蛋白质的2级结构含量，定量地定义了α，β，和αβ类。此后。又有若干不同的定义发表。但是，这些定义带有相当大的主观任意性。在对大量蛋白质结构进行系统分析的基础上，作者在1998年提出了一个客观的定量的分类标准，后来又进行改进，从蛋白质结构的原子坐标数据出发，经过复杂的计算，可以明确判断该蛋白质属于哪一类。利用上诉定量分类标准对数千个已知的蛋白质进行分类，其结果与国际上著名的蛋白质分类数据库SCOP高度一致，而SCOP是根据进化关系和肽链的折叠原理用手工方法进行蛋白质分类的。作者提出的这一套分类标准是建立在对大量蛋白质结构统计分析的基础上，因而具有可靠性和先进性，超过了以前已有的一些定量的分类标准，对于蛋白质结构分类学有重要的意义。64775

蛋白质结构分类是在蛋白质的空间结构已知的前提下进行的，如果某蛋白质的空间结构未知，能否根据其一级结构来预测其结构类？这就是结构类预测。1986年日本学者Ooi等人首先用他们提出的分类标准对当时已知结构的百余种蛋白质进行了分类，并发现结构类与蛋白质的氨基酸组成有关，利用氨基酸组成，他们提出了结构类预测算法，其准确性已经达到70%。从1992年起，对于结构类预测这一课题的本质了解也日益深入。这些工作引起了国际蛋白质研究界的广泛关注，但是相关算法和相应软件仍未达到实用水平。这主要是两方面因素：训练用蛋白质数据库中蛋白质的数量不够多，缺乏充分的代表性。以及仅仅应用氨基酸组成来表示蛋白质的一级结构是不充分的。现在这两方面的问题即将解决。可以预期：有使用水平的算法和软件即将提出来。并将上网提供服务。届时对于绝大部分任意给定的蛋白质，渴望以较高的准确度来预测其结构。

蛋白质结构类预测的另一个途径就是预测其2级结构含量，即预测一个蛋白质中有多少个残基采用α螺旋构象和β折叠构象。一旦2级结构预测出来了，就可以根据分类标准定出他的结构类。这种途径的一个副产品就是同时预测出其2级结构含量。经过相关人员的努力，终于使α含量的平均误差降到0.087：β折叠含量的平均预测误差降低到0.081。这是迄今为止国际上同类研究的最好结果。预测软件上因特网公布以来，短短数月就有来之国外的上千人次的使用这一软件。

这是一项涉及数学，物理学、计算机科学和分子生物学的高度交叉的跨学科研究，是生物信息学的核心课程之一。这也是一项以较少投入获得较多成果的，适合我国国情的研究项目。

近年来，已经有很多关于从蛋白质主序列中预测蛋白质属性的研究[2][3]。从模式识别的角度看，这些工作都是一个典型的分类、预测的问题，如何从样本中提取多个特征，进行融合并建立分类模型，获得一个满意的预测结果成为大家关心的问题。论文网

一般的，现有三个典型的体系：

（1）信息层次融合[4]：信息从单独的信息集中获得，融合在一起；

（2）特征层融合[5]：多个特征集首先从多个信息集中提取出来，然后，将获得的特征集合并起来：

（3）决策层融合[6]:首先从不同特征集中获得单独的决策，然后将他们融合在一起获得最终的决策。这些不同的融合方案已经在许多生物信息学研究中方被引用。蛋白质结构类预测国内外研究现状:http://www.751com.cn/yanjiu/lunwen_72097.html