拟南芥和荷花Cystatin基因家族的生物信息学分析(2)

本研究以拟南芥和荷花的cystatin基因为研究对象，通过对已获得的植物cystatin结构域的检索，对它们进行了基因组范围内的基本鉴定，分析得出拟南芥和荷花cystatin基因的基本信息；对拟南芥、水稻和荷花中cystatin基因所编码的蛋白质进行多序列连配，并构建系统发生树，比较拟南芥、水稻和荷花之间的进化关系；对拟南芥和荷花的cystatin蛋白通过Pfam进行结构域检测，获取信号肽区段，通过MEME分析得到保守基序以及它们在蛋白质中的位置。
已有的研究表明，拟南芥中cystatin基因的探索进行的比较深入，也发现它在保卫植物体避免遭受病原体或昆虫的侵害方面有积极的作用[5]，而对于荷花cystatin基因的研究目前还相对缺乏，以期经过以上生物信息学方法的分析，对荷花和拟南芥cystatin基因有一个大致的比较和基本了解，为进一步的相关研究奠定基础。
1 材料与方法
1．1 数据库的搜索
通过检索美国国立生物技术信息中心（National Center for Biotechnology Information,NCBI）数据库，获取了植物中分离出的cystatin基因超家族以及它们编码的蛋白质序列。通过Pfam[6]软件对这些基因进行预测，得到蛋白质序列的cystatin结构域，并把它们作为目标检索物，在TIGR数据库中的荷花基因组数据库中进行搜索，获得相似的蛋白质序列，其中E值≤10-10的蛋白质序列即可作为候选蛋白。在这些已经得到的荷花候选蛋白的cystatin结构域中再次使用Pfam软件进行预测，如果结果中有cystatin结构域，即可认为该候选蛋白来自于cystatin蛋白家族，如果没有测出，此蛋白就不能被认为是来自cystatin蛋白家族的。将从荷花中得到的cystatin结构域序列作为目标检索序列，在TIGR数据库中的拟南芥全基因组数据库中搜索，获得相似的蛋白质序列，其中E值≤10-10的蛋白质序列即可作为候选蛋白。再次通过Pfam软件进行预测，并将获得的基因当作目标检索序列，重复进行上述检索操作，直到无法获取新的检索结果，至此得到所需的基因数据，完成检索后从TGIR数据库获得DNA和蛋白质序列。
1．2 序列分析
完成数据库的搜索以后，使用ClustalX 1.83对获得的拟南芥和荷花cystatin基因家族的氨基酸序列进行多重序列比对分析，这是构建系统发生树的前提。将获取的序列载入程序中，对其进行编辑，设置参数为默认，然后完成比对得到多序列联配的保守区段。使用MEGA 4软件[7]对cystatin蛋白家族的氨基酸序列构建系统发生树，默认设置，选择主界面Phylogeny菜单中的Neighbor-Joining方法，运行程序得到系统发生树，然后通过Tree View 1.6.1[8]软件将其显示出来。将得到的cystatin蛋白家族的氨基酸序列放入MEME软件[9]中，设置最大基序数为50，然后系统会自动寻找所有潜在的基序（motif）。
1．3 亚族间的功能性分歧分析
Diverge软件可以通过多种方法评估两条编码序列每个位点的同义码和不同义码的置换个数。将cystatin两个亚族的基因放入Diverge软件，通过Gu的方法对其进行极大似然法估计，测得两亚族间的功能性分歧系数以及似然比测验统计数。通过卡方测验（将自由度设置为1）分析两亚族之间的位点特异性差异。
1．4 正选择作用分析
正选择位点分析中所使用的极大似然法以及密码子替换模型是由Yang等[11,12,17]研究并发展的。将待测的蛋白质序列进行多序列联配，通过PAL2NAL软件[13]将其转换为编码序列的多序列联配，并将这一过程中产生的空位（gap）去除。然后使用PAML 4软件[14]的CODEML程序计算相应的dN/dS （ω），其中dN为核苷酸的非同义替换率，dS为同义替换率，二者比值（dN/dS）是衡量选择压力的分子进化参数，常用ω表示。若ω＞1则认为此节点的序列经历正选择压力；若ω＜1则认为此节点序列经历纯化选择压力；而ω=1则代表中性选择或自然选择压力。在蛋白质的系统发生树和序列对位排列结果的基础上，选择“位点特异性”模型（site-specific model）方法来鉴定蛋白质序列中经历正选择作用的系统发生树节点和氨基酸位点。如果似然比结果（2Δl）基本遵循卡方分布，其自由度为两个模型间自由参数之差[15,16]，就可以通过似然比测验（LRT）来分析嵌套间差异的显著性。本次实验通过计算M3（离散模型）对M0（单个ω）模型的似然比来检测位点间是否具有选择压力的差异；由于M8添加了一类ω＞1的位点，因此可以通过计算M8对M7模型的似然比来检测位点间是否具有正选择压力，其中M7和M8模型都使用离散β分布（用参数p和q描述）来估计每个位点的ω值。若结果显示M8对M7的统计检验达到显著水平且M8模型具有极大似然估计值ω＞1，再使用贝叶斯的后验概率分布方法估计经历正选择作用的位点[17]。拟南芥和荷花Cystatin基因家族的生物信息学分析(2):http://www.751com.cn/shengwu/lunwen_22771.html