蛋白质序列预测3d结构【利用预测的蛋白质序列裂解位点来定位凋亡蛋白】

　　摘要：凋亡蛋白对于物种发育和生物体内平衡的维持发挥着非常重要的作用。对凋亡蛋白的亚细胞位点的准确预测有利于理解细胞程序性死亡的机理和其生物学功能。本文利用SignalP得到的裂解位点将肽链分成N-端信号序列和成熟端序列。通过提取两端序列的氨基酸组分（ACC）、伪氨基酸组分（Pse-AAC）和整个链的立体化学特性来描述一条蛋白质序列。最后将得到的特征向量输入到支持向量机（SVM）中来预测其亚细胞位置。对三个凋亡蛋白基准数据集进行Jackknife验证，得到的总体精度分别为93.9%，87.6%，91.5%。此外我们还利用了由Reinhardt和Hubbard构建的非凋亡蛋白基准测试数据集（NNPSL数据集）来验证本文的方法，对于真核和原核蛋白的预测准确度分别达到87.7%和94.8%。
　　关键词：凋亡蛋白；SingalP；伪氨基酸组分；立体化学特性；Jackknife检验
　　中图分类号：Q26 文献标识码：A 文章编号：1007-9599 （2012） 17-0000-02
　　1 介绍
　　细胞凋亡，或者称为细胞程序性死亡，在控制细胞增殖和死亡的平衡中起着非常基础的作用。在一些重要的生物过程中，比如形态发生，组织内平衡，死亡或病毒感染细胞清除，自身反应性细胞系的免疫去除，凋亡蛋白都起了核心的作用。凋亡蛋白对多细胞生物的健康和正常发育很重要。它的异常激活会导致获得性免疫缺陷综合症（艾滋病），中枢神经系统退行性疾病，缺血性损伤等等。因此，理解细胞的凋亡机制对于这些疾病的临床治疗和药物研究都有很重要的意义。为了理解蛋白质的结构和功能，一个重要的方法是确定其所处的亚细胞位置。确定蛋白质亚细胞位置的方法可以分两类，一种是基于蛋白质信号肽的方法。Nakai和Kanehisa最早发展了一个专家系统和知识库用N-末端分选信号来预测蛋白质亚细胞的位置。第二种方法是Nakashima和Nishikawa提出的基于蛋白质序列和结构特征的方法，即利用蛋白质氨基酸组分来区分细胞内和细胞外蛋白质。这些方法都取得了不错的效果，但是忽视了蛋白质中各种分选信号生物信息。实际上新生蛋白质上都存在着信号肽，决定了蛋白质分子在细胞内的去向。如果合理利用蛋白质信号肽就能预测蛋白质亚细胞的定位。鉴于此，本文根据蛋白质信号肽和蛋白质序列特征提出了一种新的方法。首先使用SingalP将每一个序列分成N-末端信号和成熟端序列，然后提取出每一个序列的特征。引入伪氨基酸组分的目的是避免丢掉一些序列顺序信息。而氨基酸的立体化学特性（SP）则是子序列特性，引入这个特性的目的是提高预测质量。将Pse-AAC和SP通过SignalP算法得出一个公式（表示为PSSP）。基于数据集ZD98、ZW225、CL317，用jackknife检验总体预测精度分别达到了93.9%、87.6%、91.5% ，为了使结果更具有普遍性，基于NNPSL数据集，用PSSP测验得到的总体预测精度分别是94.8%、87.7%。
　　2 方法和工具
　　本文研究采用三种使用广泛的基准测试数据集：ZD98、ZW225、CL317数据集。ZD98数据集包括了43个细胞质蛋白，13个线粒体蛋白，12种其他的蛋白和30个等离子体的膜结合蛋白。ZW225数据集包括了70种细胞质蛋白，89种质膜蛋白质，25种线粒体蛋白和41种核酸蛋白质。CL317数据集包括了6个亚细胞的定位，112种细胞质蛋白，55种质膜蛋白质，34种线粒体蛋白质，17种分泌蛋白和52种核酸蛋白和47种面内质网蛋白质。这三个数据集的序列分布是由PISCES软件计算出来的。
　　蛋白质序列包含的基本信息包括氨基酸组分。氨基酸组分是20个氨基酸在序列中的出现频率，通常用一个20维的特征向量表示。
　　这里的、表示信号肽区域和成熟蛋白区域的氨基酸组分特性，是两种序列中的氨基酸的出现频率。考虑到N-末端信号肽区域和成熟蛋白质区域做出的不同贡献，这里引入一个参数作为这两个区域的加权值，其中的的最优值就是以0.1为间隔在0 ～10之内搜索得到。伪氨基酸组分（PseAAC）特征提取方法是由Chou提出的，假设有一个含有L个氨基酸残基的蛋白质链L：，根据Chou的PseAAC（伪氨基酸组分）离散模型，这里的蛋白质样本S可以表示成一个（20+ ）维的空间向量：
　　前20个组分是20种氨基酸在序列中出现的频率，也就是传统的氨基酸组分。后λ维表示序列的附加特征，这里选择蛋白质序列的近似熵作为附加特征。
　　这里的是蛋白质出现的20个氨基酸的标准化出现频率。是第j层序列相关因子。为的权重因子，用于调节氨基酸序列次序信息对分类系统的影响程度，本文设定为0.05。
　　本文最后一个特征采用的是泰勒提出的氨基酸的立体化学特性。将20种氨基酸的立体化学性质特征用10维向量来表示：，其中（i=1，2，…，10是20种氨基酸中特性是i的氨基酸出现的频率）。
　　将以上提出的特征组合成一个向量来表示整个蛋白质链特征，维向量：
　　这里的是N-末端的信号肽和成熟蛋白序列的权重。是PseAAC（伪氨基酸组分）的层相关因子。本文中检验了在不同的加权值（0～10）和相关因子中，测试结果的不同，对于不同的数据集ZD98、ZW225、CL317分别得到了最佳的值1.3、6.8和3.9，最佳的值8、6和2。
　　3 结果和讨论
　　在支持向量机处理过程中，分别对于数据集ZD98、ZW225和CL317选定参数c=8.0、g=8.0，c=8.0、g=2.0和c=8.0、g=8.0。为了评价PSSP模型的效果，对相同的数据集用现有的方法进行比较，选取定位精度和总体精度作为比较项。根据测验结果，对于数据集ZD98，本文方法的精度达到93.9%，这跟DF_SVM方法的精度一样，比Covariant方法的精度提高了20%。而且，本文对Mito（线粒体）蛋白质的精度达到了100%，这比Covariant方法的精度提高了70%。使用提供方法的ZW225的总预测精度达到了87.6%。这是上述方法中的最高值。Mito（线粒体）蛋白和Nucl（核蛋白）的定位精度是95.5%、80.5%，这明显比其他方法的精度要高。CL317数据集的分泌蛋白并没有达到令人满意的精度，本文的方法仍然比其他的方法要好，总体精度达到了91. 5%。特别是Cyto（细胞色素氧化酶）和Mito（线粒体）蛋白，本文的工作相对来说达到了很高的精度。
　　4 总结和讨论
　　根据信号肽的理论，本文用SignalP将每个序列分成N-末端信号肽部分和成熟蛋白部分。然后从每个序列中提取出包含序列信息的PseAAC特征作为特征描述。通过Jackknife 检验，在三种凋亡蛋白数据集和NNPSL 数据集都得到了令人满意的结果。蛋白质内含有的固有的信号控制它们在细胞内的运输和定位。本文研究遵照了现实中的生物现象，但是，尽管研究得到了更好的精度，本文的目的仍然是融合分选信号和蛋白质结构的特征来得到关于凋亡蛋白亚细胞定位的更多信息。为了更好地了解不同的裂解部分对亚细胞定位的贡献，需要研究更多的序列特征和更大的数据集。
　　参考文献：
　　[1]Zhou，G.P. and K. Doctor，Subcellular location prediction of apoptosis proteins. Proteins，2003. 50（1）：p.44-8.
　　[2]Steller，H.，Mechanisms and genes of cellular suicide.Science，1995. 267（5203）： p.1445-9.

推荐访问:裂解序列蛋白质蛋白