蛋白质结构与功能的预测方法总结和资料汇总

aqi96 · 发表于 2007-10-8 07:34:00

蛋白质结构与功能的预测方法总结和资料汇总
“折叠（fold）”的概念

“折叠（fold）”是近年来蛋白质研究中应用较广的一个概念，它是介与二级和三级结构之间的蛋白质结构层次，它描述的是二级结构元素的混合组合方式。

二级结构的预测方法介绍：

Chou-Fasman算法：
　
是单序列预测方法中的一种，它是使用氨基酸物理化学数据中派生出来的规律来预测二级结构。首先统计出20种氨基酸出现在α螺旋、β折叠和无规则卷曲中出现频率的大小，然后计算出每一种氨基酸在这几种构象中的构象参数Px.构象参数值的大小反映了该种残基出现在某种构象中的倾向性的大小。按照构象参数值的大小可以把氨基酸分为六个组：Ha（强螺旋形成者）、ha（螺旋形成者）、Ia（弱螺旋形成者）、ia（螺旋形成不敏感者）、ba（螺旋中断者）、Ba（强螺旋中断者）。Chou和Fasman根据残基的倾向性因子提出二级结构预测的经验规则，要点是沿蛋白序列寻找二级结构的成核位点和终止位点。这种方法可能能够正确反映蛋白质二级结构的形成过程，但预测成功率并不高，仅有50%左右

GOR算法：
　
也是单序列预测方法中的一种，因其作者Garnier, Osguthorpe和 Robson而得名。这种方法是以信息论为基础的，也属于统计学方法的一种，GOR方法不仅考虑被预测位置本身氨基酸残基种类对该位置构象的影响，也考虑到相邻残基种类对该位置构象的影响。这样使预测的成功率提高到 65% 左右。GOR方法的优点是物理意义清楚明确，数学表达严格，而且很容易写出相应的计算机程序，但缺点是表达式复杂。

多序列列线预测：
　
对序列进行多序列比对，并利用多序列比对的信息进行结构的预测。调查者可找到和未知序列相似的序列家族，然后假设序列家族中的同源区有同样的二级结构，预测不是基于一个序列而是一组序列中的所有序列的一致序列。

基于神经网络的序列预测：
　
利用神经网络的方法进行序列的预测，BP (Back-Propagation Network) 网络即反馈式神经网络算法是目前二级结构预测应用最广的神经网络算法，它通常是由三层相同的神经元构成的层状网络，使用反馈式学习规则，底层为输入层，中间为隐含层，顶层是输出层，信号在相邻各层间逐层传递，不相邻的各层间无联系，在学习过程中根据输入的一级结构和二级结构的关系的信息不断调整各单元之间的权重，最终目标是找到一种好的输入与输出的映象，并对未知二级结构的蛋白进行预测。神经网络方法的优点是应用方便，获得结果较快较好，主要缺点是没有反映蛋白的物理和化学特性，而且利用大量的可调参数，使结果不易理解。许多预测程序如PHD、PSIPRED等均结合利用了神经网络的计算方法。
　
基于已有知识的预测方法（knowledge based method）:

这类预测方法包括Lim 和 Cohen 两种方法。Lim 方法是一种物理化学的方法，它根据氨基酸残基的物理化学性质，包括：疏水性、亲水性、带电性以及体积大小等，并考虑残基之间的相互作用而制订出一套预测规则。对于小于50个氨基酸残基的肽链， Lim 方法的预测准确率可以达到73%. 另一种是 Cohen 方法，它的提出当时是为了α/β蛋白的预测，基本原理是说：疏水性残基决定了二级结构的相对位置，螺旋亚单元或扩展单元是结构域的核心，α螺旋和β折叠组成了结构域。

混合方法（hybrid system method）:

将以上几种方法选择性的混合使用，并调整他们之间使用的权重可以提高预测的准确率，目前预测准确率在70%以上的都是混合方法，其中，同源性比较方法、神经网络方法和 GOR方法应用最为广泛。

三级结构的预测：

同源性建模：
　
假设对已知结构的另一个蛋白质序列来排列一个蛋白质的序列，如果靶序列和已知结构序列在整个序列的全长有很高的相似性，在合理的信任度上，我们可以使用已知结构作为靶蛋白质的模版。

“串线（threading）”算法：
　
串线结构分析是试图把未知的氨基酸序列和各种已存在的三维结构相匹配，并评估序列折叠成那种结构的合适度。串线法最适用于折叠（fold）的识别，而不是模型的建立。它是快速用未知序列的氨基酸侧链替换已知序列中的氨基酸位置。Jones等首先从蛋白质结构数据库中挑选蛋白质结构建立折叠子数据库，以折叠子数据库中的折叠结构作为模板，将目标序列与这些模板一一匹配，通过计算打分函数值判断匹配程度，根据打分值给模板结构排序，其中打分最高的被认为是目标序列最可能采取的折叠结构。Threading 方法的难点在于序列与折叠结构的匹配技术和打分函数的确定。（Jones等，1992）

蛋白质二级结构预测：
　
蛋白质二级结构的预测通常被认为是蛋白结构预测的第一步，是根据它们被预测的局部结构，对蛋白序列中的氨基酸进行分类。二级结构的预测方法通常分为多序列列线预测和单序列预测的方法。由于单序列预测所提供的信息只是残基的顺序而没有其空间分布的信息，所以单序列预测的算法预测准确率并不高而且对于一些特殊结构，这些算法很难预测成功。多序列列线预测和神经网络的应用大大提高了二级结构预测的准确度，通过对序列比对的预测可以明确的提供单一位点在三维结构上的信息。这样通常二级结构预测的准确率比单序列预测能够提高１０%.许多方法据说可达到70%-77%，目前较为常用的几种方法有：PHD、PSIPRED、Jpred、PREDATOR、PSA。其中最常用的是PHD。PHD结合了许多神经网络的成果，每个结果都是根据局部序列上下文关系和整体蛋白质性质（蛋白质长度、氨基酸频率等）来预测残基的二级结构。那么，最终的预测是这些神经网络每个输出的算术平均值。这种结合方案被称为陪审团决定法（jury decision）或者称为所有胜利者（winner-take-all）法。PHD被认为是二级结构预测的标准。

蛋白质三级结构预测：

蛋白质三维结构的预测方法通常包括：同源性建模和从头开始的预测方法。对数据库中已知结构的序列的比对是预测未知序列三级结构的主要方法，也即同源建模的方法。通常对于同源建模的方法过程并非统一，但基本思路是一致的，基本包括如下几个步骤：
1．使用未知序列作为查询来搜索已知蛋白质结构。
2．产生未知序列和模版序列最可能的完整比对。
3．以模版结构骨架作为模型，建立蛋白质骨架模型。
4．在靶序列或者模版序列的有空位区域，使用环建模过程代替合适长度的片段。
5．给骨架模型加上侧链。
6．优化侧链的位置。
7．使用能量最小和已知的优化知识来优化结构。

在进行序列比对时，最容易使用 BLASTP 程序比对 NRL-3D 或 SCOP 数据库中的序列。如果发现超过100个碱基长度且有远高于40%序列相同率的匹配序列，则未知序列蛋白与该匹配序列蛋白将有非常相似的结构。在这种情况下，同源性建模在预测该未知蛋白精细结构方面会有非常大的作用。同源性建模的成功的关键通常不是建模使用的软件或服务器，在设计与模版结构好的比对时的技巧更加重要。
　
结构预测相关程序及数据库：
常用蛋白序列和结构数据库：
数据库说明网址链接
PDB蛋白质三维结构http://www.rcsb.org/pdb
SWISS-PROT蛋白质序列数据库http://kr.expasy.org/sprot/
PIR蛋白质序列数据库http://pir.georgetown.edu/
OWL非冗余蛋白质序列http://www.bioinf.man.ac.uk/dbbrowser/OWL/
EMBL核酸序列数据库http://www.embl-heidelberg.de/
TrEMBLEMBL的翻译数据库http://kr.expasy.org/sprot/
GenBANK核酸序列数据库http://www.ncbi.nih.gov/Genbank/
PROSITE蛋白质功能位点http://kr.expasy.org/prosite/
SWISS-MODEL从序列模建结构http://www.expasy.org/swissmod/SWISS-MODEL.html
SWISS-3DIMAGE三维结构图示http://us.expasy.org/sw3d/
DSSP蛋白质二级结构参数http://www.cmbi.kun.nl/gv/dssp/
FSSP已知空间结构的蛋白质家族http://www.ebi.ac.uk/dali/fssp/fssp.html
SCOP蛋白质分类数据库http://scop.mrc-lmb.cam.ac.uk/scop/
CATH蛋白质分类数据库http://www.biochem.ucl.ac.uk/bsm/cath/
Pfam蛋白质家族和结构域http://pfam.wustl.edu/

蛋白质功能预测：
　
相关概念：

1．重叠群（contig）：
基因组测序中将许多序列片段经过比对找到重叠区，从而连接成长片段，称重叠连续群，简称重叠群。
2．序列模体（motif）：
通常指蛋白序列中相邻或相近的一组具有保守性的残基，与蛋白质分子及家族的功能有关。
3． Smith-Waterman算法：
1981年，Smith 和Waterman提出的一种用来寻找并比较这些具有局部相似区域的方法，即常用的Smith-Waterman算法，它也是一种基于矩阵的方法，而且也是运用回溯法（backtracking）建立允许空位插入的比对。这个算法的一个重要特征是矩阵中每个单元均可以是比对结果序列片段的终点，该片段的相似性程度由该单元中的分数值表示。
4．计分矩阵（scoring matrix）：
记分矩阵是描述残基（氨基酸或碱基）在比对中出现的概率值的表。在记分矩阵中的值是两种概率比值的对数，一个是在序列比对中氨基酸随机发生的概率。这个值只是指出每个氨基酸出现的独立几率的概率。另一个是在序列比对中，一对残基的出现的有意义的概率。这些概率来源于已知有效的真实的序列的比对的样本。

蛋白质功能确定的思路及方法：

1．通过相似序列的数据库比对确定功能

具有相似性序列的蛋白质具有相似的功能。因此，最可*的确定蛋白质功能的方法是进行数据库的相似性搜索。需要明确的是，一个显著的匹配应至少有25%的相同序列和超过80个氨基酸的区段。对于不少种类的数据库搜索工具，快速搜索工具（如BLASTP）速度快，也很容易发现匹配良好的序列，一般就没必要运行更花时间的工具（如FASTA、BLITZ）；但当BLASTP不能发现显著的匹配时，就需要使用那些搜索速度较慢但很灵敏的工具了。所以，一般的策略就是先进行BLASTP检索，如果不能得到相应的结果，就可以运行FASTA，如果FASTA也无法得到相应结果，最后就需要选用完全根据Smith-Waterman 算法设计的搜索程序，如 BLITZ。
比对所选用的记分矩阵对最终预测结果影响也很重要，首先，选择的矩阵须与匹配水平相一致。PAM250应用于远距离匹配（<25%相同比率），PAM40应用于不很相近的蛋白质序列，BLOSUM62为一个通用矩阵。其次，使用不同矩阵，可以发现始终出现的匹配序列，这样可以减少误差。

2．确定序列特性：疏水性、跨膜螺旋等

许多功能可直接从蛋白质序列预测出来。例如，疏水性信息可被用于跨膜螺旋的预测，还有不少小的序列模体（motif）是细胞用于特定细胞区室（cell compartment）蛋白质的定向。对于跨膜螺旋的预测涉及到对跨膜蛋白跨膜区域的识别，这就需要鉴定序列中可以折叠成螺旋并存在于膜的疏水环境中的区域。跨膜序列一般具有一些明显的特征，比如，为了跨膜α螺旋必须有大约17~25个氨基酸长度，因为细胞膜内部是由脂肪酸的长的碳氢链组成，所以膜中的α螺旋必须存在相对的面向膜的非极性面才能在能量上是有利的。早期的算法程序会直接分析这些特征，并通过分析序列的17~25个氨基酸的窗口，对每个窗口产生的疏水性得分，得分高的即被预测为跨膜螺旋，现在一些经过改进的更精确的算法，不仅提高预测准确性到90%以上，而且可以预测跨膜螺旋的一些其他特征，比如在膜上的方向。这些都依赖于一系列对已知跨膜螺旋的特征研究的成果。
3．通过序列模体数据库等的比对确定功能

蛋白质不同区段的进化速率不同，蛋白质的一些部分必须保持一定的残基模式以保持蛋白质的功能，通过确定这些保守区域，有可能为蛋白质功能提供线索。主要有两种方法可用于序列模体的查找。一种方法是查找匹配的一致序列或序列模体。这种技术的优点是快捷，序列模体数据库庞大而且不断被扩充；缺点是有时不灵敏，因为只有与一致序列或序列模体完全匹配才被列出，而近乎匹配的都将被忽略。使在做复杂分析时候受到严重限制。第二种方法是更加精细的序列分布型方法。原则上，分布型搜索的是保守序列（不只是一致序列），这样可以更灵敏的找出那些相关性较远的序列。但分布型和分布数据库需要大量的计算和人力，所以分布数据库的记录没有序列模体数据库多。在实际分析时，应同时对这两种类型的数据库都进行搜索。

结构密码蕴藏在排序中

这是一个复杂但很有意思的生命过程——基因承载了生命的遗传信息，生命的功能则是藉由蛋白质执行的；蛋白质是由20种氨基酸组成的肽链，而DNA中的基因控制了蛋白质中氨基酸种类的排序。蛋白质只有在折叠的状态下才能表现出生命的功能，但折叠是如何自发形成的呢？

氨基酸序列与蛋白质空间结构的关系研究源于美国生物化学家安芬森（C.Anfinsen）。1961年，他研究了核糖核酸酶的去折叠和重折叠过程，发现在相同的环境中去折叠的蛋白质都会恢复到原来的空间结构，认为蛋白质链会以自由能最低的方式形成三维结构，由此推测蛋白质的折叠密码隐藏在氨基酸排序中，即所谓的安芬森原则：蛋白质一级排序决定三维结构。因为“对控制蛋白质链折叠原理的研究”，安芬森获得1972年诺贝尔化学奖。

然而，蛋白质的空间结构极其复杂，该如何确定呢？现在有两种方法：一种是实验测量，包括用X射线衍射和核磁共振成像；一种是理论预测，利用计算机根据理论和已知的氨基酸序列等信息来预测，方法包括同源结构模拟、折叠辨识模拟和基于第一性原理的从头计算。

1913年，劳尔和布拉格父子第一次发现X射线通过晶体可以产生衍射现象从而确定原子在晶体中的位置并因此获得诺贝尔奖。1957年，剑桥大学的肯德鲁用劳尔-布拉格的方法确定出第一个蛋白质(肌红蛋白)的三维结构从而获得1962年的诺贝尔化学奖。此后18年间,人类共测出38个蛋白质结构；至1980年，这个数目增长到184个。

显然，用实验方法测量蛋白质及生物大分子的结构相当繁琐。张阳说：“蛋白质结构的实验测定十分费时费力。多年前测定一个蛋白质的结构就有可能获得诺贝尔奖。如今随着技术的进步，实验测蛋白质结构的时间和花费已经大大地减少了，但测定一个蛋白质结构的平均费用也在100万美元左右。”

自然界有大量种类的蛋白质，实验只能测出其中非常小的一部分，目前“蛋白质数据库”中只有3万多个蛋白质的结构。有没有其他方法可以更快、更经济地测量出大量蛋白质呢？

物含妙理总堪寻

既然蛋白质结构的密码隐藏在序列中，那么解开这个密码就可以通过序列来解开蛋白质的结构。张阳说：“我们的目的就是用计算机从氨基酸的序列来直接预测蛋白质的结构。将序列输进计算机里，设计一套程序，让计算机去计算和确定蛋白质中每个原子的三维坐标。如果这种理论方法经实验数据的验证可行，那么就可能通过计算机自动预测出蛋白质的结构，这几乎是免费的。”

然而，用序列预测结构谈何容易。驱动氨基酸折叠形成特定三维空间的作用诸多，包括氨基酸侧链分子间作用力、水分子表面张力、氨基酸侧链分子间的电偶极距和电磁力以及它与水分子的相互作用等。根据数学计算，由100个氨基酸构成的小蛋白质的空间构象可能会有1050种空间结构。

物含妙理总堪寻。一种氨基酸序列只可能有一种蛋白质结构，这就是计算机预测蛋白质结构的意义所在。根据安芬森的热动力学原理，蛋白质在细胞中应该处在它与环境的自由能最低态。这意味着可以根据物理、化学、生物学等知识来设计蛋白质的能量函数，因此寻找这种最低自由能所代表的结构。

科学家们使出十八般武艺来预测序列与结构间的密码，寻找出三种有代表性的预测方法：同源结构模拟（Homology Modeling）、折叠辨识模拟（Fold Recognition）和基于“第一原则”的从头计算方法（Ab Initio）。

同源模拟又称为比较性模拟。如果目标蛋白质与已测出结构的蛋白质的序列有30%以上的相似，那么这两种蛋白质可被视为同源，它们也应该有类似的空间结构。因此，若知道同源蛋白质家族中的某些蛋白质的结构，就可利用它们作为模板来模拟目标蛋白质的结构，这种方法速度较快，精度也比较高。但是这种方法有局限性，毕竟已知结构的蛋白质数量很少，而且很多蛋白质没有同源系列。

折叠辨识模拟又称串线指认方法，意思是指把目标蛋白序列与蛋白质数据库中所有的蛋白质结构进行逐一对比。自然界中有些蛋白质的氨基酸序列不大相同，但其结构极为相似。张阳说：“这对我们建立新计算机模型非常有用。在无法进行序列比对的情况下，我们就想办法用目标序列直接与已有的其他蛋白质结构进行比较。具体做法是，设计一个打分系统，让计算机来识别这个序列放在被比较的其他蛋白质上是否‘舒服’，再根据得分高低判断序列是否会折叠成这种结构，评分系统是这种方法的关键。”

“从头计算”方法源于安芬森的“最低自由能构型假说”。前两种方法是用已知结构的蛋白质为模板来构建新的结构，而“从头计算”不需要模板，它是以物理为基础来研究蛋白质的折叠方法，怎样设计适当的能量函数，怎样找到相应的最低自由能是这种方法的关键。

蛋白质结构预测免费服务

目前已经有许多蛋白质结构预测服务通过因特网对公众免费开放。由于结构预测技术本身的局限性，每种预测服务都各有得失。我们简要介绍几种国际上较为常用的预测服务的优缺点、使用方法及工作原理。

三级结构预测（同源建模）：

瑞士生物信息研究所 SWISS-MODEL　

丹麦技术大学生物序列分析中心 CPHmodels

比利时拿摩大学 ESyPred3D 　

英国癌症研究中心 3DJigsaw

二级结构预测（折叠识别）：

美国哥伦比亚大学 PredictProtein

英国瓦卫克大学 PSIpred　

印度昌迪加尔的微生物技术研究所 APSSP　

欧洲生物信息研究所（EBI）Jpred　

美国加利福尼亚大学 SSpro

α－螺旋倾向性预测（从无到有）：

欧洲分子生物学实验室(EMBL) AGADIR

AGADIR Service

AGADIR —— 一种预测肽链中螺旋含量的算法

　

AGADIR是一种基于螺旋/卷曲转化理论，可以在残基水平上准确预测单体肽螺旋行为的算法。利用此算法，可以预测肽链的平均螺旋含量、α碳和α氢原子的构象、偶合常数、及N-Cap、C-Cap等参数。通过用圆二色性法和核磁共振法的测评，此算法对短肽链，即三级相互作用不明显时，预测准确很高。

利用AGADIR的预测数据，可以参考之对肽链螺旋，及至蛋白结构进行适当修饰，以达到特定的实验目的，或进行其它应用。

到目前为止，蛋白质结构解析的方法主要是两种，x射线衍射和NMR。近年来还出现了一种新的方法，叫做Electron Microscopy。

其中X射线的方法产生的更早，也更加的成熟，解析的数量也更多，我们知道，第一个解析的蛋白的结构，就是用x晶体衍射的方法解析的。而NMR方法则是在90年代才成熟并发展起来的。这两种方法各有优点和缺点。
首先来说一下，这两种方法的一般的步骤和各自的优点和缺点。

电子显微镜（electron microscopy）作为一种新型的技术，目前的应用还是非常少，并且比较狭窄，到最后在给它作些介绍，而且相信绝大多数人也没有听说过，也不会有很大的兴趣。

首先是X晶体衍射。首先要得到蛋白质的晶体。
通常，都是将表达蛋白的基因PCR之后克隆到一种表达载体中，然后在大肠杆菌中诱导表达，提纯之后摸索结晶条件，等拿到晶体之后，工作便完成的80％，将晶体进行x射线衍射，收集衍射图谱，通过一系列的计算，很快就能得到蛋白质的原子结构。
用x射线的优点是：速度快，通常只要拿到晶体，甚至当天就能得到结构，另外不受大小限制，无论是多大的蛋白，或者复合体，无论是蛋白质还是RNA、DNA，还是结合了什么小分子，只要能够结晶就能够得到其原子结构。
所以x射线方法解析蛋白的瓶颈是摸索蛋白结晶的条件。这个时候运气就显的特别重要。关于这个有好多有趣的离子。据说国外一个同学在摸索两个月无果之后，毅然去度假，就将蛋白扔在一个很随便的地方，等度假回来之后，却发现已经结晶了。
然后，来说一下NMR。
NMR（nuclear magnetic resonance）现象早已发现了很久，然后将这种方法用来解析蛋白结构，却是近一二十年的事情。不过到今天为止，用nmr方法来解析结构已经十非常成熟的方法。
原理暂且放在一边，先说常规步骤。
首先通过基因工程的方法，表达出目的蛋白，提纯之后，摸索一下蛋白稳定的条件，如果蛋白没有聚合，而且折叠良好，便将蛋白样品（通常是1mM－3mM，500ul，Ph6－7的PBS）装入核磁管中，放入核磁谱仪中，然后用一系列写好的程序控制谱仪，发出一系列的电磁波，激发蛋白中的H、N13、C13原子，等电磁波发射完毕，在收集受激发的原子所放出的“能量”，其实也是小磁场，通过收集数据、谱图处理、电脑计算从而得到蛋白的原子结构。
它的优点就是，蛋白在液体中得到结构，是一个动态的结构，事实上所有在pdb中或者文献中发表的NMR结构都是十个或者二十个结构的ensemble（集合），这就是因为这些结构都是进行能量优化后符合条件的结构，或者说就是溶液中的蛋白结构。因为是动态就很容易的研究蛋白与其他蛋白或者配基的相互作用。缺点是，受大小的限制，到目前为止NMR解析蛋白结构的上限是50kd。

无论是晶体还是NMR，蛋白都要符合下面的条件：首先表达量要大，象NMR要求1个mM500UL，这就要求十几个毫克，结晶要摸索很多的条件也需要大量的蛋白。所以蛋白一定要在胞质中表达才行。其次，蛋白要折叠。我们知道许多蛋白，尤其是真核蛋白在大肠杆菌中是以包含体的形式存在，这种情况下是不行的，除非复性。如果你的蛋白在胞质中表达，如果你不确定是不是表达，可以从分子筛上的位置，或者扫CD确定一下，当然最简单的是做一个NMR一维谱，只需要几分钟。
小于20Kd的蛋白可以考虑NMR，因为NMR研究功能核相互作用方面是更加擅长的，而且不需要结晶，现在速度也不慢。如果比较大，可以考虑晶体解析。

蛋白质的亚细胞定位
关于蛋白质的亚细胞定位的预测，In general，预测方法分为3个步骤。首先，为每一类亚细胞locations构建客观而具有代表性的数据集。其次，从数据集中提取特征参数或 descriptor。最后也是最关键的一步，通过算法比较查询序列中所包含的特征参数与各类相应的location的相似度，作出判断，一般会用一组概率的形式来表述。很明显，其中大量运用的是机器学习理论和统计学的方法。对算法有兴趣的朋友可以参考下面这一篇综述，“An overview on predicting the subcellular location of a protein” In Silico Biology 2002 http://www.bioinfo.de/isb/2002/02/0027/main.html

以下是该综述中涉及的部分server，都是比较经典的。

PSORT：http://psort.nibb.ac.jp
By amino acid composition information and sorting signal knowledge

TargetP：http://www.cbs.dtu.dk/services/TargetP/
By discriminating the individual targeting signal peptide

MitoProt：http://ihg.gsf.de/ihg/mitoprot.html
By discriminating mitochondrial and chloroplast signal peptide

Predotar：http://www.inra.fr/Internet/Produits/Predotar/
By discriminating mitochondrial, chloroplast signal peptide

NNPSL：http://predict.sanger.ac.uk/nnpsl
By amino acid composition

SobLoc：http://www.bioinfo.tsinghua.edu.cn/SubLoc/
By amino acid composition

SubLoc: http://www.bioinfo.tsinghua.edu.cn/SubLoc/
By more sequence information besides the amino acid composition

一篇文献：http://cubic.bioc.columbia.edu/papers/2003_loci_3dnet/paper.html

“Better prediction of sub-cellular localization by combining evolutionary and structural information”

找到一些晶体学的原理。一起学习。
蛋白质纯化与结晶
获得蛋白质的晶体结构的第一个瓶颈，就是制备大量纯化的蛋白质(>10 mg)，其浓度通常在10 mg/ml 以上，并以此为基础进行结晶条件的筛选。运用重组基因的技术，将特定基因以选殖(clone)的方式嵌入表现载体(expression vector)内，此一载体通常具有易于调控的特性。之后再将带有特定基因的载体送入可快速生长的菌体中，如大肠杆菌(Escherichia coli)，在菌体快速生长的同时，也大量生产表现载体上的基因所解译出之蛋白质。一般而言纯度越高的蛋白质比较有机会形成晶体，因此纯化蛋白质的步骤就成为一个重要的决定因素。

在取得高纯度的蛋白质溶液后，接下来就是晶体的培养。蛋白质晶体与其他化合物晶体的形成类似，是在饱和溶液中慢慢产生的，每一种蛋白质养晶的条件皆有所差异，影响晶体形成的变量很多，包含化学上的变量，如酸碱度、沈淀剂种类、离子浓度、蛋白质浓度等；物理上的变数，如溶液达成过饱和状态的速率、温度等；及生化上的变数，如蛋白质所需的金属离子或抑制剂、蛋白质的聚合状态、等电点等，皆是养晶时的测试条件。截至目前为止，并无一套理论可以预测结晶的条件，所以必须不断测试各种养晶溶液的组合后，才可能得到一颗完美的单一晶体(图一) 。

蛋白质晶体的培养，通常是利用气相扩散法(Vapor Diffusion Method) 的原理来达成；也就是将含有高浓度的蛋白质(10-50 mg/ml)溶液加入适当的溶剂，慢慢降低蛋白质的溶解度，使其接近自发性的沈淀状态时，蛋白质分子将在整齐的堆栈下形成晶体。举例来说，我们将蛋白质溶于低浓度(~1.0 M) 的硫酸铵溶液中，将它放置于一密闭含有高浓度(~2.0 M)硫酸铵溶液的容器中，由气相平衡，可以缓慢提高蛋白质溶液中硫酸铵的浓度，进而达成结晶的目的(图二)。

蛋白质晶体在外观上与其他晶体并无明显不同之处，但在晶体的内部，却有很大的差异。一般而言，蛋白质晶体除了蛋白质分子外，其他的空间则充满约40 %至60 %之间的水溶液，其液态的成分不仅使晶体易碎，也容易使蛋白质分子在晶格排列上有不规则的情形出现，造成晶体处理时的困难及绕射数据上的搜集不易等缺点。但也由于高含水量的特性，让蛋白质分子在晶体内与水溶液中的状态，极为相似。所以由晶体所解出的蛋白质结构，基本上可视为自然状态下的结构。

绕射数据的记录
X 光绕射点搜集，随着时间的推移，也由早期以闪烁计数器(scintillation counter) 一次记录一个点及使用许多X-光片(X-ray film) 拍下绕射点，每张X 光片都要经过显影的步骤；之后进而使用多重金属丝板(multiwire)自动记录每次侦测到的绕射点。目前使用的荧光记录板(image plate)，则是利用磷化物经X 光激发后会产生荧光，经荧光扫描仪记录成数字模式的图像文件后，再以灯光照射一段时间去除记录板上的荧光点，即可再进行下一次的记录工作。电荷耦合器(charge-coupled devices, CCD) 的出现及技术的改良，可以不断地记录绕射点，而不需荧光板扫描及去除步骤，如此将加速绕射点的搜集。目前的同步辐射光源几乎全部使用CCD 来记录绕射数据(图三)。
在实验室中的X 光光源的产生，一般使用铜作为旋转式阳极靶(rotating anode)，可以产生波长为1.54

		自动登录	找回密码
密码			注册

[【经验与求助】] 蛋白质结构与功能的预测方法总结和资料汇总