找回密码
 注册
搜索
热搜: 超星 读书 找书
查看: 392|回复: 0

[【学科前沿】] 从基因组序列发现蛋白质功能和蛋白质之间的相互作用

[复制链接]
发表于 2007-7-6 00:25:02 | 显示全部楼层 |阅读模式
一个计算方法被提出从基因组序列推断蛋白质的相互作用,其基础是发现一些相互作用的蛋白质对在其它的有机体中存在融合为一个单一蛋白质链的同系物。从许多基因组搜索序列揭示在E.coli中有6809个这样被推测的蛋白质-蛋白质相互作用,在酵母中有45,502个。这些作用对的许多组成被证明在功能上相关;计算过滤进一步丰富了相互作用。一些蛋白质与几个其它蛋白质有联系;这些配对的联系似乎代表了功能上的相互作用诸如复合体或通路。实验证实的相互作用对在一个相互作用蛋白质数据库中被记录下来。

生物细胞的生命活动是由相互作用的蛋白质控制的,这些蛋白质参与代谢和信号传递通路以及组成复合体诸如合成和使用腺苷三磷酸(ATP)、复制和翻译基因或构成细胞骨架基础结构等等的分子机器[1]。我们的蛋白质-蛋白质相互作用的知识从生物化学和遗传学实验中积累,包括普遍使用的酵母双杂交实验[2]。这里我们要问蛋白质-蛋白质相互作用是否能够仅仅通过计算手段从基因组序列识别。


一些相互作用的蛋白质比如E.Coli DNA解旋酶的Gyr A 和Gyr B亚单位在另外一个有机体中融合为一个单一的链,即酵母拓扑异构酶II [3]。这样,Gyr A (804个氨基酸残基)和Gyr B(875个氨基酸残基)与拓扑异构酶II(1429个残基)的不同部分的序列相似性可能被用来推测E. coli 中的Gyr A 和 Gyr B的相互作用。

为了在E. coli中找到其它这样的假定的蛋白质相互作用,我们搜索了E. Coli基因组[4]的4290个蛋白质序列寻找这种形式的序列同源性[5]。我们发现了6809对非同源性序列,每对的两个组成与某个其它基因组(我们称之为罗赛达碑序列,因为它解译蛋白质对之间的相互作用)中的单一蛋白质有显著的相似[6] 。4290个蛋白质能够最多形成(4290)2/2 = 9 × 106对相互作用,但是我们认为在一个功能细胞中相互作用要少的多;对于每个蛋白质粗略有2到10个相互作用不是看起来不合理地多。


这些6809对的每个都是E. coli 中一对相互作用蛋白质的一个候选蛋白。5个候选蛋白质在Fig. 1中显示。E. coli 蛋白质的前3对是那些能够从生物化学文献中容易确定的实际上相互作用的。最后2对蛋白质还不知道有无相互作用。它们代表许多这样假定的相互作用,目前只能作为尝试性猜想。



Fig. 1 5例通过结构域融合分析预测相互作用的E. coli 蛋白质对
每个蛋白质用方块图表示代表结构域[按照ProDom结构域数据库所定义(17)]。对于每个例子绘制了蛋白质三联体:第二和三个蛋白质被预测相互作用,因为它们的同系物在第一个蛋白质中融合(文中称为罗赛达碑蛋白质)。前三个推测从实验知道相互作用[18]。最后两个例子显示来自同一通路的蛋白质对(两个来自组氨酸生物合成通路和脯氨酸生物合成通路前两个步骤的非顺序酶),还不知道直接相互作用。

我们设计了三个独立的用我们命名为结构域融合分析的方法预测相互作用的实验,每个都显示一个合理的组分可能实际上相互作用。第一个方法利用了SWISS-PROT 数据库中给出蛋白质的注解[7]。对于两个相互作用的蛋白质都被注解的情况,我们比较它们的注解,寻找该蛋白质对两个组成的相似的功能。在E. coli 已知功能的3950对蛋白质中,2682 (68%) 个在它们的SWISS-PROT注解中至少共享一个关键词(忽略关键词\"假想蛋白质\"),提示它们功能角色的相关性。当随机选择注解的E. Coli蛋白质对,只有15%享有一个关键词。总之,被结构域融合分析在E. coli 对中找出蛋白质-蛋白质相互作用候选者,超过一半的两个组成都有相似的功能;这个方法因此似乎是一个强有力的蛋白质功能预测方法。当一个蛋白质对中的一个组成的功能知道后,另外一个组成的功能就能够预测了。在酵母中进行了一个相似的分析发现45,502个蛋白质对。在已知功能的9857个蛋白质对中,32%在它们的注解中有至少一个关键词,而相比之下蛋白质随机选择的只有14%。

用结构域融合分析预测蛋白质相互作用的第二个实验使用相互作用蛋白质的数据库作为验证[8]。这个数据库是在一些发表的实验中发现的相互作用的蛋白质对的汇集。在1998年12月,此数据库含有939个条目,它们中的724个每对的两个组成在ProDom数据库中都列出了。在这724对中,我们发现46个或者6.4% 为罗赛达碑序列所链接。我们认为这个百分比随着更多的基因组被测序而上升。
第三个结构域预测的实验是通过另外一种计算方法预测相互作用[9],这种种系发育图谱的方法通过分析相关蛋白质的演进识别功能性的相互作用。这种方法被应用到E. Coli蛋白质的结构域融合分析的6809个相互作用中。这些预测的大约321个(~5%)是通过种系发育图谱所提示的,超过随机选择相互作用系列的8倍。假如结构域融合方法和种系发育图谱方法建立在完全不同的假设基础上,预测的重叠水平倾向于支持两种方法的预测能力。

在E. Coli蛋白质之间发现许多可能的配对作用鼓励我们寻找配对的相互作用,A与B被预测相互作用,而B与C,如此等等。也就是,我们提问是否结构域融合方法能够发现复合体或者蛋白质通路。如Fig. 2所示,通路和复合体上的提示性信息确实从E. Coli关联的蛋白质呈现出来。莽草酸盐生物合成以及嘌呤生物合成通路(分别为通路A和C)在Fig. 2 中显示。这些通路中发现与同一通路中其它成分联系的酶用粗体字表示。罗赛达碑序列提示的精确联系在Fig. 2 (B 和 D)中展示。所发现的联系中的一些是在通路中的顺序酶之间,而其它的在更远的组成之间,可能提示一个多酶复合体。这些同样的发现的另外一种解释是:在一些有机体中通路中的酶以融合性的形式表达作为表达调控的一种辅助;在这个情况下,一对联系的组成不一定要相互之间结合在一起(见下所示)。



Fig. 2 重建E. coli 中的两个代谢通路,相互作用只用结构域融合方法预测

通路A和C分别是已知的莽草酸和嘌呤的生物合成通路;它们按照酶连续作用在已知代谢物的传统方法排序。通路B和D构建自通路A和C的蛋白质,通路中的联系通过结构域融合方法预测。在两种情况下,超过一半的化学通路中的蛋白质通过结构域融合实验预测出来与通路中的其它蛋白质相互作用。有可能这些分组代表了多蛋白质复合体。堆放在一起的酶(比如AroK 和 AroL )是同系物。

为了评估蛋白质相互作用的结构域融合预测的可靠性,考虑为什么首选这种方法是有帮助的。它来自蛋白质亲合性的考虑。它遵循热动力学法则,结构域A和B融合到为一个一个单一的蛋白质链可以极大地提高A对B的亲合性。它的原因是融合极大地减小A和B解离的熵,因而减小了A和B结合的自由能[10]。熵值的减小通常表现为A对B的有效浓度的增加。E. coli 细胞中蛋白质浓度趋向于遵循微摩尔顺序[11],而融合蛋白质的有效浓度可以是毫摩尔或者更大[12]。换句话说,一个复合体的蛋白质亚基解离的标准自由能通常是27°C 下8 到20 kcal/mol (相应解离常数106 到 1014 M) [13],当亚基融合到一个单一蛋白质链时可以减少~10 kcal/mol。因为当A融合到B时蛋白质A和B之间的亲合性极大地提高,一些相互作用蛋白质对可以是来自在同一多肽上的相互作用结构域A和B的原始蛋白质,如Fig. 3所示。我们命名此蛋白质相互作用演进途径为罗赛达碑猜想。发现蛋白质-蛋白质作用界面与单一蛋白质分子结构域内作用界面相似也支持了罗赛达途径[14]。



Fig. 3 蛋白质-蛋白质相互作用演绎的一个模型

罗赛达碑模型开始是编码非相互作用结构域A和B的基因的融合,导致表达融合的双结构域蛋白质AB[19]。在融合蛋白质中,这些结构域有一个相对有效的高浓度,和几乎很少的突变生成结构域之间的原始结合,再通过连续的突变优化。在第二行中,通过与另外一个基因重组生成一个相互作用的蛋白质对A和B,相互作用的结构域被分离。一对相互作用的蛋白质A和B能够通过一个蛋白质的分裂而产生,因此开始的融合步骤对于罗赛达碑假设不是关键性的。下面右手边所示的是另外一个可能的突变, 一个环形缺失导致一个结构域互换的同二聚体。同寡聚体的演绎途径在以前已经有讨论[20],而且是可能的异寡聚体演绎途径中的同寡聚体的类似物。
认识到结构域融合实验作两个明确的预测是很重要的。首选,它预测有相互关联生物功能的蛋白质对-也就是参与一个共同结构复合体、代谢通路或生物过程的蛋白质。功能的预测是强有力的:对于E. Coli,在超过一半的实验预测中发现一般功能的相似性。第二,这种方法预测潜在的蛋白质-蛋白质相互作用。对于这个更具体的预测,对于蛋白质亲合性和演绎的考虑辅助理解在那些情况下结构域融合方法会遗漏相互作用蛋白质对(假阴性),那些情况下它会发现相互作用对的假候选者(假阳性)。一个遗漏相互作用的原因是许多蛋白质-蛋白质相互作用可能通过其它机制演绎,比如突变的逐渐积累演变为一个结合位点。在这些情况下,决没有相互作用蛋白质的融合并不可能发现罗赛达碑序列。另外,即使在其它情况下相互作用的蛋白质被发现,融合的蛋白质可能在演进过程中消失,因而没有罗赛达碑序列残留来解译结合的伙伴关系。但是,随着更多的基因组被测序就有更高的发现罗赛达碑序列的机会。

当结构域结合但是不相互作用情况下,结构域融合分析可能作出物理相互作用的错误判断。当蛋白质被融合调控共表达或者蛋白质信号时会发生这种情况。对于这些情况,蛋白质的\"相互作用\"可以是功能性的相互作用而不是物理性的相互作用。其它错误的判断可以发生是因为结构域融合分析不能够区别发生结合还是不发生结合的同系物。以信号结构域SH2和SH3举例。src激酶结构域和同源激酶的SH2、SH3结构域在src分子中相互作用[15],但是这些结构域的类似物在许多其它蛋白质中被发现,当然所有SH2结构域与所有SH3结构域相互作用是不可能的。对于表皮生长因子和免疫球蛋白结构域发生了一个类似的问题。在E. Coli中由于不能鉴别类似物导致的假阳性率是大约82%[16]。也就是说,尽管结构域融合分析给出了一个强有力的蛋白质功能预测\"A在功能上与B关联\",但是只有一小部分假设的相互作用代表了蛋白质间的物理相互作用。

为了定量和减少预测蛋白质-蛋白质相互作用的错误,我们计算了在许多不同蛋白质中出现的\"杂乱\"结构域如SH3的出现率。这些结构域能够被识别并在结构域融合分析过程中剔除。在结构域的ProDom数据库中,我们计算了其它的每个都能够用结构域融合方法关联的结构域的数目。如Fig.4所示,大约95%的结构域只和少数一些其它结构域关联。对于在ProDom结构域数据库中的7842个结构域,我们能够找到罗赛达碑关联的只有5%是\"杂乱的\",与超过25个其它的结构域关联。这样通过从我们的结构域预测中只要滤过所有结构域中的5%,我们能够剔除错误预测的相互作用的大部分。当这种形式的滤过被应用到在E. Coli中通过ProDom 分析发现的3521个罗赛达碑关联,数目被减少到749。尽管预测数目的下降,此滤过步骤相对未滤过预测增加了47%代表物理相互作用的预测关联的可能性。同样,滤过杂乱结构域后,E. coli 中由于不能鉴别类似物所致的平均假阳性率下降到65%。实际结构域融合分析的结果是许多蛋白质相互作用能够从基因组序列预测,使得实验者能够集中精力到有希望的相互作用上。



Fig. 4 发现\"杂乱\"结构域来滤过结构域融合方法所致的假相互作用

对于每个蛋白质结构域(按照ProDom数据库所定义),我们计算了能够被用来发现与其它结构域作用的罗赛达碑关联的数目。绘制此分布图表明对于大多数结构域(~95%)只有少数罗赛达碑关联被发现。对于剩下的~5%结构域,许多关联被发现。这些\"杂乱\"结构域是诸如SH3结构域和ATP结合盒等结构域,它们在许多其它不相关的蛋白质中被发现。

总之,基因组信息开辟了通向生物化学发现的新途径。在一个基因组中发现许多对蛋白质序列A‘ 和 B‘都是另外一个基因组中单一序列AB的类似物提示A‘ 和 B‘可能是结合伙伴并提供了关于A‘ 和 B‘强有力的功能信息。这种系统的搜索可能会导在有机体中致识别新通路和蛋白质复合体。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|网上读书园地

GMT+8, 2024-10-8 08:27 , Processed in 0.191761 second(s), 4 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表