找回密码
 注册
搜索
热搜: 超星 读书 找书
查看: 418|回复: 0

[【学科前沿】] 垃圾与宝藏——基因组的暗面

[复制链接]
发表于 2006-4-13 02:11:46 | 显示全部楼层 |阅读模式
正当大家在这样狂欢的时候,那一大堆垃圾上忽然冒出一根梗子,一株树,一朵庞大的花,一个巨大的菌子,一个完整的屋顶。——安徒生《守塔人奥列》

    占据基因组绝大部分区域的“垃圾DNA”,可能并不是基因的墓场,而是未被认识的宝藏。

    到今年,DNA双螺旋结构向人类展露其本来面目已有52年了。开启这个生物学新时代的4位代表人物中有3位已经辞世——罗莎琳德·富兰克林、莫里斯·威尔金斯、弗朗西斯·克里克。硕果仅存的詹姆斯·沃森,也早已从当年意气风发的小伙子变成了白发苍苍的老人。然而分子生物学依然是一门年轻的学科。人类已经绘出包括自身在内的许多物种的基因组图谱,DNA测序似乎已成为全无技术难度的体力劳动,一些科学家嚷嚷着要进入“后基因组时代”。但是,平日充斥于学术论文和新闻媒体的“基因”,只是生命之书中一些极小的段落。基因组绝大部分区域仍然潜藏在暗影中,长久以来被人们当作“垃圾”而忽视,只在近年来才泄露出几缕光芒,显示这个巨大的垃圾场可能蕴藏着与其体积相称的宝藏。  进入环球风情论坛
   自从人类基因组草图绘制完成,23对染色体、30亿个碱基对,这样的常识也开始为非专业人士所熟知,人类对自身遗传图谱的认识得到很大的补充和修正。大概在2000年时,科学家还估计人类基因组中约有10万个基因,但不出5年这一数字已跌到2~4万,目前一种比较通行的说法是约2.5万。这些基因所包含的DNA序列,大概只有人类基因组序列总长的2%左右。也就是说,人类生命蓝图中约有98%的信息似乎不属于什么基因,是无用的垃圾。然则什么是垃圾?
    地球上绝大多数生命以DNA为遗传物质,另有一些病毒使用RNA,没有别的方案——为什么是这样,科学家并不知道。他们急于寻找外星生命,哪怕只是细菌也好,一个重要原因就是想看看地球生命使用DNA是偶然还是必然。DNA由4种碱基也就是4种“字母”组成,分别称为A、T、C、G,在RNA中,字母T被换成U。整个DNA双螺旋就像一条极长的、扭曲的梯子,梯子的两边各是一条由许多字母逐个连成的带子,每个字母与对面带子上相应位置的字母结合在一起,成为一个梯级,称为“碱基对”。其中只能A、T相互结合,C、G相互结合,所以知道了DNA双链中一条的碱基顺序,另一条也就确定了,这两条链是互补的。
   生物的遗传信息,就是DNA链上这些字母的排列方式。将蓝图转化为实际产品的过程,就是一段DNA根据其碱基序列合成出对应的RNA序列(转录),然后RNA序列信息指导氨基酸拼合形成蛋白质(翻译)。生物体的生理机能,基本上都由蛋白质完成,比如在血液中运送氧气、进行新陈代谢等等。可以说,DNA发出命令,RNA挥动鞭子,蛋白质则是卖苦力的牛马。从DNA到RNA再到蛋白质的这个过程,就是生物学的“中心法则”。
    能够最终形成蛋白质或说“编码某种蛋白质”的这样一段DNA,就是我们传统意义上所说的“基因”。在人和其它生物体内,这样的基因都只占整个基因组的很小一部分,它们就像宝石一样,零星地落在暗沉沉的荒野中。各基因之间是大片大片不能制造蛋白质的DNA序列,即“非编码序列”。生物学家们在很长时间里都认为,既然几乎所有具体的生理机能都要蛋白质来完成,那么不编码蛋白质的DNA应该是没有用的,可以称为“垃圾DNA”(Junk  DNA)。
   一集50分钟的电视剧,被拆成好几节来播放,中途插入的广告总共算起来有半小时以上,是否已经让你忍无可忍?那么,假如给2分钟的正经节目附上98分钟的广告,你会有什么感觉?是的,太过分了!生命为何要如此浪费?除了性细胞,人体每个细胞里都有一整套的DNA,每套DNA只有约2%的内容有用。在其它哺乳动物体内,比例也大抵如此。有些物种的基因组更加“精练”、垃圾更少,比如鸡的基因组大小只有人类的1/3,河豚则为人类的1/10,但它们的基因数量却与人类差不多。也有的更夸张,洋葱的基因组有人类基因组的12倍那么大,阿米巴变形虫的基因组更是比你的基因组大200多倍。但那里面垃圾太多、全不足道,决不能使一个洋葱头或一只阿米巴比你更高等。这实在是质量胜过数量的绝好例子。
    人们对垃圾DNA的来源提出了多种解释,比如有一部分垃圾来自病毒。逆转录病毒是一类以RNA为遗传物质的病毒,其中我们最熟悉的是艾滋病病毒。它们侵袭宿主细胞时,会把自身的RNA转换成DNA,插入基因组中,并跳来跳去大量复制。从DNA到RNA的过程叫转录,反过来就叫做逆转录,这也是这类病毒的名称由来。逆转录病毒有的会致病,引起艾滋病或癌症等,也有的没有什么影响。在进化历程中,有许多逆转录病毒DNA留在了人类基因组里,成为垃圾。
   还有一些垃圾DNA可能是死亡基因的遗骸,称为“假基因”。科学家认为,它们原本是编码蛋白质的真基因,由于发生变异而失去功能,被弃之不用。它们的序列与真基因非常相似,但有着细微差别,正是这些差别使假基因不能编码蛋白质。去掉假基因不会影响机体的功能;偶尔某个假基因发生变化、死而复生,倒可能造成麻烦。由于假基因的存在不增加或减少生物的生存优势,所以进化过程很难把它们从基因组里清扫出去,就好像把东西扔到了垃圾桶里,却没有人把垃圾桶拿出去清倒,结果在屋子里越积越多。假基因在生物基因组中大量存在,人体内就有约2万个,几乎与真基因的数量相当。
   有证据显示,至少一部分垃圾DNA很像真正的垃圾,因为动物失去它们之后依然生活得很好。2004年10月,一组美国科学家在《自然》杂志上报告说,他们删除了小鼠基因组中超过100万个碱基对的非编码DNA(约占鼠基因组的1%),并没有给这些小鼠的发育、寿命和繁殖造成可察觉的影响。在100多项评估基因活性的组织测试中,只有2项发现了差异。他们还培育出失去300万个碱基对的非编码DNA的小鼠,也没有发现明显异常。当然,也许失去这些区域带来的改变极其微小,以目前的水平、在实验室里一两代的培育中看不出来。
   然而这并不是全部。在过去几年中,分子生物家们已经越来越感觉到,“垃圾DNA”的命名过于草率了,连“基因”的定义也需要重写。编码蛋白质并不是DNA的全部意义,那些非编码区域,也许有一部分像上面的实验所显示的那样没有明显功能,但更多的部分我们还不了解,不能先入为主地将它们扔进垃圾堆。实际上,那一大堆“垃圾”里,已经长出了一些让科学家眼花缭乱的东西,而这还只是冰山之一角。
   比如,理论上完全无用的假基因并不是那么“假”,2003年一个日本研究小组发现了第一个有功能的假基因。科学家培育出一种转基因小鼠,它们带有一个名叫“性别致死”的基因。这个名字可怕的外来基因在大多数小鼠身上并没有造成什么负面影响,唯独在某一个品系中名符其实,所有的小鼠在幼年时就死了。研究显示,在这个品系的小鼠中,外来基因偶然地插入了一个叫makorin1-p1的假基因中间,把它破坏掉了。这个假基因是makorin1基因的变异版本,比“正本”要短很多,不编码蛋白质,按传统理论应该没有用处。然而事实是,它损坏后,对应的真基因也不工作了。这个假基因转录出的RNA很可能控制着真基因的表达,尽管两者位于不同的染色体上。
   那么,至少在这个例子里,不编码蛋白质的基因也对生存至关重要,没有什么假不假的,只是工作方式与传统基因不同——通过RNA而非蛋白质来起作用。从前RNA只被当作从DNA到蛋白质的中间人、将遗传信息从蓝图传递到工人手中的信使。但新研究显示,一些RNA可以与其它的RNA、DNA、蛋白质甚至小分子化学物质发生作用,直接影响生理机能——也就是说,不是作为挥动鞭子的角色,而直接去做苦力。垃圾DNA中某些不编码蛋白质的片断,例如上述实验里的假基因,可能通过转录成RNA来发挥作用。这些片断不是传统意义上的基因,可称作“RNA基因”,它们往往非常短小,难于识别,但非常重要。它们调控其它基因的表达,使这些基因开启、关闭、更活跃或更不活跃,影响生物的体型、发育、疾病易感性等。为了避免概念混乱,有的科学家倾向不再谈论基因,而将能够转录成RNA的DNA序列统称为“转录单位”。
   蛋白质的特性由分子形状决定,它们由许多氨基酸连成长链,折叠成精巧复杂的三维空间结构。鸡蛋煮熟了再也不能孵出小鸡,就是因为其中的蛋白质形状被高温不可逆转地破坏,失去了功能。蛋白质与其它物质作用的方式,就像钥匙开锁,只有结构相配,才能彼此结合。RNA则与DNA一样,特性由碱基序列即字母排列顺序决定。如果说蛋白质是“模拟的”,那么RNA就是“数字化的”。一条ACCUCG….模样的RNA链,与一串101100010…模样的计算机数据在本质上是共通的。RNA链遇到与它互补的序列时与之结合,发生作用。例如,如果其互补序列正好是某个基因编码蛋白的中间产物——信使RNA,两者结合就阻止了该基因的表达。
   RNA也能以“模拟”方式工作,像蛋白质一样折叠起来,通过形状产生作用。它甚至可以是“双模”的:非编码DNA能产生一类称为“核开关”的RNA,充当非常精确的遗传开关。它由“模拟”和“数字”两部分组成,其中“模拟”部分折叠成复杂形状,与特定蛋白质或化学物质结合;“数字”部分则包含某蛋白质的对应RNA编码。当且仅当“模拟”部分与目标结合时,“数字”部分的开关打开,制造出这种蛋白质。这是一种非常有趣的结构,在动物、植物、微生物中都有发现,它影响着小鼠的毛色、枯草芽孢杆菌的新陈代谢等。这意味着核开关存在于所有三界生物的共同祖先中,诞生于进化的黎明时分。
   还有一些非编码DNA,即使我们完全不了解它的功用,也可以断定它们并不是垃圾,必定有着重要功能,“高度保留共同序列”就属于这种。2004年一组美国科学家在《科学》杂志上报告说,他们对比研究了人、大鼠、小鼠、鸡、狗、鱼等多个物种的基因组,发现其中存在一些极其相似乃至完全相同的DNA序列。这些序列位于非编码区域中,共有480个,在人、大鼠和小鼠身上完全相同,与狗、鸡、鱼对应序列相似度也远远超过各物种基因组平均相似度。不过,在海鞘和果蝇体内找不到这些序列。人们并不知道这些高度保留序列有什么作用。它们在人和鼠身上的版本完全相同,意味着人和鼠的祖先分家之后的7500万年间,这些序列没有发生任何改变,这是极其不可思议的。
   为了防止偶然因素,研究者检查的序列长度都超过200个碱基对。从统计学上来说,这么长的序列因为独立的偶然变异而重复出现3次,基本上是不可能的。有480个这样的序列重复出现3次,就更不可能了。有不少人根本就怀疑这个实验出了问题,人类的DNA污染了鼠DNA样本。此外,这些序列在人与鱼身上的版本差异很小,即在人和鱼祖先分家后的4亿年里改变甚微。这表明它们的稳定性对脊椎动物至关重要,微小的差异都可能造成致命的后果。如果这些区域不重要或根本没有作用,那么偶发的变异不会被淘汰掉,而会稳定地积累下来,导致亲缘较远的生物之间序列差异非常大。
   科学家猜测,有些高度保留序列可能影响着重要基因的活动,还有一些控制着胚胎发育。这些序列彼此差异很大,从中看不出与其功能有关的线索。科学家正考虑培养出缺少某一高度保留序列的转基因小鼠,观察其生长发育有何异样,由此判断该序列的作用。这一发现再次证明,不编码蛋白质、在传统上被认为是垃圾的DNA,绝对不是真正的垃圾。
   人们曾经猜想,越复杂的生物基因数量越多,但事实已经推翻了这种观点。如前所述,人类基因数量与鸡和河豚的基因数量相近,而水稻的基因差不多比人多一倍。阿米巴和洋葱则证明了基因组的总体大小与生物复杂性也全无关系。到底是什么决定了物种之间的根本差异?看来必须把传统的基因与新近被证明是宝藏的“垃圾”结合起来考虑。
   天文学家一度认为,那些在电磁波谱的各频段闪耀光芒的星星和尘埃,就是这宇宙里的一切。然而越来越多的证据使他们认识到,宇宙中还有人类所看不见的暗物质和暗能量,而且事实上它们占去了宇宙质量的绝大部分,我们所熟悉的物质只有百分之几。宇宙的终极命运——是永远膨胀还是坍缩成为一个奇点?——更多地取决于这些暗影中的神秘质量。对暗物质和暗能量的研究是近年来宇宙学的重大进展,也是一项重大挑战,因为科学家至今并没能对它们的本质给出合理解释。垃圾DNA可以说是基因组的暗面,它将改变生物学的面貌,就像暗物质和暗能量改变宇宙学的面貌那样。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|网上读书园地

GMT+8, 2024-11-7 03:44 , Processed in 0.113861 second(s), 4 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表