新世纪的生物信息学

mytiantian · 发表于 2005-1-15 22:15:00

生物信息学至今已有两大板块：一是基因组信息学；二是神经信息学（neuroinformatics）。这里仅谈及前者。

1995年Venter等人率先公布了第一个完整基因组序列（流感嗜血杆菌），最近他们又将31亿bp的人基因组序列测完，不久小鼠基因组测序和上百种微生物亦将完成。如此巨量的DNA序列信息将会深刻地改变着生物学与医药学，其中生物信息学起了不可取代的作用。

根据各方面的鉴定，尤其是国际GASP（基因组诠释评估计划）实验评估（取实验研究已达20多年的黑腹果蝇基因组的酒精脱氢酶区段作为验证的目标），至今生物信息学的采集信息与识别信息的能力如下：

全基因组测序、集装与ACEDB面向对象数据库

功能诠释的误差下限是8%

功能与结构特征的预测精度<70%

基因识别精度>90%；exon边界的识别率~50%

真核Promotor预测正确率~35%，其它调控元件几乎难辨。

进入后基因组时期，主要有两大任务：

诠释评估GASP（Genome Annotation assessment Project）

功能解析（Functional Assignment）

在这方面国内的状态相当滞后：

主要力量放在测序，且其硬、软件几乎全部“拿来”

没有独立的诠释系统

信息处理的计算生物学有待重视（例如DNA/Protein Chip必须配备合格的映像软件和实施标准化才能产业化）

“功能解析”工作仅为星星之火

在测序中，特别是全基因鸟枪测序（Whole genome shotgun sequencing），国人尚未消化，把Phrap，CAP3，TIGR甚至Celera集装软件拿来就用。现有中国博士汤海旭在与Waterman和Pevzner合作中发现历来的集装算法遵循“Overlap-layout-consensus”体制，无法根本上克服“基因组重复序列”问题。象水稻有50%的重复序列，即使采用两套独立的标记（Mark），亦无法消除重复序列扰乱集装中的重叠群判据。人基因组的重复序列更多，问题更严重。他们放弃这种体制，采用全新的算法（Eulerain Superpath），论文即将发表。这是一起生物学家与数学家良性合作的范例。国内的管理技能和合作风气仍有很大尚待改进的空间。

目前重要工作

1、我国没有自主或独立的基因组诠释系统（annotation）。搞算法的或搞软件的大多对生物内容不太熟悉，难于帮上忙。这方面主要涉及基因识别和功能分类，尤其后者需要较好的生物学知识。

2、基因组序列将是生物学与医药学的创新基础。蛋白质组的量度，旁系同源体数据集，直系同源体数据集，同位体(Synteny)，代谢/调控网络分析，蛋白质相互作用数据库，基因表达剖面以及SNP数据库均是生物信息学家的可为之处。

3、微生物病原体基因组的知识将给医药学和生物学提供激动人心的机遇。我们将知道在病原体中有多少个基因。同时解析病原体和宿主基因组，就能确定哪些基因对病原体生存是关键的；明白某种病原体在特定宿主中是致病的；毒性细胞素何时和如何在宿主中被激活；是否某病原体已经造化某些蛋白来妨碍宿主免疫性或诱发自免疫性；以及病原体（如结核杆菌）在潜伏期如何幸存逃避宿主免疫系统。这些信息可以有效地构建疫苗，来诱发特异的和高效的免疫力去对抗病原体，而麻烦的毒副作用达到极小。

4、什么是功能？功能大致分为分子、细胞和表象等层次。功能分类与识别的难度在于是上下文依赖的（Content-dependent）。例如“乳酸脱氢酶”可为脱氢酶也可为眼晶体蛋白，依赖于所处的“上下文”。

展望

作为计算机科学和数学应用于分子生物学而形成的交叉学科，生物信息学已经成为基因组研究中必不可少的有力研究手段。为了能够更好地服务于基因组研究，生物信息学在将来的发展中需要做以下几方面的努力：

（1）理论研究。任何学科的发展都离不开基础理论的研究，生物信息学也不例外。它对许多学科都提出了巨大的挑战。这些学科包括分子进化遗传学、群体遗传学、统计生物学、基因组学以及计算机科学和应用数学的相关学科。如果基础理论研究得不到应有的发展，生物信息学的发展将受到严重的阻碍。

（2）软件的重用和说明。现在虽然已经开发出大量的软件工具，但是大多数软件缺乏技术细节的描达，使得新软件编制时不能很好地利用已有的软件资源，不得不从头开始，造成各种软件都有自己的输入输出格式，相互之间互不通用。同时，大量软件的出现带来一个新问题，即生物学家面对数量众多的软件无从选择。这两个问题的解决需要对各种软件的功能特性和技术细节进行详尽的介绍，并进行比较。这样的话，新软件的编制者可以避免一些编程的重复劳动，甚至直接利用已有的程序模块，并且可以编制已有软件输出格式的接口，统一输入输出的格式，用户也可以方便地选择合适的软件。

（3）集成数据库。公共数据库与因特网相连，为世界各地的科学家提供快速高效的服务，因而成为获取生物学数据的最佳媒介。目前，国际上著名的公共数据库有Genebank、EMBL、DDBJ、Swiss-Port、PIR、PDB等。

（4）生物数据的质量监控。监控已有的生物数据究竟具有多大的可信度，对于物理图谱的构建工作将有十分重大的意义。

（5）加强生物学家和计算机科学家以及数学家之间的沟通。长期以来，这三类科学家都是埋头于各自的研究领域，而不关心其他学科的发展和要求。这种状况在我国尤为突出。生物信息学的发展要求三者之间加强沟通。其意义不仅在于推动生物信息学自身的发展，而且将形成促进整个生物学发展的强大动力。

生物信息学作为基因组研究的有力武器，被广泛地用来加快新基因的寻找过程，以达到将\"有用\"新基因抢先注册专利的目的。在这场世界范围内的竞争中，中国科学家以及科研资金投向的决策部门如何结合我国科研水平的现状、优势领域等客观情况，将有限的投资投入以求获得最大可能的科学研究以及商业回报，是一个无法回避的新课题。

我国科学家认为，在克隆新基因的思路方面，我国不应该照搬国外克隆新基因所用的方法，而应该走生物信息学和定位克隆相结合的道路。具体地说就是一方面进行各种遗传疾病家系的采集，从家系分析入手，寻找致病基因在染色体上的位置，然后对这个区域进行测序，再利用生物信息学的手段预测候选基因和它的功能并用实验加以证实；另一方面直接从现有公共数据库中的EST出发，用生物信息学的方法寻找可能有研究价值的新基因，并用实验方法来研究证实。这种双管齐下克隆新基因的方法可能更适合我国人类基因组研究在财力、物力和研究人才资源等方面的客观条件。

在生物信息学学科建设方面，政府应注意加强生物信息学学科建设的延续性，克服青年科技人员流动性大等困难，有重点地把工作长久地开展起来，尽快设立相关的学位，以利于对后继人才的培养；适当地支持拥有我国自主知识产权的算法、软件的后继开发、包装工作，这不仅仅因为其潜在的商业利润，更要逐渐确立中国在世界生物信息学领域的地位。

在生物信息系统的构建方面，应该避免重复投资。国家应当集中创建一两个具有一定规模的生物信息中心，建立面向全国的生物学数据库检索和数据分析系统。这个系统的建立可以分两步走。第一步我们要将国外公共数据库中的内容和相关软件收集和集中起来，提供检索和下载。第二步是将这些资源有机地组合，建立一个统一的生物信息平台。通过这个平台用户可以将各种格式的数据提交给设在生物信息中心的服务器，在服务器上进行一系列的检索和数据分析。用户不必关心各种数据库和软件的输入输出格式，只需一个简单的客户端软件甚至只需一个WWW浏览器就能完成全部工作。整个生物信息平台不仅是一个集成的数据库，而且是一个集成的软件工具。

相信在HGP和即将开始的中国人类基因组研究计划中，生物信息学将发挥越来越大的作用，并推动生物学进入一个全新的境界。

用户名		自动登录	找回密码
密码			注册