国际生物信息学研究进展

mytiantian · 发表于 2005-1-12 17:30:02

近10年来，现代农业生物技术迅速发展，农业基因工程和分子克隆技术开始广泛应用，随之诞生了一门新兴学科——生物信息学。

生物信息学是在人类基因组计划推动下产生的应用计算机技术管理生物信息的一门新生学科，它是生物学、数学、物理学、计算机科学等众多学科交叉的新兴学科。生物信息学是生物遗传密码与电脑信息相结合，通过电脑的各种程序软件将已知的大量的核酸、蛋白质等生物大分子的核苷酸序列进行分析、计算，揭示遗传信息；通过对生物信息的查询、搜索、比较、分析，从中获取基因编码、基因调控、核酸和蛋白质结构功能及其相互关系等理性知识，推断已知序列的功能；在大量信息和知识的基础上，探索生命起源、生物进化以及细胞、器官和个体的发生、发育、病变、衰亡等生命科学中重大问题，在研究清楚它们的基本规律和时空联系的基础上，建立“生物学‘元素’周期表”。生物信息学在医学领域已广泛应用并取得了巨大成就。

20世纪80年代末，人类基因组计划（Human Genome Project， HGP）的启动推动了生物信息学的产生和蓬勃发展。人类基因组计划的直接结果是获得了大量不连续的数据。这些数据的收集、存储，并进行分析、解释，从中获取有用的生物学信息，导致了生物信息学的产生。这包括至少两方面的涵义，一方面需要发展有效的信息分析工具，构建能够管理巨量(1010数量级)数据的人类基因组研究数据库，用于储存、查询、管理和使用人类基因组计划所产生的海量信息；另一方面需要配合实验研究，确定人类基因组约30亿个碱基对的核苷酸顺序，找出全部人类基因（最新估计大约35，000个）在染色体上的位置结构及功能，即“读懂”人类基因组。简言之，生物信息学有两个重要任务，一是管理好海量生物信息数据，二是用好这些数据，从中发现新的规律，造福人类。

生物信息学的研究范围十分广泛，其主要研究内容包括以下方面：海量生物信息数据的管理，基因组序列分析和解释、药物设计、基因多态性分析、基因表达调控、疾病相关基因鉴定、基因产物结构与功能预报、基因进化、基于遗传的流行病学等。同时，还要加强生物信息学分析方法研究，以解决其自身发展过程中所出现的新的挑战。

随着信息高速公路、国际互联网的快速发展，生物信息学发展迅速，可谓日新月异。美国、日本及欧洲各国的生物信息学已相继在Internet上建立了各自的网络节点，进行管理大型数据库，为研究人员提供研究数据的分析、处理、采集、交换等服务。

Genbank库由美国国立生物技术信息中心(NCBI)建立和维护,它包含了所有已知的核酸序列和蛋白质序列，以及与它们相关的文献著作和生物学注释。Genbank的数据可以从NCBI的FTP服务器上免费下载完整的库，或下载积累的新数据。NCBI还提供广泛的数据查询、序列相似性搜索以及其它分析服务，用户可以从NCBI的主页上找到这些服务。NCBI的网址是：http://www.ncbi.nlm.nih.gov。

EMBL核酸序列数据库由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成，该数据库由Oracal数据库系统管理维护，查询检索可以通过Internet上的序列提取系统(SRS)服务完成。向EMBL核酸序列数据库提交序列可以通过基于Web的WEBIN工具，也可以用Sequin软件来完成。EMBL的网址是：http://www.ebi.ac.uk/embl。

日本DNA数据仓库(DDBJ)也是一个全面的核酸序列数据库，可以使用其主页上提供的SRS工具进行数据检索和序列分析,也可以用Sequin软件向该数据库提交序列。DDBJ的网址是：http://www.ddbj.nig.ac.jp。Genbank、EMBL和DDBJ每天都会交换数据，使其数据库的数据同步。

GDB (基因组数据库)为人类基因组计划(HGP)保存和处理基因组图谱数据。GDB的目标是构建关于人类基因组的百科全书，除了构建基因组图谱之外，还开发了描述序列水平的基因组内容的方法，包括序列变异和其它对功能和表型的描述。GDB数据库以对象模型来保存数据，提供基于Web的数据对象检索服务，用户可以搜索各种类型的对象，并以图形方式观看基因组图谱。GDB的网址是：http://www.gdb.org；GDB的国内镜像是：http://gdb.pku.edu.cn/gdb。

除了数据库、数据分析软件的开发，生物信息学中比较基因组学的发展也较为突出。其中河豚、鼠、猪、牛和马的基因组与人基因组的比较研究，秀丽隐杆线虫与人基因组的比较研究，酵母与人基因组的比较研究，支原体与嗜血流感杆菌基因组的比较研究，都取得了成果，从比较中分离到一些人类遗传病的候选基因，鉴定了一些新克隆的基因，为人类基因组的分析提供了有益的数据。随着计算机技术的发展和渗透，生物信息学在人类基因组中大规模测序的自动化控制、测序结果分析处理、序列数据的计算机管理、各类遗传图谱、物理图谱的绘制、研究数据的网络获取、分析和交换，以数据分析的结果辅助基因组研究等都发挥着不可替代的功能，显示出越来越重要的作用。

十余年来，生物信息学的发展大致经历了前基因组时代、基因组时代和后基因组（蛋白质组）时代三个阶段。随着后基因组时代的到来，生物信息学研究的重点逐步转移到功能基因组信息研究，其研究的内容不仅包括基因的查询和同源性分析，而且进一步发展到基因和基因组的功能分析，即所谓的功能基因组学研究。其具体表现在：（1）将已知基因的序列与功能联系在一起进行研究；（2）从以常规克隆为基础的基因分离转向以序列分析和功能分析为基础的基因分离；（3）从单个基因致病机理的研究转向多个基因致病机理的研究；（4）从组织与组织之间的比较来研究功能基因组和蛋白质组，组织与组织之间的比较主要表现在：正常与疾病组织之间的比较，正常与激活组织之间的比较，疾病与处理（或治疗）组织之间的比较，不同发育过程的比较等。

目前，生物信息学在我国还处于初期发展阶段。国内近年来开展生物信息学研究的单位主要有：中国科学院生物物理所、中国医学科学院、军事医学科学院、清华大学、北京大学、复旦大学、中山大学、天津大学、东南大学、内蒙古大学等。1993年在国家自然科学学基金委的资助下，中国开始参与人类基因组计划。1996年，在教育部和科技部的支持下，北京大学蛋白质工程和植物遗传学工程国家实验室加入欧洲分子生物学网络（EMBnet）。1997年3月，北京大学生物信息学中心成立。中国科学院于1997年9月和12月召开了第80、87次香山会议，首次邀请有关专家对该领域进展进行探讨，主题分别为“DNA芯片的现状与未来”和“生物信息学”。1998年，中国人类基因组研究北方中心（北京）和南方中心（上海）成立。1999年3月9日至10日，清华大学生物信息学研究所、国家人类基因组北方研究中心和北京生物技术和新医药产业促进中心共同举办了“北方生物信息学学术研讨会”。1999年4月6日，北京大学举办了“国际生物信息学讲习班”。1999年9月，中国获准加入人类基因组计划（负责测定人类基因组全部序列的1%—3号染色体上的3000万个碱基对）成为第六个国际人类基因组计划参与国，也是参与该计划的唯一发展中国家。2000年3月，中国科学院上海生命科学研究院生物信息中心成立。2000年4月，我国科学家按照国际人类基因组计划的部署，完成了1%人类基因组的工作框架图。2001年10月12日由中国科学家独立完成的水稻基因组“工作框架图”和数据库公布，“它标志着我国已经成为继美国之后世界上第二个具有独立完成大规模的全基因组测序和组装分析能力的国家”。

国际生物信息学研究大事记(20世纪90年代以前)

时间
事件

1956年
“生物学中的信息理论讨论会”于美国田纳西州的Gatlinburg召开。

1958年
由H.P. Yockey编辑的《生物学中的信息理论讨论会》由纽约Pergamon出版社出版。

1961年
Jacob和Monod发现大肠杆菌的lac操纵子中存在调控元件，证实非编码序列并不是垃圾序列。

1962年
Khesin等人发现噬菌体中的基因转录表达具有定时调节机制。 J. C. Kendrew和M. F. Perutz因阐明“肌红蛋白与血红蛋白的晶体结构”而获得诺贝尔化学奖。F. H. C Crick和J. D. Kendrew因提出“DNA分子双螺旋结构模型”而获得诺贝尔生理与医学奖。Zuckerkandl和Pauling将序列变异与其演化关系联系起来，从而开辟了分子演化的崭新研究领域。

1964年
蛋白质结构预测的研究由Davies的工作开始。

1970年
期刊Computer Methods and Programs in Biomedicine诞生。

1970年
Needleman和Wunsch发表了广受重视的两序列比较算法。 Gibbs和McIntyre发表了单序列分析方法——矩阵打点作图法，用于寻找单条序列中的重复片断，从而推测其功能。

1972年
Gatlin在序列比较中引入信息理论，首次得到证明自然序列具有高度非随机性的定量证据。蛋白质序列数据库出现。

1974年
Ratner首先对分子遗传调控系统进行理论处理。

1975年
继第一批小RNA(tRNA)序列发表之后，Pipas和McMahon首先提出运用计算机技术预测RNA二级结构。

1976年
Fiers等人测得第一个基因组全序列——RNA噬菌体MS2的全部RNA序列；许多序列分析算法开始涌现。

1977年
将DNA序列翻译成蛋白质序列的算法出现。

1978年
核酸序列数据库出现，收录有发表的5S和5.8S核醣体RNA序列。核酸序列中限制性酶切位点的计算机预测软件出现。

1980年
Science第209卷发表Gingeras和Roberts关于计算分子生物学的综述：Steps towards a programmed analysis of nucleic acid sequences。

1982年
A. Klug因研究“病毒空间构象”而获得诺贝尔化学奖。

1985年
生物信息学专业期刊——Computer Application in the Biosciences创刊。

1986年
日本核酸序列数据库DDBJ诞生。 A.Bairoch创建蛋白质数据库SWISS-PROT。

1988年
R. Huber因研究“紫色细菌光合反应中心三维结构”获得诺贝尔化学奖。在美国国会的支持下，美国国家生物技术信息中心（NCBI）成立，其目的是进行计算分子生物学的基础研究，构建和散布分子生物学数据库。A.Bairoch创建PROSITE数据库，该数据库收录由实验证实的已知的蛋白质序列中具有生物学重要意义的位点和序列模式，因此可以用来判断一个新蛋白可能具有的功能及其家族归属。

国际生物信息学研究大事记(20世纪90年代至今)

1990年
第一届国际电泳、超级计算和人类基因组会议在美国佛罗里达州会议中心举行，尽管会议的名称并没有出现生物信息学这一名词，实际上生物信息学却是会议的主要部分。国际人类基因组计划启动，被誉为生命科学的“阿波罗登月计划”。

1992年
Henikoff.S和Henikoff. J.G在序列比较算法中引入之后被广泛应用的BLOSUM矩阵。

1993年
欧洲生物信息学研究所（EBI）获准成立。专业蛋白质分析系统网络服务器诞生。

1994年
国际生物信息学系列会议由Cambridge Healthtech研究所接管，并走向商业化和联机化。澳大利亚Macquarie大学的Marc Wilkins和Keith Williams首先提出蛋白质组的概念（Proteome）。第三届国际生物信息学和基因组研究会议在佛罗里达州会议中心举行。

1995年
由于生物信息学日益普及，Cambridge Healthtech研究所决定将国际生物信息学系列会议改成年会形式。日本信息生物学中心（CIB）成立。

1998年
亚太生物信息学网络（APBioNet）成立。人类完成第一个多细胞生物——线虫的基因组全序列测定。生物信息学专业期刊——Comput.Appl.Biosci.更名为Bioinformatics。瑞士生物信息学研究所（SIB）成立。美国塞莱拉遗传公司成立，目标是到2001年绘制出完整的人体基因图谱，与国际人类基因组计划展开竞争。

1999年
Prusiner因发现引发疯牛病的朊病毒而获得诺贝尔生理/医学奖。12月1日，国际人类基因组计划联合研究小组宣布人类第一次获得一对完整人染色体——第22对染色体——的遗传序列。

2000年

3月14日
美总统克林顿和英首相布莱尔针对某些私营生物技术公司为商业利益而试图为自己的研究成果申请专利而发表联合声明，呼吁公开人类基因组研究成果。

2000年

5月8日
德、日等国科学家宣布，他们已基本完成人体第21对染色体的测序工作。

2000年

6月26日
6国合作、公众支持的国际人类基因组计划协作组在全球同一时间宣布已完成人类生命的蓝图——人类基因组的工作框架图。

2000年

12月14日
美英等国科学家宣布绘出拟南芥基因组的完整图谱，这是人类首次全部破译出一种植物的基因序列。

2001年

2月12日
中、美、日、德、法、英等６国科学家和美国塞莱拉公司联合公布人类基因组图谱及初步分析结果。

主要参考文献（限于篇幅，这里仅列出部分中文文献）

1．陈润生.1999.生物信息学.生物物理学报,15：5－12。

2．欧阳曙光、贺福初.1999.生物信息学：生物实验数据和计算技术结合的新领域.科学通报, 44：1457－1468。

3．郝柏林、张淑誉等著.2000.生物信息学手册.上海科学技术出版社。

4．李衍达、孙之荣等译.2000. 生物信息学: 基因和蛋白质分析实用指南. 清华大学出版社。

5．张春霆.2000.生物信息学的现状与展望. 世界科技研究与发展,22:17-20。

6．钟扬、张亮等著.2001.简明生物信息学.高等教育出版社。

用户名		自动登录	找回密码
密码			注册