找回密码
 注册
搜索
热搜: 超星 读书 找书
查看: 911|回复: 0

生物信息学在医药学中的应用(综述文章)

[复制链接]
发表于 2005-1-4 22:23:51 | 显示全部楼层 |阅读模式
据估计,当人类基因组工种的DNA序列产生速度达到稳态时,每天将产生70至80个新基因。科学家们将面对的工作是在微观上识别这些基因,决定哪些潜在利用价值,再以最高效率将发现结果运用到医药研究中去。这样庞大的工程在没有一个完整的计算机处理系统辅助下是不可能实现的。这一信息系统可分为几部分:数据获得系统;数据分析系统;数据管理系统。数据是任何信息学支持下的药物发怃工程的核心,数据库的发展和应用是不可缺少的,在高级生物学研究中,通过数据库产生新的数据自动化系统是发现性工作的关键工具。

   生物医药学正处在重大变革中。现代计算机科学的发展有力地推动了医药发现性工作的加速发展,并为其提供了高效、方便、集中化的工具。计算机生物学建立起了其广阔领域,计算机方法在生物学领域内变得越来越重要。
   生物学信息的收集、存贮、分析在计算机中的招待被称为生物信息学。这个术语用在许多领域,它的意义已经变得模糊。在这里,生物信息学被用来指代管理、分析生物医药信息的各项工作,并不代表生物摹仿,生命信息学的一个成功应用是对细胞生物学和药物显示数据的多维分析,已在国家癌症研究所(美国)的治疗学课题中得以应用。
   生物信息学涉及的药物发展领域的基本组成为:基因学和大规模核酸序列研究。人类基因组工程开始于1989年,当时主要进行2维绘制及排序的工作,现在已经向DNA序列转变,序列的容量正在快速增长。据估计,当增长速度达到稳态后,每天的产量(包括发现和排列工作)为70-80个\"新\"基因。这一估计是依据基因学进行,而不是EST(后面将述及EST)或cDNA序列。对生物药物学的挑战是要以最快的来决定哪些有价值并最有效地利用这一价值。没有强有力的计算分析工具,即使是当前的产生速度带来的工作量也是令人头疼的。这样的话完成每天70-80个基因工作前途不那么乐观。于是下面的讨论将首先集中于这一高的原始数据产生速度所需要的一整套系统工具上。接下来将讲座什么工具可以运用及怎样用。
   现在有很多工程,主要解决识别分离焉的基因的工作,大部分是对长度为200-400个碱基对的表达序列标记(EST=expressed sequence tags),也有针对全长cDNA序列的。这些工作产生成千上万的\"序列簇\"。这些基因序列资源和有潜在价值的信息数量巨大,它们与原始数据相关,这些数据正是特定时期内特定组织的基因表达,故而信息学需求不断增长。

I 基因组科学家的软件工具箱
   若没有有力的计算平台和商讨得很好的数据管理系统,珠基因组研究不能以预期的速度发展。所需的软件系统大体分成3类:数据获得系统、数据分析系统和数据管理系统。这些系统总是相对独立的,所以药物设计者的任务是建立一个统一的系统,以便在很少(最后是没有)人为干预下各组成部分互相联系。

<a> 数据获得系统
1.设计控制和试剂控制软件
   生物研究传统上是一种\"村舍工作\",――工作由分布在各个研究机构中的小试验室中分别进行,但现在的基因组工作,是一项\"工业规模\"的工作。于是人工跟踪技术(如克隆、走胶等)都不能进行了。在向由机器人进行的高精度大批量的操作转变时,试剂跟踪技术也将渐遭淘汰。
2.序列产生软件
   现在的计算机可以几近完整地完成序列产生的每一个步骤,从数据记录到碱基数量控制和组装,但这仍然是一个可以得以发展的领域。
3.可视化软件
   通过凝胶过滤等操作得出的数据是大部分基因组数据的\"硬\"来源。例如,在n维中不同的基因表达的决定方法就是可视化问题一个例子,它并没有完全解决。

<b> 数据分析系统
1.序列分析软件
   序列分析可能是生物信息学软件系统中最早产生并最早得以推广的部分。检测序列同类性,作序列排列,检测结构,这样的工作需要量是很大的,重复性强,在大规模的无名基因组序列出现后,用来筛选组装的系统的产生十分重要。
2.蛋白质折叠(结构预测)软件
   序列分析的最终产物是要预测有序区域的特征和功能,而且在药物设计工作中,所需的正是这些特征、功能表现出的数据。预测结构(及功能)的软件系统是任何信息技术中不可缺的因素。功能、特征的识别以公认的有相同、相似序列的同类所表现的功能为依据。
3.基因组绘图软件
   它包括从基因联贯的绘制到将某基因装配到有序序列上的装配规律.它依据大的nxn比较模型。绘制的最困难问题是如何保持不同基因图谱的一致完整性及如何将序列覆盖到这些图谱上并与功能标记表象相联系。
4.基因比较工具
   基于无名序列区域分析的复杂性,单靠众得到的数据是不可能完成任务的。癌基因的研究者已经令人吃惊地展示了交叉种类分析的巨大力量。现存数据中至少有10个完整的细菌基因组和13个Saccharomyces酵母的碱基基因组可供比较。
5.特征筛选及分类软件
   一个基因序列的真正价值不是表现在基础序列数据上,而是在与序列相联系的主体特征上。

<c> 数据管理系统
   产生于基因组学的数据众多、复杂,数据的众多入口也同样要求了它们在一个数据库结构中的可见结构。数据库可分成几大类,它是以数据分布方式的类型分类,而不以数据库自身技术或内容分类。在实际使用中,数据库可分为局部的、合作的和社会的三类。局部数据库,顾名思义,就是在单一位置发展维持的,并只能在此部位得以共享的数据库,合作数据库是许多部位的一组合作者共同使用的,但仍限制在他们的部位上的数据库。一个提供给多部位合作用的公司的数据资源就是一个典型例子。最后一类被称为社会数据库,一般地,它包括公共范围内的数据收集,如基因银行和基因组数据库等。它们在Internet上广泛共享,并有很多种数据类型。

Ⅱ 数据库是设计工作的信息库
   不论具体环节怎样,药物设计工作中不可货缺的信息学因素是:在数据库中统一地收集数据并贮存、表达、公布。数据库结构的数据元素之间的关系查从数据仿效而来的。研究者们所共同彩的与数据库作用的方式是数据仿效的一种功能。有经验的科学家通常把统一相关阶层中的数据元素视作定义一个实体及其行为的集合。这就是抽象的信息学与实物科学相作用,对其起辅助功能的原理。
   信息学方法的基本就是要在硅元件中演示那些科学们认为对完成设计过程有本质意义的步骤。这包括DNA\"杂交\",基因图基对蛋白质结构的估计。很多情况下,它将包括两个或更多的上述数据采集系统的联结工作。
   生物学由于生命系统的复杂而本来有着丰富的信息。理解这些系统要求获得从宏观到分子结构的多在次的有关它们的组成、结构和功能的住处。最大的生物医药数据库已经面市,它直到最近还只是以相对原始的方式得以表现。但这一情况在许多生物医药领域中得以好转,包括分子生物学、细胞生物学、基因学和核生物学。这一转变由于WWW(World Wide Web)的广泛采用而更显重要。很明显,在商业化的数据提供者不断增多的大背景下,迅速发展的科学要求更多的数据被统一到大动态数据库中来。如前所 ,现代生物学的一些方面(如人类基因组工程,蛋白质结构功能研究)完全依赖数据库和电脑技术。由于这些数据在广大的生物医药领域中的重要作用,它们将继续成为众多科研和商业群体的积极的发展和精炼对象。
   计算机科学开始对准生物数据库,需要有广阔前景的技术。例如有目标指向设计变化(Kent,1981),目标基础发展环境(OPM,Chen和Markowitz,1994),延展关系系统(Stone-breaker和Rowe,1986)及语义研究模型(King,1988)。生物学家们越来越熟练地使用电脑,并在他们力所能及的范围内在信息电脑方法中完成他们研究的需要。
   以后十年中,科学计算的主要难题之一是数据库及其系统的发展,它可以用来解决生物信息的内存复杂性和动态性的问题。这样的数据库的存在的应用将改变药物设计和发展的方式,有可能带来生物研究的崭新方法。解决这一问题要求具有数据库结构、有信息基础技术、以及提供一个有力且广泛的计算机整体系统,来通过新的几何方法进行数据分析。
   WWW的产生和持续发展对生物数据库的影响十分巨大。由于生物的分支学科很多,故而发展许多独立的数据库十分必要。这项工作由生物的某一特定领域的专家完成并在此领域内加以固化,结果是它们没有语义学一致性。这成为了通过标准查询机制来连接数据库的一大阻碍。过去几年里,许多研究者在一些不同的数据库之间建立了超文本的联系,把许多数据库连在一起,建立了一个丰富的数据资源。众多实例中的代表是\"rotWeb\",这是一个分子结构生物学的数据库集合,是由Johns Hopkins的Dan Jocobsen建立的。复杂的研究于是可以与一个形式界面相适应。

Ⅲ 主要的社会性数据库
   最新的核酸研究的\"数据库组织\"(Volume 25, Number 1, January 1, 1997)包括了一些现有的社会性数据库的详细列表。它列出64个个体原稿, 每个表述了一个或多个数据源,下面将主要列出一些包含有生物信息学数据库的数据源。

<a> 序列数据库
   《基因行》序列数据库公布包括EBI(European Bioinformatics Institute)和DDBJ(the DNA Database of Japan)在内的公共资源收集者收集的DNA序列,\"基因银行\"由\"国家生物技术信息中心\"(属\"美国国家健康机构\")成立。现在\"基因银行\"中约有一百万个序列,它们由超过650,000,000个核酸组成。

<b> 基因图谱数据库
   GDB(The Genome Database)是为收集和表达从人类基因工程中得到的数据而建。
<c> 蛋白质结构数据库
   这类数据库中应用最广泛的是PDB(Protein Data Bank)。
Ⅳ 总结
   在高级生物医药设计工作中,信息学的发展方向已经明了。应用的进一步深入和广泛化将为医药设计学带来根本性变革。计算机技术在生物学家中的普及将有利于生物信息学的发展。药物设计面临着的是一片十分广阔的前景。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|网上读书园地

GMT+8, 2024-12-24 22:15 , Processed in 0.156143 second(s), 6 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表