入门教材之一：生物信息学概论！！！

云贵浪子 · 发表于 2004-1-8 00:00:00

前言
打开这本《生物信息学概论》，读者一定急于了解：此书包括哪些内容？它们是如何讲述的？这里，我们将回答这两个问题，使大家对本书的全貌有个基本了解。

首先必须说明，本书不是关于蛋白质结构的教科书，也不打算介绍蛋白质结构分析，不涉及蛋白质的二级结构预测或三级结构预测。关于蛋白质结构分析和结构预测的书籍，读者可以找到不少很好的权威著作。其次，本书也不是一本生物学教科书。尽管如此，序列分析结果必须结合生物学背景并最终用生物学实验验证是本书的基本出发点，强调生物学实验重要性的思想贯穿于全书。

本书是一本关于序列分析的参考书。本书试图探讨，利用现有的计算机程序，从现有的数据库中，我们能够获取什么、不能够获取什么。必须指出，序列分析并不能给出结构、功能或进化关系的确切结论。计算机程序只能提供一些线索，而我们的任务，则是提出好的分析策略，以便最有效地获取生物学知识，进而为生物学实验提出具有参考价值的建议。如果应用得当，序列分析可以成为现代分子生物学的有用工具。

基因组计划的实施及伴随而来的大量序列数据，使序列分析成了计算机在生物学中应用的热点。研究新的计算机方法，从序列数据提取有用的生物信息，已经成了当务之急。通过序列比较，检测新测定序列与数据库中已知结构和功能的序列之间的相似性关系，从而以足够的可信度确定新序列的结构和功能信息，是本书将要讨论的分析策略的基本出发点。序列之间的相似性关系经常相当微弱，有时仅在某一很小范围内才有一定的相似性。从生物数据库海洋中发现古代进化关系的岛屿，是从大量噪声中提取有用信号的难题。为了解决这一问题，近年来已经出现了许多不同的方法，试图从不同角度探索这一数据库采掘的难题。面对各种不同方法，初学者来往往会不知所措。本书并不打算对这些方法逐一介绍，而是为大家提供目前最常用的数据库和搜索工具的指南。因此，希望读者不要把注意力集中在某个特定的数据库或某个特定的分析工具上，而应该用各种不同方法对各种不同数据库进行全面的搜索，并对各种不同的分析策略做出全面的评价。

之所以这么做，完全是从实际出发的。迄今为止，没有包罗万象的数据库，仅靠一个特定的数据库，是无法实现序列分析的任务的。某些看起来相似的数据库，其内容实际上并不互相涵盖。仅仅利用一个数据库的信息而忽略其它数据库，往往会使分析结果的有效性降低。没有一个数据库搜索和序列比对算法是绝对可靠的，某一方法所得的结果，应该用另一方法来检验其可靠性。有些数据库和模式识别方法还处在研究阶段，尚未经过实际应用的检验。它们的可用性并没有足够的保障。其原因可能有多种，例如，由于没有研究经费，某个研究项目不得不终止。在飞速发展的生物信息学领域中，新方法、新软件、新程序层出不穷。本书所强调的重点，是生物信息学的基本概念，特别是序列分析的基本方法。

尽管如此，序列分析必须利用大量的数据库和各种分析方法。因此，本书将从第2 章开始，逐步介绍各种常用数据库，介绍各种丰富的生物信息资源和各种分析方法。书中不厌其繁地讲述各种不同类型的数据库的内容、格式、特点，以及数据库搜索和序列分析的方法，其目的在于使读者对它们有足够的了解，以便将其用于实际序列的分析中。在熟悉了基本的数据库、掌握了基本的分析方法后，我们将用一个基于万维网的交互式实例，介绍生物信息学的实用方法。从这个意义上说，本书可以看作一本的详细的生物信息学网络教程手册。

图i表示本书的基本内容和结构。图中给出全书各个章节、各个部分之间的关系。本书在组织安排上的一个主要特点是，在介绍了有关数据库、序列比对等基本概念的基础上，在第9章中给出一个实例，说明如何设计一个数据库搜索的方案。为便于读者对全书有一个基本了解，下面概要说明每一章的主要内容。本书大体包括四个主要部分。第1个部分介绍核酸和蛋白质数据库的内容和格式。第2部分介绍双序列比对和多序列比对的方法以及它们的优缺点。第3部分介绍模式识别方法，包括单位点识别、多位点识别和Profile识别，并指出这些识别方法的局限性。最后，我们将说明如何把以上方法结合起来，设计一个有效的搜索方案。

图i 本书概貌

图中表示本书各部分有关章节之间的关系，为阅读本书提供一个线索。

1．简介
第1章是全书的简介，提出并回答“什么是生物信息学”、“生物信息学的重要意义是什么”等问题。为了更好地介绍这些最基本的概念，本章将简要回顾生物信息学发展的历史，说明从耗时费力的蛋白质序列人工序列测定到信息革命的巨大进展。仅仅在十多年前，测定一个蛋白质的全序列需要用一年甚至更多的时间，而今天，由核酸序列翻译所得的蛋白质序列正以每分种一个的惊人速度储存到蛋白质序列数据库中。序列数据的爆炸性增长，使结构数据在数量上无法与其相比。研究仅从序列数据本身提取功能信息的常规方法，已经势在必行。本章还将简要介绍蛋白质二级结构和三级结构预测的进展和局限性，介绍同源性、相似性等基本概念。

2．信息网络
第2章将介绍互联网、万维网和生物信息及服务机构的全球网络，介绍用于查询和搜索世界各地生物信息数据库的网络浏览器和计算机软件，介绍一些重要的生物信息机构的网址。

3．蛋白质信息资源
第3章主要介绍互联网上一些重要的蛋白质数据库，详细讨论一级结构、二级结构和三级结构等不同层次的蛋白质数据库以及它们的格式，如SWISS-PROT、PROSITE等。同时说明构建复合数据库和集成数据库的意义。

4．基因组信息资源
第4章则介绍核酸序列数据库，包括世界上三大序列数据库GebBank、EMBL和DDBJ，以及某些基因组信息资源。限于篇幅，我们只能介绍可以通过互联网查询的一些常用数据库，并提供互联网上众多的基因组信息资源的网址。为了和第3章中介绍的蛋白质数据库格式有一个对照，本章将介绍核酸序列数据库GenBank的数据库格式。

5．DNA序列分析
第5章介绍DNA序列分析的目的意义和基本方法，介绍基因组信息的层次，介绍由cDNA库快速测序得到的表达序列标记EST。由于EST在基因和药物药物研究中的重要性，本章将重点介绍EST分析方法，讨论EST序列分析中的一些特殊问题，给出一个实例和三种常用方法。

6．双序列比对
双序列比对是序列分析中的基本方法。双序列分析为数据库搜索提供了识别相似序列的基础，并由此推测它们属于同源序列的可能性。本章将说明分析序列比对结果时常用的相同和相似的概念，给出局部相似和全局相似的定义。

7．多序列比对
找出一对序列之间的关系只是序列分析的第一步。我们的兴趣往往集中在构成基因家族的一组序列上。为了确定这一基因家族的保守性特征，必须追索这一组序列中各个序列之间的关系。多序列比对可以有效地提高序列比较的信噪比，并最终找出具有显著生物学意义的序列片段，这些序列可能与结构和功能有关。因此，我们将在本章中对各种多序列比对的方法作一些综述，包括完全用程序实现的多序列比对和用手工方法实现的多序列比对。

8．二次数据库搜索
在对双序列比对和多序列比对有了一个基本了解后，我们将介绍二次数据库搜索的方法。关于二次数据库的格式已在第3章中介绍，而本章中将把注意力集中在对存储于二次数据库中特殊信息模式的搜索，如正则表达式、Profiles、指纹图谱、序列模块和隐马氏模型等。二次数据库搜索的基本策略是从不同角度进行多序列比对，以确定蛋白质家族。不同方法所得结果往往有显著区别。对各种搜索方法的长处和短处，我们将分别予以指出。由于这些二次数据库之间在内容上并不完全互相覆盖，不同的模式识别方法均有其局限性，完善的搜索策略应该包括所有二次数据库搜索的方法。

9．数据库搜索
在介绍了一次和二次数据库搜索的基本概念后，可着手构建序列分析的具体方案。本章从构建一个序列分析方案实例出发，介绍如何通过万维网进行实际操作，用交互方式说明序列分析的实际步骤。各种不同的程序所得结果往往以不同格式输出，有的不很直观。本章重点说明如何分析搜索结果，确定所得结果是否具有生物学意义，剔除那些假阳性结果。根据上述指导思想，本章给出一个实际网络教程，说明如何通过一级结构、二级结构数据库以及结构分类数据库的实际搜索，确定一段未知DNA片段的功能。这一实例给出了序列分析的具体步骤，辅以详尽的文字说明、图表、流程图和有关参考信息。需要特别强调的是，本章的目的是提出序列分析的基本原则，帮助大家设计自己的序列分析方案。

10．序列分析软件
在介绍了大量的数据库、数据库搜索、序列分析的基本策略，以及简单易用的序列分析网络教程后，我们将介绍一些序列分析软件。本章将介绍的软件包括商业软件GCG、通用软件Staden，以及最近几年发展起来的基于Web的序列分析软件CINEMA等。我们将介绍这些软件的基本功能，它们的开发过程和发展趋势。限于篇幅，本书只能对当前常用软件的主要特点作简要说明，而不可能对它们作详细介绍。读者可通过网络对它们作进一步了解，包括这些软件的使用许可协议。

生物信息学是一门方兴未艾的新兴学科，书末的词汇表便于读者查询常用术语、短语和缩略词。

最后，在阅读本书时，以下几点希望读者能够注意。第一，不要轻信数据库，它们所提供的信息有时可能会有误导，甚至是错误的。据估计，目前基因组数据库核甘酸序列的错误率约占0.1-4.0%，由此翻译而得到的蛋白质序列数据库中氨基酸序列的错误率占5%。至于序列数据库的注释部分，很难用定量标准估计其错误率。有的科学家认为，目前所用的数据库自动诠释程序，会使原有的错误进一步扩大，甚至可能造成灾难性的后果。第二，不要轻信计算机程序。它们给出的结果有时困难会有误导，甚至是错误的。的确，计算机程序员编写的程序出现错误的可能性并不少见。第三，不要轻信万维网，它们提供的信息有时可能会有误导，甚至是错误的。即使是最著名的生物信息中心的网页作者，也可能会出现错误。这一点在我们编写本书的过程中已经发现。第四，不要轻信你阅读的东西，即使是公开发表的文献中，也常常会有这样那样的错误。本书引用的某些文献中，也难免有一些错误。总之，不要做一个天真的计算机用户，而要属于思索、勇于提问，要对你所得到的信息提出自己的见解。尽可能地掌握全貌，而不是只注意那些看起来似乎很有价值的凤毛麟角。只有当一些线索从杂乱无章的背景中浮现出来，并开始形成合乎逻辑的线索时，才能够确定，你的分析走上了正规，你的结论是比较可靠的。

[此贴子已经被作者于2004-1-9 0:23:39编辑过]

云贵浪子 · 发表于 2004-1-9 00:00:00

生物信息学概论！第一章  概论
第一章  概论
1.1本章简介
本章旨在介绍生物信息学的基本概念，指出它在现代生物学中的重要地位。首先，我们将简要回顾生物信息学发展的几个历史阶段，从早期的蛋白质手工测序，到今天的DNA自动测序。读完本章，你就会发现，DNA测序自动化引起的生物信息爆炸，使生物大分子序列数据库的数据量急剧增长，而蛋白质结构测定的速度远不能与之相比。因此，从序列信息直接推断其可能的生物学功能就显得十分必要。本章还将简述蛋白质结构预测的现状，从蛋白质一级结构中各种氨基酸所包含的折叠信息入手，重点说明蛋白质三级结构预测的意义，并指出分子伴侣的本质及其在蛋白质折叠过程中的作用。此外，我们将重温蛋白质一级结构、二级结构、三级结构和四级结构的定义。

书中首次出现的术语皆用粗体标出，并在括号中注明英文原文。所有术语均列入书末词汇索引。

1.2 序列测定
1.2.1 蛋白质序列测定
序列测定(sequencing)已有50多年的历史，但开始时进展十分缓慢。最初，人们致力于建立蛋白质(proteins)和多肽(peptides)的分离技术，并确定其氨基酸(amino acids)种类及含量。1945以前，没有任何蛋白质序列定量测定的方法。以后十年中，随着色谱技术和标记方法的快速进展，第一个多肽激素(胰岛素)的全序列测定于1955年完成(Ryle等，1955)。五年后，第一个酶(核糖核酸酶)序列测定完成(Hirs等，1960年)。1965年，约有20个含100多个残基的蛋白质序列被确定。截止1980年，这一数字已达1500个。而今天，已测定的蛋白质序列已达30万个，这在50年前是难以想象的。

最初，蛋白质序列测定主要采用手工的埃德曼降解和环甲基化(Edman deglation - dansylation)方法(Edman，1950年)。蛋白质序列测定的快速进展，应该归功于自动测序仪的研制成功。与埃德曼和贝格(Begg) 于1967年发明的测序法相比，1980年开始使用的自动测序仪的灵敏度提高了近1万倍。

质谱技术的发展为蛋白质序列测定开辟了新的途径。第一次用这种方法测定完整的蛋白质分子是在1997年。质谱法测序的突出优点是可以识别翻译后修饰 (post-translations modification) 而得到的特殊氨基酸。用其它方法进行蛋白质序列测定时，这种修饰信息无法获得。正是利用了质谱技术，人们得出了 g-氨基丁酸处于凝血素N-末端的重要结论。

1.2.2 核酸序列测定
本世纪60年代和70年代，科学家们一直致力于研究测定核酸序列的方法。最初使用的方法只能测定核糖核酸(ribonucleic acid，简称RNA)，主要是转移核糖核酸(transfer-RNA，简称tRNA)。tRNA分子的序列比较容易测定，一则因为它的链较短，通常只有74-95个核甘酸(nucleotide)，二则有可能分离单个tRNA分子，尽管有时也不很容易。

而脱氧核糖核酸(deoxynucleic acid，简称DNA)的情况却大相径庭。人染色体(chromosomal)DNA分子约含5千5百万到2亿5千万个碱基对(basepairs，简称bp)，远远大于RNA分子。测定一个染色体DNA分子的全部核苷酸序列是一项艰巨的工作。即使可以将其分割成较小的片段，如何纯化也是一个问题。一次实验中可以测定的最长片段约为500bp。由此推断，要测定人类染色体DNA分子的全序列，就得将其分割成50万个片段。显然，如何把某个片段从这50万个片段中分离出来，成了DNA序列测定问题的关键。

基因克隆(gene cloning)和多聚酶链式反应(polymerase chain reaction，简称PCR)技术为DNA全序列测定带来了福音。利用以上方法，从染色体中分离特定DNA片段的难题迎刃而解，快速高效的测序技术因此而产生。1977年，两种基于链终止和化学降解的DNA测序法研究成功。这项技术略经改善后，很快就被推广到世界各国的分子生物学实验室，成为80年代和90年代序列测定革命的基础，生物信息学(bioinformatics)也应运而生。

1.3 什么是生物信息学
过去十年， DNA测序技术(sequencing)的飞速发展使分子生物学经历了信息革命时代。这一革命，得益于计算机技术在过去十多年来突飞猛进的高速发展。只有使用计算机技术，我们才有可能应付日益快速增长的生物信息。80年代中期以来，计算机在生物学中的广泛应用孕育了生物信息学这一新兴学科。

生物信息学这一术语在不同的场合下被赋予不同的含义。从广义上说，生物信息学可指利用信息技术管理和分析生物学数据。这就意味着生物信息学所涉及的范围相当广泛，从人工智能、机器人一直到基因组(genome)分析。就基因组分析这一角度来看，生物信息学主要是指核酸和蛋白质序列数据的计算机处理和分析。近年来，蛋白质结构数据的快速增长，使蛋白质三维结构的处理分析也归入到生物信息学的范畴。

1.4 序列和结构
序列和结构这两大类不同性质的数据在数据量方面有天壤之别。对这一点必须有个明确的概念。截止1998年4月，公用蛋白质序列非冗余数据库中存放的序列数已达30多万个。已公布的序片段(Boguki，1994年)和表达序列标记(Expressed Sequence Tag，简称EST)数据库的数目已达百万个(详见第四章)。而蛋白质三维结构数据库(Protein Data Bank，简称PDB)中独立的原子坐标依然不足1500套，显然难以与序列数据库的数据量相比(Bernstein等，1977年)，这是因为结构数据的采集、存储与处理远比序列数据复杂。从信息理论角度看，结构数据与序列数据之间数据量的巨大差异，反映了这两类既不相同、却又相关的数据之间信息量的差异(图1.1)。随着基因组计划(genome project)的实施，序列数据大量积累，这种差距会越来越大。当然，结构数据也在快速增长。可以预计，大规模结构测定计划的实施，每年测定2000个结构的目标将不会是一句空话。当然，这与序列数据每年翻番的增长速度相比，依然不可同日而语。目前，平均每一分钟就有一个序列增加到核酸序列数据库中。

图1.1 蛋白质序列和结构数据库容量对比

本图表示1998-1999年蛋白质序列和结构数据库增长情况。序列数据库数据为非冗余序列数，结构数据库数据为独立结构数

图框1.1 基因组信息资源

下列网址提供了全世界人类基因组计划有关情况，以及美国能源部人类基因组计划的历史、所起作用、已取得的成果等。该网页还提供了有关基因组注释协会(Genome Annotation Consortium, 简称GAC)的情况，并以序列测定为主线，用图表方式详细介绍各基因组计划的有关情况和进展。此外，该网站还提供了分子遗传学入门的基础知识。

值得一提的是该网站上登载的两篇文章，它们均出自美国科学院院报。其中一篇的题目是“Beyond Discovery"，谈到了基因组计划将会给人类带来的福音。另一篇阐述了一个新的研究领域，它把基因这样研究成果用于医学。建议读者阅读一下两篇文章，其中许多观点和本书将要讨论的内容有关。

GAC
http://compbio.ornl.gov/gac/index.shtml

HGP
http://www.ornl.gov/TechResources/Human_Genome/

DoE in the HGP
http://www.ornl.gov/TechResource/Human_Genome/ Publicat/tko/index.htm

Primer
http://www.ornl.gov/TechResource/Human_Genome/ Publicat/primer/intro.htm

Beyond Discovery
http://www4.nas.edu/beyond/beyonddiscovery.nsf/ Framset?openform

Gene Testing
http://www4.nas.edu/beyond/beyonddiscovery.nsf/ DocumentFrameset?OpenForm&HumanGeneTestin

1.5 基因组计划
80年代中期，美国能源部开始启动一系列研究项目，旨在构建人类基因组详尽的遗传图谱和物理图谱，测定人类基因组的全部核苷酸序列，并将约10万个人类基因定位于染色体。如此大规模的研究项目，必须采用新方法分析基因图谱和DNA序列数据，必须用新技术、新仪器检测和分析DNA分子。为使研究结果尽快为公众所用，计划还要求利用先进的信息技术将研究成果以最快的速度传递给科学工作者和医务工作者。由这一大规模研究项目引发的国际合作，就是众所周知的人类基因组计划(Human Genome Project)(图框1.1)。

此外，其它一些模式生物(model system)的基因组计划先后在世界各地的实验室启动。它们包括大肠杆菌(Escherichia coli), 啤酒酵母(Saccharomyces cerevisiae), 线虫(Caenorhabditis elegans), 果蝇(Drosophila melanogaster), 拟南芥(Arabidopsis thalania), 狗(Canis familiaris)、小鼠(Mus musculus)。截止1998年4月，尽管只完成了若干基因组容量较小的模式生物全序列测定(表1.1)，而人类基因组测序仅完成10%，但由此而产生的序列数据已经大量涌入公共的核酸序列数据库。

表1.1  已经完成测序的基因组

本表列出截止到98年4月已经完成测序的基因组，真核生物中只有一种(S. cerevisiae)全部完成，另有17种正在进行；原核生物中已有20种全部完成，另有45种正在进行。详细信息见：

http://www-fp.mcs.anl.gov/~gaasterland/genomes.html。

1.6人类基因组计划现状
根据截止1998年年中的进展情况和目前世界各国所投入的人力物力估算，人类基因组计划的预计完成时间不会早于2003年，有可能要到2005年。迄今为止，通过分析在染色体上已定位克隆来测定基因组全序列的基本过程通常分两步，第一步是随机测序及序列组装，俗称鸟枪法(shutgun)测序。第二步则是找出这些随机片段之间的间断序列，确定那些歧义位点的碱基。

1998年5月，位于美国马里兰州Rockville的美国国家基因组研究所(The Institute of Genome Research，简称TIGR)主任Venter宣布，他将和珀金-埃尔默公司(Perkin-Elmer Corp.)共同组建一个新企业，并在3年内完成人类基因组全序列测定。这一消息的宣布的确令人震惊，因为它意味着人类基因组计划完成时间将至少提前2年。该计划所采用的策略是将整个基因组随机分割成成千上万个片段并进行测序，而不考虑它们是否已在染色体上定位。众所周知，人类基因组含70%以上的重复序列。用鸟枪法完成整个基因组所有片段的序列测定后，如何把它们装配起来，显然具有相当大的难度。

对以上研究策略，世界各国基因组研究人员众说纷纭。对于由一个私有企业垄断测序结果所可能带来的后果，科学家们也深感不安。显然，加快基因组全序列测定速度，已经成了摆在各国基因组研究人员面前迫在眉睫的问题。一个3年内完成基因组95%序列测定的新计划因此而产生。该计划基于鸟枪法测序过程的大幅度加快。采用鸟枪法的原因是因为它简单易行，且成本较低，平均每个碱基约需10美分。此新计划若能付之实施，可望在2001年前初步获得高质量的序列图谱，尽管它还不是人类基因组全序列的完整图谱。

当然，达到上述指标并不意味着人类基因组计划最终目标的实现，但作为过渡性的措施，不失为切实可行的解决方案。虽然人们担心这在某中程度上会延迟全序列测定最终目标的完成，但它可推动其它研究项目的实施。例如，某些疾病基因可能已经在染色体上定位，但尚未确定其DNA顺序。以上大规模测序计划所得序列数据

云贵浪子 · 发表于 2004-1-9 00:00:00

生物信息学概论第二章 信息网络
第二章 信息网络1
2．1 简介
本章介绍互联网(Internet)、万维网(World Wide Web, 简称WWW)以及世界各国生物信息中心和服务机构。计算机网络和生物信息中心的出现，大大推动了生物信息学的革命。浏览器的出现为生物信息资源的开发和应用提供了有效的方法。本章将对浏览器作简单介绍。此外，本章还将介绍常用数据库查询软件，介绍一些重要的生物信息中心的网址。

2．2 什麽是万维网
万维网是一个全球性的计算机网络，连接着政府机构、科研院校以及公司企业。万维网通过通信协议传递信息，即传输控制协议/网际协议(Transmission Control Protocol/Internet Protocol，简称TCP/IP)。这一协议使不同类型的计算机能以一个共同的方式进行数据交流。

网络中的一台计算机称作一个节点，节点和节点之间通过传输数据包(packets)进行通信。与传统的电话、传真等通讯方式不同，数据包可能并不直接从一台计算机传到另一台计算机，而是通过路由器经若干节点到达最后的目标计算机。网络协议用来控制和协调数据的有效传输。数据包传输过程中，如果该通路上的某个节点出了故障，则可饶过该节点而通过别的路径传输。

2．3 什么是IP地址
如同每台电话机有一个电话号码一样，互联网上的每一台计算机都有一个“号码”，即IP地址。IP地址是一个由四个字段组成的数字串，中间用小数点分隔。每个字段的数字值在0~255之间，如202.112.7.13就是一个IP地址。

使用IP地址便于计算机之间的互相识别，但却不便记忆，也容易搞错。为此，TCP/IP协议制定了域名(domain name)系统。域名系统由若干字段组成，每个字段通常由字母和数字组成(包括连字符“-”和下划线“_”)。其顺序依次是：计算机名、计算机所处位置、域名或子域名。例如，上述IP地址202.112.7.13的域名为：www.pku.edu.cn。其含义为，计算机名为WWW，位于北京大学(Peking University，PKU)，北京大学校园网属中国教育系统网络一部分，域名为edu.cn。表2.1列举了一些互联网域名和子域名。

表2.1A 部分国家互联网域名一览表

国家
Country
域名
国家
Country
域名

澳大利亚
Australia
au
中国
China
cn

丹麦
Denmark
dk
芬兰
Finland
fi

法国
France
fr
德国
Germany
de

希腊
Greece
gr
匈牙利
Hungary
hu

爱尔兰
Ireland
ie
以色列
Israel
il

意大利
Italy
it
日本
Japan
jp

荷兰
Netherlands
nl
新西兰
New Zealand
nz

波兰
Poland
pl
葡萄牙
Portugal
pt

南非
South Africa
za
西班牙
Spain
es

瑞典
Sweden
se
瑞士
Switzerland
ch

英国
United Kingdom
uk
美国
USA
us

表2.1B 重要互联网域名

机构
Organisation
域名

学校
Educational
edu

公司企业
Commercial
com

政府机构
Governmental
gov

军事机构
Military
mil

学术机构
Academic
ac

公司企业
Company
co

其它组织
Other organisation
org

General
gen

2.4 互联网上的实用工具
互联网提供的通讯工具包括电子邮件（email）、新闻组(news group)、文件传输(file transmission)和远程计算(telecomputing)等。电子邮件是互联网上最常用的工具之一，主要用于个人与人之间的信息交流。新闻组则是对某一问题感兴趣的一组网络用户之间的集体讨论，可以在一个新闻组中发表各自己的意见。通过文件传输协议（File Transmission Protocol简称FTP）可以在两台计算机之间传输文件，通过Telnet协议可以登录到远程计算机上。

大多数互联网允许进行实时通讯，如UNIX 系统的"talk"程序、VMS系统的"phone"？？程序，均可用作网络交谈工具。用户通过在屏幕上键入字符进行“交谈”。网络交谈的进一步发展便是网上会议，即若干用户将各自交谈内容键入到屏幕上某个窗口中，实现虚拟网络会议。WebBoard、BioMoo和MultiUser Dungeon就是这类网络交谈程序。网络交谈也称网络“沙龙”，就象咖啡屋一样，一边喝咖啡一边进行学术讨论。不过，网络速度技术尚未十分成熟，同时由于传输速度的限制，实际使用时还不很方便，还不象咖啡屋那样自在。

2.5 什麽是万维网
万维网即World Wide Web，简称为Web、WWW或W3，由欧洲核子物理研究所（CERN）提出并开发，最早用于分布于全球的高能物理研究机构之间的信息共享，其宗旨在于快速、高效地找到处于世界各地计算机系统上的数据和应用程序。万维网的迅速发展，对生物信息领域具有深远的影响。今天，万维网已成为互联网上最先进的信息交流工具。它是一个基于超媒体的信息系统，其发展之迅速，功能之强大，已经成了互联网的同义词。在万维网W3协会主页上，它被描述为“信息网络的世界，人类知识的源泉”。尽管这种说法有点夸张，但万维网的出现，的确开辟了全球信息共享的新纪元。

2.6 网络浏览器
网络浏览器(network browser)的出现，使互联网的巨大潜力得以有效发挥，使信息获取变得十分方便。浏览器在客户端(client)与服务器(server)之间进行通信时，使用了一套标准的协议。浏览器与服务器之间进行通信的第一个页面称为主页(home page)。默认的主页由特定的浏览器设定，通常指向该浏览器开发商的网址。用户可以改变默认主页，指向更有用的、经常访问的站点，或指向用户自己的主页。浏览器为用户提供了一个易于使用的界面，并把文档检索、文件访问、数据库搜索等操作集成在一起。下面，我们简单介绍最常用的浏览器。

2.6.1 Lynx
Lynx是由堪萨斯州立大学学术计算服务机构开发的，作为构建校园信息系统的一部分。Lynx运行于UNIX或VMS 操作系统。它基于纯文本界面，可使用字符型终端，如普通的VT100终端，或相应的仿真终端。它在互联网早期使用较为广泛。虽然文本模式浏览器的界面不象图形方式浏览器那样漂亮，但在网络传输速度较低时，Lynx比图形浏览器更加有效。

2.6.2 Mosaic
Mosaic由伊利诺斯大学国家超级计算中心于1993年开发，是一个基于窗口系统的超媒体浏览器，可用于UNIX系统的X-Windows、苹果公司的MacIntosh和微软公司的Windows。它具有单一的、友好的用户界面，为互联网上不同的协议、数据格式和信息资源提供服务。由于以上特点，Mosaic出现不久，就迅速在互联网上流行，并风靡一时。然而，万维网界面工具的开发以惊人的速度增长，新的浏览器很快诞生。Mosaic的垄断地位只维持了很短一段时期。

2.6.3 Netscape Navigator
Netscape Navigator即网络导航器，于1994年由加利福尼亚州的Netscape Communications 公司开发。作为Mosaic的替代品，Netscape Navigator几乎是一夜之间便获得成功，成为最为流行的浏览器。据估计，互联网上80%的用户使用Netscape Navigator浏览网页。该浏览器集成了电子邮件、新闻组、音频和视频等许多功能，并能以动态、交互方式创建页面。图2.1是Netscape Navigator浏览器显示的交互式生物信息学Web页面，说明使用不同窗口来管理不同的文件，使用超链接与其它文本或图像链接，定制文本窗口大小和颜色，以及是否隐藏图像等。

图2.1 Netscape Navigator浏览器Web页面

2.6.4 Internet Explorer
Internet Explorer即网络探索器，于1995年由微软公司开发。它以Mosaic为基础，适用于PC机。它具有其它浏览器的各种功能，包括支持多窗口？？、Java和ActiveX等。最初是专为windows95/NT平台开发的，新版本已能在UNIX系统中的Sun机上运行。

2.7 HTTP、HTML和URL
浏览器所显示的文档采用超文本(HyperText)和超媒体(Hyper Media)技术，使得Web浏览和发布极其容易。超文本文档包含内置链接，也称为超链接(Hyper Link)。它是文档中呈高亮状态的字符，或以特殊颜色、下划线标记。用鼠标点击超链接，则可调用一个新文档。该文档可以在同一台服务器上，也可以在另一台服务器上，不受地理位置的限制。超链接之间的通信是透明的，Web服务器所使用的通信协议称为超文本传输协议(Hyper Text Transmission Protocol，简称HTTP)。

超文本文档是用超文本标记语言（HyperText Markup Language，简称HTML）书写的。超文本标记语言用标记符号对文本进行修饰。例如，用修饰粗体，用修饰字体的大小和颜色，用<HR>插入水平线，用<IMG>引入图片等。大部分标记符号成对出现，终止符以斜杠“/”结束，例如。HTML语言简单易学。最有效的方法是查看某个Web页面的“Page source”，搞清各种标记符号的特定效果。HTML文档以.html或.htm作为文件扩展名，如index.html。图2.2列出了典型HTML页面的部分代码。

<TITLE> PREFACE </TITLE>

<BODY BGCOLOR="#FFFFCC" LINK="brown" VLINK="brown" ALINK="brown">

reface

<

>

Welcome to our Bioinformatics Web practical.

<

>

This is an interactive exercise that aims to provide a taste of bioinformatics resources around the world. We hope to give a flavour of sequence analysis, by introducing a range of widely-used analysis tools and databases.

<

>

In this tutorial, brief instructions are given in the headers; their highlighted phrases control the contents of the left- and right- hand frames. Frame contents may be refreshed at any time using the left-hand <A HREF="http://www.biochem.ucl.ac.uk/bsm/dbbrowser/jj/refresh.gif";>menu</A> <IMG SRC="http://www.biochem.ucl.ac.uk/bsm/dbbrowser/genesrus/ball1.gif";>.

Commentaries in the right-hand frames provide more detailed information than the header instructions -

please read these carefully. For further info, use: 

<CENTER>

<IMG HEIGHT=18 SRC="http://www.biochem.ucl.ac.uk/bsm/dbbrowser/jj/light1.gif";>

</CENTER>

图2.2 HTML文档实例

图2.2是一个HTML文档，说明如何用标记语言进行文本居中，图像插入等操作。该HTML文档可以生成Web页面的源代码。HTML文档通过唯一的地址来进行访问，该地址叫做统一资源定位符（Uniform Resource Locators，简称URL）。URL包括几部分，依次是通信协议、Web服务器地址、文件存放的路径，或者一个文件名。例如：

http://www.biochem.ucl.uk/bsm/dbbrowser/jj/prefacefrm.html

这个URL地址指定通信协议为HTTP，Web服务器位于伦敦大学的生物化学系，并给出了指向超文本文档 prefacefrm.html的路径。

云贵浪子 · 发表于 2004-1-9 00:00:00

生物信息学概论第二章  信息网络2
2.8 欧洲分子生物学网络组织
早在网络浏览器普及之前，世界各国的有识之士就意识到互联网在全球通讯和信息资源利用中的潜在作用。八十年代中期，生物数据库开始快速增长，生物数据库的作用日趋重要。用户对使用方便、更新及时的数据哭需求不断增长。

1988年，欧洲分子生物学网络组织(European Molecular Biology Network，简称EMBnet)成立，它把欧洲各国生物信息中心组织在一起，实现信息共享，为各国分子生物学实验室提供服务和进行培训。EMBnet对于生物信息资源的利用和计算生物学的发展，起到了非常重要的作用。有了EMBnet这样一个为本国乃至本地区服务机构，各研究单位不必耗费大量的人力物力，建立各自的数据库和软件系统。

截止1998年，EMBnet拥有34个节点(表2.2)，其中26个是国家节点。这些国家节点由政府机构指定，其主要任务是为本国用户提供服务，包括数据库、软件等，如序列分析、蛋白质模建、基因作图等，同时提供用户支持和培训以及研究开发的任务。序列查询系统(Sequence Retrieval System，简称SRS)就是EMBnet组织开发的。另外的八个EMBnet节点是专业节点，包括了那些与生物信息学相关的学术、产业或研究中心。他们对生物学数据库和相关软件的维护起了很大作用，这些站点中欧洲生物信息学研究所（European Molecular Bioinformatics Institute，简称 EBI）负责维护EMBL核酸数据库，国际遗传工程和生物技术中心(International Centre for Genetic Engineering and Biotechnology，简称ICGEB)负责维护结构域数据库SBASE，等等。

图2.3 欧洲分子生物学网络（EMBnet）组织

EMBnet所属各生物信息学和基因组中心。截止1998年，EMBnet共有26个国家节点，8个专业节点。

EMBnet国家级节点主要为本国提供生物信息资源和生物计算服务。而专业节点则为欧洲各国乃至全世界提供特殊的生物信息资源服务。下面我们介绍位于英国剑桥南部Hinxton Hall的三个专业节点。

表2.2 欧洲和美国的生物信息学中心

  EMBnet国家节点

名称
国家
网址

IBBM
阿根廷
http://sol.biol.unlp.edu.ar/

ANGIS
澳大利亚
http://www.angis.su.oz.au/

Vienna Biocenter
奥地利
http://www.at.embnet.org/

BEN
比利时
http://www.be.embnet.org/

CBI
中国
http://www.cbi.pku.edu.cn/

CIGB
古巴
http://bio.cigb.edu.cu/

BioBase
丹麦
http://biobase.dk/

CSC
芬兰
http://www.fi.embnet.org/

INFOBIOGEN
法国
http://www.infobiogen.fr/

GENIUSnet
德国
http://genome.dkfz-heidelberg.de/biounit/

IMBB
希腊
http://www.imbb.forth.gr/

HEN
匈牙利
http://www.hu.embnet.org/

CDFD
印度
HTTP://www.in.embent.org/

INCBI
爱尔兰
http://acer.gen.tcd.ie/

INN
以色列
http://dapsas.weizmann.ac.il/bcd/inn.html

IEN-ADR
意大利
www.ba.cnr.it:8000/BioWWW/Bio-WWW.htm>www.ba.cnr.it:8000/BioWWW/Bio-WWW.htm>http://biowww.ba.cnr.it:8000/BioWWW/Bio-WWW.htm

CAOS/CAMM
荷兰
http://www.caos.kun.nl/

Bio
挪威
http://www.no.embnet.org/

IBB
波兰
http://www.ibb.waw.pl/

PEN
葡萄牙
http://www.pen.gulbenkian.pt/

GeneBee
俄罗斯
http://www.genebee.msu.su/

HGMP-RC
英国
http://www.hgmp.mrc.ac.uk/

SANBI
南非
http://www.sanbi.ac.za/

CNB-CSIC
西班牙
http://wwv.es.embnet.org/

BMC
瑞典
http://www.embnet.se/

SIB
瑞士
http://www.ch.embnet.org/

  EMBnet 专业节点

名称
国家
网址

EBI
英国
http://www.ebi.ac.uk/

Sanger
英国
http://www.sanger.ac.uk/

UCL
英国
http://www.hiochem.ucLac.uk/bsm/dbbrowser/embnet/

ICGEB
意大利
http://www.icgeb.trieste.it/

ETI
荷兰
http:// ？？

MIPS
德国
http://www.mips.biochem.mpg.de/

Pharmacia Upjohn
瑞典
http://www.pnu.com/

F.Hoffmann-La Roche
瑞士
http://www.roche.com/

  美国生物信息中心

名称
国家
网址

NCBI
美国
http://www.ncbi.nlm.nih.gov/

NLM
美国
http://www.nlm.nih.gov/

NIH
美国
http://wwv.nih.gov/

2.8.1 英国基因组研究中心
Hinxton是英国剑桥南部的一个小镇，是英国Wellcome Trust 基金会投资建立的基因组研究中心所在地。英国测序中心、英国医学委员会人类基因组图谱计划资源中心和欧洲生物信息学研究所三个研究机构就坐落在这一小镇上。

英国测序中心

英国测序中心(Sanger Centre)是一个基因组研究中心，成立于1992年，由Wellcome Trust和英国医学研究委员会(Medical Research Council)共同建立，旨在研究和探索有关基因组的知识。其主要任务是测定人类和若干模式生物的基因图谱和基因组序列。该中心计划投资5千万英磅，于2002年前完成人类基因组30亿个碱基对中六分之一序列的测定。作为人类基因组计划的先驱，该中心与美国St Louis华盛顿大学基因组测序中心合作，已完成对模式生物线虫的测序(??碱基对)，并对啤酒酵母？？Schizosaccharomyces pombe以及肺炎球菌？？(tuberculosis )等人类病原体进行测序。

英国人类基因组图谱资源中心

英国医学委员会人类基因组图谱计划资源中心(UK MRC Human Genome Mapping Project Resource Centre，简称HGMP-RC)是由英国医学研究委员会创建的。该中心主要为人类基因组和小鼠基因组计划提供实验材料和技术服务，也为英国生物学工作者提供联机计算、用户支持及培训等生物信息服务。具体来说，就是为医学研究机构提供数据和相关服务，并通过培训为基因组研究提供服务。HGMP原为EMBNet专业节点。1999年，原英国EMBnet国家级节点SEQNET与HGMP合并，HGMP成为国家节点。

欧洲分子生物信息学研究所

欧洲分子生物信息学研究所(Emmert et al., 1994)，是欧洲分子生物学实验室所属的一个机构, 建于1994年。欧洲分子生物学实验室（European Molecular Biology Laboratory，简称EMBL）是一个由欧盟资助的国际性研究机构，总部设在德国的海得堡。欧洲分子生物信息学研究所的主要任务之一是开发和维护EMBL核酸序列数据库。该数据库是最基本的核酸序列数据资源。它与美国的GenBank、日本的DDBJ合作，为世界各国的研究工作者提供核酸序列数据资源，并实现数据库的及时更新。该研究所还与瑞士的生物信息学研究所合作，共同维护和发布SWISS-PROT蛋白质序列数据库。此外，该研究所还搜集和发布30多个分子生物学二次数据库。

2.8.2 MIPS
位于德国？？Martinsrie 的马普生物化学研究所（Max-Planck Institut fur Biochemie）的蛋白质序列研究组(MIPS)是国际蛋白质序列数据库PIR (Protin Identification Resource) 合作组成员之一，负责在欧洲范围内收集、发布和维护蛋白质序列数据。此外，MIPS也提供同源蛋白质家族数据库的网址，以及用于蛋白质查询和数据库搜索软件。MIPS在基因组研究中也起了重要作用，如在线虫基因组计划和拟南芥基因组计划中负责信息协调作用。

2.8.3 UCL
伦敦大学University College (UCL)的生物分子结构和模建研究组是计算生物学研究中心，是EMBnet专业节点。在蛋白质序列和结构分析方面，UCL作出了特殊贡献。他们开发了蛋白质序列指纹数据库(PRINTS)、蛋白质结构注释数据库(PDBsum)以及蛋白质结构分类数据库(CATH)等许多分子生物学数据库和实用工具。从UCL的FTP站点上可以下载各种程序。例如，用于绘制蛋白质与配体相互作用示意图的程序，用于计算氢键和非共价键相互作用的程序，用于分析蛋白质模体结构的程序，以及用于验证蛋白质结构立体化学性质的程序。此外，UCL的Web服务器提供数据库查询、序列分析等工具，并通过他们开发的DbBrowser (Michie et al., 1996)提供方便的服务。1999年起，？？？该服务器转由英国Manchester大学来维护，。

2.8.4 序列搜索系统——SRS
EMBnet收集和整理了许多生物数据资源，但这些数据库没有统一的数据格式，难以有效地进行查询。为此，EMBnet启动了一个研究计划，用于解决复杂的生物数据资源的利用问题，并开发了序列查询系统(Sequence Retrieve System，简称SRS)，通过网络浏览器对分子生物学数据库进行查询(Etzold 和 Argos, 1993)，包括核酸和蛋白质序列数据库、蛋白质功能位点数据库、蛋白质家族数据库、蛋白质结构数据库、基因组数据库和文献摘要数据库等200多个不同类型的分子生物信息数据库(图2.4)。SRS系统将不同类型的数据库整合在一起，通过统一的用户界面进行数据库查询。SRS系统通过建立索引文件实现数据库的快速查询。其主要特点，是不同数据库之间的连接，包括超文本链接和数据库记录之间的？？连接。SRS的另一个特点是允许用户将自己的数据库整合到该系统中，并可与其它数据库之间实现连接。

图2.4  SRS系统中各数据库之间的关系

2.9 NCBI
以上我们介绍了欧洲分子生物信息学和计算生物学中心。在生物信息学领域中，美国国家生物技术信息中心(National Center for Biotechnology Information，简称NCBI）具有特殊的地位。NCBI创建于1988年，位于美国华盛顿北郊马里兰州的Bethesda美国国家健康研究所(National Institutes of Health，简称NIH) 内，隶属于美国国家医学实验室(National Library of Medicine，简称NLM）。NLM在维护生物医学数据库和开发计算生物学软件方面作出了特殊的贡献。

NCBI的主要任务是应用最新的信息技术，从分子水平上研究与疾病相关的基因，搞清健康与疾病的分子机理。具体来说，包括创建自动的信息存储和分析系统，开发先进的生物信息处理方法，编写方便实用的数据库查询和分析软件，协调世界范围的生物信息资源。

1992年起，DNA序列数据库GenBank 转由NCBI维护。其主要任务之一，是从科技文献或其它渠道获取有关资料，对GenBank进行注释，并将这些数据与国际核酸数据库EMBL和DDBJ进行交换。

2.9.1 Entrez
NCBI开发了Entrez数据库查询系统，用于对GenBank等分子生物学和生物医学文献摘要(Medline)等数据库的查询 (Schuler et al, 1996)。Entrez采用了自动列出相关记录的方法，实现同一数据库中不同条目或不同数据库之间的有机联系。当用户以关键词查找某个条目时，可以从查询结果所列出的条目中找到与其相关的其它条目，包括文献摘要、基因组和染色体图谱、数据核酸和蛋白质序列数据库、蛋白质结构数据库等，使用十分方便。与SRS不同，Entrez是一个封闭的数据库系统，无法由用户添加自己的数据库。

SRS和Entrez等查询系统为生物信息资源的利用提供了极为有效的工具。它们把各种类型的数据库集成在一起，提供统一的界面和查询方法，利用计算机网络，实现信息共享。

2.10 网络导游
近年来，随着计算机网络的迅速普及，商业、文化、娱乐等网络用户的数量激增，尽管网络传输通道不断加宽，网络传输速度却依然不断下降。开发网络导游工具，以便更加有效地利用网络资源，是解决以上问题的途径之一。

网络导游，这是一个非常便利的工具，可以允许从世界任何一个地方来对信息进行搜索。可以提供的信息类型是无穷无尽的，从商业领域，当前事件，教育，娱乐，金融，购物，运动到旅游等等方面。通过不同的搜索引擎和通过点击就可以连接的地图等就可以实现对全球各个角落的浏览和访问。

虚拟导游(The Virtual Tourist)站点提供了网络导游工具，通过这些工具可以获得世界上有关地理目录的WWW服务器的位置。在这里，从通过点击所连接到的世界、国家和各州的地图上就可以展示相关的信息。例如，要想链接到位于澳大利亚的计算生物学中心，浏览者只要简单地点击世界地图上的澳大利亚大陆，就可以链接到澳大利亚和太平洋地图上，再点击该大陆的位置就出现了一张有国家万维网站点的交互式的地图。再选择新南威尔士就出现该地区的版图，点击悉尼，列出悉尼所有万维网络服务器目录。在这个目录中，浏览者可以发现有关大学的列表，在此列表中点击悉尼大学，就会发现澳大利亚国家基因组信息中心(ANGIS)，即澳大利亚的EMBnet国家级节点(图2.5)。
2.5 虚拟浏览澳大利亚

通过点击浏览网页上世界、大陆和州的地图，以及网络服务器目录，就可以找到澳大利亚国家基因信息服务中心ANGIS

除了有关国家、州和地区的信息，虚拟浏者还提供有关于城市的信息。即网络可以提供全球的浏览信息。

如此便利的浏览工具所带来的是许多组织和个人被吸引到网络上来，他们迎接着信息和网络时代的到来。但是，随之也出现了两个特殊的问题：(i)当随着上网浏览人数的增加，就会遇到网络的高峰期，带来的结果是网络通信减慢，有时甚至完全停止; (ii) 另一个非常严重的问题是，网络上带有不健康色彩的信息，这些信息将使学校的学生在享受网络所带来的便利同时，将给学生带来危害。

进入九十年代后期，对网络的管理还没有很健全的法规。但这种情况不会持续太久，我们最终会看到这些相关法规的出台。由于私人网络用户的增加，一些主要的控制形式要建立起来，既需要政府增加投资来增加带宽，同时也需要网络用户的支持。

2.ll 本章总结
2       互联网是一个全球性的计算机网络。每一台连接在网络上的计算机有一个唯一的地址，以便能够与网络上其它计算机通信。

2       网络上提供了许多服务，包括电子邮件、新闻组、文件传输和远程计算等。

2       万维网是网络上最先进的信息系统，已经成了网络的代名词。

2       浏览器是访问网络信息的工具。常用浏览器有Netscape Navigator和Internet Explorer。

2       EMBnet是以欧洲国家为主的生物信息学网络共享组织，包括34个生物信息学和基因组研究中心。

2       欧洲有一些著名的生物信息学中心，承担生物学数据库维护和提供计算生物学方面的服务。最重要的有英国测序中心、英国人类基因组图谱资源中心、欧洲生物信息学研究所、MIPS 和 UCL。美国最著名的生物信息中心是国家生物技术信息中心NCBI。

2.12 参考文献
互联网
SWINDELL, S.R, MILLER, R.R. and MEYERS, G.S.A (eds) (1996) Internet for the Molecular Biologist. Horizon Scientific Press.

信息查询工具
ETZOLD, T. and ARGOS, P. (1993) SRS an indexing and retrieval tool for flat file data libraries. Computer Applications in the Biosciences, 9, 49-57.

SCHULER,G.D., EPSTEIN, J.A., OHKAWA, H. and KANS, J.A. (1996) Entrez: molecular biology database and retrieval system. Methods in Enzymology, 266, 141-162.

生物信息学WWW 服务器
APPEL, R.D., BAIROCH, A. and HOCHSTRASSER, D.E (1994) A new generation information-retrieval tools for biologists - the example of the ExPASy WWW server. TiBS, 19(6), 258-260.

MICHIE, A.D., JONES, M.L. and ATTWOOD, T.K. (1996) DbBrowser: integrated access to databases woridwide. TiBS, 21(5), 191.

生物信息资源中心
EMMERT, D.B., STOEHR, P.J., STOESSER, G. and CAMERON, G.N (1994) The European Bioinformatics Institute (EBI). Nucleic Acids Research, 22(17),3445-3449.

2.13 有关网址
下面是国际上生物信息资源的主要网址。

WWW             http://www.w3.org/

CERN             http://www.cern.ch./

Lynx             http://lynx.browser.org/

ACS             http://www.ukans.edu/~acs/

Mosaic             http://www.ncsa.uiuc.edu/SDG/Software/Mosaic/NCSA/

            MosaicHome.html

NCSA             http://www.ncsa.uiuc.edu/ncsa.html

Netscape             http://www.netscape.com/

EMBnet             http://www.embnet.org/

Hinxton Hall             http://www.ebi.ac.uk/hinxton/hinxton.html

Sanger Centre             http://www.sanger.ac.uk/Info/

HGMP-RC             http://www.hgmp.mrc.ac.uk/HGMP.html

EBI             http://www.ebi.ac.uk/ebi_home.html

EMBL             http://www.embl-heidelberg.de/

ExPASy             http://expasy.hcuge.ch/

MIPS             http://www.mips.biochem.mpg.de/

UCL             http://www.biochem.ucl.ac.uk/bsm/dbbrowser/

SRS             http://srs.ebi.ac.uk/

NCBI             http://www.ncbi.nlm.nih.gov/

Entrez             http://www.ncbi.nlm.nih.gov/Entrez/

Virtual Tourist             http://www.vtourist.com/webmap/

ANGIS             http://www.angis.su.oz.au/

City.Net             http://www.city.net/

2004-1-8 23:04:40 [下载] 论坛软件下载中心

云贵浪子 · 发表于 2004-1-9 00:00:00

生物信息学概论-第三章蛋白质资源数据库1
第三章蛋白质资源数据库
3.1 简介
本章主要介绍分子生物学数据库及其数据类型，并介绍一些重要数据库的由来。本章将以核酸和蛋白质序列为主，介绍以一级序列数据库、复合数据库、蛋白质序列模式序列模块和三级数据库。最后将介绍两种蛋白质结构分类数据库，并在附表中列出一些数据库资源的网址。

3.2 生物信息数据库
在第一章中我们已经强调，模式生物基因组计划的序列测定，远远领先于蛋白质结构的研究，这主要因为基因组大规模测序比蛋白质三维结构的测定容易得多。要从这些大量的序列信息中得到尽可能多的有用信息，就必须对这些数据按一定的方式进行处理，即通过构建和维护这些数据库，开发方便实用的数据库查询软件，使生物学家能够方便地获取这些数据库所包含的信息。在此基础上，利用生物信息学手段，研究开发有效的分析工具，以进一步获取隐藏在这些序列数据中的生物学意义，探索生物大分子的结构功能关系。

那么，在分析序列信息的过程中，第一步就要将这些数据存放到重要的、可以共享的资源中，也就是数据库中。数据库是有效的电子文件归档柜，是一种方便、高效的能够存储大量信息的方法。有许多不同的数据库类型，这些类型的数据库的划分既取决于所要存储信息的性质（如是序列信息还是结构信息，是二维凝胶信息还是三维结构图像信息，等等），也取决于存储数据的方式（即存储的是普通文本文件，还是采用关系数据库进行存储，或者是采用面向对象数据库进行存储等）。在这里，我们只关心不同类型的生物学数据，而不关心数据的详细存储方式或者是数据的管理机制。

在进行蛋白质序列分析过程中，会应用到一级复合数据库和序列模块数据库。在这些数据库资源中以完全不同的格式存储了不同层次的信息（图框3.1）。如果在过去，如此多的信息就会带来很多传输方面的问题，但是由于计算机技术和网络技术的发展为我们提供了许多解决办法，现在可以通过互联网来进行清晰的、无间断的、分步式的数据信息传输。因此目前根本问题是要知道如何在所需要的时候、怎样使用数据库来建立最有效的序列分析策略。因此，在这一章里，首先要对一些最重要的数据库资源（从现在和历史的观点来看）作一概要的介绍。

图框3.1 蛋白质序列和结构层次

蛋白质的一级结构就是氨基酸序列。在一级数据库中存储了线性的按字母顺序排列的氨基酸残基（图框3.2）; 蛋白质的二级结构对应着如a螺旋和b折叠片这样的规则区域，在序列比对中，这些规则的区域通常是非常保守的序列模体; 在序列模块数据库中存储着各种模式，如正则表达式、序列指纹图谱、序列模块、序列谱等。蛋白质的三级结构由二级结构得到，蛋白质的三级结构由不连续的结构域、折叠（a,b,c）或序列模块（@,*,#）组成，这些折叠、结构域和序列模块以原子坐标的形式存储在蛋白质结构数据库中。

3.3 一级序列数据库
在80年代早期，在科学文献中有关序列的信息变得越来越丰富。看到这一点，世界上的几个实验室认识到，如果将这些序列收集并存储为一些重要的数据库将会带来很大的益处。这样，这些实验室就开始着手构建几个一级数据库。表3.1中所列的是一些最重要的核酸和蛋白质序列数据库。在下面将要对其进行简要介绍。

表3.1 一级核酸和蛋白质序列数据库

核酸序列数据库
蛋白质序列数据库

EMBL
PIR

GenBank
MIPS

DDBJ

SWISS-PROT

TrEMBL

  NRL-3D

3.3.1 核酸序列数据库
如表3.1所示，主要的DNA序列数据库有GenBank(美国)，EMBL(欧洲)和DDBJ(日本)，这三个数据库每天都要交换数据以保证能够全面覆盖每一个站点的数据。有关这些资源的详细细节及数据库的结构（特别以GenBank为例）将在第四章中介绍。在这里，只介绍一下不同种蛋白质序列数据库和模式数据库的区别。

3.3.2 蛋白质序列数据库
PIR
PIR蛋白质序列数据库是由国家生物医学研究基金会（NBRF）的Margaret Dayhoff在60年代早期发展建立的，Margaret Dayhoff收集蛋白质序列来研究蛋白质的进化关系。自从1988年，蛋白质序列数据库就由大分子序列数据收集中心PIR-International (Barker et al., 1998)来共同维护，该数据库所收集的内容包括了NBRF蛋白质信息资源（PIR），日本的国际蛋白质信息数据库（JIPID）和Martinsried研究所的蛋白质序列(MIPS)。

现在，PIR数据库已经按照数据的性质和注释的层次分为四个不同的部分，即PIR1-PIR4：PIR1包括的序列已经被分类和注释; PIR2包含序列初步的信息，这些信息还没有被完全检验，可能含有一些重复的信息; PIR3包含一些未被验证的条目; PIR4中的信息又分成四类，（i）人工合成序列的概念上的翻译（conceptual translations）; (ii)没有转录或翻译的序列的概念上的翻译; (iii)蛋白质序列或基因工程序列的概念翻译; (iv)没有基因编码和没有生成核糖体的序列。在NBRF-PIR数据库网页上提供了数据搜索和序列查找的程序。

MIPS
Martinsried的蛋白质序列研究所负责为三方合作的PIR国际蛋白质序列数据库(PIR-International Protein Sequence Database)项目收集和处理蛋白质序列数据(Mewes et al.,1998)。该数据库的信息PATCHX发布（PATCHX是增补数据库，包含了一些未经证实的蛋白质序列数据）。可以通过网络服务器来访问该数据库，包含在PIR-International和PATCHX中的所有蛋白质序列信息都存储在动态数据库中，通过查询该数据库可以很快捷地得到FastA格式的蛋白质相似性结果。

SWISS-PROT
SWISS-PROT是蛋白质序列数据库，是由Geneva大学药学生物化学系和EMBL于1986年共同合作开发的。1994年以后，开发工作转到EMBL的英国分部EBI进行(Bairoch and Apweiler, 1998)。在1998年四月，该工作又转到Swiss生物信息学研究所（SIB），因此，该数据库现在是由SIB和EBI/EMBL共同维护。该数据库力图能够提供高水平的数据注释信息，包括对蛋白质功能、结构域的结构、蛋白质翻译后的修饰、突变体等的描述。SWISS-PROT数据库的目标是提供尽可能详尽的、很少冗余的数据，在数据库中的链接可以直接链接到其它资源上。1996年，由计算机注释的一些序列被补充到SWISS-PROT数据库中，这一部分序列被称作翻译的EMBL，即TrEMBL数据库，在下面还要对它详细介绍。现在先了解一下SWISS-PROT数据库的结构。

SWISS-PROT数据库的结构
SWISS-PROT 数据库的结构及其所包含的数据的性质使之与其它蛋白质序列数据库有显著的不同。到1998年中期，SWISS-PROT数据库包含有~70 000个条目，这些条目涵盖了5000多个不同的种属，而这么多的数据仅仅来自于很少的几种模式生物，如人（Homo sapiens）、啤酒酵母（Saccharomyces cerevisiae）、大肠杆菌（Escherichia coli）、小鼠（Mus musculus）、大鼠（Rattus norvegicus）等。

图3.1中给出了SWISS-PROT数据库中一个蛋白质序列文件的例子。在图中的每一行前用两个字母标记，用来说明每一行所代表的信息。文件中以ID行开始，以//作为结束的标识符。在图3.1中，ID行告知该条序列的名称是OPSD_SHEEP，并说明这是一个带有348个氨基酸的蛋白质序列。在SWISS-PROT数据库中，ID代码包含着很友好的信息，它是以PROTEIN-SOURCE格式出现，在这里，PROTEIN部分以缩写字母的形式给出蛋白质的类型，SOURCE部分代表了生物体的名称。在此例中，可以清楚地从ID号中看到，这一蛋白序列来源于绵羊的视紫红质(rhodopsin)。

ID OPSD_SHEEP    STANDARD;    PRT; 348 AA.

AC P02700;

DT 21-JUL-1986 (REL. 01, CREATED)

DT 01-FEB-1991 (REL. 17, LAST SEQUENCE UPDATE)

DT 01-NOV-1997 (REL. 35, LAST ANNOTATION UPDATE)

DE RHODOPSIN.

GN RHO.

OS OVIS ARIES (SHEEP).

OC EUKARYOTA; METAZOA; CHORDATA; VERTEBRATA; MAMMALIA; EUTHERIA;

OC ARTIODACTYLA; RUMINANTIA; PECORA; BOVOIDEA; BOVIDAE; CAPRINAE; OVIS.

RN [1]

RP SEQUENCE.

RA PAPPIN D.J.C., ELIPOULOS E., BRETT M., FINDLAY J.B.C.;

RT "A structural model for ovine rhodopsin.";

RL INT. J. BIOL. MACROMOL. 6:73-76(1984).

.

.

RN [4]

RP RETINAL BINDING SITE.

RX MEDLINE; 84178280.

RA PAPPIN D.J.C., FINDLAY J.B.C.;

RT "Sequence variability in the retinal-attachment domain of mammalian

RT rhodopsins.";

RL BIOCHEM. J. 217:605-613(1984).

CC -!- FUNCTION: VISUAL PIGMENTS ARE THE LIGHT-ABSORBING MOLECULES THAT

CC    MEDIATE VISION. THEY CONSIST OF AN APOPROTEIN, OPSIN, COVALENTLY

CC    LINKED TO CIS-RETINAL.

CC -!- SUBCELLULAR LOCATION: INTEGRAL MEMBRANE PROTEIN.

CC -!- TISSUE SPECIFICITY: ROD SHAPED PHOTORECEPTOR CELLS WHICH MEDIATES

CC    VISION IN DIM LIGHT.

CC -!- PTM: SOME OR ALL OF THE CARBOXYL-TERMINAL SER OR THR RESIDUES MAY

CC    BE PHOSPHORYLATED.

CC -!- THIS RHODOPSIN HAS AN ABSORPTION MAXIMA AT 495 NM.

CC -!- SIMILARITY: BELONGS TO FAMILY 1 OF G-PROTEIN COUPLED RECEPTORS.

CC    BELONGS TO THE OPSIN SUBFAMILY.

DR PIR; A30407; OOSH.

DR GCRDB; GCR_0194; -.

DR PROSITE; PS00237; G_PROTEIN_RECEPTOR; 1.

DR PROSITE; PS00238; OPSIN; 1.

DR PFAM; PF00001; 7tm_1; 1.

KW PHOTORECEPTOR; RETINAL PROTEIN; TRANSMEMBRANE; GLYCOPROTEIN; VISION;

KW PHOSPHORYLATION; LIPOPROTEIN; G-PROTEIN COUPLED RECEPTOR.

FT DOMAIN       1    36    EXTRACELLULAR.

FT TRANSMEM    37    61    1 (POTENTIAL).

FT DOMAIN    62    73    CYTOPLASMIC.

FT TRANSMEM    74    98    2 (POTENTIAL).

FT DOMAIN    99 113    EXTRACELLULAR.

.

.

FT TRANSMEM 285 309    7 (POTENTIAL).

FT DOMAIN    310 348    CYTOPLASMIC.

FT CARBOHYD    2    2    BY SIMILARITY.

FT CARBOHYD    15    15    BY SIMILARITY.

FT BINDING    296 296    RETINAL CHROMOPHORE.

FT LIPID    322 322    PALMITATE (BY SIMILARITY).

FT LIPID    323 323    PALMITATE (BY SIMILARITY).

FT DISULFID 110 187    BY SIMILARITY.

FT MOD_RES    343 343    PHOSPHORYLATION (BY RK) (BY SIMILARITY).

SQ SEQUENCE 348 AA;  38891 MW;  A3B1F1A0 CRC32;

   MNGTEGPNFY VPFSNKTGVV RSPFEAPQYY LAEPWQFSML AAYMFLLIVL GFPINFLTLY

   VTVQHKKLRT PLNYILLNLA VADLFMVFGG FTTTLYTSLH GYFVFGPTGC NLEGFFATLG

   GEIALWSLVV LAIERYVVVC KPMSNFRFGE NHAIMGVAFT WVMALACAAP PLVGWSRYIP

   QGMQCSCGAL YFTLKPEINN ESFVIYMFVV HFSIPLIVIF FCYGQLVFTV KEAAAQQQES

   ATTQKAEKEV TRMVIIMVIA FLICWLPYAG VAFYIFTHQG SDFGPIFMTI PAFFAKSSSV

   YNPVIYIMMN KQFRNCMLTT LCCGKNPLGD DEASTTVSKT ETSQVAPA

//

图3.1 SWISS-PROT数据库中一条序列的例子，句点表示省略部分

但是，ID号码有时会重复，因此要添加另外的标识符以利于识别，这个新增加的标识符即是编码AC（accession number），要注意在不同版本的数据库间一条蛋白质序列的AC号是一样的。在此例中，AC号为P02700，虽然该数值没有为用户提供更有价值的信息，但是对于计算机来说却容易区分。如果在AC行出现了几个数值，那么第一个就是当前的AC号。

下面的DT行提供了蛋白质序列提交到数据库的时间，及最近一次修改的时间等信息。在描述行（DE）的一行或几行中，提供了对蛋白质的名称的说明，在此例中，只简单说明了蛋白质为视紫红质。在下面的几行中提供了有关该蛋白质的基因名（GN），生物物种（OS）和生物分类（OC）等生物学信息。

接下来，还有一系列与蛋白质序列信息相关的文献信息，这些文献信息来自于科学文献、未发表的直接从测序中得到的信息，及从结构或突变研究中得到的数据，等等。因此，从这一点上也说明该数据库是一个非常有价值的、难得的序列数据库。

在文献信息之后，是评论（CC）行。在CC行中按主题进行区分，其中，FUNCTION：说明蛋白质的功能，PTM：说明翻译后的修饰，TISSUE SPECIFICITY：说明组织专一性，SUBCELLULAR LOCATION：说明亚细胞定位，等等。在CC行中，还提供了一些已知的特殊蛋白质家族的相似性和联系。在此例中，由给出的信息可以知道视紫红质是一种存在于视杆细胞中的完整的膜可视蛋白，属于视蛋白家族和1型G蛋白偶联受体（GPCR）超家族。

在评论行后的是数据库交叉引用（DR）行。提供了与其它生物信息数据库的链接，这些生物信息数据库包括一级序列数据库，序列模块数据库，特殊数据库等等。以绵羊视紫红质为例，可以看到由SWISS-PROT数据库中的该条序列信息可以链接到一级PIR数据库，GPCR专家数据库，PROSITE序列模块数据库和ProDom结构域数据库。

在DR行之后，是相应的关键字（KW）行和FT行，FT行以特征表（Feature Table）的形式存在，特征表可以使所感兴趣的序列区域更显著，这些特征包括二级结构（例如跨膜结构域，如图3.1所示），配体结合位点，翻译后修饰等等。在特征表的每一行有一个关键字（如TRANSMEM）、特征序列的位置（如37-61），及对特征的注释在一定层次上的评价（如POTENTIAL）。在此例中，视紫红质的跨膜结构域是由预测软件预测得到的，因此在缺少实验上三维结构数据的支持下，仅仅能被标识为POTENTIAL。

在最后一部分，是蛋白质的序列，即SQ行。为便于存储，氨基酸编码是以单个字母表示的（如图框3.2），每一行包括60个残基。在SWISS-PROT数据库中的序列数据与蛋白质的前体相对应，因此，在翻译后加工过程中，蛋白质大小和分子量信息就不对应于成熟蛋白质。成熟蛋白质或肽的结构可以参考特征表的信息来推论，可以根据特征表所提供的信号区（SIGNAL），转运区（TRANSIT）或前肽（PROPEP）等信息来推断出成熟蛋白质或肽。CHAIN 和PEPTIDE两个关键字用来表示成熟蛋白质的位置。

图框3.2氨基酸代码表

SWISS-PROT数据库的结构使之可以直接有效地连接到不同的查询区域，即查询软件不需要搜索整个文本区，就可以直接定位到所要查询的字段行。并且，由于SWISS-PROT数据库还具有生物学的意义，所以它成为世界上最被广泛使用的蛋白质序列数据库。

TrEMBL
TrEMBL（翻译的EMBL）数据库是于1996年创建并增补到SWISS-PROT数据库中(Bairoch and Apweiler, 1998)。该数据库采用SWISS-PROT数据库的格式，包含有对EMBL数据库中所有编码序列的翻译。TrEMBL数据库有两个主要部分，一部分是SP-TrEMBL，另一部分是REM-TrEMBL：SP-TrEMBL (SWISS-PROT TrEMBL) 中包含的条目最终要组合到SWISS-PROT数据库中，但是这些条目还没有被人工注释; REM-TrEMBL中所包含的序列不被组合到SWISS-PROT数据库中，这些序列是一些免疫球蛋白和T细胞受体、少于八个氨基酸的碎片、合成的序列、具有专利的序列和不能编码真正蛋白质的密码子。TrEMBL数据库的结构与SWISS-PROT数据库一样，具有很好的可查询功能，而且不会由于组合到SWISS-PROT数据库中的序列没有被充分分析和注释而影响到SWISS-PROT数据库。

图框3.3 氨基酸结构和性质一览表

按照氨基酸的物理化学性质来分，氨基酸可以被分成很多类。一般地，氨基酸可以被粗略地分成极性带电荷的氨基酸（如酸性氨基酸、碱性氨基酸），极性不带电荷的氨基酸和疏水性氨基酸（如带有芳香侧链和脂肪族侧链的氨基酸）。事实上，氨基酸的性质是非常复杂的，它们的性质也有相当大的重叠，在图8.2中详细说明了它们之间的关系。

NRL-3D
NRL-3D数据库是由包含在PIR数据库中的，从Brookhaven Protein Databank(PDB) (Namboodiri et al., 1990)数据库中提取出来的序列构成的数据库。NRL-3D数据库中的标题和生物学资源条目符合PIR数据库中所使用的命名标准。NRL-3D数据库中包括了参考文献与MEDLINE的交叉引用，也包括对二级结构，活性位点，结合位点和修饰位点等的注释以及对有关实验方法、实验方案、R因子等的详细描述。其中也提供了关键词的信息。

NRL-3D 是一个有价值的资源数据库，它所提供的包含在PDB数据库中的序列信息既可以以关键词的形式进行查询，又可以进行序列相似性搜索。可以使用ATLAS搜索系统对该数据库进行查询，ATLAS是一个多数据库信息搜索程序，特别用来对大分子序列数据库进行搜索。

3.3.3 小结
随着一级序列数据库的增长，一系列的问题也随之产生：这些数据库都具有相同的格式吗？哪一个是最精确的？哪一个是更新最快的？哪一个是最全面的？我们应该用哪一个？

在蛋白质序列数据库中，NRL-3D数据库虽然仅仅反映了PDB数据库的内容，但是它的有用之处是这些序列直接与蛋白质结构信息相关联; PIR（1-4）数据库中所包含的数据信息最全面，但其中的解释说明却相对地贫乏，即使是在PIR1中也是如此; 另外，SWISS-PROT数据库的组织结构非常好（如图3.1中所作的描述），并对每个条目作了详尽的说明，但是它所覆盖的序列却比PIR数据库少。这样看来，要想搜索最恰当的数据库似乎是不可能的，所以是否要对所有的数据库都进行搜索才能得到想要的信息？

云贵浪子 · 发表于 2004-1-9 00:00:00

生物信息学概论-第三章蛋白质资源数据库2
4 蛋白质序列复合数据库
面对这么多的一级数据库，一个解决方案是编辑一个复合的数据库，即将不同的一级数据库资源进行合并。由于不必对多个数据库进行查询，因此在对复合数据库进行序列查询时效率将会更高。如果复合数据库设计得合理，即对一个序列的查询不会多于一次，那么这种查询过程就是最高效的。

为了创建高效的复合数据库，提出了多种策略。最终的方案主要是依据所选择的数据资源和所使用的标准的具体情况，并将这两方面结合起来考虑; 例如，在合成复合数据库的过程中，如果仅仅将那些具有重复信息的序列排除，那么所生成的复合数据库就是新的数据库; 更进一步，如果还将相同的和高度相似的序列剔除（如那些只有一个残基不同的序列，即那些仅仅第一位蛋氨酸不同的序列），那么所得的复合数据库就是非冗余的数据库。

选择不同的数据库资源和采用不同的标准就会生成不同的复合数据库（如表3.2所示），这样生成的每一个复合数据库都会有各自的形式。下面就简要介绍一下一些主要的复合数据库。

3.4.1 NRDB
NRDB(非冗余数据库)是由NCBI创建的。该数据库是由Genpept（来源于GenBank CDS自动翻译数据库）、PDB序列数据库、SWISS-PROT数据库、Spupdate（每周更新的SWISS-PROT数据库）、PIR和GenPeptupdate(每天更新的Genpept)数据库复合而成。因此该数据库是一个较完全的，包含最新信息的数据库。但是，严格地来说，这个数据库中包含有冗余的信息，但不包含相同的信息，即在该数据库中已将那些与某一序列相同的序列信息剔除。由于NRDB是通过简单的比较方法生成的，因此就会带来一些问题：例如，一些相同蛋白质的相关重复信息仍然保留在数据库中，在SWISS-PROT数据库中的一些错误序列仍然被引入NRDB数据库，以及众多序列与已存在的序列片段重复等。所以，尽管NRDB数据库被称作非冗余数据库，但其实是名不副实的。另外，NRDB数据库也被作为NCBI提供的BLAST服务的默认数据库。

表3.2 蛋白质序列复合数据库

NRDB
OWL
MIPSX
SP+TrEMBL

PDB
SWISS-PROT
PIR1-4
SWISS-PROT

SWISS-PROT
PIR
MIPSOwn
TrEMBL

PIR
GenBank
MIPSTrn


GenPept
NRL-3D
MIPSH


SWISS_PROTupdate

PIRMOD


GenPeptupdate

NRL-3D



SWISS-PROT



EMTrans



GBTrans



Kabat



PseqIP


3.4.2 OWL
OWL是一个非冗余的蛋白质序列数据库，现存于Leeds大学，是由Leeds大学和Warrington的Daresbury实验室合作开发的(Bleasby et al., 1994)。OWL数据库是由四个主要的一级序列数据库复合成的：包括SWISS-PROT，PIR1-4，GenBank（CDS 翻译）和NRL-3D。

在合成OWL数据库的过程中，考虑到每个数据库所包含序列信息的情况，赋予它们不同的优先级，SWISS-PROT数据库具有最高的优先权。在对信息的处理上，删除了与某一序列相同序列的信息，也剔除了与某一序列相差单个氨基酸的序列的信息，因此，所得到的OWL数据库是一个紧凑的、高效的序列数据库。尽管如此，OWL数据库仍然有许多与NRDB相同的问题，即在该数据库中仍然有一些错误的序列和对GenBank中不正确序列的重翻译。由于OWL数据库的更新周期是6-8周，因此与其它数据库相比，OWL不是最新的数据库。英国的EMBnet国家节点上提供有针对于OWL的BLAST服务，在SEQNET，UCL上的专家节点也可以找到该地址。

3.4.3 MIPSX
MIPSX是一个由Martinsried的Max-Planck研究所创建的合成数据库(Mewes et al., 1998)。MIPSX包含如下数据库的信息：PIR1-4、MIPS的一级数据库——MIPSOwn、MIPS/PIR一级数据库——PIRMOD、MIPS一级翻译数据库——MIPSTrn、MIPS酵母数据库——MIPSH、NRL-3D、SWISS-PROT、EMTrans——EMBL的自动翻译数据库、GBTrans——翻译的GenBank数据库、Kabat 和 PseqIP。MIPSX数据库按照表3.2中所列的上述数据库的顺序赋予优先级，并将这些数据库中和数据库间的重复序列删除，只保留该序列的一个相关信息。另外，也将那些信息完全包含于其它序列中的序列删除。

3.4.4 SWISS-PROT + TrEMBL
EBI将SWISS-PROT和TrEMBL数据库合并，构成一个较全面的并且只有最低限度冗余的数据库(Bairoch 和 Apweiler, 1998)。与上面所提到的数据库相比，该数据库只有较少的错误，但它还称不上是真正的非冗余的数据库（据1997年年中的估计，其中包含了SWISS-PROT 和 TrEMBL中的30%的重复序列）。为了尽可能地减少错误频率和冗余程度，就需要增加人为的干涉和（或者）在将来发展专家数据库管理系统。可以使用EBI网络服务器上的SRS序列搜索系统来查询SWISS-PROT 和 TrEMBL数据库。

3.4.5 小结
就象一级数据库的增加所带来的问题一样，如何选择最好的复合数据库来进行序列分析同样困扰着数据库的使用者，人们不知道哪一个数据库具有较高质量的数据信息，哪一个数据库更全面，哪一个是最新更新的数据库，应该使用哪一个数据库等等。

最终的选择一般要考虑所要处理的工作中哪一个因素起决定作用来判断采用哪一个数据库，或依据哪一个网络服务器所提供的信息更快捷来判断。拿OWL数据库来说，虽然它的更新速度不快，但其中的信息都被作了索引，这就是说可以使用查询语言来搜索相关的信息，并且可以采用不同的查询和操作方法快速得到查询结果。与OWL相比，NRDB不能提供复杂的查询，但它包含了每天更新的GenPept和每周更新的SWISS-PROT数据库的序列信息，因此查询NRDB数据库可以得到最新的序列信息。

现在访问网络是比较容易的事情，尽管有时网络的速度慢一些，但为了要得到所需要的信息，最好不要怕麻烦多搜索一些复合数据库。当然，在开发出真正的没有错误的、非冗余的、全面的复合序列数据库之前，还要不断地对合成复合数据库的基本原理进行研究，这可能是最实际的解决方案。另外，可以使用NCBI上的nr软件来创建内部的定制的复合数据库。

3.5 序列模块数据库
除了众多的一次和复合数据库资源外，还有许多序列模块（或模式）数据库，如此的称谓是因为这些数据库所包含的信息是对一级数据资源的分析结果。由于存在许多不同的一级数据库，和不同的分析蛋白质序列的方法，因此每个序列模块数据库中包含的信息也是不同的，并且不同的数据格式也反映了这些数据库质量的不同。要想设计出能够查询不同类型的数据、能够说明查询输出的范围及能够评估出查询结果所包含的生物学意义的软件工具不是一项简单的工作。

尽管SWISS-PROT数据库存在这样那样的问题，但它仍被作为最普遍应用的一级数据库，许多序列模块数据库也是以它为基础的。一些主要的序列模块数据库资源列于表3.3中。

表3.3 一些主要的序列模块“模式”数据库以及生成序列模块数据库所需要的一级数据库，每个序列模块数据库所存储的模式也被列出。PRINT序列模块数据库是唯一一个由复合数据库生成的序列模块数据库

序列模块数据库
生成序列模块数据库的一级数据库
序列模块数据库中存储的信息

PROSITE
SWISS-PROT
正则表达（模式）

Profiles
SWISS-PROT
加权矩阵（序列谱）

PRINTS
OWL*
比对的序列模体s（序列指纹图谱）

Pfam
SWISS-PROT
隐-马氏模型（HMMs）

BLOCKS
PROSITE/PRINTS
比对的序列模体s（blocks）

IDENTIFY
BLOCKS/PRINTS
模糊的正则表达（模式）

*SWISS-PROT是用于生成OWL复合数据库的优先级最高的一级序列数据库

图框3.4 序列模体

当进行多重序列比对时，由于有多个亲缘关系不等的序列包括在内，因此就需要插入一些Gap来使比对的序列形成正确的匹配。随着Gap的插入，一些具有保守性的匹配区域形成，这些保守区域通常有10-20个氨基酸的长度，并对应着蛋白质核心的结构或功能区域。这些保守区域的特性可以用来对蛋白质家族的成员进行鉴别（请参阅图框3.5）。这些区域通常被称作序列模体，但也有将它们称作blocks（序列模块）, segments（片断）或features（特征）的。

3.5.1 为什么要生成序列模块数据库？

从表3.3中可以看出，存储在每一个序列模块数据库中的信息类型都是不相同的。但是这些数据库中都有共同的准则：即同源序列按照多重序列对比方法收集在一起，它们之间的保守区基本不变。这些保守区或序列模体通常反映了一些生物学规律（也就是反映了蛋白质的一些重要的结构和功能）。请参阅图框3.4。序列模体被用来以不同的方式为特殊的蛋白质家族建立鉴别模式，如图3.2或图框3.5中的例子。这种查询设想是以一个未知的序列作为查询目标，搜索这些模式数据库，来确定该序列是否包含可能的特殊的相似模式，由此来判断该序列是否能被归入一个已知的家族。如果一个蛋白质家族的结构和功能是已知的，搜索模式数据库可以快速推断一个序列是否具有该家族的生物学功能。因为模式数据库的信息来源于多个序列的比对结果，查询模式数据库比查询一级数据库能够更好地确认蛋白质间的距离关系。然而，到目前为止，还没有一个模式数据库是很完善的，它们只是一些在一级数据库基础上的补充，而不能替代一级数据库。

图3.2构建模式数据库的方法

图框3.5 在序列分析方法中所用到的术语

主要的序列分析方法是多重序列比对。应用多重序列比对方法就可以生成一系列保守的区域，用这些保守区域就可以来鉴别蛋白质的结构或功能性质。在下图中介绍了用于描述不同类型数据的术语。

在单一的序列模体中，序列信息可以被描述成统一的表达式，如C-Y-X2-[DG]-G-X-[ST]，在方括号中的残基被规定必须在该位置，X代表任意残基。如此的对序列模体的统一描述被称作正则表达或模式。比较短的如只有三或四个残基长度的正则表达被称作规则（rule），即图中所示的[ST]-X-[RK]。相对应的，用于描述一组序列模体的术语被称作序列指纹图谱或信号（signature），在这些序列模体中，所有的残基的信息都保留在频率矩阵中。在频率矩阵中加上打分表，就生成了加权矩阵，或称为序列模块（blocks）。全部匹配信息，再加上gap区的信息，就生成了序列谱。来自于匹配的序列谱的概率模型被称作隐马氏模型（Hidden Markov Models）。下面要对一些主要的序列模块数据库作简要介绍。有关分析方法和如何使用等将在第八章中介绍。

3.5.2 PR0SITE
第一个开发出的序列模块数据库是PROSITE数据库，它现在是由生物信息学Swiss研究所维护的(Bairoch et al, 1997)。开发PROTSITE数据库的依据是在蛋白质家族中，同源的蛋白质序列通过多重序列对比方法得到的具有保守性的序列模体区域具有相同的特性这一原理来实现的，这样的序列模体区域通常编码重要的生物学功能，也就是那些酶的活性位点、配体或金属的结合位点等等。

查询这样的序列模块数据库在理论上将可以帮助我们来确定一个新的蛋白质序列属于哪一个蛋白质家族，或者能够判断出该序列可能包含什么样的结构域或功能位点。

在PROSITE数据库中，编码为正则表达的序列模体s通常被看作一个模式。这一得到模式的过程与构造多重序列对比和人工识别保守区相关联。包含在单个序列模体中的序列信息被作为具有一定规则的表达式（single consensus expressions），最终的种子模式被用于搜索SWISS-PROT数据库。得到的结果再经检验以用来确定模式匹配行为的优劣：理想的结果是仅存在正确的匹配，称作阳性结果（true-positives），而没有假阳性结果（false-positives），请参阅图框3.6。模式所具有的鉴别行为就是通过对许多假阳性匹配进行调整，并不断扫描SWISS-PROT数据库而产生的。这一过程重复进行，直到产生最佳的模式。

有时，一个单一的序列模体不能有效地用来确定一个蛋白质家族的特性。在这种情况下，就要使用另外的模式来确定该家族所具有的保守的特性。要想对一个蛋白质家族的特性进行鉴别，就要尽可能地找到该家族所包含的一系列模式。

云贵浪子 · 发表于 2004-1-9 00:00:00

生物信息学概论-第四章基因组信息资源
第四章基因组信息资源
4.1 引言
我们在第三章中讨论了几种类型的生物数据库，重点放在蛋白质信息资源上，并以SWISS-PROT数据库为实例，讨论了某些特定数据库的结构。本章中我们将介绍DNA序列数据资源，包括GenBank、EMBL、DDBJ等一次数据库(primary database)，以及某些特定的基因组信息资源。鉴于EMBL数据库中的格式与上述SWISS-PROT数据库格式一致，此处不作赘述，本章将重点介绍GenBank数据库的结构。

4.2 DNA序列数据库
4.2.1 EMBL
EMBL是欧洲生物信息学研究所(European Bioinformatics Institute, EBI)创建的一个核酸序列数据库。EMBL的数据来源主要有两部分，一部分由科研人员或某些基因组测序机构通过计算机网络直接提交，另一部分则来自科技文献或专利(Stoesser等, 1998)。EMBL与DDBJ、GenBank建有合作关系，他们分别在全世界范围内收集核酸序列信息，每天都将新发现或更新过的数据相互交换。

近来，DNA数据库的规模正在以指数方式增长，平均不到9个月就增加一倍。1998年1月，EMBL中收录的序列数已超过一百万，包括15,500个物种，其中模式生物的序列占50%以上，它们包括人类(Homo sapiens), 线虫(Caenorhabditis elegans)，啤酒酵母(Saccharomyces cerevisiae)，小鼠(Mus musculus)和拟南芥(Arabidopsis thalania)。

可以利用序列查询系统 SRS(Sequence Retrieval System)从EMBL数据库中提取有关信息(Etzold等，1996年)。SRS序列查询系统通过超文本链接将DNA序列数据库和蛋白质序列、功能位点、结构、基因图谱以及文献摘要MEDLINE等各种数据库联系在一起。利用EBI网站提供的BLAST或FastA程序，可以对EMBL数据库进行未知序列同源性搜索。

4.2.2 DDBJ
DDBJ是DNA Data Bank of Japan的简称，始建于1986年，由国立遗传学研究院负责数据库的建设，维护及数据的传播，并与EMBL和GenBank合作；可以从世界各地通过网络把序列直接提交该数据库。DDBJ网页上也提供了包括FastA和BLAST在内的数据库查询工具。

4.2.3 GenBank
GenBank是美国国家生物技术信息中心(National Center for Biotechnology Information ，NCBI)建立的DNA序列数据库，从公共资源中获取序列数据，主要是科研人员直接提供或来源于大规模基因组测序计划( Benson等, 1998)。为保证数据尽可能的完全，GenBank与EMBL、DDBJ建立了相互交换数据的合作关系。

图框4.1  GenBank 中各种序列类型统计和比较

上面图表给出了GenBank104版本（1997年12月）及74版本（1992年12月）中的序列统计信息。上述序列信息被分为以下几类：不完整序列，包括EST和STS片段；基因组序列，包括HTG和GSS片段；以及所有其它序列。从上面统计图中可以看出，五年内数据库中的EST数据在全部序列中所占的比例增加了近10倍。随着世界范围内各种基因组测序计划的展开，新类型的序列资源不断充实到数据库中去。EST序列的数量大大增加，超过了所有其它序列的数量总和。

下面图表按照与上面相同的分类，对GenBank104版本及74版本中的碱基数量作了统计比较。结果表明，1992年时，EST的数量只占碱基总量的很小一部分，而到了1997年，其数量已经增加到了总量的40%：这意味着在相同的五年中，EST的碱基数量占总量的比例增加了20倍。

综合这些数据表明，尽管不完整序列在总序列中所占比例很大，但在碱基数量上，基因组及其其它序列仍占多数。这主要是因为EST及其它不完整序列都是短序列（少于400个碱基），而基因组序列和其它序列都是长序列（平均多于1000个碱基）。因此在一定程度上，碱基的数量统计更加公平的体现了数据库中的信息组成：因为片段序列虽在条目上占优势，但对全面的序列信息而言，它还是少于PRI, MAM, PLN等其它主要类型中的高质量序列的。

图4.1  GeneBank数据库序列实例

介绍了关键词、子关键词以及特征表在表示Cox-2的cDNA结构信息上的用法。在图中，核酸序列以及其在特征表中的翻译蛋白均用（…）进行了省略。

鉴于数据库规模不断扩大(框4.1)，而数据来源种类繁多，GenBank按照数据来源分成若干个子数据库，以便于管理和使用。表4.1列出了GenBank目前包括的17个子数据库的名称和内容。

代码
英文含义
中文含义

PRI
Primate
灵长类动物

ROD
Rodent
啮齿类动物

MAM
Other mammalian
其它哺乳动物

VRT
Other vertebrate
其它脊椎动物

INV
Invertebrate
无脊椎动物

PLN
Plant, fungal, algal
植物、真菌、藻类

BCT
Bacterial
细菌

RNA
Structural RNA
结构RNA

VRL
Viral
病毒

PHG
Bacteriophage
细菌噬菌体

SYN
Synthetic
合成产物

UNA
Unannotated
未注明来源

EST
Expressed Sequence Tags
表达序列标记

PAT
Patent
专利

STS
Sequence Tagged Sites
序列标记位点

GSS
Genome Survey Sequences
基因组？？序列

HTG
High Throughput Genomic Sequences
高通量基因组序列

表4.1GenBank的17个子数据库名称和含义

将大型数据库分成若干子库，有许多好处。首先，可以把数据库查询限定在某一特定部分，以便加快查询速度。其次，基因组计划快速测序得到的大量序列尚未加以注释，将它们单独分类，有利于数据库查询和搜索时“有的放矢”。GenBank将这些数据按高通量基因组序列(High Throughput Genomic Sequences，HTG)、表达序列标记(Expressed Sequence Tags，EST)、序列标记位点(Sequence Tagged Sites，STS)和基因组概览序列(Genome Survey Sequences，GSS)单独分类。尽管这些数据尚未加以注释，它们依然是GenBank的重要组成部分。

可通过Entrez数据库查询系统对GenBank进行查询。这个系统将核酸、蛋白质序列和基因图谱、蛋白质结构数据库整合在一起。此外，通过该系统的文献摘要数据库MEDLINE，可获取有关序列的进一步信息。在万维网上，进入NCBI的主页，可以用BLAST程序对GenBank数据库进行未知序列的同源性搜索(详见第六章)。

GenBank数据库结构

完整的GenBank数据库包括序列文件，索引文件以及其它有关文件。索引文件是根据数据库中作者、参考文献等子段建立的，用于数据库查询。GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库，其数据格式为FastA。GenBank曾以CD-ROM光盘的形式分发，价格比较便宜。随着数据库容量的增长，一套最新版的GenBank需要12张光盘存放，不仅生产成本很高，也不便于使用。现在，光盘分发的方式已经停止，可以通过网络下载GenBank数据库。

GenBank中最常用的是序列文件。序列文件的基本单位是序列条目，包括核甘酸碱基排列顺序和注释两部分。目前，许多生物信息资源中心通过计算机网络提供该数据库文件。下面，我们介绍序列文件的结构。

序列文件由单个的序列条目组成。序列条目由字段组成，每个字段由关键字起始，后面为该字段的具体说明。有些字段又分若干次子字段，以次关键字或特性表说明符开始。每个序列条目以双斜杠“//”作结束标记。序列条目的格式非常重要，关键字从第一列开始，次关键字从第三列开始，特性表说明符从第五列开始。每个字段可以占一行，也可以占若干行。若一行中写不下时，继续行以空格开始。

如图4.1所示，序列条目的关键字包括代码(LOCUS)，说明(DEFINITION)，编号(ACCESSION)，核酸标识符(NID)，关键词(KEYWORDS)，数据来源(SOURCE)，文献(REFERENCE)，特性表(FEATURES)，碱基组成(BASE COUNT)及碱基排列顺序(ORIGIN)。

代码LOCUS是该序列条目的标记，或者说标识符，蕴涵这个序列的功能。例如，图4.1中所示的HUMCYCLOX表示人的环氧化酶cyclooxygenase。该字段还包括其它相关内容，如序列长度、类型、种属来源以及录入日期等。说明字段是有关这一序列的简单描述，如本例为人环氧化酶-2的mRNA全序列。

序列代码具有唯一性和永久性，如本例中代码M90100用来表示上述人环氧化酶-2的mRNA序列，在文献中引用这个序列时，应该以此代码为准。核酸标识符NID对序列信息的当前版本提供？？？

关键词字段由该序列的提交者提供，包括该序列的基因产物以及其它相关信息，如本例中还氧化酶-2 (cyclooxygenase-2)，前列腺素合成酶(prostaglandin synthase)。数据来源字段说明该序列是从什么生物体、什么组织得到的，如本例中人脐带血管(umbilical vein)。次关键字种属(ORGANISM)指出该生物体的分类学地位，如本例人、真核生物等等(详见图4.1)。文献字段说明该序列中的相关文献，包括作者(AUTHORS)，题目(TITLE)及杂志名(JOURNAL)等，以次关键词列出。该字段中还列出医学文献摘要数据库MEDLINE的代码。该代码实际上是个网络链接指针，点击它可以直接调用上述文献摘要。一个序列可以有多篇文献，以不同序号表示(图4.1)，并给出该序列中的哪一部分与文献有关。

FEATURES是具有自己的一套结构，用来详细描述序列特性的一个表格。在这个表格内，带有‘/db-xref/’标志的字符可以连接到其它数据库内(本例，您看到的是一个分类数据库(taxon 9606)，以及一个蛋白质数据库(PID：g181254))；序列中各部分的位置都加以标明，5’非编码区(1-97)，编码区(98-1912)，3非编码区(1913-3387)，多聚腺苷酸序列(3367-3374)，等等；蛋白质翻译的信号肽及最终的多肽也都有所说明。这个例子不能说很全面，但已经足以说明特性表给出信息的详细程度。

接下来是BASE COUNT记录，计算出不同碱基在整个序列中出现的次数(1010A，712个C，633个G，1032个T)。ORIGIN那一行，指出了序列第一个碱基在基因组中可能的位置。最后，核酸的序列全部列出，并以//作为结尾。

4.2.4 dbEST
EST数据存储在dbEST数据库内，该数据库有自己的格式和识别代码系统。序列信息以及dbEST的注释摘要，也按DNA的分类分成了若干子数据库。1998年5月8日版的dbEST共包括1.6ⅹ106条EST。其中有1百万条属于人类(Homo sapiens)，30万条属于++(Mus musculus),和++(Mus domesticus)。

4.2.5 GSDB
这个基因组序列数据库由位于新墨西哥州Santa Fe的国家基因组资源中心创建。GSDB收集、管理并且发送完整的DNA序列及其相关信息，以满足主要基因组测序机构的需要。这一资源是以在线服务器-客户式关系数据库的形式进行工作的，为远端的大规模测序机构向其提交数据提供了方便。以这种方式获取的数据，在被发送之前会先对数据进行检查以确保数据的质量。

GSDB中条目的格式与GenBank中的基本一致(见4.2.3对关键字的定义)。这两种条目的主要区别是GSDB中有名为GSDBID的一项（图4.2）。

图4.2  GSDB服务器上dbEST库中的EST序列实例

从实例中可以看到，此库中增加了一个用于搜索的附加关键词——GSDBID。

这个数据库可以通过万维网，或使用服务器-客户式关系数据库来使用；无论用哪种方法，熟悉数据库语言，SQL(结构化查询语言)，会有所帮助。

4.3 特定基因组资源
除了涵盖从完整基因组到单个基因各个方面的综合DNA序列数据库，还有些更有针对性的基因组资源，或称专用数据库。在一定程度上，可以认为这些数据库既连接了一些基本的DNA数据库，把它们的数据抽调出来填充到自己的数据库中；又连接了一些经常调用这些数据库的查询结果的其他数据库。这种独特数据资源存在的意义在于强调(a)特定物种的基因组，(b)特殊的测序技术。每包含的序列信息对这类数据库也许并不重要，一般情况下，它们主要的目的是为某一特定的物种提供一个更为完整的数据库资源，如模式生酵母（Saccharomyces cerevisiae、线虫（Caenorhabditis elegans）、果蝇（Drosophila melanogaster）、拟南芥（Arabidopsis thaliana）、幽门螺杆菌（Helicobacter pylori）等。因为某一系统中的序列数据只能提供该物种一定层次的信息，如果把更高层次的信息加以综合，就能对基因组的组织结构有一个完整的理解。

因特网为科学家们在交流基因科学方面的研究成果上带来的影响，怎么夸张都不过分。下面选择了现在能见到的几个数据库为例作些说明，其中既有网站，也包括可下载的数据文件。

4.3.1 SGD
酵母基因组数据库SGD(Cherry et al.,1998),是以方式工作的一种在线资源，包括了啤酒酵母的分子生物学及遗传学信息。通过因特网可以访问该数据库的全部基因组，包括基因及其产物，一些突变的表形还有各种数据的相关文字信息。酵母基因组的重要性在于，1998年它成为第一个完整测序的真核生物基因组。SGD通过若干功能的集成，为研究人员提供同源性查询，使用网络上的基因序列分析资源，注册酵母基因名称，查看基因组的各类图谱及三维结构信息，设计能够有效克隆酵母基因的引物序列等等。数据库通过一系列友好，生动的图形界面为用户展示各种物理、遗传、和序列特性图谱。

4.3.2 UniGene
人类基因组计划的主要任务是对人类基因组进行全测序，(整个基因组估计有30亿对碱基)，然而这里面只有大约3%可以编码蛋白质，其余部分的生物学功能还不清楚。转录图谱可以把基因组中实际表达的部分集中起来，因此是一种重要资源。

UniGene希望通过从GeneBank中调出一些不包括多余部分、面向基因的序列串组成一个转录图谱。这个库涵盖了多种生物的基因(对比一下5.9.3中的HGI，它只包括人的基因)，每个序列串与唯一一个基因及其相关信息建立联系。如基因在什么生物组织中表达，图谱中的位置等。

除了研究的已经很清楚的基因序列外，大量新发现的EST也包括在内。这就意味着，大部分序列只是片段序列，相应基因并没有搞清楚。因此，这个数据库的另一个价值就是发现新基因。在描绘基因图谱及大规模基因表达分析等项目中，UniGene也可以帮助实验设计者选择试剂。

进入NCBI的主页，可以访问这个数据库。

4.3.3 TDB
TIGR数据库(TDB)包括DNA及蛋白质序列，基因表达，细胞功能以及蛋白质家族信息，并且还收录有人、植物、微生物等的分类信息，是一套大型综合数据库。特别之处在于，这套数据库包括一个微生物信息库，收录了TIGR自己以及世界范围内的其它基因组测序计划的成果，如（A. Fulgidus）、致Lyme病螺旋体（B. Burgdorferi）、流感嗜血菌（H. Influenzae）、幽门螺杆菌（H. Pylori）、（M. jannaschii）和生殖道支原体（M. genitalium）等，寄生虫数据库(T. brucei P. falciparum)，人、鼠、水稻等基因索引计划（5.9.3节有人类基因索引的详细讨论）；拟南芥（A. Thaliana）数据库；以及人类基因组数据库等。其中有些数据可以由FTP站点下载，或是由TIGR的主页访问。

4.3.4 ACeDB
AceDB数据库，是线虫（C. Elegans）基因组计划的一个成果。库内的资源包括限制性图谱，基因结构信息，柯斯质粒图谱，序列数据，参考文献等等。通过软件ACEDB来管理并浏览这个数据库，ACEDB提供一个图形界面，使用户能够从大到整个基因组小到物理序列的各个层次考察基因组数据（图4.3）。ACeDB及ACEDB既可以指数据库又可以指浏览工具，这可能会引起混淆，用户应注意区分。

图4.3  使用ACEDB考察某一基因组图谱中各层数据

(a) 上图左侧帧显示了ACEDB的开启窗口，其中基因（arl-3）已被选定。在开启的窗口下部，可以看到标记有“Main KeySet”字样的滚动列表，其中包括所有可选择的基因。在右侧帧中，标定了选定基因在染色体上的对应位置。通过点击“Zoom in”按钮可以将该基因图不断放大，最终达到一个很高的分辨率，使该基因充分显示；(b) 对ACEDB库中图谱数据的高水平浏览，从中可以看出用于构建图谱的克隆片段（显示为重叠的水平线，如4D4）。

ACEDB使用面向对象的程序设计技术，是一个具有相当灵活性和通用性的系统，可以很方便的用于其它基因组计划的数据分析。例如，拟南芥（A. Thaliana）、啤酒酵母（S. Cerevisiae）及各种人染色体数据。为适应网络的发展，ACEDB添加了一些CGI脚本，Perl模块，称Webace，可在互联网上使用，例如，humace就提供了由Sanger中心测定的人类基因组序列的ACEDB数据库的网页访问服务。

4.4 本章总结

云贵浪子 · 发表于 2004-1-9 00:00:00

生物信息学概论-第四章基因组信息资源
第四章基因组信息资源
4.1 引言
我们在第三章中讨论了几种类型的生物数据库，重点放在蛋白质信息资源上，并以SWISS-PROT数据库为实例，讨论了某些特定数据库的结构。本章中我们将介绍DNA序列数据资源，包括GenBank、EMBL、DDBJ等一次数据库(primary database)，以及某些特定的基因组信息资源。鉴于EMBL数据库中的格式与上述SWISS-PROT数据库格式一致，此处不作赘述，本章将重点介绍GenBank数据库的结构。

4.2 DNA序列数据库
4.2.1 EMBL
EMBL是欧洲生物信息学研究所(European Bioinformatics Institute, EBI)创建的一个核酸序列数据库。EMBL的数据来源主要有两部分，一部分由科研人员或某些基因组测序机构通过计算机网络直接提交，另一部分则来自科技文献或专利(Stoesser等, 1998)。EMBL与DDBJ、GenBank建有合作关系，他们分别在全世界范围内收集核酸序列信息，每天都将新发现或更新过的数据相互交换。

近来，DNA数据库的规模正在以指数方式增长，平均不到9个月就增加一倍。1998年1月，EMBL中收录的序列数已超过一百万，包括15,500个物种，其中模式生物的序列占50%以上，它们包括人类(Homo sapiens), 线虫(Caenorhabditis elegans)，啤酒酵母(Saccharomyces cerevisiae)，小鼠(Mus musculus)和拟南芥(Arabidopsis thalania)。

可以利用序列查询系统 SRS(Sequence Retrieval System)从EMBL数据库中提取有关信息(Etzold等，1996年)。SRS序列查询系统通过超文本链接将DNA序列数据库和蛋白质序列、功能位点、结构、基因图谱以及文献摘要MEDLINE等各种数据库联系在一起。利用EBI网站提供的BLAST或FastA程序，可以对EMBL数据库进行未知序列同源性搜索。

4.2.2 DDBJ
DDBJ是DNA Data Bank of Japan的简称，始建于1986年，由国立遗传学研究院负责数据库的建设，维护及数据的传播，并与EMBL和GenBank合作；可以从世界各地通过网络把序列直接提交该数据库。DDBJ网页上也提供了包括FastA和BLAST在内的数据库查询工具。

4.2.3 GenBank
GenBank是美国国家生物技术信息中心(National Center for Biotechnology Information ，NCBI)建立的DNA序列数据库，从公共资源中获取序列数据，主要是科研人员直接提供或来源于大规模基因组测序计划( Benson等, 1998)。为保证数据尽可能的完全，GenBank与EMBL、DDBJ建立了相互交换数据的合作关系。

图框4.1  GenBank 中各种序列类型统计和比较

上面图表给出了GenBank104版本（1997年12月）及74版本（1992年12月）中的序列统计信息。上述序列信息被分为以下几类：不完整序列，包括EST和STS片段；基因组序列，包括HTG和GSS片段；以及所有其它序列。从上面统计图中可以看出，五年内数据库中的EST数据在全部序列中所占的比例增加了近10倍。随着世界范围内各种基因组测序计划的展开，新类型的序列资源不断充实到数据库中去。EST序列的数量大大增加，超过了所有其它序列的数量总和。

下面图表按照与上面相同的分类，对GenBank104版本及74版本中的碱基数量作了统计比较。结果表明，1992年时，EST的数量只占碱基总量的很小一部分，而到了1997年，其数量已经增加到了总量的40%：这意味着在相同的五年中，EST的碱基数量占总量的比例增加了20倍。

综合这些数据表明，尽管不完整序列在总序列中所占比例很大，但在碱基数量上，基因组及其其它序列仍占多数。这主要是因为EST及其它不完整序列都是短序列（少于400个碱基），而基因组序列和其它序列都是长序列（平均多于1000个碱基）。因此在一定程度上，碱基的数量统计更加公平的体现了数据库中的信息组成：因为片段序列虽在条目上占优势，但对全面的序列信息而言，它还是少于PRI, MAM, PLN等其它主要类型中的高质量序列的。

图4.1  GeneBank数据库序列实例

介绍了关键词、子关键词以及特征表在表示Cox-2的cDNA结构信息上的用法。在图中，核酸序列以及其在特征表中的翻译蛋白均用（…）进行了省略。

鉴于数据库规模不断扩大(框4.1)，而数据来源种类繁多，GenBank按照数据来源分成若干个子数据库，以便于管理和使用。表4.1列出了GenBank目前包括的17个子数据库的名称和内容。

代码
英文含义
中文含义

PRI
Primate
灵长类动物

ROD
Rodent
啮齿类动物

MAM
Other mammalian
其它哺乳动物

VRT
Other vertebrate
其它脊椎动物

INV
Invertebrate
无脊椎动物

PLN
Plant, fungal, algal
植物、真菌、藻类

BCT
Bacterial
细菌

RNA
Structural RNA
结构RNA

VRL
Viral
病毒

PHG
Bacteriophage
细菌噬菌体

SYN
Synthetic
合成产物

UNA
Unannotated
未注明来源

EST
Expressed Sequence Tags
表达序列标记

PAT
Patent
专利

STS
Sequence Tagged Sites
序列标记位点

GSS
Genome Survey Sequences
基因组？？序列

HTG
High Throughput Genomic Sequences
高通量基因组序列

表4.1GenBank的17个子数据库名称和含义

将大型数据库分成若干子库，有许多好处。首先，可以把数据库查询限定在某一特定部分，以便加快查询速度。其次，基因组计划快速测序得到的大量序列尚未加以注释，将它们单独分类，有利于数据库查询和搜索时“有的放矢”。GenBank将这些数据按高通量基因组序列(High Throughput Genomic Sequences，HTG)、表达序列标记(Expressed Sequence Tags，EST)、序列标记位点(Sequence Tagged Sites，STS)和基因组概览序列(Genome Survey Sequences，GSS)单独分类。尽管这些数据尚未加以注释，它们依然是GenBank的重要组成部分。

可通过Entrez数据库查询系统对GenBank进行查询。这个系统将核酸、蛋白质序列和基因图谱、蛋白质结构数据库整合在一起。此外，通过该系统的文献摘要数据库MEDLINE，可获取有关序列的进一步信息。在万维网上，进入NCBI的主页，可以用BLAST程序对GenBank数据库进行未知序列的同源性搜索(详见第六章)。

GenBank数据库结构

完整的GenBank数据库包括序列文件，索引文件以及其它有关文件。索引文件是根据数据库中作者、参考文献等子段建立的，用于数据库查询。GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库，其数据格式为FastA。GenBank曾以CD-ROM光盘的形式分发，价格比较便宜。随着数据库容量的增长，一套最新版的GenBank需要12张光盘存放，不仅生产成本很高，也不便于使用。现在，光盘分发的方式已经停止，可以通过网络下载GenBank数据库。

GenBank中最常用的是序列文件。序列文件的基本单位是序列条目，包括核甘酸碱基排列顺序和注释两部分。目前，许多生物信息资源中心通过计算机网络提供该数据库文件。下面，我们介绍序列文件的结构。

序列文件由单个的序列条目组成。序列条目由字段组成，每个字段由关键字起始，后面为该字段的具体说明。有些字段又分若干次子字段，以次关键字或特性表说明符开始。每个序列条目以双斜杠“//”作结束标记。序列条目的格式非常重要，关键字从第一列开始，次关键字从第三列开始，特性表说明符从第五列开始。每个字段可以占一行，也可以占若干行。若一行中写不下时，继续行以空格开始。

如图4.1所示，序列条目的关键字包括代码(LOCUS)，说明(DEFINITION)，编号(ACCESSION)，核酸标识符(NID)，关键词(KEYWORDS)，数据来源(SOURCE)，文献(REFERENCE)，特性表(FEATURES)，碱基组成(BASE COUNT)及碱基排列顺序(ORIGIN)。

代码LOCUS是该序列条目的标记，或者说标识符，蕴涵这个序列的功能。例如，图4.1中所示的HUMCYCLOX表示人的环氧化酶cyclooxygenase。该字段还包括其它相关内容，如序列长度、类型、种属来源以及录入日期等。说明字段是有关这一序列的简单描述，如本例为人环氧化酶-2的mRNA全序列。

序列代码具有唯一性和永久性，如本例中代码M90100用来表示上述人环氧化酶-2的mRNA序列，在文献中引用这个序列时，应该以此代码为准。核酸标识符NID对序列信息的当前版本提供？？？

关键词字段由该序列的提交者提供，包括该序列的基因产物以及其它相关信息，如本例中还氧化酶-2 (cyclooxygenase-2)，前列腺素合成酶(prostaglandin synthase)。数据来源字段说明该序列是从什么生物体、什么组织得到的，如本例中人脐带血管(umbilical vein)。次关键字种属(ORGANISM)指出该生物体的分类学地位，如本例人、真核生物等等(详见图4.1)。文献字段说明该序列中的相关文献，包括作者(AUTHORS)，题目(TITLE)及杂志名(JOURNAL)等，以次关键词列出。该字段中还列出医学文献摘要数据库MEDLINE的代码。该代码实际上是个网络链接指针，点击它可以直接调用上述文献摘要。一个序列可以有多篇文献，以不同序号表示(图4.1)，并给出该序列中的哪一部分与文献有关。

FEATURES是具有自己的一套结构，用来详细描述序列特性的一个表格。在这个表格内，带有‘/db-xref/’标志的字符可以连接到其它数据库内(本例，您看到的是一个分类数据库(taxon 9606)，以及一个蛋白质数据库(PID：g181254))；序列中各部分的位置都加以标明，5’非编码区(1-97)，编码区(98-1912)，3非编码区(1913-3387)，多聚腺苷酸序列(3367-3374)，等等；蛋白质翻译的信号肽及最终的多肽也都有所说明。这个例子不能说很全面，但已经足以说明特性表给出信息的详细程度。

接下来是BASE COUNT记录，计算出不同碱基在整个序列中出现的次数(1010A，712个C，633个G，1032个T)。ORIGIN那一行，指出了序列第一个碱基在基因组中可能的位置。最后，核酸的序列全部列出，并以//作为结尾。

4.2.4 dbEST
EST数据存储在dbEST数据库内，该数据库有自己的格式和识别代码系统。序列信息以及dbEST的注释摘要，也按DNA的分类分成了若干子数据库。1998年5月8日版的dbEST共包括1.6ⅹ106条EST。其中有1百万条属于人类(Homo sapiens)，30万条属于++(Mus musculus),和++(Mus domesticus)。

4.2.5 GSDB
这个基因组序列数据库由位于新墨西哥州Santa Fe的国家基因组资源中心创建。GSDB收集、管理并且发送完整的DNA序列及其相关信息，以满足主要基因组测序机构的需要。这一资源是以在线服务器-客户式关系数据库的形式进行工作的，为远端的大规模测序机构向其提交数据提供了方便。以这种方式获取的数据，在被发送之前会先对数据进行检查以确保数据的质量。

GSDB中条目的格式与GenBank中的基本一致(见4.2.3对关键字的定义)。这两种条目的主要区别是GSDB中有名为GSDBID的一项（图4.2）。

图4.2  GSDB服务器上dbEST库中的EST序列实例

从实例中可以看到，此库中增加了一个用于搜索的附加关键词——GSDBID。

这个数据库可以通过万维网，或使用服务器-客户式关系数据库来使用；无论用哪种方法，熟悉数据库语言，SQL(结构化查询语言)，会有所帮助。

4.3 特定基因组资源
除了涵盖从完整基因组到单个基因各个方面的综合DNA序列数据库，还有些更有针对性的基因组资源，或称专用数据库。在一定程度上，可以认为这些数据库既连接了一些基本的DNA数据库，把它们的数据抽调出来填充到自己的数据库中；又连接了一些经常调用这些数据库的查询结果的其他数据库。这种独特数据资源存在的意义在于强调(a)特定物种的基因组，(b)特殊的测序技术。每包含的序列信息对这类数据库也许并不重要，一般情况下，它们主要的目的是为某一特定的物种提供一个更为完整的数据库资源，如模式生酵母（Saccharomyces cerevisiae、线虫（Caenorhabditis elegans）、果蝇（Drosophila melanogaster）、拟南芥（Arabidopsis thaliana）、幽门螺杆菌（Helicobacter pylori）等。因为某一系统中的序列数据只能提供该物种一定层次的信息，如果把更高层次的信息加以综合，就能对基因组的组织结构有一个完整的理解。

因特网为科学家们在交流基因科学方面的研究成果上带来的影响，怎么夸张都不过分。下面选择了现在能见到的几个数据库为例作些说明，其中既有网站，也包括可下载的数据文件。

4.3.1 SGD
酵母基因组数据库SGD(Cherry et al.,1998),是以方式工作的一种在线资源，包括了啤酒酵母的分子生物学及遗传学信息。通过因特网可以访问该数据库的全部基因组，包括基因及其产物，一些突变的表形还有各种数据的相关文字信息。酵母基因组的重要性在于，1998年它成为第一个完整测序的真核生物基因组。SGD通过若干功能的集成，为研究人员提供同源性查询，使用网络上的基因序列分析资源，注册酵母基因名称，查看基因组的各类图谱及三维结构信息，设计能够有效克隆酵母基因的引物序列等等。数据库通过一系列友好，生动的图形界面为用户展示各种物理、遗传、和序列特性图谱。

4.3.2 UniGene
人类基因组计划的主要任务是对人类基因组进行全测序，(整个基因组估计有30亿对碱基)，然而这里面只有大约3%可以编码蛋白质，其余部分的生物学功能还不清楚。转录图谱可以把基因组中实际表达的部分集中起来，因此是一种重要资源。

UniGene希望通过从GeneBank中调出一些不包括多余部分、面向基因的序列串组成一个转录图谱。这个库涵盖了多种生物的基因(对比一下5.9.3中的HGI，它只包括人的基因)，每个序列串与唯一一个基因及其相关信息建立联系。如基因在什么生物组织中表达，图谱中的位置等。

除了研究的已经很清楚的基因序列外，大量新发现的EST也包括在内。这就意味着，大部分序列只是片段序列，相应基因并没有搞清楚。因此，这个数据库的另一个价值就是发现新基因。在描绘基因图谱及大规模基因表达分析等项目中，UniGene也可以帮助实验设计者选择试剂。

进入NCBI的主页，可以访问这个数据库。

4.3.3 TDB
TIGR数据库(TDB)包括DNA及蛋白质序列，基因表达，细胞功能以及蛋白质家族信息，并且还收录有人、植物、微生物等的分类信息，是一套大型综合数据库。特别之处在于，这套数据库包括一个微生物信息库，收录了TIGR自己以及世界范围内的其它基因组测序计划的成果，如（A. Fulgidus）、致Lyme病螺旋体（B. Burgdorferi）、流感嗜血菌（H. Influenzae）、幽门螺杆菌（H. Pylori）、（M. jannaschii）和生殖道支原体（M. genitalium）等，寄生虫数据库(T. brucei P. falciparum)，人、鼠、水稻等基因索引计划（5.9.3节有人类基因索引的详细讨论）；拟南芥（A. Thaliana）数据库；以及人类基因组数据库等。其中有些数据可以由FTP站点下载，或是由TIGR的主页访问。

4.3.4 ACeDB
AceDB数据库，是线虫（C. Elegans）基因组计划的一个成果。库内的资源包括限制性图谱，基因结构信息，柯斯质粒图谱，序列数据，参考文献等等。通过软件ACEDB来管理并浏览这个数据库，ACEDB提供一个图形界面，使用户能够从大到整个基因组小到物理序列的各个层次考察基因组数据（图4.3）。ACeDB及ACEDB既可以指数据库又可以指浏览工具，这可能会引起混淆，用户应注意区分。

图4.3  使用ACEDB考察某一基因组图谱中各层数据

(a) 上图左侧帧显示了ACEDB的开启窗口，其中基因（arl-3）已被选定。在开启的窗口下部，可以看到标记有“Main KeySet”字样的滚动列表，其中包括所有可选择的基因。在右侧帧中，标定了选定基因在染色体上的对应位置。通过点击“Zoom in”按钮可以将该基因图不断放大，最终达到一个很高的分辨率，使该基因充分显示；(b) 对ACEDB库中图谱数据的高水平浏览，从中可以看出用于构建图谱的克隆片段（显示为重叠的水平线，如4D4）。

ACEDB使用面向对象的程序设计技术，是一个具有相当灵活性和通用性的系统，可以很方便的用于其它基因组计划的数据分析。例如，拟南芥（A. Thaliana）、啤酒酵母（S. Cerevisiae）及各种人染色体数据。为适应网络的发展，ACEDB添加了一些CGI脚本，Perl模块，称Webace，可在互联网上使用，例如，humace就提供了由Sanger中心测定的人类基因组序列的ACEDB数据库的网页访问服务。

4.4 本章总结

云贵浪子 · 发表于 2004-1-9 00:00:00

生物信息学概论--第五章 DNA序列分析1
第五章 DNA序列分析
5.1引言
在前一章蛋白质序列分析的基础上，本章将讨论DNA序列分析的意义。为便于阅读，本章对DNA序列分析的常用术语给出了定义，并重新列出了遗传密码表。本章将在不同层次上分析介绍基因组信息的特点，详细讨论基因组转录后的常用分析手段，引入由cDNA文库快速测序产生的大量表达序列标签（Expressed Sequence Tag，简称EST）的概念，对EST在序列分析中的重要作用做了详细说明。基因识别与药物结合位点识别一起介绍。本章也分析了使用各种方法处理序列数据时可能遇到的问题，并提出了一些可行的解决方案。最后，列举了三个从EST数据库中提取有用信息的实例，以供参考。

5.2 DNA序列分析的意义
我们知道，DNA水平上的64个遗传密码子，对应于蛋白质水平上的20个不同氨基酸（表5.1）。众所周知，氨基酸是组成蛋白质的基本单元。因此，蛋白质序列的比较的灵敏度比较高，更容易发现亲缘关系较远的序列。然而，从信息论角度看，由64个密码子变成20个氨酸残基，这一数量上的减少意味着一些信息的丢失，这些信息又往往与进化过程有更直接的联系，因为蛋白质只是DNA的遗传变化在功能上的反映。框5.1以沉默突变为例对这一点作了详细说明。

表5.1  遗传密码表

框5.1  DNA水平上的家族分析

亲缘关系分析是对不同物种进行家族关系分析的常用方法。系统发生非常重要，它可以确定源于共同祖先的两个基因间的进化关系。这类分析一般以某个不同种属的基因出发，从 DNA序列或序列片段的比对结果着手。之所以选用DNA，而不是蛋白质，主要因为核酸水平上的突变、插入或删除模式更易确定。比如，由于遗传密码的简并性，DNA水平上的沉默突变不会引起蛋白质水平上的变化，因此从蛋白质水平分析将无法探测到这种变化。亲缘分析结果经常以图形形式表示，如亲缘树（phylogenetic tree）或系统树（dendrogram）等。在亲缘树中，进化距离根据水平分枝的长度决定；而在系统树中，进化距离则由分枝线段的长度决定。图中所示是这两种方法对五个来自同意家族的序列所做的比较。

二十年前，多肽链测序主要是依靠一种低通量的蛋白质化学方法。今天，这种方法依然相当主要，特别是在验证经过基因工程改造的一段蛋白质序列。然而，这种方法一次实验只能产生少量数据，不适用于大规模测序。近年来，由于高通量的自动荧光DNA测序技术的应用，使得DNA序列数据快速积累，而由DNA序列通过计算机程序翻译得到的蛋白质序列数据也相应增长。DNA序列分析有力支持了若干生物学研究领域。例如，系统进化研究，基因工程中的限制性内切酶图谱研究，基因识别中的内含子/外显子预测，由开放读码框（ORF，Open Reading Frame）推测蛋白质一级结构，等等。下面的章节中将对其中有些方法作详细描述。

5.3基因结构与DNA序列
真核生物基因组有一些重要特点，了解这些特点，才能理解基因结构对序列分析的重要意义。例如，真核生物序列中有内含子、外显子、编码序列、非编码区等，而原核生物的基因结构较为简单，通常没有内含子。典型的DNA序列数据库可能收录不同类型的序列数据，包非翻译区(untranslated region，简称UTR)、内含子和外显子、mRNA、cDNA、以及翻译得到的蛋白质序列等。因此所谓DNA数据库实际上可以看成是一系列不同类型的数据集合，每一类数据库都有自己的特点和功用。这些看似细微的差别要求我们在查询数据库之前就要做好分析。例如，试图从cDNA数据库中查询内含子/外显子的边界，显然是徒劳无功的，内含子/外显子只在真核生物基因组的完整DNA序列中存在。

5.3.1非翻译区
DNA和RNA中都有非翻译区UTR，它们位于完整编码序列（Complete Coding Sequence, CDS，简称CDS）的上游和下游，不能翻译成蛋白质序列。非翻译区，尤其是3' 端的非翻译区，在不同基因和不同种属中都有很高的特异性。

5.3.2概念翻译
根据表5.1的遗传密码表，理论上说，可以对任意一个DNA序列进行翻译而得到氨基酸序列，即通过寻找连续的编码序列来推测其相应的蛋白质序列。这种通过计算机翻译而不是实验手段测定得到的蛋白质序列称概念序列。所谓“概念”就是指出这种翻译是理论上处理，并没有经过实验证实。

对任意给定的一段DNA序列，我们无法确定其编码区是否从第一个碱基开始，也不知道其读码方向，因此必须将其所有的读码框全部翻译出来，即六读码框翻译（Six-Frame Translation）。先以双链DNA的某一条链为模板，分别从第2、第2、第3个碱基开始，按遗传密码进行翻译，得到三种翻译结果；再以另一条链为模板，依次从第1到第3个碱基开始翻译，得到另外三种翻译结果。因此，任一DNA片段，六读码框翻译的结果就是六种可能的蛋白质序列（图5.1）。

图5.1  具有六种可能翻译方式的不确定DNA序列

一个不确定DNA序列可以包括三种正向和三种反向翻译方式，每种翻译方式会产生一种可能的蛋白质序列，因此其一共可以有六种可能的蛋白质产物，其中一种是正确的。目前，确定某种翻译正确与否是生物学家面临的一个挑战。图中的“！”代表终止密码子。
.4 DNA序列分析的内容
5.4.1确定开放读码框
通过翻译得到6条读码框后，下一步就要确定哪个是正确的阅读框。通常，我们选择中间没有被终止密码子（TGA、TAA、或TAG）隔开的最大读码框作为正确结果，即开放读码框（Open Readin Frame，简称ORF）。ORF的结尾比它的起始容易判断。一般编码序列的起始位点是蛋氨酸的密码子ATG；但蛋氨酸在编码序列内部也经常出现，即ATG并不一定是ORF的起始标志。因此，有必要应用其它方法找到5'端非编码区的末端。

幸运的是，确实有一些规律可以帮助我们在DNA中找到蛋白质编码区。就像上面提到的足够长度的ORF（基于随机出现较长ORF的概率很小的事实）。识别边缘处的Kozak序列对确定编码区的起始位点也有一定帮助。而且，密码子在编码区和非编码区有不同的统计规律。尤其是一些特殊氨基酸在不同物种中密码子的使用情况有很大区别，偏爱密码子的规律在非编码区体现不出来。因此，偏爱密码子的统计分析有助于推测5'及3'非编码区，并对发现错误翻译也有所帮助，因为在错误翻译中不常用的密码子会大量出现。表5.2说明了不同物种对某些氨基酸使用不同密码子的情况，可见区别非常大。

表5.2  不同模式生物的丝氨酸密码子使用频率

据目前所知，共有六种三联体密码子编码丝氨酸。每种丝氨酸密码子都有可能在CDS中出现，不同物种对密码子的使用具有高度选择性。这种特性可以用于帮助预测DNA的那些区域可能编码蛋白质。

除了特定的偏爱密码子，许多物种密码子的第3个碱基位置倾向使用G或C而不是A或T。因此，G/C在这个位置的出现频率较高，这一特征可以进一步用来确定ORF。

最后，如果在起始密码子上游发现核糖体结合位点，就可以更肯定的说找到了一个ORF，因为核糖体结合位点指导核糖体结合到正确的翻译起始部位。但是，不管怎样，预测基因最可靠的方法恐怕还得与同源蛋白质序列比较。

5.4.2 内含子与外显子
真核生物的基因有外显子与内含子两部分，外显子组成编码区，内含子不参与编码区的组成（见图框5.2）。真核生物基因有外显子/内含子的一个结果就是其基因产物可能有不同的长度，因为并非所有的外显子都包含在最终的mRNA中（包含在mRNA内的外显子的排列顺序没有改变）。由于mRNA的编辑产生了不同的多肽，进而形成不同蛋白质，这些蛋白质就互称为剪切变体（Splice Variants）或者可变剪切形式（Alternatively Spliced Forms）。因此，查询cDNA或mRNA数据库（转录水平的信息）时，匹配结果看上去有缺失的部分，而实际上，这可能是可变剪切的结果。

图框5.2  分子生物学中心法则

中心法则阐明了分子生物学中遗传信息的传递方向，即首先由DNA转录成mRNA，然后再由RNA翻译成蛋白质。在真核生物中，外显子将成为最终编码区的一部分，而内含子尽管也被转录，但在mRNA的编辑过程中将被去除。

在图示的例子中，基因由三个外显子和两个内含子组成（实际情况中，基因的结构往往要复杂得多）。外显子与编码区是不同的，它的终止不是由终止密码子控制，而是由外显子-内含子间特殊的序列片段决定，但由于这种序列片段的的保守性不强，因此无法对其进行有效预测。例如，内含子5’端序列可能是‘AGGTAAT’，而3’端序列则可能为PyPyPyPyPyPyNCG（Py 表示嘧啶，N表示任意碱基），中间有很多不确定的碱基。

非翻译区（UTRs）一般处于基因的两端，如果翻译启始于序列的5’端，则5’非翻译区包括启动子区，如TATA盒；3’不翻译区则位于终止密码子之后，启动子紧挨翻译启始位点UTR上游。上游是相对于翻译方向而言，一般是指起始点往前的区域。

在mRNA中，起始密码子位于Kozak序列中部，Kozak序列为CDS起始位点的预测提供了更加充分的证据。

利用反转录酶，可以由mRNA 得到互补链cDNA，通过自动测序仪对每个克隆单次测序得到EST。有些也使用引物对每个克隆进行两次测序，一次从5’端到3’端，另一次则从3’端到5’端。这种双向测序法可提高EST拼接时的识别率，当5’端序列数据的准确率较低而影响拼接效果时，则可以利用由3’端开始的测序结果。

5.4.3 DNA序列拼接
DNA序列分析的另一个重要方面是将一个DNA克隆经自动测序得到的片段装配成完整的核苷酸序列。有些生化分析要求有相当准确的序列数据，对于一个序列已知的基因，必须核实克隆得到的序列是否与已知基因的序列一致。如果不一致，就必须设计实验加以修正。克隆出错的原因可能是多方面的，如使用了不恰当的引物，或在多聚酶链式反应（Polymerase Chain Reaction，简称PCR）中使用了低效率的酶。

克隆可以是能够直接测序的mRNA，或是以mRNA为模板合成的cDNA。单链克隆的测序过程如下：先根据克隆载体上插入位点两端的寡核苷酸序列设计引物，引物与相应序列杂交上后，它们就以插入序列为模板开始延伸，如图5.2所示。

图5.2 利用模板的DNA测序方法

（a）加入ddGTP 进行链的合成和中止；（b）根据GC配对原则，ddGTP将掺入到新合成链中。由于ddGTP无法再连接上新的碱基，因此新序列合成将在该位置终止。这样，最终就合成出了一系列3’端碱基为ddGTP的新序列。

双脱氧核苷酸（ddATP，ddTTP，ddGTP，ddCTP）可以终止延伸反应。由于反应体系中有大量的脱氧核苷酸（dATP，dTTP，dGTP，dCTP），它们与双脱氧核苷酸随机结合到模板上，因此延伸反应会终止在不同的碱基上，结果每个引物都合成了一系列不同长度的片段。这些片段通过放射性同位素电泳或者荧光法测序。一般情况下，一次试验不可能测定CDS的全长，因此必须通过重叠片段的多重比对得到整个CDS，这就必须进行序列拼接。

序列拼接软件通过计算序列中每个位点上各种核苷酸可能出现的分值，找出一致序列（Consensus Sequence）。可以设置一些参数来约束每个位点允许出现的错配数。通常，为确定序列拼接的质量，需要对一个片段进行多次测序。正链和负链上每个位置至少在两次以上测序结果一致，该位点的测序结果的才比较可信；相反，序列中的某一位点几次测序结果不一致，这一位点的可信度则较低（图5.3）。

图5.3  序列拼接实例

图中包括三条正链和两条负链。在五个测序结果中，有两个位点出现了错误，这些错误将导致这两个位置的碱基一致性的程度降低，此时，需要用企图数据加以验证，或对测序过程中所得的轨迹图进行人工分析。一般说来，必须利用全长的正链和负链序列数据，才能保证拼接结果的质量。

测序并得到高可信度的序列是一项需要时间和耐心的工作，尤其在使用自动荧光测序仪进行高通量测序时，更是如此（见图框5.3）。一个高质量的序列，需要一个熟练的分析人员，在一套可靠的分析软件的帮助下经过数小时对荧光图谱（测序原始资料）的分析才能获得。分析人员要熟悉测序实验操作的缺欠，了解GC富集区（导致强的DNA二级结构域并影响测序结果），重复序列等的影响，所有这些使序列拼接成为一项高技术工作。

云贵浪子 · 发表于 2004-1-9 00:00:00

生物信息学概论--第五章 DNA序列分析2
5.5 EST搜索结果的解释

图框5.3 荧光测序法序列测定实例

利用荧光测序技术可以对DNA序列数据进行快速测序。与传统的放射性方法相比，这种方法可以同时进行大量的反应，而且由于该方法本身的特性，也很容易实现自动化。当反应在荧光测序凝胶中进行时，计算机将对激光敏感的荧光进行分析，并将结果转换为更适于分析的数字信号。

图中显示了测序过程中一条凝胶通道上的结果。一般情况下，每次测定可在36条上同时进行。目前科学家们正在寻找更高通量的测序方法。从图中可以看出，序列测定的输出结果是一系列轨迹图，这些轨迹图的峰值代表相应的碱基，该碱基在峰线标注。有时由于轨迹图重叠，计算机程序不能判断该峰值代表哪个碱基，而用‘-’表示，在生成的序列文件中用‘N’表示。这些计算机不能识别的模糊碱基，有时可以通过经验加以识别，因此荧光测序色谱分析有时需要用手工完成。

5.4节中，介绍了完整DNA序列分析中几个主要问题。然而，我们不能指望总能拿到全长序列。实际上，目前DNA数据库中很大一部分数据由序列片段构成，即表达序列标签（Expressed Sequence Tag，简称EST）。后面5.8小节中将讨论EST的产生过程。这里，我们先来探讨一下EST的重要特性及其对序列分析的影响。分析EST时首先要注意以下几点：

2                EST使用5个碱基代码：A、C、G、T、N。

2                有可能会出现错误的插入/删除并导致翻译时的移码（frameshifts）。

2                EST经常会是数据库中另一序列的一部分。

2                EST也许不属于任何一个基因的CDS。

5.5.1 EST的代码
EST序列测定通常是高度自动化的，典型的方法就是利用荧光设备读取测序电泳胶上的数据，读出的结果直接输入到计算机作进一步分析，中间一般不经过手工处理。尽管电泳分析软件已经十分完善，但它还是不能确定序列中有些位点究竟是哪个碱基。这时，就会插入一个模糊碱基，通常是不确定的碱基N，但也有可能是其它兼并碱基（表5.3）。最终，序列有些部分会出现以N或其它字母表示的碱基。

表5.3  IUB-IUPAC碱基代码表

代码
英文含义
中文含义

G

Guanine
鸟嘌啉

A

Adenine
腺嘌啉

T
(U)
Thymine (Uracil)
胸腺嘧啶 (尿嘧啶)

C

Cytosine
胞嘧啶

R
(A or G)
PuRine
嘌啉

Y
(C or T or U)
Pyrimidine
嘧啶

M
(A or C)
Amino
腺嘌啉或胞嘧啶(氨基)

K
(G or T)
Ketone
鸟嘌啉或胸腺嘧啶(酮基)

S
(C or G)
Strong interaction
强相互作用碱基

W
(A or T)
Weak interaction
弱相互作用碱基

H
(A or C or T)
Not-G (H after G)
非鸟嘌啉

B
(C or G or T)
Not-A (B after A)
非腺嘌啉

V
(A or C or G)
Not-T/U (V after U)
非胸腺嘧啶

D
(A or G or T)
Not-C (D after C)
非胞嘧啶

N
(A or C or G or T)
Any
不确定

测序中心和实验室对测序质量进行控制，通常要求最终生成的全长序列中模糊碱基N的比例不超过5%，并且序列的起始和结尾的两段都被裁去以进一步提高质量。一个典型的EST一般有200到500个碱基。随着测序技术的提高，一次测序得到的EST的理论长度可达1000个碱基甚至更长。

5.5.2插入、删除和移码
简单的说，碱基识别程序就是在测序电泳胶板上找出四个测序反应的荧光吸收峰。为了尽可能找到所有吸收峰，提高测序准确性，程序以一定间隔检测碱基的吸收峰。但如果胶板的物理性质或其它条件发生变化，影响光线通透性，碱基吸收峰可能变得不规则。尽管软件有一定的容错能力，此时还是会出现一定的偏差，有些碱基十分频繁的被检测出，有些根本就不出现，结果就表现为错误的插入/删除。因此，在DNA序列比对时，各种比对算法都要考虑到数据库序列数据中可能会有插入或删除，包括更为敏感的蛋白质序列比对。插入/删除会导致假终止密码子的出现，或所有六读码框翻译都不正确。这些问题增加了计算机翻译程序的复杂性。

5.5.3 可变剪切
上面已经提到过可变剪切形式的概念。剪切变体的存在对用EST搜索数据库有特殊的影响。我们知道，可变剪切形式（图5.4）就是指转录的mRNA中没有包括全部的外显子，有一部分被删除掉了；而EST也可能由于测序错误产生噪声，噪声不只包括模糊碱基，还可能有碱基被遗漏。当使用EST对数据库搜索时，一个困难就是没法确定一个大部分很好但局部存在问题的匹配究竟是EST的测序错误，还是可变剪切形式在起作用。虽然有些规律可循，如剪切变体是大段的删除，而EST测序错误引起的碱基缺失片段相对较小，但依然不能草率的做出判断。

当一个EST小到可以整个落在某个外显子里时，可能会引起更大的麻烦。这时候，如果数据库中有两个可变剪切形式，并且都包含这个外显子，这就很难判断这个EST代表哪个接切形式。

图5.4  利用剪接变体进行EST分析

图中显示的是含有四个外显子的mRNA，以及与之相配的EST序列，其中外显子间的分界线已被标记出：（a）有两段EST序列与1、3、4号外显子匹配，表明这两段EST序列与1、3、4号外显子具有相似性，同时表明外显子2已经缺失，形成了一个剪接变体；（b）一段EST序列完全落在了3号外显子中，表明无法确定其是否代表一个剪接变体。

5.5.4 非编码区EST
关于EST的最常见的问题是“这个EST能代表一个新的基因吗？”。要回答这个问题，通常要去数据库中寻找答案。如果搜索结果表明该EST与某一段序列有很高的相似性，就可以用分子生物学方法进一步验证。如果搜索结果显示没有找到相似性程度较高的序列，这时并不意味着已经找到了一个新基因。因为这个EST也许是一个已知基因的非编码区，而这个非编码区正好不在数据库内。

包括人类在内的许多mRNA在CDS的两端有很长的非编码区，很可能一个EST的全部序列都来源于非编码区。如果该非编码区已经收录到数据库内，通过数据库搜索又能找到一个相似性程度叫高的匹配，那么这个EST很可能属于这个非编码区，因为非翻译区的序列通常相当保守。如果没有找到匹配序列，那就意味着两种可能。一种可能是该EST是一个CDS，而数据库内尚无它的同源序列。另一种可能则是该EST是一段数据库内没有收录的非编码序列。对EST搜索结果而言，最关键的就是确定究竟是这两种情况中的哪一种。

5.6 寻找基因的两种途径
最近几年，大量资金注入到与某些疾病相关的新基因的研究中来。目的是希望开发出一些新的治疗方法，借以攻克长期困扰人类的多种疑难疾病，如肺癌、气管炎以及神经衰弱等。而不论采用小分子药物设计，还是基因疗法等手段，寻找能反映合适分子靶点的蛋白质的工作主要有以下两种。

5.6.1 原位克隆
寻找疾病相关基因的第一步是原位克隆（Positional cloning）。首先，通过分析患有某种疾病的人群的遗传信息，将这一疾病定位到某一条或几条染色体上。当致病基因限定在染色体的一段区域（或称基因座locus）后，则可对这个区域及其附近的染色体测序，产生几百万碱基的DNA序列。这样一个基因座可能包含数十个不同基因，其中只有一个有可能与疾病相关。通过数据库搜索和基因预测可以提高在基因座上寻找目的基因的效率，但最终还得将其中几个基因表达，进而设计实验来验证究竟哪个基因与疾病相关。虽然这种方法寻找基因在理论上似乎可行，但找到的基因可能并不一定是好的药物靶点，不能直接用于临床治疗。必须指出，寻找新基因，特别是与疾病相关的新基因决不是一蹴而就的易事。

5.6.2 RNA转录分析
另一种寻找基因的方法涉及到的序列测定相对较少，主要依靠计算机搜索能力，研究正常与病变组织中实际表达的基因。通过对这两种状态的比较，经过一系列的推理过程以一种更直接的方式找到蛋白药物位点。这个方法分析的是mRNA，mRNA在细胞内作为模板来翻译蛋白质。

5.6.3 基因组信息的不同水平
人类基因组估计有30亿碱基对，是一个庞大复杂的序列。然而，其中只有3%的序列是编码序列，也就是可以转录进而翻译成蛋白质的那一部分序列。基因组其余部分的功能包括使染色体紧密缠绕压缩、细胞分裂时染色体复制、转录调控等。序列分析的很大一部分都集中在分析细胞转录/翻译产物上，如蛋白质序列及结构。近来，人们越来越强调对mRNA的研究，部分原因是现在可以利用概念翻译方法获得蛋白质序列。更重要的是，mRNA分子代表了某一特定细胞类型在一定生长阶段基因组的表达情况。因此，我们可以把基因组信息分为三个层次：

2                染色体基因组，或简称基因组 — 生物体内所有细胞中的遗传信息。

2                表达基因组，或转录基因组 — 细胞某个特定生长阶段中基因组中的表达部分。

2                蛋白质组 — 反映细胞特性和功能的所有蛋白质分子。

这是三种基本层次，当然还有其它层次，如代谢基因组（metabolome）。不同层次的分析，应使用不同工具，对分析结果的解释也有所不同。在基因组DNA中寻找内含子/外显子边界的工具如果用于mRNA数据，显然会给出错误结果。DNA、RNA、蛋白质三种水平上的序列可视化确实可以共享一些技术，但无论怎样，对结果的正确解释才是最重要的，成败的关键既需要找到适当的工具，还应充分理解不同数据分析时的细微差别。

5.7 细胞表达谱
很明显，基因组计划的一个目标是测出几种不同生物的基因组全序列。这项工作的一种方法是通过手工或自动测序技术对染色体进行大段的测序。第一个用这种方法完成全序列测定的真核生物染色体是线虫（Saccharomyces cerevisiae）的第三号染色体，这是1992年，在世界各国科学家共同努力下完成的。据预测，人类基因组测序工作将在2001年至2005年之间完成，鼠的基因组也将在稍后的2008年完成。

基因组全序列测定和搞清这些序列所代表的意义是彻底搞清一个基因组的两个不同层次的问题。基因组全序列测定所得结果，并不直接告诉我们哪部分是可以表达成蛋白质的编码区，哪部分是目前还不知道其确切功能的非编码序列。

我们不妨考察基因组内转录并最终翻译成蛋白质的编码序列。它们组成了一个特定细胞类型的表达基因组。不同功能的细胞或同一细胞在不同阶段，会有不同基因表达。这些特异表达的基因就是细胞的表达谱。找到细胞的表达谱，就能描绘出哪些基因的表达是正常的，哪些是不正常的，以及细胞内不同基因间的哪些表达是相互关联的。作为基因组测序计划补充的表达谱研究，为我们快速研究基因组提供了一种新的途径。

云贵浪子 · 发表于 2004-1-9 00:00:00

生物信息学概论--第五章 DNA序列分析3
5.8 cDNA文库和EST
表达谱研究的原理不很复杂。首先要找到合适的细胞样本。这一步通常最困难、最耗时。细胞来源不同，具体方法也不完全相同。然后，从细胞中提取RNA作为模板以生成cDNA，再将cDNA组建成一个适用于快速测序反应的文库，即cDNA文库。从文库中随机抽取一部分克隆作为样本，例如，从一个包含2百万个克隆的文库中取出1万个作为样本。一个典型的自动测序流程要求进行1万个测序反应，然后把反应结果送入自动测序仪。测序的结果输入计算机上作进一步分析。

测序结果的理想情况是得到1万个序列片段，每个序列含200到400个碱基，并且覆盖全部1万个克隆。但实际上有些测序反应会完全失败，有些没有产生足够的序列数据，有些则产生很多质量不高的数据。

EST就是通过这种方法产生的序列数据。EST的特性及使用EST数据时应注意的问题已在5.5节中作了讨论。

为了更可靠的处理EST数据，有必要对cDNA文库作一些统计学分析。cDNA文库中克隆的数量反映了从细胞中提取mRNA的效率。好的文库至少包括1百万个克隆，而且很可能更多。有些组织及细胞类型不好处理，生成的文库缺乏代表性，那些很有价值的组织及细胞类型尤其如此。一个细胞中实际表达的不同基因可能是几千个。不同细胞在数目上会有所出入，最复杂的人脑细胞最多可表达15000个不同基因，最简单的肠细胞则表达2000个基因。可见，我们拿到的是从一个有1百万个克隆的基因文库中提取出来的一小部分基因，即“表达基因组”。然后，从克隆中选取某个随机小样本进行测序，而不是使用大样本。当分析不同样本中基因表达数量差异时，两种取样方式在统计学上的意义必须搞清楚。

5.9 分析EST的不同方法
随着科学研究及商业开发的进展，人们开发了各种建立EST数据库的方法。本节将着重介绍其中三个主要的EST数据库。至于向公众公开的那些数据，通常都收录到EMBL和GenBank（dbEST）中的EST部分。

由于EST数据的质量普遍不高，许多EST数据提供者在发布EST之前都会将其数据进行严格筛选。TIGR在其文件中提供了这方面的详细信息（详见5.9.3）。

5.9.1 Merck/IMAGE
1994年Merck公司资助了华盛顿大学（University of Washington）的一个科研项目，从各种标准文库（Normalized Libraries）中测出30万条EST序列。选择标准文库的目的是尽可能覆盖更多的基因，但这也不可避免的导致了不同组织来源的基因在表达水平上大量信息的丢失。这些文库构成了一个涵盖范围很广、涉及不同组织类型的“数据源”，对不同领域的研究者都会有所帮助。其中一部分典型的文库请参见表5.4。一旦数据库中的某一条记录被识别出来，该记录对应的克隆就可以直接用于进一步的分子生物学实验，十分简捷方便。若干年来，Merck一直向一个药物相关的数据库建设项目投资；这个项目现在被称为Merck基因索引（Merck Gene Index）。至1997年5月为止，该数据索引总共向dbEST提供了4,844,421条EST序列。

表5.4 Merck公司和华盛顿大学的EST项目cDNA文库实例

5.9.2 Incyte
Incyte公司创建了一个数据库LifeSeq。该数据库收录了由标准cDNA文库测序得到的大量数据。其目的是将健康组织与病变组织基因转录的拷贝数进行比较，以帮助找出潜在的治疗位点。为找到健康组织与病变组织在基因表达上较为关键的差别，文库取样的规模尽量缩小，而不是采用大规模EST分析技术对每个可能的新基因进行搜索。Incyte对这个问题有自己的处理办法，但这方面的讨论就超出了本章的范畴。1998年4月，LifeSeq的规模达到了两百五十万条EST，分别代表8万到12万个不同基因。

Incyte的数据库是商业数据库，一些大型机构和组织购买了它的使用权。Incyte的这种做法当然是出于利益方面的考虑，这是“硅片生物”公司用基因组信息获取利润的最早例子。

5.9.3 TIGR
美国国家遗传研究所（The Institute for Genomic Research, 简称TIGR）是一个非盈利性的科研机构。主要从事基因组结构、功能以及基因组和基因产物比较分析研究，涉及的生物物种有病毒、真菌、病原菌、古细菌和高等真核生物，包括植物和动物。

TIGR人类基因索引
TIGR很重要的一项工作是人类基因索引（Human Gene Index, 简称HGI）。这个索引从全世界收集人类基因研究的成果，包括dbEST及GenBank中的数据。该数据索引的主要目的是为全部人类基因，包括它们的表达模式信息、在细胞中的定位、功能和进化关系提供一个更为精确的描述。HGI的数据全部都是免费的。

TIGR希望以最快的速度找出人类的全部基因。到目前为止，他们已经完成了从300多个cDNA文库中测出10万余个EST的工作，并从dbEST中收集数据，再利用序列拼接技术，把这些信息与非冗余的人转录序列（Human Transcript, HT）结合起来，产生人类一致序列草图（Tentative Human Consensus, THC）。

使用这种策略进行序列分析，关键在于预先处理好原始数据，尽可能把不属人类的DNA序列排除在外。比如，克隆载体是微生物，很可能测序时带有部分载体序列。这必然导致结果不准确，必须采取措施对载体加以标记，并在测序结果中把它们去掉。因此，在向数据索引添加数据时，EST必须经过质量检验以消除载体的干扰，同时还应除去多聚A、多聚T和多聚CT序列。最短的EST长度不能少于100bp，其中N的含量不能超过3%。从dbEST中提取的序列也要经过类似的加工过程。

人转录序列取自GenBank灵长类子数据库中的人类（Homo sapiens）部分，经过加工除去其非编码序列。人转录序列只收录数据库的cDNA及CDS序列，其它冗余的条目都不在收录范围内，但使用它们的编号作为链接。

TIGR拼接软件将经过处理的EST及非冗余的人转录序列分类组装成连续子（contig）。TIGR规定连续子是两个或两个以上的EST或人转录序列组成的一致序列。这些EST之间至少有40个碱基的重叠并且序列中95%以上的碱基是确定的，而不是N或其它为未确定的碱基。有的连续子可能是由来自不同组织的EST拼接而成，TIGR的表达基因分类数据库（Expressed Gene Anatomy Database, 简称EGAD）有EST的组织定位信息。

图5.5 TIGR人类基因索引数据库搜索结果

图中表示以部分鼠铁传递蛋白序列为查询序列对TIGR人类基因索引数据库（版本3.3，1998年3月）搜索结果。（a）图形显示方式，图中可以看到人类基因索引数据库中一些匹配的概括信息。图中的箭头表示连续子与查询序列匹配的方向，颜色则便于分辨不同的THC，并将它们分类，例如上面的蓝黑色箭头指的是THC168921。用于搜索的程序，如TBLASTN，也在图中进行了标示。（b）文本显示方式，其中的黑点代表THC与查询序列匹配上的部分，非匹配部分则被明确标出。在THC识别代码后是匹配的方向符——‘<’或‘>’；再后则是匹配的位置启始点。

图5.5表示一个鼠类铁传递蛋白(编号为P20233)在TIGR基因索引中的搜索结果。这里检测序列是一段多肽，搜索的是经过翻译的氨基酸序列数据库。搜索结果是以序列比对图形式输出，绘出所有与检测序列匹配的连续子及其匹配位置。检索结果与所用参数有一定关系。图中箭头有两种方向，有些连续子正向匹配，而有些则是逆向匹配。在氨基酸代码比对部分，匹配上的残基用句点“.”表示，不匹配的残基则列出相应的氨基酸代码。这种表现方式很直观，使用起来非常方便。很明显，许多连续子与检测序列有相似性，若干成组的连续子与检测序列的不同部分对应。但没有一个连续子的相似性程度特别高。这里还应该注意，连续子本身是核酸序列，搜索中使用的序列是通过概念翻译得到的。

TIGR在其网站上提供了若干种方便的服务，诸如数据检索，查找最近更新的数据注释信息，甚至可以通过American Type Culture Collection, ATCC订购克隆。还可通过匿名FTP下载TIGR完整的、最低冗余度的数据索引，数据是FastA格式的UNIX压缩文件。

5.10 EST数据对DNA数据库的影响
EST是不完整的数据，在某种程度来说也是不精确的数据。其主要意义在于可能找到某个EST与其它EST或数据库中已收录的更完整序列的匹配。现在，DNA数据库包含多种不同类型的数据资源，从全长CDS到基因组序列以及EST，人们不再认为增加几个EST数据将导致什么灾难性的后果。但是在当初，EST数据刚加入公共数据库时，许多人担心它们会影响这些数据库的质量，降低数据库的有效性。这种担忧可能是对分析这种新型数据的技术不太了解的缘故，也搀杂着一定程度的另外一种担心，认为EST方法是寻找完整基因组的另一条捷径，却难免产生大量错误，而完整基因组测序在人类基因组计划中已经有了成熟的研究方法。

抛开这个有点政治意味的话题，如果仅从数据的准确性这一点看，EST的确影响了数据库质量。但另一方面，EST能体现现有数据库中还没有收录的某些基因片段，不论编码部分还是非编码部分。从这一点上看，EST的确大大丰富了DNA序列数据库。

5.10.1 EST的分析工具
分析EST可用的工具有很多，有些只能通过商业手段得到，如Incyte的LifeTools，这里不对它们进行讨论。我们将讨论的是公开、共享的工具，它们分成三类。

2 序列同源性搜索工具

2 序列拼接工具

2 序列聚类工具

序列同源性搜索工具
第六章将对序列同源性搜索工具的理论进行详细讨论，这里我们只关心如何把这些工具用于EST。

实际上，许多同源性搜索软件都是为处理EST而设计的，用户可以根据实际需要，对搜索序列自身或被搜索的数据库进行加工处理。例如BLAST软件包括了多个程序，可分别用来将DNA数据库翻译为蛋白质数据库（TBLASTN），将输入的DNA序列翻译为蛋白质序列（BLASTX），或两者都翻译之后再比对（TBLASTX）。使用时请注意程序的版本，因为不同版本的软件，起名称可能不同。多种软件的存在就为EST数据搜索提供了多种选择余地，以适应各种具体要求。FastA软件同样也有类似的功能。

序列拼接工具
当搜索中发现有几个EST与一个检测序列匹配时，通常这些EST序列之间存在着重叠区域，这就以为着找到了一段一致序列（见第七7章）。一般说来，一致序列还要作进一步的搜索以找到更多的EST，以增加其准确性。这种反复的序列比较拼接就是序列拼接方法。现在已经有许多怀念好的拼接工具，如Staden软件包，TIGR软件包，Phrap等。

序列聚类分析工具
序列聚类分析工具是对序列分类的一种软件。如果不同序列之间有一段重叠序列，并且超过了规定的最小长度，这两段序列就应该能拼接到一起。对未加工的大量序列进行聚类分析，就是将大量序列通过比对或其他注释信息分成各个集合，或称各个“类”。一个可信并且有效的EST聚类机制能够大大减少数据库中的冗余信息，节省数据搜索的时间和分析结果的工作量。尤其当拿到大量EST之后，要找出这套序列包含多少个不同基因时，聚类工具就显得更为有价值了。图5.6对EST聚类工具的应用作了简要描述。

图5.6 Clustering EST库

将一个小的EST库进行聚类，分为四个集合，A-D：集合A包括三个含有短重叠区的成员，其中两个为正链EST序列，一个为负链EST序列。集合B包括两个大部分重叠的正链EST序列。集合C包括四个成员，两个正链EST序列之间没有重叠区，但与两个负链EST序列有重叠区，其中2号正链序列与两个负链EST序列的重叠区完全重叠。集合D只含有一个EST序列，因此不与库中其它任意EST序列具有明显相似性。这里所讲的正链和反链是相对的，其真实含义只能通过数据库比对来确定。

聚类的一种办法是用已知基因来区分EST。在大规模的DNA及蛋白质序列数据库中对EST进行搜索，搜索结果中显示出相互关联的EST被分成一类，经常被称为桶（buckets），用以代表一个基因。使用这种办法一般都会发现一些与数据库中任何一段序列都不匹配的EST。典型情况是一个文库中的EST在与数据库比对之后还有大约40%的EST没有任何匹配，这个值将随着基因组计划的进展，数据库信息的不断丰富而有所降低。但所有这些剩下的序列只能通过图5.6所示的寻找重叠区域来聚类了。

另一种方法是首先对所有的EST数据聚类，产生可以代表每个类的一致序列，然后用生成的一致序列对数据库搜索。这是种十分理想的解决方案，因为同源性搜索的工作量由此大大减少。但是，这种方法成功与否要看EST聚类也就是一致序列的可靠性是否足够高，而这个可靠性又是由EST数据的质量决定的。

图5.7 利用EST基因序列进行分析

（a）图中显示三组EST以及一条收录进数据库中的不完整的基因序列。其中A和B组与该基因的数据库中部分能够匹配，C组则可与该基因的数据库外部分匹配。（b）D和E可以与一个相同的基因匹配，但此基因序列并没有被测定和收录到库中。

估计一个EST数据集可以代表的基因的数目，是一个比较复杂的问题，因为并非所有未匹配上的EST都代表不同基因。这里有两种可能，一种可能是一个类（图5.7a中的C）与某一个基因中还没有收录到数据库中的部分相互匹配，而另两类EST（图中A和B）与该基因收录到数据库中的那一段有匹配。例如数据库中大多数条目的3'非翻译区一般是不完整的，或一个在其注释中被声明为完整基因的条目实际上只是该基因的一个片段。这种情况下，如果将不匹配的EST类都认为是不同的基因，就会导致基因数目估计的偏高。第二种可能是有两个或更多个不匹配的EST类属于同一个基因（图5.7b），只不过分别与该基因的不同部分匹配，如果还是把所有不匹配的类都视为不同基因，也会导致基因数目估计偏高。

5.11 EST分析实例
在这个例子中，我们从dbEST数据库里收录的EST入手，提出这样一个问题：“已知人氧化环化酶-1（COX-1）及氧化环化酶-2（COX-2）的序列，从数据库中查找有没有该氧化环化酶家族的其它成员？”在药物设计中提出这个问题可能是因为一些非类脂醇类的消炎药（Non-steroidal anti-inflammatory drug, NSAID）会导致胃部及其它器官的不适，例如阿司匹林。个别情况下，长期服用会产生副作用。这是由于NSAID影响了氧化环化酶的正常工作，氧化环化酶存在于胃黏膜中。进一步的研究发现有两种氧化环化酶，COX-1起到保护胃黏膜的作用，COX-2与身体发炎等生理反应有关。这必然使人们试图寻找一种新药，能够选择性的抑制其中一个酶而不影响另一个。如果找到了氧化环化酶家族的第三个成员COX-3，就找到了一个潜在的治疗方式，因为将药物作用到COX-3上从而避免影响COX-1是比较容易实现的。

为寻找COX-3，我们可以先把COX-1及COX-2的序列放在一起，分别对序列数据库GenBank和EST数据库进行搜索。一般新测序得到的EST数据得到期望预期结果的可能性较大，而完整序列在提交到数据库之前，作者通常会对这段序列进行一番研究，并将研究结果写到数据库的注释部分。这里不妨先用COX-3这个名词或类似的关键词对注释信息检索，看COX-3是否已经被克隆并收录到数据库中。图5.8是这个方案的流程图。

图5.8 预测某一基因家族新成员的流程图

图5.9是人类COX-1和COX-2的序列比对结果。在分析数据库搜索结果之前，有必要搞清楚这两个序列哪些部分是相同的，哪些部分不相同但是相似，并且要留意文献或数据库中对这些部分是如何描述的。如果有足够数据的话，还应该作一个多序列比对（多序列比对的详细内容请参见第七章）。

图5.9 人类环加氧酶-1和环加氧酶-2序列的部分双重比对结果

为了方便起见，比对的中间部分结果被省略，用“…”代替。该结果是使用基于Needleman 和Wunsch算法的动态规划方法得到的。在比对过程中，进了插入序列扩展参数，以便在检测序列或目标序列中引入空位，表示插入或删除。比对过程中，匹配上的碱基用“*”表示，相似的碱基用“:”表示（相似性是根据BLOSUM62矩阵得来的）。从图中可以看出，两条序列的大部分是具有相似性的，而大部分的插入和删除序列位于N末端和C末端。

按照图5.8所绘的方案一步一步操作，如果没有找到关于COX-3的记录，在GenBank的完整序列中也没有发现匹配，此时只好转向EST搜索了。进行EST搜索时，可以先将目标数据库限定为人类的EST。只有当人类EST搜索不能得到理想结果时，才应该考虑其它物种。例如在鼠的数据库中找到了COX-3，那么在人体内就很有可能也存在着COX-3，因为人基因组与鼠基因组有极高的相似性。当然，这样一来，由于物种间基因序列的差异，寻找家族新成员的工作将变的更为复杂。
图5.10 与人类环加氧酶-1匹配的人类EST序列
图5.11 人类EST序列与人类环加氧酶-1和环加氧酶-2比对结果

图5.10所示为人的EST数据库中找到的一个很好的匹配。除了起始处的两个氨基酸残基外，其余全部相同，检测序列是Pro-Gly，目标序列是Leu-Val。这两个残基的差别是否重要，需要考虑以下几个问题。首先，COX-1及COX-2之间相同或相似部分出现在什么位置。图5.9表明，在这个位置上，序列是相似而不是相同的。从EST数据库中调出的序列很可能与检测序列完全相同。其次，差别出现的部位也值得注意，尤其当出现在EST起始部位时，因为EST测序时两端的质量都偏低，通常将其除去，EST起始处出现差别有可能是这些低质量的序列没有清除干净。此外，在这个例子里，一个碱基的变化就会导致一个位点的差异，例如Pro被Leu代替，可以推测C被T置换；Gly被Val代替，可以推测G被T置换（参见表5.1遗传密码表）。

确实存在基因家族的新成员只与该家族的一个成员有极高相似性的可能，但通常情况下，找到的新成员会与家族中的所有已知成员具有大体相同的相似性。如果发现一个EST只与一个成员有较高相似性，那么它很可能是一种多态形式，对这个匹配，就可以不再理会了。还有一种情况，找到的序列第一眼看上去很有希望，但最终发现它不过是一个COX-2的同源EST，如图5.11所示。

很明显，寻找基因家族新成员的工作并不简单，而且我们在上文提到的仅仅是一点皮毛。想要对这项工作有一个全面系统的了解并能熟练操作，唯一的办法是通过大量的实际操作。

5.12 本章小结
2 针对蛋白质功能的序列比对应该在蛋白质水平而不是DNA水平上进行。但是，通过分析DNA来发现进化过程中的遗传事件同样很重要，蛋白质是DNA水平上所发生的遗传事件在功能上的反映。

2 DNA序列数据库收录有各种水平的基因组序列数据，诸如非翻译序列、内含子、外显子、mRNA、cDNA和翻译序列。因此，这些数据的处理手段应该有所区别，分析搜索结果的方法也应该有时不同。

2 在DNA中寻找蛋白质编码序列是有规律可以遵循的：足够长的ORF；鉴定出边缘处的Kozak序列、偏爱密码子的使用情况、遗传密码的第3位碱基，以及起始密码子上游的核糖体结合位点等。

2 很难在一次反应中将一个完整编码序列完全测序，所以要依靠重叠片段进行多序列比对和拼接。一致序列中多个测序结果覆盖的区域有较高的可信度。

2 DNA数据库中最大的一部分是表达序列标签EST。EST的产生过程是高度自动化的，所以必须有良好的质量监控机制。模糊碱基或碱基缺失等错误会给数据的进一步处理和应用带来不少麻烦。

2 针对不同水平的数据，如染色体基因组，表达基因组和蛋白质组等，要使用不同的分析工具及分析技巧。

2 随着科研及商业开发的进展，出现了多种产生EST数据的cDNA文库构建方式。三个主要的EST信息资源是Merck/IMAGE, Incyte及TIGR。

2 分析EST可用的工具有：序列搜索工具、序列拼接工具、序列聚类工具。

5.13 参考读物
BROWN, T.A. (1994) DNA Sequencing. IRL Press, Oxford.

KOZAL, M. (1991) Structural features in eukaryotic mRNAs that modulate the initiation of translatin, Journal of Biological Chemistry, 266(30), 19867-19870.

SHARP, P.A. (1994) Split genes and RNA splicing. Cell, 77, 805-815

		自动登录	找回密码
密码			注册

入门教材之一：生物信息学概论！！！

浏览过的版块