基因系统进化分析(系统进化树构建)
最近翻老帖的时候在健康卫生 的 生命科学 版面发表的一篇标题为 做基因的系统进化分析应该注意些什么? 的帖子。发表时间是在2007年11月,版面锁定不能回帖,就到这里发个主题帖,希望能对原帖作者有点启发。要是不合适,与本版风格不相同,还请多多多包涵16S rRNA基因序列目前是国际上用于原核生物的系统发育分析最主流的分析方法,我等今年被SCI期刊IJSEM录用的两篇文章也是做了这方面的分析。
这个工具真的很重要,下面就让我来介绍一下如何进行基因系统进化分析(构建系统进化树)的具体步骤,和大家共同学习,交流。
第一部分:构建系统进化树之前的准备工作
第一步:16S rRNA基因序列PCR扩增及序列测定(可以找本基因工程方面的基础读物了解一下,在此不做介绍),通过测序得到基因序列,以微生物Salinicoccus roseus DSM 5351T为例,得到如下的基因序列。AGAGTTTGATCCTGGCTCAGGATGAACGCTGGCGGCGTGCCTAATACATGCAAGTCGAACGCGCGGATCAGGAGCTTGCTCCTGTGACGCGAGTGGCGGACGGGTGAGTAACACGTAGGCAACCTGCCCATCAGACTGGGATAACCACGGGAAACCGTGGCTAATACCGGATAACCCTTTTCCACACAGGTGGAAAAGTTGAAAGGCGGCTTCGGCTGTCACTGATGGATGGGCCTGCGGCGCATTAGCTGGTTGGTGGGGTAACGGCCCACCAAGGCGACGATGCGTAGCCGACCTGAGAGGGTGATCGGCCACACTGGGACTGAGACACGGCCCAGACTCCTACGGGAGGCAGCAGTAGGGAATCTTCCGCAATGGACGAAAGTCTGACGGAGCAACGCCGCGTGAGTGAAGAAGGGTTTCGGCTCGTAAAACTCTGTTGTCAGGGAAGAACGCCGACGGGAGTAACTGCCCGTCGGGTGACGGTACCTGACCAGAAAGCCACGGCTAACTACGTGCCAGCAGCCGCGGTAATACGTAGGTGGCAAGCGTTATCCGGAATTATTGGGCGTAAAGCGCGCGTAGGCGGTTCGTTAAGTCTGATGTGAAAGCCCCCGGCTCAACCGGGGAGGGTCATTGGAAACTGGCGGACTTGAGTGCAGAAGAGGAGAGTGGAATTCCATGTGTAGCGGTGAAATGCGCAGAGATATGGAGGAACACCAGTGGCGAAGGCGGCTCTCTGGTCTGCAACTGACGCTGAGGTGCGAAAGCGTGGGGATCAAACAGGATTAGATACCCTGGTAGTCCACGCCGTAAACGATGAGTGCTAAGTGTTAGGGGGTTTCCGCCCCTTAGTGCTGCAGCTAACGCATTAAGCACTCCGCCTGGGGAGTACGGCCGCAAGGTTGAAACTCAAAGGAATTGACGGGGACCCGCACAAGCGGTGGAGCATGTGGTTTAATTCGAAGCAAGGCGAAGAACCTTACCAAATCTTGACATCCTCTGACCACCCTGGAGACAGGGTTTCCTTCGGGGCAGAGTGACAGGTGGTGCATGGTTGTCGTCAGCTCGTGTCGTGAGATGTTGGGTTAAGTCCCGCAACGAGCGCAACCCTTATCATTAGTTGCCAGCATTCAGTTGGGCACTCTAATGAGACTGCCGGTGACAAACCGGAGGAAGGTGGGGATGACGTCAAATCATCATGCCCCTTATGATTTGGGCTACACACGTGCTACAATGGACAGGTACAAAGGGCAGCTAAGCCGCGAGGCCAAGCGAATCCCATAAAACTGTTCTCAGTTCGGATTGGAGTCTGCAACTCGACTCCATGAAGCTGGAATCGCTAGTAATCGTGGATCAGAATGCCACGGTGAATACGTTCCCGGGTCTTGTACACACCGCCCGTCACACCACGAAAGTCGGTAACACCTGAAGCCGGTGGGCCAACCTCTTGGAGGCAGCCGTCGAAGGTGGGACCGATGATTGGGGTGAAGTCGTAACAAGGTA
第二步:有了基因序列,就要开始搜寻在进化关系比较接近的基因序列。BLAST是目前常用的核酸数据库搜索工具,它是Basic Local Alignment Search Tool的缩写,意为“基本局部相似性比对搜索工具”。BLAST算法的基本思路是首先找出检测序列和目标序列之间相似性程度最高的片段,并作为内核向两端延伸,以找出尽可能长的相似序列片段。面前国际上著名的基因数据库有CBI、NCBI、EBI、DDBJ,大都提供BLAST服务,用法基本上都差不多。不过搞科学研究就好比学武术,看个人习惯,不一定主流的就好,下面介绍一个个人认为比较顺手的数据库(韩国),EzTaxon Server version 2.1。
注册个账号进入// home/ analysis / identify,看到如下的画面。
把我们的Salinicoccus roseus基因序列以FASTA 格式粘贴进去,提交内容。得到与Salinicoccus roseus进化关系较近的基因序列,全部以FASTA 格式保存到txt文本备用。
第二部分:构建系统进化树
第一步:调取相关序列(为了简单,只选择前40株菌画树)
用Clustalx软件调出FASTA文本,File-Load sequences ,出现下面的界面。
按如下步骤操作:
Alignment Output format options
参数设置CLUSTALW sequence numbers: ON/点击“CLOSE”关闭窗口
Alignment Do complete alignment
等待输出结果……
第二步:多重序列比对
比对结果输出后,要对结果进行修饰,将前后没有对齐的序列剪切掉。
File Save Sequence as…(输入保存路径,保存文件格式为*.aln)
Save from residue to (以前后最短序列为准)
Save sequence as (输入保存路径,保存文件格式为*.aln)
命好名
点击“OK”保存文件。
第三步:格式转化
用BioEdit软件将多重比对后的*.aln文件转为FASTA格式。*.aln文件打开后,点击File另存文件时选择保存类型为Fasta(*.fas,*fst,*fsa)。
第四步:用Mega构建进化树
运行Mega程序,将上步生成的FASTA文件转为mega格式并激活目标文件。
1 File-Convert To MEGA Format,找到相应的文件“.fas”,打开,点击“OK”,关闭Text Editor窗口,此时软件提示:“Do you want to save your changes before closing?”选择“Yes”回到主窗口。
2 点击 Click me to activate a data file,激活“.meg”,直接点“OK”,软件提示:“Protein-coding nucleotide sequence data?”选择NO.
3 Phylogeny-Neighbor-Joining(NJ)
软件会为你构建出一个系统进化树来,如下图。
剩下的工作就是修改进化树的格式和相关的参数了。
最终效果图如下(加粗的是我们的Salinicoccus roseus,带T的为典型菌株,进化关系从图中一目了然。):
在基因系统分析中有一个约定俗成的规定就是:认为当16S rRNA的序列同源性≥97%可认为是一个种;16S rRNA的序列同源性≥95%的种可归为一个属。
由于时间和精力有限,不可能把细节都讲出来,有需要和帮助的朋友可以PM或者邮箱hejsu@yahoo.cn联系我,进行深入的交流。
沙发听课。 引用第1楼josephe于2010-02-26 18:05发表的 :
沙发听课。
感谢支持,多提宝贵意见。 恭喜恭喜哈,马上成为砖家了哈。8错8错。
建议修改一下,发到学术妙笔区,这样今天原创达人,明天就是学士达人啦。 引用第3楼josephe于2010-02-26 20:21发表的 :
恭喜恭喜哈,马上成为砖家了哈。8错8错。
建议修改一下,发到学术妙笔区,这样今天原创达人,明天就是学士达人啦。
岂敢,岂敢。
这也就是一些方法上的东西,没有我自己的见解,怎么能称得上妙笔呢。
页:
[1]