如何做系统进化树

大家好：

我在此介绍几个进化树分析及其相关软件的使用和应用范围。这几个软件分别是PHYLIP、PUZZLE、PAUP、TREEVIEW、CLUSTALX和PHYLO-WIN （LINUX）。

在介绍软件之前，我先简要地叙述一下有关进化树分析的一些方法学问题。进化树也称种系树，英文名叫“Phyligenetic tree”。对于一个完整的进化树分析需要以下几个步骤：⑴要对所分析的多序列目标进行排列（To align sequences）。做ALIGNMENT的软件很多，最经常使用的有CLUSTALX和CLUSTALW，前者是在WINDOW下的而后者是在DOS下的。⑵要构建一个进化树（To reconstrut phyligenetic tree）。构建进化树的算法主要分为两类：独立元素法（discrete character methods）和距离依靠法（distance methods）。所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的（例如：一个序列上可能包含很多的酶切位点，而每个酶切位点的存在与否是由几个碱基的状态决定的，也就是说一个序列碱基的状态决定着它的酶切位点状态，当多个序列进行进化树分析时，进化树的拓扑形状也就由这些碱基的状态决定了）。而距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。进化树枝条的长度代表着进化距离。独立元素法包括最大简约性法（Maximum Parsimony methods）和最大可能性法（Maximum Likelihood methods）；距离依靠法包括除权配对法（UPGMAM）和邻位相连法（Neighbor-joining）。⑶对进化树进行评估。主要采用Bootstraping法。进化树的构建是一个统计学问题。我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。如果我们采用了一个适当的方法，那么所构建的进化树就会接近真实的“进化树”。模拟的进化树需要一种数学方法来对其进行评估。不同的算法有不同的适用目标。一般来说，最大简约性法适用于符合以下条件的多序列：i 所要比较的序列的碱基差别小，ii 对于序列上的每一个碱基有近似相等的变异率，iii 没有过多的颠换/转换的倾向，iv 所检验的序列的碱基数目较多（大于几千个碱基）；用最大可能性法分析序列则不需以上的诸多条件，但是此种方法计算极其耗时。如果分析的序列较多，有可能要花上几天的时间才能计算完毕。UPGMAM（Unweighted pair group method with arithmetic mean）假设在进化过程中所有核苷酸/氨基酸都有相同的变异率，也就

是存在着一个分子钟。这种算法得到的进化树相对来说不是很准确，现在已经很少使用。邻位相连法是一个经常被使用的算法，它构建的进化树相对准确，而且计算快捷。其缺点是序列上的所有位点都被同等对待，而且，所分析的序列的进化距离不能太大。另外，需要特别指出的是对于一些特定多序列对象来说可能没有任何一个现存算法非常适合它。最好是我们来发展一个更好的算法来解决它。但无疑这是非常难的。我想如果有人能建立这样一个算法的话，那他（她）完全可以在https://www.360docs.net/doc/0216972775.html,A.上发一篇高质量的文章。

下面介绍几个软件的使用。首先是PHYLIP。其是多个软件的压缩包，下载后双击则自动解压。当你解压后就挥发现PHYLIP的功能极其强大，主要包括五个方面的功能软件：i，DNA和蛋白质序列数据的分析软件。ii，序列数据转变成距离数据后，对距离数据分析的软件。iii，对基因频率和连续的元素分析的软件。iv，把序列的每个碱基/氨基酸独立看待（碱基/氨基酸只有0和1的状态）时，对序列进行分析的软件。v，按照DOLLO简约性算法对序列进行分析的软件。vi，绘制和修改进化树的软件。在此，我主要对前两种功能软件进行说明。

我们现在有几个序列如下：

Mo3 A TGTA TTTCGTACA TTACTGCCAGCCACCA TGAA TA TTGCACGGTACCA T

Mo5 A TGTA TTTCGTACA TTACTGCCAGCCACCA TGAA TA TTGTACGGTACCA T

Mo6 A TGTA TTTCGTACA TTACTGCCAGCCACCA TGAA TA TTGTACGGTACCA T

Mo7 A TGTA TTTCGTACA TTACTGCCAGCCACCA TGAA TA TTGTACAGTACCA T

Mo8 A TGTA TTTCGTACA TTACTGCCAGCCACCA TGAA TA TTGTACAGTACCA T

Mo9 A TGTA TCTCGTACA TTACTGCCAGCCACCA TGAA TA TTGTACGGTACCA T

Mo12 A TGTA TTTCGTACA TTACTG CCAGCCACCA TGAA TA TTGTACGGTACCA T

Mo13 A TGTA TCTCGTACA TTACTGCCAGCCACCA TGAA TA TTGTACGGTACCA T

要对这8个序列进行进化树分析，按照上面的步骤，首先用CLUSTALX排列序列，输出格式为*.PHY。用记事本打开如下图：

图中的8和50分别表示8个序列和每个序列有50个碱基。然后，打开软件

SEQBOOT，如下图：

按路径输入刚才生成的*.PHY文件，并在Random number seed (must be odd) ?的下面输入一个4N+1的数字后，屏幕显示如下：

图中的D、J、R、I、O、1、2代表可选择的选项，键入这些字母，程序的条件就会发生改变。D选项无须改变。J选项有三种条件可以选择，分别是Bootstrap、

Jackknife和Permute。文章上面提到用Bootstraping法对进化树进行评估，所谓Bootstraping法就是从整个序列的碱基（氨基酸）中任意选取一半，剩下的一半序列随机补齐组成一个新的序列。这样，一个序列就可以变成了许多序列。一个多序列组也就可以变成许多个多序列组。根据某种算法（最大简约性法、最大可能性法、除权配对法或邻位相连法）每个多序列组都可以生成一个进化树。将生成的许多进化树进行比较，按照多数规则（majority-rule）我们就会得到一个最“逼真”的进化树。Jackknife则是另外一种随机选取序列的方法。它与Bootstrap 法的区别是不将剩下的一半序列补齐，只生成一个缩短了一半的新序列。Permute 是另外一种取样方法，其目的与Bootstrap和Jackknife法不同，这里不再介绍。R选项让使用者输入republicate的数目。所谓republicate就是用Bootstrap法生成的一个多序列组。根据多序列中所含的序列的数目的不同可以选取不同的republicate。当我们设置好条件后，键入Y按回车。得到一个文件outfile Outfile用记事本打开如下：

这个文件包括了100个republicate。

打开DNAPARS（最大简约性法）或DNAML（最大可能性法）软件。将刚才生成的outfile文件更名后输入。如下图：

选项O是让使用者设定一个序列作为outgroup。一般选择一个亲缘关系与所分析序列组很接近的序列作为outgroup（本例子不选outgroup），outgroup选择的好坏将直接影响到最后的进化树的好坏。选项M是输入刚才设置的republicate的数目。设置好条件后，键入Y按回车。生成两个文件outfile和treefile。

Outfile打开如下图：

该文件包括了227个进化树。Treefile可以用TREEVIEW软件打开同样包含了这227个进化树。

打开CONSENSE软件，将刚才生成的treefile文件更名后输入。如下图：

键入Y按回车。生成两个文件outfile和treefile。Treefile用TREEVIEW打开，如下图：

Outfile打开如下图：

我们看出两个树是同样的。但在outfile的树上的数字表示该枝条的Bootstrap支持率（除以100.6）。到现在，8个序列的进化树分析（最大简约法）已经完成。如果要用邻位相连法对这8个序列进行分析的话，也首先执行SEQBOOT软件将这8个序列变成100个republicate。然后，打开DNADIST软件，把SEQBOOT 生成的文件输入，如下图：

选项D有四种距离模式可以选择，分别是Kimura 2-parameter、Jin/Nei、Maximum-likelihood和Jukes-Cantor。选项T一般键入一个15-30之间的数字。选项M键入100。运行后生成文件如下图：

这个文件包含了与输入文件相同的100个republicate，只不过每个republicate是以两两序列的进化距离来表示。文件中的每个republicate都省略了第一排的Mo3 Mo5 Mo6 Mo7 Mo8 Mo9 Mo12 Mo13。以这个输出文件为输入文件，执行NEIGHBOR软件。如下图：

选项M键入100。生成两个文件outfile和treefile用记事本和TREEVIEW打开后，发现这两个文件都含有100个进化树。再将treefile文件更名后输入

CONSENSE软件，又得到两个文件outfile和treefile，这就是最后的结果。以上是对DNA序列的分析，如果要对蛋白质序列进行分析，PROTDIST、PROTPARS 等软件。其他软件的用法可以参照PHYLIP的documents。

下面介绍PUZZLE软件。它是用最大可能性的方法来构建进化树的一个软件，并且对树进行bootstrap评估。该软件搜寻进化树时用的算法是quartet puzzling，这个算法相对较快，但如要分析的序列较多时，也相当耗时。另有LINUX版，运行起来相对较快。PUZZLE的输入格式为PHYLIP INTERLEAVED。CLUSTAL可以生成此格式文件。PUZZLE的界面与PHYLIP类似，也是MS-DOS 下的软件。

PHYLO-WIN是LINUX下的一个软件。界面友好，极易操作。该界面如下图：

Puzzle: http//:www.tree-puzzle.de

Phylo-win: http//:www.evolution.bmc.uu.se

Phylip、Treeview and Clustalx: http//:https://www.360docs.net/doc/0216972775.html,

更多资料请访问：

https://www.360docs.net/doc/0216972775.html,

基因时代（https://www.360docs.net/doc/0216972775.html,)，是一个全新的生物医药网站，致力于为生物医学工作者提供前沿的生物医学研究进展，提供一系列生物医学实验技术解决方案以及文献检索，论文写作相关经验技巧。同时基因时代也为各生物企业提供了一个产品展示，信息发布的平台，以其与各生物企业一道共同推动中国生物产业的进一步发展。

构建系统发育树需要注意的几个问题

构建系统发育树需要注意的几个问题 1 相似与同源的区别：只有当序列是从一个祖先进化分歧而来时，它们才是同源的。 2 序列和片段可能会彼此相似，但是有些相似却不是因为进化关系或者生物学功能相近的缘故，序列组成特异或者含有片段重复也许是最明显的例子；再就是非特异性序列相似。 3 系统发育树法：物种间的相似性和差异性可以被用来推断进化关系。 4 自然界中的分类系统是武断的，也就是说，没有一个标准的差异衡量方法来定义种、属、科或者目。 5 枝长可以用来表示类间的真实进化距离。 6 重要的是理解系统发育分析中的计算能力的限制。任何构树的实验目的基本上就是从许多不正确的树中挑选正确的树。 7 没有一种方法能够保证一颗系统发育树一定代表了真实进化途径。然而，有些方法可以检测系统发育树检测的可靠性。第一，如果用不同方法构建树能得到同样的结果，这可以很好的证明该树是可信的；第二，数据可以被重新取样(bootstrap)，来检测他们统计上的重要性。分子进化研究的基本方法对于进化研究，主要通过构建系统发育过程有助于通过物种间隐含的种系关系揭示进化动力的实质。表型的(phenetic)和遗传的(cladistic)数据有着明显差异。Sneath和Sokal(1973)将表型性关系定义为根据物体一组表型性状所获得的相似性，而遗传性关系含有祖先的信息，因而可用于研究进化的途径。这两种关系可用于系统进化树(phylogenetictree)或树状图(dendrogram)来表示。表型分枝图(phenogram)和进化分枝图(cladogram)两个术语已用于表示分别根据表型性的和遗传性的关系所建立的关系树。进化分枝图可以显示事件或类群间的进化时间，而表型分枝图则不需要时间概念。文献中，更多地是使用“系统进化树”一词来表示进化的途径，另外还有系统发育树、物种树(species tree)、基因树等等一些相同或含义略有差异的名称。系统进化树分有根(rooted)和无根(unrooted)树。有根树反映了树上物种或基

如何做系统进化树

大家好：我在此介绍几个进化树分析及其相关软件的使用和应用范围。这几个软件分别是PHYLIP、PUZZLE、PAUP、TREEVIEW、CLUSTALX和PHYLO-WIN （LINUX）。在介绍软件之前，我先简要地叙述一下有关进化树分析的一些方法学问题。进化树也称种系树，英文名叫“Phyligenetic tree”。对于一个完整的进化树分析需要以下几个步骤：⑴要对所分析的多序列目标进行排列（To align sequences）。做ALIGNMENT的软件很多，最经常使用的有CLUSTALX和CLUSTALW，前者是在WINDOW下的而后者是在DOS下的。⑵要构建一个进化树（To reconstrut phyligenetic tree）。构建进化树的算法主要分为两类：独立元素法（discrete character methods）和距离依靠法（distance methods）。所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的（例如：一个序列上可能包含很多的酶切位点，而每个酶切位点的存在与否是由几个碱基的状态决定的，也就是说一个序列碱基的状态决定着它的酶切位点状态，当多个序列进行进化树分析时，进化树的拓扑形状也就由这些碱基的状态决定了）。而距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。进化树枝条的长度代表着进化距离。独立元素法包括最大简约性法（Maximum Parsimony methods）和最大可能性法（Maximum Likelihood methods）；距离依靠法包括除权配对法（UPGMAM）和邻位相连法（Neighbor-joining）。⑶对进化树进行评估。主要采用Bootstraping法。进化树的构建是一个统计学问题。我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。如果我们采用了一个适当的方法，那么所构建的进化树就会接近真实的“进化树”。模拟的进化树需要一种数学方法来对其进行评估。不同的算法有不同的适用目标。一般来说，最大简约性法适用于符合以下条件的多序列：i 所要比较的序列的碱基差别小，ii 对于序列上的每一个碱基有近似相等的变异率，iii 没有过多的颠换/转换的倾向，iv 所检验的序列的碱基数目较多（大于几千个碱基）；用最大可能性法分析序列则不需以上的诸多条件，但是此种方法计算极其耗时。如果分析的序列较多，有可能要花上几天的时间才能计算完毕。UPGMAM（Unweighted pair group method with arithmetic mean）假设在进化过程中所有核苷酸/氨基酸都有相同的变异率，也就

乳酸菌系统进化树

Lactobacillus.plantarum 204Lactobacillus.pentosus Lactobacillus.paraplantarum 575Lactobacillus.collinoides Lactobacillus.brevis Lactobacillus.farciminis Lactobacillus.alimentarius Lactobacillus.paralimentarius Lactobacillus.kimchii Lactobacillus.sanfranciscensis Lactobacillus.lindneri Lactobacillus.fructivorans Lactobacillus.hilgardii Lactobacillus.parakefiri Lactobacillus.buchneri Lactobacillus.parabuchneri Lactobacillus.kefiri Lactobacillus.kunkeei P.selangorensis Lactobacillus.perolens Lactobacillus.algidus Lactobacillus.mali Lactobacillus.nagelii Lactobacillus.murinus Lactobacillus.animalis Lactobacillus.ruminus Lactobacillus.equi Lactobacillus.agilis Lactobacillus.cypricasei Lactobacillus.acidipiscis Lactobacillus.salivarius Lactobacillus.salicinius Lactobacillus.aviarius Lactobacillus.araffinosus Lactobacillus.coryniformis Lactobacillus.bifermentans Lactobacillus.sakei Lactobacillus.curvatus Lactobacillus.sharpeae Lactobacillus.manihotivorans Lactobacillus.rhamnosus Lactobacillus.zeae Lactobacillus.casei Lactobacillus.panis Lactobacillus.frumenti Lactobacillus.oris Lactobacillus.vaginalis Lactobacillus.pontis Lactobacillus.reuteri Lactobacillus.colehominis Lactobacillus.mucosae Lactobacillus.fermentum Lactobacillus.amylophilus Lactobacillus.johnsonii Lactobacillus.gasseri Lactobacillus.iners Lactobacillus.jensenii Lactobacillus.fornicalis Lactobacillus.psittaci https://www.360docs.net/doc/0216972775.html,ctis Lactobacillus.delbrueckii Lactobacillus.bulgaricus Lactobacillus.acetotolerans Lactobacillus.hamsteri Lactobacillus.amylolyticus Lactobacillus.intestinalis Lactobacillus.gallinarum Lactobacillus.helveticus Lactobacillus.acidophilus Lactobacillus.crispatus Lactobacillus.amylovorus Lactobacillus.fructosus B.subtilis 99579999 99 704924 98 90 79 999999859996949999 9955 99 85746473999985 999445 404332 67 89 7599 998475999972 6599 5799 52 4798 92 97 91853836481621 59 49 3943 358829 37 12 16 0.01

运用mega5构建系统发生进化树.

1．准备序列文件准备fasta格式序列文件（fasta格式：大于号>后紧跟序列名，换行后是序列。举例如下）。每条序列可以单独为一个文件，也可以把所有序列放在同一文件内。核酸序列： >sequence1_name CCTGGCTCAGGATGAACGCT 氨基酸序列： >sequence2_name MQSPINSFKKALAEGRTQIGF 2．多序列比对打开MEGA 5，点击Align，选择Edit/Build Alignment，选择Create a new alignment，点击OK。

这时需要选择序列类型，核酸（DNA）或氨基酸（Protein）。选择之后，在弹出的窗口中直接Ctrl + V粘贴序列（如果所有序列在同一个文件中，即可全选序列，复制）。也可以：点击Edit，选择Insert Sequence From File，选择序列文件（可多选）。

序列文件加载之后，呈蓝色背景（为选中状态）。点击按钮，选择Align DNA （如果是氨基酸序列，则会出现Align Protein）。弹出的窗口中设置比对参数，一般都是采用默认参数即可。点击OK，开始多序列比对。

比对完成后，呈现以下状态。这时需要截齐两端含有---的序列：选中含有---的序列，按键Delete删除（注意：两端都需要截齐）。截齐之后，保存文件为：filename.mas

3．构建系统进化树多序列比对窗口，点击Data，选择Phylogenetic Analysis，弹出窗口询问：所用序列是否编码蛋白质，根据实际情况选择Yes或No。此时，多序列比对文件就激活了，可以返回MEGA 5主界面建树了。

Mega的使用以及进化树的绘制

1.MEGA构建系统进化树的步骤 2.CLUSTALX进行序列比对 1.MEGA构建系统进化树的步骤 1. 将要用于构建系统进化树的所有序列合并到同一个fasta格式文件，注意：所有序列的方向都要保持一致( 5’-3’)。如图： 2. 打开MEGA软件，选择"Alignment" - "Alignment Explorer/CLUSTAL"，在对话框中选择Retrieve sequences from a file, 然后点OK，找到准备好的序列文件并打开，如图：。 3. 在打开的窗口中选择”Alignment”-“Align by ClustalX” 进行对齐，对齐过程需要一段时间，对齐完成后，最好将序列两端切齐，选择两端不齐的部分，

单击右键，选择delete即可，如图：。 4. 关闭当前窗口，关闭的时候会提示两次否保存，第一次无所谓，保存不保存都可以，第二次一定要保存，保存的文件格式是.meg。根据提示输入Title，然后会出现一个对话框询问是否是Protein-coding nucleotide sequence data, 根据情况选择Yes或No。最后出现一个对话框询问是否打开，选择Yes，如图：。 5. 回到MEGA主窗口，在菜单栏中选择”Phylogeny”-“Bootstrap Test of Phylogeny” -“Neighbor-joining”，打开一个窗口，里面有很多参数可以设

置，如何设置这些参数请参考详细的MEGA说明书，不会设置就暂且使用默认值，不要修改，点击下面的Compute按钮，系统进化树就画出来了，如图：在菜单栏中选择”Phylogeny”-“Bootstrap Test of Phylogeny” –“Minimun-evolution”,如图：在菜单栏中选择”Phylogeny”-“Bootstrap Test of Phylogeny” –“Maximun-parsimony”,如图：在菜单栏中选择”Phylogeny”-“Bootstrap Test of Phylogeny” –“UPGMA”，

MEGA构建系统进化树的步骤(以MEGA7为例)

MEGA构建系统进化树的步骤（以MEGA7为例）本文是看中国慕课山东大学生物信息学课程总结出来的分子进化的研究对象是核酸和蛋白质序列。研究某个基因的进化，是用它的DNA序列，还是翻译后的蛋白质序列呢？序列的选取要遵循以下原则：1）如果DNA序列的两两间的一致度≥70%，选用DNA 序列。因为，如果DNA序列都如此相似，它的蛋白质会相似到看不出区别，这对构建系统发生树是不利的。所以这种情况下应该选用DNA序列，而不选蛋白质序列。2）如果DNA序列的两两间的一致度≤70%，DNA序列和蛋白质序列都可以选用。 1. 将要用于构建系统进化树的所有序列合并到同一个fasta格式文件，注意：所有序列的方向都要保持一致( 5’-3’)。想要做系统发生树先要做多序列比对，然后把多序列比对的结果提交给建树软件进行建树，所以在用MEGA建树时可以输入一个已经比对好的多序列比对，也可以输入一条原始序列，让MEGA先来做多序列比对，再建树（一般我们都是原始序列）。所以我们以后者为例。 2.打开MEGA软件，选择主窗口的”File”→“Open A File”→找到并打开fasta文件，这时会询问以何种方式打开，我们是原始序列，需要先进行多序列比对，所以选择“Align”。如果是比对好的多序列比对可以直接选择“Analyze”。 3.在打开的Alignment Explorer窗口中选择”Alignment”-“Align by ClustalW”进行多序列比对（MEGA提供了ClustalW和Muscle两种多序列比对方法，这里选择熟悉的ClustalW），弹出窗口询问“Nothing selected for alignment，Select all？”选择“OK”。 4. 之后，弹出多序列比对参数设置窗口。这个窗口和EMBL在线多序列比对一样，可以设置替换记分矩阵、不同的空位罚分（罚分填写的是正数，计算时按负数计算）等参数。MEGA的所有默认参数都是经过反复考量设置的，这保证了MEGA傻瓜机全自动档的品质，所以当你无从下手，或者没有什么特别要求的时候，直接点击“OK”，接受这些默认参数，开始多序列比对。

构建系统进化树的方法步骤

构建系统进化树的方法步骤 1. 建树前的准备工作 1.1 相似序列的获得——BLAST BLAST是目前常用的数据库搜索程序，它是Basic Local Alignment Search Tool的缩写，意为“基本局部相似性比对搜索工具”(Altschul et al.,1990[62];1997[63])。国际著名生物信息中心都提供基于Web的BLAST服务器。BLAST算法的基本思路是首先找出检测序列和目标序列之间相似性程度最高的片段，并作为内核向两端延伸，以找出尽可能长的相似序列片段。首先登录到提供BLAST服务的常用网站，比如国内的CBI、美国的NCBI、欧洲的EBI和日本的DDBJ。这些网站提供的BLAST服务在界面上差不多，但所用的程序有所差异。它们都有一个大的文本框，用于粘贴需要搜索的序列。把序列以FASTA格式(即第一行为说明行，以“>”符号开始，后面是序列的名称、说明等，其中“>”是必需的，名称及说明等可以是任意形式，换行之后是序列)粘贴到那个大的文本框，选择合适的BLAST程序和数据库，就可以开始搜索了。如果是DNA序列，一般选择BLASTN搜索DNA数据库。这里以NCBI为例。登录NCBI主页-点击BLAST-点击Nucleotide-nucleotide BLAST (blastn)-在Search文本框中粘贴检测序列-点击BLAST!-点击Format-得到result of BLAST。 BLASTN结果如何分析(参数意义)： >gi|28171832|gb|AY155203.1| Nocardia sp. ATCC 49872 16S ribosomal RNA gene, complete sequence Score = 2020 bits (1019), Expect = 0.0 Identities = 1382/1497 (92%), Gaps = 8/1497 (0%) Strand = Plus / Plus Query: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggaaaggccctttcgggggt 60 |||||||||||||||||||||||||||||||||||||||||| ||||||||| ||||| Sbjct: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggtaaggcccttc--ggggt 58 Query: 61 actcgagcggcgaacgggtgagtaacacgtgggtaacctgccttcagctctgggataagc 120 || ||||||||||||||||||||||||||||||| | |||||| ||||||||||||| Sbjct: 59 acacgagcggcgaacgggtgagtaacacgtgggtgatctgcctcgtactctgggataagc 118 Score ：指的是提交的序列和搜索出的序列之间的分值，越高说明越相似；

MEGA构建系统进化树的步骤(以MEGA7为例)教学文案

M E G A构建系统进化树的步骤(以M E G A7为例)

MEGA构建系统进化树的步骤（以MEGA7为例）本文是看中国慕课山东大学生物信息学课程总结出来的分子进化的研究对象是核酸和蛋白质序列。研究某个基因的进化，是用它的DNA序列，还是翻译后的蛋白质序列呢？序列的选取要遵循以下原则：1）如果DNA序列的两两间的一致度≥70%，选用DNA序列。因为，如果DNA序列都如此相似，它的蛋白质会相似到看不出区别，这对构建系统发生树是不利的。所以这种情况下应该选用DNA序列，而不选蛋白质序列。2）如果DNA 序列的两两间的一致度≤70%，DNA序列和蛋白质序列都可以选用。 1. 将要用于构建系统进化树的所有序列合并到同一个fasta格式文件，注意：所有序列的方向都要保持一致 ( 5’-3’)。想要做系统发生树先要做多序列比对，然后把多序列比对的结果提交给建树软件进行建树，所以在用MEGA建树时可以输入一个已经比对好的多序列比对，也可以输入一条原始序列，让MEGA先来做多序列比对，再建树（一般我们都是原始序列）。所以我们以后者为例。 2.打开MEGA软件，选择主窗口的”File”→“Open A File”→找到并打开fasta文件，这时会询问以何种方式打开，我们是原始序列，需要先进行多序列比对，所以选择“Align”。如果是比对好的多序列比对可以直接选择“Analyze”。 3.在打开的Alignment Explorer窗口中选择”Alignment”-“Align by ClustalW”进行多序列比对（MEGA提供了ClustalW和Muscle两种多序列比对方法，这

一步一步教你如何做系统进化树

一步一步教你如何做系统进化树在此介绍几个进化树分析及其相关软件的使用和应用范围。这几个软件分别是PHYLIP 、PUZZLE 、PAUP 、TREEVIEW 、CLUSTALX 和PHYLO-WIN （LINUX ）。在介绍软件之前，我先简要地叙述一下有关进化树分析的一些方法学问题。进化树也称种系树，英文名叫“Phyligenetic tree ”。对于一个完整的进化树分析需要以下几个步骤：⑴ 要对所分析的多序列目标进行排列（To align sequences ）。做ALIGNMENT 的软件很多，最经常使用的有CLUSTALX 和CLUSTALW ，前者是在WINDOW 下的而后者是在DOS 下的。⑵ 要构建一个进化树（To reconstrut phyligenetic tree ）。构建进化树的算法主要分为两类：独立元素法（discrete character methods ）和距离依靠法（distance methods ）。所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的（例如：一个序列上可能包含很多的酶切位点，而每个酶切位点的存在与否是由几个碱基的状态决定的，也就是说一个序列碱基的状态决定着它的酶切位点状态，当多个序列进行进化树分析时，进化树的拓扑形状也就由这些碱基的状态决定了）。而距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。进化树枝条的长度代表着进化距离。独立元素法包括最大简约性法（Maximum Parsimony methods ）和最大可能性法（Maximum Likelihood methods ）；距离依靠法包括除权配对法（UPGMAM ）和邻位相连法（Neighbor-joining ）。⑶ 对进化树进行评估。主要采用Bootstraping 法。进化树的构建是一个统计学问题。我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。如果我们采用了一个适当的方法，那么所构建的进化树就会接近真实的“进化树”。模拟的进化树需要一种数学方法来对其进行评估。不同的算法有不同的适用目标。一般来说，最大简约性法适用于符合以下条件的多序列：i 所要比较的序列的碱基差别小，ii 对于序列上的每一个碱基有近似相等的变异率，iii 没有过多的颠换/转换的倾向，iv 所检验的序列的碱基数目较多（大于几千个碱基）；用最大可能性法分析序列则不需以上的诸多条件，但是此种方法计算极其耗时。如果分析的序列较多，有可能要花上几天的时间才能计算完毕。UPGMAM （Unweighted pair group method with arithmetic mean ）假设在进化过程中所有核苷酸/氨基酸都有相同的变异率，也就是存在着一个分子钟。这种算法得到的进化树相对来说不是很准确，现在已经很少使用。邻位相连法是一个经常被使用的算法，它构建的进化树相对准确，而且计算快捷。其缺点是序列上的所有位点都被同等对待，而且，所分析的序列的进化距离不能太大。另外，需要特别指出的是对于一些特定多序列对象来说可能没有任何一个现存算法非常适合它。最好是我们来发展一个更好的算法来解决它。但无疑这是非常难的。我想如果有人能建立这样一个算法的话，那他（她）完全可以在生物秀-专心做生物 w w w .b b i o o .c o m

构建系统进化树的详细步骤

构建系统进化树的详细步骤 1. 建树前的准备工作 1.1 相似序列的获得——BLAST BLAST是目前常用的数据库搜索程序，它是Basic Local Alignment Search Tool 的缩写，意为“基本局部相似性比对搜索工具”(Altschul et al.,1990[62];1997[63])。国际著名生物信息中心都提供基于Web的BLAST服务器。BLAST算法的基本思路是首先找出检测序列和目标序列之间相似性程度最高的片段，并作为核向两端延伸，以找出尽可能长的相似序列片段。首先登录到提供BLAST服务的常用，比如国的CBI、美国的NCBI、欧洲的EBI和日本的DDBJ。这些提供的BLAST服务在界面上差不多，但所用的程序有所差异。它们都有一个大的文本框，用于粘贴需要搜索的序列。把序列以FASTA格式(即第一行为说明行，以“>”符号开始，后面是序列的名称、说明等，其中“>”是必需的，名称及说明等可以是任意形式，换行之后是序列)粘贴到那个大的文本框，选择合适的BLAST程序和数据库，就可以开始搜索了。如果是DNA序列，一般选择BLASTN搜索DNA数据库。这里以NCBI为例。登录NCBI主页-点击BLAST-点击Nucleotide-nucleotide BLAST (blastn)-在Search文本框中粘贴检测序列-点击BLAST!-点击Format-得到result of BLAST。 BLASTN结果如何分析(参数意义): >gi|28171832|gb|AY155203.1| Nocardia sp. ATCC 49872 16S ribosomal RNA gene, complete sequence Score = 2020 bits (1019), Expect = 0.0 Identities = 1382/1497 (92%), Gaps = 8/1497 (0%) Strand = Plus / Plus

系统进化树视频教程-多序列比对教程等

所有视频内容和编号： 001-1系统进化树构建序列文件格式说明（1080P） 001-2 MEGA软件构建邻接树(NJ树) （1080P） 001-3 MEGA软件构建最大简约树(MP树) （1080P） 001-4 MEGA软件构建最大似然树(ML树) （1080P） 001-5 MEGA软件构建UPGMA树（1080P） 001-6 MEGA软件计算遗传距离和导出Excel（1080P） 001-7 MEGA软件分析序列特征-信息位点变异位点等（1080P） 001-8 MEGA软件对序列饱和性检验和作图（1080P） 001-9 MEGA软件最序列分组并计算组间和组内遗传距离（1080P） 001-10 MEGA软件对树图置根修改字体和字号等（1080P） 002-1 贝叶斯法Mrbayes构建系统进化树教程视频（1080P） 002-2 PAUP软件构建最大似然（ML）树教程 002-3 Mrbayes贝叶斯建树(MrMTgui模型计算)视频教程（1080P） 002-4 贝叶斯不收敛问题的解决办法（1080P） 002-5 PAUP软件构建最大似然（ML）树教程（1080P） 002-6 PAUP软件构建简约树（MP）树教程（1080P） 002-7 PAUP软件构建邻接树（NJ）树教程（1080P） 003-1 MAFFT多序列比对教程 003-2 Jmodeltest模型计算方法与说明 003-3 primer5引物设计 003-4 Photoshop图片排版（期刊格式） 003-4 primer5引物设计（加酶切位点）（1080P） 004-1 多基因序列快速联合（拼接）与格式转换-软件SequenceMatrix（1080P） 004-2 多基因序列快速联合（拼接）详细版-SequenceMatrix（1080P） 004-3 贝叶斯多基因片段联合分区建树（分区设定模型）（1080P） 005-1 MEGA软件美化树图置根等内容补充 005-2 如何编辑贝叶斯或PAUP（ML）树图（PDF格式）的名称、字体、分枝等并输出图片格式 005-3 MEGA软件修改树图标尺显示分枝长度自举值显示方式等设置（1080P）

系统进化树的这些知识

系统进化树的这些知识，你都Get了吗？系统进化树（Phylogenetic tree，又称为系统发生树/系统发育树/系统演化树/进化树等），是用来表示物种间亲缘关系远近的树状结构图。在系统进化树中，物种按照亲缘关系远近被安放在树状结构的不同位置，因而，进化树可以简单地表示生物的进化过程和亲缘关系。自达尔文时期，很多生物学家就希望用一棵树的形式描述地球上所有生命的进化历程。早期的系统发育研究主要基于生物的表型特征，通过表型比较来研究物种之间的进化关系，然而，利用表型特征进行系统发育分析存在很大的局限性，1965[1]年，Linus Pauling等提出了分子进化理论，基于分子特性（DNA、RNA和蛋白质分子），推断物种之间的系统发生关系，由于核苷酸和氨基酸序列中含有生物进化历史的全部信息，因此利用该方法构建的系统进化树更为准确。图1 系统进化树理论上，一个DNA序列在物种形成或者基因复制时，会分成两个子序列，因而系统进化树是一般是二叉树，由许多节点和分支构成。根据位置的不同，节点分为外部节点和内部节点，外部节点代表最终分类，可以是物种、群体，或者DNA、RAN、蛋白质等，内部节点表示该分支可能的祖先节点，不同节点间的连线则称为分支。根据是否指定根节点，将系统发育树分为有根树和无根树。有根树绘制过程中需要引入外群，因而具有一个根节点，作为树中所有物种（样本）的共同祖先节点，可以判断演化方向，反映分类单元间的进化关系，外群与进化树中其他物种（样本）的亲缘关系不宜太近，也不能太远，一般构建种内不同品种/亚种间的进化树，外群应选择同属内其他物种，构建属内不同种间的进化树，外群应选择科内其他属物种。无根树绘制过程中并未引入外群，因而没有根节点，无法判断演化方向，只能表明不同单元之间的分类关系。