序列拼接

* 为了保证测序结果的准确性，单基因短片段（700pd左右）测序一般应采用双向测序，然后将双向测序的结果拼接在一起，从而获得一致性序列。线粒体基因组测序和DNA长片段测序一般是通过分段测序来完成的，最后也需要将测出的短片段拼接成一条完整的序列。序列拼接可以在不同的软件中进行。

一、使用“组装批处理文件byLHM.pg4”进行拼接

1. 在预定的位置建立一个文件夹“gap”，将需要使用的3个软件“组装批处理文件byLHM.pg4”、“V ector_primer4pMD18-T.vec_pri”、“pMD18-T_Vector.seq”拷贝到该文件夹下，再将需要拼接的测序文件拷贝到该文件夹下。

2. 双击运行“组装批处理文件byLHM.pg4”程序。

3. 在程序运行后出现的界面右侧点击“Add files”按钮，打开要拼接的序列文件。为了保证

拼接后输出的是正向序列，最好先添加上游引物序列，然后添加下游引物序列，因为在一般情况下软件将添加的第一条序列默认为正向参照序列；有时由于测序效果等因素的影响，有时即使首先添加的是上游引物序列，但拼接后仍然会以测序效果明显更好的下游引物序列为正向参照序列，此时需要按照后面介绍的方法将上游引物序列转换为正向参照序列再输出一致性序列。

4. 点击界面上方第二行的“Configure Modules”，在弹出的窗口左边的任务栏中点击“[x]

Sequencing vector Clip”，再点击右边的“Browse”按钮，通过弹出的窗口打开“Vector_primer4pMD18-T.vec_pri”程序；点击左边任务栏中的“[] Cloning Vector Clip”，再点击右边的“Browse”按钮，通过弹出的窗口打开“pMD18-T_Vector.seq”程序；点击左下角的“Run”按钮，即开始数据处理，处理结果将自动保存到“gap”文件夹中。

5. 在“gap”文件夹中双击“AssMit_tmp.o.aux”文件，将鼠标移到弹出的“Contig Selector”

窗口中的直线上，点击右键，选择“Edit Contig”，即弹出“Contig Editor”窗口，点击最右边的“setting”按钮，在下拉菜单中选择“By background colour”，即可显示比对结果的有差异碱基；双击某一序列，即可显示该序列的测序峰图，以检查核对该位点碱基的测序情况。

* 注：执行此操作时一定要检查正向序列是否为上游引物序列；如果不是，则需要将上游引物序列转换成正向序列后再执行下面的“输出及保存序列”操作；具体的操作步骤是：点击“GAPv4.10 AssMit_tmp.o”窗口中的“Edit”菜单，在下拉菜单中选择“Complement

a contig”命令，在弹出来的“Complement contig”小窗口中检查确认“Contig identifier”

框中的序列为上游引物序列，然后点击“OK”即将完成序列转换。

6. 点击“GAPv4.10 AssMit_tmp.o”窗口中的“File”菜单，在下拉菜单中选择“Save

consensus”可保存一致序列，nomors------ok ,序列即保存在刚刚使用过的那个文件夹中，然后把文件名改成用“*.txt”形式，以便保存的文件成为文本文件，若忘记在文件名后加“.txt”，则保存完毕后可将文件的扩展名改成“.txt”；只有拼接好的一致序列才可用于后面的序列分析。

7.然后把在ncbi里查到的相近种的序列放到一起，也可以直接放到刚才那个cons.txt文本文

档中，然后打开clustalx.exe进行序列比对，file------load sequence ------G盘-----004文件夹-----cons.txt-----aligenment-----do complete aligenment,这时如果发现两条序列的保守区域很不对，极可能是刚刚测得这个种的序列反了，需要用Bioedit把它正过来，

8.在程序里打开已经安装好的Bioedit,例如找file---------open----G盘---004----cons.txt,打开，

选sequence--------下拉菜单中找Nuclic acid，在菜单中找reverse complement，点击它

然后在另一对话框中例如G:/004/CONS.TXT中点击保存save Aligenment. 这样序列即

被正转过来并且保存在刚才建的cons.txt记事本中，即可用于下面的各种分析。

序列拼接

序列拼接 * 为了保证测序结果的准确性，单基因短片段（700pd左右）测序一般应采用双向测序，然后将双向测序的结果拼接在一起，从而获得一致性序列。线粒体基因组测序和DNA长片段测序一般是通过分段测序来完成的，最后也需要将测出的短片段拼接成一条完整的序列。序列拼接可以在不同的软件中进行。一、使用“组装批处理文件byLHM.pg4”进行拼接 1. 在预定的位置建立一个文件夹“gap”，将需要使用的3个软件“组装批处理文件byLHM.pg4”、“V ector_primer4pMD18-T.vec_pri”、“pMD18-T_Vector.seq”拷贝到该文件夹下，再将需要拼接的测序文件拷贝到该文件夹下。 2. 双击运行“组装批处理文件byLHM.pg4”程序。 3. 在程序运行后出现的界面右侧点击“Add files”按钮，打开要拼接的序列文件。为了保证拼接后输出的是正向序列，最好先添加上游引物序列，然后添加下游引物序列，因为在一般情况下软件将添加的第一条序列默认为正向参照序列；有时由于测序效果等因素的影响，有时即使首先添加的是上游引物序列，但拼接后仍然会以测序效果明显更好的下游引物序列为正向参照序列，此时需要按照后面介绍的方法将上游引物序列转换为正向参照序列再输出一致性序列。 4. 点击界面上方第二行的“Configure Modules”，在弹出的窗口左边的任务栏中点击“[x] Sequencing vector Clip”，再点击右边的“Browse”按钮，通过弹出的窗口打开“Vector_primer4pMD18-T.vec_pri”程序；点击左边任务栏中的“[] Cloning Vector Clip”，再点击右边的“Browse”按钮，通过弹出的窗口打开“pMD18-T_Vector.seq”程序；点击左下角的“Run”按钮，即开始数据处理，处理结果将自动保存到“gap”文件夹中。 5. 在“gap”文件夹中双击“AssMit_tmp.o.aux”文件，将鼠标移到弹出的“Contig Selector” 窗口中的直线上，点击右键，选择“Edit Contig”，即弹出“Contig Editor”窗口，点击最右边的“setting”按钮，在下拉菜单中选择“By background colour”，即可显示比对结果的有差异碱基；双击某一序列，即可显示该序列的测序峰图，以检查核对该位点碱基的测序情况。 * 注：执行此操作时一定要检查正向序列是否为上游引物序列；如果不是，则需要将上游引物序列转换成正向序列后再执行下面的“输出及保存序列”操作；具体的操作步骤是：点击“GAPv4.10 AssMit_tmp.o”窗口中的“Edit”菜单，在下拉菜单中选择“Complement a contig”命令，在弹出来的“Complement contig”小窗口中检查确认“Contig identifier” 框中的序列为上游引物序列，然后点击“OK”即将完成序列转换。 6. 点击“GAPv4.10 AssMit_tmp.o”窗口中的“File”菜单，在下拉菜单中选择“Save consensus”可保存一致序列，nomors------ok ,序列即保存在刚刚使用过的那个文件夹中，然后把文件名改成用“*.txt”形式，以便保存的文件成为文本文件，若忘记在文件名后加“.txt”，则保存完毕后可将文件的扩展名改成“.txt”；只有拼接好的一致序列才可用于后面的序列分析。 7.然后把在ncbi里查到的相近种的序列放到一起，也可以直接放到刚才那个cons.txt文本文档中，然后打开clustalx.exe进行序列比对，file------load sequence ------G盘-----004文件夹-----cons.txt-----aligenment-----do complete aligenment,这时如果发现两条序列的保守区域很不对，极可能是刚刚测得这个种的序列反了，需要用Bioedit把它正过来， 8.在程序里打开已经安装好的Bioedit,例如找file---------open----G盘---004----cons.txt,打开，选sequence--------下拉菜单中找Nuclic acid，在菜单中找reverse complement，点击它然后在另一对话框中例如G:/004/CONS.TXT中点击保存save Aligenment. 这样序列即

ContigExpress 序列拼接

此名为ContigExpress的软件可用于做序列拼接，主要使用方法如下： 1.解压缩下载的压缩文件contig.zip文件，保证文件CExpress.exe,Gexudat.def在同一个目录下，打开Cexpress.exe应用程序，进入ContigExpress操作界面，如图1。图1 2.点击菜单上的“Project”选择“Add Fragments”，一般我们发给您的是AB1文件，如果您有其它格式的文件，也可以选择，在这里我们选择AB1文件，以其为例，如图2。图2 3.选择您存放AB1文件（即我们Email给您的测序结果的彩图文件）的目录，选择文件类型为ALL FILES, 之后打开要拼接的AB1，从而添加进ContigExpress软件。在此以A、B 两个序列为例，如果有多个序列的也可以同时添加进入。

图3 4.选中要拼接的序列，再选菜单“Assemble”栏下的“Assemble Selected Fragments”命令，或用工具栏上的按钮，如图3。若两个结果能够拼接起来的，会得到一个Assemble1下的contig1的结果，如图4。图4 5.双击contig1，打开拼接后的结果，选中菜单“VIEW”栏，进入VIEW OPTION，将SHOW ALIGNMENT AS 由TEXT 改为GRAPH.，点击OK 后得到结果如图5。此时可能会因为两条序列的测序结果误差，会有不同的地方，在拼接图片框中的绿色竖杠就表示了这些不同的地方，如图所示。接着可点击绿色竖杠找到有误差的地方，进行修改。 6.在修改过程中，遇到有误差的地方，可以根据峰形来判断是多读还是漏读来进行修改，此时电脑认为是漏读碱基的地方会以点来表示，如图5，此处很明显是A序列上多读了一个G碱基，可将其删除。（注：因为软件本身的问题，只有在拼接过程中是正向的序列才能进行修改操作，若在反向上修改碱基，保存时会产生错误而直接关闭程序。所以若要修改反向序列上的碱基，可先保存后，把原有的Assemble1的结果拆开，点序列图标上的“Name”，如图3，所选中的序列上的一个“name”横栏，使序列按Name的升降次序来排列，把要作为正向的序列放到要作为反向序列上面即可。以此序列为例，将其改变方向后可实现反

利用SeqMan进行序列拼接

利用SeqMan进行序列拼接 Step1:打开Seqman软件 Step2:加入你要拼接的序列点击Add sequences 查找并选中要拼接的序列（可按住control键进行多选）点击Add按钮填加选择的序列填加完后点击done 注：最好用测序的图谱尽量不要直接用测序得到的序列 Step3:去除末端序列主要是去除序列末端测序质量差或是载体序列有两种方法可以用来去除这类末端序列其一：利用Seqman自带的去除工具自动去除（利用Trim ends按钮进行）其二：手工去除个人感觉手工去除方法最有效，因此下边我们以后工去除为例进行演示手工去除侧翼序列双击要去除侧翼序列的目标序列将鼠标放到测序图谱左边的一个黑色的竖线上，此时鼠标会变成一个有两个箭头的水平线按住左键拖动黑竖线，那么你就会发现侧翼序列的颜色变浅，这部分变浅的序列则就被去除，不再参加后面的拼接

此步请将测序不准确或认为是载体的序列用这种方法去除。测序准确的峰形图峰形规则，一般在序列的中部，如下图所示测序不准确的峰形图峰形较乱，很难判断是哪个碱基，一般位于序列两端，如下图所示

Step4:进行序列拼接点击Assemble按钮在新出现窗口处点击拼接好的contig1 在出现的Alignment of contig1 窗口中点击左三角显示序列的测序图谱点击菜单contig->strategy view可以观察序列拼接的宏观图 Step5:查找拼接错误 find conflict 点击菜单Edit 点击Find Previous或Find Next查找接接中出现的错误还可以通过Seqman左下角的快捷按钮查找错误的拼接

基因组序列拼接

2014年成都理工大学校内数学建模竞赛论文二0一四年五月二十五日

摘要：本文所要研究的就是全基因组的从头测序的组装问题。首先，本文简要介绍了测序技术及测序策略，认真分析了基因系列拼装所面临的主要挑战，比如reads数据海量、可能出现的个别碱基对识别错误、基因组中存在重复片段等复杂情况，探讨了当前基因组序列拼接所采用的主要策略，即OLC（Overlap/Layout/Consensus）方法、de Bruijn图方法，且深入探讨了de Bruijn图方法。其次，针对题中问题，以一条reads为基本单位，分为reads拼接和contig组装两个阶段，其中contig是由reads拼接生成的长序列片段。Reads的拼接阶段主要包括数据预处理、de-Bruijn 图、contig构建等，而contig的组装阶段主要包括序列的相对位置的确定以及重叠部分overlap的检测，用序列比对的方法来提高拼接的精度。最后，进行了算法的验证与性能的评价，并且针对问题2，进行了组装分析与验证，结果表明，得到的拼接基因组序列在小范围内与原基因组序列大致吻合。关键词：基因组系列拼接； reads；de Bruijn图；contig组装；k-mer片段；

一.问题重述基因组组装快速和准确地获取生物体的遗传信息对于生命科学研究具有重要的意义。对每个生物体来说，基因组包含了整个生物体的遗传信息，这些信息通常由组成基因组的DNA或RNA分子中碱基对的排列顺序所决定。获得目标生物基因组的序列信息，进而比较全面地揭示基因组的复杂性和多样性，成为生命科学领域的重要研究内容。确定基因组碱基对序列的过程称为测序（sequencing）。测序技术始于20世纪70年代，伴随着人类基因组计划的实施而突飞猛进。从第一代到现在普遍应用的第二代，以及近年来正在兴起的第三代，测序技术正向着高通量、低成本的方向发展。尽管如此，目前能直接读取的碱基对序列长度远小于基因组序列长度，因此需要利用一定的方法将测序得到的短片段序列组装成更长的序列。通常的做法是，将基因组复制若干份，无规律地分断成短片段后进行测序，然后寻找测得的不同短片段序列之间的重合部分，并利用这些信息进行组装。例如，若有两个短片段序列分别为 ATACCTT GCTAGCGT GCTAGCGT AGGTCTGA 则有可能基因组序列中包含有ATACCTT GCTAGCGT AGGTCTGA这一段。当然，由于技术的限制和实际情况的复杂性，最终组装得到的序列与真实基因组序列之间仍可能存在差异，甚至只能得到若干条无法进一步连接起来的序列。对组装效果的评价主要依据组装序列的连续性、完整性和准确性。连续性要求组装得到的（多条）序列长度尽可能长；完整性要求组装序列的总长度占基因组序列长度的比例尽可能大；准确性要求组装序列与真实序列尽可能符合。利用现有的测序技术，可按一定的测序策略获得长度约为50–100个碱基对的序列，称为读长（reads）。基因组复制份数约为50–100。基因组组装软件可根据得到的所有读长组装成基因组，这些软件的核心是某个组装算法。常用的组装算法主要基于OLC（Overlap/Layout/Consensus）方法、贪婪图方法、de Bruijn 图方法等。一个好的算法应具备组装效果好、时间短、内存小等特点。新一代测序技术在高通量、低成本的同时也带来了错误率略有增加、读长较短等缺点，现有算法的性能还有较大的改善空间。问题一：试建立数学模型，设计算法并编制程序，将读长序列组装成基因组。你的算法和程序应能较好地解决测序中可能出现的个别碱基对识别错误、基因组中存在重复片段等复杂情况。问题二：现有一个全长约为120,000个碱基对的细菌人工染色体（BAC），采用Hiseq2000测序仪进行测序，测序策略以及数据格式的简要说明见附录一和附录二，测得的读长数据见附录三，测序深度（sequencing depth）约为70×，即基因组每个位置平均被测到约70次。试利用你的算法和程序进行组装，并使之具有良好的组装效果。附录一：测序策略测序策略如下图所示。DNA分子由两条单链组成，在图中表现为两条平行直

DNAstar与Vector NTI序列拼接功能

2012-2-8序列拼接软件使用总结： 1. 目前，个人使用DNAstar 较Vector NTI 更顺手。可能因为vector 中某些设置没有调整，assemble 后的序列中存在许多 N，需人为删除。且在DNAstar 中可随意将碱基编辑为Y，R，S 等兼并碱基，而在Vector 中无法进行同样操作，键盘输入兼并碱基时只能显示出N。更重要的一点是，在contig 中选中某一位碱基想细看时，标记不明显，上下几排碱基只有两条细细的白边来标示，要仔细分辨才能保证不会看错位。白边在旁边这两条红线内侧，万分仔细看才能看见-__-b

对比一下，DNAstar 中的界面多醒目啊： 1 2 BTW: icon 1 can be used to amplify chromatogram. Icon 2 can be used to show/hide chromatogram. 2.使用DNAstar时偶尔会出现无法拼接成一条序列的情况，比如本来有5个片断，导入所有片断后assemble，却分成了2个contig：1-3为一个contig，4和5拼成另一个contig。此时可先将3和4的序列进行assemble，然后再选择Sequence〉Add…将其他序列加入，再拼接，就会生成一条contig了。 3.Vector亦有其特色，例如: (1)可以在同一窗口中直接看到某一拼接序列位于整个序列的什么位置：

(2)可以将鼠标停留在峰图上某一碱基处，查看每个测序峰的每种碱基信号强度----可据此分辨杂合峰具体是由什么碱基组成，而在DNAstar中只能通过看峰图颜色判断-_-b。 4.Vector有时拼接出的结果有误，如下图，有些序列被错误的拼接在一起，共3个台阶（不对，一共是5对PCR引物，应该有5个台阶）：

全基因组序列拼接研究进展_曾培龙

收稿日期:2012－06－11 作者简介:曾培龙（1987－），男，河南商丘人，硕士研究生，主要研究方向：生物信息学；王亚东（1964－），男，辽宁锦州人，硕士，教授，博士生导师，主要研究方向：人工智能、机器学习、知识工程等。 0引言新一代测序技术正在引领生命科学研究进入一个崭新阶段。人类基因组计划完成之后，获得个体基因组的全部序列对于生物学研究、探索与认识生命的本质具有十分重要的科学意义[1,2]。新一代测序技术作为目前生命科学研究的基础手段，随着应用领域的迅速扩增与不断深入，对生物信息学提出了必须正视的基础研究课题。而全基因组序列拼接作为生物信息学的核心问题，面临的主要挑战有：（1）海量的数据（覆盖深度一般为40－200倍，数据量达20－200GB ），迫切需要海量数据的拼接组装算法；（2）测序数据中的错误，容易导致错拼；（3）基因组中重复片段大量存在，由于读取片段reads 长度过短，一般只有几十个碱基，这使得重复序列的处理变得困难。针对新一代测序数据reads 长度较短、数据海量的特点，全基因组测序方面的数据分析软件的研发，已成为生物信息学领域最迫切、最重要的研究课题。虽然目前已开发有一些全基因组拼接软件，但是基本都局限在大型计算平台上完成数据分析过程，难以满足一般的研究需求，而且数据处理速度仍然远远落后于数据产生速度，已经成为整个基因组图谱绘制工作的瓶颈，并且其拼接结果在准确性方面还有待提高。 1全基因组序列拼接的含义基因组序列拼接的核心思想是利用序列之间的交叠关系，通过类似于“搭积木”的方式重建目标基因组序列。其基本方法是将序列之间的交叠关系转换成计算机可以识别的结构，通过不断迭代扩展的方式延长目标序列，然后利用配对数据，确定各个目标序列的相对方向和位置关系，最终还原目标基因组序列。基于新一代测序数据的基因组序列拼接，通常分为如下三个阶段：（1）数据的预处理阶段。该阶段通过特定的方法，移除测序数据中的错误碱基；（2）基因组连续片段（contigs ）生成阶段。该阶段将reads 拼接成contigs ；（3）超长序列片段（scaffoldings ）组装阶段。该阶段使用配对数据，确定contigs 之间的方向和位置关系，生成scaffoldings 。 2全基因组序列拼接的发展动态新一代测序技术的出现为生命科学重大问题研究提供新的手段的同时，其海量数据及其长度短、精度相对较低等特点，为生物信息学设置了前所未有的时代挑战。海量reads 数据的处理能力远远落后于测序数据的爆炸性增长速度，测试数据的快速、准确分析已经成为生命科学研究的短板[3]。如图1所示，从2006～2010年积累的新一代短片段数据量远远超过了过去10年所获得的基因组测序数据的总和。符合SRA 标准的新一代测序数据从2005～2010年的增长情况如图2所示。与图1相比可以看出，数据分析速度远远落后于数据产生速度，尤其是2010年数据的增长更是属于 “爆炸式的”，而这些还只占目前产生的新一代测序数全基因组序列拼接研究进展（哈尔滨工业大学计算机科学与技术学院，哈尔滨150001）摘要：全基因组序列拼接是生物信息学研究领域的核心问题。针对新一代测序数据读取片段reads 长度短、数据海量、精确度低等特点带来的严峻挑战，能够满足实际应用的序列拼接软件的研发，已成为生物信息学领域最为迫切的研究课题。深入探讨全基因组序列拼接的发展动态、所采用的主要策略等方面，总结序列拼接相关理论，并为未来新算法的研发提出具体的改进建议。关键词：中图分类号：TP391 文献标识码：A 文章编号：2095－2163（2012）04－0004－05 Research Progress of Whole Genome Assembly ZENG Peilong,WANG Yadong Abstract :Whole genome assembly is the core issue of bioinformatics.On conditions that next generation sequencing brings bioinfor- matics an unprecedented challenge due to its data of mass,short length and relatively low precision,development of sequence assembly soft-ware that could meet practical application has become the most important research topic.This paper analyses the development progress and main strategies of whole genome assembly deeply,sums up the relevant theory and provide specific suggestions for future algorithms. Key words:全基因组序列拼接；生物信息学；新一代测序 Whole Genome Assembly ；Bioinformatics ；Next-Generation Sequencing （School of Computer Science and Technology,Harbin Institute of Technology,Harbin 150001,China ) 曾培龙，王亚东智能计算机与应用 INTELLIGENT COMPUTER AND APPLICATIONS Vol．2No．4第2卷第4期2012年8月 Aug．2012

基因组序列拼接

硕士学位论文基于reads引导的基因组序列拼接GENOME ASSEMBLY GUIDED BY READS 曾培龙哈尔滨工业大学 2012年6月

国内图书分类号：TP391 学校代码：10213 国际图书分类号：621.3 密级：公开工学硕士学位论文基于reads引导的基因组序列拼接硕士研究生：曾培龙导师：王亚东教授申请学位：工学硕士学科：计算机科学与技术所在单位：计算机科学与技术学院答辩日期：2012年6月授予学位单位：哈尔滨工业大学

Classified Index: TP391 U.D.C: 621.3 Dissertation for the Master Degree GENOME ASSEMBLY GUIDED BY READS Candidate：Zeng Peilong Supervisor：Prof. Wang Yadong Academic Degree Applied for：Master of Engineering Speciality：Computer Science and Technology Affiliation：School of Computer Science and Technology Date of Defence：June, 2012 Degree-Conferring-Institution：Harbin Institute of Technology

哈尔滨工业大学硕士学位论文摘要基因组序列拼接是生物信息学领域的核心问题，测序产生的读取片段reads经过序列拼接组装，生成基因组的碱基序列。新一代测序技术的快速发展，为生命科学重大问题的研究提供巨大帮助的同时，其数据海量、读取片段reads长度短、精确度低等特点也为全基因组序列拼接提出了相当严峻的挑战，而传统的序列拼接算法已不再适用。针对新一代测序的数据特点，研发能满足实际应用需要的基因组序列拼接软件，已显得极为迫切。本文首先简要介绍了新一代测序技术的产生背景、测序策略及技术特点等，认真分析了基因组序列拼接所面临的主要挑战，比如大量重复片段的存在，reads数据海量、长度短及含有测序错误等，深入探讨了当前基因组序列拼接所采用的主要策略，即贪心策略，交叠-排序-生成共有序列（OLC）策略和De Bruijn图策略等，总结了不同算法的优势及不足，并提出了序列拼接算法的改进方向。接着，本文提出了基于reads引导的基因组序列拼接算法，以整条reads为拼接的基本单位，并率先在拼接算法中提出了基于信息累计和数据特征相结合的评分方法。该算法分为reads拼接和contigs组装两个阶段，contigs是由reads拼接生成的长序列片段。reads拼接阶段主要包括数据预处理、De Bruijn图的建立、contigs构建等，而contigs组装阶段则主要有contigs相对位置的确定、交叠overlap检测、contigs连接及空隙gaps填充等过程，其中在确定contigs的相对位置时首次提出了配对数目数组PEN的概念，并用序列比对的方法消除或纠正contigs末端的碱基错误，提高了拼接精度。最后，进行了算法验证和性能评价。选取若干组数据对该算法软件进行测试，并用评测软件Mauve Assembly Metrics将拼接结果与主流的拼接软件进行比较，分析评测结果，得出了该算法在序列拼接时无论是拼接的长度还是拼接的准确度都表现不错的结论。关键词: 生物信息学；新一代测序技术；基因组序列拼接；reads；De Bruijn图