全外显子组测序技术及其在肿瘤研究中的应用

全外显子组测序技术及其在肿瘤研究中的应用
全外显子组测序技术及其在肿瘤研究中的应用

几种常见的基因测序技术的优缺点及应用复习过程

几种常见的基因测序技术的优缺点及应用

随着人类基因组计划的完成,人类对自身遗传信息的了解和掌握有了前所未有的进步。与此同时,分子水平的基因检测技术平台不断发展和完善,使得基因检测技术得到了迅猛发展,基因检测效率不断提高。从最初第一代以 Sanger 测序为代表的直接检测技术和以连锁分析为代表的间接测序技术,到 2005 年,以 Illumina 公司的 Solexa技术和 ABI 公司的 SOLiD 技术为标志的新一代测序(next-generation sequencing,NGS) 的相继出现,测序效率明显提升,时间明显缩短,费用明显降低,基因检测手段有了革命性的变化。其技术正向着大规模、工业化的方向发展,极大地提高了基因检测的检出率,并扩展了疾病在基因水平的研究范围。2009 年 3 月,约翰霍普金斯大学的研究人员在《Science》杂志上发表了通过 NGS外显子测序技术,发现了一个新的遗传性胰腺癌的致病基因PALB2,标志着 NGS 测序技术成功应用于致病基因的鉴定研究。同年,《Nature》发表了采用 NGS 技术发现罕见弗里曼谢尔登综合征MYH3 致病基因突变和《Nat Genet》发表了遗传疾病米勒综合征致病基因。此后,通过 NGS 技术,与遗传相关的致病基因不断被发现,NGS 技术已成为里程碑式的进步。2010 年,《Science》杂志将这一技术评选为当年“十大科学进展”。 近两年,基因检测成为临床诊断和科学研究的热点,得到了突飞猛进和日新月异的发展,越来越多的临床和科研成果不断涌现出来。同时,基因检测已经从单一的遗传疾病专业范畴扩展到复杂疾病和个体化应用更加广阔的领域,其临床检测范围包括高危疾病的新生儿筛查、遗传疾病的诊断和基因携带的检测以及基因药物检测用于指导个体化用药剂量、选择和药物反应等诸多方面的研究。目前,基因检测在临床诊断和医学研究的应用正越来越受到医生的普遍重视和引起研究人员的极大的兴趣。 本文介绍了几种 DNA 水平基因检测常见的方法,比较其优缺点和在临床诊断和科学研究中的应用,对指导研究生和临床医生课外学习,推进临床科研工作和提升科研教学水平有着指导意义。 1、第一代测序 1.1 Sanger 测序采用的是直接测序法。1977年,Frederick Sanger 等发明了双脱氧链末端终止法,这一技术随后成为最为常用的基因测序技术。2001 年,Allan Maxam 和 Walter Gibert 发明了 Sanger 测序法,并在此后的 10 年里成为基因检测的金标准。其基本原理即双脱氧核苷三磷酸(dideoxyribonucleoside triphosphate,ddNTP) 缺乏PCR 延伸所需的 3'-OH,因此每当 DNA 链加入分子 ddNTP,延伸便终止。每一次 DNA 测序是由 4个独立的反应组成,将模板、引物和 4 种含有不

41. ACMG全外显子测序指南.

ACMG全外显子测序指南 摘要:美国医学遗传学与基因组学学会(ACMG)以前为序列突变的解释提供了指导.1在过去十年中,随着高通量测序的出现,测序技术迅速发展。通过采用和利用下一代测序,临床实验室正在进行基因分型,单基因,基因组,外显子,基因组,转录组和遗传疾病表观遗传学检测的不断增加的遗传检测目录。由于复杂性增加,基因检测的这种转变伴随着序列解释的新挑战。在这方面,ACMG于2013年召集了一个由ACMG,分子病理学协会(AMP)和美国病理学家学会的代表组成的工作组,重新审视和修订了序列突变解释的标准和准则。该组由临床实验室主任和临床医生组成。本报告代表ACMG,AMP和美国病理学家利益相关者联盟组成的工作组的专家意见。这些建议主要适用于临床实验室使用的遗传检测的范围,包括基因分型,单基因,panel,外显子和基因组。本报告建议使用具体的标准术语- “致病性”,“可能致病性”,“不确定性意义”,“可能良性”和“良性”来描述在导致孟德尔病症的基因中鉴定的突变。此外,该建议描述了基于使用典型类型的突变证据(例如,群体数据,计算数据,功能数据,分离数据)的标准将突变分类为这五个类别的过程。由于本报告中描述的临床基因检测的分析和解释的复杂性增加,ACMG强烈建议临床分子遗传学检测应在经过临床实验室改进修订批准的实验室进行,结果由相关职业认证的临床分子遗传学家或分子遗传病理学家或同等学科专家进行解释。 关键词:ACMG实验室指导; 临床遗传检测; 解释;报告; 序列变异术语;突变报告 前言 临床分子实验室正在不断增加检测的新的序列突变,因为在检测患者标本时不断发现大量与基因疾病相关的基因。虽然一些表型与单个基因相关,但许多与多个基因相关。我们对任何给定序列突变的临床意义的理解是循序渐进的,其范围从那些几乎肯定是疾病致病性突变到几乎肯定是良性的突变。虽然以前的美国医学遗传学和基因组学会(ACMG)的建议提供了序列突变的解释类别和解释算法,但是这些建议没有提供定义的术语或详细的突变分类指南.1。本报告描述了

全基因组关联分析的原理和方法

全基因组关联分析(Genome-wide association study;GWAS)是应用基因组中 数以百万计的单核苷酸多态性(single nucleotide ploymorphism ,SNP)为分子 遗传标记,进行全基因组水平上的对照分析或相关性分析,通过比较发现影响复杂性状的基因变异的一种新策略。 随着基因组学研究以及基因芯片技术的发展,人们已通过GWAS方法发现并鉴定了大量与复杂性状相关联的遗传变异。近年来,这种方法在农业动物重要经济性状主效基因的筛查和鉴定中得到了应用。 全基因组关联方法首先在人类医学领域的研究中得到了极大的重视和应用,尤其是其在复杂疾病研究领域中的应用,使许多重要的复杂疾病的研究取得了突破性进展,因而,全基因组关联分析研究方法的设计原理得到重视。 人类的疾病分为单基因疾病和复杂性疾病。单基因疾病是指由于单个基因的突变导致的疾病,通过家系连锁分析的定位克隆方法,人们已发现了囊性纤维化、亨廷顿病等大量单基因疾病的致病基因,这些单基因的突变改变了相应的编码蛋白氨基酸序列或者产量,从而产生了符合孟德尔遗传方式的疾病表型。复杂性疾病是指由于遗传和环境因素的共同作用引起的疾病。目前已经鉴定出的与人类复杂性疾病相关联的SNP位点有439 个。全基因组关联分析技术的重大革新及其应用,极大地推动了基因组医学的发展。(2005年, Science 杂志首次报道了年龄相关性视网膜黄斑变性GWAS结果,在医学界和遗传学界引起了极大的轰动, 此后一系列GWAS陆续展开。2006 年, 波士顿大学医学院联合哈佛大学等多个研究机构报道了基于佛明翰心脏研究样本关于肥胖的GWAS结果(Herbert 等. 2006);2007 年, Saxena 等多个研究组联合报道了与2 型糖尿病( T2D ) 关联的多个位点, Samani 等则发表了冠心病GWAS结果( Samani 等. 2007); 2008 年, Barrett 等通过GWAS发现了30 个与克罗恩病( Crohns ' disrease) 相关的易感位点; 2009 年, W e is s 等通过GWAS发现了与具有高度遗传性的神经发育疾病——自闭症关联的染色体区域。我国学者则通过对12 000 多名汉族系统性红斑狼疮患者以及健康对照者的GWAS发现了5 个红斑狼疮易感基因, 并确定了4 个新的易感位点( Han 等. 2009) 。截至2009 年10 月, 已经陆续报道了关于人类身高、体重、 血压等主要性状, 以及视网膜黄斑、乳腺癌、前列腺癌、白血病、冠心病、肥胖症、糖尿病、精神分 裂症、风湿性关节炎等几十种威胁人类健康的常见疾病的GWAS结果, 累计发表了近万篇 论文, 确定了一系列疾病发病的致病基因、相关基因、易感区域和SNP变异。) 标记基因的选择: 1)Hap Map是展示人类常见遗传变异的一个图谱, 第1 阶段完成后提供了 4 个人类种族[ Yoruban ,Northern and Western European , and Asian ( Chinese and Japanese) ] 共269 个个体基因组, 超过100 万个SNP( 约1

基因测序技术的优缺点及应用

基因测序技术的优缺点及应用 随着人类基因组计划的完成,人类对自身遗传信息的了解和掌握有了前所未有的进步。与此同时,分子水平的基因检测技术平台不断发展和完善,使得基因检测技术得到了迅猛发展,基因检测效率不断提高。从最初第一代以 Sanger 测序为代表的直接检测技术和以连锁分析为代表的间接测序技术,到 2005 年,以Illumina 公司的 Solexa技术和 ABI 公司的 SOLiD 技术为标志的新一代测序 (next-generation sequencing,NGS) 的相继出现,测序效率明显提升,时间明显缩短,费用明显降低,基因检测手段有了革命性的变化。其技术正向着大规模、工业化的方向发展,极大地提高了基因检测的检出率,并扩展了疾病在基因水平的研究范围。2009 年 3 月,约翰霍普金斯大学的研究人员在《Science》杂志上发表了通过 NGS外显子测序技术,发现了一个新的遗传性胰腺癌的致病基因PALB2,标志着 NGS 测序技术成功应用于致病基因的鉴定研究。同年,《Nature》发表了采用 NGS 技术发现罕见弗里曼谢尔登综合征MYH3 致病基因突变和《Nat Genet》发表了遗传疾病米勒综合征致病基因。此后,通过 NGS 技术,与遗传相关的致病基因不断被发现,NGS 技术已成为里程碑式的进步。2010 年,《Science》杂志将这一技术评选为当年“十大科学进展”。 近两年,基因检测成为临床诊断和科学研究的热点,得到了突飞猛进和日新月异的发展,越来越多的临床和科研成果不断涌现出来。同时,基因检测已经从单一的遗传疾病专业范畴扩展到复杂疾病和个体化应用更加广阔的领域,其临床检测范围包括高危疾病的新生儿筛查、遗传疾病的诊断和基因携带的检测以及基因药物检测用于指导个体化用药剂量、选择和药物反应等诸多方面的研究。目前,基因检测在临床诊断和医学研究的应用正越来越受到医生的普遍重视和引起研究人员的极大的兴趣。 本文介绍了几种 DNA 水平基因检测常见的方法,比较其优缺点和在临床诊断和科学研究中的应用,对指导研究生和临床医生课外学习,推进临床科研工作和提升科研教学水平有着指导意义。 1、第一代测序 1.1 Sanger 测序采用的是直接测序法。1977年,Frederick Sanger 等发明了双脱氧链末端终止法,这一技术随后成为最为常用的基因测序技术。2001 年,Allan Maxam 和 Walter Gibert 发明了 Sanger 测序法,并在此后的 10 年里成为基因检测的金标准。其基本原理即双脱氧核苷三磷酸(dideoxyribonucleoside triphosphate,ddNTP) 缺乏PCR 延伸所需的 3'-OH,因此每当 DNA 链加入分子 ddNTP,延伸便终止。每一次 DNA 测序是由 4个独立的反应组成,将模板、引物和 4 种含有不同的放射性同位素标记的核苷酸的ddNTP 分别与DNA 聚合酶混合形成长短不一的片段,大量起始点相同、终止点不同的 DNA 片段存在于反应体系中,具有单个碱基差别的 DNA 序列可以被聚丙烯酰胺变性凝胶电泳分离出来,得到放射性同位素自显影条带。依据电泳条带读取DNA 双链的碱基序列。 人类基因组的测序正是基于该技术完成的。Sanger 测序这种直接测序方法具有高度的准确性和简单、快捷等特点。目前,依然对于一些临床上小样本遗传疾病基因的鉴定具有很高的实用价值。例如,临床上采用 Sanger 直接测序 FGFR 2 基因证实单基因 Apert 综合征和直接测序 TCOF1 基因可以检出多达 90% 的

人类全基因组测序

1 技术优势 全基因组测序(Whole Genome Sequencing,WGS)是利用高通量测序平台对人类不同个体或群体进行全基因组测序,并在个体或群体水平上进行生物信息分析。可全面挖掘DNA 水平的遗传变异,为筛选疾病的致病及易感基因,研究发病及遗传机制提供重要信息。 全基因组测序 平台优势 HiSeq X 测序平台 读长:PE150 通量:1.8T/run 测序周期:3 天 专为人全基因组测序准备、测序周期短、通量高

生物信息分析 技术路线 技术参数 样品要求 样本类型:DNA 样品 样本总量:≥1.0 μg DNA (提取自新鲜及冻存样本) ≥1.5 μg DNA (提取自FFPE 样本)样品浓度:≥ 20 ng/μl 测序平台及策略HiSeq X PE150 测序深度 肿瘤:癌组织(50X),癌旁组织/血液样本(30X)遗传病:30~50 X 项目周期37天

3 案例解析 该研究选取3个家系中6个患者和1个正常个体,首先使用基因芯片寻找纯合突变位点,然后对其中无亲缘关系的2例患者采用全基因组测序研究,在2例患者非编码区域均发现相同的变异,10号染色体PTF1A 末端发生一个点突变(chr10:23508437 A>G),且变异在患病人群和细胞试验中均得到了验证。研究解释了生长发育启动子隐性变异是罕见孟德尔遗传病的常见致病原因,同时说明许多疾病的致病突变也可能位于非编码区。 图1 检出的变异信息 智力障碍是影响新生儿心智发育的一类疾病。这项研究选取50个经过基因芯片和全外显子测序未确诊致病因子的trio 家系,全基因组测序检出84个de novo SNVs 和8个de novo CNVs,及一些结构变异(如VPS13B、STAG1、IQSEC2-TENM3),检出率为42%。揭示编码区的de novo SNVs 和de novo CNVs 是导致智力障碍的主要因素,全基因组测序可以作为可靠的遗传性检测应用工具。 案例一 单基因病研究——全基因组测序鉴定PTF1A末端增强子常染色体隐性突变导致胰腺 发育不全[1] 案例二 复杂疾病研究——全基因组测序解析智力障碍的主要致病因素[2] 图2 PTF1A 的家系图谱

50个全外显子测序揭示人类的高原适应机制

50个全外显子测序揭示人类的高原适应机制 Xin Yi等。 Science 329, 75 (2010); DOI: 10.1126/science.1190371 50个全外显子测序揭示人类的高原适应机制 生活于青藏高原的藏族人表现出了对极端高原环境的遗传适应性。我们对50个藏族人进行全外显子基因组测序,它们包含了92%的人类基因编码序列,人均覆盖度为18倍。基因分析显示了该特殊人群等位基因频率的变化,表明这些人对高原环境具有很强的适应性。 研究显示,表现出最强自然选择信号的基因是编码内皮细胞含PAS结构域蛋白-1(EPAS1)的基因,这是一个参与应答缺氧的转录因子。研究显示,EPAS1基因的一个单核苷酸多态性(SNP)在78%的藏族和汉族人群中存在差异,这是目前发现的速率改变最快的等位基因。该单核苷酸多态性与红细胞丰度的关联分析也支持EPAS1改变在适应缺氧环境中的作用,进一步表明它是适应高原环境的一个重要的遗传位点。 在广袤的大自然中生存的人类可能会存在文化和基因上的适应。其中人类面临的最严厉的环境挑战就是高海拔地区(如青藏高原)的低含氧量。这一地区的许多居民在海拔4000米以上居住,那里的氧气浓度比海平面大约低40%。藏族对缺氧环境有着他们自己的遗传适应性,如出生体重(1),血红蛋白水平(2),婴儿(3)和运动后的成年人(4)血液中的氧饱和度。这些结果暗示了高原适应机制的自然选择历史,我们对整个基因组的遗传差异进行分析,可能会发现这一点。 我们对中国西藏自治区海拔4300米以上(5)的两个村庄里的50个非亲个体进行全外显子基因组测序。针对将近两万个基因的外显子和侧翼区的34Mb序列,利用罗氏NimbleGen公司(威斯康星州麦迪逊市)的2.1M外显子序列捕获芯片(6)将其富集。测序采用了Illumina公司(加利福尼亚州圣地亚哥市)的基因组分析仪II平台,并使用序列比对程序SOAP(7)将测序片段比对到人类参考基因组序列上[美国生物技术信息中心(NCBI) 36. 3版]。 1深圳华大基因研究院,中国深圳,518083。 2中国科学院研究生院,中国北京,100062。 3加州大学伯克利分校综合生物学与统计系,美国加州,94820。4华南理工大学生物系本科创新班,中国广州,510641。 5西藏自治区人民医院,中国拉萨,850000。 6加州大学戴维斯分校进化与生态学系,美国加州,95616。 7哥本哈根大学生物系,丹麦哥本哈根,1165。 8华南理工大学理学院本科创新班,中国广州,510641。 9深圳大学医学院基因组研究所,中国深圳,518060。 10拉萨市人民医院,中国拉萨,850000。 11西藏军区总医院,中国拉萨,850007。 12西双版纳傣族自治州人民医院,中国云南景洪,666100。 *以上机构及相关人员对本研究作出了贡献。如有疑问请联系: E-mail:wangjian@https://www.360docs.net/doc/8f4204974.html, ( Ji.W.); wangj@https://www.360docs.net/doc/8f4204974.html, ( Ju.W.); rasmus_nielsen@https://www.360docs.net/doc/8f4204974.html, (R.N.) 全外显子测序的平均深度为18倍(表S1),但这并不能保证个别基因型的准确性。因此,我们用贝叶斯统计法(5)估算出每个可能的基因型概率,从而估算出单核苷酸多态性(SNP)的概率和每个位点的人类等位基因频率。在藏族样本中总共151825个SNPs有超过50%被识别出是可变的,有101668个超过99%的SNP是可变的(表S2)。Sanger测序验证了56个SNPs 中的53个,至少包含95%的SNP和3%~50%的次等位基因频率。等位基因频率的估算值显示存在过量的低频变异(图S1),特别是在非同义SNPs中。 该数据与来自于北京的40个汉族人的基因组进行比较[样本来自于中测检测(CHB)人类基因组单体型图计划(HapMap),属于1000个基因组计划的一部分(https://www.360docs.net/doc/8f4204974.html,)],测序得出汉族人均大约4倍的覆盖度。北京的海拔不超过50米,几乎所有的汉族人来自于海拔2000米以下。在较低的遗传分化基础上汉族人样本与藏族人样本形成鲜明的对比(F ST= 0.026)。这两个藏族村庄是体现该族遗传结构的最小单位(F ST= 0.014),因此,我们可以将他们当着整个群体进行分析。我们观察到,汉藏之间的等位基因频率有着很强的协方差(图1),但是过量的SNPs在汉族中频率很低,在藏族中频率中等。 从两个群体同义位点的二维频谱,可以估算出人类历史模型(8)。最佳拟合模型表明,藏族和汉族人群在2750年前出现分化,汉族人口从最初的小规模逐渐增大,藏族人口从最初的大规模逐渐减少(图S2)。这估计是由于藏族人移民至汉族区,双方长期相互渗透所造成的。

几种常见的基因测序技术的优缺点及应用

几种常见的基因测序技术的优缺点及应用 发布时间:2014-07-19 来源:毕业论文网 随着人类基因组计划的完成,人类对自身遗传信息的了解和掌握有了前所未有的进步。与此同时,分子水平的基因检测技术平台不断发展和完善,使得基因检测技术得到了迅猛发展,基因检测效率不断提高。从最初第一代以Sanger 测序为代表的直接检测技术和以连锁分析为代表的间接测序技术,到2005 年,以Illumina 公司的Solexa技术和ABI 公司的SOLiD 技术为标志的新一代测序(next-generation sequencing,NGS) 的相继出现,测序效率明显提升,时间明显缩短,费用明显降低,基因检测手段有了革命性的变化。其技术正向着大规模、工业化的方向发展,极大地提高了基因检测的检出率,并扩展了疾病在基因水平的研究范围。2009 年 3 月,约翰霍普金斯大学的研究人员在《Science》杂志上发表了通过NGS外显子测序技术,发现了一个新的遗传性胰腺癌的致病基因PALB2,标志着NGS 测序技术成功应用于致病基因的鉴定研究。同年,《Nature》发表了采用NGS 技术发现罕见弗里曼谢尔登综合征MYH3 致病基因突变和《Nat Genet》发表了遗传疾病米勒综合征致病基因。此后,通过NGS 技术,与遗传相关的致病基因不断被发现,NGS 技术已成为里程碑式的进步。2010 年,《Science》杂志将这一技术评选为当年“十大科学进展”。 近两年,基因检测成为临床诊断和科学研究的热点,得到了突飞猛进和日新月异的发展,越来越多的临床和科研成果不断涌现出来。同时,基因检测已经从单一的遗传疾病专业范畴扩展到复杂疾病和个体化应用更加广阔的领域,其临床检测范围包括高危疾病的新生儿筛查、遗传疾病的诊断和基因携带的检测以及基因药物检测用于指导个体化用药剂量、选择和药物反应等诸多方面的研究。目前,基因检测在临床诊断和医学研究的应用正越来越受到医生的普遍重视和引起研究人员的极大的兴趣。 本文介绍了几种DNA 水平基因检测常见的方法,比较其优缺点和在临床诊断和科学研究中的应用,对指导研究生和临床医生课外学习,推进临床科研工作和提升科研教学水平有着指导意义。 1、第一代测序 1.1 Sanger 测序采用的是直接测序法。1977年,Frederick Sanger 等发明了双脱氧链末端终止法,这一技术随后成为最为常用的基因测序技术。2001 年,Allan Maxam 和Walter Gibert 发明了Sanger 测序法,并在此后的10 年里成为基因检测的金标准。其基本原理即双脱氧核苷三磷酸(dideoxyribonucleoside triphosphate,ddNTP) 缺乏PCR 延伸所需的 3'-OH,因此每当DNA 链加入分子ddNTP,延伸便终止。每一次DNA 测序是由4个独立的反应组成,将模板、引物和 4 种含有不同的放射性同位素标记的核苷酸的ddNTP 分别与DNA 聚合酶混合形成长短不一的片段,大量起始点相同、终止点不同的DNA 片段存在于反应体系中,具有单个碱基差别的DNA 序列可以被聚丙烯酰胺变性凝胶电泳分离出来,得到放射性同位素自显影条带。依据电泳条带读取DNA 双链的碱基序列。 人类基因组的测序正是基于该技术完成的。Sanger 测序这种直接测序方法具有高度的准确性和简单、快捷等特点。目前,依然对于一些临床上小样本遗传疾病基因的鉴定具有很高的实用价值。例如,临床上采用Sanger 直接测序FGFR 2 基因证实单基因Apert 综合征和直接测序TCOF1 基因可以检出多达90% 的与Treacher Collins 综合征相关的突变。值得注意的是,Sanger 测序是针对已知致病基因的突变位点设计引物,进行PCR 直接扩增测序。

全外显子组检测技术参数要求

附件:全外显子组检测技术参数要求 一、公司资质: 1.拥有先进的高通量二代测序平台和高性能计算平台; 2.具有短期处理大量样本,进行全外显子组和全基因组测序的经验; 3.实验室具有国内或国外权威机构的资质认证; 4.*应标的公司必须通过医学遗传中心选送的样本测试(三个以上生物学重复),并且需交 付原始下机数据,以中心提供的标准化流程统一进行质量评估。 二、技术参数: 1)污染防控 具有独立的实验方法进行样本身份鉴定,可追溯样本间发生的错误 2)测序质量 1.Q20平均比例在90%以上。 2.Q30平均比例在85%以上。 3.GC content 分布无明显偏移。 3)测序深度、覆盖度统计 下文涉及的数据均为经过去接头、比对、排序和去重后的有效数据。数据统计涉及的相关软件除特别说明外,应使用默认参数。 1.数据质量要求: 1)Mapped unique reads相对总reads的比例(PCT_PF_UQ_READS_ALIGNED)不得低于

99% 2)有效数据总量(PF_UQ_BASES_ALIGNED)不得低于10G 3)On targeted bases相对总bases的比例(PCT_USABLE_BASES_ON_BAIT)不得低于50% 4)On and near targeted bases相对总bases的比例(PCT_SELECTED_BASES)不得低于 80% 5)全外显子碱基10X覆盖率(PCT_TARGET_BASES_10X)不得低于95% 6)全外显子碱基30X覆盖率(PCT_TARGET_BASES_30X)不得低于80% 7)全外显子组各区域覆盖的一致性统计要求:80%以上的target region的normalized coverage值不得低于0.3 三、项目内容: 500例耳聋患者全外显子组测序技术服务

人全外显子组序列捕获及第二代测序

人全外显子组序列捕获及第二代测序 概述 外显子组是指全部外显子区域的集合,该区域包含合成蛋白质所需要的重要信息,涵盖了与个体表型相关的大部分功能性变异。外显子组序列捕获及第二代测序是一种新型的基因组分析技术:外显子序列捕获芯片(或溶液)可在同一张芯片上以高特异性和高覆盖率捕获研究者感兴趣的目标外显子区域,后续利用Solexa/SOLiD/Roche 454测序直接解析数据。 与全基因组重测序相比,外显子组测序只需针对外显子区域的DNA 即可,覆盖度更深、数据准确性更高,更加简便、经济、高效。可用于寻找复杂疾病(如:癌症、糖尿病、肥胖症等)的致病基因和易感基因等的研究。同时,基于大量的公共数据库提供的外显子数据,我们能够结合现有资源更好地解释我们的研究结果。 目前,SBC提供的外显子组序列捕获芯片是NimbleGen Sequence Capture 2.1M Human Exome Array及Agilent SureSelect Target Enrichment System(Human Exome)。 技术路线 以Nimblegen外显子捕获结合Solexa测序为例加以说明:基因组DNA首先被随机打断成500bp左右的片段,随后在DNA片段两端分别连接上接头。经过PCR库检合格后的DNA 片段与NimbleGen 2.1M Human Exome Array芯片进行杂交。去除未与芯片结合的背景DNA 后,将经过富集的外显子区域的DNA片段洗脱下来。这些DNA片段又随机连接成长DNA片段

后,再次被随机打断并在其两端加上测序接头,经过LM-PCR的线性扩增,在经qPCR质量检测合格后即可上机测序。 外显子组测序的实验流程示意图(https://www.360docs.net/doc/8f4204974.html,) 生物信息学分析流程图 研究内容 1.外显子组捕获与测序 将基因组DNA随机打断成片段,通过与人全外显子捕获芯片杂交富集外显子区域,通过第二代测序技术对捕获的序列进行测序。 2.基本数据分析 数据产出统计:对测序结果进行图像识别(Base calling),去除污染及接头序列;统计结果包括:测定的序列(Reads)长度、Reads数量、数据产量。 3. 高级数据分析 高级数据分析内容包括: (1)Clean reads序列与参考基因组序列比对; (2)目标外显子区域测序深度分析; (3)目标外显子区域一致序列组装;

人外显子测序

人外显子测序 药明康德基因中心,陆桂1. 什么是外显子测序(whole exon sequencing)? 外显子组测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低,对研究基因的SNP、Indel 等具有较大的优势,但无法研究基因组结构变异如染色体断裂重组等。 2. 外显子捕获试剂盒有哪些? 目前主要有Roche、Illumina和Agilent三家的外显子捕获试剂。Nimblegen和Illumina的捕获试剂盒中的探针是DNA探针,化学性质稳;Agilent的捕获试剂盒是RNA探针,有可能RNA 不是很稳定。 3. 外显子捕获效率是什么? 外显子测序过程中要用到杂交过程。在人的染色体上有许多与外显子有同源性的部分,这些有同源性的部分很可能在杂交过程中也被捕获下来。所以,测到的序列中,有一部分不是外显子序列。我们把测序得是外显子的部分占全部测序序列的比列称为捕获效率。 Nimblegen大约是70% Agilent大约是60% Illumina大约是50% 4. 外显子测序一般建议做多少倍的覆盖? 一般做100X或者150X。较高的覆盖倍数,对于测异质性的遗传变质,可以发现小比例的突变。另外,外显子测序的覆盖不是很均匀,这样较高的平均覆盖率有利于保证大部分的区域有足够的覆盖倍数。 5. 外显子测序能够测出多大的片段缺失? 大致能测出50bp的片段缺失。目前的测序主要还是用Hiseq 2000,单侧的测长就是100bp。由于外显子测序的覆盖很不平均,所以如果有大段的缺失,无法判断是因为杂交没有捕获到,还是因为缺失。目前能够测到的,就是在一个read中发现的缺失。一个read的长度也就是100bp,所以大到50bp以下的片段缺失可以从外显子测序中测出来。 6. 外显子捕获可以做CNV吗? 外显子测序因为有一个杂交捕获的过程,这样就会有一个杂交捕获效率的问题。各个外显子的杂交效率是不同的,其同源竞争的情况也不同,所以不同的外显子的覆盖率的差异就很大。所以一般情况下,外显子测序不能用于CNV的检测。但在癌症研究中,利用癌组织和癌旁组织对照,可以检测CNV。 现在我们有另外两种常规方法来检测CNV,一种是全基因组重测序,另外一种是用Affymetrix SNP6.0的芯片来测。其中Affymetrix SNP6.0的检测费用大约只有全基因测序费用的1/10,是一个相对经济的手段。 7. 外显子测序的优点是什么?

外显子组测序

技术参数 样品要求捕获平台测序策略 测序深度 项目周期 外显子组测序 37天 1. 单基因病/复杂疾病有效测序深度50X以上 2. 肿瘤有效测序深度100X以上 注:可根据老师研究目的进行更高深度测序 HiSeq PE150 Agilent SureselectXT Custom Kit 样品总量:≥1.0 μg DNA (提取自新鲜及冻存样本) ≥1.5 μg DNA (提取自FFPE样本)样品浓度:≥20 ng/μl 参考文献 外显子组测序(Whole Exome Sequencing,WES)是利用探针杂交富集外显子区域的DNA序列,通过高通量测序,发现与蛋白质功能变异相关遗传突 变的技术手段。相比于全基因组测序,外显子组测序更加经济、高效。 1. 直接对蛋白编码序列进行测序,找出影响蛋白结构的变异 2. 高深度测序,可发现常见变异及频率低于1%的罕见变异 3. 针对外显子组区域测序,约占基因组的1%,有效降低费用,周期和工作量 技术优势 生物信息分析 基本信息分析 1. 数据质控:去除接头污染和低质量数据 2. 与参考序列进行比对、统计测序深度及覆盖度 3. SNP/InDel检测、注释及统计 4. Somatic SNV/InDel检测、注释及统计(成对样本) 高级信息分析(单基因病) 高级信息分析(复杂疾病) 高级信息分析(癌症) 1. 突变位点过滤 2. 显/隐性遗传模式分析(需老师提供家系信息) 2.1. 显性遗传模式分析 2.2. 隐性遗传模式分析 3. 候选基因功能注释 4. 新生突变筛选及分析(成三/成四家系) 4.1. de novo mutation 筛选 4.2. 新生突变速率计算 5. 候选基因功能富集 6. 蛋白互作网络分析(PPI) 7. 基因显著性分析 (推荐20对Case/Control or trios样本) 1. 突变位点过滤 2. 显/隐性遗传模式分析(需老师提供家系信息) 2.1. 显性遗传模式分析 2.2. 隐性遗传模式分析 3. 候选基因功能注释 4. 基因功能及通路分析 5. 家系连锁分析 6. 纯合子区域(ROH)分析 1. 易感基因筛查 2. NMF突变特征及突变频谱分析 3. 已知驱动基因筛选 4. 高频突变基因统计及通路富集分析 5. MRT高频突变基因相关性分析 6. OncodriveCLUST驱动基因预测 7. 高频CNV分布及重现性分析 8. 肿瘤纯度/倍性分析 9. 异质性/克隆结构分析 10. NovoDrug高频突变基因靶向用药预测11. NovoDR耐药突变筛选12. 基因组变异Circos图展示 案例解析 [案例一] 单基因病研究:外显子测序解析卵巢早衰的遗传因素[12] 卵巢早衰通常是指女性40岁之前闭经,1%的妇女患有此病,病因复杂,被认为受到遗传因素的影响。这项研究利用外显子测序技术首次在中东家系1(MO1DA)的卵巢早衰病人中发现了减数分裂基因中的STAG3基因突变可以导致隐性遗传卵巢早衰,也在小鼠动物模型和卵巢早衰病患中得到了证实。为探索卵巢早衰或卵巢功能不全的发生机理,以及阐明该病的临床高度异质性和遗传病因复杂性开辟了一个新的研究途径。 [案例二] 复杂疾病研究:外显子测序鉴定肌萎缩性脊髓侧索硬化症(ALS)的致病 基因[13] 肌萎缩性脊髓侧索硬化症(ALS),又称为渐冻症,是一种成年型的神经退行性疾病。本研究选取了47个父母+患病儿的ALS家系,利用全外显子测序寻找De novo mutatio n 。发现了25个de novo突变基因,进行功能聚类分析,锁定了1个与染色质包装、神经树突生长相关的基因CREST,后期通过细胞试验验证了该基因突变会影响神经元的伸展,证实CREST突变与ALS相关。 [案例三] 癌症研究:外显子测序研究局限性肺腺癌瘤内异质性[14] 本研究采用多区域取样分析瘤内异质性的研究思路,对11位患者的局限性肺腺癌的48个肿瘤样品进行了外显子测序。共鉴定出7269个体突变,其中21个是已知的与癌症相关的基因突变,76% 的体突变及21个已知癌症基因突变中的20个都可以在同一肿瘤的所有区域样品中检测到,表明对肿瘤的某一区域进行单次活检,以适当的深度对其测序,可以鉴别出绝大多数突变。而前期关于肾透明细胞癌的研究结果表明,肿瘤不同区域样品的共有突变仅占突变总数的31%~37%,说明肿瘤异质性在不同癌种间存在差异。 [1] Krawitz PM, Schweiger MR, R?delsperger C, et al. Identity-by-descent filtering of exome sequence data identifies PIGV mutations in hyperphosphatasia mental retardation syndrome[J]. Nature Genetics, 2010, 42(10): 827-829.[2] Liu Y, Gao M, Lv YM, et al. Confirmation by exome sequencing of the pathogenic role of NCSTN mutations in acne inversa (hidradenitis suppurativa) [J]. Journal of Investigative Dermatology,2011, 131(7): 1570-1572. [3] Wei A H, Zang D J, Zhang Z, et al. Exome sequencing identifies SLC24A5 as a candidate gene for nonsyndromic oculocutaneous albinism[J]. Journal of Investigative Dermatology, 2013, 133(7): 1834-1840. [4] Sanna-Cherchi S, Sampogna R V, Papeta N, et al. Mutations in DSTYK and dominant urinary tract malformations[J]. New England Journal of Medicine, 2013, 369(7): 621-629.[5] Musunuru K, Pirruccello J P , Do R, et al. Exome sequencing, ANGPTL3 mutations, and familial combined hypolipidemia[J]. New England Journal of Medicine, 2010, 363(23): 2220-2227. [6] O'Roak B J, Deriziotis P , Lee C, et al. Exome sequencing in sporadic autism spectrum disorders identifies severe de novo mutations[J]. Nature genetics, 2011, 43(6): 585-589. [7] Jones S, Wang T L, Shih I M, et al. Frequent mutations of chromatin remodeling gene ARID1A in ovarian clear cell carcinoma[J]. Science, 2010, 330(6001): 228-231. [8] Yan X J, Xu J, Gu Z H, et al. Exome sequencing identifies somatic mutations of DNA methyltransferase gene DNMT3A in acute monocytic leukemia[J]. Nature Genetics, 2011, 43(4): 309-315. [9] Rudin C M, Durinck S, Stawiski E W, et al. Comprehensive genomic analysis identifies SOX2 as a frequently amplified gene in small-cell lung cancer[J]. Nature Genetics, 2012, 44(10): 1111-1116. [10] Yi X, Liang Y, Huerta-Sanchez E, et al. Sequencing of 50 human exomes reveals adaptation to high altitude[J]. Science, 2010, 329(5987): 75-78. [11] Tennessen J A, Bigham A W, O’Connor T D, et al. Evolution and functional impact of rare coding variation from deep sequencing of human exomes[J]. Science, 2012, 337(6090): 64-69. [12] Caburet S, Arboleda V A, Llano E, et al. Mutant cohesin in premature ovarian failure[J]. New England Journal of Medicine, 2014, 370(10): 943-949.[13] Chesi A, Staahl B T, Jovicic A, et al. Exome sequencing to identify de novo mutations in sporadic ALS trios[J]. Nature Neuroscience, 2013, 16(7): 851-855.[14] Zhang J, Fujimoto J, Zhang J, et al. Intratumor heterogeneity in localized lung adenocarcinomas delineated by multi region sequencing[J]. Science, 2014, 346: 256-259. 群体研究 藏族人高原适应性研究[10];深度解析人类罕见遗传变异[11];…… 图1 STAG3 基因结构图 (红色箭头为 STAG3 基因突变位置) 图2 ALS家系图及CREST突变功能验证 图3 产生化疗抗性的个体样本中体突变的数量及频率

人类外显子测序

人类外显子测序 技术说明: 外显子组测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。外显子组(人类基因组的蛋白编码区域)代表不到2%的人类基因组,却包含~85%的已知致病变异。外显子组测序能高效地鉴定变异,适合广泛的应用,包括群体遗传学、遗传病和癌症研究。 技术路线:

案例分析: 【通过外显子组测序研究遗传性孤独症】 研究材料:166个中东地区的孤独症家庭、612个美国孤独症家庭 研究策略:平均测序深度158X,安捷伦捕获平台(SureSelect v2) 研究目的:寻找孤独症隐性致病突变 研究结果:研究者首先针对三个中东家庭成员利用外显子组测序寻找隐性致病突变,因为这三个家庭中父母都是堂兄妹,所以有助于检测可遗传突变。在上述家庭中发现,三个从未与孤独症关联的基因上存在隐性突变,这些基因涉及了一些严重的遗传学综合症,这类综合症往往包括孤独症行为或智力缺陷,但并非是主要症状。 在此基础上,对163个中东地区的孤独症家庭进行了全外显子组测序,发现在AMT、PEX7、SYNE1、VPS13B、PAH和POMGNT1基因上都存在双等位基因突变(biallelic mutation)。此后,又分析了612个美国孤独症家庭的全外显子组测序数据,发现上述突变中的一些也同样存在于美国孤独症家庭。这些基因大多与一些代谢或遗传学综合症有关,其中的隐性突变比较温和,使蛋白部分丧失功能。本研究说明隐性突变对孤独症的重要性。 参考文献: Using whole exome sequencing to identify inherited causes of autism.Neuron, 201 3.

外显子组测序数据分析流程

外显子组测序 介绍 外显子(exon)是真核生物基因的一部分,包含着合成蛋白质所需要的信息。全部外显子被称为“外显子组”(Exome)。外显子组测序(Exome sequencing)是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。由于外显子组测序捕获目标区域只占人类基因组长度的约1%,因此远比进行全基因组序列测序来得更简便、经济,目标区域覆盖度也更高,便于变异检测。 该项技术可用于以下研究 1)检测疾病样本中外显子区域内高风险碱基变异位点; 2)配合大样本分析,确定孟德尔遗传疾病相关外显子SNP位点和基因; 3)在癌症研究过程中,检测癌症样本外显子区域内的体细胞突变位点和潜在的融合基因; 4)用于种群遗传学研究的大规模样本基因组分析,检测SNP位点、LD并绘制种群图谱。 我们能提供详尽的全基因组重测序数据的处理和分析服务。 如您没有标准化的数据、只需流程中的局部分析内容或要求特立独行的数据分析思路,我们亦能满足您的要求。 数据处理和分析流程图

预期结果示例图 示例图1 各类型SNV在样本中的个数统计。 示例图2 不同类型外显子区域上的SNV类型统计。 示例图4 融合基因预测[1]

示例图4 大量样本的GWAS分析结果[2] 示例图5 肿瘤样本高频率突变基因统计[3] 示例图来源文献 [1]. Kangaspeska, S., et al., Reanalysis of RNA-sequencing data reveals several additional fusion genes with multiple isoforms. PLoS One, 2012. 7(10): p. e48745. [2]. Craig, J.E., et al., Rapid inexpensive genome-wide association using pooled whole blood. Genome Res, 2009. 19(11): p. 2075-80.

相关文档
最新文档