转录组学主要技术与应用研究

转录组学主要技术与应用研究
转录组学主要技术与应用研究

转录组学主要技术及其应用研究

姓名:梁迪

专业:微生物学

年级:2013

学号:3130179

二零一四年六月十五日

转录学主要技术及其应用研究

摘要:转录组(transcriptome)是特定组织或细胞在某一发育阶段或功能状态下转录出来的所有RNA的集合。转录组学研究能够从整体水平研究基因功能以及基因结构,揭示特定生物学过程以及疾病发生过程中的分子机理。目前,转录组学研究技术主要包括两种:基于杂交技术的微阵列技术(microarray)和基于测序技术的转录组测序技术,包括表达序列标签技术(Expression Sequence Tags Technology,EST)、基因表达系列分析技术(Serial analysis of gene expression,SAGE)、大规模平行测序技术(Massively parallel signature sequencing,MPSS)、以及RNA 测序技术(RNA sequencing,RNA-seq)。文章主要介绍了以上转录组学主要研究技术的原理、技术特点及其应用,并就这些技术面临的挑战和未来发展前景进行了讨论,为其今后的研究与应用提供参考。

关键词:转录组学;微阵列技术;转录组测序技术;应用

Study on the main technologies of transcriptomics

and their application

Abstract: The transcriptome is the complete set of transcripts for certain type of cells or tissues in a specific developmental stage or physiological condition. Transcriptome analysis can provide a comprehensive understanding of molecularmechanisms involved in specific biological processes and diseases from the information on gene structure and function. Currently, transcriptomics technology mainly includes microarry -based on hybridization technology and transcriptome sequencing-based on sequencing technology, involving Expression sequence tags technology, Serial analysis of gene expression, Massively parallel signature sequencing and RNA sequencing. The detailed principles, technical characteristics and applications of the main transcriptomics technologies are reviewed here, and the challenges and application potentials of these technologies in the future are also discussed. This will present the useful information for other researchers. Keywords: transcriptomics ; microarray ; transcriptome sequencing; application

随着后基因组时代的到来,转录组学、蛋白质组学、代谢组学等各种组学技术相继出现,其中转

录组学是率先发展起来以及应用最广泛的技术[1]。

1 转录组和转录组学

转录组概念是最先由V eclalesuc和Kinzler等人于1997年提出[2]。转录组(transcriptome)广义上是指某个组织或细胞在特定生长阶段或生长条件所转录出来的RNA总和,包括编码蛋白质的mRNA和各种非编码RNA,如rRNA、tRNA、snoRNA、snRNA、microRNA及其他非编码RNA等。但狭义上通常仅以mRNA为研究对象。由转录组的定义可见,其包含了特定的时间和空间限定,这与基因组的概念不同。因此,同一组织或细胞在不同生长条件、生长阶段,其转录组是不同的。通过遗传学中心法则我们可以知道,遗传信息的传递是以信使RNA(mRNA)为“桥梁”,从DNA传递到蛋白质。由此可见,转录组的研究不仅可以解释细胞或组织的基因组的功能元件,揭示分子成分,还可以用来认识生物学进程和疾病发生机制[3,4]。

转录组学(transcriptomics)是功能基因组学(Functional Genomics)研究的重要组成部分,是一门在整体水平上研究细胞中所有基因转录及转录调控规律的学科[5,6]。随着人类基因组计划HGP( Human Genome Project)的完成,科学家也逐渐认识到对基因结构序列的研究仅仅是基因组学研究的一部分,并不能揭示所有的生命奥秘,所以接下来需要解决的问题是:研究这些基因序列的功能、参与的生命过程、表达调控方式,以及这些基因在不同的时空条件下的表达差异等。这些问题都需要功能基因组学技术来解决,而转录组学技术是功能基因组学研究的重要组成部分。对基因及其转录表达产物功能研究的功能基因组学,将为疾病控制和新药开发、作物和畜禽品种的改良提供新思路,为人类解决健康问题、食物问题、能源问题和环境问题提供新方法。

2 转录组学研究的方法

在早期,由于测序价格昂贵、基因序列数目有限,转录组学研究者只能进行极少数特定基因的结构功能分析和表达研究。最近十几年,分子生物学技术的快速发展使高通量分析成为可能,这为真正意义上的转录组学的研究奠定了基础。这些高通量研究方法主要可以分为两类:一类是基于杂交的方法,主要是指微阵列技术(Microarray);一类是基于测序的方法,这类方法包括表达序列标签技术(Expression Sequence Tags Technology,EST)、基因表达系列分析技术(Serial analysis of gene expression,SAGE)、大规模平行测序技术(Massively parallel signature sequencing,MPSS)、RNA 测序技术(RNA sequencing,RNA-seq)。其中,Microarray 和EST 技术是较早发展起来的先驱技术,SAGE、MPSS 和RNA-seq 是高通量测序条件下的转录组学研究方法转录组学研究有助于了解特定生命过程中相关基因的整体表达情况,进而从转录水平初步揭示该生命过程的代谢网络及其调控机理。

2.1 微阵列技术(Microarry)

微阵列技术是分子生物学领域具有里程碑式意义的重大突破,它可以同时测量不同样本中成千上万

个基因在不同环境和不同状态下的表达水平。基因表达数据是基于DNA 微阵列技术而产生的反映基因转录产物mRNA 丰度值的一组数据。数据中蕴含着丰富的基因活动信息,通过对这些数据中所隐含的基因活动信息进行分析,就可以解答一些生物学领域的问题。如基因的表达在不同环境中有哪些差异,基因的表达在特定条件下有哪些变化,基因之间有哪些相关性,以及在不同条件下基因的活动受到哪些影响等等[7]。

2.1.1 原理和方法

DNA微阵列基本制作原理为大规模集成电路所控制的机器人在尼龙膜或硅片固相支持物表面,有规律地合成成千上万个代表不同基因的寡核苷酸“探针”,或液相合成探针后由阵列器(arrayer)或机器人点样于固相支持物表面。这些“探针”可与用放射标记物32P或荧光物如荧光素、丽丝胺等标记的目的材中的DNA或cDNA互补核酸序列相结合,通过放射自显影或激光共聚焦显微镜扫描后,对杂交结果进行计算机软件处理分析,获得杂交信号的强度及分布模式图,以此反映目的材料中有关基因表达强弱的表达谱。该技术仍以基因连锁、连锁不平衡、限制性长度多态性、可变串联重复序列及单核苷酸多态性标记等基因定位方法为基础,采用分子杂交等多种技术方法为手段,进行遗传作图,对不同材料中的多个基因表达模式进行平行对比分析,是一种高产出的、新的基因分析方法。以尼龙膜为固相支持物的DNA微阵列和以硅片为固相支持物的DNA芯片,二者在原理上相同,仅在支持物及检测手段等方面略有不同。在微阵列里最大的一类DNA microarray根据探针分子的构成又可以分为cDNA微阵列和寡核苷酸微阵列。

(1)cDNA微阵列

cDNA微阵列是指对各种生物随机克隆和随机测序所得的cDNA片段进行归类,并把每一类cDNA 片段的代表克隆(代表一个独立基因)经过体外扩增,得到大小和序列不同的片段分别经过纯化后,利用机械手高速将它们高密度有序地点样固定在玻片硅晶片或尼龙膜上,从而制备成cDNA微阵列,以此对各基因的表达情况进行同步分析。它的特点是造价低、适用面广、研制周期短、灵活性高。而缺点是点阵密度相对比较低。同时,cDNA微阵列由于基因长短不一,导致溶解温度Tm各异,众多的基因在同一张芯片上杂交,使得杂交条件很难同一,这样也使得其分辨能力受到限制。

(2)寡核苷酸微阵列

寡核苷酸微阵列的主要原理与cDNA微阵列类似,主要是通过碱基互补配对原则进行杂交,来检测对应片断是否存在、存在量的多少。它与cDNA芯片的本质差别在于寡核苷酸的探针片断相对较短(一般是20-70nt的寡聚核苷酸序列)。寡聚核苷酸微阵列的探针经过优化,长度基本一致,并且Tm也相差不大,所以相比较cDNA微阵列它具有以下优点:1.无需扩增,防止扩增失败影响实验;2.减少非特异性杂交,能够有效的区分同源序列的基因;3.杂交温度均一,提高了杂交效率;4.减少了微阵列片上探

针的二级结构。上述特点使得寡核苷酸微阵列的应用日益广泛。但是当寡核苷酸序列较短时,单一的序列不足以代表整个基因,所以又需要用多段序列,从而提高了制作成本。

2.1.2 应用

(1)表达差异的研究

1995年Schena等用了48个PCR扩增的cDNA探针点制的微阵列片分析了野生型和转基因的拟南芥中基因表达差异,并与Northern blot作了比较。发现Microarray能够很好的检测到基因表达水平上的差异,并且能够在同一张玻片上使用不同的荧光染料同步进行差异比较。近年来,研究多集中于突变型与野生型、环境胁迫与正常生长型、激素处理与未处理或者不同组织器官之间的比较。Ma等[8]利用寡核苷酸微阵列研究了玉米3个雄性不育突变体和可育植株花药4个发育阶段的基因表达情况,检测到了近9200个正反义转录本。通过比较每个突变体与其可育花药的基因表达差异,筛选到了一大批可能与花药分化相关的重要转录因子和调控因子。Schena等[9]用人外周血淋巴细胞的cDNA文库构建一个代表1 046个基因的cDNA微阵列,来检测体外培养的T细胞对热休克反应后不同基因表达的差异。发现有5个基因在处理后存在非常明显的高表达,11个基因中度表达增加和6个基因表达明显抑制。

(2)寻找可能致病基因或疾病相关基因

Moch等利用肿瘤微阵列芯片(5184个cDNA片段)发现了肾细胞癌的肿瘤标志物基因,并与正常细胞进行比较。在532份标本中检测到与胞浆纤维表达有关的一类基因阳性率为51%-61%,命名为vimentin。追踪观察,有Vimentin表达的患者,预后极差。Moch等利用肿瘤微阵列芯片(5184个cDNA 片段)发现了肾细胞癌的肿瘤标志物基因,并与正常细胞进行比较。在532份标本中检测到与胞浆纤维表达有关的一类基因阳性率为51%-61%,命名为vimentin。

(3)基因点突变及多态性检测

现用于治疗AIDS的药物主要是病毒逆转录酶RT和蛋白酶PRO的抑制剂,但在用药3~12月后常出现耐药,其原因是rt、pro基因产生一个或多个点突变,rt基因四个常见突变位点是Asp67→Asn、Lys70→Arg、Thr215→Phe/Tyr和Lys219→Gln,四个位点均突变较单一位点突变后对药物的耐受能力成百倍增加[10]。如将这些基因突变部位的全部序列构建为DNA芯片,则可快速地检测待测病人是一个还是多个基因突变,这对指导治疗和预后而具有十分重要的意义。Lee等[11]用含有135 000个探针的DNA微阵列分析了人线粒体基因组DNA多态性变化。该组探针互补于人线粒体基因组全长16.6 kb,将之与不同个体来源的基因组DNA杂交,发现人线粒体基因组存在16 493位T→C突变,16 223位C→T等多位点突变的DNA多态性特征。

2.1.3 不足和展望

DNA微阵列或芯片几乎可用于所有核酸杂交技术的各个方面,而在同时比较各组织或同一组织

在不同状态下上成千上万个基因的表达状况、DNA序列分析等方面具有更大的优越性[12]. 有人誉赞“微阵列技术铺平了通往21世纪的医学之路”[13],相信在不久的将来, DNA芯片或微阵列技术将会广泛应用于基础及临床医学各个方面,而发挥出巨大的经济、社会效益。

随着微阵列技术的广泛应用,其内在缺陷也日益暴露出来,成为其发展的瓶颈。第一,技术水平还需要不断提高。非特异性杂交是微阵列技术的亟待解决的问题,目前,对于这个问题,在实验中一般采用提高杂交温度的方法,减少非特异性序列间的相互影响。然而在提高杂交温度的同时,又很可能造成微阵列灵敏性的降低,使一些应该能够检测到的基因表达状况得不到准确的反映,研究者只能在其中寻找平衡;第二,不同时间不同地点不同平台的微阵列结果难于比较。操作者本身造成的实验误差不可避免,还有样品DNA在取样上的误差,此外,由于实验仪器和操作平台的差别,包括不同实验地点的差别,也导致了相同样本检测到的表达基因相差很大[14];第三,数据处理难度大。由于微阵列往往集成了成千上万个基因信息,而且微阵列信号中往往掺杂了大量的背景噪音,最终大量的微阵列数据,如何与生物体内在的因素相结合,所以,微阵列技术中最大的挑战来源于数据的处理和数据的挖掘。

2.2 表达序列标签技术(EST)

基因表达序列标签(expressed Sequence tags,ESTs)为长约200-800bp的cDNA部分序列。最早利用EST 技术是1991年Adms用人脑组织cDNA得到的EST进行的,当时人类基因组计划刚刚开始,一些科学家就主张cDNA测序应该先于基因组测序进行,原因是基因组的编码区代表了基因组绝大部分信息,而且是对我们直接有用的,而编码区长度只有总基因组长度的3%因此可以用最低的代价、最短的时间获取最多最有用的信息。有了EST的方法之后,人们可以用比cDNA测序更低的费用而得到等量的信息,因此EST技术已成为目前发现新基因的强有力的信息工具。

2.2.1 原理和方法

一个典型的真核生物mRNA分子由5’-U TR (5’ 端转录非翻译区)、ORF (开放阅读框架)、3’-U TR (3’ 端转录非翻译区)和poly (A )四部分组成,其cDNA具有对应的结构。对于任何一个基因,其5’-UTR 和3’-U TR都是特定的,即每条cDNA的5’端或3’端的有限序列可特异性地代表生物体某种组织在特定的时空条件下的一个表达基因。来自某一组织的足够数量的ESTs可代表某种组织中基因的表达情况[ 1 ]。EST 的数目可以反映某个基因的表达情况,一个基因的拷贝数越多,其表达越丰富,测得的相应EST 就越多。所以,通过对生物体EST的分析可以获得生物体内基因的表达情况和表达丰度。要获得生物体EST 信息,通常应先构建其某个代表性组织的cDNA文库,然后从中随机挑取大量克隆,根据载体的通用引物进行测序,一般可以得到其5’或3’端的200-500 bp的碱基序列,然后将测得的EST序列与网上已有的EST数据库进行比较,根据同源性大小,可以初步鉴定出哪些EST 代表已知基因,哪些EST代表未知基因,并可以对生物体基因的表达丰度进行分析。

以EST 分析基因表达丰度的原理是这样的:基因x的高水平表达将导致高水平的mRNAx合成,而与mRNA x相对应的cDNA在cDNA文库中的含量也会很丰富。所以,在对cDNA 文库中的大量克隆进行随机测序后,统计与基因x的mRNA相对应的EST数目,就可估计原先mRNA群体中的mRNA x的丰度。而且,以与mRNA x相对应的EST 数目除以所得到的EST 总数,就可得到mRNA x 绝对丰度的估计值。White等人称这种以cDNA 测序来估计基因表达水平的方法为“电子Northern”(electronic Northern) 或“数字Northern”(digital Northern)。EST构建的技术路线为:提取样品的总RNA 或带有polyA的mRNA →构建cDNA文库,随机挑取大量克隆进行→EST测序→对测得的EST序列进行组装、拼接→对网上己有的EST数据库进行同源性比较→确定EST代表的是己知基因还是未知基因→对基因进行定位、结构、功能检测分析。

2.2.2 应用

(1)基因组物理图谱的绘制

通过已知的EST序列设计引物对基因组BAC文库进行PCR能产生扩增条带的那个克隆就是EST在染色体上的位置,这个EST就可以被定位在几号染色体上,进而亚定位至染色体的某个区段。另外也可以用EST序列提供的探针与基因组BAC文库杂交,同样能将某个已知EST在染色体上定位和亚定位。EST 与STS(特定序列位点)在基因组作图上有相同的作用,而且EST位点还直接与一个表达的基因位置相对应。

(2)基因的电子克隆

电子克隆技术是以算法为核心,以计算机和互联网为工具,利用现有的表达序列标签(EST ) 和生物信息数据库,对其中大量EST进行分类、整合、组装,直接获得大片段或cDNA 全长的方法。由于EST 序列是全世界很多实验室随机产生的,所以属于同起来, 通过EST assembly 程序在EST 库中搜索与之高度重叠的EST ,并将它们组装成一致序列(consensus sequence) ,再用它检索数据库并逐次放宽匹配条件,重复组装以获得尽可能长的或全长cDNA 序列。电子克隆技术的出现,可充分利用现有的信息资源,别是利用其它模式生物的EST信息,快速发现有用基因。但该技术也有局限,如果参数限制条件太低,很可能会得到错误结果;而参数条件限制太高,就可能没有结果。对于所拼接出来的基因还需要从生物学意义上进行分离和鉴定。

(3)分离鉴定新基因

对某一特异组织或某一生长发育阶段的cDNA文库进行随机的部分测序,得到大量EST,将这些EST 作查询项在dbEST中进行同源查找,同时将由EST推出的氨基酸序列作为查询项在PIR中查找类似物,很就可以识别这些基因到底是什么基因;对于那些在以上数据库中没有找到类似物的EST,再把它们置于6个ORF下,翻译出推定的氨基酸序列,将可能的氨基酸序列作为查询项,在PIR数据库中查找类似物,

果有类似物,就认为这个EST代表着这个蛋白的基因。对于通过EST数据库和PIR数据库已识别的EST,还可以通过探针杂交从cDNA文库中分离我们所感兴趣的那个全长cDNA克隆。对于那些在dbEST和PIR 数据库中都没有类似物的EST,就可能是完全新的基因,需要进一步识别和研究它。

(4) 通过EST寻找SSR和SNP分子标记

从EST数据库中筛选SSR和SNP的主要优点在于,这样筛选出来的SSR和SNP分子标记直接与基因的编码区相对应,即得到的往往是基因相关标记(gene-associated markers);另外,从EST中筛选SSR和SNP 比从基因组中筛选费用要小得多。筛选的大致步骤为:EST重叠群的组装;通过对大量重复的EST进行序列比较,识别出候选SSR或SNP;对候选SSR或SNP进行确认。总之,通过对大量EST数据的归纳整理是寻找SSR和SNP以构建高密度遗传图谱的最经济的方法。除了以上用途外,EST还在基因结构分析(内含子、外显子识别)、基因表达及重组蛋白表达的分析中具有重要作用。

(5)RNAi技术的研究

结合GA TEW AY技术和基因转化技术用于突变体库建立的RNAi技术,开发出了pHellsgate 系列载体,将该技术与cDNA文库构建技术和大规模EST测序技术相结合,使得大规模基因的敲除成为了可能。RNAi 指外源性双链RNA (dsRNA )能抑制细胞内与其序列同源的基因的表达。在进化上,这可能是生

物调控基因表达及抵御病毒侵染或转座子诱导DNA突变的一种共生有的生理机制。该技术最大的优点

就是可以获得大规模的缺失突变体,为基因功能的研究提供了很好的研究工具,同时EST作为序列标签,可以很好地实现表型相关的基因克隆。

2.2.3 不足和展望

EST技术己成为一种强有力的工具,帮助人们揭示基因组所包含的信息,使基因组研究进入一个新的阶段。随着“后基因组”时代的到来,生物信息学在基因功能研究中发挥着越来越重要的作用。而EST数据处理和分析是生物信息学分析的核心任务之一,它为新基因的克隆和功能分析提供了新的出发点。EST数据库为新基因的发现和基因表达研究提供了大量的信息和分析材料,也为DNA分子标记的开发奠定了基础。

但是,目前EST研究还存在许多问题。第一,大量EST序列信息整理的问题。随着EST数据的不断增加,利用生物信息学方法建立高通量、自动化的EST数据分析平台,己成为EST研究急需解决的问题之一;第二,EST文库中基因表达丰度的问题。植物基因组极其庞大,某一特定组织在特定时期的基因表达频率各不相同。在获取有用的、新的EST方面效率较低,人力物力浪费严重;第三,就世界范围来讲,如何避免不同研究机构对同一物种进行重复测序,协调好科学家之间的分工,加快植物EST 计划的进程,也是一个需要解决的问题。

2.3新一代高通量测序技术

2.3.1 原理和方法

(1)基因表达系列分析技术(SAGE)

SAGE技术是由Velculescu 等人[15]在1995 提出,是一种可以定量并同时分析大量转录本的方法。1998年,Powell[16]利用生物素标记的PCR引物合成生物素标记的接头,并利用链霉抗生物素蛋白磁珠绑定接头,这就有效地去除了一些多余的接头,从而提高了SAGE技术分析的效率。SAGE 技术大致理论依据有两点:第一,来自cDNA特定位置的一段9-13bp 的序列能够包含有足够的信息作为确认唯一一种转录物的SAGE标签(9个碱基能够分辨49个不同转录物);第二,将来自不同cDNA 的SAGE 标签集于同一个克隆中进行测序,就可以获得连续的短序列SAGE标签,而这些SAGE标签可以显示对应的基因的表达情况。SAGE 技术的主要技术路线:

1)将提取的总RNA,通过生物素标记的oligo(dT)引物合成cDNA,用锚定酶(一般为4 碱基的限制性内切酶)酶切,利用链霉抗生物素蛋白磁珠收集酶切后cDNA片段的3’部分。

2)将收集的cDNA 片段分为两等份,分别加上含有标签酶(一种Ⅱ类限制酶,在距离识别位点大概20 碱基处酶切DNA 双链)识别位点的接头A 和B。

3)将连有接头A 或B 的cDNA 短片段分别用标签酶酶切,再将两份样品混合,以连接形成双标签,这样就可以用与接头A、B 互补的引物扩增。

4)用锚定酶酶切PCR 富集的产物,得到双标签片段,将10-50个标签序列置于一个克隆中进行测序。

5)对得到的标签数据进行处理。

为了适应不同的试验需要,目前出现了许多新型SAGE 技术,如superSAGE、robust longSAGE、PCR-SAGE、SAR-SAGE等[17]。虽然SAGE 技术可以快速、大量分析细胞或组织的基因表达状态,但不能完全保证检测到一些低丰度的mRNA,因而限制该技术的应用。

(2)大规模平行测序技术(MPSS)

MPSS 技术是由Brenner 等[18]在2000 年建立的以测序为基础的大规模高通的基因分析技术。其方法的理论基础[19]是:一个标签序列(一般10-20bp)含有其对应cDNA 的足够识别信息,将标签序列与某种长的连续分子连接在一起,可以便于克隆和测序分析,而每个标签序列的出现频率又能够代表其相应基因的表达量。MPSS 技术的方法包括两个基本过程:第一,cDNA 片段、标签和微球体的结合;第二,测序反应。具体步骤为:

1)利用生物素标记的oligo(dT)引物将mRNA 反转录成cDNA 双链,再将合成的生物素标记的cDNA 片段用Dpn Ⅱ限制性内切酶(酶切位点是GATC)消化。

2)将消化并纯化后的片段克隆到含有32bp TAG 序列的标签(tag)载体中,这样就可以通过与标签中序列互补的引物扩增插入的片段,再通过酶切,获得线性化的PCR 扩增产物(含有cDNA 序列和特异性的32bp 标签序列)。

3)每个微球体含有一种与32bp 标签序列互补的序列(anti-tag),PCR 扩增产物片段通过32bp 标签与anti-tag 杂交,进而连接到微球体上,每个微球体大概可以承载104-105个相同的cDNA 拷贝,将微球体排列在一个表面上。

4)测序反应过程,将接头、BbvⅠ酶(ⅡS 型限制性酶,可以酶切距离识别位点9-13个碱基)识别位点和识别序列(recognition sequence)结合在微球体上的cDNA 片段上末端的4个游离碱基,加入16 种不同的荧光标记的解码器探针与接头杂交,获得相应的荧光信号,以读取这4个碱基的序列,经BbvⅠ酶消化后,在cDNA 片段上再次产生4个碱基末端,去掉酶切序列后可以进行下一轮的分析,这样经过5次反应就可以测出每一个微球体上长度为17bp 的cDNA序列。

该技术的特点是可以分析未知序列的基因、基因组覆盖度高、能测得低表达丰度的基因、实验效率高,但要选择合适的标签序列,如果出现基因和标签之间的非特异性,将容易产生分析错误。

(3)RNA 测序技术(RNA-seq)

该技术首先将细胞中的所有转录产物反转录为cDNA文库(利用最新的SMS技术可略去这一步,直接对RNA进行测序[20]),然后将cDNA文库中的DNA随机剪切为小片段(或先将RNA片段化后再转录),在cDNA 两端加上接头利用新一代高通量测序仪测序,直到获得足够的序列,所得序列通过比对(有参考基因组)或从头组装(denovoas-sembling,无参考基因组)形成全基因组范围的转录谱。

2.3.2 应用

(1)SAGE技术能够同时检测到大量的基因转录本,一个测序反应可得到40个左右标签序列。同时,由于SAGE技术的灵敏度很高,可以检测出低丰度表达的基因,所以通过该技术不仅能够很全面的获得基因表达的数目、表达丰度等信息。因此,SAGE技术是一种预测基因数目和发现新基因的有效途径。SAGE还可用于在不同生理状态、不同环境、或不同生长阶段的细胞或组织的基因表达图谱构建,对不同状态下基因表达水平的定量或定性比较。目前,通过SAGE技术对疾病组织与正常组织的基因表达差异的进行比较应用较多,而且己发现了许多在癌症组织中上调表达的基因。这些上调基因,尤其那些是在正常组织中不表达或少量表达的基因,很可能成为有用的肿瘤诊断和预测指标或潜在的治疗位点。(2)MPSS一方面可提供某一cDNA在体内特定发育阶段的拷贝数,另一方面还可测定出相应cDNA 17 bp的序列,所以这就为在转录水平上进行基因表达分析提供了强有力的定性和定量手段,很明显,这一技术首先可以应用于不同丰度基因的差异表达分析,制作基因转录图谱,这无疑将加速新基因克隆和基因功能的分析。MPSS所获得的基因序列可提供PCR引物,可通过比较Gen Bank EST 数据库等进行

基因定位,也可转化为分子标记构建遗传图谱等等,因此该技术可广泛用于动植物体分类学和遗传学,功能基因组学, 蛋白质组学等研究。

(3)RNA-seq的精确度高,能够在单核苷酸水平对任意物种的整体转录活动进行检测,可以用于分析真核生物复杂的转录本的结构及表达水平,精确地识别可变剪切位点以及cSNP(编码序列单核普酸多态性),提供最全面的转录组信息;RNA-Seq除了可以确定基因组信息己知物种的转录本,同样也些较低丰度的转录物,最大限度地收集基因组的基因表达信息,是从总体上全面研究基因表达、构建基因表达图谱的首选策略,并可在此基础上,发现新的基因。

2.3.3 不足和展望

EST 技术[21,22],虽然可以直接检测cDNA序列,但这种方法的检测量较低、价格贵并且一般很难达到定量的分析目的;SAGE技术[23,24]和MPSS技术[18,25]克服了EST术的缺点,具备高通量、精确性、数字化信号等特点,但大多数依赖于价格昂贵的Sanger测序技术,并且短的标签序列的有效部分不能特异性地匹配到参照基因组上。相比之下, RNA-Seq技术具有数字化信号、高灵敏度、任意物种的全基因组分析、更广的检测范围等诸多独特优势。然而和其他所有新生技术一样,RNA-Seq 技术也面临着一系列新问题:其一是庞大的数据量所带来的信息学难题。其二是如何针对更复杂的转录组来识别和追踪所有基因中罕见RNA 亚型的表达变化。其三,目前的高通量测序技术大都需要较多的样品起始量。最后,标准的RNA-Seq 技术不能提供序列转录的方向信息。虽然RNA-Seq 技术还面临着种种困难,但作为一个刚刚起步的新技术,相信随着相关学科的进一步发展和测序成本的进一步降低,RNA-Seq必将在转录组学研究领域占主导地位。

参考文献:

[1] Lockhart DJ, Winzeler EA. Genomics, gene expression and DNA arrays. Nature, 2000, 405(6788): 827–836.

[2] Velculescu VE, Zhang L, Zhou W, et al : Characterization of the yeast transcriPotme.Cell1997,88(2):243一251.

[3] Wang Z, Gerstein M, Snyder M. RNA-Seq: a revolutionary tool for transcriptomics [J]. Nat Rev Genet, 2009, 10(1): 57-63.

[4] Costa V, Angelini C, De Feis I, et al. Uncovering the complexity of transcriptomes with RNA-Seq [J]. J BiomedBiotechnol,

2010, 2010: 853916.

[5] 祁潜, 刘永斌, 荣威树. 转录组研究新技术:KNA - Se及其应用[J]. 遗传, 2011(10:1191- 1202.

[6] 李小白, 向林, 罗洁, 等.转录组测序(RNA-Seq)策略及其数据在分子标记开发上的应用[J]. 中国细胞生物学学报.

2013.35(5):720-726.

[7] 任丛林.基于压缩感知算法的基因表达数据分类的研究[D]. 北京:北京交通大学计算机与信息技术学院,1998.

[8] Ma J, Dunean D, Morrow DJ,, Fernandes, et al. Transcriptome profiling of maize anthers using genetic ablation to analyze

Pre-meiotic and tapetal cell types. Plant J, 2007, 50:637一648.

[9] Schena M, Shalon D, Heller R, et al. Parallel human genome analysis: microarray-based expression monitoring of 1000

genes.Proc Natl Acad Sci USA, 1996,93(20): 10614~10619.

[10]Lipshutz D, Morris D, Chee M,et al. Using oligonucleotide probe arrays to access genetic diversity. BioTechniques, 1995,

19(3): 442~447

[11] Lee M, Yang R, Hubbell E,et al. Accessing genetics information with high-density DNA arrays. Science, 1996,274: 610~613

[12] Ramsay G. DNA chips: state-of-the art. Nature Biotechnology,1998,16: 40~44.

[13] Nelson N. Microarrays pave the way to 21stcenetury medicine. Journal of the National Cancer Institute, 1996,88(22):

1803~1805].

[14] Tan PK, Downey TJ, Spitznagel EL et al. Evaluation of gene expression measurements from commercial

microarray platforms. ucleic Acids Res. 2003Oct 1;31(19):5676-84.

[15] Velculescu V E, Zhang L, V ogelstein B, et al. Serial analysis of gene expression [J]. Science, 1995, 270 (5235):484-487.

[16] Powell J. Enhanced concatemer cloning—a modification to the SAGE(serial analysis of gene expression)technique [J].

Nucleic Acids Res, 1998, 26: 3445-3446.

[17] Hu M, Polyak K. Serial analysis of gene expression [J]. Nat Protoc, 2006, 1 (4): 1743-1760.

[18] Brenner S, Johnson M, Bridgham J, et al. Gene expression analysis by massively parallel signature sequencing(MPSS) on

microbead arrays [J]. Nat Biotechnol, 2000, 18 (6): 630-634.

[19] 陈杰. 大规模平行测序技术(MPSS)研究进展[J]. 生物化学与生物物理进展, 2004, 31 (8): 761-765.

[20] Haas BJ, Zody MC. Advancing RNA-Seq analysis. Nat Biotechnol. 2010, 28(5): 421-423.

[21] Boguski M S, Tolstoshev C M, Bassett Jr D E. Gene discovery in dbEST [J]. Science, 1994, 265 (5181):1993-1994.

[22] Aksoy I A, Wood T C, Weinshilboum R. Human liver estrogen sulfotransferase: identification by cDNA cloning and

expression [J]. Biochem Biophys Res Commun, 1994, 200 (3): 1621-1629.

[23] Velculescu V E, Zhang L, V ogelstein B, et al. Serial analysis of gene expression [J]. Science, 1995, 270 (5235):484-487.

[24] Powell J. Enhanced concatemer cloning—a modification to the SAGE(serial analysis of gene expression)technique [J].

Nucleic Acids Res, 1998, 26: 3445-3446.

[25] Reinartz J, Bruyns E, Lin J-Z, et al. Massively parallel signature sequencing (MPSS) as a tool for in-depth quantitative gene

expression profiling in all organisms [J]. Briefings in functional genomics & proteomics, 2002.

有参考基因组的转录组生物信息分析

一、生物信息分析流程 获得原始测序序列(Sequenced Reads)后,在有相关物种参考序列或参考基因组的情况下,通过如下流程进行生物信息分析: 二、项目结果说明 1 原始序列数据 高通量测序(如illumina HiSeq TM2000/MiSeq等测序平台)测序得到的原始图像数据文件经碱基识别(Base Calling)分析转化为原始测序序列(Sequenced Reads),我们称之为Raw Data或Raw Reads,结果以FASTQ(简称为fq)文件格式存储,其中包含测序序列(reads)的序列信息以及其对应的测序质量信息。 FASTQ格式文件中每个read由四行描述,如下: @EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG GCTCTTTGCCCTTCTCGTCGAAAATTGTCTCCTCATTCGAAACTTCTCTGT + @@CFFFDEHHHHFIJJJ@FHGIIIEHIIJBHHHIJJEGIIJJIGHIGHCCF 其中第一行以“@”开头,随后为illumina 测序标识符(Sequence Identifiers)和描述文字(选择性部分);第二行是碱基序列;第三行以“+”开头,随后为illumina 测序标识符(选择性部分);第四行是对应序列的测序质量(Cock et al.)。 illumina 测序标识符详细信息如下:

第四行中每个字符对应的ASCII值减去33,即为对应第二行碱基的测序质量值。如果测序错误率用e表示,illumina HiSeq TM2000/MiSeq的碱基质量值用Q phred 表示,则有下列关系: 公式一:Q phred = -10log 10 (e) illumina Casava 1.8版本测序错误率与测序质量值简明对应关系如下: 2 测序数据质量评估 2.1 测序错误率分布检查 每个碱基测序错误率是通过测序Phred数值(Phred score, Q phred )通过公式1转化得到,而Phred 数值是在碱基识别(Base Calling)过程中通过一种预测碱基判别发生错误概率模型计算得到的,对应关系如下表所显示: illumina Casava 1.8版本碱基识别与Phred分值之间的简明对应关系 测序错误率与碱基质量有关,受测序仪本身、测序试剂、样品等多个因素共同影响。对于RNA-seq技术,测序错误率分布具有两个特点: (1)测序错误率会随着测序序列(Sequenced Reads)的长度的增加而升高,这是由于测序过程中化学试剂的消耗而导致的,并且为illumina高通量测序平台都具有的特征(Erlich and Mitra, 2008; Jiang et al.)。 (2)前6个碱基的位置也会发生较高的测序错误率,而这个长度也正好等于在RNA-seq 建库过程中反转录所需要的随机引物的长度。所以推测前6个碱基测序错误率较高的原因为随机引物和RNA模版的不完全结合(Jiang et al.)。测序错误率分布检查用于检测在测序长度范围内,有无异常的碱基位置存在高错误率,比如中间位置的碱基测序错误率显着高于其他位置。一般情况下,每个碱基位置的测序错误率都应该低于0.5%。 图2.1 测序错误率分布图

转录组学主要技术与应用研究

转录组学主要技术及其应用研究 姓名:梁迪 专业:微生物学 年级:2013 学号:3130179 二零一四年六月十五日

转录学主要技术及其应用研究 摘要:转录组(transcriptome)是特定组织或细胞在某一发育阶段或功能状态下转录出来的所有RNA的集合。转录组学研究能够从整体水平研究基因功能以及基因结构,揭示特定生物学过程以及疾病发生过程中的分子机理。目前,转录组学研究技术主要包括两种:基于杂交技术的微阵列技术(microarray)和基于测序技术的转录组测序技术,包括表达序列标签技术(Expression Sequence Tags Technology,EST)、基因表达系列分析技术(Serial analysis of gene expression,SAGE)、大规模平行测序技术(Massively parallel signature sequencing,MPSS)、以及RNA 测序技术(RNA sequencing,RNA-seq)。文章主要介绍了以上转录组学主要研究技术的原理、技术特点及其应用,并就这些技术面临的挑战和未来发展前景进行了讨论,为其今后的研究与应用提供参考。 关键词:转录组学;微阵列技术;转录组测序技术;应用 Study on the main technologies of transcriptomics and their application Abstract: The transcriptome is the complete set of transcripts for certain type of cells or tissues in a specific developmental stage or physiological condition. Transcriptome analysis can provide a comprehensive understanding of molecularmechanisms involved in specific biological processes and diseases from the information on gene structure and function. Currently, transcriptomics technology mainly includes microarry -based on hybridization technology and transcriptome sequencing-based on sequencing technology, involving Expression sequence tags technology, Serial analysis of gene expression, Massively parallel signature sequencing and RNA sequencing. The detailed principles, technical characteristics and applications of the main transcriptomics technologies are reviewed here, and the challenges and application potentials of these technologies in the future are also discussed. This will present the useful information for other researchers. Keywords: transcriptomics ; microarray ; transcriptome sequencing; application 随着后基因组时代的到来,转录组学、蛋白质组学、代谢组学等各种组学技术相继出现,其中转 录组学是率先发展起来以及应用最广泛的技术[1]。

转录组RNAseq术语解释

RNA-Seq名词解释 1.index 测序的标签,用于测定混合样本,通过每个样本添加的不同标签进行数据区分,鉴别测序样品。 2.碱基质量值 (Quality Score或Q-score)是碱基识别(Base Calling)出错的概率的整数映射。碱基质量值越高 表明碱基识别越可靠,碱基测错的可能性越小。 3.Q30 碱基质量值为Q30代表碱基的精确度在99.9%。 4.FPKM(Fragments Per Kilobase of transcript per Million fragments mapped) 每1百万个map上的reads中map到外显子的每1K个碱基上的fragment个数。计算公式为 公式中,cDNA Fragments 表示比对到某一转录本上的片段数目,即双端Reads数目;Mapped Reads(Millions)表示Mapped Reads总数, 以10为单位;Transcript Length(kb):转录本长度,以kb个碱基为单位。 5.FC(Fold Change) 即差异表达倍数。 6.FDR(False Discovery Rate) 即错误发现率,定义为在多重假设检验过程中,错误拒绝(拒绝真的原(零)假设)的个数占所有被拒绝 的原假设个数的比例的期望值。通过控制FDR来决定P值的阈值。 7.P值(P-value) 即概率,反映某一事件发生的可能性大小。统计学根据显著性检验方法所得到的P 值,一般以P<0.05 为显著,P<0.01为非常显著,其含义是样本间的差异由抽样误差所致的概率小于0.05或0.01。 8.可变剪接(Alternative splicing)

转录组测序技术的应用及发展综述

转录组测序技术的应用及发展综述 摘要:转录组测序(RNA-Seq)作为一种新的高效、快捷的转录组研究手段正在改变着人们对转录组的认识。RNA-Seq利用高通量测序技术对组织或细胞中所有RNA 反转录而成cDNA文库进行测序,通过统计相关读段(reads)数计算出不同RNA的表达量,发现新的转录本;如果有基因组参考序列,可以把转录本映射回基因组,确定转录本位置、剪切情况等更为全面的遗传信息,已广泛应用于生物学研究、医学研究、临床研究和药物研发等。文章主要比较近年来转录组研究的几种方法和几种RNA-Seq的研究平台,着重介绍RNA-Seq的原理、用途、步骤和生物信息学分析,并就RNA-Seq技术面临的挑战和未来发展前景进行了讨论及在相关领域的应用等内容,为今后该技术的研究与应用提供参考。 关键词: RNA-Seq;原理应用;方法;挑战;发展前景 Abstract:Transcriptome sequencing (RNA-Seq) is a kind of high efficiency, quick transcriptome research methods are changing our understanding of transcriptome. RNA-Seq to use high-throughput sequencing of tissues or cells of all RNA reverse transcription into cDNA library were sequenced, through statistical correlation read paragraph (reads) numbers were calculated from the expression of different RNA transcripts, find new; if the genome reference sequence, the transcripts mapped to genomic, determine the position of the transcription shear condition, more genetic information, has been widely used in biological research, medical research, clinical research and drug development. This paper compared several methods of platform transcriptome studies and several kinds of RNA-Seq in recent years, RNA-Seq focuses on the principle, purpose, steps and bioinformatics analysis, and discusses the RNA-Seq technology challenges and future development prospect and the application in related field and other content, provide the reference for the research and application of the technology future. Key word:RNA-Seq ;application; principle; method; challenge; development prospects

一步一步教你做转录组分析(HISAT, StringTie and Ballgown)

一步一步教你做转录组分析(HISAT, StringTie and Ballgown) 该分析流程主要根据2016年发表在Nature Protocols 上的一篇名为Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown 的文章撰写的,主要用到以下三个软件:HISAT (https://www.360docs.net/doc/096826237.html,/software/hisat/index.shtml)利用大量FM 索引,以覆盖整个基因组,能够将RNA-Seq的读取与基因组进行快速比对,相较于STAR、Tophat,该软件比对速度快,占用内存少。 StringTie(https://www.360docs.net/doc/096826237.html,/software/stringtie/)能够应用流神经网络算法和可选的de novo组装进行转录本组装并预计表达水平。与Cufflinks等程序相比,StringTie实现了更完整、更准确的基因重建,并更好地预测了表达水平。Ballgown (https://https://www.360docs.net/doc/096826237.html,/alyssafrazee/ballgown)是R语言中基因差异表达分析的工具,能利用RNA-Seq实验的数据(StringTie, RSEM, Cufflinks)的结果预测基因、转录本的差异表达。然而Ballgown并没有不能很好地检测差异外显子,而DEXseq、rMATS和MISO可以很好解决该问题。 一、数据下载Linux系统下常用的下载工具是wget,但该工具是单线程下载,当使用它下载较大数据时比较慢,所以选

转录组学领域研究进展一览(!!!)

转录组学领域研究进展一览 关键词:Transcriptomics;RNA;RT-PCR;Profiling;Synthesis;Sequencing;Purification;Micro arrays;Extraction 转录组学(tranomics),是一门在整体水平上研究细胞中基因转录的情况及转录调控规律的学科,也就是说,转录组学是从RNA水平来研究基因的表达情况。转录组即一个活细胞所能转录出来的所有RNA的总和,是研究细胞表型和功能的一个重要手段。 本文中,小编对近年来转录组学领域的相关研究进行了盘点,分享给各位!【1】北大教授开发单细胞全转录组测序新技术 2014年4月29日,北京大学生物动态光学成像中心黄岩谊、汤富酬课题组在《美国科学院院刊》(PNAS)上发表题为“Microfluidic single-cell whole-tranome sequencing”的论文。该研究利用微流控芯片技术实现了高质量单细胞的全转录组测序样品准备,全面提高了单细胞全转录组分析的准确性和可靠性。 细胞是生命活动的基本功能单位,而在生物体内没有任何两个细胞是完全相同的。传统的生命科学与医学研究,绝大多数情况下都是针对混合的大量细胞进行的,无法观察到单个细胞之间细微的差别。近年来不断发展的实验技术,提供了更加定量与客观的证据,表明在许多关键生命过程例如胚胎发育、细胞分化、疾病发生与发展等过程中,特定的单个细胞行为,以及其间的个体化差异与异质性,导致了极其重要甚至是决定性的结果。而之前基于大量细胞平均测量所获得的结果并无法正确反映复杂生物体系的全面真实信息,严重掩盖了独立个体样本的行为以及生命现象中大量存在的随机行为。针对单个细胞的研究,是细胞生命分析技术所追求的极限状态,是对传统技术极大的挑战。 【2】doi:10.1126/science.aaf2403 在一项新的研究中,来自瑞典卡罗琳斯卡研究所和皇家理工学院等机构的研究人员开发出一种新的被称作空间转录组学(spatial tranomics)的高分辨率方法研究一种组织中哪些基因是有活性的。这种方法能够被用于所有类型的组织中,而且在临床前研究和癌症诊断中是有价值的。相关研究结果发表在2016年7月1日那期Science期刊上,论文标题为“Visualization and analysisof gene expression

转录组ref流程工作手册

转录组ref流程工作手册 一、Reference 流程生物学原理 1.1 实验流程 图一:转录组实验流程 当我们得到样品时,必须对其测序,才能得到分析所需的数据。测序基本过程:提取样品总RNA后,用带有Oligo(dT)的磁珠富集真核生物mRNA(若为原核生物,则用试剂盒去除rRNA后进入下一步)。加入fragmentation buffer将mRNA打断成短片段,以mRNA为模板,用六碱基随机引物(random hexamers)合成第一条cDNA链,然后加入缓冲液、dNTPs、RNase H 和DNA polymerase I 合成第二条cDNA链,在经过QiaQuick PCR试剂盒纯化并加EB缓冲液洗脱之后做末端修复并连接测序接头,然后用琼脂糖凝胶电泳进行片段大小选择,最后进行PCR扩增,使用建好的测序文库进行测序。 得到RNA的序列后,又可以找到它的参考序列(物种本身的基因、基因组)

时,可以用reference流程对数据进行详细的分析。Reference后面所有的流程都是基于参考序列进行的,所以选择正确的参考序列十分重要。 1.2信息分析流程 得到测序序列后,即可利用比对软件,将所测序列比对到参考基因或基因组上,并进行后续分析,信息分析流程图如下: 图二:转录组信息流程 1.2.1原始fq序列简介 测序得到的原始图像数据经base calling转化为序列数据,我们称之为raw data或raw reads,结果以fastq文件格式存储,fastq文件为用户得到的最原始文件,里面存储reads的序列以及reads的测序质量。在fastq格式文件中每个read 由四行描述: @read ID TGGCGGAGGGATTTGAACCC

转录组ref流程工作手册

转录组ref流程工作手册

转录组ref流程工作手册 一、Reference 流程生物学原理 1.1 实验流程 图一:转录组实验流程 当我们得到样品时,必须对其测序,才能得到分析所需的数据。测序基本过程:提取样品总RNA后,用带有Oligo(dT)的磁珠富集真核生物mRNA(若为原核生物,则用试剂盒去除rRNA后进入下一步)。加入fragmentation buffer 将mRNA打断成短片段,以mRNA为模板,用六碱基随机引物(random hexamers)合成第一条cDNA链,然后加入缓冲液、dNTPs、RNase H 和DNA polymerase I合成第二条cDNA链,在经过QiaQuick PCR试剂盒纯化并加EB 缓冲液洗脱之后做末端修复并连接测序接头,然后用琼脂糖凝胶电泳进行片段大小选择,最后进行PCR扩增,使用建好的测序文库进行测序。 得到RNA的序列后,又可以找到它的参考序列(物种本身的基因、基因组)

时,可以用reference流程对数据进行详细的分析。Reference后面所有的流程都是基于参考序列进行的,所以选择正确的参考序列十分重要。 1.2信息分析流程 得到测序序列后,即可利用比对软件,将所测序列比对到参考基因或基因组上,并进行后续分析,信息分析流程图如下: 图二:转录组信息流程 1.2.1原始fq序列简介 测序得到的原始图像数据经base calling转化为序列数据,我们称之为raw data或raw reads,结果以fastq文件格式存储,fastq文件为用户得到的最原始文件,里面存储reads的序列以及reads的测序质量。在fastq格式文件中每个read由四行描述: @read ID TGGCGGAGGGATTTGAACCC

转录组学的一些概念

Gene Ontology可分为分子功能(Molecular Function),生物过程(biological process)和细胞组成(cellular component)三个部分。蛋白质或者基因可以通过ID对应或者序列 注释的方法找到与之对应的GO号,而GO号可对于到Term,即功能类别或者细胞定位。 功能富集分析: 功能富集需要有一个参考数据集,通过该项分析可以找出在统计上显 著富集的GO Term。该功能或者定位有可能与研究的目前有关。 GO功能分类是在某一功能层次上统计蛋白或者基因的数目或组成,往往是在GO 的第二层次。此外也有研究都挑选一些Term,而后统计直接对应到该Term的基因或蛋白数。结果一般以柱状图或者饼图表示。 1.GO分析 根据挑选出的差异基因,计算这些差异基因同GO 分类中某(几)个特定的分支的超 几何分布关系,GO 分析会对每个有差异基因存在的GO 返回一个p-value,小的p 值表示差异基因在该GO 中出现了富集。 GO 分析对实验结果有提示的作用,通过差异基因的GO 分析,可以找到富集差异 基因的GO分类条目,寻找不同样品的差异基因可能和哪些基因功能的改变有关。 2.Pathway分析 根据挑选出的差异基因,计算这些差异基因同Pathway 的超几何分布关系, Pathway 分析会对每个有差异基因存在的pathway 返回一个p-value,小的p 值表示差异 基因在该pathway 中出现了富集。 Pathway 分析对实验结果有提示的作用,通过差异基因的Pathway 分析,可以找到 富集差异基因的Pathway 条目,寻找不同样品的差异基因可能和哪些细胞通路的改变有关。与GO 分析不同,pathway 分析的结果更显得间接,这是因为,pathway 是蛋白质之间的 相互作用,pathway 的变化可以由参与这条pathway 途径的蛋白的表达量或者蛋白的活性 改变而引起。而通过芯片结果得到的是编码这些蛋白质的mRNA 表达量的变化。从 mRNA 到蛋白表达还要经过microRNA 调控,翻译调控,翻译后修饰(如糖基化,磷酸化),蛋白运输等一系列的调控过程,mRNA 表达量和蛋白表达量之间往往不具有线性关系,因此mRNA 的改变不一定意味着蛋白表达量的改变。同时也应注意到,在某些pathway 中,如EGF/EGFR 通路,细胞可以在维持蛋白量不变的情况下,通过蛋白磷酸 化程度的改变(调节蛋白的活性)来调节这条通路。所以芯片数据pathway 分析的结果需 要有后期蛋白质功能实验的支持,如Western blot/ELISA,IHC(免疫组化),over expression(过表达),RNAi(RNA 干扰),knockout(基因敲除),trans gene(转基因)等。 3.基因网络分析 目的:根据文献,数据库和已知的pathway 寻找基因编码的蛋白之间的相互关系(不超过1000 个基因)。

illumina 转录组测序简明实验流程(PE-oligodT NEB)

illumina 转录组测序简明实验流程一、实验基本流程图 mRNA Library Construction

二、mRNA建库流程 1.材料准备 1.2. 1.3.

2.样品准备和QC 选择质量合格的Total RNA作为mRNA测序的建库起始样品,其质量要求通过Agilent 2100 BioAnalyzer检测结果RIN≥7,28S和18S的RNA 的比值大于或等于1.5:1,起始量的要求范围是0.1∽1ug。用QUBIT RNA ASSAY KIT对起始的Total RNA进行准确定量。 3.建库实验步骤 3.1.mRNA纯化和片段化 3.1.1.mRNA纯化 纯化原理是用带有Oligod(T)的Beads对Total RNA中mRNA进行纯化。 3.1.2.mRNA片段化 3.2.1st Strand cDNA 合成 3.3.2nd Strand cDNA 合成 根据下表制备反应体系,然后在PCR仪上运行Program3,然后将第2链cDNA合成产物用144uL AMPure XP Beads进行纯化,最后用60μL的Nuclease free water进行重悬,取出 55.5μL以备下一步使用;

3.4.Perform End Repair/dA-tail 3.5.Adaptor Ligation 根据下表制备反应体系,然后在PCR仪上运行Program5、Program6,然后100uL AMPure XP Beads进行纯化后用52.5μL的Resuspension Buffer进行重悬,再用50uL AMPure XP Beads 3.6.PCR扩增 根据下表制备反应体系,然后在PCR仪上运行Program7,然后再45μL用AMPure XP Beads 进行纯化,最后用23μL的Resuspension Buffer进行重悬,取出20μL以备下一步使用;

转录组学研究进展精修订

转录组学研究进展集团标准化工作小组 #Q8QGGQT-GX8G08Q8-GNQGJ8-MHHGN#

转录组研究前沿 随着转录组学,蛋白组学,代谢组学等组学的不断涌现,生物学研究已经跨入后基因组时代,转录组学作为一个率先发展起来的技术开始在生物学前沿研究中得到了广泛的应用。广义转录组(Transcriptome)系指从一种细胞或者组织的基因组所转录出来的RNA的总和,包括编码蛋白质的mRNA和各种非编码RNA(rRNA, tRNA, snoRNA, snRNA,microRNA 和其他非编码RNA等)。狭义转录组系指所有参与翻译蛋白质的mRNA 总和。 转录组研究历史: 自从上世纪90 年代中期以来,随着微阵列技术被用于大规模的基因表达水平研究,转录组学作为一门新技术开始在生物学前沿研究中展露头脚并逐渐成为生命科学研究的热点。原因如下:1)蛋白质组研究需要更多的转录组研究的信息:因为单一的蛋白质组数据不足以清楚地鉴定基因的功能,因此蛋白质组的数据需要转录组的研究结果加以印证。2)非编码RNA研究的不断发展,使得转录组研究的范围不断扩大和深化。 3) 随着新一代高通量测序技术运用到转录组研究之中,转录组研究中提供的数据量呈现爆炸式的扩增,极大拓宽了转录组研究解决科学问题的范围。

目前进行转录组研究的技术主要包括如下三种:1)基于杂交技术的微阵列技术;2)基于Sanger测序法的SAGE (serial analysis of gene expression)和MPSS(massively parallel signature sequencing);3)基于新一代高通量测序技术的转录组测序。各种转录组研究技术的特点如下: 基于杂交技术的DNA芯片技术只适用于检测已知序列,却无法捕获新的mRNA。细胞中mRNA的表达丰度不尽相同,通常细胞中约有不到100种的高丰度mRNA,其总量占总mRNA一半左右,另一半mRNA由种类繁多的低丰度mRNA组成。因此由于杂交技术灵敏度有限,对于低丰度的mRNA,微阵列技术难以检测,也无法捕获到目的基因mRNA表达水平的微小变化。 SAGE是以Sanger测序为基础用来分析基因群体表达状态的一项技术。SAGE 技术首先是提取实验样品中RNA并反转录成cDNA,随后用锚定酶(Anchoring enzyme)切割双链cDNA,接着将切割的cDNA 片段与不同的接头连接,通过标签酶酶切处理并获得得到SAGE 标签,然后PCR 扩增连接SAGE 标签形成的标签二聚体,最后通过锚定酶切除接头序列,以形成标签二聚体的多聚体并对其测序(关于SAGE方法细致的介绍请参考网站)。SAGE可以在组织和细胞中定量分析相关基因表达水平。在差异表达谱的研究中,SAGE可以获得完整的转录组学图谱以及发现新的基因并鉴定其功能、作用机制和通路等。

转录组测序

转录组分析 研究背景: RNA-Seq是通过结合实验和计算方法来鉴定生物样品中RNA序列的种类和丰度的一种技术。通过RNA-seq,我们就能够确定单链RNA分子中ATCG的顺序。整个过程主要包括:从细胞或组织中提取RNA分子、文库的构建以及后继的生物信息学数据分析。RNA-Seq技术具有许多早期研究方法(如:微阵列)所不具备的优点,如:RNA-Seq平台的高通量、新技术所带来的高灵敏度、发现新转录本、新基因模型以及非编码RNA的能力等。 RNA-Seq技术的到来,使人们认识到,无论是单细胞模式生物还是人类,我们对其转录组的认知异常匮乏。而RNA-Seq产生的新的数据,则可以帮助我们发现基因结构上的巨大差异、鉴定出新的转录本以及能够对small non-coding RNA和lncRNAs有着更好的了解。而且随着测序花费的降低,RNA-Seq的优势体现的更加明显。 服务流程: 样品选取

mRNA片段化 cDNA合成 末端修复、加polyA、加接头,PCR扩增 数据分析 测序方案: 内容:TotalRNA检测,普通转录组文库构建及测序及信息分析。测序方式:HiseqPE125。 项目周期:有参45天,无参50天。 分析内容: 无参考基因组: 1.1质量控制 1.11评估碱基质量 1.12过滤低质量reads 1.13 去掉低质量碱基和接头序列 1.14 统计N比例和reads长度 1.15 统计GC含量和reads重复度 1.2 Reads的从头比对组装

1.4基因表达差异分析 1.41 统计基因在不同条件下的差异表达情况 1.5差异基因富集分析 1.51 通过GO、KEGG对差异基因进行功能富集分析 1.6差异表达基因的蛋白质互作网络分析 1.7SNV/Indel分析 1.8样本间相关性分析 有参考基因组: 2.1质量控制(同无参) 2.2 Reads比对组装 2.22 统计reads与参考基因组比对情况 2.22 分析对插入、删除和连接体情况 2.23 统计转录本在参考基因组上位置、长度和覆盖度情况 2.3基因表达差异分析 2.4差异基因富集分析 2.5差异表达基因的蛋白质互作网络分析 2.6新转录本预测 2.7 SNV/Indel分析 2.8 UTR分析 2.9可变剪接分析 3.0 Non-coding RNA分析 3.1样本相关性分析 案例解读: 案例:通过poly(A)+ RNA-Seq分析Drosophila melanogaster转录组的动态性 本项研究通过poly(A)+ RNA-Seq技术对果蝇的细胞系进行测序,鉴定出一批通过替换启动子和RNA剪接来转录出大量转录本的神经特异性基因。通过后继分析还发现,对于RNA剪接变化,组织间的差异要远远大于发育阶段间的差异。另外,发现性腺表达了成百上千的未知的蛋白编码和lncRNAs,其中一些甚至是反义转录的。显示了果蝇转录组的动态性和多样性。 小部分的基因(0.2%)编码出大部分的转录本。

转录组学研究进展

转录组研究前沿 随着转录组学,蛋白组学,代谢组学等组学的不断涌现,生物学研究已经跨入后基因组时代,转录组学作为一个率先发展起来的技术开始在生物学前沿研究中得到了广泛的应用。广义转录组(Transcriptome)系指从一种细胞或者组织的基因组所转录出来的RNA的总和,包括编码蛋白质的mRNA和各种非编码RNA(rRNA, tRNA, snoRNA, snRNA,microRNA 和其他非编码RNA等)。狭义转录组系指所有参与翻译蛋白质的mRNA 总和。 转录组研究历史: 自从上世纪90 年代中期以来,随着微阵列技术被用于大规模的基因表达水平研究,转录组学作为一门新技术开始在生物学前沿研究中展露头脚并逐渐成为生命科学研究的热点。原因如下:1)蛋白质组研究需要更多的转录组研究的信息:因为单一的蛋白质组数据不足以清楚地鉴定基因的功能,因此蛋白质组的数据需要转录组的研究结果加以印证。2)非编码RNA 研究的不断发展,使得转录组研究的范围不断扩大和深化。3) 随着新一代高通量测序技术运用到转录组研究之中,转录组研究中提供的数据量呈现爆炸式的扩增,极大拓宽了转录组研究解决科学问题的范围。 目前进行转录组研究的技术主要包括如下三种:1)基于杂交技术的微阵列技术;2)基于Sanger测序法的SAGE (serial analysis of gene expression)和MPSS(massively parallel signature sequencing);3)基于新一代高通量测序技术的转录组测序。各种转录组研究技术的特点如下: 基于杂交技术的DNA芯片技术只适用于检测已知序列,却无法捕获新的mRNA。细胞中mRNA的表达丰度不尽相同,通常细胞中约有不到100种的高丰度mRNA,其总量占总mRNA 一半左右,另一半mRNA由种类繁多的低丰度mRNA组成。因此由于杂交技术灵敏度有限,对于低丰度的mRNA,微阵列技术难以检测,也无法捕获到目的基因mRNA表达水平的微小变化。 SAGE是以Sanger测序为基础用来分析基因群体表达状态的一项技术。SAGE 技术首先是提取实验样品中RNA并反转录成cDNA,随后用锚定酶(Anchoring enzyme)切割双链cDNA,接着将切割的cDNA 片段与不同的接头连接,通过标签酶酶切处理并获得得到SAGE 标签,然后PCR 扩增连接SAGE 标签形成的标签二聚体,最后通过锚定酶切除接头序列,以形成标签二聚体的多聚体并对其测序(关于SAGE方法细致的介绍请参考网站https://www.360docs.net/doc/096826237.html,)。SAGE可以在组织和细胞中定量分析相关基因表达水平。在差异表达谱的研究中,SAGE可以获得完整的转录组学图谱以及发现新的基因并鉴定其功能、作用机制和通路等。 MPSS是SAGE的改进版,MPSS 技术首先是提取实验样品RNA并反转录为cDNA,接着将获得的cDNA克隆至具有各种adaptor 的载体库中,并PCR 扩增克隆至载体库中的不同cDNA 片段,然后在T4 DNA 聚合酶和dGTP 的作用下将PCR产物转换为单链文库,最后通过杂交将其结合在带有Anti-adaptor 的微载体上进行测序。MPSS 技术对于功能基因组研究非常有效,能在短时间内捕获细胞或组织内全部基因的表达特征。MPSS技术对于鉴定致病基因并揭示该基因在疾病中的作用机制等发挥了重要作用。

转录组学

基于高通量测序的储粮害虫抗药性相关基因的转录组学分析及其技术研究 专业:食品科学姓名:陶冶心学号:1120140520 摘要:随着测序技术的发展,昆虫转录组数据不断积累,在昆虫学研究中的应用也越来越广泛。在害虫抗药性的研究中,转录组数据分析也是重要的最新研究手段。转录组研究能够从整体水平研究基因功能以及基因结构,揭示特定生物学过程以及疾病发生过程中的分子机理。RNA-Seq作为一种新的高效、快捷的转录组研究手段正在改变着人们对转录组的认识。本文简要介绍了转录组学及其定义,并以RNA测序为例着重介绍了高通量测序在转录组中的应用,并对其中有待进一步研究的问题进行展望。 关键词:转录组高通量测序抗性 Deep Sequencing-based Transcriptome Analysis in insect resistance research Abstract:With the development of sequencing technology,the number of known insect transcriptome sequences has increased and transcriptome data has become more useful in entomology,including research on insect resistance.Transcriptome can research from the overall level of gene function and gene structure, revealing the specific molecular mechanism in the process of biological processes and disease. RNA-Seq,as a new kind of efficient, fast transcriptome research techniques ,is changing people's understanding of the transcriptome. Transcriptomics and its definitions are briefly introduced and pick RNA sequencing as an example, fully introduced the application of high-throughput sequencing of the transcriptome, the further research problems are discussed at the same time. Key words: transcriptome ,High-throughput sequencing, resistance 由于杀虫剂的长期使用,昆虫产生的抗药性已成为农林虫害治理面临的重大问题研究昆虫抗药性机制有助于为农林害虫防控、资源昆虫抗性品系选育及新型杀虫剂研发提供科学指导。长期以来,人们通过对模式昆虫、卫生昆虫和农林害虫的研究,对昆虫代谢抗性、靶标抗性有了一定认识,继而利用分子生物学手段克隆、分析了一些抗性相关基因,上述研究方

蛋白质组与转录组比较关联分析方案

蛋白质组与转录组比较关联分析方案一.概述 1.研究背景 生命体是一个多层次,多功能的复杂结构体系,高通量技术的发展积累了大量的组学数据,这使得由精细的分解研究转向系统的整体研究成为可能,整合多组学数据能够实现对生物系统的全面了解。当部分层面上的研究都逐渐走向完善的时候,从部分到整体就是一种必然发展趋势。 相关研究表明,基因表达不仅仅是从转录组到蛋白质组的单向流动,而是两者的相互连接。对这种功能调控的了解通常只限于特殊的信号途径,要了解转录组和蛋白质组之间的相互调控作用,就需要对RNA和蛋白质的表达进行同步监测。 正如RNA可作为部分生物学功能的酶反应的效益物一样,蛋白质也是大多数生物学功能的效益物。因此,蛋白质水平广泛的基因组分析是基因表达更直接的反映。质谱技术的发展,使得定量的蛋白组学研究成为可能。然而,当细胞适应了转录水平、转录后(如mRNA的剪接)、翻译后(蛋白降解和输出)的精细调控机制后,转录物和蛋白质丰度测量结果可能会不一致。因此,定量的转录物和蛋白质丰度测量可作为相互的标准,为高通量分析得出的基因表达数据做出合理的解释。正如蛋白质和RNA之间类似点可以增加我们对新的生物标记的信任度一样,差异也能暗示我们“其他的转录后调控结合点可作为重要的调控研究靶点”。 在蛋白组学分析过程中,一些研究选择了双向凝胶电泳(2一DE)分析蛋白质混合物。要么是对不同的凝胶染色,要么是让不同的细胞与不同的染料相结合,通过斑点染色亮度可以看到蛋白质的亮度。随后用质谱仪对分离出的定量凝较斑点进行鉴定,与转录组学分析不同的是,双向凝胶电泳分析的鉴定结果与定量分析是散耦合(de一coupled)。 液相色谱法(LC)是作为一种替代2一DE的蛋白质分析方法而出现的。LC一MS分析是典型的“自下而上(Bottom一up)”分析方法,通常要用特异的蛋白酶(如胰蛋白酶)将蛋白质消化为肽段。与2一DE不同,LC一MS对肽的定量和鉴定是同时进行的,可以选择定量的MS峰(m/z)用于鉴定,通过肽段的信息推测对应蛋白质的定量信息。 虽然采用的技术不同,迄今为止公开发表的整合分析文章中,都指出了转录组学和蛋白组学的重要性。转录组学或蛋白组学通常只考虑调节系统和分解作用平衡态的净效应,实际上,出现的不一致性只是合成与降解两种替换过程中的一种反映。科学家可能对变化过程中的机制更感兴趣。 正如中心法则预测的那样,在转录物和蛋白质水平,如果只能通过严格的转录调控去控制蛋白质的合成,细胞是不太可能选择精细调节机制的。当点对点进行比较时,蛋白质和转录物之间的一致性通常很弱,这些观察说明了“从个体基

相关文档
最新文档