找差异表达基因的方法

全基因组表达谱分析方法(DGE)

全基因组表达谱分析方法(DGE)----基于新一代测序技术的 技术路线 该方法首先从每个mRNA的3’端酶切得到一段21bp的TAG片段(特异性标记该基因);然后通过高通量测序,得到大量的TAG序列,不同的TAG序列的数量就代表了相应基因的表达量;通过生物信息学分析得到TAG代表的基因、基因表达水平、以及样品间基因表达差异等信息。技术路线如下: 1、样品准备: a) 提供浓度≥300ng/ul、总量≥6ug、OD260/280为1.8~2.2的总RNA样品; 2、样品制备(见图1-1): a) 类似SAGE技术,通过特异性酶切的方法从每个mRNA的3’末端得到一段21bp 的特异性片段,用来标记该基因,称为TAG; b) 在TAG片段两端连接上用于测序的接头引物; 3、上机测序: a) 通过高通量测序每个样品可以得到至少250万条TAG序列; 4、基本信息分析: a) 对原始数据进行基本处理,得到高质量的TAG序列; b) 通过统计每个TAG序列的数量,得到该TAG标记的基因的表达量; c) 对TAG进行注释,建立TAG和基因的对应关系; d) 基因在正义链和反义链上表达量间的关系; e) 其它统计分析; 5、高级信息分析: a) 基因在样品间差异表达分析; b) 库容量饱和度分析;

c) 其它分析; 测序优势 利用高通量测序进行表达谱研究的优势很明显,具体如下: 1.数字化信号:直接测定每个基因的特异性表达标签序列,通过计数表达标签序列的数目来确定该基因的表达量,大大提高了定量分析的准确度。整体表达差异分布符合正态分布,不会因为不同批次实验引起不必要的误差。 2.可重复性高:不同批次的表达谱度量准确,能够更准确的进行表达差异分析。 3.高灵敏度:对于表达差异不大的基因能够灵敏的检测其表达差异;能够检测出低丰度的表达基因。 4.全基因组分析,高性价比:由于该技术不用事先设计探针,而是直接测序的方式,因此无需了解物种基因信息,可以直接对任何物种进行包括未知基因在内的全基因组表达谱分析,因此性价比很高。 5.高通量测序:已有数据表明,当测序通量达到200万个表达标签时,即可得到样本中接近全部表达基因的表达量数据,而目前每个样本分析可以得到300 万~600万个表达标签。

基因差异表达的研究方法

基因差异表达的研究方法 摘要寻找差异表达基因成为目前基因研究的一个非常重要的手段。寻找差异表达基因的方法有消减杂交法、mRNA 差异显示、代表性差异分析法、基因表达的序列分析、抑制消减杂交、表达序列标签、cDNA微阵列、半定量PCR、定量PCR。特综述以上各种方法的原理、方法过程、优缺点及其应用,随着科学技术的发展对差异表达基因的研究会更加完善。 关键词基因;差异表达;消减杂交;差异显示;研究方法 在真核生物的生命现象中,从个体的发育、生长、衰老、死亡,到组织、细胞的分化、凋亡或肿瘤的恶化以及细胞对各种生物、理化因子的应答,本质上都涉及基因在时间上或空间上的选择性表达,即基因的差异表达。基因的差异表达与组织、细胞的生物学性状和功能密切相关,成为生命科学的重要研究课题(潘美辉等,1997)。比较不同细胞或不同基因型在基因表达上的差异,不仅是研究生命过程分子机制的基础,亦是分离克隆目的基因的前提(胡昌华,2001)。寻找差异表达基因成为目前基因研究的一个非常重要的内容。差异表达的基因通常用稳定状态下mRNA的丰度高低有无来比较。差异表达基因有2个含义,即表达基因的种类改变和基因表达量的变化。通过它能找到疾病不同阶段、不同状态下表达不同丰度的基因,从而为进一步研究打下基础。分离和鉴定差异表达基因是了解各项生命活动和疾病分子调控机制的重要手段(梁自文,2001)。笔者拟对目前现有的寻找差异基因的方法作一综述。 1消减杂交法(subtractive hybridization) 消减杂交在1984年由Palmer和Lamer(Lamar EE et at.,1984)提出,其目的是分离出两类同源分子间差异表达的基因,关键是利用分子杂交原理去除共同序列,保留差异序列,通过PCR多次循环扩增而分离,从而能进一步研究其差异表达基因。 具体做法:首先以oligo-dT为引物,从tester中制备放射性标记的单链cDNA 文库。然后将这些cDNA探针与过量的来自driver的mRNA(其poly-A尾已与生物素耦联)杂交,大部分单链cDNA探针和driver中的mRNA形成异源双链,并通过羟基磷灰石柱层除去cDNA×mRNA杂交体,以此富增tester中特异的cDNA。消减杂交法的最大优点是它适用于未被克隆的基因组片段;其次它特别适于寻找那些由于缺失造成突变的基因。但这一方法需要大量的driver mRNA才能使消减杂交充分进行,所回收的cDNA量也很低,而且操作步骤复杂、耗资

三种差异表达基因克隆方法的比较

三种差异表达基因克隆方法的比较 [摘要] 为了能快速、有效、准确地克隆出有意义的基因,本文就常用的三种基因克隆方法,即差异显示PCR、抑制性消减杂交、PAP-PCR,从其原理、应用、优越性、主要缺陷等几方面进行了简要概述。这些方法为中医、针刺治疗各种疾病过程中有关的基因差异表达,以及有关基因分子克隆提供有效的分子生物学工具。 [主题词] 针灸原理;基因表达;克隆,分子;聚合酶链反应 高等生物大约有100000个不同的基因,但在生物体内任一细胞中只有15%的基因得以表达。而这大约15000个基因的表达是按时间和空间顺序有序地进行着,这种表达方式即为基因的差别表达(differentialexpression)[1]。生物体表现出各种各样的特性,主要是其基因表达的差异引起的。基因差异表达的变化有两种,即新出现的基因表达与表达量差异的基因表达。由于基因表达的变化是调控细胞生命活动过程的核心机制,通过比较同一类细胞在不同生理状态下或在不同生长发育阶段的基因表达差异,可为分析生命活动过程提供重要信息。当前,人类基因组研究的重心正在由“结构”向“功能”转移,一个以基因组功能研究为主要内容的所谓 “后基因组时代”(post genomics),即功能基因组(func tionalgenomics)时代即将到来,这就决定了寻找差异表达基因成为分子生物学的研究热点之一。 目前已有针灸科研工作者从分子生物学水平探讨针灸治疗各种疾病的可能机理。有实验[2]报道针刺翳风等穴位面神经组织中NT 3及TrKCmR NA表达增加;针刺后癫痫大鼠海马内nNOSmRNA和iNOSmRNA增加[3];针刺可调节CCK 8mRNA、THmRNA、SOMmRNA、c fos\c junmRNA、CGRPmRNA的 增减[4]。为适应当前医学的发展,为满足针灸科研工作者分子生物学研究的需要,本文对差异显示PCR、抑制性消减杂交及RNA任意引物PCR三种常用的差异基因筛选法,分别从其基本原理、过程、应用范围及优缺点等作一个简介。 1 差异显示PCR(differentialdisplayreverse tran scriptasePCR,DDRT PCR) 该方法是自1992年由Liang和Pardee建立起来的[1],后经多年改进,目前已被广泛的使用。它已较成功地用于胚胎发生[5]、脑发育[6]、生长因子激活与抑

基因表达的分析技术

第二篇细胞的遗传物质 第三章基因表达的分析技术 生物性状的表现均是通过基因表达调控实现的。对基因结构与基因表达调控进行研究,是揭示生命本质的必经之路。在基因组研究的过程中,逐步建立起一系列行之有效的技术。针对不同的研究内容,可建立不同的研究路线。 第一节PCR技术 聚合酶链反应(polymerase chain reaction,PCR)技术是一种体外核酸扩增技术,具有特异、敏感、产率高、快速、简便等突出优点。。PCR技术日斟完善,成为分子生物学和分子遗传学研究的最重要的技术。应用PCR技术可以使特定的基因或DNA片段在很短的时间内体外扩增数十万至百万倍。扩增的片段可以直接通过电泳观察,并作进一步的分析。 一、实验原理 PCR是根据DNA变性复性的原理,通过特异性引物,完成特异片段扩增。第一,按照欲检测的DNA的5'和3'端的碱基顺序各合成一段长约18~24个碱基的寡核苷酸序列作为引物(primer)。引物设计需要根据以下原则:①引物的长度保持在18~24bp之间,引物过短将影响产物的特异性,而引物过长将影响产物的合成效率;②GC含量应保持在45~60%之间;③5'和3'端的引物间不能形成互补。第二,将待检测的DNA变性后,加入四种单核苷酸(dNTP)、引物和耐热DNA聚合酶以及缓冲液。通过95℃变性,在进入较低的温度使引物与待扩增的DNA链复性结合,然后在聚合酶的作用下,体系中的脱氧核苷酸与模板DNA链互补配对,不断延伸合成新互补链,最终使一条DNA双链合成为两条双链。通过变性(92~95℃)→复性(40~60℃)→引物延伸(65~72℃)的顺序循环20至40个周期,就可以得到大量的DNA片段。理论上循环20周期可使DNA扩增100余万倍。

基因表达的检测的几种方法

基因表达检测的最终技术目标是能确定所关注的任何组织、细胞的 RNA的绝对表达量。可以先从样本中抽提RNA,再标记RNA, 然后将这些标记物作探针与芯片杂交,就可得出原始样本中不同 RNA的量。然而用于杂交的某个特定基因的RNA的量与在一个 相应杂交反应中的信号强度之间的关系十分复杂,它取决于多种 因素,包括标记方法、杂交条件、目的基因的特征和序列。所以 芯片的方法最好用于检验两个或多个样本中的某种RNA的相对 表达量。样本之间某个基因表达的差异性(包括表达的时间、空 间特性及受干扰时的改变)是基因表达最重要的,而了解RNA 的绝对表达丰度只为进一步的应用或多或少地起一些作用。 基因表达的检测有几种方法。经典的方法(仍然重要)是根据在 细胞或生物体中所观察到的生物化学或表型的变化来决定某一 特定基因是否表达。随着大分子分离技术的进步使得特异的基因 产物或蛋白分子的识别和分离成为可能。随着重组DNA技术的 运用,现在有可能检测.分析任何基因的转录产物。目前有好几 种方法广泛应用于于研究特定RNA分子。这些方法包括原位杂交.NORTHERN凝胶分析.打点或印迹打点.S-1核酸酶分 析和RNA酶保护研究。这里描述RT-PCR从RNA水平上检查 基因表达的应用。8 f3 f- |2 L) K) b7 ]- ~- | RT-PCR检测基因表达的问题讨论

关于RT-PCR技术方法的描述参见PCR技术应用进展,在此主要讨论它在应用中的问题。理论上1μL细胞质总RNA对稀有mRNA扩增是足够了(每个细胞有1个或几个拷贝)。1μL差不多相当于50-100,000个典型哺乳动物细胞的细胞质中所含RNA的数量,靶分子的数量通常大于50,000,因此扩增是很容易的。该方法所能检测的最低靶分子的数量可能与通常的DNAPCR相同;例如它能检测出单个RNA分子。当已知量的转录RNA(用T7RNA聚合酶体外合成)经一系列稀释,实验结果表明通过PCR的方法可检测出10个分子或低于10个分子,这是反映其灵敏度的一个实例。用此技术现已从不到1个philadelphia染色体阳性细胞株K562中检测到了白血病特异的MRNA的转录子。因此没必要分离polyA+RNA,RNA/PCR法有足够的灵敏度来满足绝大多数实验条件的需要。 7 H+ F& _* S6 W( a8 p: [, @- d, { 将PCR缓冲液同时用于反转录酶反应和PCR反应,可简化实验步骤。我们发现整个反应过程皆用PCR缓冲液的结果相当于或优于先用反转录缓冲液合成CDNA,然后PCR缓冲液进行PCR扩增循环。当然,值得注意的是PCR缓冲液并不最适合第一条DNA链的合成。我们对不同的缓冲液用于大片段DNA 合成是否成功还没有进行过严格的研究。

基因差异表达技术

基因差异表达技术 真核生物中,从个体的生长、发育、衰老、死亡,到组织的得化、调亡以及细胞对各种生物、理化因子的应答,本质上都涉及基因的选择性表达。高等生物大约有30000个不同的基因,但在生物体内任意8细胞中只有10%的基因的以表达,而这些基因的表达按特定的时间和空间顺序有序地进行着,这种表达的方式即为基因的差异表达。其包括新出现的基因的表达与表达量有差异的基因的表达。生物体表现出的各种特性,主要是由于基因的差异表达引起的。 由于基因的差异表达的变化是调控细胞生命活动过程的核心机制,通过比较同一类细胞在不同生理条件下或在不同生长发育阶段的基因表达差异,可为分析生命活动过程提供重要信息。研究基因差异表达的主要技术有差别杂交(differential hybridization)、扣除(消减)杂交(subtractive hybridization of cDNA,SHD)、mRNA差异显示(mRNA differential display,DD)、抑制消减杂交法(suppression subtractive hybridization,SSH)、代表性差异分析(represential display analysis,RDA)、交互扣除RNA差别显示技术(reciprocal subtraction differential RNA display)、基因表达系列分析(serial analysis of gene expression,SAGE)、电子消减(electronic subtraction)和DNA微列阵分析(DNA microarray)等。 一、差别杂交与扣除杂交 差别杂交(differential hybridization)又叫差别筛选(differential screening),适用于分离经特殊处理而被诱发表达的mRNA的cDNA克隆。为了增加这种方法的有效性,后来又发展出了扣除杂交(subtractive hybridization)或扣除cDNA克隆(subtractive cDNA cloning),它是通过构建扣除文库(subtractive library)得以实现的。 (一)差别杂交 从本质上讲,差别杂交也是属于核酸杂交的范畴。它特别适用于分离在特定组织中表达

寻找差异表达的基因

基因表达谱数据 基因表达谱可以用一个矩阵来表示,每一行代表一个基因,每一列代表一个样本(如图1)。所有基因的表达谱数据在“gene_exp.txt ”文件中存储,第一列为基因的entrez geneid ,第2~61列是疾病样本的表达,第62~76列是正常样本的表达。 图1 基因表达谱的矩阵表示 寻找差异表达的基因: 原理介绍: 差异表达分析是目前比较常用的识别疾病相关miRNA 以及基因的方法,目前也有很多差异表达分析的方法,但比较简单也比较常用的是Fold change 方法。它的优点是计算简单直观,缺点是没有考虑到差异表达的统计显著性;通常以2倍差异为阈值,判断基因是否差异表达。Fold change 的计算公式如下: normal Disease x x c Fold = _ 即用疾病样本的表达均值除以正常样本的表达均值。 差异表达分析的目的:识别两个条件下表达差异显著的基因,即一个基因在两个条件中的表达水平,在排除各种偏差后,其差异具有统计学意义。我们利用一种比较常见的T 检验(T-test )方法来寻找差异表达的miRNA 。T 检验的主要原理为:对每一个miRNA 计算一个T 统计量来衡量疾病与正常情况下miRNA 表达的差异,然后根据t 分布计算显著性p 值来衡量这种差异的显著性,T 统计量计算公式如下: n s n s x x t normal Disease normal Disease miRNA //22+-= 对于得到的显著性p 值,我们需要进行多重检验校正(FDR ),比较常用的是BH 方法(Benjamini and Hochberg, 1995)。

基因表达差异分析方法进展

高等真核生物的基因组一般具有80 000~100 000个基因,而每一个细胞大约只表达其中的15%[1]。基因在不同细胞间及不同生长阶段的选择性表达决定了生命活动的多样性,如发育与分化、衰老与死亡、内环境稳定、细胞周期调控等。比较细胞间基因表达的差异为我们揭示生命活动的规律提供了依据。 由于真核细胞mRNA 3′端一般含有Poly(A)尾,因此现有的方法基本上都是利用共同引物将不同的mRNA反转录成cDNA,以cDNA为对象研究基因表达的差异。1992年Liang等[2]建立了一种差异显示反转录PCR法(differential display reverse transcription PCR,DDRT-PCR),为检测成批基因表达的差异开辟了新天地。迄今为止已出现了大量应用该技术的研究报道[3,4]。然而,尽管应用DDRT-PCR方法已经取得了不少成果,而且该方法还在不断改进之中,但它仍然存在几个难以解决的问题:(1) 重复率低,至少有20%的差异条带不能被准确重复[5];(2) 假阳性率可以高达90%[6];(3) 获得的差异表达序列极少包含编码信息。近年来,针对DDRT-PCR方法的不足,又有几种新的检测差异表达基因的方法出现,现仅就这方面的进展做一简要介绍。 1.基因表达指纹(gene expression fingerprinting,GEF):GEF技术使用生物素标记的引物Bio-T13合成cDNA第一链,用dGTP对其进行末端加尾,再以富含C的引物引发合成cDNA第二链。用限制性内切酶消化双链cDNA,以交联有抗生物素蛋白的微球捕获cDNA3′端,以T4DNA连接酶连接同前述内切酶相对应的适配子,并以Bio-T13及适配子中的序列作为新的引物进行特异的PCR 扩增,得到大量的特异cDNA片段。适配子末端被32P-dATP标记后,固定于微球上的cDNA片段经过一系列酶切,产生的酶切片段从微球表面释放出来,其中那些含有标记末端的片段经凝胶电泳后构成mRNA指纹图谱。通过分析不同细胞间的指纹图谱就能得到差异表达的序列[7]。GEF技术所需的工作量较DDRT-PCR明显减少,由于用酶切反应替代了条件不严格的PCR反应,其重复性也较好,假阳性率低,并且所获得的片段中包含有一定的编码信息。GEF技术最大的缺点在于电泳技术的局限。由于它的指纹图谱要显示在同一块电泳胶上,经过几轮酶切之后常会得到1 000~2 000条电泳带,而现有的PAGE电泳很少能分辨超过400条带,故只有15%~30%的mRNA能够被辨认出来,因此得

基因表达及分析技术

基因表达及其分析技术 生命现象的奥秘隐藏在基因组中,对基因组的解码一直是现代生命科学的主流。基因组学研究可以说是当今生命科学领域炙手可热的方向。从DNA 测序到SNP、拷贝数变异(copy number variation , CNV)等DNA多态性分析,到DNA 甲基化修饰等表观遗传学研究,生命过程的遗传基础不断被解读。 基因组研究的重要性自然不言而喻。应该说,DNA 测序技术在基因组研究 中功不可没,从San ger测序技术到目前盛行的新一代测序技术(Next Gen eration Seque ncing NGS)到即将走到前台的单分子测序技术,测序技术是基因组解读最重要的主流技术。而基因组测序、基因组多态性分析、DNA 甲基化修饰等表观遗传分析等在基因组研究中是最前沿的课题。但是基因组研究终究类似“基因算命”,再清晰的序列信息也无法真正说明一个基因的功能,基因功能的最后鉴定还得依赖转录组学和蛋白组学,而转录作为基因发挥功能的第一步,对基因功能解读就变得至关重要。声称特定基因、特定SNP、特定CNV、特定DNA修饰等与某种表型有关,最终需要转基因、基因敲除、突变、 RNAi 、中和抗体等技术验证,并必不可少要结合基因转录、翻译和蛋白修饰等数据。 基因实现功能的第一步就是转录为mRNA或非编码RNA,转录组学主要研究基因转录为RNA 的过程。在转录研究中,下面几点是必须考虑的: 1,基因是否转录(基因是否表达)及基因表达水平高低(基因是低丰度表达还是中、高丰度表达)。特定基因有时候在一个细胞中只有一个拷贝的表达,而表达量会随细胞类型不同或发育、生长阶段不同或生理、病理状态不同而改变。因此任何基

利用实时定量PCR和2-△△CT法分析基因相对表达量

利用实时定量PCR和2-△△CT法分析基因相对表达量 METHODS 25, 402–408 (2001) Analysis of Relative Gene Expression Data Using Real-Time Quantitati ve PCR and the 2-△△CT Method Kenneth J. Livak* and Thomas D. Schmittgen?,1 *Applied Biosystems, Foster City, California 94404; and ? Department of Pharmaceutical Sciences, College of Pharmacy, Washington State University, Pullman, Washington 99164-6534 摘要: 现在最常用的两种分析实时定量PCR 实验数据的方法是绝对定量和相对定量。绝对定量通过标准曲线计算起始模板的拷贝数;相对定量方法则是比较经过处理的样品和未经处理的样品目标转录本之间的表达差异。2-△△CT方法是实时定量P CR 实验中分析基因表达相对变化的一种简便方法,即相对定量的一种简便方法。本文介绍了该方法的推导,假设及其应用。另外,在本文中我们还介绍了两种2-△△CT衍生方法的推导和应用,它们在实时定量 PCR 数据分析中可能会被用到。 关键词:反转录PCR 定量PCR 相对定量实时PCR Taqman 反转录 PCR (RT-PCR )是基因表达定量非常有用的一种方法(1 - 3 )。实时PCR 技术和RT-PCR 的结合产生了反转录定量 PCR 技术(4 ,5 )。实时定量 P CR 的数据分析方法有两种:绝对定量和相对定量。绝对定量一般通过定量标准曲线来确定我们所感兴趣的转录本的拷贝数;相对定量方法则是用来确定经过不同处理的样品目标转录本之间的表达差异或是目标转录本在不同时相的表达差异。 绝对定量通常在需要确定转录本绝对拷贝数的条件下使用。通过实时 PCR 进行绝对定量已有多篇报道(6 - 9 ),包括已发表的两篇研究论文(10,11 )。在有些情况下,并不需要对转录本进行绝对定量,只需要给出相对基因表达差异即可。显然,我们说 X 基因在经过某种处理後表达量增加 2.5 倍比说该基因的表达从1000 拷贝/ 细胞增加到2500 拷贝/ 细胞更加直观。

基因表达分析

荧光定量PCR 在基因表达分析中的应用 所谓基因表达就是指在特定的时刻某种我们感兴趣的基因在组织或细胞中的mRNA 的表达数量。众所周知,很多的疾病(如肿瘤)的发生发展、很多药物的作用机理、很多生物的代谢调控作用等都和基因表达的变化有关,因此对基因表达进行精确定量是十分重要的。过去为了对mRNA 进行定量有了各种各样的方法,如Southern 杂交、Northern 杂交、原位杂交、传统PCR 等,但是我们也都知道这些技术灵敏性较差,重复性不好,操作比较烦琐,已经无法满足现在科研和检测的需要,于是荧光定量PCR 技术也就应运而生了。荧光定量PCR 技术能对核酸进行精确定量,因此大大提高了在基因表达的准确性和灵敏度,深受用户的青睐,广泛的应用于肿瘤研究、药物筛选、功能基因组研究等各个领域,目前已经成了很多科研文章发表的重要实验内容。 基因表达分析中常见到的重要问题 1、要检测的基因 基因表达分析的目的就是检测某种我们感兴趣的基因在不同组织或细胞中的表达差异。荧光定量PCR 技术可以对核酸物质的含量进行精确的定量,也就成了研究基因表达差异的一把利器。 在基因表达分析实验中要检测两个基因,一个是目的基因和另一个是看家基因。之所以要引入看家基因是由于不能确定要比较的样品所用的组织起始量相同。就是说比如有的老师提取正常样品的基因时用了100个细胞,而提取病变样品时只用了10个细胞,这时候的基因表达差异可能是由于提取时候的样品细胞数不同引起的,为了纠正这种误差,我们选用认为在两个样本中表达量不变的基因作为内参照,来去除这带来的干扰。例如,要研究某个基因在肿瘤样品和正常样品中的基因表达差异。我们在实验中发现我们选择研究的正常样品中的看家基因的表达量是肿瘤样品中的10倍,就认为正常样品的细胞数就是肿瘤样品细胞数的10倍,那么在肿瘤样品中目的基因的基因表达量应该乘以10倍,才能和正常样品进行比较。 2、计算基因表达差异 基因表达差异的计算是通过所得到的Ct 值来计算的,要计算两个样品(待测样品和对照样品)的目的基因的表达差异必须检测得到4个Ct 值:待测样品和对照样品中目的基因和看家基因的Ct 值。 那么基因表达差异应该计算为 基因表达差异=2(△Ct1-△Ct2) 目的基因 看家基因 待测样品 对照样品 △Ct1 △Ct2

基因表达数据分析

第8章基因表达数据分析 基因芯片或DNA微阵列等高通量检测技术的发展,可以从全基因组水平定量或定性检测基因转录产物mRNA,获取基因表达的信息。由于生物体中的细胞种类繁多,同时基因表达具有时空特异性,因此,基因表达数据要比基因组数据更为复杂、数据量更大、数据的增长速度更快。基因表达数据中蕴含着基因调控的规律,可以反映细胞当前的生理状态,例如(??)是否恶化、(??)是否对药物有效等。对基因表达数据的分析是生物信息学的重大挑战之一,也是DNA微阵列能够推广应用的关键环节之一。 基因表达数据分析的对象是在不同条件下,全部或部分基因的表达数据所构成的数据矩阵。通过对数据矩阵的分析,回答一些生物学问题,例如,基因的功能是什么?在不同条件或不同细胞类型中,哪些基因的表达存在差异?在特定的条件下,哪些基因的表达发生了显著改变,这些基因受到哪些基因的调节,或者调控哪些其它的基因?哪些基因的表达是条件特异性的,根据它们的行为可以判断细胞的状态(正常或癌变)????等等。对这些问题的回答,结合其他生物学知识和数据有助于阐明基因的调控路径和基因之间的调控网络。揭示基因调控路径和网络是生物学和生物信息学共同关注的目标,是系统生物学(Systems Biology,在附录中增加解释条目!)研究的核心内容。目前,对基因表达数据的分析主要是在三个逐渐复杂的层次上进行:1、分析单个基因的表达水平,根据在不同实验条件下,该基因表达水平的变化,来判断它的功能,例如可以确定肿瘤类型特异基因。采用的分析方法可以是统计学中的假设检验等。2、考虑基因组合,将基因分组,研究基因的共同功能、相互作用以及协同调控等。多采用聚类分析等方法。3、尝试推断潜在的基因调控网络,从机理上解释观察到的基因表达谱。多采用反工程的方法。 本章首先介绍基因表达数据的来源和预处理方法;然后介绍基因表达数据分析的主要方法,即表达差异分析和聚类分析;最后简单介绍从基因表达数据出发研究基因调控网络的一些经典模型。 8.1 基因表达数据的获取 基因表达数据反映的是直接或间接测量得到的基因转录产物mRNA在细胞中的拷贝数或者水平(转录??),这些数据可以用于分析哪些基因的表达发生了改变,它们有何相关性,在不同条件下基因是如何受影响的。它们在医学临床诊断、药物疗效判断、揭示疾病发生机制等方面有重要的应用。目前检测mRNA水平的方法有DNA微阵列、基因芯片、基因表达串行化分析(Serial analysis of gene expression,SAGE)、RT-PCR、EST测序等。目前,最主要的表达数据来自于基因芯片或cDNA微阵列,它们的原理是相同的,利用4种核苷酸之间两两配对互补的特性,使两条在序列上互补的单链形成双链,这个过程被称为杂交。基本技术是:在一个约1cm2大小的玻璃片上,将称为探针的核苷酸片段固定在上面,这个过程称为芯片制备;从细胞或组织中提取mRNA,通过RT-PCR合成荧光标记的cDNA,与芯片杂交;用激光显微镜或荧光显微镜检测杂交后的芯片,获取荧光强度,分析细胞中的mRNA的相对水平。

【R高级教程】专题二:差异表达基因的分析

【R高级教程】专题二:差异表达基因的分析 应学生及个别博友的要求,尽管专业博文点击率和反应均很差,但在去San Diego参加PAG会议之前,还是抽时间给出【R高级教程】的第二专题。专题一给出了聚类分析的示例,本专题主要谈在表达谱芯片分析中如何利用Bioconductor鉴定差异表达基因。 鉴定差异表达基因是表达谱芯片分析pipeline中必须的分析步骤。差异表达基因分析是根据表型协变量(分类变量)鉴定组间差异表达,它属于监督性分类的一种。在鉴定差异表达基因以前,一般需要对表达值实施非特异性过滤(在机器学习框架下属于非监督性分类),因为适当的非特异性过滤可以提高差异表达基因的检出率、甚至是功效。R分析差异表达基因的library有很多,但目前运用最广泛的Bioconductor包是limma。 本专题示例依然来自GEO数据库中检索号为GSE11787 的Affymetrix芯片的数据,数据介绍参阅专题一。 >library(limma) >design <- model.matrix(~ -1+factor(c(1,1,1, 2,2,2))) 这个是根据芯片试验设计,对表型协变量的水平进行design,比如本例中共有6张芯片,前3张为control对照组,后3张芯片为实验处理组,用1表示对照组,用2表示处理组。其他试验设计同理,比如2*2的因子设计试验,如果每个水平技术重复3次,那么可以表示为:design <- model.matrix(~ -1+factor(c(1,1,1, 2,2,2, 3,3,3, 4,4,4)))。接上面的程序语句继续:

>colnames(design) <- c("control", "LPS") >fit <- lmFit(eset2, design) >contrast.matrix <- makeContrasts(control-LPS, levels=design) >fit <- eBayes(fit) >fit2 <- contrasts.fit(fit, contrast.matrix) >fit2 <- eBayes(fit2) >results<-decideTests(fit2, method="global", adjust.method="BH", p.value=0.01, lfc=1.5) >summary(results) >vennCounts(results) >vennDiagram(results) 比较遗憾的是,目前limma自带的venn作图函数不能做超过3维的高维venn图,只能画出3个圆圈的venn图,即只能同时对三个

基因表达谱分析技术

基因表达谱分析技术 1、微阵列技术(microarray) 这是近年来发展起来的可用于大规模快速检测基因差别表达、基因组表达谱、DNA序列多态性、致病基因或疾病相关基因的一项新的基因功能研究技术。其原理基本是利用光导化学合成、照相平板印刷以及固相表面化学合成等技术,在固相表面合成成千上万个寡核苷酸“探针”(cDNA、ESTs或基因特异的寡核苷酸),并与放射性同位素或荧光物标记的来自不同细胞、组织或整个器官的DNA或mRNA反转录生成的第一链cDNA进行杂交,然后用特殊的检测系统对每个杂交点进行定量分析。其优点是可以同时对大量基因,甚至整个基因组的基因表达进行对比分析。包括cDNA芯片(cDNA microarray)和DNA 芯片(DNA chips)。 cDNA芯片使用的载体可以是尼龙膜,也可以是玻片。当使用尼龙膜时,目前的技术水平可以将20000份材料点在一张12cm×18cm的膜上。尼龙膜上所点的一般是编好顺序的变性了的双链cDNA片段。要得到基因表达情况的数据,只需要将未知的样品与其杂交即可。杂交的结果表示这一样品中基因的表达模式,而比较两份不同样品的杂交结果就可以得到在不同样品中表达模式存在差异的基因。杂交使用的探针一般为mRNA的反转录产物,标记探针使用32PdATP。如果使用玻片为载体,点阵的密度要高于尼龙膜。杂交时使用两种不同颜色的荧光标记不同的两份样品,然后将两份样品混合起来与一张芯片杂

交。洗去未杂交的探针以后,能够结合标记cDNA的点受到激发后会发出荧光。通过扫描装置可以检测各个点发出荧光的强度。对每一个点而言,所发出的两种不同荧光的强度的比值,就代表它在不同样品中的丰度。一般来讲,显示出来的图像中,黄色的点表示在不同的样品中丰度的差异不大,红色和绿色的点代表在不同样品中其丰度各不相同。使用尼龙膜为载体制作cDNA芯片进行研究的费用要比玻片低,因为尼龙膜可以重复杂交。检测两种不同的组织或相同组织在不同条件下基因表达的差异,只需要使用少量的尼龙膜。但是利用玻片制作的cDNA芯片灵敏度更高,而且可以使用2种探针同时与芯片杂交,从而降低了因为杂交操作带来的差异;缺点是无法重复使用还必须使用更为复杂的仪器。 Guo等(2004)将包含104个重组子的cDNA文库点在芯片上,用于检测拟南芥叶片衰老时的基因表达模式,得到大约6200差异表达的ESTs,对应2491个非重复基因。其中有134个基因编码转录因子,182个基因预测参与信号传导,如MAPK级联传导路径。Li等(2006)设计高密度的寡核苷酸tiling microarray方法,检测籼稻全基因组转录表达情况。芯片上包含13,078,888个36-mer寡核苷酸探针,基于籼稻全基因组shot-gun测序的序列合成,大约81.9%(35,970)的基因发生转录事件。Hu等(2006)用含有60,000寡核苷酸探针(代表水稻全部预测表达基因)的芯片检测抗旱转基因植株(过量表达SNAC1水稻)中基因的表达情况,揭示大量的逆境相关基因都是上升表达的。 2、基因表达系列分析(Serial analysis of gene expression, SAGE)

检测差异表达基因技术的研究进展

[收稿日期]1999204219;[修回日期]1999207227 [作者简介]金慧英(1966-)女,江苏南京市人,助理研究员,硕士,主要从事微生物学方面的研究。 [文章编号]100028861(2000)04(S )20111203   检测差异表达基因技术的研究进展 Advance of study on the iden tify i ng d ifferen ti a l expressi ng gene   金慧英(J I N H u i 2ying ),房德兴(FAN G D e 2x ing ) (南京军区军事医学研究所,江苏南京210002) [摘 要] 随着差异表达基因检测技术的不断发展,建立了很多新的检测方法,本文对mRNA 差异显示技术(DDR T 2 PCR )、c DNA 示差分析技术(c DNA 2RDA )及抑制消减杂交技术(SSH )的基本原理及工作流程作了综述,并介绍了它们的应用状况和特点,这些方法的建立和广泛应用可望发现更多的差异表达的基因,并通过其与表型的关系分析加快人们对基因功能的认识。 [关键词] mRNA 差异显示(DDR T 2PCR );c DNA 示差分析(c DNA 2RDA );抑制消减杂交(SSH )[中图分类号] Q 78 [文献标识码] A   近年来现代分子生物学技术,特别是核酸杂交技术、反转录技术、PCR 扩增技术的发展为建立简便高效的检测差异表达基因的方法奠定了坚实的基 础。从L I AN G (1992)[1] 建立的m RNA 差异显示技术(DDR T 2PCR ),L IS IT SYN (1993)[2]建立并由 HU BAN K (1994)[3] 改进的c DNA 示差分析技术 (c DNA 2RDA )到D I A TCH EN KU (1996)[4] 建立的抑制消减杂交法(SSH ),差异表达基因的检测技术越来越简便,且特异性更强,灵敏度更高。现就上述3种方法的原理、工作流程、应用及展望简述如下:1 基本原理及工作流程 111 m RNA 差异显示技术(m RNA differen tial disp lay reverse tran scri p ti on PCR ,DDR T 2PCR ) m RNA DDR T 2PCR 的基本原理是合成两对引物,通过随机组合,使每种m RNA 均有扩增机会,并显示出清晰的电泳带。为达到该目的,利用真核细胞m RNA 均含po ly (A )末端以及po ly (A )上游2个碱基只有12种组合(A T 、A C 、A G 、T T 、TC 、T G 、CT 、 CC 、CG 、GT 、GC 、GG ,即42 个组合除去TA 、CA 、 GA 、AA 4个组合)的特点,设计3’ 引物T 11-12M N (M N 2A 、G 、C 、T 中的任一种,M 不能为T ),分别与总m RNA 进行反转录,从而获得12份c DNA ;再以c DNA 为模板,以上述T 11-12M N 为下游引物,以另一随机寡核苷酸引物(如10m er 随机引物)为上游引物进行PCR 扩增。理论上,5’端引物随机结合在c DNA 上,且每一条c DNA 均有扩增机会,获得大 小不同的扩增片段。扩增时掺入同位素标记的单核苷酸,扩增结束后,经序列分析PA GE 后进行放射自显影,如果模板c DNA 存在差异,即可显示差异表达的DNA 片段,最后可通过回收目的DNA ,经 杂交、克隆、测序进行鉴定。工作流程(见图1。 )图1mRNA DDR T 2PCR 工作流程图 F ig 1Schem atic diagram of mRNA DDR T 2PCR 112 c DNA 示差分析(c DNA 2rep resen tati onal difference analysis ,c DNA 2RDA ) c DNA 2RDA 是HU BAN K 和SCHA T Z (1994)在L IS IT SYN 等(1993)建立的基因组DNA 示差分析技术(rep resen tati onal difference analysis ,RDA )基础上改进而来,它是将差减杂交与PCR 相结合的技术。利用双链DNA 为模板时可通过PCR 呈指数扩增,而单链DNA 为模板时则呈线性扩增的原理,首先制备tester c DNA 和driver c DNA ,并用识别序列为4碱基的限制性核酸内切酶(如Dp n 或Sau 3A )消化成平均长度为256bp 的c DNA 片段。随后接上寡核苷酸接头(adap to r R )并按adap to r R 序列设计引物进行PCR 扩增,使两组的c DNA 得到富集,制备扩增子(am p licon s )。由于Dp n 或Sau 3A 的识别序列(GA TC )较常见,这样设计可确保几 乎所有表达基因至少有一次被扩增机会。然后切除接头,只在tester c DNA 片段的5’端接上新接头,接着将其与大大过量的driver DNA 混合进行变性 免疫学杂志第16卷第4期2000年7月   I M M UNOLO G I CAL JOU RNAL V o l 16N o 4Ju ly 2000 S 111

基因表达数据分析的方法

基因表达数据分析的方法 摘要:基因表达数据的一个重要应用是给疾病样本分类,如鉴别白血病的类型。而对成千上万个基因表达进行分析,必产生总量巨大的数据集。近年来,支持向量机(SVM)的理论已经取得重大进展,其算法实现策略以及实际应用也发展迅速,开始成为克服“维数灾难”和“过学习”等传统困难的有力手段。利用这一技术分析与整理这些基因表达数据,已有效地解决了生物信息学上这一海量数据的瓶颈问题。本文就支持向量机在基因表达数据分析方面的算法和应用进行了介绍和分析。 关键词:生物信息学;基因表达数据;支持向量机 Methods of gene expression data analysis Abstract:Gene expression data has an important application to the classification of disease samples, such as identifying the types of leukemia. The analysis of thousands of gene expression data, will produce a tremendous amount of data sets. In recent years, support vector machine (SVM) theory that significant progress has been made towards its strategy and practical applications of algorithms has been developing rapidly and became overcome the "Dimension disaster" and "Over-study", a powerful means of the traditional difficulties. Using this technology analysis and collation of these gene expression data have been effectively solved bottleneck on the enormous bioinformatics data. This paper discusses the algorithms and application of support vector machine in gene expression data analysis. Keywords:Bioinformatics ;Gene expression data; Support vector machine

相关文档
最新文档