22基因家族

22基因家族
22基因家族

基因家族(gene family),是来源于同一个祖先,由一个基因通过基因重复而产生两个或更多的拷贝而构成的一组基因,它们在结构和功能上具有明显的相似性,编码相似的蛋白质产物,[1]同一家族基因可以紧密排列在一起,形成一个基因簇,但多数时候,它们是分散在同一染色体的不同位置,或者存在于不同的染色体上的,各自具有不同的表达调控模式。

[编辑]参考

1.^朱玉贤等《分子生物学》高等教育出版社ISBN 978-7-04-022214-2

中文名称:基因家族

英文名称:gene family

定义1:基因组中存在的许多来源于同一个祖先,结构和功能相似的一组基因。同一家族的这些基因的外显子具有相关性,可在基因组内集中或分散分布。

应用学科:生物化学与分子生物学(一级学科);总论(二级学科)

定义2:同一物种中结构与功能相似,进化起源上密切相关的一组基因。

应用学科:遗传学(一级学科);分子遗传学(二级学科)

以上内容由全国科学技术名词审定委员会审定公布

定义

真核细胞中,许多相关的基因常按功能成套组合,被称为基因家族。

构成

基因组进化中,一个基因通过基因重复产生了两个或更多的拷贝,这些基因即构成一个基因家族。

特点

是具有显著相似性的一组基因,编码相似的蛋白质产物。同一家族中的成员有时紧密的排列在一起,成为一个基因簇;更多的时候,它们却分散在同一染色体的不同部位,甚至位于不同染色体上,具有各自不同的表达调控模式。

一组功能相似且核苷酸序列具有同源性的基因,可能由某一共同祖先基因经重复和突变产生。

由外显子相关的一组基因所组成,家族成员来自某个祖先基因的倍增和变异。

多基因家族

真核基因组的特点之一就是存在多基因家族(multi gene family)。多基因家族是指由某一祖先基因经过重复和变异所产生的一组基因。

多基因家族分类

一类是基因家族成簇地分布在某一条染色体上,它们可同时发挥作用,合成某些蛋白质,如组蛋白基因家族就成簇地集中在第7号染色体长臂3区2带到3区6带区域内;另一类是一个基因家族的不同成员成簇地分布不同染色体上,这些不同成员编码一组功能上紧密相关的蛋白质,如珠蛋白基因家族。在多基因家族中,某些成员并不产生有功能的基因产物,这些基因称为假基因(pseudo gene)。假基因与有功能的基因同源,原来可能也是有功能的基因,但由于缺失,倒位或点突变等,使这一基因失去活性,成为无功能基因。与相应的正常基因相比,假基因往往缺少正常基因的内含子,两侧有顺向重复序列。人们推测,假基因的来源之一,可能是基因经过转录后生成的RNA前体通过剪接失去内含子形成mRNA,如果mRNA经反复转录产生cDNA,再整合到染色体DNA中去,便有可能成为假基因,因此该假基因是没有内含子的,在这个过程中,可能同时会发生缺失,倒位或点突变等变化,从而使假基因不能表达。

《现代分子生物学》(第二版)朱玉贤李毅

如何找基因家族?

我现在接手我一个师兄的实验,继续找落果基因。他们已经找到两个基因了。我要找第三个!我的设计是在基因库内找到一些相关的落果基因,然后分析它们与我已有两个基因的同源性,最后根据这些同源性区域设计引物,在做PCR来扩增新的条带,并对其进行全序列分析。我不知道这样的设计行不行的通?因为我一个老师说这样找一个基因很困难!谢谢各位老大!

首先你要分析已有的两个基因的同源性,并到Genebank等数据库中进行比对,确定两个基因是否具有保守结构域,如果有,你可以根据其保守结构域设计简并引物,到你的目的基因组中扩增新的基因片段。或者以两个已有基因的保守结构域为探针,采用杂交的方法(前提是你要有构建好的基因组文库)钓取含有同样保守结构域相关的基因。如果二者不具有保守结构域或者同源性不高,那么你的实验设计就不可行了。其实我觉得你的问题应该到PCR版块更好。

谢谢!

上一篇:Re:[下载]医学视频分科下载

第三节基因家族

一、基因家族的类型和Alu家族

1、含义:真核生物的基因组中有许多来源相同、结构相似、功能相关的基因,这样的一组基因称为一个基因家族(gene family)。

2、分布可在分布在一条染色体上,也可以分布在不同染色体上。

3、分类

①简单的多基因家族;

②复杂的多基因家族;

③不同场合表达的复杂多基因家族。

4、常见的基因家族

5SrRNA基因家族

海胆和果蝇的5个组蛋白基因家族

5、Alu家族(Alu family)

成员众多,大约平均每6kbDNA就有一个,总数大约有300000个。都是由300bp的短序列构成。

结构特点:

在这些300bp的顺序中含有一个限制性内切酶AluI的特异性识别顺序AGCT,由此将这些300bp的序列切割为两个片段,一个片段为170bp,另一片段为130bp,说明这是一类长度相似、性质相似的重复序列,因此称之为Alu家族。

6、其他家族

如KpnI家族、Hinf家族与多聚(dT-dG)家族等。

二、基因簇和假基因

1、基因簇

一个基因家族的成员紧密连锁成簇状排列在某一染色体上,形成一个基因簇(gene cluster)。

2、假基因

在多基因家族中,某些成员并不产生有功能的基因产物,但在结构和DNA

序列上与有功能的基因具有相似性,这种成员称为假基因(pseudogene)。

.

基因家族

定义

基因组进化中,一个基因通过基因重复产生了两个或更多的拷贝,这些基因即构成一个基因家族。

是具有显著相似性的一组基因,编码相似的蛋白质产物。

在真核细胞中许多相关的基因常按功能成套组合,被称为基因家族

(gene family)。同一家族中的成员有时紧密的排列在一起,成为一个基因簇;

更多的时候,它们却分散在同一染色体的不同部位,甚至位于不同染色体上,具有各自不同的表达调控模式。

一组功能相似且核苷酸序列具有同源性的基因,可能由某一共同祖先基因经重复和突变产生。

多基因家族

真核基因组的特点之一就是存在多基因家族(multi gene family)。多基因家族是指由某一祖先基因经过重复和变异所产生的一组基因。多基因家族大致可分为两类:一类是基因家族成簇地分布在某一条染色体上,它们可同时发挥作用,合成某些蛋白质,如组蛋白基因家族就成簇地集中在第7号染色体长臂3

区2带到3区6带区域内;另一类是一个基因家族的不同成员成簇地分布不同染色体上,这些不同成员编码一组功能上紧密相关的蛋白质,如珠蛋白基因家族。在多基因家族中,某些成员并不产生有功能的基因产物,这些基因称为假基因(pseudo gene)。假基因与有功能的基因同源,原来可能也是有功能的基因,但由于缺失,倒位或点突变等,使这一基因失去活性,成为无功能基因。与相应的正常基因相比,假基因往往缺少正常基因的内含子,两侧有顺向重复序列。人们推测,假基因的来源之一,可能是基因经过转录后生成的RNA前体通过剪接失去内含子形成mRNA,如果mRNA经反复转录产生cDNA,再整合到染色体DNA中去,便有可能成为假基因,因此该假基因是没有内含子的,在这个过程中,可能同时会发生缺失,倒位或点突变等变化,从而使假基因不能表达。

多基因家族的进化

在进化过程中,基因家族如编码rRNA的基因或编码组蛋白的基因都是从共同的祖先基因通过重复(duplication)和歧化(divergence)进化而来的,它们具有相同或相关的功能。虽然如此,但它们在发育过程中并不总是同时表达的,不同的成员可能在不同的发育阶段和(或)不同的组织中表达,如有些血红蛋白基因家族成员在成体中表达,而另一些则只在胎儿期表达,这一事实说明在基因调控水平发生了进化歧化(evolutionary divergence)。

在足够时间的进化过程中,基因家族中某些成员的DNA序列可能歧化为可编码一种具有新功能的蛋白,例如,乳清蛋白(lactalbumin)基因与溶菌酶基因就属于同一个家族,前者编码催化乳糖合成的酶的一个亚基,后者编码的溶菌酶能降解某些细菌细胞壁的多糖化合物,但它们具有一个共同的特点就是都作用于碳水化合物。

我们也已经知道,基因家族中的某些成员并不转录或转录本不翻译成有功能的蛋白,即成为基因家族中的假基因。研究发现,这些无功能的假基因缺乏必要的启动序列和缺乏一个或多个具活性的成员中特有的内含子序列。

DNA重复通常是指DNA片段数的增加,它可以是一个完整基因的重复(基因重复)、基因的一部分重复、一个完整染色体的重复(非整倍体)、或整个基因组

的重复(多倍体)。基因家族是由于连续的基因重复所造成的。

非整倍体常导致生物体的不育,而基因组重复只是使基因增加拷贝数,并不产生新的基因,对基因组的复杂性并没有改变。从基因组进化的角度来看,更多的是考虑单个基因或一些基因的重复,而不是整个基因组的重复。

珠蛋白是一个多基因家族,在人类的第16号染色体上发现了7个类a珠蛋白基因,在第11号染色体上发现了6个类b珠蛋白基因,在动物甚至植物中也发现了珠蛋白基因,表明这是一个非常古老的基因家族。在多种动物中几乎所有有功能的珠蛋白基因结构都相同,由3个外显子组成,中间间隔着两个内含于。但珠蛋白基因的数量和次序在各种动物中是不同的。由于所有的珠蛋白基因的结构和顺序都是相似的,因此它们存在着一个祖先珠蛋白基因(多半和现在存在的肌红蛋白基因相关)。在约5亿年前,祖先珠蛋白基因经重复和歧化产生了原始的a珠蛋白基因和b珠蛋白基因,再追溯至8亿年前,这个祖先珠蛋白基因本身也是通过基因重复而产生的,它的另一份拷贝进化为现今的肌红蛋白(myoglobin)基因,肌红蛋白基因的组成和珠蛋白基因相似,其主要功能也同珠蛋白一样是贮存氧,因此我们可以将三个外显子结构看成是它们共同的祖先。植物的豆血红蛋白(leghemoglobin)基因是和珠蛋白基因相关的,植物豆血红蛋白基因存在着很多原始的类型,它比肌红蛋白基因多一个内含子,但它与肌红蛋白很相似。

某些原始的鱼类只有单个类型的珠蛋白链,因此它们必然是在珠蛋白基因尚未发生重复前就歧化了出来。在某些两栖动物中含有a和b连锁的珠蛋白基因,这是由祖先珠蛋白基因重复后经突变形成的。后来进一步重复,在哺乳动物中形成了a珠蛋白家族和b珠蛋白家族。重复在进化中是经常发生的,事实上,珠蛋白基因的拷贝数在某些人类群体中是有变化的,例如大部分人在16号染色体上有2个a基因(a1、a2,图12-9),但有些个体在此染色体上只有1个,而另一些个体有3个甚至有4个a珠蛋白基因。此表明在多基因家族中基因的重复和缺失是恒定的进行过程。重复也可以通过转座而产生。

基因组中的基因家族(来源于首席医学网)

在人及高等有机体基因组中,有许多基因家族。有的基因家族成员多,有的基因家族成员少;有的基因家族成员功能相似,有的基因家族成员功能各异[1]。所谓多基因家族是指一类具有序列同源性及相似功能的基因;而基因超家族是指一类具有序列同源性而不具相似功能的基因。如果一类蛋白或基因具有共同起源的一个结构域,就属于一个基因超家族,同一个基因可归属于两个或多个基因超家族。有关基因家族的研究起始于二十世纪七十年代,目的是为阐明个体或群体遗传差异与基因冗余(gene redundancy)的关系。文献表明:免疫球蛋白基因超家族与其它多基因家族进化的分子机制相似,染色体不等交换和基因转换(gene conversion)导致了免疫球蛋白基因的进化。为阐明基因家族进化和变异的分子机制,应同时考虑染色体不等交换、基因突变、自然选择及随机漂变等因素。同一基因家族中不同成员的序列同源性取决于基因突变与染色体不等交换的频率,也与自然选择及随机漂变有关[1]。

基因超家族的一个重要特点是不同成员具有不同的表达模式

(expression patterns),而同一多基因家族的不同成员往往具有相同的表达调控机制。因此,有必要阐明基因超家族成员其表达模式改变的诱因。一些大的基因超家族通常包括数个单基因和几个多基因家族,这些基因家族的形成是有机体进化的分子基础。基因组中几乎所有的基因可归属于一个或更多的基因超家族。同源性比较可用于分析不同基因间的进化关系;系统发生分析可剖析基因家族不

同成员的相关性;基因进化树可澄清基因拷贝数增加或基因重复

(gene duplication)的历史,同时,为识别不同种属同源基因提供有益信息。

1. 基因家族在基因组中的分布

1.1 成簇存在的基因家族许多重要的基因家族在基因组中成簇存在,也即同一基因家族的不同成员在基因组中重复串联排列。这些成簇存在的基因是种系生殖细胞在减数分裂过程中,通过染色体不等交换和基因转换形成的。一些多基因家族成员的拷贝数巨大,如核糖体RNA或组蛋白基因家族,这是由于有机体需要其大量的基因表达产物。在真核生物中,rRNA基因通常形成一个多基因家族。rRNA基因的一个重复单位包含一个转录区和一个非转录间隔区,转录区包括

18S、5.8S和28S rRNA基因,该重复单位在基因组中重复数百次。rRNA多基因家族不同成员进化的分子机制一致,尽管不同种属rRNA基因重复单位的序列有所差异,但同种属rRNA基因重复单位之间的同源性很高。在高等有机体基因组中,核小体的四种核心组蛋白基因通常成簇存在,该基因簇在基因组中重复数十次,这些基因在细胞周期的S期同步表达。也有几个组蛋白基因的表达与细胞周期无关,此类组蛋白基因的表达与一般的组织特异性基因相似。

一些成簇存在的基因超家族成员功能各异,最典型是珠蛋白基因超家族(globin gene superfamily)。哺乳类珠蛋白基因超家族由α样珠蛋白基因家族、β样珠蛋白基因家族和肌红蛋白家族三个基因家族组成。前两个基因家族由成簇存在的基因编码,而肌红蛋白由单个基因编码。每个基因簇包括胚胎期、成人期α或β珠蛋白基因及假基因。一种珠蛋白的编码基因不止一个,例如:有两个基因α1、α2编码成人期α-珠蛋白,这两个基因组成一个较小的多基因家族,具有共同的进化途径[2]。

1.2 含有成簇及散在存在成员的基因超家族一些基因超家族通常含有成簇和散在存在的成员,成簇存在的基因(通常组成多基因家族)具有相似功能的,而散在存在的基因往往具有不同的功能。但也有例外,如成簇存在的Hox基因家族成员其功能可能完全不同[3]。

在人体基因组中,免疫球蛋白基因超家族包含有成簇及散在存在的成员,是具有多个功能各异的基因,该基因超家族的许多成员含有非免疫球蛋白的结构域,具有多种不同功能。免疫球蛋白基因家族是最大的基因超家族之一,该家族基因所编码的多肽是血液中的不同抗体。免疫球蛋白由可变区(varible,V)、恒定区(constant,C)、多样区(diversity,D)、结合区(joining,J)基因片段编码。V、D、J区基因片段存在多个拷贝,免疫球蛋白由V、D、J区及轻、重链的不同组合构成,体细胞的突变也与免疫球蛋白的多样性有关。通过不同组合产生足够的多样化抗体,进化过程中突变的积累尤为重要。分析可变区基因序列得知,抗原识别区多样性的提高与自然选择有关。

MHC(major histocompatibility complex)多基因家族属于免疫球蛋白基因超家族,该多基因家族与临床医学密切相关,且有高度的多态性,引起了研究人员的关注。研究结果显示:MHC等位基因中具有差异极小的短片段序列,很明显是由其同源基因突变所致,基因重组促使MHC基因经历着动态的演变。序列相似性研究表明,使抗原识别位点氨基酸多样性升高的自然选择,促使MHC基因保持高度多态性[4]。同时,包括抗原识别位点在内的基因转换也可产生有用的变异,为自然选择提供物质基础。

另一典型的既含基因簇又含散在存在基因成员的基因家族是嗅觉受体(olfactory receptor)基因。该受体是一种含有七个跨膜域的膜蛋白,属于G

蛋白耦联受体(G-protein-coupled receptor,GPCR)基因超家族。其功能的多样性由基因本身编码,而并非由体细胞突变或不同基因片段组合使用所致。哺乳动物大约共有几百个GPCR基因。这类基因在基因组中形成许多个基因簇,每个基因簇中含有多个成员及假基因。鲇鱼基因组中的GPCR基因比哺乳类少得多,该基因家族在哺乳类动物祖先基因组内完成了扩展[5]。

1.3 散在存在的基因家族许多散在存在的基因家族,一般认为是通过RNA 逆转录、随后整合到基因组中形成的。整合序列(integrated sequence)或逆转录序列(retrosequence)来源于基因的RNA转录本,因此无内含子。大多数逆转录序列已变为不具功能的逆转录假基因(retropseudogene),只有极少数逆转录序列保留了其功能。有功能的逆转录序列被称为逆转录基因(retrogene)或剪接过的基因(processed gene)。位于人常染色体上的磷酸甘油酸激酶基因没有内含子,是一种逆转录基因,与其在X染色体上的原始基因相比,该基因的表达模式(expression patterns)发生了改变。与预期的情况一致,大多数逆转录序列已变为逆转录假基因[6]。例如:细胞色素C、甘油三磷酸脱氢酶、核糖体蛋白L32、β微管蛋白、精氨酰琥珀酸合成酶等基因。

2. 基因家族形成的分子机制

2.1 基因重复和点突变基因发生重复的主要分子机制包括多倍体化、串联重复及逆转录转座三种。在多倍体化过程中,基因组中所有基因皆被重复。基因较小区域的重复由上述后两种机制完成。多倍体化导致了许多基因家族的形成。串联重复参与了成簇存在的基因家族的进化,重复的DNA区域可以小于或大于一个基因的长度,但在基因家族的进化过程中,整个基因的重复尤为重要。

在种系生殖细胞的减数分裂过程中,染色体不等交换引起基因串联重复。一旦一个基因簇形成,不等交换率就会升高。在具有相似功能成员的多基因家族中,频繁的染色体不等交换导致了家族成员的协同进化。一般而言,点突变与染色体不等交换可引起同一基因家族内的遗传性改变,自然选择和遗传漂变对于同一基因家族成员的变异也有重要影响。

在人体基因组中,具有功能的逆转录序列或整合序列很少,但有大量来源于逆转录的重复序列。丰度最高的重复序列有短的散在重复序列

(short interspersed repeats,SINES)和长的散在重复序列

(long interspersed repeats,LINES),在这些重复序列中,Alu重复序列最多,基因组中超过了50万个。人体Alu基因家族与7SLRNA具有序列相似性,7SLRNA 在胞质中含量最多。在其他生物中,tRNA与SINES具有同源性,故7SLRNA、tRNA 被认为是SINES的模板。人基因组LINES中含有一个逆转录酶基因,可以完成其序列自身的逆转录转座。人体基因组中LINES的拷贝数大约有10万个。大多数LINES发生缺失,不具有功能。总之,当一个种系生殖细胞中含有合适的RNA转录本及逆转录酶活性时,即可完成逆转录转座,大多数逆转录序列在其形成的过程中变成了无功能的逆转录假基因。

2.2 自然选择和随机漂变任何重复基因或多拷贝基因,如果被表达且具有功能,则正经历着纯化性自然选择(purifying selection),多拷贝基因的进化率比单个基因的突变率低很多。多拷贝基因与单个基因受到的自然选择限制程度有差异。自然选择限制程度随基因冗余而减弱,只要有一个基因保留其功能,有害的突变就有可能富集。对于大的多基因家族:如rRNA基因和组蛋白基因,有害突变的积累可被纯化性自然选择阻止,纯化性自然选择可以检测到具有功能的完整基因的数目。使突变基因拷贝数增加或减少的协同进化有利于自然选择。

正向自然选择(positive selection)是在重复基因获得新功能时发生的[7]。事实上,许多重复基因产生后,即加快了氨基酸替代,氨基酸替代可以通过计算同义及非同义突变的频率进行估计。这类基因包括灵长类胚胎血红球蛋白,反刍动物肠溶菌酶、哺乳类视觉色素等等。一些情况下,难以确定氨基酸替代率的增加是由正向自然选择引起,或许是由基因冗余造成自然选择限制程度减弱所致。

基因重复的另一种后果是基因表达模式(expression patterns)发生变化,也即多拷贝基因的功能特化或亚功能化(subfunctionalization)。这种变化对于参与发育过程的转录因子及其他蛋白尤为重要,这类基因功能的变化与生物的形态学进化直接相关。分析果蝇转录因子的调控元件得知,其调控元件的序列正在发生颠换(turning over),在稳定选择条件下,该转录因子的功能仍能维持。当稳定选择条件发生变化时,该转录因子可被另一种转录因子替代,从而导致靶基因表达模式或表达调控机制发生改变,自然选择和随机漂变也与靶基因表达调控机制的变化有关。

基因家族分析套路.docx

基因家族分析套路(一)近年来,测序价格的下降,导致越来越多的基因组完成了测序,在数据库中形成了大量的可用资源。如何利用这些资源呢?今天小编带你认识一下不测序也能发文章的思路--全基因组基因家族成员鉴定与分析(现在这一领域可是很热奥); 一、基本分析内容 ?数据库检索与成员鉴定 ?进化树构建 ?保守domain和motif分析. ?基因结构分析. ?转录组或荧光定量表达分析. 二、数据库检索与成员鉴定 1、数据库检索 1)首先了解数据库用法,学会下载你要分析物种的基因组相关数据。一般也就是下面这些数据库了 ?Brachypodiumdb: ?Rice?Genome?Annotation?Project?:. 2)已鉴定的家族成员获取。 ? ? ??如何获得其他物种已发表某个基因家族的所有成员呢,最简单的就是下载该物种蛋白序列文件(可以从上述数据库中下载),然后按照文章中的ID,找到对应成员。对于没有全基因组鉴定的,可以下列数据库中找: ???a.?NCBI:?nucleotide?and?protein?db.

谢谢你的观赏 2、比对工具。一般使用blast和hmmer,具体使用命令如下: ?Local?BLAST formatdb–i?db.fas–p?F/T; blastall–p?blastp(orelse)?–i?known.fas–d?db.fas–m?8?–b?2(or?else)?e?1e-5?– o?alignresult.txt. -b:output?two?different?members?in?subject?sequences?(db). ?Hmmer?(hidden?Markov?Model)?search.?Thesame?as?PSI-BLAST?in?function.?It?has?a ?higher?sensitivity,?but?the?speed?islower. Command: 3、过滤。 ?Identity:?至少50%. ?Cover?region:?也要超过50%或者蛋白结构域的长度. ?EST?支持 ??Blast?and?Hmmer同时检测到 4、通过上述操作获得某家族的所有成员 基因家族分析套路(二) 本次主要讲解在基因家族分析类文章中,进化部分分析的内容。主要是进化树的构建与分析。 谢谢你的观赏

植物中SWEET基因家族研究进展

植物生理学报 Plant Physiology Journal 2014, 50 (9): 1367~1373 doi: 10.13592/https://www.360docs.net/doc/9018579832.html,ki.ppj.2014.03021367 收稿 2014-06-26 修定 2014-07-24 资助 国家自然科学基金(31372054)和植物生理学与生物化学国 家重点实验室开放课题(SKLPPBKF1404)。 * 通讯作者(E-mail: jiangjingcau@https://www.360docs.net/doc/9018579832.html,; Tel: 024-********)。 植物中SWEET 基因家族研究进展 刘畅, 姜晶*, 韩晓雪, 韩佳轩 沈阳农业大学园艺学院, 设施园艺省部共建教育部重点实验室, 辽宁省设施园艺重点实验室, 沈阳110866 摘要: SWEET 基因家族是一个新的糖转运蛋白, 具有2个MtN3/saliva 跨膜结构域, 从单细胞的原生生物到高等的真核生物中均有出现。目前对该家族功能研究较少, 尽管基于MtN3/saliva 的不同类型的基因已经被确定, 但确切的生物学功能与该跨膜结构域的分子功能仍有待研究。近来的研究表明MtN3/saliva/SWEET 基因可能作为糖转运蛋白或通过与离子转运蛋白的互作促进离子转运, 调节不同的生理过程, 在包括转运糖类、发育、环境适应性、宿主-病原体的相互作用中发挥作用。本文介绍了MtN3/saliva/SWEET 基因结构功能的最新研究进展, 将为阐明其在不同植物中的功能提供分子基础。关键词: 糖转运蛋白; SWEET ; 研究进展; 植物 Research Advances in SWEET Gene Family in Plants LIU Chang, JIANG Jing *, HAN Xiao-Xue, HAN Jia-Xuan Key Laboratory of Protected Horticulture, Ministry of Education, Key Laboratory of Protected Horticulture of Liaoning Province, College of Horticulture, Shenyang Agricultural University, Shenyang 110866, China Abstract: SWEET gene family, harboring two MtN3/saliva transmembrane domains, is a new sugar transporter and is present from protozoa to high eukaryotes. Some types of the family genes are characterized, but little was known regarding the biological and molecular functions of the family and the transmembrane domains. Recently, MtN3/saliva/SWEET genes have been reported to be involved in multiple physiological processes by facilitating ion transport via interaction with ion transporters or as sugar transporters. They play more diverse roles in plants like transport sugar, reproductive development, environmental adaptation and host-pathogen interaction. This article focuses on the advance of the MtN3/saliva /SWEET gene family, including details about their struc-ture, function and regulation. It will help to elucidate the molecular bases of their function in plants.Key words: sugar transporters; SWEET ; research advance; plants SWEET 蛋白是一个结构保守、不依赖能量的糖转运蛋白。具有2个MtN3/saliva 跨膜结构域。MtN3结构域最早发现在苜蓿根部结瘤素(nodulin, 是蒺藜苜蓿在与苜蓿根瘤菌互作的过程中被诱导表达的基因) MtN3蛋白中(Gamas 等1996)。此后, 在果蝇胚胎唾液腺的saliva 蛋白中(Artero 等1998)、小鼠、人、海鞘等动物, 矮牵牛、水稻、拟南芥等植物中也相继发现具有相同结构域的蛋白。该保守的跨膜结构域被命名为MtN3/saliva (Hamada 等2005)。在后来的研究中发现, 此蛋白起蔗糖、果糖转运体的作用(Yuan 等2010), 所以被重新命名为SWEET (sugars will eventually be exported trans-porters) (Chen 等2010)。1 SWEET 蛋白的结构特征 根据蛋白质家族数据库的注释和多序列比对(PFAM), MtN3-like 大族(https://www.360docs.net/doc/9018579832.html,/clan/MtN3-like)包括5个家族: MtN3/saliva (PF03083)、 PQ-loop (PF04193)、UPF0041 (PF03650)、ER Lu-men Receptor (PF00810)和Lab-N (PF07578)。真核生物的MtN3/saliva 和PQ-loop 蛋白家族包括7个跨膜螺旋(transmembrane domains, TMs) (图1-A)。而少数的原核生物中只含有一个结构域, 由3个跨膜螺旋组成(图1-B)。Xuan 等(2013)利用分裂泛素和分裂GFP 系统研究显示具有3个跨膜结构的原核生物SWEET 蛋白可发生寡聚化形成二聚体后才行使转运糖的功能。 大多数已知的糖转运蛋白多位于质膜, 与质子耦合, 通过质外体逆浓度梯度进行糖转运(Lalonde 等2004)。这种质子推动的糖的流入可促进蔗糖在

毛果杨PP2C基因家族生物信息学分析

毛果杨PP2C基因家族生物信息学分析 摘要:蛋白磷酸酯酶2C(PP2C)是蛋白磷酸酯酶中的一大类,广泛参与逆境信号的传递过程。本实验采用比较基因组学的方法,利用已知的拟南芥PP2C蛋白序列为检索序列,在全基因组水平上搜索毛果杨的PP2C基因的同源序列。最终确定了毛果杨45个PP2C候选基因。对同源序列作进一步的多序列联配、ESTs、MEME和系统发生表达分析。 关键词:毛果杨比较基因组学基因家族 Abstract: Protein phosphatase 2C (PP2C) is a protein phosphatase in a large class, the broad participation of adversity signal transmission process. In this study, we searched the homologous sequence from Populus trichocarpa protein database based on the complete genome by using comparative genomics methods and taking the Arabidopsis thaliana PP2C protein which has been isolated as the retrieval sequence. The results showed that 45 PP2C-like protein were identified from Populus trichocarpa. Further, we also analyzed the sequence alignment, MEME, EST and phylogenetic. Keywords: Populus trichocarpa comparative genomics genne family 真核生物基因组中,编码蛋白磷脂酶的基因远远少于蛋白激酶,一般只有蛋白激酶基因数的四分之一至三分之一。在过去的研究中,蛋白质可逆磷酸化研究的重点主要针对蛋白激酶,不过,现在越来越多的研究显示,在信号转导中,蛋白磷酸酶和蛋白激酶同样重要[1]。 根据底物蛋白分子上去磷酸化的氨基酸残基的种类,PP主要分为三个家族:酪氨酸蛋白磷酸酶(protein tyrosine phosphatases, PTPs)、丝氨酸蛋白磷酸酶(protein serine phosphatases, PPPs)和双特异性蛋白磷酸酶(dual specificity phosphatases, PSPs)。根据酶对底物选择的特异性和对抑制剂的敏感程度,PPPs分为PP1和PP2。根据亚基的结构、二价离子的依赖性和底物特异性,PP2又可进一步分为PP2A、PP2B和PP2C[2]。大量研究表明,PP2A在进化过程中,高度保守且广泛表达。PP2B是由催化亚基A和调节亚基B构成的二聚体,也是唯一受Ca2+/CaM调节的丝氨酸蛋白磷酸酶,在介导Ca2+信号到细胞应答中发挥了重要作用。在所有PSPs的亚类中,只有PP2C没有调控亚基,是一种单体蛋白磷酸酶,活性依赖于Mg2+或Mn2+[4]。PP2C与其他类型的PPP类蛋白磷酸酶相比,没有较明显的氨基酸序列同源性,但是蛋白质三维结构的相似性却揭示这些蛋白磷酸酶可能拥有相似的催化机制或相同的催化底物。PP2C类蛋白磷酸酶的一个重要的结构特征是在其催化区域内含有11个保守的结构亚区[3]。与哺乳动物PP2Cs相比,植物PP2Cs具有独特的结构模式,即植物中多数PP2C类磷酸酶C端具有保守的催化区域,而N端却是保守性不强、长度不一的延伸区域,在这些延伸区域内,含有与胞内信号相关的序列包括跨膜区域和激酶互作区域等,从而赋予了PP2C 不同的功能[1]。 蛋白磷酸酶结构的复杂性是功能广泛性的基础。随着植物中越来越多的蛋白磷酸酶基因及其相关蛋白的分离、纯化与鉴定,以及基因特性与生理生化的深入研究,其众多的功能也陆续的被确定。迄今为止,蛋白磷酸酶已经被证实与植物的生长发育、信号转导、细胞周期、渗透胁迫以及活性氧胁迫等各种抗逆性反应相关联。如今,毛果杨的全基因组测序已经完成,数据库Populus trichocarpa v1.1(https://www.360docs.net/doc/9018579832.html,/Poptrl_1/Poptrl_1.home.html)公布了全部序列。此后,在第一测序的基础上,进行了第二次补充测序。毛果杨全基因组最新数据已经包含在数据库Phytozome v7.0(https://www.360docs.net/doc/9018579832.html,/poplar)。本实验运用生物信息学

基因家族分析套路

近年来,测序价格的下降,导致越来越多的基因组完成了测序,在数据库中形成了大量的可用资源。如何利用这些资源呢?今天小编带你认识一下不测序也能发文章的思路--全基因组基因家族成员鉴定与分析(现在这一领域可是很热奥); 一、基本分析内容 数据库检索与成员鉴定 进化树构建 保守domain和motif分析. 基因结构分析. 转录组或荧光定量表达分析. 二、数据库检索与成员鉴定 1、数据库检索 1)首先了解数据库用法,学会下载你要分析物种的基因组相关数据。一般也就是下面这些数据库了 Brachypodiumdb Genome Annotation Project : NCBI基因组数据库:)已鉴定的家族成员获取。 如何获得其他物种已发表某个基因家族的所有成员呢,最简单的就是下载该物种蛋白序列文件(可以从上述数据库中下载),然后按照文章中的ID,找到对应成员。对于没有全基因组鉴定的,可以下列数据库中找: a. NCBI: nucleotide and protein d b. b. EBI: c. UniProtKB、比对工具。一般使用blast 和hmmer,具体使用命令如下:

Local BLAST formatdb–i –p F/T; blastall–p blastp(orelse) –i –d –m 8 –b 2(or else) e 1 e-5 –o . -b:output two different members in subject sequences (db). Hmmer (hidden Markov Model) search. Thesame as PSI-BLAST in function. It has a higher sensitivity, but the speed islower. Command: 、过滤。 Identity: 至少50%. Cover region: 也要超过50%或者蛋白结构域的长度. domain: 必须要有完整的该蛋白家族的。工具pfamdb 和 NCBI Batch CD- search. 支持 Blast and Hmmer同时检测到 4、通过上述操作获得某家族的所有成员 基因家族分析套路(二) 本次主要讲解在基因家族分析类文章中,进化部分分析的内容。主要是进化树的构建与分析。 一、构建进化树的基本步骤 1、多序列比对. Muscle program.

基因家族生信分析

基因家族生信分析 一、什么是基因家族 概念:是来源于同一个祖先,有一个基因通过基因重复而产生两个或更多的拷 贝而构成的一组基因,他们在结构和功能上具有明显的相似性,编码相似的蛋白质产物。 划分: 按功能划分:把一些功能类似的基因聚类,形成一个家族。 按照序列相似程度划分:一般将同源的基因放在一起认为是一个家族。 1.常见基因家族: WRKY基因家族:是植物前十大蛋白质基因家族之一,大量研究表明,WRKY 基因家族的许多成员参与调控植物的生长发育,形态建成与抗病虫。 NBS-LRR抗病基因家族:是植物中最大类抗病基因家族之一。 MADS-BOX基因家族:是植物体内的重要转录因子,它们广泛地调控着植物的生长、发育和生殖等过程。在植物中参与花器官的发育,开花时间的调节,在果实,根,茎,叶的发育中都起着重要的作用。 热激蛋白70家族(HSP70)是一类在植物中高度保守的分子伴侣蛋白,在细胞中协助蛋白质正确折叠。 二、基因家族分析流程:

●利用蛋白保守域结构提取号在Pfam数据库提取其隐马尔科夫模型矩 阵文件(*.hmm) ●在数据库(Ensemble 、JGI、NVBI)下载你所需要的物种的基因组数 据(*.fa,*.gff) ●在虚拟机中Bio-Linux中的hummsearch程序,用隐马尔科夫模型矩 阵文件在蛋白序列文件中搜索含有该保守结构域的蛋白 ●将蛋白序列导入MEGA软件构建进化树(可以阐明成员之间系统进化 关系,从进化关系上揭示其多样性) ●利用MEME搜索蛋白质的保守结构域 利用MEME搜索基因家族成员的motif可以揭示基因家族在物种内的多样化及其功能,如果他们都含有相同的motif表明其功能具有 相似性,如果部分家族成员含有其他不同的motif,很可能这些成员有 其他特异功能,或者可以归分为一个亚族 ●绘制基因染色体位置图 从*.gff文件中抽取我们搜索到的基因位置信息,http://mg2c.iask.in/mg2c_v2.0/在线绘制基因染色体位置图 通过染色体位置分布,可以了解基因主要分布字哪条染色体上,及是 否能形成基因簇(被认为是通过重组与错配促进基因交流) ●基因结构分析 从gff文件中抽取基因的结构信息,绘制转录本结构图。 ●计算串联重复基因的Ka,Ks 1.首先将筛选到的基因的cds序列进行多序列对比,筛选identity > 75%,tength大于对比的两条序列中较长的那条的长度的75%,将 筛选到的基因分别用clustalw进行比对,比对结果导入 KsKs_Calculster计算Ka,Ks、 Ka/ks比,计算核苷酸的非同义替代(ka)与核苷酸的同义替代 (ks)的平均速率。 2.Ka/ks比值<1表明:通过纯化选择降低了氨基酸变化的速率;比 值=1表示中性选择;比值>1,表明这些基因可能已经收到积极选 择,有利于适应性遗传,这些受正向选择的基因将作为以后的研 究重点。 软件的安装 从图片中获得进入NCBI-blast官网复制blast-linux版本的链接

基因家族的定义

什么是一个基因家族呢?由一个共同的祖先基因经过重复(duplication)和突变(mutation)产生的、外显子中具有相似的序列的一组相关基因被称为基因家族(gene family)。基因重复主要有三种方式:片段复制、串联重复和逆转录转座或其他转座事件等,基因重复后可以彼此形成基因簇(gene clusters),同一家族中的成员有时紧密的排列在一起,成为一个基因簇;更多的时候,它们却分散在同一染色体的不同部位,甚至位于不同染色体上,具有各自不同的表达调控模式。基因突变是基因分子进化的第一原因,由核苷酸替代、插入/缺失、重组和基因转换等引发的突变基因或DNA序列,通过群体水平的遗传漂变和/或自然选择进行扩散,并最终在物种基因组中得以固定,这种方式产生的新基因一般拷贝数目不会增加,相对基因重复是非常少的,主要是影响基因的序列以及其编码的蛋白。基因家族主要是指一组功能相似且核苷酸序列具有同源性的基因,是具有显著相似性的一组基因,编码相似的蛋白质产物。 有时定义基因家族,从结构域角度来刻画。如:一类基因,其编码蛋白都含有同一个结构域,这一类基因是一个基因家族。比如MADS-box基因家族,这类基因都含有MADS-box结构域,还有SET结构域基因家族。这个定义信息更偏向功能信息,一般来说结构域决定某种功能,因为结构域序列保守,易形成稳定的三维结构。这与共同祖先的定义有些差别,很多结构域难找得到其共同祖先。另外一个基因的共同祖先定义比较复杂的,越是历史久远的祖先,因为物种的在进化过程中发生了很多丢失和增加事件。共同祖先是个相对的概念,比如植物的共同祖先,一般包括藻类及其它绿色植物,而被子植物共同祖先,根据已经测序的基因组,一般指单双子叶之前就可以。如果从共同祖先定义基因家族,很多已知的基因家族就要被分成很多个基因家族。有很多网站(数据库)专门收集结构域,比如Pfam和InterPro,这两个数据库内容差不多。这些数据库以Hmmer算法为基础,根据Uniprot中包含的蛋白,进行序列连配找到保守的片段(结构域),再以这些序列使用Hmmer构建种子,保存这些种子。一个蛋白拿过来后,与这些种子比对,根据打分能判断出这个蛋白是不是含有这个结构域,这也是判断一个基因编码蛋白是不是属于这个家族。 基因家族 定义 基因组进化中,一个基因通过基因重复产生了两个或更多的拷贝,这些基因即构成一个基因家族。 是具有显著相似性的一组基因,编码相似的蛋白质产物。 在真核细胞中许多相关的基因常按功能成套组合,被称为基因家族(gene family)。同一家族中的成员有时紧密的排列在一起,成为一个基因簇; 更多的时候,它们却分散在同一染色体的不同部位,甚至位于不同染色体上,具有各自不同的表达调控模式。 一组功能相似且核苷酸序列具有同源性的基因,可能由某一共同祖先基因经重复和突变产生。 多基因家族 真核基因组的特点之一就是存在多基因家族(multi gene family)。多基因家族是指由某一祖先基因经过重复和变异所产生的一组基因。多基因家族大致可分为两类:一类是基因家

人类Argonaute基因家族与肿瘤关系的研究进展

·综述· Argonaute (AGO )蛋白通过结合小RNAs 来调控蛋白质的合成或影响mRNA 的稳定性即RNA 干扰(RNAi )。AGO 蛋白家族是RNA 诱导沉默复合体(RISC )的核心蛋白,在RNAi 中发挥重要作用,参与染色质修饰,靶向mRNA 断裂、翻译抑制,从而产生特异性基因沉默作用[1],并与多种恶性肿瘤的发生密切相关。AGO 蛋白家族是一类高度保守的碱性蛋白,分为AGO 亚家族(包括AGO 1~4)和PIWIL 亚家族(包括PIWIL 1~4),其典型特征为N 端的PAZ 结构域、Mid 结构域和C 末端的PIWI 结构域[2]。PAZ 结构域和PIWI 结构域形成一个供底物结合的沟槽,有助于sRNA 和目标mRNA 结合,并可以剪切mRNA [3]。PAZ 结构域是核糖核蛋白复合体(RISC )中小RNAs 的结合位点,PIWI 结构域是RISC 中的酶切割活性中心。1AGO1与肿瘤的关系 AGO1的PIWI 结构域结合RNase Ⅲ内切酶Dicer 来调节Dicer 酶和AGO 蛋白之间的相互作用,从而促进RNAi 的进行[4]。有研究提示,AGO1可能还通过参与异染色质沉默进而参与肿瘤的进展[5?6]。AGO1在细胞核中作用于DNA 启动子区域,使组蛋白和靶基因发生甲 基化,从而抑制基因表达[6?7] 。AGO1在正常肺和肾的发育过程中和在缺少Wilms 肿瘤抑制基因WT1的肾癌中高表达[8],提示AGO1在这些组织的胚胎发生过程中起重要作用。BEHMT?ANSMANT 等[9]还发现,AGO1蛋白的PIWI 结构域可与RNA 沉默相关的GW182蛋白N 端的GW 重复结构相互作用,从而参与微小RNA (miR?NA )途径对目标mRNA 的降解。姜琳等[10]对AGO 蛋白亚家族研究发现,在人乳腺癌MCF7、子宫颈癌HeLa 细胞系中,小干扰RNA (siRNAs )对AGO 蛋白的基因沉默效果明显,AGO 蛋白沉默导致细胞增殖活性下降,使肿瘤细胞周期阻滞在G 0/G 1期,其中AGO1沉默所致的细胞生长抑制程度最大。在结肠癌研究中,LI 等[11]发现AGO1~4和PIWIL1~4表达于肿瘤组织明显高于癌旁组织;结肠癌组织与非癌组织相比,AGO1和PIWIL2表达显著可能代表新的早期诊断结肠癌标志物。2AGO2与肿瘤的关系 AGO 蛋白家族在肿瘤的研究中,关于AGO2蛋白 的报道较多。AGO2蛋白在生物体内广泛表达,具有核 酸内切酶活性。AGO2的PIWI 结构域与miRNA 结合而参与mRNA 的基因沉默[12]。AGO2表达水平与多种肿瘤的发生、发展,以及肿瘤细胞的增殖与分化、新生血管的发生、对缺氧应激的耐受性等密切相关。miRNA 广泛参与肿瘤细胞增殖、浸润、转移等恶性生物学行为。 在癌前病变日光性角化病、皮肤基底细胞癌、鳞癌中,AGO2均高表达[13]。在胃癌中,ZHANG 等[14]发现,随着病程的发展,AGO2的表达也在不断变化。在乙型肝炎病毒相关肝细胞癌研究中发现,AGO2mRNA 的表达水平在癌症组织中较高,研究进一步发现AGO2可以通过增加黏附斑激酶基因的表达来参与肝细胞癌的进展[15?16]。在多发性骨髓瘤研究中,WU 等[17]发现,AGO2的高表达可使抗血管生成的miR?145和促血管生成的let?7家族及miR?17/92基因簇表达失调,进一步促进新生血管形成,进而参与肿瘤的迁移。VAKSMAN 等[18]研究发现,在晚期卵巢浆液癌患者中,化疗后的AGO2mRNA 和蛋白水平较未化疗患者低,这可能是延长患者生存时间的一个潜在指标。在非小细胞肺癌研究中,DIEDERICHS 等[19]发现,抑制AGO2的表达可使癌基因miR?100的表达下调,也使抑癌基因miR?34a 、miR?125b 的表达上调,提示AGO2在非小细胞肺癌中的高表达可能促进肿瘤的发展。最近研究发现,在宫颈癌中,通过miRNA 和GRSF1参与miRNA 途径AGO2的正向调节[20]。AGO2的表达增强通过miR ?346和GRSF1独立于AGO2稳定性的增加。miR?346通过上调AGO2的表达来增加宫颈癌细胞的恶性表型。miR?346对AGO2的上调也发生在其他类型的癌细胞中,包括SW480结直肠癌细胞和OVCAR3卵巢癌细胞。证明了miR?346在GRSF1依赖的方式上增加AGO2的表达,从而参与调节其他miRNAs 的活性。这一发现暗示,miR?346可能是宫颈癌预防和治疗的潜在治疗靶点。CUBILLOS?RUIZ 等[21]在对卵巢癌相关树突状细胞的研究中发现,在细胞内注入合成的内源性双链pre?miR?155表达出来的卵巢癌抑癌基因miR ?155首先与AGO2结合,进入RNA 诱导沉默复合体后,miR?155的 人类Argonaute 基因家族与肿瘤关系的研究进展* 张成晨,刘莉娟,李楠,郭秀丽,章梦琦综述,肖 娟,翟立红审校△(湖北文理学院,湖北襄阳441053) 【关键词】Argonaute 基因家族;肿瘤;预后;人类;综述 DOI :10.3969/j.issn.1009?5519.2018.12.016文献标识码:A 文章编号:1009?5519(2018)12?1820?05 *基金项目:湖北省卫生计生科研项目(WJ2016M228);湖北省高等学校优秀中青年科技创新团队计划项目(T201715);大学生创新创业训练项目(8243)△ 通信作者,E?mail :zlh_0302@https://www.360docs.net/doc/9018579832.html, 现代医药卫生2018年6月第34卷第12期J Mod Med Health ,June 2018,Vol.34,No.12 ··1820

基因家族的定义

什么是一个基因家族呢由一个共同的祖先基因经过重复(duplication)和突变(mutation)产生的、外显子中具有相似的序列的一组相关基因被称为基因家族(gene family)。基因重复主要有三种方式:片段复制、串联重复和逆转录转座或其他转座事件等,基因重复后可以彼此形成基因簇(gene clusters),同一家族中的成员有时紧密的排列在一起,成为一个基因簇;更多的时候,它们却分散在同一染色体的不同部位,甚至位于不同染色体上,具有各自不同的表达调控模式。基因突变是基因分子进化的第一原因,由核苷酸替代、插入/缺失、重组和基因转换等引发的突变基因或DNA序列,通过群体水平的遗传漂变和/或自然选择进行扩散,并最终在物种基因组中得以固定,这种方式产生的新基因一般拷贝数目不会增加,相对基因重复是非常少的,主要是影响基因的序列以及其编码的蛋白。基因家族主要是指一组功能相似且核苷酸序列具有同源性的基因,是具有显著相似性的一组基因,编码相似的蛋白质产物。 有时定义基因家族,从结构域角度来刻画。如:一类基因,其编码蛋白都含有同一个结构域,这一类基因是一个基因家族。比如MADS-box基因家族,这类基因都含有MADS-box结构域,还有SET结构域基因家族。这个定义信息更偏向功能信息,一般来说结构域决定某种功能,因为结构域序列保守,易形成稳定的三维结构。这与共同祖先的定义有些差别,很多结构域难找得到其共同祖先。另外一个基因的共同祖先定义比较复杂的,越是历史久远的祖先,因为物种的在进化过程中发生了很多丢失和增加事件。共同祖先是个相对的概念,比如植物的共同祖先,一般包括藻类及其它绿色植物,而被子植物共同祖先,根据已经测序的基因组,一般指单双子叶之前就可以。如果从共同祖先定义基因家族,很多已知的基因家族就要被分成很多个基因家族。有很多网站(数据库)专门收集结构域,比如Pfam和InterPro,这两个数据库内容差不多。这些数据库以Hmmer算法为基础,根据Uniprot中包含的蛋白,进行序列连配找到保守的片段(结构域),再以这些序列使用Hmmer构建种子,保存这些种子。一个蛋白拿过来后,与这些种子比对,根据打分能判断出这个蛋白是不是含有这个结构域,这也是判断一个基因编码蛋白是不是属于这个家族。

基因家族分析套路

基因家族分析套路(一) 近年来,测序价格的下降,导致越来越多的基因组完成了测序,在数据库中形成了大量的可用资源。如何利用这些资源呢?今天小编带你认识一下不测序也能发文章的思路--全基因组基因家族成员鉴定与分析(现在这一领域可是很热奥); 一、基本分析内容 ?数据库检索与成员鉴定 ?进化树构建 ?保守domain和motif分析. ?基因结构分析. ?转录组或荧光定量表达分析. 二、数据库检索与成员鉴定 1、数据库检索 1)首先了解数据库用法,学会下载你要分析物种的基因组相关数据。一般也就是下面这些数据库了 ?Brachypodiumdb:https://www.360docs.net/doc/9018579832.html,/ ?TAIR:https://www.360docs.net/doc/9018579832.html,/ ?Rice Genome Annotation Project :https://www.360docs.net/doc/9018579832.html,/. ?Phytozome:https://www.360docs.net/doc/9018579832.html,/ ?Ensemble:https://www.360docs.net/doc/9018579832.html,/genome_browser/index.html ?NCBI基因组数据库:https://www.360docs.net/doc/9018579832.html,/assembly/?term= 2)已鉴定的家族成员获取。

如何获得其他物种已发表某个基因家族的所有成员呢,最简单的就是下载该物种蛋白序列文件(可以从上述数据库中下载),然后按照文章中的ID,找到对应成员。对于没有全基因组鉴定的,可以下列数据库中找: a. NCBI: nucleotide and protein d b. b. EBI: http://www.ebi.a https://www.360docs.net/doc/9018579832.html,/. c. UniProtKB:https://www.360docs.net/doc/9018579832.html,/uniprot/ 2、比对工具。一般使用blast和hmmer,具体使用命令如下: ?Local BLAST formatdb–i db.fas–p F/T; blastall–p blastp(orelse) –i known.fas–d db.fas–m 8 –b 2(or else) e 1e-5 –o alignresult .txt. -b:output two different members in subject sequences (db). ?Hmmer (hidden Markov Model) search. Thesame as PSI-BLAST in function. It h as a higher sensitivity, but the speed islower. Command: hmmbuild--informatafaknown.hmmalignknown.fa; hmmsearchknown.hmmdb.fas>align.out. 3、过滤。 ?Identity: 至少50%. ?Cover region: 也要超过50%或者蛋白结构域的长度.

基因家族分析套路

基因家族分析套路

————————————————————————————————作者: ————————————————————————————————日期:

基因家族分析套路(一) 近年来,测序价格的下降,导致越来越多的基因组完成了测序,在数据库中形成了大量的可用资源。如何利用这些资源呢?今天小编带你认识一下不测序也能发文章的思路--全基因组基因家族成员鉴定与分析(现在这一领域可是很热奥); 一、基本分析内容 ?数据库检索与成员鉴定 ?进化树构建 ?保守domain和motif分析. ?基因结构分析. ?转录组或荧光定量表达分析. 二、数据库检索与成员鉴定 1、数据库检索 1)首先了解数据库用法,学会下载你要分析物种的基因组相关数据。一般也就是下面这些数据库了 ?Brachypodiumdb: ?TAIR: ?Rice Genome Annotation Project :. ?Phytozome: ?Ensemble: ?NCBI基因组数据库:

2)已鉴定的家族成员获取。 如何获得其他物种已发表某个基因家族的所有成员呢,最简单的就是下载该物种蛋白序列文件(可以从上述数据库中下载),然后按照文章中的ID,找到对应成员。对于没有全基因组鉴定的,可以下列数据库中找: a. NCBI: nucleotide and protein db. b. EBI: . c. UniProtKB: 2、比对工具。一般使用blast和hmmer,具体使用命令如下: ?Local BLAST formatdb–i db.fas–p F/T; blastall–p blastp(orelse)–i known.fas–d db.fas–m 8 –b 2(or else) e 1e-5 –o alignresult.txt. -b:output twodifferent members in subject sequences (db). ?Hmmer (hidden Markov Model) search. Thesame as PSI-BLAS T in function. It has a higher sensitivity, but the speed islower. Command: hmmbuild--informatafaknown.hmmalignknown.fa;

相关文档
最新文档