UniProt:蛋白质的全信息数据库

UniProt:蛋白质的全信息数据库
UniProt:蛋白质的全信息数据库

Nucleic Acids Research, 2004, Vol. 32, Database issue D115-D119? 2004 Oxford University Press

UniProt:蛋白质的全信息数据库

摘要

为了给科学界提供一个专门,集中,权威的蛋白质序列和功能的信息资源,瑞士-Prot,TrEMBL 和PIR蛋白质数据库已经合作组成了蛋白质的全信息数据库 (UniProt)。我们的目的是用广泛的对照和询问接口来提供一个全面的,分类完全的,丰富并且准确的蛋白质序列信息。中心数据库将有两个部分:符合熟悉的瑞士-Prot(完全手工操作入口)和TrEMBL(使用丰富的自动化的分类,注释和广泛的对照)。为方便序列查寻,UniProt也提供几个无冗余的序列数据库。 UniProt NREF(UniRef)数据库为高效率的搜寻提供适当的蛋白质的全信息数据库的代表性的子集。全面的UniProt 档案(UniParc)每天从很多公共来源数据库更新。

数据库那些UniProt接口可在线访问(https://www.360docs.net/doc/7710495210.html,)或者以几个形式下载(ftp://https://www.360docs.net/doc/7710495210.html,/pub)。我们鼓励科学界人士向UniProt 提供数据。

介绍

近来,瑞士-Prot + TrEMBL和PIR-PSD如同蛋白质数据库不同的序列信息覆盖面和注释优势共存。 2002年,在生物信息科学(SIB)的瑞士研究所和欧洲生物信息科学研究所的瑞士-Prot + TrEMBL 组 (EBI)和蛋白质信息资源(PIR)组织在乔治敦大学医学中心和国家生物医学的研究基金会联合协作。新联合的组织的主要任务是通过建立一个综合,详细分类,丰富并且准确注释蛋白质序列的优质的数据库和广泛序列对比和询问服务的到科学团体免费接口

—knowledgebase来支持生物学的研究。 UniProt 将在组织成员多年合作的坚实基础上建立起来。

UniProt 数据库包括3 个数据库层:

1、UniProt 档案(UniParc),通过储存全部可公开得到的蛋白质序列数据供一个稳定,综合,无冗余的序列收集。

2、UniProt蛋白质的全信息数据库,提供蛋白质序列信息给中心数据库以准确、一致和丰富的序列和功能注释。

3、UniProt NREF,数据库(UniRef)提供基于UniProt蛋白质的全信息数据库的无冗余的数据收集,来获得不同序列信息的全面覆盖。

UNIPROT 档案(UNIPARC)

UniProt 档案(UniParc)是公开可利用的最全面的无冗余的蛋白质序列数据源。它包含很多不同公开来源的蛋白质序列,包括瑞士-Prot,TrEMBL,PIR-PSD, EMBL, Ensembl, IPI(https://www.360docs.net/doc/7710495210.html,/IPI), PDB,RefSeq,FlyBase,WormBase,以及欧洲,美国和日本专利局。当一个蛋白质序列可能存在于多个数据库和不止一次在指定的数据库里时,UniParc将这个序列仅储存一次和并仅分配给一个独特的UniParc 标识符。此外,UniParc提供对比到来源数据库(登录号),序列的版本和状态(活跃或者淘汰的)。一个UniParc 序列版本以及基础的序列改变也被提供,所以增加的序列使在全部来源数据库上观察序列成为可能。例如UniParc报告可能被在

https://www.360docs.net/doc/7710495210.html,/srsbin/cgi-bin/wgetz?-noSession+-e+[UNIPARC:UP I0000133132](SRSview)anhttps://www.360docs.net/doc/7710495210.html,/cgi-bin/upEntry?i d=UPI0000133132(PIR view)中找到。

UNIPROT蛋白质的全信息数据库(UNIPROT)

UniProt蛋白质的全信息数据库是组织合作的结晶。为了提供给蛋白质序

列的中心数据库带注释和功能信息,我们已经合并瑞士-Prot,TrEMBL 和

PIR-PSD 形成了UniProt knowledgebase。全部从瑞士-Prot + TrEMBL丢失的适合PIR-PSD 的序列都被合并进了UniProt。在瑞士-Prot + TrEMBL 和

PIR-PSD之间的双向的对比引用的建立使跟踪PIR-PSD变得容易。转移到参考

的UniProt 和用实验补充证实从瑞士-Prot 向+ TrEMBL转移存在于PIR但却丢

失的数据的工作正在进行中。

UniProt蛋白质的全信息数据库由两个部分组成:一部分是来源于文字信息摘要和工作人员完全手工注释的计算机评估分析记录,另一部分是由计算机分析的记录并等待充分的手工注释。为了连续性和名字识别,两个部分被称为'瑞士-Prot ' 和' TrEMBL 。例如UniProt报告可能在

https://www.360docs.net/doc/7710495210.html,/cgi-bin/niceprot.pl?P57727 (NiceProt view), http://www.pir.uniprot. org/cgi-bin/upEntry?id=P57727(iProClass view) or https://www.360docs.net/doc/7710495210.html,/cgi-bin/wgetz?-e+[swall-acc:P57727](SRS view)中找到。

在下面段落里我们将解释UniProt蛋白质的全信息数据库的主要特点。

1、优质的注释

我们将已经对瑞士-Prot + TrEMBL 和PIR-PSD取得的细节放入高水平的

接口——UniProt库中。除每个UniProt入口的捕获核心数据命令 (主要包括

氨基酸序列,蛋白质名字或者描述,分类的数据和引证信息) 以外,我们努力把尽可能多的注释信息附到蛋白质上。这可以用两种方式获得:手工和自动。

2、基于工作人员的文字和序列分析的手工注释

那些具有新功能和新结构的序列或生化数据被分配给高的手工注释优先权。在UniProt里,注释包括以下项目的说明:

蛋白质的功能;

酶的具体信息(催化活性,辅助因子,代谢途径,调节机制);

生物学相关的领域和场所;

翻译后修饰(PTM);

质谱测定法确定分子量;

蛋白质的亚细胞位置;

蛋白质的组织特异表达;

蛋白质的组织特异性表示;

二级结构;

四级结构;

相互作用;

组成的接合;

成熟的蛋白质产物;

多态性;

与其它蛋白质的相似性;

蛋白质在生物工程中用途;

蛋白质的缺乏或者变形造成的相关的疾病;

蛋白质的药用价值;

序列冲突,等等

这个注释可在“注解”,“特征”和“关键字”的链接中找到。注解根据题目分类和数据的具体类别可从数据库容易检索。

为获得最新的和最大广泛的蛋白质的信息,我们不仅从公开报道的新序列里搜寻数据,而且从定期修正的蛋白质的家族或者蛋白质组的综述文章中获取信息。此外,我们已经预约了许多专家寄给我们评论和蛋白质组的具体更新进展。

为了提供如上所述的高水平注释,所有的UniProt 工作者要读大量的与蛋白质有关的科学文献。这使他们能够选出与蛋白质有关的信息,并加在注释里,如蛋白质的功能,它涉及的代谢和它在细胞里的位置。

3、自动的分类和注释

由于序列数据库的迅速发展,对新蛋白质的功能预言性的描述和注释成为一种需要。为了处理这样大量的数据,必须发展一种迅速有效的蛋白质序列

描述和注释的方法。一项可行措施是自动的大规模功能的描述和注释,它和有限的人工工作结合起来。

InterPro 分类。我们使用InterPro(识别全部蛋白质的结构域和序列并且据此在UniProt中将它们分类进不同的蛋白质家族和和超家族中。 InterPro 是一种蛋白质家族的联合资源,结构域和位点的综合的资源数据库: Pfam , PROSITE , PRINTS,ProDom, SMART, PIRSF, Superfamily和 TIGRFAMs。综合的InterPro 分类是基于自动化规则,使用高度构造改进我们注释的数量和质量的前提。

UniProt的TrEMBL部分的自动注释功能。对于自动注释来说,一个将在UniProt的瑞士-Prot 的蛋白质信息转存到非注释的TrEMBL 入口新的规范化化的注释系统已经被开发了。使用这个系统,瑞士-Prot 被用作产生注释标准的来源,然后被储存并且在RuleBase里管理。 InterPro用于分配TrEMBL的信息成组。瑞士-Prot中的蛋白质功能特性的注释选出后被分配到unannotated TrEMBL 入口就形成了这种组。这个系统已经用来在25%的TrEMBL 入口里被改进注释。新数据自动注释的采集作为这个系统的补充也开始发展起来,这将在明年扩大自动注释的覆盖面,并且将使UniProt的TrEMBL更接近于瑞士-Prot 的注释标准。

并且被合并RuleBase,注释进入的方式是PIR按分类和基于程序进行的,这将提供规范化和丰富的关于蛋白质名字和关键词和具体位置特征的UniProt 注释。为完整curated PIRS 家族,新的特征标准正在被系统的定义为至少包含一种功能/活性/ 捆绑位点信息的被实验已证实的已知的三维结构。基于整个蛋白质的进化关系的PIRSF分类也已经被用于查找出并且修正许多的只基于本地结构域的相似性和后来的基于传递性的繁殖引起的基因注释错误。

4、微生物的Proteomes(HAMAP) 优质自动化的手工注释

瑞士-Prot中原核生物基因自动化和手工的注释的结合促进了HAMAP 工程的发展。 HAMAP 工程,‘高品质微生物蛋白质组的自动化和手动的注释'目的是结合手动和自动注释方法来提高在保存数据库注释的质量时curation的处理速度。自动注释只适用于手工确定orthologous 家族的入口和当给入口没

有可识别的相象似性对象时申请(ORFans)。

ORFans的注释。各种各样的预测工具已被用于和已知的蛋白质家族没有任何相似性的蛋白质的预测。可能的穿膜结构,信号序列,螺旋,ATP/GTP的结合位点, LPXTG 主题和确定的一些被定义重复一致的和从属性的标准自动注释,并且没有任何另外更进一步的手工证明。

描述详细的成员的注释的(附属)家族。属于描述详细的蛋白质(附属)的蛋白质家族可能自动地附注使用由相似性分配到原型手工附注的词条的规则系统来描述注释的程度和本质。这样的一个系统规则也包括仔细编辑(附属)家族的调整,这被用来传递来自一个模型入口的注释的特征和用来鉴定家族的新成员的形状特征的信息。限于生物化学的途径的特定种类的标准和规则被用来发展一个能够在整个蛋白质组的水平辨认出不同点的系统。

5、命名的标准化和词语的用法

一致的命名对通讯和文献检索是不可缺少的。 UniProt通过他的isoforms 使给定的蛋白质和与其有关的生物命名标准化。对各种各样的其他UniProt 工程来说我们使用一些在UniProt 资料里被列举出来固定的词汇,例如组织,质粒和关键词。统一的UniProt关键字目录基于通过增加选择PIR关键词而增加的瑞士-Prot关键词,PIR关键词代表现存在于瑞士-Prot关键词的可能的新概念或者新亲子节点。如果可以得到,我们会利用仍然提供公用同义词的国际委员会所确定的官方命名。与其他数据库和组织的合作和定期的数据交流使得我们的命名的实现非常的及时和专业。

6、与其他数据库的融合

UniProt 也同时提供其他数据库的数据的引用对照,如提供脱氧核糖核酸序列信息的DDBJ / EMBL / GenBank核苷酸顺序数据库,2D和3D蛋白质结构数据库,各种各样的蛋白质结构域和家族描述数据库,PTM 数据库,专门物种的数据库,相异的数据库和疾病数据库,UniProt都提供这些数据库的入口。因此,UniProt 几乎成为了超过50相互参照的数据库归档的生化信息中心的中心。在一份UniProt的清单资料中

(https://www.360docs.net/doc/7710495210.html,/support/docs/dbxref.shtml)包含了对每个数据

库的简短的介绍和服务器地址。这种通用性几乎已经通过专门数据库交叉引用(DR)实现了。另外,从序列或者特别的致力于PTMs或突变的某些类型的数据库的站点的连接也可在UniProt中找到。根据特征窗口里的独特稳定的特征标识符(FTId)可以找到特殊位置的注释项目。目前这些被系统归属于FT VARIANT序列入口的特异性行列、其它拼接事件(VARSPLIC)以及给定的glycosylation 站点(CARBOHYD),但是将最后被分配到FT VARIANT的全部类型。

7、最小冗余

对一个给定的蛋白质序列,许多序列数据库包含有对应不同的文字报告的独立入口。为了保证数据库的冗余减到最小,在UniProt里我们尽量设法合并所有的这些数据。由于接合变形, 多形性,引起疾病的突变,实验序列的修改或者简单的序列的错误在排序报告之间的差别也会在相应UniProt 入口中的

特征窗口里被指示。

拼接isoforms之间也许有相当大不同,在isoforms之间的序列之间的相似的可能性可能小于50%。那些可免费得到的VARSPLIC 工具使得UniProt的FT中的全部注释接合变形成为一种休闲,或为完整数据库。一个包含 Un iProt 注释的全部接合变形的FASTA 格式化的文件可被下载下来同那个相似性搜寻程

序一起使用。

8、证据归因

UniProt 联合组织强调对蛋白质注释使用一个证据归因机制,对于全部数据,包括数据源,注释的证据类型和方法。这是根本的,因为UniProt knowledgebase 将包含从基础的核苷酸序列数据库自动入口的数据,从其他数据库的入口的专用程序的数据,从自动注释系统得到的结果还有最重要的所有专家手工的修订。证据标记的使用将使用户容易区别所有这些数据源和鉴定想要的特别种类的数据,例如用实验证明蛋白质的注释。

为了通过来源归因增加实验核实的数据数量用来更进一步改进蛋白质注

释的质量,UniProt已经开发了一个参考目录提交系统和实施文字数据的摘要

的归因。提交页允许实验注释的文字引用的提交和归类,并且为每个UniProt 入口显示许多收集修订数据库的综合目录数据。通过计算机帮助映射现有的蛋白质目录的信息,一个实验特征手工归因系统正在被执行实施。到目前为止,为了直接并网入nowledgebase UniProt已有几千个实验特征同有关出版物联系在一起并与那些对应PMIDs进行了相互对照。

参考文献

1.B oeckmann,B., Bairoch,A., Apweiler,R., Blatter,M.,

Estreicher,A., Gasteiger,E., Martin,M.J., Michoud,K., O’Donovan,C., Phan,I. et al. (2003) The Swiss-Prot protein knowledgebase and its supplement TrEMBL in 2003. Nucleic Acids Res., 31,

365–370.[Abstract/Free Full Text]

2.W u,C.H., Yeh,L.-S.L., Huang,H., Arminski,L., Castro-Alvear,J., Chen,Y., Hu,Z., Kourtesis,P., Ledley,R.S., Suzek,B.E. et al.(2003) The Protein Information Resource. Nucleic Acids Res., 31,

345–347.[Abstract/Free Full Text]

3.S toesser,G., Baker,W., van den Broek,A., Garcia-Pastor,M., Kanz,C., Kulikova,T., Leinonen,R., Lin,Q., Lombard,V., Lopez,R. et al. (2003) The EMBL Nucleotide Sequence Database: major new development. Nucleic Acids Res., 30, 21–26.[CrossRef]

4.H ubbard,T., Barker,D., Birney,E., Cameron,G., Chen,Y., Clark,L., Cox,T., Cuff,J., Curwen,V., Down,T. et al. (2002) The Ensembl genome database project. Nucleic Acids Res., 30, 38–41.[Abstract/Free

Full Text]

5.W estbrook,J., Feng,Z., Chen,L., Yang,H. and Berman,H. (2003) The Protein Data Bank and structural genomics. Nucleic Acids Res., 31, 489–491.[Abstract/Free Full Text]

6.P ruitt,K. and Maglott,D. (2001) RefSeq and LocusLink: NCBI gene-centered resources. Nucleic Acids Res., 29,

137–140.[Abstract/Free Full Text]

7.F lyBase Consortium (2003) The FlyBase database of the Drosophila genome projects and community literature. Nucleic Acids Res., 31, 172–175.[Abstract/Free Full Text]

8.H arris,T., Lee,R., Schwarz,E., Bradnam,K., Lawson,D., Chen,W., Blasier,D., Kenny,E., Cunningham,F., Kishore,R. et al.(2003) WormBase: a cross-species database for comparative genomics. Nucleic Acids Res., 31, 133–137.[Abstract/Free Full Text]

9.A shburner,M., Ball,C.A., Blake,J.A., Botstein,D., Butler,H., Cherry,J.M., Davis,A.P., Dolinski,K., Dwight,S.S., Eppig,J.T. et al. (2000) Gene Ontology: tool for the unification of biology. Nature Genet., 25, 25–29.[CrossRef][Medline]

10.Mulder,N., Apweiler,R., Attwood,T., Bairoch,A., Barrell,D., Bateman,A., Binns,D., Biswas,M., Bradley,P., Bork,P. et al.(2003) The InterPro Database, 2003 brings increased coverage and new features. Nucleic Acids Res., 31, 315–318.[Abstract/Free Full Text]

11.Bateman,A., Birney,E., Cerruti,L., Durbin,R., Etwiller,L., Eddy,S.R., Griffiths-Jones,S., Howe,K.L., Marshall,M. and Sonnhammer,E.L.L. (2002) The Pfam protein families database. Nucleic Acids Res., 30, 276–280.[Abstract/Free Full Text]

12.Hulo,N., Sigrist,C.J.A., Le Saux,V., Langendijk-Genevaux,P., Bordoli,L., Gattiker,A., De Castro,E., Bucher,P. and Bairoch,A. (2004) Recent improvements to the PROSITE database. Nucleic Acids Res., 32, D134–D137.[Abstract/Free Full Text]

13.Attwood,T.K., Bradley,P., Flower,D.R., Gaulton,A., Maudling,N., Mitchell,A.L., Moulton,G., Nordle,A., Paine,K., Taylor,P. et al. (2003) PRINTS and its automatic supplement, preprints. Nucleic

Acids Res., 31, 400–402.[Abstract/Free Full Text]

14.Servant,F., Bru,C., Carrere,S., Courcelle,E., Couzy,J., Peyruc,D.and Kahn,D. (2002) Prodom: Automated clustering of homologous domains. Brief. Bioinform., 3, 246–251.[Medline]

15.Letunic,I., Goodstadt,L., Dickens,N.J., Doerks,T., Schultz,J., Mott,R., Ciccarelli,F., Copley,R.R., Ponting,C.P. and Bork,P. (2002) Recent improvements to the SMART domain-based sequence annotation resource. Nucleic Acids Res., 30, 242–244.[Abstract/Free Full Text]

16.Wu,C.H., Nikolskaya,A., Huang,H., Yeh,L.-S.,

Natale,D.,Vinayaka,C.R., Hu,Z., Mazumder,R., Kumar,S., Kourtesis,P. et al. (2004) PIRSF: family classification system at the Protein Information Resource. Nucleic Acids Res., 32,

D112–D114.[Abstract/Free Full Text]

17.Gough,J., Karplus,K., Hughey,R. and Chothia,C. (2001) Assignment of homology to genome sequences using a library of Hidden Markov Models that represent all proteins of known structure. J. Mol. Biol., 313, 903–919.[CrossRef][Medline]

18.Haft,D.H., Loftus,B.J., Richardson,D.L., Yang,F.,

Eisen,J.A., Paulsen,I.T. and White,O. (2001) TIGRFAMs: a protein family resource for the functional identification of proteins. Nucleic Acids Res., 29, 41–43.[Abstract/Free Full Text]

19.Fleischmann,W., Moeller,S., Gateau,A. and Apweiler,R. (1999)

A novel method for automatic and reliable functional annotation. Bioinformatics, 15, 228–233.[Abstract/Free Full Text]

20.Wu,C.H., Huang,H., Yeh,L.-S. and Barker,W.C. (2003) Protein family classification and functional annotation. Comput. Biol. Chem., 27, 37–47.[CrossRef][Medline]

21.Gattiker,A., Michoud,K., Rivoire,C., Auchincloss,A.H., Coudert,E., Lima,T., Kersey,P., Pagni,M., Sigrist,C.J.A., Lachaize,C. et al.(2003) Automatic annotation of microbial proteomes in Swiss-Prot. Comput. Biol. Chem., 27, 49–58.[CrossRef][Medline]

22.Kersey,P., Hermjakob,H. and Apweiler,R. (2000) VARSPLIC: alternatively-spliced protein sequences derived from Swiss-Prot and TrEMBL. Bioinformatics, 11, 1048–1049.[CrossRef]

23.Li,W., Jaroszewski,L. and Godzik,A. (2002) Tolerating some redundancy significantly speeds up clustering of large protein databases. Bioinformatics, 18, 77–82.[Abstract/Free Full Text]

蛋白质序列分析

蛋白质序列、性质、功能和结构分析 基于网络的蛋白质序列检索与核酸类似,从NCBI或利用SRS系统从EMBL 检索。 1、疏水性分析 ExPASy的ProtScale程序(https://www.360docs.net/doc/7710495210.html,/cgi-bin/protscale.pl)可用来计算蛋白质的疏水性图谱。输入的数据可为蛋白质序列或SWISS-PROT数据库的序列接受号。也可用BioEdit、DNAMAN等软件进行分析。 2、跨膜区分析 蛋白质跨膜区域分析的网络资源有: TMPRED:https://www.360docs.net/doc/7710495210.html,/software/TMPRED_form.html PHDhtm: http:www.embl-heidelberg.de/Services/sander/predictprotein/predictpro tein.html MEMSAT: ftp://https://www.360docs.net/doc/7710495210.html, 3、前导肽和蛋白质定位 一般认为,蛋白质定位的信息存在于该蛋白自身结构中,并且通过与膜上特殊受体的相互作用得以表达。这就是信号肽假说的基础。这一假说认为,穿膜蛋白质是由mRNA编码的。在起始密码子后,有一段疏水性氨基酸序列的RNA片段,这个氨基酸序列就称为信号序列(signal sequence)。 蛋白质序列的信号肽分析可联网到http://genome.cbs.dtu.dk /services/SignalP/或其二版网址 http://genome.cbs.dtu.dk/services/SignalP-2.0/。该服务器也提供利用 e-mail进行批量蛋白质序列信号肽分析的方案 (http://genome.cbs.dtu.dk/services /SignalP/mailserver.html),e-mail 地址为signalp@ genome.cbs.dtu.dk。 蛋白质序列中含有的信号肽序列将有助于它们向细胞内特定区域的移动,如前导肽和面向特定细胞器的靶向肽。在线粒体蛋白质的跨膜运输过程中,通过线粒体膜的蛋白质在转运之前大多数以前体形式存在,它由成熟蛋白质和N端延伸出的一段前导肽或引肽(leader peptide)共同组成。迄今有40多种线粒体蛋白质前导肽的一级结构被阐明,它们约含有20~80个氨基酸残基,当前体蛋白跨膜时,前导肽被一种或两种多肽酶所水解转变成成熟蛋白质,同时失去继续跨膜能力。前导肽一般具有如下性质:①带正电荷的碱性氨基酸(特别是精氨酸)含量较丰富,它们分散于不带电荷的氨基酸序列中间;②缺失带负电荷的酸性

蛋白质结构分析原理及工具-文献综述

蛋白质结构分析原理及工具 (南京农业大学生命科学学院生命基地111班) 摘要:本文主要从相似性检测、一级结构、二级结构、三维结构、跨膜域等方面从原理到方法再到工具,系统地介绍了蛋白质结构分析的常用方法。文章侧重于工具的列举,并没有对原理和方法做详细的介绍。文章还列举了蛋白质分析中常用的数据库。 关键词:蛋白质;结构预测;跨膜域;保守结构域 1 蛋白质相似性检测 蛋白质数据库。由一个物种分化而来的不同序列倾向于有相似的结构和功能。物种分化后形成的同源序列称直系同源,它们通常具有相似的功能;由基因复制而来的序列称为旁系同源,它们通常有不同的功能[1]。因此,推测全新蛋白质功能的第一步是将它的序列与进化上相关的已知结构和功能的蛋白质序列比较。表一列出了常用的蛋白质序列数据库和它们的特点。 表一常用蛋白质数据库 网址可能有更新 氨基酸替代模型。进化过程中,一种氨基酸残基会有向另一种氨基酸残基变化的倾向。氨基酸替代模型可用来估计氨基酸替换的速率。目前常用的替代模型有Point Accepted Mutation (PAM)矩阵、BLOck SUbstitution Matrix (BLOSUM)矩阵[2]、JTT模型[3]。 序列相似性搜索工具。序列相似性搜索又分为成对序列相似性搜索和多序列相似性搜索。成对序列相似性搜索通过搜索序列数据库从而找到与查询序列相似的序列。分为局部联配和全局联配。常用的局部联配工具有BLAST和SSEARCH,它们使用了Smith-Waterman 算法。全局联配工具有FASTA和GGSEARCH,基于Needleman-Wunsch算法。多序列相似性搜索常用于构建系统发育树,这里不阐述。表二列举了常用的成对序列相似性比对搜索工具

蛋白质数据库

生物芯片北京国家工程研究中心 湖南中药现代化药物筛选分中心 暨湖南涵春生物有限公司 常用数据库名录 1、蛋白质数据库 PPI - JCB 蛋白质与蛋白质相互作用网络 ?Swiss-Prot - 蛋白质序列注释数据库 ?Kabat - 免疫蛋白质序列数据库 ?PMD - 蛋白质突变数据库 ?InterPro - 蛋白质结构域和功能位点 ?PROSITE - 蛋白质位点和模型 ?BLOCKS - 生物序列分析数据库 ?Pfam - 蛋白质家族数据库 [镜像: St. Louis (USA), Sanger Institute, UK, Karolinska Institutet (Sweden)] ?PRINTS - 蛋白质 Motif 数据库 ?ProDom - 蛋白质结构域数据库 (自动产生) ?PROTOMAP - Swiss-Prot蛋白质自动分类系统 ?SBASE - SBASE 结构域预测数据库 ?SMART - 模式结构研究工具 ?STRING - 相互作用的蛋白质和基因的研究工具

?TIGRFAMs - TIGR 蛋白质家族数据库 ?BIND - 生物分子相互作用数据库 ?DIP - 蛋白质相互作用数据库 ?MINT - 分子相互作用数据库 ?HPRD - 人类蛋白质查询数据库 ?IntAct - EBI 蛋白质相互作用数据库 ?GRID - 相互作用综合数据库 ?PPI - JCB 蛋白质与蛋白质相互作用网络 2、蛋白质三级结构数据库 ?PDB - 蛋白质数据银行 ?BioMagResBank - 蛋白质、氨基酸和核苷酸的核磁共振数据库?SWISS-MODEL Repository - 自动产生蛋白质模型的数据库 ?ModBase - 蛋白质结构模型数据库 ?CATH - 蛋白质结构分类数据库 ?SCOP - 蛋白质结构分类 [镜像: USA | Israel | Singapore | Australia] ?Molecules To Go - PDB数据库查询 ?BMM Domain Server - 生物分子模型数据库 ?ReLiBase - 受体/配体复合物数据库 [镜像: USA] ?TOPS - 蛋白质拓扑图 ?CCDC - 剑桥晶体数据中心 (剑桥结构数据库 (CSD))

生物信息研究中常用蛋白质数据库的总结

生物信息研究中常用蛋白质数据库简述 内蒙古工业大学理学院呼和浩特孙利霞 2010.1.5 摘要:在后基因组时代生物信息学的研究当中,离不开各种生物信息学数据库。尤其在蛋白质从序列到功能的研究当中,目前各种行之有效的方法都是基于各种层次和结构的蛋白质数据库。随着计算机技术及网络技术的发展,目前的蛋白质数据库不论是所包含数据量还是功能都日新月异,新的数据库层出不穷。一个新手面对如此浩瀚的数据量往往无从下手。本文粗浅地为目前蛋白质数据库的使用勾画出一个轮廓,作为自己蛋白质研究入门的一个引导。 关键词:蛋白质;数据库 0 引言 随着科技的发展,个人的知识往往赶不上快速膨胀的信息量,人们为了解决这个问题,便创建了形形色色的数据库。蛋白质数据库是指:在蛋白质研究领域根据实际需要,对蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建出具有特殊生物学意义和专门用途的数据库。蛋白质数据库总体上可分为两大类:蛋白质序列数据库和蛋白质结构数据库,蛋白质序列数据库来自序列测定,结构数据库来自X-衍射和核磁共振结构测定(详见图1)。这些数据库是分子生物信息学的基本数据资源。上世纪90年代,我国从事蛋白质研究的学者使用的蛋白质数据库储存介质还是国外实验室发布的激光光盘[1]。信息的传播储存甚为不便。随着蛋白质研究的发展飞快,同时伴随着计算机和因特网发展,蛋白质数据库的储存传播方式也发生的巨大的变化。进入21世纪后,我们所用的各种蛋白质数据库都发展成为存储在网络服务器上,基于“服务器—客户机”的访问查询方式。伴随着计算机及物理测试技术的发展数据库的容量和功能成数量级膨胀。但是面对如此浩瀚的数据,新手往往感到无从下手,在需要时找不到自己需要的合适数据库。 本文从目前蛋白质数据库建立的的逻辑层次出发,系统地简绍了常用蛋白质数据的概况,它们的查询方法以及它们相互之间的联系。同时尽量不涉及数据库建设和维护方面的计算机和网络这些数据库底层的技术,为蛋白质研究的入门者及对蛋白质感兴趣的人员的一个引导。

蛋白常用数据库

搞蛋白质的童鞋们,甭要只查NCBI了~蛋白质相关数据库启蒙~ ★ 小木虫(金币+1):奖励一下,谢谢提供资源 qinhy:恭喜,您的帖子被版主审核为资源贴了,别人回复您的帖子对资源进行评价后,您就可以获得金币了理由:资源贴2011-11-26 16:56 本来是带图的,可是弄过来就变成米图了,附件里面一个是PDF版、一个是WORD版均是带图的,童鞋们看带图的可能比较方便点哦~ 基于蛋白质序列的蛋白质相互作用位点预测(闲谈版) 这个不是论文不是论文啊~~这个是应某某的要求帮他找的,所以都是用现成的免费的网站数据库做的预测分析。无论文为依托,无原理为根据,纯粹就是流连各大网站作个的闲谈。 1、用这些网站先查查你要研究的蛋白质的底细。 这些网站的数据库大多数是实验或者一些相关文献报道的数据的组成。 ★String http://string.embl.de/ 输入你要搜寻的蛋白,它就把这个蛋白相关的数据反映给你,分confidence、evidence的数据可信度参考,同时还具有actions选项,反应它们之间可能是激活/抑制的关系。按按+、-号可以扩大缩小关联蛋白的数量范围。 往下拉一点点就是数据,哈哈,我们都要看数据吃饭啊~~ 分析的数据源自Neighborhood、Fusion、Occurrence、Coexpression、Experiments Database、Textminin及Homology,表示点得证明有数据,根据各项数据给出综合评分。评分越高相互存在关系可能性越高。点击下方各项图标等详细看到各项数据内容。 设条件确定筛选范围。 ★DIP https://www.360docs.net/doc/7710495210.html,/dip/Main.cgi 跟上面的大同小异的功能,装上它附带的软件可能操作性会好一点,不过我米有试过哦。倒是跟它有链接的几个数据库都很强大,大家可以点击看看。 ★BIND http://www.bind.ca 文献有介绍的网站,不过我不能理解为什么我注册就注不了……. 2、继续查,用这些网站将要研究的蛋白质的家庭背景,月收入也大起底。 这里的网站可能跟相互作用方面的关系不大,但是如果知道这些,可以对研究的蛋白有更深的了解。 ★PDB https://www.360docs.net/doc/7710495210.html,/pdb/home/home.do 要查3D结构就往这里查~通常说的PDB号为文献号末4位。 ★PIR https://www.360docs.net/doc/7710495210.html,/pirwww/index.shtml 在蛋白质方面如NCBI般强大的网站,去上面晃荡下吧,会有收获滴。 ★KEGG http://www.genome.jp/kegg/ 粉强大的一个网站,我只说说它的KEGG PA THW AY子项,能迅速掌握一个蛋白质的功能通路,对于小白的偶们来说,很有用,有木有。 3、正题正题,做完上面那些后,接着就是纯预测的成分。也因为如此,要找着这些网站是很悲催的一件事。就算你找着了,你不懂语言,不懂算法,到底结果的可靠性怎样,见人见智。 需要PDB号作分析: promate http://bioinfo.weizmann.ac.il/promate/

SWISS-MODEL_蛋白质结构预测教程

SWISS-MODEL 蛋白质结构预测 SWISS-MODEL是一项预测蛋白质三级结构的服务,它利用同源建模的方法实现对一段未知序列的三级结构的预测。该服务创建于1993年,开创了自动建模的先河,并且它是讫今为止应用最广泛的免费服务之一。 同源建模法预测蛋白质三级结构一般由四步完成: 1. 从待测蛋白质序列出发,搜索蛋白质结构数据库(如PDB,SWISS-PROT等),得到许多相似序列 (同源序列),选定其中一个(或几个)作为待测蛋白质序列的模板; 2. 待测蛋白质序列与选定的模板进行再次比对,插入各种可能的空位使两者的保守位置尽量对齐; 3. 建模:调整待测蛋白序列中主链各个原子的位置,产生与模板相同或相似的空间结构——待测蛋白 质空间结构模型; 4. 利用能量最小化原理,使待测蛋白质侧链基团处于能量最小的位置。 最后提供给用户的是经过如上四步(或重复其中某几步)后得到的蛋白质三级结构。 SWISS-MODEL工作模式 SWISS-MODEL服务器是以用户输入信息的最小化为目的设计的,即在最简单的情况下,用户仅提供一条目标蛋白的氨基酸序列。由于比较建模程序可以具有不同的复杂性,用户输入一些额外信息对建模程序的运行有时是有必要的,比如,选择不同的模板或者调整目标模板序列比对。该服务主要有以下三种方式: ?First Approach mode(简捷模式):这种模式提供一个简捷的用户介面:用户只需要输入一条氨基酸序列,服务器就会自动选择合适的模板。或者,用户也可以自己指定模板(最多5条),这些模板可以来自ExPDB 模板数据库(也可以是用户选择的含坐标参数的模板文件)。如果一条模板与提交的目标序列相似度大于25%,建模程序就会自动开始运行。但是,模板的可靠性会随着模板与目标序列之间的相似度的降低而降低,如果相似度不到50%往往就需要用手工来调整序列比对。这种模式只能进行大于25个残基的单链蛋白三维结构预测。 ?Alignment Interface(比对界面):这种模式要求用户提供两条已经比对好的序列,并指定哪一条是目标序列,哪一条是模板序列(模板序列应该对应于ExPDB模板数据库中一条已经知道其空间结构的蛋白序列)。服务器会依据用户提供的信息进行建模预测。 ?Project mode(工程模式):手工操作建模过程:该模式需要用户首先构建一个DeepView工程文件,这个工程文件包括模板的结构信息和目标序列与模板序列间的比对信息。这种模式让用户可以控制许多参数,例如:模板的选择,比对中的缺口位置等。此外,这个模式也可以用于“first approach mode简捷模式”输出结果的进一步加工完善。 此外,SWISS-MODEL还具有其他两种内容上的模式: ?Oligomer modeling(寡聚蛋白建模):对于具有四级结构的目标蛋白,SWISS-MODEL提供多聚模板的模式,用于多单体的蛋白质建模。这一模式弥补了简捷模式中只能提交单个目标序列,不能同时预测两条及以上目标序列的蛋白三维结构的不足。 ?GPCR mode(G蛋白偶联受体模式):是专门对7次跨膜G蛋白偶联受体的结构预测。

蛋白质结构预测和序列分析软件

蛋白质结构预测和序列分析软件 2010-05-08 20:40 转载自布丁布果 最终编辑布丁布果 4月18日 蛋白质数据库及蛋白质序列分析 第一节、蛋白质数据库介绍 一、蛋白质一级数据库 1、 SWISS-PROT 数据库 SWISS-PROT和PIR是国际上二个主要的蛋白质序列数据库,目前这二个数据库在EMBL和GenBank数据库上均建立了镜像 (mirror) 站点。 SWISS-PROT数据库包括了从EMBL翻译而来的蛋白质序列,这些序列经过检验和注释。该数据库主要由日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护。SWISS-PROT 的序列数量呈直线增长。2、TrEMBL数据库: SWISS-PROT的数据存在一个滞后问题,即把EMBL的DNA序列准确地翻译成蛋白质序列并进行注释需要时间。一大批含有开放阅读框(ORF) 的DNA序列尚未列入SWISS-PROT。为了解决这一问题,TrEMBL(Translated EMBL) 数据库被建立了起来。TrEMBL也是一个蛋白质数据库,它包括了所有EMBL库中的蛋白质编码区序列,提供了一个非常全面的蛋白质序列数据源,但这势必导致其注释质量的下降。 3、PIR数据库: PIR数据库的数据最初是由美国国家生物医学研究基金会(National Biomedical Research Foundation, NBRF)收集的蛋白质序列,主要翻译自GenBank的DNA序列。 1988年,美国的NBRF、日本的JIPID(the Japanese International Protein Sequence Database 日本国家蛋白质信息数据库)、德国的MIPS(Munich Information Centre for Protein Sequences摹尼黑蛋白质序列信息中心)合作,共同收集和维护PIR数据库。PIR根据注释程度(质量)分为4个等级。4、 ExPASy数据库: 目前,瑞士生物信息学研究所(Swiss Institute of Bioinformatics, SIB)创建了蛋白质分析专家系统(Expert protein analysis system, ExPASy )。涵盖了上述所有的数据库。网址:https://www.360docs.net/doc/7710495210.html, 我国的北京大学生物信息中心(https://www.360docs.net/doc/7710495210.html,) 设立了ExPASy的镜像(Mirror)。 主要蛋白质序列数据库的网址 SWISS-PROT https://www.360docs.net/doc/7710495210.html,/sprot 或 https://www.360docs.net/doc/7710495210.html,/expasy_urls.html TrEMBL https://www.360docs.net/doc/7710495210.html,/sprot PIR https://www.360docs.net/doc/7710495210.html,/pirwww MIPS——Munich Information Centre for Protein Sequences http://mips.gsf.de/ JIPID——the Japanese International Protein Sequence Database 已经和PIR合并 ExPASy https://www.360docs.net/doc/7710495210.html, 二、蛋白质结构数据库 1、PDB数据库:

蛋白质相互作用数据库和分析方法

蛋白质相互作用数据库和分析方法 1. 蛋白质相互作用的数据库 蛋白质相互作用数据库见下表所示: 数据库名 说明 网址 BIND 生物分子相互作用数据库 http://bind.ca/ DIP 蛋白质相互作用数据库 https://www.360docs.net/doc/7710495210.html,/ IntAct 蛋白质相互作用数据库 https://www.360docs.net/doc/7710495210.html,/intact/index.html InterDom 结构域相互作用数据库 https://www.360docs.net/doc/7710495210.html,.sg/ MINT 生物分子相互作用数据库 http://mint.bio.uniroma2.it/mint/ STRING 蛋白质相互作用网络数据库 http://string.embl.de/ HPRD 人类蛋白质参考数据库 https://www.360docs.net/doc/7710495210.html,/ HPID 人类蛋白质相互作用数据库 http://wilab.inha.ac.kr/hpid/ MPPI 脯乳动物相互作用数据库 http://fantom21.gsc.riken.go.jp/PPI/ biogrid 蛋白和遗传相互作用数据,主要来自于酵母、线虫、果蝇和人 https://www.360docs.net/doc/7710495210.html,/ PDZbase 包含PDZ 结构域的蛋白质相互作用数据库 https://www.360docs.net/doc/7710495210.html,/services/pdz/start Reactome 生物学通路的辅助知识库 https://www.360docs.net/doc/7710495210.html,/ 2. 蛋白质相互作用的预测方法 蛋白质相互作用的预测方法很非常多,以下作了简单的介绍 1) 系统发生谱 这个方法基于如下假定:功能相关的(functionally related)基因,在一组完全测序的基因组中预期同时存在或不存在,这种存在或不存在的模式(pattern)被称作系统发育谱;如果两个基因,它们的序列没有同源性,但它们的系统发育谱一致或相似.可以推断它们在功能上是相关的。

蛋白质结构预测在线软件

蛋白质预测分析网址集锦? 物理性质预测:? Compute PI/MW?? ?? SAPS?? 基于组成的蛋白质识别预测? AACompIdent???PROPSEARCH?? 二级结构和折叠类预测? nnpredict?? Predictprotein??? SSPRED?? 特殊结构或结构预测? COILS?? MacStripe?? 与核酸序列一样,蛋白质序列的检索往往是进行相关分析的第一步,由于数据库和网络技校术的发展,蛋白序列的检索是十分方便,将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。? 由NCBI检索蛋白质序列? 可联网到:“”进行检索。? 利用SRS系统从EMBL检索蛋白质序列? 联网到:”,可利用EMBL的SRS系统进行蛋白质序列的检索。? 通过EMAIL进行序列检索?

当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时,可采用EMAIL方式进行序列检索。? 蛋白质基本性质分析? 蛋白质序列的基本性质分析是蛋白质序列分析的基本方面,一般包括蛋白质的氨基酸组成,分子质量,等电点,亲水性,和疏水性、信号肽,跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如,疏水性图谱可通知来预测跨膜螺旋。同时,也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标(其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。? 疏水性分析? 位于ExPASy的ProtScale程序(?)可被用来计算蛋白质的疏水性图谱。该网站充许用户计算蛋白质的50余种不同属性,并为每一种氨基酸输出相应的分值。输入的数据可为蛋白质序列或SWISSPROT数据库的序列接受号。需要调整的只是计算窗口的大小(n)该参数用于估计每种氨基酸残基的平均显示尺度。? 进行蛋白质的亲/疏水性分析时,也可用一些windows下的软件如,bioedit,dnamana等。? 跨膜区分析? 有多种预测跨膜螺旋的方法,最简单的是直接,观察以20个氨基酸为单位的疏水性氨基酸残基的分布区域,但同时还有多种更加复杂的、精确的算法能够预测跨膜螺旋的具体位置和它们的膜向性。这些技术主要是基于对已知

第三讲:Uniprot蛋白数据库及其他蛋白质分析工具

第三讲 Uniprot蛋白数据库及其他蛋白质 分析工具
2013/03/19

Uniprot数据库
? Uniprot(Universal?protein?resource)是蛋白 质序列的联合数据库。
– SIB:?Swiss?Institute?of?Bioinformatics – EBI:?European?Bioinformatics?Institute – PIR:?Protein?Information?Resource – 2002年三家联合形成了Uniprot

Swiss‐Prot
? 1986年建立 ? 低冗余度 ? 功能导向 ? 由Swiss?Institute?of?Bioinformatics?和EBI共同 建立并维护

TrEMBL
? TrEMBL=Translation?from?EMBL ? EBI建立并维护 ? 是一个自动数据库 ? 冗余度高,可信度低

UniprotKB
? 部分经过专家注释的数据库 ? 具有很高的可信度 ? 包括两部分UniprotKB/Swiss‐Prot和 UniprotKB/TrEMBL ? UniprotKB/Swiss‐Prot包括539,165条序列 ? UniprotKB/TrEMBL包括29,769,971?条序列 ? 具有非冗余性

Uniparc
? 非冗余性 ? 给予序列的特异性,非同一物种的相同序 列被认为是同一个蛋白质 ? 每一条序列被給予一个特异的编号

整理(蛋白质序列数据库)

蛋白质序列数据库 我们可以根据基因组序列预测新基因,预测编码区域,并推测其产物(即蛋白质)的序列。因此,随着基因组序列的不断增长,蛋白质序列也在不断增加。 PIR 历史上,蛋白质数据库的出现先于核酸数据库。在1960年左右,Dayhoff和其同事们搜集了当时所有已知的氨基酸序列,编著了《蛋白质序列与结构图册》。从这本图册中的数据,演化为后来的蛋白质信息资源数据库PIR(Protein Information Resource)。 PIR是由美国生物医学基金会NBRF(National Biomedical Research Foundation)于1984年建立的,其目的是帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组,进行生物信息学分析。它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。PIR提供一个蛋白质序列数据库、相关数据库和辅助工具的集成系统,用户可以迅速查找、比较蛋白质序列,得到与蛋白质相关的众多信息。目前,PIR已经成为一个集成的生物信息数据源,支持基因组研究和蛋白质组研究。至2004年,PIR 有近30万个蛋白质的登录数据项,包括来自不同生物体的蛋白质序列。 除了蛋白质序列数据之外,PIR还包含以下信息: (1)蛋白质名称、蛋白质的分类、蛋白质的来源; (2)关于原始数据的参考文献; (3)蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等; (4)序列中相关的位点、功能区域。 对于数据库中的每一个登录项,有与其它数据库的交叉索引,包括到GenBank、EMBL、DDBJ、GDB、MELINE等数据库的索引。PIR中一个具体的登录项如图4.4所示。

蛋白质的功能域、结构及其药物设计----6

第六章 蛋白质的功能域、结构及其药物设计 随着人类基因组全序列测定的完成,预示着基因组研究从结构基因组(Structural Genomics)进入了功能基因组(Functional Genomics)研究时代。研究基因组功能当然首先要研究基因表达的模式。当前研究这一问题可以基于核酸技术,也可以基于蛋白质技术,即直接研究基因的表达产物。测定一个有机体的基因组所表达的全部蛋白质的设想是由Williams于1994年正式提出的,而“蛋白质组”(proteome)一词是Wilkins于1995年首次提出。蛋白质组是指由一个细胞或组织的基因组所表达的全部相应的蛋白质。蛋白质组与基因组相对应,均是一个整体概念,但是两者又有根本的不同:一个有机体只有一个确定的基因组,组成该有机体的所有不同细胞都共享有一个基因组;但是,基因组内各个基因表达的条件、时间和部位等不同,因而它们的表达产物(蛋白质)也随条件、时间和部位的不同而有所不同。因此,蛋白质组又是一个动态的概念。由于以上原因,再加上由于基因剪接,蛋白质翻译后修饰和蛋白质剪接,基因遗传信息的表达规律更趋复杂,不再是经典的一个基因一个蛋白的对应关系,而是一个基因可以表达的蛋白质数目大于一。由此可见,蛋白质组研究是一项复杂而艰巨的任务。 蛋白质结构与功能的研究已有相当长的历史,由于其复杂性,对其结构与功能的预测不论是方法论还是基础理论方面均较复杂。统计学方法曾被成功地应用于蛋白质二级结构预测中,如Chou和Fasman提出的经验参数法便是最突出的例子。 该方法统计分析了各种氨基酸的二级结构分布特征,得出相应参数(P а,P β 和P t )并 用于预测。本章将简要介绍蛋白质结构与功能预测的生物信息学途径。 第一节 蛋白质功能预测 一、根据序列预测功能的一般过程 如果序列重叠群(contig)包含有蛋白质编码区,则接下来的分析任务是确定表达产物——蛋白质的功能。蛋白质的许多特性可直接从序列上分析获得,如疏水性,它可以用于预测序列是否跨膜螺旋(transmenbrane helix)或是前导序列(leader sequence)。但是,总的来说,我们根据序列预测蛋白质功能的唯一方法是通过数据库搜寻,比较该蛋白是否与已知功能的蛋白质相似。有2条主要途径可以进行上述的比较分析: ①比较未知蛋白序列与已知蛋白质序列的相似性; ②查找未知蛋白中是否包含与特定蛋白质家族或功能域有关的亚序列或保守区段。 图6.1给出了根据序列预测蛋白质功能的大致过程。由于涉及数条技术路线,所得出的分析结果并不会总是相一致。一般来说,数据库相似性搜索获得的结果最为可靠,而来自PROSITE的结果相对不可靠。

UniProt:蛋白质的全信息数据库

Nucleic Acids Research, 2004, Vol. 32, Database issue D115-D119? 2004 Oxford University Press UniProt:蛋白质的全信息数据库 摘要 为了给科学界提供一个专门,集中,权威的蛋白质序列和功能的信息资源,瑞士-Prot,TrEMBL 和PIR蛋白质数据库已经合作组成了蛋白质的全信息数据库 (UniProt)。我们的目的是用广泛的对照和询问接口来提供一个全面的,分类完全的,丰富并且准确的蛋白质序列信息。中心数据库将有两个部分:符合熟悉的瑞士-Prot(完全手工操作入口)和TrEMBL(使用丰富的自动化的分类,注释和广泛的对照)。为方便序列查寻,UniProt也提供几个无冗余的序列数据库。 UniProt NREF(UniRef)数据库为高效率的搜寻提供适当的蛋白质的全信息数据库的代表性的子集。全面的UniProt 档案(UniParc)每天从很多公共来源数据库更新。 数据库那些UniProt接口可在线访问(https://www.360docs.net/doc/7710495210.html,)或者以几个形式下载(ftp://https://www.360docs.net/doc/7710495210.html,/pub)。我们鼓励科学界人士向UniProt 提供数据。 介绍 近来,瑞士-Prot + TrEMBL和PIR-PSD如同蛋白质数据库不同的序列信息覆盖面和注释优势共存。 2002年,在生物信息科学(SIB)的瑞士研究所和欧洲生物信息科学研究所的瑞士-Prot + TrEMBL 组 (EBI)和蛋白质信息资源(PIR)组织在乔治敦大学医学中心和国家生物医学的研究基金会联合协作。新联合的组织的主要任务是通过建立一个综合,详细分类,丰富并且准确注释蛋白质序列的优质的数据库和广泛序列对比和询问服务的到科学团体免费接口

蛋白质数据库应用swiss-port和PPD

摘要 本文对SWISS-PROT和PDB两个数据库进行了简要介绍以及如何进行序列的单个下载和批量下载进行了说明。 关键词:SWISS-PROT PDB 下载

ABSTRACT In this paper,I make a brief introduction about SWISS-PROT and PDB and how to make a single download and batch download about sequence. Key words:SWISS-PROT PDB download

摘要 0 ABSTRACT (1) 一Swiss-Port的使用方法 (4) 1.1网站简介 (4) 1.2数据下载: (5) 二 PDB的使用方法 (5) 2.1网站简介 (5) 2.2数据下载 (9)

一Swiss-Port的使用方法 SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。SWISS-PROT中尽可能减少了冗余序列,并与其它30多个数据建立了交叉引用,其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。利用序列提取系统(SRS)可以方便地检索SWISS-PROT和其它EBI的数据库。SWISS-PROT只接受直接测序获得的蛋白质序列,序列提交可以在其Web页面上完成。Swiss-Port的网址为http://www.expasy.ch/sprot。 1.1网站简介 打开网站后可以找到如下所示部分: 在处可以查询序列。点击后会有如下界面: 在输入区输入序列:MQIFVKTLTGKTITLEVEPSDTIENVKAKIQDKEGIPPDQQRLIFAGKQLEDGRTLSDYNIQKESTLHL VLRLRGG,点击按钮可以进行查找(查找时还可以在其下方进行一系列的筛选条件控制)。 查询后会看到如下界面,在这里可以看到你进行查询的时间,查询所用时间,

蛋白质分析相关数据库及网站

表1蛋白质相互作用分析相关数据库及网站 蛋白质序列分析和结构预测 【实验目的】 1、掌握蛋白质序列检索的操作方法; 2、熟悉蛋白质基本性质分析; 3、熟悉基于序列同源性分析的蛋白质功能预测,了解基于motif、结构位点、结构功能域数据库的蛋白质功能预测; 4、了解蛋白质结构预测。 【实验内容】 1、使用Entrez或SRS信息查询系统检索人脂联素(adiponectin)蛋白质序列; 2、使用BioEdit软件对上述蛋白质序列进行分子质量、氨基酸组成、和疏水性等基本性质分析; 3、对人脂联素蛋白质序列进行基于NCBI/Blast软件的蛋白质同源性分析; 4、对人脂联素蛋白质序列进行motif结构分析; 5、对人脂联素蛋白质序列进行二级结构和三维结构预测。 【实验方法】 1、人脂联素蛋白质序列的检索:

(1)调用Internet浏览器并在其地址栏输入Entrez网址(https://www.360docs.net/doc/7710495210.html,/Entrez); (2)在Search后的选择栏中选择protein; (3)在输入栏输入homo sapiens adiponectin; (4)点击go后显示序列接受号及序列名称; (5)点击序列接受号NP_004788 (adiponectin precursor;adipose most abundant gene transcript 1 [Homo sapiens])后显示序列详细信息; (6)将序列转为FASTA格式保存(参考上述步骤使用SRS信息查询系统检索人脂联素蛋白质序列); 2、使用BioEdit软件对人脂联素蛋白质序列进行分子质量、氨基酸组成和疏水性等基本性质分析: 打开BioEdit软件→将人脂联素蛋白质序列的FASTA格式序列输入分析框→点击左侧序列说明框中的序列说明→点击sequence栏→选择protein→点击Amino Acid Composition→查看该蛋白质分子质量和氨基酸组成;或者选择protein后,点击Kyte & Doolittle Mean Hydrophobicity Profile→查看该蛋白质分子疏水性水平; 3、人脂联素蛋白质序列的蛋白质同源性分析: (1)进入NCBI/Blast网页; (2)选择Protein-protein BLAST (blastp); (3)将FASTA格式序列贴入输入栏; (4)点击BLAST; (5)查看与之同源的蛋白质; 4、人脂联素蛋白质序列的motif结构分析: (1)进入http://hits.isb-sib.ch/cgi-bin/PFSCAN网页; (2)将人脂联素蛋白质序列的FASTA格式序列贴入输入栏; (3)点击Scan; (4)查看分析结果(注意Prosite Profile中的motif information); 5、人脂联素蛋白质序列的二级结构预测: (1)进入下列蛋白结构预测服务器网址http://www.embl-heidelberg.de/predictprotein//predictprotein.html

蛋白质结构预测网址

蛋白质结构预测网址 物理性质预测: Compute PI/MW Peptidemass TGREASE SAPS 基于组成的蛋白质识别预测 AACompIdent PROPSEARCH 二级结构和折叠类预测 nnpredict Predictprotein SSPRED 特殊结构或结构预测 COILS MacStripe 与核酸序列一样,蛋白质序列的检索往往是进行相关分析的第一步,由于数据库和网络技校术的发展,蛋白序列的检索是十分方便,将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。 由NCBI检索蛋白质序列 可联网到:“”进行检索。 利用SRS系统从EMBL检索蛋白质序列 联网到:”,可利用EMBL的SRS系统进行蛋白质序列的检索。 通过EMAIL进行序列检索 当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时,可采用EMAIL方式进行序列检索。 蛋白质基本性质分析 蛋白质序列的基本性质分析是蛋白质序列分析的基本方面,一般包括蛋白质的氨基酸组成,分子质量,等电点,亲水性,和疏水性、信号肽,跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如,疏水性图谱可通知来预测跨膜螺旋。同时,也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标(其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。 疏水性分析 位于ExPASy的ProtScale程序()可被用来计算蛋白质的疏水性图谱。该网站充许用户计算蛋白质的50余种不同属性,并为每一种氨基酸输出相应的分值。输入的数据可为蛋白质序列或SWISSPROT数据库的序列接受号。需要调整的只是计算窗口的大小(n)该参数用于估计每种氨基酸残基的平均显示尺度。 进行蛋白质的亲/疏水性分析时,也可用一些windows下的软件如, bioedit,dnamana等。 跨膜区分析 有多种预测跨膜螺旋的方法,最简单的是直接,观察以20个氨基酸为单位的疏水性氨基酸残基的分布区域,但同时还有多种更加复杂的、精确的算法能够预测跨膜螺旋的具体位置和它们的膜向性。这些技术主要是基于对已知跨膜螺旋的研究而得到的。自然存在的跨膜螺旋Tmbase 数据库,可通过匿名FTP获得(),参见表一

蛋白质序列分析常用网站-2018.8

蛋白质序列分析 蛋白质序列的基本性质分析是蛋白质序列分析的基本方面,一般包括蛋白质的氨基酸组成,分子质量,等电点,亲水性,和疏水性、信号肽,跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如,疏水性图谱可通知来预测跨膜螺旋。同时,也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标(其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。 基本理化性质分析:https://https://www.360docs.net/doc/7710495210.html,/protparam/ 信号肽预测:http://www.cbs.dtu.dk/services/SignalP/ 在生物内,蛋白质的合成场所与功能场所常被一层或多层细胞膜所隔开,这样就涉及到蛋白质的转运。合成的蛋白质只有准确地定向运行才能保证生命活动的正常进行。一般来说,蛋白质的定位的信息存在于该蛋白质自身结构中,并通过与膜上特殊的受体相互作用而得以表达。在起始密码子之后,有一段编码疏水性氨基酸序列的RNA片段,这个氨基酸序列就这个氨基酸序列就是信号肽序列。含有信号肽的蛋白质一般都是分泌到细胞外,可能作为重要的细胞因子起作用,从而具有潜在的应用价值。 糖基化位点预测:http://www.cbs.dtu.dk/services/Net NGlyc/ 跨膜区分析:TMORED 蛋白质序列含有跨膜区提示它可能作为膜受体起作用,也可能是定位于膜的锚定蛋白或者离子通道蛋白等,从而,含有跨膜区的蛋白质往往和细胞的功能状态密切相关。 蛋白酶的结构功能进行预测和分析:http://smart.embl-heidelberg.de/ 同源建模分析:https://www.360docs.net/doc/7710495210.html,//SWISS-MODEL.html 二级结构及折叠类预测:Predictprotein 特殊结构或结构预测:COILS MacStripe 疏水性分析:ExPASy的ProtScale 基于序列同源性分析的蛋白质功能预测: 至少有80个氨基酸长度范围内具有25%以上序列一致性才提示可能的显著性意义。类似于核酸序列同源性分析,用户直接将待分析的蛋白质序列输入NCBI/BLAST(https://www.360docs.net/doc/7710495210.html,/blast),选择程序BLASTP就可网上分析。 基于motif、结构位点、结构功能域数据库的蛋白质功能预测 蛋白质的磷酸化与糖基化对蛋白质的功能影响很大,所以对其的分析也是生物信息学的一个部分。同时,分子进化方面的研究表明,蛋白质的不同区域具有

蛋白数据库汇总

3.1蛋白质数据库及蛋白质序列分析 生物信息学2010-12-21 11:09:05 阅读29 评论0 字号:大中小订阅https://www.360docs.net/doc/7710495210.html,/blog/cns!73F6908582B81E1B!456.entry 3.1蛋白质数据库及蛋白质序列分析 第一节、蛋白质数据库介绍 一、蛋白质一级数据库

三、蛋白质二级结构预测网站(数据库)

常与生物学功能相关。

说,我们要建立多个序列之间的关系,这样才能揭示整列比对在阐明一组相关序列的重要生物学模式方面起着 列之间的相似性关系, 序列比对一样,多序列比对的方法建立在某个数学或生 样, 型在多大程度上反映了序列之间的相似性关系以及它们

甘氨酸 我们称比对后序列中残基的位置为相对位置。 置相同,而每个残基的绝对位置不同,因为它们来自不是经过比对后的位置,也就比对过程赋予它的属性。 列比对所需要的计算时间和内存空间与这两个序列的长两个序列长度的乘积, 三序列比对则可以理解为将双序列比对的两维空间扩展面上增加一条坐标轴。这样算法复杂性就变成了 第三条序列的长度。

行少量的较短的序列的比对 出的( 阵来进行序列的比对不太现实, 法,以降低运算复杂度。 程中, 性分数值将它们分成若干组,并在每组之间进行比对,相似性分数值继续分组比对,直到得到最终比对结果。较高的序列先进行比对,而距离较远的序列添加在后面Clusal ),根据对亲缘关系较近的序列间空位情况,确定如何在亲缘关系较远的序列之间插入空位。同样,相似性较高的序列比对结果中的残基突变信息,可用于 是免费软件,很容易从互联网上下载,和其它软件一起,广 本身定义的格式。 GCG 照特定的格式输出,并且在一定程度上反映它们之间的相似性。多序列比对结果所提供的信息对于提高数据库搜索灵敏度也具有很大帮助。因此, 计算机程序将一次数据库按家族分类;另外一些则是通过手工或自动方法 它将大量具有结构相似性的序列归为一类,比如各种不同种类动物的转铁蛋白的基因 列比对信息,开头是一些注释信息,然后给出了比对序列的名字,再下是 对于一个未知的蛋白质序列在该序列可以看看PRINTS数据库关于TRANSFERRIN的 据库在自动比对的基础上进行了手工编辑,查寻PRIN TRANSFERRIN这一类的比对信息,结果可以用模体(用点击链接调用JAVA APPLET进行图形显示,下图是列比对的局部图形,可见PRINTS数据库中TRANSFE 比对形成。

相关文档
最新文档