NCBI简介及序列编号说明

一：NCBI简介

NCBI的GenBank与DDBJ(DNA Data Bank of Japan)、EMBL的EBI数据库共同组成国际DNA 数据库，每日都交换更新数据和信息，并主持两个国际年会－国际DNA数据库咨询会议和国际DNA数据库协作会议，互相交换信息，因此三个库的数据实际上是相同的。

GenBank 有来自于70,000多种生物的核苷酸序列。每条纪录都有编码区（CDS）特征的注释，还包括氨基酸的翻译。（是美国国家生物技术信息中心(National Center for Biotechnology Information ，NCBI)建立的DNA序列数据库，从公共资源中获取序列数据，主要是科研人员直接提供或来源于大规模基因组测序计划( Benson等，1998)。Entrez 是美国国家生物技术信息中心所提供的在线资源检索器。该资源将GenBank序列与其原始文献出处链接在一起。Entrez 是由NCBI主持的一个数据库检索系统。它包括核酸，蛋白以及Medline文摘数据库，在这三个数据库中建立了非常完善的联系。因此，可以从一个DNA序列查询到蛋白产物以及相关文献，而且，每个条目均有一个类邻（neighboring）信息，给出与查询条目接近的信息。）

DDBJ主要向研究者收集DNA序列信息并赋予其数据存取号，信息来源主要是日本的研究机构，亦接受其他国家呈递的序列。

EBI的主要任务：⑴为科学界建立和维护生物学数据库，提供免费的数据和生物信息服务，支持生物学数据的存储和挖掘，促进科技进步；⑵通过生物信息学的基础研究继续推动生物学发展；⑶为各个层次的科学工作者提供生物信息学培训；⑷支持帮助边缘尖端科技成果向工业界的转化；⑸协调欧洲生物数据的提供。

RefSeq是NCBI数据库的参考序列。RefSeq资料库是NCBI将GenBank的序列再做详细整理的non-redundent序列资料库，它的序列格式和GenBank几乎完全相同，但因为是完全不同的独立资料库,为与GenBank区别，RefSeq的Accession Number格式和GenBank不同。

二：常用序列编号

一般来说，mRNA和基因组序列是我们主要的寻找对象。如果想找标准序列的话，mRNA用NM_开头的，基因组用NC_或者AC_开头的。

1. mRNA

NM_表示标准序列, 为转录产物序列；成熟mRNA转录本序列。

XM_表示预测的蛋白编码序列；mRNA来自基因组注释，序列相当于基因组重叠群。大多数属于预测的。

NR_表示非编码的转录子序列，包括结构RNAs，假基因转子等。

2. 基因组

NC_完整的基因组分子序列，标记的类别包括基因组、染色体、细胞器、质粒。

AC_一些可供选择的注释的基因组序列，主要用来标记病毒和原核生物。

三：ACCESSION编号

ACCESSION是NCBI序列数据中我们常用到编号（另一个是GI）。ACCESSION形式为CC_#####，其中CC 为两个字母，其不同组合又可以区分为蛋白序列、核酸序列或基因组序列，而#为位数不等的数字；ACCESSION 后面又会加版本号，以CC_####.#形式表示，最后的尾数递增表示序列信息较之前的版本有所修改。这样ACCESSION+版本号就是一个唯一的表示，代表一个唯一的序列，而且这个编号不会改变。

1）AC_***：genomic mixed，一些可供选择的注释的基因组序列，主要用来标记病毒和原核生物；

2）AP_***：protein mixed，AC_标记序列对应的蛋白产物；

3）NC_***：genomic mixed，完整的基因组分子序列，标记的类别包括基因组、染色体、细胞器、质粒；4）NG_***：genomic mixed，不完整的基因组区域，提供NCBI基因组注释途径。比较有代表性有不转录的假基因或者哪些很难自行化注释的基因组簇；

5）NM_***：mRNA mixed，转录组产物序列；成熟mRNA转录本序列；

6）NP_***：protein mixed，蛋白产物；主要是全长转录氨基酸序列，但也有一些只有部分蛋白质的部分氨基酸序列；

7）NR_***：RNA mixed，非编码的转录子序列，包括结构RNAs，假基因转子等；

8）NT_***：genomic automated，BAC或者鸟枪测序法的还未完全注释的测序序列；

9）NW_***：genomic automated，BAC或者鸟枪法测序的还未完全注释的测序序列；

10）NZ_ABCD1234***：genomic automated，收集的各种利用鸟枪法测序的测序计划，ABCD代表的是计划名称；

11）XM_***：mRNA automated，转录产物；mRNA来自基因组注释，序列相当于基因组重叠群；

12）XP_***：protein automated，蛋白产物；序列相当于基因组重叠群；

13）XR：RNA automated，转录产物；非编码区来自基因组注释，序列相当于基因组重叠群；

14）YP_***：protein mixed，蛋白产物；不涉及到转录组，主要用来标记细菌、病毒和线粒体；

15）ZP_***：protein automated，蛋白产物；主要是用电脑自动注释；

16）NS_***：genomic automated，未知生物分子基因组序列。

在前面介绍了一些常见序列的accession号，其实在NCBI中还有很多accession号，仅与RNA相关的就有116种，这里各举一个例子供参考。不同的编码代号代表不同的意思，如NM_开头的表示标准序列，XM_表示预测的蛋白编码序列，NR_表示非编码蛋白的mRNA序列，AF开头的表示克隆序列，BC开头的表示模板序列。

四：GI编号:

GI编号是NCBI网站的所有序列相关数据库的流水编号，其最有用的特征就是唯一性。对于每一条递交给NCBI的序列，都会付给一个编号，而且这个编号对应的序列不可更改。这个编号对应这个唯一的一条序列，类似与我们用的身份证号。因此，利用GI在NCBI中查询时，你只要把数据库（蛋白质/核苷酸）选对，只要输入这个号码就可以把相应的序列调出来。

值得一提的是登录号（Accession Number）。每一个递交的序列，除了获得一个GI号，还会被赋予一个登录号。递交序列的作者利用登录号对序列进行修改和完善。每一次修改的序列会获得一个新的GI号，登录号不变，但会追加一个流水的版本号。

因此，GI号和带版本号的登录号都唯一定位到唯一条序列。

（LOCUS出现在GenBank中的LOCUS行以及DDBJ记录（EMBL的ID行）是GenBank中最初的辨识器。由于使用LOCUS（或ID）名称作为对核酸序列唯一辨识器的困难，国际核酸序列数据库合作者们（DDBJ/EMBL/GenBank）引入了序列号。NCBI给每个记录赋予一个gi（geninfo）标识符。这意味着翻译产物蛋白质序列（不是简单附属于DNA记录，如同在GenBank记录中显示的），也有自己的gi号码。一个特定的标识符当且仅当序列更改时才更改。NID行是核苷酸序列的gi号码（geninfo identifier）前缀字母（d，e或g）表明是哪一个数据库生成了这个号码，或这一号码用于哪个数据库。因为NCBI首先使用了这个号码，所以DDBJ和EMBL用NCBI（GenBank）指定的号码来填充他们的数据库。简单地说，一个gi号码对应于一个核酸序列（蛋白质序列也有gi号码）。当序列改变时，gi号码也改变，但检索号码不变。在形式上，它只是简单的整数（所以有时被称为GI号）。它只是一

些特定序列的辨识器。假定一个序列加入GenBank，给定序列号U00001。当该序列在NCBI所内部处理时，它加入所谓的ID数据库。ID确认以前从未见过U00001，就给它一个gi号54。当提交器通过改变出处修改记录时，U00001又加入ID。ID认出该记录出现过，恢复原先的U00001和新记录进行比较，如果完全相同，则给该记录gi号54；如果不相同，即使只有一对碱基不同，则给新gi号88。然而因为原数据库的意义，新序列仍保持序列号U00001。这时ID标识旧记录（gi54）的替换时间，并将它加入历史指示它被gi88的记录替代。ID也加入历史gi88指出它替代了gi54。序列号是对LOCUS/ID 号的改进，但实际使用中，问题和不足是显然的。例如，当序列对于时间是稳定时，许多使用者发现用相同的序列号复现出的序列并不总是相同的。这是因为序列号标明了整个数据库的记录，一旦记录被修改了（或者说从开始部分插入了1000bp）的时候，序列号不变（只是相同记录的升级版）。如果我们分析起始序列和记录序列U00001的第100个位置假设是与蛋白质相关的位点，升级后一个完全不同的序列将在第100个位置上。所以，在GENEBANK中的LOCUS行就相当于DDBJ2或EMBL中的ID行，ID号是永恒不变的，而gi号码在序列改变时则会被指派新的gi号码，相应地其多肽段的gi号码也会相应地发生改变。）