生物信息学复习笔记

生物信息学复习笔记
生物信息学复习笔记

生物信息学

填空,选择,计算,简答,名词解释

几代测序的代表平台,优缺点

一代DNA测序技术用的是1975年由桑格(Sanger)和考尔森(Coulson)开创的链终止法

Sanger法核心原理是:由于ddNTP的2’和3’都不含羟基,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA合成反应,在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP(分为:ddATP,ddCTP,ddGTP 和ddTTP),通过凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA 序列

第一代测序技术的主要特点是测序读长可达1000bp,准确性高达99.999%,但其测序成本高,通量低等方面的缺点,严重影响了其真正大规模的应用

以Roche公司的454技术、illumina公司的Solexa,Hiseq技术和ABI公司的Solid 技术为标记的第二代测序技术诞生了

(1)DNA待测文库构建

利用超声波把待测的DNA样本打断成小片段,目前除了组装之外和一些其他的特殊要求之外,主要是打断成200-500bp长的序列片段,并在这些小片段的两端添加上不同的接头,构建出单链DNA文库。

(2)Flowcell

Flowcell是用于吸附流动DNA片段的槽道,当文库建好后,这些文库中的DNA在通过flowcell的时候会随机附着在flowcell表面的channel上。每个Flowcell有8个channel,每个channel的表面都附有很多接头,这些接头能和建库过程中加在DNA片段两端的接头相互配对(这就是为什么flowcell 能吸附建库后的DNA的原因),并能支持DNA在其表面进行桥式PCR的扩增。

(3)桥式PCR扩增与变性

桥式PCR以Flowcell表面所固定的接头为模板,进行桥形扩增,如图4.a 所示。经过不断的扩增和变性循环,最终每个DNA片段都将在各自的位置上集中成束,每一个束都含有单个DNA模板的很多分拷贝,进行这一过程的目的在于实现将碱基的信号强度放大,以达到测序所需的信号要求。

(4)测序

测序方法采用边合成边测序的方法。向反应体系中同时添加DNA聚合酶、接头引物和带有碱基特异荧光标记的4中dNTP(如同Sanger测序法)。

这些dNTP的3’-OH被化学方法所保护,因而每次只能添加一个dNTP。在dNTP被添加到合成链上后,所有未使用的游离dNTP和DNA聚合酶会被洗脱掉。接着,再加入激发荧光所需的缓冲液,用激光激发荧光信号,并有光学设备完成荧光信号的记录,最后利用计算机分析将光学信号转化为测序碱基。这样荧光信号记录完成后,再加入化学试剂淬灭荧光信号并去除dNTP 3’-OH保护基团,以便能进行下一轮的测序反应。Illumina的这种测序技术每次只添加一个dNTP的特点能够很好的地解决同聚物长度的准确测量问题,它的主要测序错误来源是碱基的替换,目前它的测序错误率在1%-1.5%之间,测序周期以人类基因组重测序为例,30x测序深度大约为1周。

第二代测序技术大大降低了测序成本的同时,还大幅提高了测序速度,并且保持了高准确性

以PacBio公司的SMRT和Oxford Nanopore Technologies纳米孔单分子测序技术,被称之为第三代测序技术。

其中PacBio SMRT技术其实也应用了边合成边测序的思想5,并以SMRT芯片为测序载体。基本原理是:DNA聚合酶和模板结合,4色荧光标记4 种碱基(即是dNTP),在碱基配对阶段,不同碱基的加入,会发出不同光,根据光的波长与峰值可判断进入的碱基类型。同时这个DNA 聚合酶是实现超长读长的关键之一,读长主要跟酶的活性保持有关,它主要受激光对其造成的损伤所影响。PacBio SMRT技术的一个关键是怎样将反应信号与周围游离碱基的强大荧光背景区别出来。他们利用的是ZMW(零模波导孔)原理:如同微波炉壁上可看到的很多密集小孔。小孔直径有考究,如果直径大于微波波长,能量就会在衍射效应的作用下穿透面板而泄露出来,从而与周围小孔相互干扰。如果孔径小于波长,能量不会辐射到周围,而是保持直线状态(光衍射的原理),从而可起保护作用。同理,在一个反应管(SMRTCell:单分子实时反应孔)中有许多这样的圆形纳米小孔, 即ZMW(零模波导孔),外径100多纳米,比检测激光波长小(数百纳米),激光从底部打上去后不能穿透小孔进入上方溶液区,能量被限制在一个小范围(体积20X 10-21 L)里,正好足够覆盖需要检测的部分,使得信号仅来自这个小反应区域,孔外过多游离核苷酸单体依然留在黑暗中,从而实现将背景降到最低。另外,可以通过检测相邻两个碱基之间的测序时间,来检测一些碱基修饰情况,既如果碱基存在修饰,则通过聚合酶时的速度会减慢,相邻两峰之间的距离增大,可以通过这个来之间检测甲基化等信息(图7)。SMRT 技术的测序速度很快,每秒约10个dNTP。但是,同时其测序错误率比较高(这几乎是目前单分子测序技术的通病),达到15%,但好在它的出错是随机的,并不会像第二代测序技术那样存在测序错误的偏向,因而可以通过多次测序来进行有效的纠错。

与前两代相比,他们最大的特点就是单分子测序,测序过程无需进行PCR扩增。

第一代ABI/生命

技术公司

3130xL-3730xL 桑格

-毛

细管

电泳

测序

光/

600-1

000

高读

长,准

确度

一次

性达

标率

高,能

很好

处理

重复

序列

和多

聚序

通量低;样

品制备成

本高,使之

难以做大

量的平行

测序

第一代贝克曼GeXP遗传分析系统桑格

-毛

细管

电泳

测序

光/

600-1

000

高读

长,准

确度

一次

性达

标率

高,能

很好

处理

重复

序列

和多

聚序

列;易

小型

通量低;单

个样品的

制备成本

相对较高

第二代Roche/454 基因组测序仪FLX系统焦磷

酸测

序法

230-4

00

在第

二代

中最

高读

长;比

第一

代的

测序

通量

样品制备

较难;难于

处理重复

和同种碱

基多聚区

域;试剂冲

洗带来错

误累积;仪

器昂贵

第二代Illumina HiSeq2000,HiSeq2500/MiSeq 可逆

链终

止物

和合

成测

序法

光/

2x150 很高

测序

通量

仪器昂贵;

用于数据

删节和分

析的费用

很高

第二代ABI/Solid 5500xlSolid系统连接

测序

光/

25-35 很高

测序

通量;

在广

为接

受的

几种

第二

代平

台中,

所要

拼接

出人

类基

因组

的试

剂成

本最

测序运行

时间长;读

长短,造成

成本高,数

据分析困

难和基因

组拼接困

难;仪器昂

第二代赫利克斯Heliscope 单分

子合

成测

序法

光/

25-30 高通

量;在

第二

代中

属于

单分

子性

质的

测序

技术

读长短,推

高了测序

成本,降低

了基因组

拼接的质

量;仪器非

常昂贵

第三代太平洋生

物科学公

PacBio RS 实时

单分

DNA

测序

光/

~1000 高平

均读

长,比

第一

代的

测序

并不能高

效地将

DNA聚合

酶加到测

序阵列中;

准确性一

时间降低;不需要扩增;最长单个读长接近3000碱基次性达标的机会低(81-83%);DNA 聚合酶在阵列中降解;总体上每个碱基测序成本高(仪器昂贵);

第三代全基因组

学公司

GeXP遗传分析系统复合

探针

锚杂

交和

连接

技术

光/

10 在第

三代

中通

量最

高;在

所有

测序

技术

中,用

于拼

接一

个人

基因

组的

试剂

成本

最低;

每个

测序

步骤

独立,

使错

误的

累积

变得

最低

低读

长;模板

制备妨碍

长重复序

列区域测

序;样品制

备费事;尚

无商业化

供应的仪

第三代Ion

Torrent/

生命技术

公司

个人基因组测序仪(PGM)合成

测序

100-2

00

对核

酸碱

基的

掺入

一步步的

洗脱过程

可导致错

误累积;阅

感场效应晶体管检测pH 值变化可直

接测

定;在

自然

条件

下进

DNA

合成

(不

需要

使用

修饰

过的

碱基)

读高重复

和同种多

聚序列时

有潜在困

难;

第三代牛津纳米

孔公司

gridION 纳米

孔外

切酶

测序

尚未定

有潜

力达

到高

读长;

可以

成本

生产

纳米

孔;无

需荧

光标

记或

光学

手段

切断的核

苷酸可能

被读错方

向;难于生

产出带多

重平行孔

的装置

LAMP架构

Linux+Apache+Mysql/MariaDB+Perl/PHP/Python一组常用来搭建动态网站或者服务器的开源软件,本身都是各自独立的程序,但是因为常被放在一起使用,拥有了越来越高的兼容度,共同组成了一个强大的Web应用程序平台。

序列比对,重中之重,肯定会有计算题,全局比对,局部比对

Sequence A: CAATTGA Sequence B: GAATCTGC Their optimal alignment

生物信息相关的重要数据库:序列数据库,结构数据库等,送几分

多序列比对,SP模型,线性比对

目的:

发现多个序列的共性

发现与结构和功能相关的保守序列片段

设:有k个序列s1, s2, ... ,sk,每个序列由同一个字母表中的字符组成,k大于2。通过插入操作,使得各序列达到一样的长度。

意义:

用于描述一组序列之间的相似性关系,以便了解一个基因家族的基本特征,寻找motif,保守区域等。

用于描述一个同源基因之间的亲缘关系的远近,应用到分子进化分析中。

其他应用,如构建profile,打分矩阵等。

1、SP(Sum-of-Pairs)模型

逐对加和SP(sum-of-pairs)函数

1、计算多序列比对的SP模型得分,打分矩阵用课本中的PAM250矩阵,P(-,-)=0, 任意氨基酸与–得分为-1。

2、计算AACTCAT, CCATAAT,GTAACAT, GACCACT 4条序列的PSSM(计算步骤参见课本P63)

基因组组装,主要复杂在几个问题上,正反向都有等,贪婪算法和拓扑排序等

基因组组装存在的主要问题:

碱基错误

片段的方向未知

存在重复区域

缺少覆盖

用贪婪法和非循环子图拓扑排序方法实现课件中几条序列的组装。

贪婪算法

简化覆盖多图,对每一对顶点仅考虑权值最大的边,而去掉其它的边。

称经过处理后的新图为F的覆盖图,记为OG(F)。

贪婪算法的核心思想就是逐步加入满足哈密顿路径条件的最大权值的边

无回路

节点出度为1(不可能有两条边同时从某个顶点出发)

节点入度为1 (不可能有两条边同时终止于某个顶点)

例如,设序列片段集合F={CA,ATCA,TGCAT},其覆盖图如图3.28实线所示,这里去掉了权值为0的边。依次取两条权值为2的边,形成一条哈密顿路径。贪婪算法并不能保

证总是产生出最佳的结果。如果将F第一个序列改为CATCA,则在原来的图中将加上虚线所示的边。按照贪婪算法,首先选择权值为3的虚线边,然而这样一来,其它两条权值为2的边都不能再选了,因为将它们加入后不满足哈密顿路径的条件。于是,算法只能选择权值为0的边,以建立完整的哈密顿路径,总的权值为3。可是,上述另外两条被拒绝的边形成一条哈密顿路径,并且权值和等于4,是权值最高的一条哈密顿路径,但贪婪算法找不到该路径。

学霸整理复习资料笔记:高中生物知识点总结!

学霸整理复习资料笔记:高中生物知识点总结! 必修一《分子与细胞》 1.生命系统的结构层次:细胞→组织→器官→系统→个体→种群→群落→生态系统→生物圈 2.显微镜的使用:先低后高,不动粗焦(调到高倍镜后再不能转动粗准焦螺旋) 3.真核细胞与原核细胞的根源区别:有无核膜包被的细胞核 4.细菌、蓝藻的结构模式图(略) 5.大量元素:C、H、O、N、P、S、Ka、Ca、Mg等。微量元素:Fe、Mn、Zn、Cu、B、Mo等。 基本元素:C、H、O、N。最基本元素:C 6.水在细胞中以两种形态存有:解放水(约95.5%)和结合水(约4.5%),二者能够相互转化。 水是生物体内含量最多的化合物。 7.生命活动的直接能源物质为ATP、主要能源物质为葡萄糖、生物体的储能物质是脂肪 8.糖类由C、H、O组成,包括单糖(葡萄糖、果糖、半乳糖、核糖、脱氧核糖)、二糖(蔗糖、麦芽糖、乳糖)、多糖(淀粉、纤维素、糖原(动物))。 9.酶的特点:专一性、高效性。激素作用的特点是:特异性、高效性 10.鉴定下列有机物的试剂及现象: 淀粉:碘液——变蓝还原性糖(如葡萄糖):斐林试剂(加热)——砖红色沉淀

蛋白质:双缩脲试剂——紫色脂肪:苏丹Ⅲ染液——橘黄色;苏丹Ⅳ染液——红色 11.蛋白质基本组成单位:氨基酸。元素组成:C、H、O、N,绝大部分蛋白质还含有S 氨基酸结构通式:必须有一个氨基和一个羧基,且连接在同一个C上 形成:氨基酸分子间通过脱水缩合形成肽键(—CO—NH—或—NH—CO—,不能省略“—”)相连而成。 二肽:由2个氨基酸分子组成的肽链。三肽:由三个氨基酸组成。 多肽:n≥3 公式:脱水缩合时脱去的水分子数=肽键数=氨基酸数-肽链数蛋白质结构的多样性的原因:氨基酸的种类、数目、排列顺序例外 12.核酸:由C、H、O、N、P组成,包括DNA和RNA DNA:脱氧核糖核酸,基本单位:脱氧核苷酸,碱基类型:A-T,C-G,DNA 可被甲基绿染成绿色 RNA:核糖核酸,基本单位:核糖核苷酸,碱基类型:A-U,C-G,RNA可被吡罗红染成红色 13.细胞膜的化学成分是:脂质、蛋白质、多糖,其中基本骨架是磷脂双分子层 14.细胞膜的结构特点:流动性。功能特点:选择透过性结构模型:流动镶嵌模型 15.原生质层的组成:细胞膜、液泡膜、两膜之间的细胞质。相当于半透膜。质壁分离与复原(详见课本) 16.物质出入细胞的方式有:

生物信息学复习笔记

生物信息学 填空,选择,计算,简答,名词解释 几代测序的代表平台,优缺点 一代DNA测序技术用的是1975年由桑格(Sanger)和考尔森(Coulson)开创的链终止法 Sanger法核心原理是:由于ddNTP的2’和3’都不含羟基,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA合成反应,在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP(分为:ddATP,ddCTP,ddGTP 和ddTTP),通过凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA 序列 第一代测序技术的主要特点是测序读长可达1000bp,准确性高达99.999%,但其测序成本高,通量低等方面的缺点,严重影响了其真正大规模的应用 以Roche公司的454技术、illumina公司的Solexa,Hiseq技术和ABI公司的Solid 技术为标记的第二代测序技术诞生了 (1)DNA待测文库构建 利用超声波把待测的DNA样本打断成小片段,目前除了组装之外和一些其他的特殊要求之外,主要是打断成200-500bp长的序列片段,并在这些小片段的两端添加上不同的接头,构建出单链DNA文库。 (2)Flowcell

Flowcell是用于吸附流动DNA片段的槽道,当文库建好后,这些文库中的DNA在通过flowcell的时候会随机附着在flowcell表面的channel上。每个Flowcell有8个channel,每个channel的表面都附有很多接头,这些接头能和建库过程中加在DNA片段两端的接头相互配对(这就是为什么flowcell 能吸附建库后的DNA的原因),并能支持DNA在其表面进行桥式PCR的扩增。 (3)桥式PCR扩增与变性 桥式PCR以Flowcell表面所固定的接头为模板,进行桥形扩增,如图4.a 所示。经过不断的扩增和变性循环,最终每个DNA片段都将在各自的位置上集中成束,每一个束都含有单个DNA模板的很多分拷贝,进行这一过程的目的在于实现将碱基的信号强度放大,以达到测序所需的信号要求。 (4)测序 测序方法采用边合成边测序的方法。向反应体系中同时添加DNA聚合酶、接头引物和带有碱基特异荧光标记的4中dNTP(如同Sanger测序法)。 这些dNTP的3’-OH被化学方法所保护,因而每次只能添加一个dNTP。在dNTP被添加到合成链上后,所有未使用的游离dNTP和DNA聚合酶会被洗脱掉。接着,再加入激发荧光所需的缓冲液,用激光激发荧光信号,并有光学设备完成荧光信号的记录,最后利用计算机分析将光学信号转化为测序碱基。这样荧光信号记录完成后,再加入化学试剂淬灭荧光信号并去除dNTP 3’-OH保护基团,以便能进行下一轮的测序反应。Illumina的这种测序技术每次只添加一个dNTP的特点能够很好的地解决同聚物长度的准确测量问题,它的主要测序错误来源是碱基的替换,目前它的测序错误率在1%-1.5%之间,测序周期以人类基因组重测序为例,30x测序深度大约为1周。 第二代测序技术大大降低了测序成本的同时,还大幅提高了测序速度,并且保持了高准确性 以PacBio公司的SMRT和Oxford Nanopore Technologies纳米孔单分子测序技术,被称之为第三代测序技术。

高一生物必修1笔记整理

生物 第一章走近细胞 第一节从生物圈到细胞 1病毒没有结构,但必须依赖才能生存。 2生命活动离不开细胞,细胞是生物体的(基本单位)。 3生命系统的结构层次: . 4血液属于层次,皮肤属于层次。 5植物没有层次,单细胞生物既可化做层次,又可化做(细胞)层次。 6地球上最基本的生命系统是。 7种群:在一定的区域内。例:一个池塘中所有的鲤鱼。 8群落:在一定的区域内生物的。例:一个池塘中所有的生物。(不是所有的鱼) 9生态系统:和它生存的相互作用而形成的统一整体。10以细胞代谢为基础的生物与环境之间的物质和能量的交换;以细胞增殖、分化为基础的生长与发育;以细胞内基因的传递和变化为基础的遗传与变异。 第二节细胞的多样性和统一性 一、高倍镜的使用步骤(尤其要注意第1和第4步) 1 在倍镜下找到物象,将物象移至, 2 转动,换上高倍镜。 3 调节和,使视野亮度适宜。 4 调节,使物象清晰。 二、显微镜使用常识 1调亮视野的两种方法、。 2高倍镜:物象,视野,看到细胞数目。 低倍镜:物象,视野,看到的细胞数目。 3 物镜:螺纹,镜筒越,放大倍数越大。 4放大倍数= 的放大倍数х的放大倍数 5一行细胞的数目变化可根据视野范围与放大倍数成反比 计算方法:个数×放大倍数的比例倒数=最后看到的细胞数 如:在目镜10×物镜10×的视野中有一行细胞,数目是20个,在目镜不换物镜换成40×,那么在视野中能看见多少个细胞?

6圆行视野范围细胞的数量的变化可根据视野范围与放大倍数的平方成反比计算 如:在目镜为10×物镜为10×的视野中看见布满的细胞数为20个,在目镜不换物镜换成20×,那么在视野中我们还能看见多少个细胞? 三、原核生物与真核生物主要类群: 原核生物:蓝藻,含有和,可进行作用,属自养型生物。 细菌:菌,菌,菌,乳酸菌;放线菌:(链霉菌)支原体,衣原体,立克次氏体 真核生物:动物、植物、真菌:等 四、细胞学说 1创立者: 2细胞的发现者及命名者:英国科学家 3内容要点:P10,共三点 4揭示问题:揭示了。 第二章组成细胞的元素和化合物 第一节细胞中的元素和化合物 统一性:大体相同 1、生物界与非生物界 差异性:含量有差异 2、组成细胞的元素 大量元素: 微量元素:(口诀:新木桶碰铁门) 主要元素: 含量最高的四种元素: 最基本元素:(干重下含量最高)质量分数最大的元素:(鲜重下含量最高) 3组成细胞的化合物 水(含量最高的化合物) 无机化合物 有机化合物(干重中含量最高的化合物) 4检测生物组织中糖类、脂肪和蛋白质 (1)还原糖的检测和观察 常用材料:苹果和梨

生物信息学期末考试重点

第一讲 生物信息学(Bioinformatics)是20世纪80年代末随着人类基因组计划的启动而兴起的一门新型交叉学科,它体现了生物学、计算机科学、数学、物理学等学科间的渗透与融合。 生物信息学通过对生物学实验数据的获取、加工、存储、检索与分析,达到揭示数据所蕴含的生物学意义从而解读生命活动规律的目的。 生物信息学不仅是一门学科,更是一种重要的研究开发平台与工具,是今后进行几乎所有生命科学研究的推手。 生物技术与生物信息学的区别及联系 生物信息学的发展历史 ?人类基因组计划(HGP) ?人类基因组计划由美国科学家于1985年提出,1990年启动。根据该计划,在2015年要把人体约4万个基因的密码全部揭开,同时绘制出人类基因的谱图,也就是说,要揭开组成人体4万个基因的30亿个碱基对的秘密。HGP与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划,被誉为生命科学的登月计划。(百度百科) 随着基因组计划的不断发展,海量的生物学数据必须通过生物信息学的手段进行收集、分析和整理后,才能成为有用的信息和知识。换句话说,人类基因组计划为生物信息学提供了兴盛的契机。上文所说的基因、碱基对、遗传密码子等术语都是生物信息学需要着重研究的地方。 :

】 第二讲回顾细胞结构 细胞是所有生命形式结构和功能的基本单位 细胞组成 细胞膜主要由脂类和蛋白质组成的环绕在细胞表面的双层膜结构 细胞质细胞膜与细胞核之间的区域:包含液体流质,夹杂物存储的营养、分泌物、天然色素和细胞器 细胞器细胞内完成特定功能的结构:线粒体、核糖体、高尔基体、溶酶体等 细胞核最大的细胞器 DNA的结构 碱基(腺嘌呤A、鸟嘌呤G、胞嘧啶C、胸腺嘧啶G) 。 核苷酸 核苷酸是构成DNA分子的重要模块。每个核苷酸分子由一分子称作脱氧核糖的戊 糖(五碳糖)、一分子磷酸和一分子碱基构成。每种核苷酸都有一个碱基对,也就 是A、T、C、G 基因是什么 基因是遗传物质的基本单位 基因就是核苷酸序列。 大部分的基因大约是1000-4000个核苷酸那么长。 基因通过控制蛋白质的合成,从微观和宏观上影响细胞、组织和器官的产生。 基因在染色体上。

生物信息学复习

试卷习题--课后习题--概念题 1. EST【Expressed Sequence Tag (表达序列标签) :Randomly selected, partial cDNA sequence; represents it’s corresponding mRNA. dbEST is a large database of ESTs at GenBank, NCBI.】。 2. STS【Sequence Tagged Site (序列标签位点),Short cDNA sequences (200 to 500bp)of regions that have been physically mapped. STSs provide unique landmarks, or identifiers, throughout the genome. Useful as a framework for further sequencing。】 3. Sequence Alignment 【The process of lining up two or more sequences (DNA, RNA or amino acid) to achieve maximal levels of identity (and conservation, in the case of amino acid sequences) for the purpose of assessing the degree of similarity and the possibility of homology】 4. 序列相似性【是序列比对过程中,用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基所占比例的术语】。 5. 同源序列【是指从某一共同祖先经趋异进化而形成的不同序列】 6. Algorithm(算法)【A systematic procedure for solving a problem in a finite number of steps, typically involving a repetition of operations. Once specified, an algorithm can be written in a computer language and run as a program.】 7. 序列相似性搜索【将查询序列(query sequence)与整个数据库中的所有序列进行比对,从数据库中获得与其最相似序列的过程。能最快速的获得有关查询序列的大量有价值的参考信息,对于进一步分析其结构和功能都会有很大的帮助。】 8. 序列同源性分析【是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小】。 9. Orthologs(直系同源)【Homologous sequences in different species that arose from a common ancestral gene during speciation; may or may not be responsible for a similar function】。 10. Paralogs(旁系同源)【Homologous sequences within a single species that arose by gene duplication】。 11. A Position-specific scoring matrix (PSSM) is defined as a table that contains probability information of amino acids or nucleotides at each position of an ungapped multiple sequence alignment. 12. A profile is a PSSM with penalty information regarding insertions and deletions for a sequence family. 13. 核酸序列预测【指利用一些计算方式(计算机程序)从基因组序列中发现基因及其表达调控元件的位置和结构的过程,包括基因预测和表达调控元件预测】。 14. ORF【一个开放阅读框(ORF, open reading frame)是一个(中间)没有终止密码子的蛋白质编码序列】。 15. Motif(模体)【A motif is a short conserved sequence pattern associated with distinct functions of a protein or DNA. It is often associated with a distinct structural site performing a particular function. A typical motif, such as a Zn-finger motif, is ten to twenty amino acids long.】16. Domain(结构域)【A domain is also a conserved sequence pattern, defined as an independent functional and structural unit. Domains are normally longer than motifs. A domain consists of more than 40 residues and up to 700 residues, with an average length of 100 residues.】 17. Homology Modeling【同源建模方法:如果两个蛋白质序列在80个以上残基的序列比对中显示出25%的一致性,那么这两个蛋白质就具有相似的结构,这就是同源建模方法的理论基础。如果一条结构未知的序列(通常称为目标序列)可以在已知结构库中找到一条或一

高中生物必修2最详细笔记

高中生物必修2 《遗传与进化》 人类是怎样认识基因的存在的?遗传因子的发现 基因在哪里?基因与染色体的关系 基因是什么?基因的本质 基因是怎样行使功能的?基因的表达 基因在传递过程中怎样变化?基因突变与其他变异 人类如何利用生物的基因?从杂交育种到基因工程 生物进化历程中基因频率是如何变化的?现代生物进化理论 主线一:以基因的本质为重点的染色体、DNA、基因、遗传信息、遗传密码、性状间关系的综合;

主线二:以分离规律为重点的核基因传递规律及其应用的综合; 主线三:以基因突变、染色体变异和自然选择为重点的进化变异规律及其应用的综合。 第一章 遗传因子的发现 二、杂交实验(一) 1956----1864------1872 1.选材:豌豆 自花传粉、闭花受粉 纯种 性状易区分且稳定 真实遗传 2.过程:人工异花传粉 一对相对性状的 正交 P (亲本) 反交 F 1(子一代) F 2(子二代) 3:1 3.解释 ①性状由遗传因子决定。(区分大小写) ②因子成对存在。 ③配子只含每对因子中的一个。 ④配子的结合是随机的。 4.验证 测交 F 1是否产生两种 比例为1:1的配子 5.分离定律 在生物的体细胞中,控制同一性状的遗传因子成对存在,不相融合;在形成配子时,成对的遗传因子发生分离,分离后的遗传因子分别进入不同的配子中,随配子遗传给后代。 三、杂交实验(二)

体现在 1. 亲组合 重组合 2.自由组合定律 控制不同性状的遗传因子的分离和组合是互不干扰的;在形成配子时,决定同一性状的成对的遗传因子彼此分离,决定不同性状的遗传因子自由组合 四、孟德尔遗传定律史记 ①1866年发表 ②1900年再发现 ③1909年约翰逊将遗传因子更名为“基因” 基因型、表现型、等位基因 △基因型是性状表现的内在因素,而表现型则是基因型的表现形式。表现型=基因型+环境条件。 五、小结 1. 第二章 基因与染色体的关系 依据:基因与染色体行为的平行关系 减数分裂与受精作用 基因在染色体上 证据:果蝇杂交(白眼) 伴性遗传:色盲与抗V D 佝偻病 现代解释:遗传因子为一对同源染色体上的一对等位基因 一、减数分裂 1.进行有性生殖的生物在产生成熟生殖细胞时,进行的染色体数目减半的细胞分裂。在减数分裂过程中,染色体只复制一次,而细胞分裂两次。减数分裂的结果是,成熟生殖细胞中的染色体数目比原始生殖细胞的减少一半。 2.过程 染色体 同源染色体联会成 着丝点分裂 精原 复制 初级四分体(交叉互换)次级 单体分开 精 变形 精 细胞 精母 精母 细胞 子

生物信息学现状与展望

研究生课程考试卷 学号、姓名: j20112001 苗天锦 年级、专业:2011生物化学与分子生物学 培养层次:硕士 课程名称:生物信息学 授课学时学分: 32学时 2学分 考试成绩: 授课或主讲教师签字:

生物信息学现状与展望 摘要:生物信息学是一门新兴学科,起步于20世纪90年代,至今已进入"后基因组时代",本文对生物信息学的产生背景及其研究现状等方面进行了综述,并展望生物信息学的发展前景。生物信息学的发展在国内、外基本上都处在起步阶段。 关键词:生物信息学;生物信息学背景;发展前景 一、生物信息学概述 1.生物信息学发展历史 随着生物科学技术的迅猛发展,生物信息数据资源的增长呈现爆炸之势,同时计算机运算能力的提高和国际互联网络的发展使得对大规模数据的贮存、处理和传输成为可能,为了快捷方便地对已知生物学信息进行科学的组织、有效的管理和进一步分析利用,一门由生命科学和信息科学等多学科相结合特别是由分子生物学与计算机信息处理技术紧密结合而形成的交叉学科——生物信息学(Bioinformatics)应运而生,并大大推动了相关研究的开展, 被誉为“解读生命天书的慧眼”【1】。 研究生物细胞的生物大分子的结构与功能很早就已经开始,1866年孟德尔从实验上提出了假设:基因是以生物成分存在。1944年Chargaff发现了著名的Chargaff规律,即DNA中鸟嘌呤的量与胞嘧定的量总是相等,腺嘌呤与胸腺嘧啶的量相等。与此同时,Wilkins与Franklin用X射线衍射技术测定了DNA纤维的结构。1953年James Watson 和FrancisCrick在Nature杂志上推测出DNA 的三维结构(双螺旋)。Kornberg于1956年从大肠杆菌(E.coli)中分离出DNA 聚合酶I(DNA polymerase I),能使4种dNTP连接成DNA。Meselson与Stahl (1958)用实验方法证明了DNA复制是一种半保留复制。Crick于1954年提出了遗传信息传递的规律,DNA是合成RNA的模板,RNA又是合成蛋白质的模板,称之为中心法则(Central dogma),这一中心法则对以后分子生物学和生物信息学的发展都起到了极其重要的指导作用。经过Nirenberg和Matthai(1963)的努力研究,编码20氨基酸的遗传密码得到了破译。限制性内切酶的发现和重组DNA的克隆(clone)奠定了基因工程的技术基础【2】。自1990年美国启动人类基因组计划以来,人与模式生物基因组的测序工作进展极为迅速。迄今已完成了约40多种生物的全基因组测序工作,人基因组约3x109碱基对的测序工作也接近完成。至2000年6月26日,被誉为生命“阿波罗计划”的人类基因组计划终于完成了工作草图,预示着完成人类基因组计划已经指日可待。生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿。 2.生物信息学研究方向 2.1 序列比对

生物信息学考试试卷修订稿

生物信息学考试试卷 WEIHUA system office room 【WEIHUA 16H-WEIHUA WEIHUA8Q8-

一、名词解释(每小题4分,共20分) 1、生物信息学 广义:生命科学中的信息科学。生物体系和过程中信息的存贮、传递和表达;细胞、组织、器官的生理、病理、药理过程的中各种生物信息。 狭义:生物分子信息的获取、存贮、分析和利用。 2、人类基因组计划 人类基因组计划准备用15年时间,投入30亿美元,完成人类全部24条染色体的3×109脱氧核苷酸对(bp)的序列测定,主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别。其中还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序,以及信息系统的建立。作图和测序是基本的任务,在此基础上解读和破译生物体生老病死以及和疾病相关的遗传信息。 3、蛋白质的一级结构 蛋白质的一级结构是指多肽链中氨基酸的序列 4、基因 基因--有遗传效应的DNA片断,是控制生物性状的基本遗传单位。 5、中心法则 是指遗传信息从传递给,再从RNA传递给,即完成遗传信息的转录和翻译的过程。也可以从DNA传递给DNA,即完成DNA的复制过程。这是所有有细胞结构的生物所遵循的法则。 6 、DNA序列比较 序列比较的根本任务是:(1)发现序列之间的相似性;(2)辨别序列之间的差异 目的: 相似序列相似的结构,相似的功能 判别序列之间的同源性 推测序列之间的进化关系 7、一级数据库 数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释 8、基因识别 基因识别,是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因,也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。 9、系统发生学 系统发生学(phylogenetics)——研究物种之间的进化关系。 10、基因芯片 基因芯片(gene chip),又称DNA微阵列(microarray),是由大量cDNA或寡核苷酸探针密集排列所形成的探针阵列,其工作的基本原理是通过杂交检测信息。

生物信息学复习资料

第一章 1.生物信息学:用数学的、统计的、计算的方法来解决生物问题,这基于用DNA、氨基酸及相关信息。即生物+信息学,其中生物是指从基因型到表型:DNA/基因组→RNA→蛋白质→分子网络→细胞→生理学/疾病。信息学是指从数据到发现:数据管理→数据计算→数据挖掘→模型/模拟 2.人类基因组计划:①前基因组时代(1990年前):通过序列之间的对比,寻找序列变化,确定序列功能。②基因组时代(1990年后~2001年)迅猛发展:标志性的工作包括基因寻找和识别,数据库系统的建立。③后基因组时代(2001年至今)功能基因组研究:研究内容发展到基因和基因组的功能分析,即功能基因组,学研究。从传统的还原论研究生命过程转到了整体论思想。 2001年,中美日德法英6国科学家耗费十年,联合公布人类基因组草图 3.基因芯片:又称DNA芯片,由大量DNA或寡聚核苷酸探针密集排列形成的探针阵列。原理:杂交测序方法,在一定条件下,载体上的核酸分子可以与来自样品的序列互补的核酸片段杂交,如果把样品中的核酸片段进行标记,在专用的芯片阅读仪上就可以检测到杂交信号。药物处理细胞总mRNA用Cy5标记,未处理的细胞总mRNA用Cy3标记,颜色?将两者杂交形成固相探针,包含cDNA和寡核苷酸,最后进行结果观察和信息分析。 、EMBL、DDBJ 5.数据挖掘:①理解数据和数据的来源②获取相关知识与技术③整合与检查数据④去除错误或不一致的数据⑤建立模型和假设⑥实际数据挖掘工作⑦测试和验证挖掘结果⑧解释和应用。数据挖掘中的常见算法思想:判断、聚类、关联。数据挖掘模型:①监督模型、预测模型②无监督模型:聚类分析和关联分析②数据降维:主成分分析和因子分析。 第二章: 1.Sanger法:①1977年,提出了“双脱氧核苷酸末端终止测序方法”②技术基础:PCR扩增;双脱氧核苷酸的扩增终止;电泳分离扩增片段③优点1.读取片段长 2.准确率高99.9% 缺点:1.测序通量低2.成本高、流程多④方法、原理:每个反应含有所以四种dNTP使之扩增,并混入限量的一种不同的ddNTP使之终止,由于ddNTP缺乏延伸所需要的3’-OH基团,使延长的寡聚核苷酸选择性地在G,A,T或 C 处终止,终止点由反应中相应的双脱氧而定,每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可以X-光胶片放射性自显影或非同位素标记进行检测 2. 第2代测序技术(2005)①特点:1.PCR反应空间限定在特定的微小载体中。降低成本,实现高通量2.边合成边测序以及平行测序②第一代测序就出现了自动化测序③Solexa步骤:(1)制备模板,单链片断固定到载片表面(2)DNA簇群生成(3)循环合成反应+荧光成像④技术基础:基于芯片或其他载体、3’受保护的荧光标记碱基、PCR ⑤优点:高通量、没有电泳的步骤,成本降低缺点:读取片段长度短、准确率下降 3.Read contig Scaffold ①Read:测序读到的碱基序列片段,测序的最小单位②contig:由reads通过对overlap区域拼接组装成的没有gap的序列段③Scaffold:通过pair ends信息确定出的contig排列,中间有gap 4.测序的应用:①遗传多样性分析②甲基化分析③研究与蛋白质结合的DNA序列特征④转录组测序 5. 转录组测序(RNA Seq):①定义:把mRNA, non-codingRNA(ncRNA) 和smallRNA全部或者其中一些用高通量测序技术进行测序分析的技术②ncRNA主要包括有:tRNA、rRNA、snRNA、核仁小分子RNA(snoRNA)、细胞质小分子RNA(scRNA)、不均一核RNA(hnRNA)、小RNA(microRNA, miRNA) ③方法:获得cell总RNA,然后根据实验需要,对RNA样品进行处理,处理好的RNA再进行片段化,然后反转录形成cRNA,获得cDNA文库,然后在cDNA片段接上接头,最后用新一代高通量测序进行测序④作用:(1)通过RNA-seq来分析基因表达量(2)通过RNA-seq分析基因表达网

网上生物信息学教程

网上生物信息学教程EMBL biocomputing tutorials https://www.360docs.net/doc/0d10588563.html,/Embnetut/Gcg/index.html Plant genome dababase tutorial https://www.360docs.net/doc/0d10588563.html,/pgdic 生物信息学机 NCBI https://www.360docs.net/doc/0d10588563.html,/ International Nucleotide Sequence Database Collaboration. https://www.360docs.net/doc/0d10588563.html,/collab/ EBI https://www.360docs.net/doc/0d10588563.html,/ USDA https://www.360docs.net/doc/0d10588563.html,/ Sanger Centre https://www.360docs.net/doc/0d10588563.html,/ 北京大学生物信息学中心 https://www.360docs.net/doc/0d10588563.html, 数据库信息发布及其它 GenBank Release Notes ftp://https://www.360docs.net/doc/0d10588563.html,/genbank/gbrel.txt dbEST summary report https://www.360docs.net/doc/0d10588563.html,/dbEST/dbESTsummarv.html EMBL release notes http://www.bio.unizh.ch/db/docu.html?data=emrel Eukaryotic promoter database release notes http://www.genome.ad.jp/dbget/dbget2.html KEGG release notes http://www.genome.jp/kegg/docs/relnote.html 核苷酸数据库 GenBank https://www.360docs.net/doc/0d10588563.html,/ dbEST https://www.360docs.net/doc/0d10588563.html,/dbEST/index.html dbSTS https://www.360docs.net/doc/0d10588563.html,/dbSTS/index.html dbGSS https://www.360docs.net/doc/0d10588563.html,/dbGSS/index.html

高中生物必修一知识点笔记大全

高中生物必修一知识点笔记大全 第1章 走近细胞 一、从生物圈到细胞 判一判 病毒属于生命系统吗?是生物吗? 提示 最基本的生命系统是细胞,病毒无细胞 结构不能独立生存,故不属于生命系统; 但能进行新陈代谢,能繁殖产生后代,故是生物。 提醒 并非所有生物都具有生命系统的各个层次,如植物没有系统这一层次;单细胞生 物没有组织、器官、系统这三个层次。 二、细胞的多样性和统一性 1.原核细胞和真核细胞 (1)差异性:最根本的区别是原核细胞没有 以核膜为界限的细胞核 。 (2)统一性:两者都具有 细胞膜、细胞质和与遗传有关的DNA 分子 细胞器是核糖体。 ①.正确识别带有菌字的生物:凡是“菌”字前面有“杆”字、“球”字、“螺旋”及“弧”字的都是细菌,如破伤风杆菌、葡萄球菌、霍乱弧菌等都是细菌。乳酸菌是一个特例,它本属杆菌但往往把“杆”字省略。青霉菌、酵母菌、曲霉菌及根霉菌等属于真菌,是真核生物。 ②.带藻字的生物中,蓝藻(如蓝球藻、念珠藻、颤藻等)属于原核生物,单细胞绿藻(如衣藻、小球藻)属于真核生物。 1.生命活 动离不 开细胞 (1)病毒由蛋白质和核酸组成,没有细胞结构,只有依赖活细胞 才能进行正常的生命活 动 (2)单细胞生物依赖 单个细胞完成各种生命活动 (3)多细胞生物依赖各种分化的细胞密切合作,共同完成复杂的生命活动 (4)连接亲子代的桥梁是精子和卵细胞;受精的场所是输卵管;发育的场所是子宫; 2.生命系 统的结 构层次 (1)生命系统的结构层次由小到大依次是:细胞、组织、器官 、系统、个体 、种群、群落、生态系统和生物圈 (2)地球上最基本的生命系统是细胞。分子、原子、化合物不属于生命系统 (3)生命系统各层次之间层层相依,又各自有特定的 组成 、结构和 功能 (4)生命系统包括生态系统,所以应包括其中的无机环境 =念蓝发颤)

国内外生物信息学发展状况

国内外生物信息学发展状况 1.国外生物信息发展状况 国外非常重视生物信息学的发展各种专业研究机构和公司如雨后春笋般涌现出来,生物科技公司和制药工业内部的生物 信息学部门的数量也与日俱增。美国早在1988年在国会的支持 下就成立了国家生物技术信息中心(NCBI),其目的是进行计 算分子生物学的基础研究,构建和散布分子生物学数据库;欧 洲于1993年3月就着手建立欧洲生物信息学研究所(EBI), 日本也于1995年4月组建了信息生物学中心(CIB)。目前, 绝大部分的核酸和蛋白质数据库由美国、欧洲和日本的3家数 据库系统产生,他们共同组成了 DDBJ/EMBL/Gen Bank国际核 酸序列数据库,每天交换数据,同步更新。以西欧各国为主的 欧洲分子生物学网络组织(EuropeanMolecular Biology Network, EMB Net)是目前国际最大的分子生物信息研究、开 发和服务机构,通过计算机网络使英、德法、瑞士等国生物信 息资源实现共享。在共享网络资源的同时,他们又分别建有自 己的生物信息学机构、二级或更高级的具有各自特色的专业数 据库以及自己的分析技术,服务于本国生物(医学)研究和开 发,有些服务也开放于全世界。 从专业出版业来看,1970年,出现了《Computer Methods and Programs in Biomedicine》这本期刊;到1985年4月, 就有了第一种生物信息学专业期刊《Computer Application

in the Biosciences》。现在,我们可以看到的专业期刊已经很多了。 2 国内生物信息学发展状况 我国生物信息学研究近年来发展较快,相继成立了北京大学生物信息学中心、华大基因组信息学研究中心、中国科学院上海生命科学院生物信息中心,部分高校已经或准备开设生物信息学专业。2002年国家自然科学基金委在生物化学、生物物理学与生物医学工程学学科设立了生物信息学项目,并列入生命科学部优先资助的研究项目。国家 863计划特别设立了生物信息技术主题,从国家需求的层面上推动我国生物信息技术的大力发展[3]。 但是由于起步较晚及诸多原因,我国的生物信息学发展水平远远落后于国外。在PubMed收录的以关键词“Bioinformatics”检索到的历年发表的文章数,可以看出大量的研究文献出现在21世纪以后。其中我国共有138篇占全部5548篇的2.5%,而美国则发表2160篇占全部的39%之多(统计数据截至2004年2月15日)。我国学者在生物信息学领域发表的有高影响力的论文只有不到美国学者发表数量的6%,差距相当大[4]。在生物信息学领域,一些著名院士和教授在各自领域取得了一定成绩,显露出蓬勃发展的势头,有的在国际上还占有一席之地。如北京大学的罗静初和顾孝诚教授在生物信息学网站建设方面、中科院生物物理所的陈润生研究员在EST

生物信息学复习

一、名词解释(31个) 1.生物信息学:广义:应用信息科学的方法和技术,研究生物体系和生物过程中信 息的存贮、信息的内涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学。狭义:应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。 2.二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验 数据和理论分析的基础上针对特定的应用目标而建立的。 3.多序列比对:研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的 功能区域,也可用于研究一组蛋白质之间的进化关系。 4.系统发育分析:是研究物种进化和系统分类的一种方法,其常用一种类似树状分支 的图形来概括各种(类)生物之间的亲缘关系,这种树状分支的图形称为系统发育树。 5.直系同源:如果由于进化压力来维持特定模体的话,模体中的组成蛋白应该是进化 保守的并且在其他物种中具有直系同源性。 指的是不同物种之间的同源性,例如蛋白质的同源性,DNA序列的同源性。(来自百度) 6.旁系(并系)同源:是那些在一定物种中的来源于基因复制的蛋白,可能会进化出 新的与原来有关的功能。用来描述在同一物种内由于基因复制而分离的同源基因。 (来自百度) 7.FASTA序列格式:将一个DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或 氨基酸字符串。 8.开放阅读框(ORF):是结构基因的正常核苷酸序列,从起始密码子到终止密码子 的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。(来自百度)9.结构域:大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区域,折 叠得较为紧密,各行其功能,称为结构域。 10.空位罚分:序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空位并进 行罚分,以控制空位插入的合理性。(来自百度) 11.表达序列标签:通过从cDNA文库中随机挑选的克隆进行测序所获得的部分cDNA的 3’或5’端序列。(来自文献) 12.Gene Ontology 协会: 13.HMM 隐马尔可夫模型:将核苷酸序列看成一个随机序列,DNA序列的编码部分与非 编码部分在核苷酸的选用频率上对应着不同的Markov模型。 14.一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类 整理和注释 15.序列一致性:指同源DNA顺序的同一碱基位置的相同的碱基成员, 或者蛋白质的同 一氨基酸位置的相同的氨基酸成员, 可用百分比表示。 16.序列相似性:指同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所占的比 例。 17.Blastn:是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查 序列作一对一地核酸序列比对。(来自百度) 18.Blastp:是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同 每条所查序列作一对一的序列比对。(来自百度)

生物信息学期末考试重点

1、生物信息学(Bioinformatics)是研究生物信息的采集、处理、存储、传播,分析和解 释等各方面的学科,也是随着生命科学和计算机科学的迅猛发展,生命科学和计 算机科学相结合形成的一门新学科。它通过综合利用生物学,计算机科学和信息技 术而揭示大量而复杂的生物数据所赋有的生物学奥秘。 2、数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,它产生于 距今六十多年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后, 数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方 式。数据库有很多种类型,从最简单的存储有各种数据的表格到能够进行海量数 据存储的大型数据库系统都在各个方面得到了广泛的应用。 3、表达序列标签从一个随机选择的cDNA 克隆进行5’端和3’端单一次测序获得的短 的cDNA 部分序列,代表一个完整基因的一小部分,在数据库中其长度一般从20 到7000bp 不等,平均长度为360 ±120bp。EST 来源于一定环境下一个组织总 mRNA 所构建的cDNA 文库,因此EST也能说明该组织中各基因的表达水平。 4、开放阅读框是基因序列中的一段无终止序列打断的碱基序列,可编码相应的蛋白。 ORF识别包括检测六个阅读框架并决定哪一个包含以启动子和终止子为界限的 DNA序列而其内部不包含启动子或终止子,符合这些条件的序列有可能对应一个 真正的单一的基因产物。ORF的识别是证明一个新的DNA序列为特定的蛋白质编 码基因的部分或全部的先决条件。 5、蛋白质的一级结构在每种蛋白质中氨基酸按照一定的数目和组成进行排列,并进 一步折叠成特定的空间结构前者我们称为蛋白质的一级结构,也叫初级结构或基 本结构。蛋白质一级结构是理解蛋白质结构、作用机制以及与其同源蛋白质生理 功能的必要基础。 6、基因识别是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别 DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因, 也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。基因识别是基 因组研究的基础。

最新生物信息学考试复习

——古A.名词解释 1. 生物信息学:广义是指从事对基因组研究相关的生物信息的获取,加工,储存,分配,分析和解释。狭义是指综合应用信息科学,数学理论,方法和技术,管理、分析和利用生物分子数据的科学。 2. 基因芯片:将大量已知或未知序列的DNA片段点在固相载体上,通过物理吸附达到固定化(cDNA芯片),也可以在固相表面直接化学合成,得到寡聚核苷酸芯片。再将待研究的样品与芯片杂交,经过计算机扫描和数据处理,进行定性定量的分析。可以反映大量基因在不同组织或同一组织不同发育时期或不同生理条件下的表达调控情况。 3. NCBI:National Center for Biotechnology Information.是隶属于美国国立医学图书馆(NLM)的综合性数据库,提供生物信息学方面的研究和服务。 4. EMBL:European Molecular Biology Laboratory.EBI为其一部分,是综合性数据库,提供生物信息学方面的研究和服务。 5. 简并引物:PCR引物的某一碱基位置有多种可能的多种引物的混合体。 6. 序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。

7. BLAST:Basic Local Alignment Search Tool.是通过比对(alignment)在数据库中寻找和查询序列(query)相似度很高的序列的工具。 8. ORF:Open Reading Frame.由起始密码子开始,到终止密码子结束可以翻译成蛋白质的核酸序列,一个未知的基因,理论上具有6个ORF。 9. 启动子:是RNA聚合酶识别、结合并开始转录所必须的一段DNA序列。原核生物启动子由上游调控元件和核心启动子组成,核心启动子包括-35区(Sextama box)TTGACA,-10区(Pribnow Box)TATAAT,以及+1区。真核生物启动子包括远上游序列和启动子基本元件构成,启动子基本元件包括启动子上游元件(GC岛,CAAT盒),核心启动子(TATA Box,+1区帽子位点)组成。 10. motif:模体,基序,是序列中局部的保守区域,或者是一组序列中共有的一小段序列模式。 11. 分子进化树:通过比较生物大分子序列的差异的数值重建的进化树。 12. 相似性:序列比对过程中用来描述检测序列和目标序列之间相似DNA碱基或氨基酸残基序列所占的比例。 13. 同源性:两个基因或蛋白质序列具有共同祖先的结论。

相关文档
最新文档