生物信息学课程设计

生物信息学课程设计
生物信息学课程设计

生物信息学课程设计报告

题目:用blast、clustalx2和mega来分析鼠伤寒沙门氏菌的四环素抗性基因

专业:生物技术

班级:11-2

学号:11114040235

姓名:邹炜球

指导教师:马超

广东石油化工学院生物工程系

2013年 12 月 21 日

摘要

生物信息学(Bioinformatics)是研究生物信息的采集,处理,存储,传播,分析和解释等各方面的一门学科,它通过综合利用生物学,计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。本课程设计主要通过分析鼠伤寒沙门氏菌的四环素抗性基因来介绍生物信息学里面常用的数据库NCBI和一些常用的软件(如blast、clustalx2、Primer Premier 5和mega),由于生物信息学这一门课在生物研究领域所起到的作用非常大,所以熟练一些常用的生物信息学软件和数据库是非常有必要的。

关键词:NCBI、blast、clustalx2、Primer Premier 、mega、生物信息学、序列比对、系统发育树

目录

1绪论 (4)

1.1生物信息学的发展概况 (4)

1.2生物信息学的发展展望 (4)

2 课题设计内容 (5)

2.1以某一基因或蛋白为研究对象搜索一条序列(DNA长度为300-1500bp,蛋白质序列

为100-500)及相关信息,并分别表示出他的GENBANK和FASTA格式 (6)

2.2以设计内容1为目标序列进行BLAST分析 (7)

2.3通过BLAST或相关软件下载8条基因或蛋白质序列 (9)

2.4以8条基因序列进行多序列比对 (10)

2.5依照设计内容4构建系统发育树 (10)

2.6以其中一条基因序列设计一条长度为200-500bp的一对引物 (12)

参考文献 (16)

1.绪论

2001年2月,人类基因组工程测序的完成,使生物信息学走向了一个高潮。由于DNA

自动测序技术的快速发展,DNA数据库中的核酸序列公共数据量以每天106bp速度增长,

生物信息迅速地膨胀成数据的海洋。毫无疑问,我们正从一个积累数据向解释数据的时代转变,数据量的巨大积累往往蕴含着潜在突破性发现的可能,"生物信息学"正是从这一前提产生的交叉学科。粗略地说,该领域的核心内容是研究如何通过对DNA序列的统计计算分析,更加深入地理解DNA序列,结构,演化及其与生物功能之间的关系,其研究课题涉及到分

子生物学,分子演化及结构生物学,统计学及计算机科学等许多领域。生物信息学是内涵非

常丰富的学科,其核心是基因组信息学,包括基因组信息的获取,处理,存储,分配和解释。基因组信息学的关键是"读懂"基因组的核苷酸顺序,即全部基因在染色体上的确切位置以及各DNA片段的功能;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测,然后

依据特定蛋白质的功能进行药物设计。了解基因表达的调控机理也是生物信息学的重要内容,根据生物分子在基因调控中的作用,描述人类疾病的诊断,治疗内在规律。它的研究目标是揭示"基因组信息结构的复杂性及遗传语言的根本规律",解释生命的遗传语言。生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿。

1.1生物信息学的重要研究课题

1. 大规模基因组测序中的信息分析

2. 新基因和新SNP的发现与鉴定

3.非编码区信息结构分析

4.遗传密码的起源和生物进化

5.完整基因组的比较研究

6.大规模基因功能表达谱的分析

7.生物大分子的结构模拟与药物设计

8.生物信息学分析方法的研究

9.建立国家生物医学数据库与服务系统

10.应用与发展研究

1.2生物信息学的发展展望

作为计算机科学和数学应用于分子生物学而形成的交叉学科,生物信息学已经成为基因组研究中强有力的必不可少的研究手段。在我国,生物信息学随着人类基因组研究的展开才刚刚起步,但已显露出蓬勃发展的势头。许多科研单位已经开始或准备开始从事这方面的研究工作。北京大学研究建立起一个EMBL的镜像数据库,并提供数据检索服务。在复旦大学遗传学研究所,为克隆新基因而建立的一整套生物信息系统也已初具规模。中科院上海生化所、生物物理等在结构生物学和基因预测研究方面也有相当的基础,中科院计算所作为我国计算机科学的顶尖机构,利用自身优势,也开始在生物信息方面投入大量的人力物力,从事相关的研究。

生物信息学作为基因组研究的有力武器,被广泛地用来加快新基因的寻找过程,以达到将"有用"新基因抢先注册专利的目的。在这场世界范围内的竞争中,中国科学家以及科研资金投向的决策部门如何结合我国科研水平的现状、优势领域等客观情况将有限的投资投入以求获得最大可能的科学研究以及商业回报,是一个无法回避的新课题。

2.课题设计内容

2.1以某一基因或蛋白为研究对象搜索一条序列(DNA长度为300-1500bp,

蛋白质序列为100-500)及相关信息,并分别表示出他的GENBANK和FASTA格式。

打开https://www.360docs.net/doc/1d3794046.html,/按下图输入关键词搜索

Genbank:

LOCUS Y19118 1141 bp DNA linear BCT

06-JAN-2001

DEFINITION Salmonella typhimurium partial tetG gene for tetracycline resistance protein.

ACCESSION Y19118

VERSION Y19118.1 GI:12054722

KEYWORDS tetB gene; tetracycline resistance.

SOURCE Salmonella enterica subsp. enterica serovar Typhimurium (Salmonella

typhimurium)

ORGANISM Salmonella enterica subsp. enterica serovar Typhimurium

Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales;

Enterobacteriaceae; Salmonella.

REFERENCE 1

AUTHORS Frech,G. and Schwarz,S.

JOURNAL Unpublished

REFERENCE 2 (bases 1 to 1141)

AUTHORS Schwarz,S.P.

TITLE Direct Submission

JOURNAL Submitted (18-JUN-1999) S.P. Schwarz, Inst. fuer Tierzucht und Tierverhalten, FAL, Doernbergstr. 25-27, 29223 Celle, GERMANY

FEATURES Location/Qualifiers

source 1..1141

/organism="Salmonella enterica subsp. enterica serovar Typhimurium"

/mol_type="genomic DNA"

/strain="ST425"

/db_xref="taxon:90371"

gene <1..>1141

/gene="tetG"

CDS <1..>1141

/gene="tetG"

/note="efflux protein of hybridization class G"

/codon_start=1

/transl_table=11

/product="tetracycline resistance"

/protein_id="CAC21193.1"

/db_xref="GI:12054723"

/db_xref="GOA:Q9EVV5"

/db_xref="InterPro:IPR001958"

/db_xref="InterPro:IPR005829"

/db_xref="InterPro:IPR011701"

/db_xref="InterPro:IPR016196"

/db_xref="InterPro:IPR020846"

/db_xref="UniProtKB/TrEMBL:Q9EVV5"

/translation="LLIVGLDAMGLGLIMPVLPTLLRELVPAEQVAGHYGALLSLYAL MQVVFAPMLGQLSDSYGRRPVLLASLAGAAVDYTIMASAPVLWVLYIGRLVSGVTGAT GAVAASTIADSTGEGSRARWFGYMGACYGARMIAGPALCGMLGGISAHAPFIAAALLN GFAFLLACIFLKETHHSHGGTRKPVRIKPFVLLRLDDALRGLGALFAVFFIIQLIGQV PAALWVIYGEDRFQWNTATVGLSLAAFGATHGIFQAFVTGPLSSRLGERRTLLFGMAA YGTGFVLLAFATQGWMVFPILLLLAAGGVGMPALQAMLSNNVSSNKQGALQGTLTSLT NLSSIAGPLGFTALYSATAGAWNGWVWIVGAILYLICLPILRRPFA"

ORIGIN

1 ctgctgatcg tgggtcttga cgccatgggt ctcggcctca tcatgcccgt ccttccgacg

61 cttctgcgtg agcttgtgcc agcagagcag gtcgctggac actatggtgc cttgctgtcg

121 ctctatgcat tgatgcaggt cgtcttcgcg cccatgcttg gacagctttc ggattcttac

181 ggtcggcgtc cggtacttct ggcttctctt gcaggagccg cagtcgatta cacgattatg

241 gcatcagcgc cggtcttatg ggtgctctat atcggccgac tcgtgtccgg cgtcacgggc

301 gcaaccggag ctgtagcagc ctcaaccatt gccgattcga cgggggaagg ttctcgcgca

361 cgctggttcg gctacatggg ggcctgttat ggggcgcgca tgattgccgg gccagcactt

421 tgtggcatgc tcggtggtat ctctgctcat gccccgttta tcgccgccgc ccttctcaac

481 gggttcgcgt tcctgcttgc ctgcattttc ctcaaggaga ctcatcacag ccatggcggg

541 acccgaaagc cggttcgcat caaaccattc gttctgttac ggctggatga tgcattgcgc

601 gggctaggtg cgcttttcgc agttttcttc attattcaac tgatcggcca agtgcctgca

661 gccctatggg tcatatatgg cgaggaccgt tttcagtgga acaccgcgac cgttggtttg 721 tcgctcgcgg cgtttggggc aacacatggg atcttccaag cgtttgttac cggcccgctt 781 tcaagccggc ttggagagcg gcgcacgctg ctgtttggca tggctgcgta tggcactggc 841 ttcgttcttc tggcttttgc cacgcaggga tggatggtgt tcccgattct gttgctgctt 901 gccgccgggg gtgttggcat gccggccttg caggcaatgc tctcaaacaa tgtcagcagt 961 aacaagcaag gggctttgca aggaacgcta acgagcctca ccaatctaag ctctatcgca 1021 ggaccgcttg gcttcacagc actctattct gccaccgccg gggcatggaa cggttgggtt 1081 tggattgtcg gcgcgatcct ctatttaata tgtctgccaa tactacgcag accattcgca 1141 a

Fasta格式:

>gi|12054722|emb|Y19118.1| Salmonella typhimurium partial tetG gene for tetracycline resistance protein CTGCTGATCGTGGGTCTTGACGCCATGGGTCTCGGCCTCATCATGCCCGTCCTTCCGACGCTTCTGCGTG AGCTTGTGCCAGCAGAGCAGGTCGCTGGACACTATGGTGCCTTGCTGTCGCTCTATGCATTGATGCAGGT CGTCTTCGCGCCCATGCTTGGACAGCTTTCGGATTCTTACGGTCGGCGTCCGGTACTTCTGGCTTCTCTT GCAGGAGCCGCAGTCGATTACACGATTATGGCATCAGCGCCGGTCTTATGGGTGCTCTATATCGGCCGAC TCGTGTCCGGCGTCACGGGCGCAACCGGAGCTGTAGCAGCCTCAACCATTGCCGATTCGACGGGGGAAGG TTCTCGCGCACGCTGGTTCGGCTACATGGGGGCCTGTTATGGGGCGCGCATGATTGCCGGGCCAGCACTT TGTGGCATGCTCGGTGGTATCTCTGCTCATGCCCCGTTTATCGCCGCCGCCCTTCTCAACGGGTTCGCGT TCCTGCTTGCCTGCATTTTCCTCAAGGAGACTCATCACAGCCATGGCGGGACCCGAAAGCCGGTTCGCAT CAAACCATTCGTTCTGTTACGGCTGGATGATGCATTGCGCGGGCTAGGTGCGCTTTTCGCAGTTTTCTTC ATTATTCAACTGATCGGCCAAGTGCCTGCAGCCCTATGGGTCATATATGGCGAGGACCGTTTTCAGTGGA ACACCGCGACCGTTGGTTTGTCGCTCGCGGCGTTTGGGGCAACACATGGGATCTTCCAAGCGTTTGTTAC CGGCCCGCTTTCAAGCCGGCTTGGAGAGCGGCGCACGCTGCTGTTTGGCATGGCTGCGTATGGCACTGGC TTCGTTCTTCTGGCTTTTGCCACGCAGGGATGGATGGTGTTCCCGATTCTGTTGCTGCTTGCCGCCGGGG GTGTTGGCATGCCGGCCTTGCAGGCAATGCTCTCAAACAATGTCAGCAGTAACAAGCAAGGGGCTTTGCA AGGAACGCTAACGAGCCTCACCAATCTAAGCTCTATCGCAGGACCGCTTGGCTTCACAGCACTCTATTCT GCCACCGCCGGGGCATGGAACGGTTGGGTTTGGATTGTCGGCGCGATCCTCTATTTAATATGTCTGCCAA TACTACGCAGACCATTCGCAA

相关信息:由GENBANK可以看出这是一条由1141个碱基构成的基因序列,这序列来自于鼠伤寒沙门氏菌的四环素抗性基因。

2.2 以设计内容2.1为目标序列进行BLAST分析

在原网页右边找到blast按钮,如下图:

2.3 通过BLAST或相关软件下载8条基因或蛋白质序列

在blast分析结果页面下面选取8条相关序列,如图:

序列如下:

>s1 gi|4633510|gb|AF119247.1| Salmonella typhimurium DT104 tetracycline resistance protein TetG

(tetG)gene,partial cds TTCTGGCTTCTCTTGCAGGAGCCGCAGTCGATTACACGATTATGGCATCAGCGCCGGTCTTATGGGTGCT CTATATCGGCCGACTCGTGTCCGGCGTCACGGGCGCAACCGGAGCTGTAGCAGCCTCAACCATTGCCGAT TCGACGGGGGAAGGTTCTCGCGCACGCTGGTTCGGCTACATGGGGGCCTGTTATGGGGCGGGCATGATTG CCGGGCCAGCACTTGGTGGCATGCTCGGTGGTATCTCTGCTCATGCCCCGTTTATCGCCGCCGCCCTTCT CAACGGGTTCGCGTTCCTGCTTGCCTGCATTTTCCTCAAGGAGACTCATCACAGCCATGGCGGGACCGGA AAGCCGGTTCGCATCAAACCATTCGTTCTGTTACGGCTGGATGATGCATTGCGCGGGCTAGGTGCGCTTT TCGCAGTTTTCTTCATTATTCAACTGATCGGCCAAGTGCCTGCAGCCCTATGGGTCATATATGGCGAGGA CCGTTTTCAGTGGAACACCGCGACCGTTGGTTTGTCGCTCGCGGCGTTTGGGGCAACACATGCGATCTTC CAAGCGTTTGTTACCGGCCCGCTTTCAAGCCGGCTTGGAGAGCGGCGCACGCTGCTGTTTGGCATGGCTG CGGATGCGACTGGCTTCGTTCTTCTGGCTTTTGCCACGCAGGGATGGATGGTGTTCCCGATTCTGTTGCT GCTTGCCGCCGGGGGTGTTGGCATGCCGGCCTTGCAGGCAATGCTCTCAAACAATGTCAGCA

>s2 gi|12054720|emb|Y19117.1| Salmonella typhimurium partial tetG gene for tetracycline resistance protein GCTCGGTGGTATCTCTGCTCATGCCCCGTTTATCGCCGCCGCCCTTCTCAACGGGTTCGCGTTCCTGCTT GCCTGCATTTTCCTCAAGGAGACTCATCACAGCCATGGCGGGACCGGAAAGCCGGTTCGCATCAAACCAT TCGTTCTGTTACGGCTGGATGATGCATTGCGCGGGCTAGGTGCGCTTTTCGCAGTTTTCTTCATTATTCA ACTGATCGGCCAAGTGCCTGCAGCCCTATGGGTCATATATGGCGAGGACCGTTTTCAGTGGAACACCGCG ACCGTTGGTTTGTCGCTCGCGGCGTTTGGGGCAACACATGCGATCTTCCAAGCGTTTGTTACCGGCCCGC TTTCAAGCCGGCTTGGAGAGCGGCGCACGCTGCTGTTTGGCATGGCTGCGGATGCGACTGGCTTCGTTCT TCTGGCTTTTGCCACGCAGGGATGGATGGTGTTCCCGATTCTGTTGCT

>s3 gi|27543329|gb|AY171580.1| Uncultured bacterium clone BC-G-2 putative tetracycline resistance protein (tetG) gene, partial cds GTCGATTACACGATTATGGCATCAGCGCCGGTCTTATGGGTGCTCTATATCGGCCGGCTCGTCTCCGGCA TCACGGGCGCAACCGGAGCTGTAGCTGCCTCAACCATTGCGGATTCGACGGGGGAAGGTTCTCGCGCACG CTGGTTCGGCCACATGGGGGCCTGTTATGGGGCAGGCATGATTGCCGGGCCAGCACTTGGTGGTATGCTC GGTGGTATTTCTGCCCATGCTCCGTTTATCGCCGCTGCCCTTCTCAACGGCTTCGCGTTCCTGCTAGCCT GCATTTTCCTCAGGGAGACTCGTCGCGGCGATGGCGAGACCGGAAAGCCGGTTCGCATCAAACCATTCGT TCTGTTCCGGCTGGATGATGCATTGCGCGGGCTAGTGGCCCTTTTCGCAGTTTTCTTCATTATTCAACTG

ATCGGCCAAGTG

>s4 gi|55833452|gb|AY816664.1| Uncultured bacterium clone Ad-C1-18 16S ribosomal RNA gene, partial sequence GCTGANGCTGCCTCACCATTGCCGATTCGACAGGGGAAGGGTCTCGCGCACGCTGGTTCGGCTACATGNG AGCCTGTTATGGGACAGGCATGATTGCCGGGCCAGCACTTGGTGGCATGCTCGGTGGNATTTCTGCTCAT GCTCCGNTTATCGCCGCTGCCCTTCTAAACGGCTTCGCGTTCCTGCTTGCCTGCATTTTTCTCANNGAGA CTAATNGCANCTATGGCGAGACCGNAAAACTGGTCCGCATCGAACCATTCGTTNTGTTCCNNGCTGGATG ATGCATTGCGTGGNCTGACTGCGCTTTTCGCCGTTTTCTTCATTATTCGACTGATCGGTCAACNGAAGGG GCCAATTCGTTTANACCTGCACGNCTAGTCCCTTT

>s5 gi|126506553|gb|EF427689.1| Salmonella enterica subsp. enterica serovar Emek TetR (tetR) and TetG (tetG) genes, partial cds AACACCCGCCAGTCCTCATTCTCTTCGGGTAGCGAGCGGGTATGGCGTTCCGCCAGCATCGCCTCGGCGA GCGCATCAAGCAGCGCTCGCTTGTTCTGGAAATGCCAGTAAAGCGCAGGCTGCTGAACCTTGAGGCGTTC AGCGAGCTTCCGCGTCGTCAGGCTGTCCATGCCAACCTCGTTCAACAGCTCTAGCGCCGCCGCGATCACG GTGCCCTTGTCCAGTTTGGTCATTCACGTTCCTTCGCCAGTGCTTGACAATTTATCACCGATAAGTTATA TGTCCATCTCCTTATCGTTGATAAAGTCGCTCCATTGAGCGGCGCTGGAGTTTCAGGTGCGCAGCTCTGC CATCATTGCCCTGCTGATCGTGGGTCTTGACGCCATGGGTCTCGGCCTCATCATGCCCGTCCTTCCGACG CTTCTGCGTGAGCTTGTGCCAGCAGAGCAGGTCGCTGGACACTATGGTGCCTTGCTGTCGCTCTATGCAT TGATGCAGGTCGTCTTCGCGCCCATGCTTGGACAGCT

>s6 gi|327195590|gb|HQ399605.1| Uncultured bacterium clone G24 tetracycline resistance protein class G (tetG) gene, partial cds CTCGGTGGTATCTCTGCTCATGCCCCGTTTATCGCCGCCGCCCTTCTCAACGGGTTCGCGTTCCTGCTTG CCTGCATTTTCCTCAAGGAGACTCATCACAGCCATGGCGGGACCGGAAAGCCGGTTCGCATCAAACCATT CGTTCTGTTACGGCTGGATGATGCATTGCGCGGGCTAGGTGCGCTTTTCGCAGTTTTCTTCATTATTCAA CTGATCGGCCAAGTGCCTGCAGCCCTATGGGTCATATATGGCGAGGACCGTTTTCAGTGGAACACCGCGA CCGTTGGTTTGTCGCTCGCGGCGTTTGGGGCAACACATGCGATCTTCCAAGCGTTTGTTACCGGCCCGCT TTCAAGCCGGCTTGGAGAGCGGCGCACGCTGCTGTTTGGCATGGCTGCGGATGCGACTGGCTTCGTTCTT CTGGCTTTTGCCACGCAGGGATGGATGGTGTTCCCGATT

>s7 gi|29467418|dbj|AB089606.1| Photobacterium sp. TC34 tetY gene, complete cds ATGTCAAAATCACTTATAACCGCACTCATTGTTGTCGCGCTTGATGCGATTGGTTTGGGATTAATCATGC CGGTGGTTCCGGCTTTATTAAATGAATTTGTACCGGCAGAGCAAACAGCATTTCACTATGGTGTTTTTTT ATCGCTTTATGCGTTTATGCAGGTCTTTTGCGCGCCCGTTTTAGGGCGGTTATCTGACCGCTATGGACGG CGGATTATTTTGCTGGTTTCATTTTTAGGTGCCACGATTGATTATAGCATAATGGCGGCAGCGCCTGTTT TATGGGTGCTTTATATCGGCCGGATCATCTCAGGTGTTACCGGAGCAACTGGTGCAATCGCGGCATCAAT TATCGCTGATACAACTAAACAGGAAGAACGTGCGCGTTGGTTTGGTTTTATGGGGGCGTGTTTTGGTGCA GGTATGATTGCAGGGCCTGCTATTGGCGGTGTTCTTGGTGATATATCTGTGCATGCGCCCTTTGTGGCAG

GGGCTCTTCTCAATGCAATTGCTTTTTGTTTGGTGGCTTTCTTGTTGCCCAAAGCGTCGTCACAACCGCC CGAAGGGCAGCCAGCCAAAATCAATTTGTTTGAAGGTTTTCGTTTCAATTTTGCAGTTCAGGGACTTACC AGCTTTTTTGCGTTGTTTTTTCTTATGCAGCTGATCGGGCAGGCGCCCGCCGCTCTGTGGGTGATTTATG GCGAACAGCGCTTGAATTGGGATATTGGCACAGCAGGTGTGTCGCTGGCCATTTTTGGTGCAGCACATAC ATTCGTACAAGCTGTTTTAACCGGCACTCTTTCAAAGCGACTGGGCGACCGCGGTGTGTTGCTGCTTGGT ATGGGCGCTGATATTTGCGGGTTTCTATTGCTGGCTTTTATCACGCAAAGCTGGATGGTTCTGCCGGCAA TTTTCATGCTGGCTACAGGCGGCATTGGTATGCCTGCTTTGCAGGCTATTATTTCCGGTCTTGTTCGTGA TGAAAAGCAAGGTGCTTTACAAGGAACTTTAACAGGCTTGACGAATATAACTTCGATCATCGGGCCGGTC GGATTTACGACGCTTTATGGCTTAACCGCGGGGCGGTGGGATGGTTGGGTTTGGCTCGTCGCAGCAAGTC TTTATTTTATAGCTATACCATTATTGCGCCAGTCAGCCAGTTTGTTACGATCTTAA

>s8 gi|403397520|gb|JN990821.1| Salmonella enterica strain 00-5500562 tetracycline resistance protein tet(A) (tet(A)) gene, partial cds GCGCTCGACGCTGTCGGCATCGGCCTGATTATGCCGGTGCTGCCGGGCCTCCTGCGCGATCTGGTTCACT CGAACGACGTCACCGCCCACTATGGCATTCTGCTGGCGCTGTATGCGTTGATGCAATTTGCCTGCGCACC TGTGCTGGGCGCGCTGTCGGATCGTTTCGGGCGGCGGCCGGTCTTGCTCGTCTCGCTGGCCGGCGCTGCT GTCGACTACGCCATCATGGCGACGGCGCCTTTCCTTTGGGTTCTCTATATCGGGCGGATCGTGGCCGGCA TCACCGGGGCGACTGGGGCGGTAGCCGGCGCTTATATTGCCGATATCACTGATGGCGATGAGCGCGCGCG GCACTTCGGCTTCATGAGCGCCTGTTTCGGGTTCGGGATGGTCGCGGGACCTGTGCTCGGTGGGCTGATG GGCGGTTTCTCCCCCCACGCTCCGTTCTTCGCCGCGGCAGCCTTGAACGGCCTCAATTTCCTGACGGGCT GTTTCCTTTTGCCGGAGTCGCACAAAGGCGAACGCCGGCCGTTACGCCGGGAGGCTCTCAACCCGCTCGC TTCGTTCCGGTGGGCCCGGGGCATGACCGTCGTCGCCGCCCTGATGGCGGTCTTCTTCATCATGCAACTT GTCGGACAGGTGCCGGCCGCGCTTTGGGTCATTTTCGGCGAGGATCGCTTTCACTGGGACGCGACCACGA TCGGCATTTCGCTTGCCGCATTTGGCATTCTGCATTCACTCGCCCAGGCAATGATCACCGGCCCTGTAGC CGCCCGGCTCGGCGAAAGGCGGGCACTCATGCTCGGAATGATTGCCGACGGCACAGGCTAC

2.4 对以上8条基因序列进行多序列比对

安装导入

8

同时得到.aln和.dnd两个文件

2.5 依照2.4构建系统发育树

MEGA软件

导入2.4中的.aln文件,即弹出此窗口

点Convert to MEGE Format

导入2.4MEGE文件点

选construct/text UPGMA tree

结束!

2.6以其中一条基因序列设计一条长度为200-500bp的一对引物

安装primer primier 5 ,

0.0

0.2

0.6

0.8

导入序列后点primer

点search键

点OK

点结果

有上图可以看出,最佳引物为 TANCGTNGATACCGCTCTG ,最适温度为35.7,Tm值为86.7, ATNGCANCTATGGCGAGAC

GC%=52.6

参考文献:

1. 基因组数据分析手册,胡松年,薛庆中主编,浙江大学出版社,2003

2. 基因组研究与生物信息学

3. 基因组研究与生物信息学,李越中闫章才高培基,山东大学出版社,2003

4. 基于WWW的生物信息学应用指南,李桂源,钱骏主编,中南大学出版社2004

5. 生物信息学,(英)D.R.韦斯特海德(D.R.Westhead)等著;王明怡等译,科学出版社2004

6. 生物信息学,DavidW.Mount著钟扬,王莉,张亮主译,高等教育出版社,2003

7. 生物信息学,张阳德编,科学出版社,2004

8. 生物信息学,赵国屏等编科学出版社,2002

9. 生物信息学:机器学习方法,(法)皮埃尔?巴尔迪(PierreBaldi),(丹)索恩?布鲁纳克(SorenBrunak)著;张东晖等译,中信出版社,2003

10 生物信息学:基因和蛋白质分析的实用指南,[美][巴森文尼斯]AndreasD.Baxevanis,[美]B.F.FrancisOuellette著;李衍达,孙之荣等译,清华大学出版社,2000

11. 生物信息学基础,孙啸,陆祖宏,谢建明编著,清华大学出版社2005

12. 生物信息学若干前沿问题的探讨:中国科协第81次青年科学家论坛论文集/黄德双等主编,中国科学技术大学出版社2004

13. 生物序列突变与比对的结构分析,沈世镒著,科学出版社2004

14. 探索基因组学、蛋白质组学和生物信息学(中译版)孙之荣主译,科学出版社,2004年8月出版

15. 现代生物信息学理论与实践,李霞主编,科学出版社,2005年11月出版

16. 遗传学:基因与基因组分析,哈特尔,科学出版社,2002

17. Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, Second Edition

18. Protein Bioinformatics: An Algorithmic Approach to Sequence and Structure Analysis Author(s): Ingvar Eidhammer, Inge Jonassen, William R.T. Taylor

生物信息学论文

生物信息学的进展综述 韩雪晴 (生物工程1201班,学号:201224340124) 摘要:生物信息学是一门研究生物和生物相关系统中信息内容和信息流向的综合性系统科学。80年代以来新兴的一门边缘学科,信息在其中具有广阔的前景。伴随着人类基因组计划的胜利完成与生物信息学的发展有着密不可分的联系,生物信息学的发展为生命科学的发展为生命科学的研究带来了诸多的便利,对此作了简单的分析。 关键词:生物信息学;进展;序列比对;生物芯片 A review of the advances in Bioinformatics Han Xueqing (Bioengineering, Class1201,Student ID:201224340124) Abstract: Bioinformatics is the science of comprehensive system of information content and information flows to a study on the biological and bio related in the system. The edge of an emerging discipline since 80, has broad prospects in which information. With the human genome project was completed and the development of bioinformatics are inextricably linked, for the life science research development of bioinformatics for the development of life science has also brought a lot of convenience, has made the simple analysis. Keywords: bioinformatics;progress;Sequence alignment;biochip 1、生物信息学的产生背景 生物信息学是20世纪80年代末开始,随着基因组测序数据迅猛增加而逐渐兴起的一门学科[1]。应用系统生物学的方法认识生物体代谢、发育、分化、进化以及疾患发生规律的不可或缺的工具[2]。及时、充分、有效地利用网络上不断增长的生物信息数据库资源,已经成为生命科学和生物技术研究开发的必要手段,从而诞生了生物信息学。 2、生物信息学研究内容 主要是利用计算机存储核酸和蛋白质序列,通过研究科学的算法,编制相应的软件对序列进行分析、比较与预测,从中发现规律。白细胞介素-6(IL-6)是机体重要的免疫因子,但在两栖类中未见报道。采用生物信息学方法对两栖类模式动物非洲爪蟾IL-6进行分析[3]。以人IL-6基因对非洲爪蟾数据库进行搜索、分析,并采用RT-PCR方法对所得序列进行验证。结果表明,非洲爪蟾IL-6基因位于scaffold_52基因架上,具有保守的IL-6家族基序[4]。采用生物信息新方法进行不同物种的免疫基因挖掘、克隆,是一种有效的方法[5]。 2.1序列比对 比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的基础。两个序列的比对现在已有较成熟的动态规划算法,以及在此基础上编写的比对软件包BLAST和FASTA[6]。序列数据库搜索最著名且最常用的工具之一便是BLAST算法。FASTA算法是另一族常用的序列比对及搜索工具[7]。 2.2结构比对 比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。 2.3蛋白质结构预测 从方法上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。分子力学和分子动力学属这一范畴。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构[8]。 3、生物信息学的新技术

生物信息学作业

生物信息学试题 1、构建分子系统树得主要方法有哪些?并简要说明构建分子进化树 得一般步骤。(20分) 答:(1)构建进化树得方法包括两种:一类就是序列类似性比较,主要就是基于氨基酸相对突变率矩阵(常用PAM250)计算不同序列差异性积分作为它们得差异性量度(序列进化树);另一类在难以通过序列比较构建序列进化树得情况下,通过蛋白质结构比较包括刚体结构叠合与多结构特征比较等方法建立结构进化树 (2)序列比对——选取所需序列——软件绘制 具体如下: a测序获取序列或者在NCBI上搜索所需得目得序列 b在NCBI上做blast:比对相似度较高得基因,并以fast格式下载,整合在*txt文档中。 c比对序列,比对序列转化成*meg格式 d打开保存得*meg格式文件,构建系统进化树 2、氨基酸序列打分矩阵PAM与BLOSUM中序号有什么意义?它们各自 得规律就是什么?(10分) (1)PAM矩阵:基于进化得点突变模型,如果两种氨基酸替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得分就高。一个PAM就就是一个进化得变异单位, 即1%得氨基酸改变。 BLOSUM矩阵:首先寻找氨基酸模式,即有意义得一段氨基酸片断,分别比较相同得氨基酸模式之间氨基酸得保守性(某种氨基酸对另一种氨基酸得取代数据),然后,以所有60%保守性得氨基酸模式之间得比较数据为根据,产生BLOSUM60;以所有80%保守性得氨基酸模式之间得比较数据为根据,产生BLOSUM80。

(2)PAM用于家族内成员相比,然后把所有家族中对某种氨基酸得比较结果加与在一起,产生“取代”数据(PAM-1 );PAM-1自乘n次,得PAM-n。 PAM-n中,n 越小,表示氨基酸变异得可能性越小;相似得序列之间比较应该选用n值小得矩阵,不太相似得序列之间比较应该选用n值大得矩阵。PAM-250用于约 20%相同序列之间得比较。 BLOSUM-n中,n越小,表示氨基酸相似得可能性越小;相似得序列之间比较应该选用 n 值大得矩阵,不太相似得序列之间比较应该选用n值小得矩阵。BLOSUM-62用来比较62%相似度得序列,BLOSUM-80用来比较80%左右得序列。 3、蛋白质三维结构预测得主要方法有哪些?试选择其中得一种方 法,说明蛋白质三维结构预测得一般步骤。(10分) (1) a同源建模(序列相似性低于30%得蛋白质难以得到理想得结构模型 b折叠识别(已知结模板得序列一致率小于25%) c从头预测得方法(无已知结构蛋白质模板)。 (2) 4、您所熟悉得生物信息学软件有哪些?请选择其中得至少一种软 件,结合自己得研究课题,谈谈您所选择软件得基本原理,使用

基因组学与生物信息学教案

《基因组学与生物信息学》教案 授课专业:生物学大类各专业 课程名称:基因组学与生物信息学 主讲教师:夏庆友程道军赵萍徐汉福

课程说明 一、课程名称:基因组学与生物信息学 二、总课时数:36学时(理论27学时实验9学时) 三、先修课程:遗传学、分子生物学、基因工程 四、使用教材: 杨金水. 基因组学. 北京:高等教育出版社,2002. 张成岗. 贺福初, 生物信息学方法与实践. 北京:科学出版社,2002. 五、教学参考书: T.A.布朗著,袁建刚译著,基因组(2rd版),北京:科学出版社,2006. 沈桂芳,丁仁瑞,走向后基因组时代的分子生物学,杭州:浙江教育出版社,2005. 罗静初译,生物信息学概论,北京:北京大学出版社,2002. 六、考核方式:考查 七、教案编写说明: 教案又称课时授课计划,是任课教师的教学实施方案。任课教师应遵循专业教学计划制订的培养目标,以教学大纲为依据,在熟悉教材、了解学生的基础上,结合教学实践经验,提前编写设计好每门课程每个章、节或主题的全部教学活动。教案可以按每堂课(指同一主题连续1~2节课)设计编写。教案编写说明如下: 1、编号:按施教的顺序标明序号。 2、教学课型表示所授课程的类型,请在相应课型栏内选择打“√”。 3、题目:标明章、节或主题。 4、教学内容:是授课的核心。将授课的内容按逻辑层次,有序设计编排,必要时标以“*”、“#”“?” 符号分别表示重点、难点或疑点。 5、教学方式既教学方法,如讲授、讨论、示教、指导等。教学手段指教科书、板书、多媒体、模型、 标本、挂图、音像等教学工具。 6、讨论、思考题和作业:提出若干问题以供讨论,或作为课后复习时思考,亦可要求学生作为作业 来完成,以供考核之用。 7、参考书目:列出参考书籍、有关资料。 8、日期的填写系指本堂课授课的时间。

生物信息学课程设计

生物信息学课程设计报告 题目:用blast、clustalx2和mega来分析鼠伤寒沙门氏菌的四环素抗性基因 专业:生物技术 班级:11-2 学号:11114040235 姓名:邹炜球 指导教师:马超 广东石油化工学院生物工程系 2013年 12 月 21 日

摘要 生物信息学(Bioinformatics)是研究生物信息的采集,处理,存储,传播,分析和解释等各方面的一门学科,它通过综合利用生物学,计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。本课程设计主要通过分析鼠伤寒沙门氏菌的四环素抗性基因来介绍生物信息学里面常用的数据库NCBI和一些常用的软件(如blast、clustalx2、Primer Premier 5和mega),由于生物信息学这一门课在生物研究领域所起到的作用非常大,所以熟练一些常用的生物信息学软件和数据库是非常有必要的。 关键词:NCBI、blast、clustalx2、Primer Premier 、mega、生物信息学、序列比对、系统发育树

目录 1绪论 (4) 1.1生物信息学的发展概况 (4) 1.2生物信息学的发展展望 (4) 2 课题设计内容 (5) 2.1以某一基因或蛋白为研究对象搜索一条序列(DNA长度为300-1500bp,蛋白质序列 为100-500)及相关信息,并分别表示出他的GENBANK和FASTA格式 (6) 2.2以设计内容1为目标序列进行BLAST分析 (7) 2.3通过BLAST或相关软件下载8条基因或蛋白质序列 (9) 2.4以8条基因序列进行多序列比对 (10) 2.5依照设计内容4构建系统发育树 (10) 2.6以其中一条基因序列设计一条长度为200-500bp的一对引物 (12) 参考文献 (16)

生物信息学作业1实验2

上海师范大学实验报告 实验二 一、实验原理 答:利用Blast全球联网数据库,对输入的序列进行生物信息学分析,给出与输入序列相关性最大的对应的基因信息,比较两者的同源性。 二、操作步骤 答:(1)先打开网址https://www.360docs.net/doc/1d3794046.html,/ (2)点击右边的Blast链接,打开Blast数据库,进入Blast界面 (3)在Basic Blast中选择nucleotide blast (4)在对话框中输入核苷酸序列,在choose search set下的Database选项中选择Others (nr etc.) (5)把网页拉到最下方,点击Blast按钮 (6)在Descriptions 栏下找到Max ident 百分率最高的序列名称 (7)再往下拉,找到Alignments项下第一个序列,可以找到输入序列相关信息 (8)点击Accession,即能找到更多输入序列的相关信息。 1. tttcactcca tagttactcc ccaggtga 1.1它属于哪类生物? 答:属于Hepatitis C virus (丙型肝炎病毒) 1.2它属于哪类基因? 答:属于non-structural protein 5B gene 1.3它在该基因的什么位置? 答:它在该基因的第749-776这个位置。 1.4它与你搜索到的序列的同源性(Identities)是多少? 答:同源性100% 2.(1)ccacccactg aaactgcaca gacaaatttg tacataagag 1.1它属于哪类生物? 答:属于Influenza A virus (A/chicken/Iran261/01(H9N2)) hemagglutinin (HA) gene (A型流感病毒,A型伊朗型261鸡流感病毒,H9N2病毒,血细胞凝集素抗原基因为依据) 1.2它属于哪类基因? 答:属于ssRNA negative-strand viruses Orthomyxoviridae (单链RNA,负义链病毒,正粘病毒科) 1.3它在该基因的什么位置? 答:它在该基因的第1-40这个位置 1.4它与你搜索到的序列的同源性(Identities)是多少?

生物信息学课程论文 作业题目 分配表

生物技术12-1 生物技术12-1 学号姓名性 别 签名学号姓名性别签名学号姓名性 别 签名 12114350101陈丽娜女大肠杆菌连接 酶 12114350104黄少敏女人的胰蛋白 酶 12114350105黄晓静女T4噬菌体 DNA聚合酶12114350106纪秀玲女人的肌红蛋白12114350107列泳婵女蛋白酶K序 列 12114350108石彩虹女小鼠P53基 因12114350110周海琪女拟南芥端粒酶 序列 12114350111曹杰濠男淀粉酶12114350113陈永成男G-谷氨酰转 肽酶12114350115方壮杰男乳酸脱氢酶12114350116冯健锋男肝癌铁蛋白12114350118黄静云男牛血清白蛋 白12114350119李树森男18S rDNA 12114350120李涛男ATP合成酶12114350121林秀尧男谷氨酸脱羧 酶12114350123刘国标男CDK4 12114350124罗皓炽男胃蛋白酶12114350125阮永刚男鲨烯合酶基 因12114350126石晓洲男肌动蛋白12114350129王佐正男肥胖基因相 关蛋白 12114350130吴文祯男柑橘果胶酯 酶12114350131吴永鹏男凝血酶原12114350132徐国相男维生素C合 成基因 12114350133叶业林男葡萄糖脱氢 酶

12114350134张维彬男大肠杆菌Β-半 乳糖苷酶 12114350135张伟龙男抗干旱基因12114350136郑晓坤男人血红蛋白 12114350142郑桂捷男磷酸酶的蛋白 质12114350138黄忠海男牛凝乳酶原 基因 12114350139徐少东男岩藻糖苷酶 12114350141王晓敏女木瓜蛋白酶 本班总人数:31 生物技术12-2 生物技术12-2 学号姓名性别签名学号姓名性别签名学号姓名性别签名12114350201黄雪梅女人的胰岛素12114350202李晨晨女热震惊蛋白/ 热击蛋白 1211435020 3 廖垭娣女乙肝病毒 CABYR- binding prot ein 12114350204冉梦梦女腺苷酸环化酶12114350205魏丹璇女DNA ase I 1211435020 6 吴彩凤女纤维素酶 12114350207武亦婷女18 rDNA 12114350208叶国玲女谷胱甘肽1211435020 9 叶锦玉女线粒体基因

生物信息学课程作业

生物信息学作业 1. Align the leghemoglobin protein from soy bean and myoglobin from human with global and local alignment software (ex. needle and water) respectively and interpret the results. ANSWER: (1)Use Needle to Align the two sequence: Aligned_sequences: 2 # 1: CAA38024.1 # 2: NP_001157488.1 # Matrix: EBLOSUM62 # Gap_penalty: 10.0 # Extend_penalty: 0.5 # Length: 203 # Identity: 43/203 (21.2%) # Similarity: 58/203 (28.6%) # Gaps: 90/203 (44.3%) # Score: 30.0 (2)Use Water to Align the two sequence: Aligned_sequences: 2 # 1: CAA38024.1 # 2: NP_001157488.1 # Matrix: EBLOSUM62 # Gap_penalty: 14 # Extend_penalty: 4 # Length: 32 # Identity: 11/32 (34.4%) # Similarity: 15/32 (46.9%) # Gaps: 0/32 ( 0.0%) # Score: 35 两种软件虽然使用同一罚分标准但得分不同。因为Needle程序实现标准pairwise全局比对,而Water则是局部比对。全局比对因为是比对全长序列,所以空位罚分多,得分较局部比对低。

生物信息学论文

生物信息学论文 论文题目 PBL教学法在生物信息学课程教学中的应用与实践 指导老师:谷峻 学生姓名:吕晓莹 学号: 20112501092 院系:生命科学学院 专业:生物科学 撰写时间:2014年4月

摘要:PBL Problem-Based Leaming),即基于问题学习,是由美国神经病学教授Barrows首创并于1969年在加拿大的麦克马斯特大学医学院试行的一种新的教学方法。PBL 的基本特点是以教师为引导,以学生为中心,通过解决问题来学习,与传统的以学科为基础,以教师为中心的教学方法相比有很大的不同。本论文通过对照PBL 教学理念和生物信息学课程理论,来探究PBL 教学法在生物信息学课程教学中应用与实践,为提高生物信息学课程教学质量提供一种可行方法。 关键词:PBL 教学法,生物信息学,应用与实践 1 前言 生物信息学是20世纪90年代由多种学科知识相互渗透、融合而兴起的一门用数理和信息科学的观点、理论以及方法去研究生命现象、组织和分析呈现指数增长的生物医学数据的一门学科,具有开放性、发展性、交叉性、综合性、应用性等特点。鉴于此,尽管国内的生物信息学科学研究开展得如火如荼,但由于受到师资、教材、授课对象、教学条件、教学法等因素限制,开设该课程的高校尚未真正形成一套成熟的、科学的教学体系。 目前, 国内的生物信息学教学基本沿用以“教师讲授为主”的传统教学模式。以课堂为中心、以理论教学为主, 进行“满堂灌”式教育, “照本宣读”的方式也比较常见。缺乏与生物信息学交叉前沿性特点相适应的型教学模式。同时,实验教学比较单一, 常以验证性为目的, 有些甚至成为了“文献检索”课程, 缺乏和专相适应的综合性、设计性实验。现代教学改革与实践证明,在教学过程中必须要突出“学生是教学活动的主体”,既要注意张扬学生“个性”,更要强化学生团队合作意识及创新、创业能力培养,以保证人才培养质量。在这种情况下,传统的教学模式已与当前社会快速发展的局面格格不入,迫切需要变革。因此,为激发学生的学习积极性和教学参与热情,探索先进的教学法以革新生物信息学的教学内容及考核方式等显得尤为重要。其中,以PBL 为例的教学法在生物信息学课程教学应用与实践中取得了良好的课程教学效果。 2 PBL 教学法的优势 2.1 PBL 教学顺应时代的发展 当今社会是信息时代, 生物学不断发展, 知识不断更新, 老师要讲的内容越来越多, 学生要读的书越来越厚, 授课内容与课时不相适应的矛盾非常突出, 且教学双方负担过重, 教学效果难以保证, 这种填鸭式的传统教学越来越无法适应信息社会的要求, 这就要求学生在接受人类已有的科学知识基础上, 着重培养创造能力, 学会自己寻找知识和创造知识的本领。而PBL 教学模式能明显减少说教式教学和学习负担, 既能加强学生独立学习,又能减轻教师的教学负担,顺应了时代的发展。 2.2 有利于培养学生主动学习的能力和形成双向交流 传统的教学模式是以学科为基础, 教师课堂讲解为主, 教学内容进度和方法均由老师决定,其 对象是学生整体, 容易忽视单一个体的学习兴趣、能力及个性特征, 学生始终处于被动地接受知识的地位, 不利于主动学习能力的培养。而PBL 教学法打破传统的界限, 采取以“学生为中心、问题为核心”的教育方式。在教师的整体把握和指导下, 学生充分运用现代化科技手段如教材、图书馆、录像、模型、文献检索系统、电脑学习软件、网络以及多媒体等多种形式进行自学。课堂上,PBL模式强调学生主动参与学习, 从而大大提高学习效果和长期记忆的形成。从教学的角度来看, 指导老师长期与同一小组学生

《生物信息学》上机作业

《生物信息学》上机作业 题目:对人血红蛋白(HBA1)编码基因序列的生物信息分析

目录 引言 .............................................................................................................................................. - 1 -1 正文......................................................................................................................................... - 2 - 1.1 NCBI上对相关核苷酸序列的查找............................................................................ - 2 - 1.2 BLAST运行及其结果.................................................................................................. - 2 - 1.3 BLASTX运行及其结果................................................................................................ - 6 - 2 其他软件的运行及其结果..................................................................................................... - 8 - 2.1 Clustal W运行及其结果 ............................................................................................. - 9 - 2.2 MEGA4.0运行及其结果............................................................................................. - 10 -结论 ............................................................................................................................................ - 10 -

生物信息学的论文

生物信息学 一、我对生物信息学的认识 1、什么是生物信息学 生物信息学从事对基因组研究相关生物信息的获取、加工、储存、分配、分析和解释。包括了两层含义,一是对海量数据的收集、整理与服务,也就是管好这些数据;另一个是从中发现新的规律,也就是用好这些数据。具体地说,生物信息学是把基因组DNA序列信息分析作为源头,找到基因组序列中代表蛋白质和RNA基因的编码区;同时,阐明基因组中大量存在的非编码区的信息实质,破译隐藏在DNA序列中的遗传语文规律;在此基础上,归纳、整理与基因组遗传语文信息释放及其调控相关的转录谱和蛋白质谱的数据,从而认识代谢、发育、分化、进化的规律。 2、、生物信息学的重要性 生物信息学不仅仅是一门科学学科,它更是一种重要的研究开发工具。 从科学的角度来讲,它是一门研究生物和生物相关系统中信息内容物和信息流向的综合系统科学,只有通过生物信息学的计算处理,我们才能从众多分散的生物学观测数据中获得对生命运行机制的详细和系统的理解。 从工具的角度来讲,它是今后几乎进行所有生物(医药)研究开发所必需的舵手和动力机,只有基于生物信息学通过对大量已有数据资料的分析处理所提供的理论指导和分析,我们才能选择正确的研发方向,同样,只有选择正确的生物信息学分析方法和手段,我们才能正确处理和评价新的观测数据并得到准确的结论。 可见生物信息学在今后的无论是生物(医药)科研还是开发中都具有广泛而关键的应用价值;而且,由于生物信息学是生物科学与计算科学、物理学、化学和计算机网络技术等密切结合的交叉性学科,使其具有非常强的专业性,这就使得专业的生物(医药)科研或开发机构自身难以胜任它们所必需的生物信息学业务,残酷的市场竞争及其所带来的市场高度专业化分工的趋势,使得专业的生物(医药)开发机构不可能在自身内部解决对生物信息学服务的迫切需求,学术界内的生物(医药)科研机构也是如此,而这种需求,仅靠那些高度分支化和学术化的分散的生物信息学科研机构是远远不能满足的。可见,在生命科学的新世纪,生物信息学综合服务将是一个非常重要的也是一个极具挑战性的领域。 3、生物信息学的最终目的

生物信息学作业

CDK2基因和蛋白质序列的生物信息学分析 姓名: 学号: 专业: 1前言 细胞周期蛋白依赖激酶2(cyclin-dependent kinase 2,CDK2),又名细胞分裂激酶2(cell division kinase 2)或p33蛋白激酶(p33 protein kinase),其基因定位于人类基因组的12号染色体上的q13染色带上。CDK2基因全长6013bp,这部分中有7个外显子和6个内含子,7个外显子的长度依次为353bp、78bp、121bp、171bp、102bp、204bp、1264bp(可依次记为外显子1-7)。在翻译过程中,该基因转录成的mRNA的外显子1的前137bp和外显子7的后1159bp不进行翻译,属于调控序列。mRNA上只有中间的部分编码蛋白质。 CDK2基因可以转录为两种mRNA。其中,变体1长度为2325bp,编码298个氨基酸;变体2长度为2223bp,编码264个氨基酸。这两种蛋白质为CDK2的同型蛋白,功能相同,具有调控细胞分裂的功能,主要在G1期到S期和S期到G2期这两个阶段起作用。CDK2广泛分布在生物体的各种细胞的胞质溶胶和细胞核质中,但只在进行分裂的细胞中行使功能,这是因为CDK2只有与不同的细胞周期蛋白(cyclin)结合后才具有活性。CDK2可以与细胞周期蛋白A、B1、B3、E等结合后,参与细胞周期调控。由于CDK2在细胞内的数量变化有可能导致细胞周期异常而产生癌症,故CDK2基因可以被看作癌基因,其活性和表达量可以作为衡量癌症的指标。CDK2与周期蛋白E的复合体不仅能直接参与中心体复制的起始调控,还能与类Rb蛋白p107或转录因子E2F结合,促进细胞从G1期向S期转化或调控DNA复制有关的基因转录。而CDK2与周期蛋白A的复合体可以增强DNA复制因子RF-A的活性。 在CDK2分子中,被称为T环的氨基酸环阻断了活性部位,妨碍激酶履行它的酶功能,而且活性部位的氨基酸形成一种难于为蛋白质结合的形状。CDK2与周期蛋白结合时,周期蛋白将T环转出2nm以上,又将CDK2中的PSTAIRE螺旋部分转了, 并把活性部位氨基酸变成能与底物蛋白结合的正确构象。CDK2的活性不仅与周期蛋白有关,还与其上的Thr-15、Tyr-15、Thr-160三个位点是否磷酸化有关。一般情况下,与周期蛋白结合的CDK2的上述三个位点被Wee/Mik1和CAK激酶磷酸化,但此时复合体还没有活性,只有当Cdc25c将Thr-15、Tyr-15两个位点去磷酸化后,复合体才有活性。细胞中存在多种因子对CDK2进行修饰调节,此外还存在对其活性起负性调控的蛋白质,即CDK激酶抑制物,例如p21CIP/WAF1、p27KIP2等。 前面提到,CDK2基因转录的产物有两种。这两种mRNA的不同之处在于变体1由全部7个外显子组成,而变体2缺失外显子5,由剩余的6个外显子组成。这样翻译成的两种同型蛋白的长度就相差34个氨基酸。 2 材料和方法: 2.1序列数据来源 采用蛋白质名称对NCBI非冗余蛋白质数据库进行检索,CDK2蛋白的记录有1013个。而采用基因名称对NCBI非冗余核酸数据库进行检索,CDK2蛋白的记录有680个。 采用人(Homo sapiens)的CDK2蛋白序列进行BLAST搜索。 2.2序列分析方法

生物信息学课程大纲

《生物信息学》课程大纲 一、课程目标 1.学科素养:生物信息学的基本研究方法,并能掌握应用其中的一些常用方法,以提高学生的科研能力,领会采用信息学技术去分析和探索大量核酸和蛋白质序列所蕴藏的生命意义的基本思路。(支撑毕业要求 3-1) 2.交流合作:理解团队学习的重要性,具有团队协作精神,掌握沟通合作技能,具有小组互助和协作学习体验。(支撑毕业要求 8-1) 3.交流合作:具有小组互助和协作学习体验,具备与学校领导、同事、学生、家长及社区沟通交流的知识与技能。(支撑毕业要求 8-3)

二、课程目标与毕业要求的对应关系 三、教学内容、重难点和课时安排 1.第一章生物信息学概论(2学时) (一)教学要求 理解和掌握相关名词的定义、概念和解释等,形成正确的理念和行为观点(二)教学内容 1、生物信息学的概念和发展历史(支撑课程目标1) 2、生物信息学的生物学基础(支撑课程目标1) 3、生物信息学的计算机和网络基础(支撑课程目标1) 4、生物信息学的数学基础(支撑课程目标1) 5、生物信息学的产业化(支撑课程目标1) 6、生物信息学研究内容和发展前景展望(支撑课程目标1)

(三)本章重难点 ※生物信息学的数学基础、生物信息学的计算机和网络基础 第二章分子生物学数据库(2学时) (一)教学要求 理解和掌握相关名词的定义、概念和解释等,形成正确的理念和行为观点 (二)教学内容 1、生物学数据库概述(支撑课程目标1) 2、核苷酸序列与基因组数据库(支撑课程目标1) 3、蛋白质序列与模式、同源性数据库(支撑课程目标1) 4、结构数据库(支撑课程目标1) 5、基因和分子的互作和代谢途径信息数据库(支撑课程目标1) 6、RNA核苷酸序列数据库(支撑课程目标1) 7、其它遗传学与分子生物学资源(支撑课程目标1) 8、数据库中存在的问题及使用注意事项(支撑课程目标1) (三)本章重难点 ※蛋白质序列与模式、同源性数据库;基因和分子的互作和代谢途径信息数据库;RNA 核苷酸序列数据库 第三章序列比对与数据库检索(2学时) (一)教学要求 理解和掌握相关名词的定义、概念和解释等,形成正确的理念和行为观点 (二)教学内容 1、序列比对概述(支撑课程目标1) 2、双序列比对(支撑课程目标1) 3、比对的统计学显著性(支撑课程目标1) 4、多序列比对(支撑课程目标1) 5、数据库搜索(支撑课程目标1) 6、基因组长序列比对(支撑课程目标1) (三)本章重难点 ※双序列比对、数据库搜索 第四章核酸序列的信号和功能识别(4学时)

生物信息学专业职业生涯规划书范文格式(原创)

生物信息学专业职业生涯规划书范文格式(原创) 一、自我认知 通过人才测评分析结果以及本人对自己的认识、朋友对我的评价,我认真的认知了自己。 1.职业兴趣:研究型,希望日后能在科研方面工作。 2.职业能力:逻辑推理的能力相对比较强,而信息分析能力也不错的,比较喜欢对复杂的事务进行思考,将复杂事物简化。 3.个人特质:喜欢追求各种不明确的目标;观察力强,工作自觉、热情,能够吃苦耐劳;主张少说多做;爱学习;喜欢独立工作。 生物信息学专业人才培养方案分析: 一、培养目标 生物信息学专业培养德、智、体、美全面发展,具有较好的分子生物学、计算机科学与技术、数学和统计学素养,掌握生物信息学基本理论和方法,具备生物信息收集、分析、挖掘、利用等方面的基本能力,能在科研机构、高等学校、医疗医药、环境保护等相关部门与行业从事教学、科研、管理、疾病分子诊断、药物设计、生物软件开发、环境微生物监测等工作的高级科学技术人才。 二、培养要求 学生主要学习生物信息学的基本理论和方法,受到相关科学实验和科学思维的基本训练,具有较好的分子生物学、计算机科学与技术、数学和统计学素养,具备生物信息的收集、分析、挖掘、利用等方面

的基本能力,具有较好的业务素质。 三、知识技能 1、掌握普通生物学、生物化学、分子生物学、遗传学等基本知识和实验技能; 2、掌握计算机科学与技术基本知识和编程技能(包括计算机应用基础、Linux基础及应用、数据库系统原理、模式识别与预测、生物软件及数据库、Perl编程基础等),具备较强的数学和统计学素养(高等数学I、II、生物统计学等); 3、掌握生物信息学、基因组学、计算生物学、蛋白质组学、生物芯片原理与技术的基本理论和方法,初步具备综合运用分子生物学、计算机科学与技术、数学、统计学等知识和技能,解决生物信息学基本问题的能力; 4、掌握生物信息学资料的查询、文献检索及运用现代信息技术获得相关信息的基本方法,具有一定的实验设计、结果分析、撰写论文、参与学术交流的能力; 5、熟悉国家生物信息产业政策、知识产权及生物安全条例等有关政策和法规; 6、了解生物信息学的理论前沿、应用前景和最新发展动态; 7、具有较好的科学人文素养和较强的英语应用能力,具备较强的自学能力、创新能力和独立解决问题的能力; 8、具有良好的思想道德素质和文化素养,身心健康; 9、具有较好的科学素质、竞争意识、创新意识和合作精神。

《生物信息学》教学大纲

《生物信息学》教学大纲 Bioinformatics 课程编码:27A11708 学分:1.5 课程类别:专业任选课 计划学时:24 其中讲课:20 上机:4 适用专业:生物技术专业、药学专业 推荐教材:薛庆中著,《DNA和蛋白质序列数据分析工具》,科学出版社,2014年。 参考书目:张成岗著,《生物信息学方法与实践》,科学出版社,2005年。 课程的教学目的与任务 本课程的教学目的是引导学生初步了解生物信息学的基本研究内容与研究方法以及生物信息在多学科领域的应用。使学生掌握生物信息学的基本术语、基本原理、基本研究方法、重要核酸和蛋白质数据库等。掌握指定的基于互联网的常用生物信息学软件的基本操作使用方法。要求学生通过基于问题和任务的学习方式,初步具备解决简单生物信息学问题的研究能力。 课程的基本要求 通过本课程的学习,要求学生1. 掌握该领域的基本知识。2. 掌握指定数据库与软件的应用。3.课程的主要任务包括一次期末考试和多次的章节作业以及课程问题讨论等。 4.培养与引导学生采用生物信息学实际操作能力、以期后期能用于相应领域的研究工作中。 各章节授课内容、教学方法及学时分配建议(含课内实验) 第一章:绪论建议学时:2 [教学目的与要求] 掌握专生物信息学产生背景、概念及研究内容;介绍常用的核酸、蛋白质数据库介。 [教学重点与难点] 掌握生物信息学概念机研究内容,熟悉常用数据库的使用。 [授课方法] 课堂讲授结合上机操作 [授课内容] §1.1生物信息学的产生背景,概念 生物信息学的发展简史 生物信息学的不同定义 §1.2生物信息学的研究内容及常用的核酸、蛋白质数据库介绍 生物信息学的而研究内容 常用的核酸数据库 常用的蛋白质数据库

狂犬病毒生物信息学分析

课程论文 题目:狂犬病毒ABLV编码核蛋白(N)的生物信息学分析课程名称:生物信息学 姓名:秦鸽鸽 学号: Y4 学院:生命科学与工程学院 专业:基础兽医学 狂犬病毒ABLV编码核蛋白(N)的生物信息学分析 摘要:狂犬病病毒(rabies virus,RV)是引起中枢神经系统感染的急性人畜共患传染病。狂犬病病毒基因组是由单股负链、不分节段的RNA组成。基因组编码病毒的核蛋白(N)、磷酸化蛋白(NS)、基质蛋白(M)、糖蛋白(G)和依赖RNA 的RNA 多聚酶(L)5 个主要结构蛋白。N蛋白是组成的主要,是诱导细胞免疫的主要成分,常用于的诊断、分类和流行病学研究。本文就核蛋白(N)的理化性质、蛋白质结构、系统进化关系等进行了预测和分析,预测结果表明核蛋白的一级结构稳定,为亲水性蛋白,有两个跨膜区,ABLV病毒与其它6个基因型的病毒亲缘关系较其他病毒近,但之间又有明显的距离。 关键字狂犬病毒;核蛋白;理化性质;蛋白质结构预测;系统进化分析狂犬病病毒在野生动物(狼、狐狸、鼬鼠、蝙蝠等)及家养动物(狗、猫、牛等)与人之间构成狂犬病的传播环节。人主要被病兽或带毒动物咬伤后感染。一旦受染,如不及时采取有效防治措施,可导致严重的急性传染病,病死率高。 狂犬病是由狂犬病病毒(rabies virus,RV)引起的中枢神经系统感染的急性人畜共患传染病。所有温血动物都可感染,狂犬病一旦发病,病死率几乎100%[1],是人类病死率最高的急性传染病之一。该病流行于100 多个国家和地区, 中国的狂犬病发病率占世界第二位, 仅次于印度[2]。 狂犬病病毒基因组是由11 928 或11 932 个核苷酸组成的单股负链、不分节段的RNA,分子量约4.6×106。基因组从3′端至5′端的排列依次为N、NS、M、G、L 5 个结构基因,各基因的序列长度分别为1 421、991/804/805、1 675/2 059、

生物信息学作业题

生物信息学作业题 绪论 1.什么是生物信息学? 2.生物信息学有哪些主要研究领域? 第一章生物信息学的分子生物学基础 1.DNA的双螺旋结构要点是什么? 2.什么是基因组和蛋白质组?对它们的研究有何意义? 第二章生物信息学的计算机基础 1.简述网络操作系统的类型。 第三章核酸序列分析 1.什么是全局比对? 2.什么是局部比对?有哪些优点? 第四章分子进化分析 1.分子进化分析具有哪些优点? 2. 简述分子进化的中性学说。 第五章基因组分析 1. 什么是基因组学?其主要研究内容是什么? 2.简述基因预测分析的一般步骤。 第六章蛋白质组分析 1. 蛋白质组学的概念和主要研究的大致方向是什么? 2. 蛋白质组功能预测的程序是怎样的? 第七章生物芯片数据分析 1. 什么是生物芯片? 2. 生物芯片有哪些方面的应用? 第八章核酸与蛋白质结构预测 1. RNA二级结构典型的预测方法有哪些? 2. 基于统计学的预测蛋白质二级结构的方法有哪些? 第九章生物信息学平台与工具软件 1. 请利用Clustal X软件对下列6条蛋白质序列进行多重比对(比对结果用BioEdit软件打开,用“截图”方式显示比对结果)。 >1 mqngkvkwfn sekgfgfiev eggedvfvhf saiqgegfkt leegqevtfe veqgnrgpqatnvnkk >2 mqgkvkwfnn ekgfgfieie gaddvfvhfs aiqgegykal eegqevsfdi tegnrgpqaanvvkl >3

mqngkvkwfn sekgfgfiev eggedvfvhf saiqgegfkt leegqevtfe veqgnrgpqatnvnkk >4 mqgkvkwfnn ekgfgfieie gaddvfvhfs aiqgegykal eegqevsfdi tegnrgpqaanvvkl >5 mqngkvkwfn sekgfgfiev eggedvfvhf saiqgegfkt leegqevtfe veqgnrgpqatnvnkk >6 mqgkvkwfnn ekgfgfieie gaddvfvhfs aiqgegykal eegqevsfdi tegnrgpqaanvvkl 2. 现有一ZmPti1b蛋白质序列,请用DNAMAN软件分析其二级结构,给出分析结果。 1 MSCFACCGDE DTQVPDTRAQ YPGHHPARAD AYRPSDQPPK GPQPVKMQPI AVPAIPVDEI 61 REVTKGFGDE ALIGEGSFGR VYLGVLRNGR SAAVKKLDSN KQPDQEFLAQ VSMVSRLKHE 121 NVVELLGYCA DGTLRVLAYE FATMGSLHDM LRGRKGVKGA QPGPVLSWSQ RVKIAVGAAK 181 GLEYLHEKAQ PHIIHRDIKS SNVLLFDDDV AKIADFDLSN QAPDMAARLH STRVLGTFGY 241 HAPEYAMTGQ LSSKSDVYSF GVVLLELLTG RKPVDHTLPR GQQSLVTWAT PRLSEDKVRQ 301 CVDSRLGGDY PPKAVAKFAA VAALCVQYEA DFRPNMSIVV KALQPLLNAH ARATNPGDHA 361 GS

蛋白质组学课程论文

蛋白质组学关键技术研究进展 摘要:蛋白质组学是对蛋白质特别是其结构和功能的大规模研究,是在90年代初期,由Marc Wikins 和学者们首先提出的新名词。蛋白质组的研究不仅能为生命活动规律提供物质基础,也能为众多种疾病机理的阐明及攻克提供理论根据和解决途径。本文综述了蛋白质组学的一些关键技术的应用研究进展。 关键词:蛋白质组学;蛋白质组技术;研究方法 蛋白质组学的概念[1]最早是在1995年提出的,它在本质上指的是在大规模水平上研究蛋白质的特征,包括蛋白质的表达水平,翻译后的修饰,蛋白与蛋白相互作用等,由此获得蛋白质水平上的关于疾病发生,细胞代谢等过程的整体而全面的认识。近年来,高通量蛋白质分离与鉴定技术,如双向电泳、生物质谱、蛋白质芯片、酵母双杂交系统、生物信息学等相继建立并日趋完善,加速了蛋白质组学的发展。 1蛋白质组学概述 随着人类基因组计划的完成和功能基因组时代的到来,蛋白质结构与功能研究越来越重要,蛋白质组学、生物信息学等相关学科已逐渐成为生命科学的前沿。 随着人类基因组计划的实施和推进,生命科学研究已进入了后基因组时代。在这个时代,生命科学的主要研究对象是功能基因组学,包括结构基因组研究和蛋白质组研究等。尽管现在已有多个物种的基因组被测序,但在这些基因组中通常有一半以上基因的功能是未知的。 目前功能基因组中所采用的策略,如基因芯片、基因表达序列分析(Serial analysis of gene expression, SAGE)等,都是从细胞中mRNA的角度来考虑的,其前提是细胞中mRNA的水平反映了蛋白质表达的水平。但事实并不完全如此,从DNA、mRNA、蛋白质,存在三个层次的调控,即转录水平调控(Transcriptional control),翻译水平调控(Translational control),翻译后水平调控(Post-translational control)。从mRNA 角度考虑,实际上仅包括了转录水平调控,并不能全面代表蛋白质表达水平。实验也证明,组织中mRNA丰度与蛋白质丰度的相关性并不好,尤其对于低丰度蛋白质来说,相

相关文档
最新文档