DNA序列问题模型详解

DNA序列问题模型详解
DNA序列问题模型详解

2015年芜湖三校数学建模竞赛

题目 DNA序列问题模型

摘要

DNA 序列是由A,T,G,C 四个表示4 种碱基的字符组成的序列。本文研究DNA 序列的结构找出序列间的差异和对八个物种的DNA序列进行分类。

对于问题一首先对数据运用数理统计方法对数据进行计算,得到八个物种的DNA序列的碱基的丰度、碱基的重复出现情况、碱基之间的相邻情况、不同碱

基的丰度之比的四个特征,通过对这四个特征作出相应的散点图比较得出八个物种的DNA序列间的差异:Human 、Opossum、 Lemur 、Rat等4种DNA序列的长度相同,其他四种DNA序列的长度各不相同,每种DNA序列四种碱基的的

重复情况也各不相同;G碱基的丰度相对于本序列的其他碱基的丰度都要高,碱基A的丰度在各个序列中丰度差不多,其他三种碱基在序列中波动性较大,差异性较大;8种DNA序列中GG、GT的相邻的状况比较明显;各个DNA序列中碱基

丰度比

f、GT f、CT f含量差不多且都含量比较高;其中,DNA序列中TA f、CA f、

GC

f含量差不多且都含量比较低。

GA

对于问题二我们首先通过对问题一散点图的分析选取以碱基的丰度和碱基间的丰度之比为分类的指标,构建为分类的特征向量,但这些特征向量之间存在着一定的相关性,我们运用R型聚类选择出相关性程度差的特征向量为Q型聚类的指标。通过Q型聚类我们将这8种DNA序列分为3种分类方式,通过利用means方法,检验各类别在所有变量上的差异,再利用单因素方差分析最终确定将8种DNA序列分为四类。分类结果如下:

第一类:Human 、Mouse;

第二类:Goat、Rabbit;

第三类:Opossum、 Lemur 、Rat ;

第四类:Gallus。

关键词:数理统计;R型聚类;Q型聚类;means法;单因素方差分析法

1 问题重述

DNA 序列是由A,T,G,C 四个表示4 种碱基的字符组成的序列。研究DNA 序列的结构及序列中隐藏的规律,成为生物信息学的重要研究课题。根据表 1 中八个物种的β-球蛋白基因的第一个外显子序列,请解决以下问题:

1.建立数学模型刻画序列间的差异;

2. 对表1中八个物种的DNA序列进行分类。

2 基本假设

1)假设所给的DNA序列片段中没有断句和标点符号;

2)假设具有特殊碱基的DNA序列中,特殊碱基可以剔除,其影响可以忽略;

3)8个物种DNA序列具有共同的特征;

4)假设给定的DNA序列均是从全序列中随机截取出来的,无法确定序列的起始位, 无法从序列中辨认出氨基酸,所以,在对DNA 序列分类时,从碱基层次上进行分类, 而不是从氨基酸层次上分类;

5)不考虑碱基序列的编码区和非编码区的区别;

6)题目中所给的样本信息量足够大;

7)题目附录中所给的数据真实可靠。

3 符号说明

n:各个DNA序列中碱基i出现的数量,i为A、T、C或G

i

N:第i个DNA序列的总碱基数目

i

F:各个DNA序列中碱基i的丰度,i为A、T、C或G

i

f:各个DNA序列中碱基i和碱基j的比值,i,j为A、T、C或G

ij

X:DNA序列中A、C、G、T的重复次数矩阵

1

X:DNA序列中A、C、G、T的所占百分量矩阵

2

XX:第i个DNA序列相邻碱基占序列相邻情况的百分比,X为A、C、T或G i

Y:R型聚类的特征向量

Z:DNA序列中四个碱基之间丰度比矩阵

4 模型的建立及求解

(一)问题一模型的建立及求解

1)问题分析

首先对数据运用数理统计方法对数据进行计算,得到八个物种的DNA序列的碱基的丰度、碱基的重复出现情况、碱基之间的相邻情况、不同碱基的丰度之比(如碱基A与碱基T的丰度之比)的四个特征,通过对这四个特征作出相应的散点图比较得出八个物种的DNA序列间的差异。

2)模型建立及求解

(1)碱基重复出现的情况

运用matlab 求出8种物种DNA 序列各自的碱基的重复出现的结果(即每种DNA 序列中碱基的个数)和每种DNA 序列的碱基数目(即序列的长度)。(matlab 运算的程序代码见附录一)其运算的结果如下: =1X [

17 21 19 35

17 17 17 35 21 22 20 29 19 15 23 34 19 23 15 35 17 23 20 34 17 20 16 37

20 21 18 33 ]

921=N 862=N 923=N 914=N 925=N 946=N 907=N

928=N

Human 、Opossum 、 Lemur 、Rat 等4种DNA 序列的长度相同,其他四种DNA 序列的长度各不相同;同时每种DNA 序列四种碱基的的重复情况也各不相同,其中,Human 、Goat 、Mouse 、Rabbit 碱基A 的重复情况一样;Gallus 、Lemur 碱基A 重复情况一致;Lemur 、Mouse 碱基T 的重复情况一致;Opossum 、Mouse 碱基C 的重复情况一致;Human 、Goat 、Lemur 碱基G 的重复情况一致;Gallus 、Mouse 碱基的重复情况一样;其他物种碱基重复情况各不相同。 (2)碱基的丰度

对8种DNA 序列碱基丰度的分析,i 中A 碱基丰度的计算: /A A i F n N = (4-1)

其他碱基T 、C 、G 运算方式一样。通过matlab 计算出8种序列的中A 、T 、C 、G 四种碱基的丰度结果如下(matlab 运算的程序代码见附录一):

=2X [

0.1848 0.2283 0.2065 0.3804 0.1977 0.1977 0.1977 0.4070 0.2283 0.2391 0.2174 0.3152 0.2088 0.1648 0.2527 0.3736 0.2065 0.2500 0.1630 0.3804 0.1809 0.2447 0.2128 0.3617 0.1889 0.2222 0.1778 0.4111

0.2174 0.2283 0.1957 0.3587 ] 并运用matlab 作出8种DNA 序列四种碱基丰度的散点图(matlab 运算程序代码见附录二)如图4-1所示。

图4-1 4种碱基的丰度散点图

通过上述散点图可知每种序列的碱基丰度各有不同,G碱基的丰度相对于本序列的其他碱基的丰度都要高,碱基A的丰度在各个序列中丰度差不多,其他三种碱基在序列中波动性较大,差异性较大。

(3)碱基之间的相邻情况

运用matlab计算出DNA序列相邻碱基的情况,分别为各个序列的AA、AC、AG、AT、CA、CC、CG、CT、GA、GC、GG、GT、TA、TC、TG、TT的相邻次数占各条序列相邻情况的百分比,即如表4-1格式,运用matlab计算DNA序列相邻碱基占序列相邻情况的百分比结果如下(matlab运算程序代码见附录二):

表4-1相邻碱基在序列的排列情况

DNA序列相邻碱基占序列相邻情况的百分比:

XX[

1

0.0471 0.0471 0.0824 0.0235

0.0353 0.0824 0.0235 0.0824

0.0824 0.0706 0.1412 0.1059

0.0235 0.0235 0.1647 0.0353 ]

XX[

=

2

0.0588 0.0235 0.0941 0.0235

0.0353 0.0471 0.0235 0.0941

0.0941 0.1059 0.1412 0.0588

0 0.0235 0.1529 0.0235 ]

XX[

=

3

0.0353 0.0824 0.0824 0.0353

0.0706 0.0471 0 0.1059

0.0941 0.0471 0.0941 0.0706

0.0235 0.0471 0.1294 0.0353 ]

XX[

=

4

0.0588 0.0353 0.0706 0.0471

0.0588 0.0706 0.0353 0.0824

0.0706 0.1059 0.1412 0.0471

0.0118 0.0353 0.1294 0 ]

XX[

=

5

0.0471 0.0235 0.0941 0.0471

0.0353 0.0235 0.0118 0.0941

0.1059 0.0706 0.1059 0.0824

0.0118 0.0471 0.1529 0.0471 ]

XX[

=

6

0.0588 0.0353 0.0588 0.0353

0.0235 0.0824 0.0118 0.0941

0.0941 0.0706 0.0824 0.0941

0 0.0353 0.1882 0.0353 ]

XX[

=

7

0.0588 0.0118 0.0941 0.0353

0.0471 0.0588 0.0118 0.0588

0.0824 0.0588 0.1294 0.1294

0 0.0471 0.1647 0.0118 ]

XX[

=

8

0.0706 0.0471 0.0588 0.0471

0.0118 0.0706 0.0118 0.1059

0.0824 0.0824 0.1059 0.0706

0.0471 0 0.1647 0.0235 ]

分析DNA 序列相邻碱基占序列相邻情况可知,Human 序列中GG 、GT 、TG 的含量较多;Goat 序列中出现GG 、TG 、GC 的含量较多,其中TA 为0;Opossum 序列中出现TG 、CT 的含量较多,其中CG 为0;Gallus 序列中出现GC 、GG 、TG 的含量较多,其中TT 为0;Lemur 序列中出现GA 、GG 、TG 的含量较多;Rabbit 序列中出现GT 、GG 、TG 的含量较多,其中TA 为0;Rat 序列中出现TG 、GG 、CT 的含量较多,其中TC 为0。其中,在8种DNA 序列中GG 、GT 的相邻的状况比较明显。 (4)不同碱基的丰度之比

为了比较DNA 序列之间的差异,不同碱基的丰度之比,是影响其差异的重要原因之一。样品i 中碱基T 和碱基A 的比值计算:

A T TA n n f /= (4-2)

碱基C 与A 、碱基G 与A 、碱基C 与T 、碱基G 与T 、碱基G 与C 运算方式一样。通过matlab 计算出DNA 序列中四个碱基之间的丰度之比结果如下(matlab 运算程序见附录三):

=Z [

1.2353 1.1176

2.0588 0.9048 1.6667 1.8421 1.0000 1.0000 2.0588 1.0000 2.0588 2.0588 1.0476 0.9524 1.3810 0.9091 1.3182 1.4500 0.7895 1.2105 1.7895 1.5333 2.2667 1.4783 1.2105 0.7895 1.8421 0.6522 1.5217 2.3333 1.3529 1.1765 2.0000 0.8696 1.4783 1.7000 1.1765 0.9412 2.1765 0.8000 1.8500 2.3125

1.0500 0.9000 1.6500 0.8571 1.5714 1.8333 ] 运用matlab 绘制出DNA 序列中四种碱基之间丰度之比的散点图如图4-2所示。

图4-2碱基丰度比散点图

通过图4-2,进行数据分析可得:各个DNA序列中碱基G和碱基C的丰度之比,碱基G和碱基T的丰度之比,碱基C和碱基T的丰度之比含量差不多且都含量比较高;其中,DNA序列中碱基T和碱基A的丰度之比,碱基C和碱基A 的丰度之比,碱基G和碱基A的丰度之比含量差不多且都含量比较低。

综上八个物种的DNA序列的碱基的丰度、碱基的重复出现情况、碱基之间的相邻情况、不同碱基的丰度之比的四个特征,通过对这四个特征作出相应的散点图比较得出八个物种的DNA序列间的差异。

(二)问题二模型的建立及求解

1、问题分析

为了使DNA序列的分类能够尽量科学合理,集中要解决的问题是让分类后的样品满足:同类样品间的差异性尽可能小,不同类样品间的差异性尽可能大。为达到上述目的,引入聚类分析模型对不同的DNA序列进行分类。首先我们分析DNA的序列结构,提取出相应的特征。我们分析DNA特征主要从碱基的丰度、不同碱基的丰度之比方面进行入手。我们把8种序列的DNA的碱基丰度和不同碱基丰度作为分类的特征。但这些特征之间存在着一定的相关性,采用R型聚类从中选取代表性的指标。再以这些代表型的指标,采用Q型聚类,对8种DNA序列进行分类。

2、模型的建立与求解

(1)DNA序列特征变量的引入

从问题一我们可知影响DNA序列的差异有DNA序列的碱基的丰度、碱基的重复出现情况、碱基之间的相邻情况、不同碱基的丰度之比,经过比较数据的差异我们选择序列中A,C,T,G的碱基丰度和序列中A,C,T,G的碱基间的

丰度比作为对8种DNA 序列分类的指标。我们以A F 、T F 、C F 、G F 、TA f 、CA f 、

GA f 、CT f 、GT f 、GC f 为指标建立相应的特征向量Y 。

Y [

0.1848 0.2283 0.2065 0.3804 1.2353 1.1176 2.0588 0.9048 1.6667 1.8421

0.1977 0.1977 0.1977 0.4070 1.0000 1.0000 2.0588 1.0000 2.0588 2.0588

0.2283 0.2391 0.2174 0.3152 1.0476 0.9524 1.3810 0.9091 1.3182 1.4500

0.2088 0.1648 0.2527 0.3736 0.7895 1.2105 1.7895 1.5333 2.2667 1.4783

0.2065 0.2500 0.1630 0.3804 1.2105 0.7895 1.8421 0.6522 1.5217 2.3333

0.1809 0.2447 0.2128 0.3617 1.3529 1.1765 2.0000 0.8696 1.4783 1.7000

0.1889 0.2222 0.1778 0.4111 1.1765 0.9412 2.1765 0.8000 1.8500 2.3125

0.2174 0.2283 0.1957 0.3587 1.0500 0.9000 1.6500 0.8571 1.5714 1.8333 ]

(2) R 型聚类分析

可以看出某些特征之间确实存在着一定的相关性,因此可以考虑从这些指标中选取几个有代表性的指标进行聚类分析。为此,把10个指标根据其相关性进行R 型聚类,再从每个类中选取代表性的指标。运用matlab 对每个指标的数据分别进行标准化处理,指标间相近性度量采用相关系数,类间相似性度量的计算选用类平均法,用matlab 处理数据得到聚类树形图如图4-3所示。

图4-3 指标聚类树形图

从聚类图4-3中可以看出,碱基A的丰度、碱基C的丰度、碱基G的丰度、碱基T与碱基A的丰度比、碱基G与碱基A的风度比等5个指标之间有较大的相关性,最先聚到一起。如果把10个指标分为6个类,其他5个指标各自为一类。这样就从10个指标中选定了6个分析指标。

碱基T的丰度、碱基C与碱基A的丰度比、碱基G与碱基A的丰度比、碱基C与碱基T的丰度比、碱基G与碱基T的风度比、碱基G与碱基C的风度比可根据这6个指标对8个物种DNA序列进行聚类分析。

(3)Q型聚类分析

根据这6个指标对8个物种DNA的序列进行聚类分析。运用matlab对这6个指标数据分别进行标准化处理,样本间相似性采用欧氏距离度量,类间距离的计算选用类平均法。运用matlab处理数据得到聚类树型图如图4-4所示。

图4-4物种DNA聚类树型图

(4)模型结果分析

由matlab软件运行的结果可知:8种物种的DNA序列存在着较大的差异。如果根据DNA序列的碱基T的丰度、碱基C与碱基A的丰度比、碱基G与碱基A 的丰度比、碱基C与碱基T的丰度比、碱基G与碱基T的丰度比、碱基G与碱基C的丰度比等6个指标可以把8种物种的DNA序列分为三类,结果为:

第一类:Opossum、 Lemur、Rat;第二类:Human、Goat、Mouse、Rabbit;第三类:Gallus。

如果根据这6个指标把8种物种的DNA序列分为四类,结果为:

第一类:Human 、Mouse;第二类:Goat、Rabbit;第三类:Opossum、 Lemur 、Rat ;第四类:Gallus。

如果根据这6个指标把8种物种的DNA序列分为五类,结果为:

第一类: Lemur;第二类:Opossum、Rat;第三类:Human、Mouse;第四类:Goat、Rabbit;第五类:Gallus。

(2)、运用spss对分类的结果进行检验

运用spss以上述6个指标利用means方法,检验各类别在所有变量上的差异,如果差异显著,我们认为分类结果是可靠的,我们利用spss算出三种分类结果各自的平均数(三种分类结果各自的平均数见附表五)再对8种物种DNA序列进行分类的结果单因素方差分析,判断分类的结果如表4-3所示。

表4-3(a)序列分三类方差分析表

表4-3(b)序列分四类方差分析表

表4-3(c)序列分五类方差分析表

方差分析结果显示,8种DNA序列分三类时,DNA序列的碱基T的丰度、碱基G与碱基A的丰度比、碱基G与碱基T的丰度比等三项指标达到显著水平,说明这种分类效果不是很好。8种DNA序列分四类时,DNA序列的碱基T的丰度、碱基C与碱基A的丰度比、碱基G与碱基A的丰度比、碱基C与碱基T的丰度比、碱基G与碱基T的丰度比等五项指标达到显著水平,说明这种分类效果是比较明显的。8种DNA序列分五类时,碱基C与碱基A的丰度比、碱基G与碱基A的丰度比、碱基C与碱基T的丰度比等三项指标达到显著水平,说明这种分类效果不

是很好。综上分析可知我们最终确定将8种物种DNA序列分为四类,分别为:第一类:Human 、Mouse;

第二类:Goat、Rabbit;

第三类:Opossum、 Lemur 、Rat ;

第四类:Gallus。

5 模型的评价

1)模型的优点

(1)、问题一的求解简单容易,易于理解,运用数理统计的方法转化原问题并且求出各个序列所具有的统计特征。

(2)、在对于问题二我们首先在对问题一分析的基础上对碱基的丰度,和碱基之间的碱基比散点图,根据其波动的大小初步判断出那些变量作为聚类分析的特征向量,为后续的分析缩短了数据处理的过程,简化了模型。

(3)、对于问题二我们采用R型聚类分析我们对分类的指标进行了相关性分析,选择了特征之间一些关联性差的特征作为Q型聚类分析的指标,方法简单易行,有较好的普遍性。

(4)、对于问题二,在R型聚类类的基础上我们建立了Q型聚类方法得到了三种分类方式,考虑到了一些因素,最终结果更加真实可靠。

(5)、在问题二时,使用了SPSS对三种分类的结果进行了单因素方差分析,从而得到分类的结果更合理,更可靠。

(6)、对于问题二,从R聚类分析、Q型聚类分析、means方法、到单因素方差分析,从而使得分类的结果比较切合实际的。

2)模型的缺点

(1)、在进行模型一和模型二的最终选择时,综合考虑的因素还有欠缺。(2)、在问题二的基础上建立的聚类分类模型,考虑的指标不够全面。(3)、在建立模型的时候对数据处理的不合理,不是很到位,对模型的结果有一定的影响,模型的结果与实际结果之间存在着一定的差距。

(4)、在用MATLAB编程时所编写的代码复杂程度不够好,致使在考虑DNA序列样本更多的时候,代码不太具有参考性,带有局限性。

(5)、对于问题一分析DNA序列差异的指标不够全面,导致对DNA序列差异分析的不到位,同时问题二选择的指标也存在着比较片面。

(6)、问题一采用数理分析过于简单未能将DNA序列之间的差异很好的表现出来,处理数据方面处理的不是很理想。

6 模型的改进

DNA序列问题我们考虑了碱基的丰度特征值等,而一个序列所含的信息远不止每个碱基的丰度等特征,还有基于碱基所在位置的有关特征,即碱基在序列中出现的规律性、碱基和它前后若干个碱基的相关性等等,我们可将DNA序列中碱

基的排列看成是一个随机过程,如果是着重研究随机过程发生的规律,并设碱基分别为:A=0,T=1,C=2,G=3,那么这些序列就可以看作一组离散的数字信号,则可以用数字信号处理的理论来进行研究与分析即将离散的数字信号转化为一组波形图,用周期性、数学期望、相关函数以及频率谱等方法描述其规律,这当然就增加了问题的复杂性,但就一个庞大的DNA 序列规律破解工程来说,不失为一种值得考虑的方法,这里,可以仅以周期性为例讨论如下:

对某个碱基,以a 为例,假设它在序列中的t1,t2,…,tk+1个位置出现,可试图找出这些碱基之间的关联。首先,可以认识到考察ti 的分布及绝对值意义不大,因为序列是一大段DNA 中的一个片段,片段的起始段不同会导致ti 的不同,于是考虑a 的间距: si=ti+1-ti (i=1,2,…,k)1

可以看出,序列s1,s2,…,sn 的大小包含的信息是a 的“稠密度”,也可以看成一个与频率有关的量,这个在求解问题一时已讨论过,而在这我们考察序列s1,s2,…,sn 的波动幅度,幅度越小,说明si(i=1,2,…,k)的值越趋于统一,即a 的周期性越大1而表征波动幅度的量在统计中是中心矩,现求si 的二阶中心矩,即方差:

∑-=-

-=n

i ara

s s i n v 12

)

(11 (6-1)

∑=-

=n

i i

s n s 1

1

(6-2)

同理可求Varg,Vart,Varc1由于a,t,c,g 成对出现,作判别函数F=Varg/Vart

可较好的对序列进行分类。

7 参考文献

[1] 汤诗杰,周亮,王晓玲.DNA 序列分类模型[J].预防医学情报杂志,2005,(6): 83-85. [2] 陈合格.三种鳖线粒体DNA 部分基因序列的比较分析和分子鉴定标记[J].工业工程,2006,(5):23-27. [3] 罗贤晖,江从喜,洪翔. 基于神经网络集成的DNA 序列分类方法研究[J]. 中国市场,2012,(49):76-77. [4] 孙晓敏,张厚粲.聚类分析方法在DNA 序列分类中的应用[J].心理科学.2005,(3):646-649..

[5] 姜启源.数学模型[M].北京:高等教育出版社,1993.

[6] 姜启源.邢文训.谢金星.杨顶辉.大学数学实验.清华大学出版社.

[7] 陈东彦,李冬梅,王树忠.《数学建模》.北京.2009.

[8] 张德丰. MATLAB概率数理统计分析[M].北京:机械工业出版社,2010.

附录:

(一)碱基重复出现的情况及各碱基丰度matlab程序

%输入数据

A1='ATGGTGCACCTGACTCCTGAGGAGAAGTCTGCCGTTACTGCCCTGTGGGGCAAGG TGAACGTGGATTAAGTTGGTGGTGAGGCCCTGGGCAG';

A2='ATGCTGACTGCTGAGGAGAAGGCTGCCGTCACCGGCTTCTGGGGCAAGGTGAAA GTGGATGAAGTTGGTGCTGAGGCCCTGGGCAG';

A3='ATGGTGCACTTGACTTCTGAGGAGAAGAACTGCATCACTACCA TCTGGTCTAAGG TGCAGGTTGACCAGACTGGTGGTGAGGCCCTTGGCAG';

A4='ATGGTGCACTGGACTGCTGAGGAGAAGCAGCTCATCACCGGCCTCTGGGGCAAG GTAATGTGGCCGAATGTGGGGCCGAAGCCCTGGCCAG';

A5='ATGACTTTGCTGAGTGCTGAGGAGAATGCTCATGTCACCTCTCTGTGGGGCAAGG TGGATGTAGAGAAAGTTGGTGGCGAGGCCTTGGGCAG';

A6='ATGGTTGCACCTGACTGATGCTGAGAAGTCTGCTGTCTCTTGCCTGTGGGCAAAG GTGAACCCCGATGAAGTTGGTGGTGAGGCCCTGGGCAGG';

A7='ATGGTGCATCTGTCCAGTGAGGAGAAGTCTGCGGTCACTGCCCTGTGGGGCAAGG TGAATGTGGAAGAAGTTGGTGGTGAGGCCCTGGGC';

A8='ATGGTGCACCTAACTGATGCTGAGAAGGCTACTGTTAGTGGCCTGTGGGGAAAGG TGAACCCTGATAATGTTGGCGCTGAGGCCCTGGGCAG';

%求单个碱基丰度及丰度之比

x1为A、T、C、G的重复次数

x2为A、T、C、G的丰度

x1=zeros(8,4);

x2=zeros(8,4);

[u,y]=size(A1);

for j=1:y

m=A1(j);

switch m

case 'A';

x1(1,1)=x1(1,1)+1;

case 'T';

x1(1,2)=x1(1,2)+1;

case 'C';

x1(1,3)=x1(1,3)+1;

case 'G';

x1(1,4)=x1(1,4)+1;

end

end

x2(1,:)=x1(1,:)/y;

[u,y]=size(A2);

for j=1:y

m=A2(j);

switch m

case 'A';

x1(2,1)=x1(2,1)+1;

case 'T';

x1(2,2)=x1(2,2)+1;

case 'C';

x1(2,3)=x1(2,3)+1;

case 'G';

x1(2,4)=x1(2,4)+1;

end

end

x2(2,:)=x1(2,:)/y;

[u,y]=size(A3);

for j=1:y

m=A3(j);

switch m

case 'A';

x1(3,1)=x1(3,1)+1;

case 'T';

x1(3,2)=x1(3,2)+1;

case 'C';

x1(3,3)=x1(3,3)+1;

case 'G';

x1(3,4)=x1(3,4)+1;

end

end

x2(3,:)=x1(3,:)/y;

[u,y]=size(A4);

m=A4(j);

switch m

case 'A';

x1(4,1)=x1(4,1)+1;

case 'T';

x1(4,2)=x1(4,2)+1;

case 'C';

x1(4,3)=x1(4,3)+1;

case 'G';

x1(4,4)=x1(4,4)+1;

end

end

x2(4,:)=x1(4,:)/y;

[u,y]=size(A5);

for j=1:y

m=A5(j);

switch m

case 'A';

x1(5,1)=x1(5,1)+1;

case 'T';

x1(5,2)=x1(5,2)+1;

case 'C';

x1(5,3)=x1(5,3)+1;

case 'G';

x1(5,4)=x1(5,4)+1;

end

end

x2(5,:)=x1(5,:)/y;

[u,y]=size(A6);

for j=1:y

m=A6(j);

switch m

case 'A';

x1(6,1)=x1(6,1)+1;

case 'T';

x1(6,2)=x1(6,2)+1;

case 'C';

x1(6,3)=x1(6,3)+1;

case 'G';

x1(6,4)=x1(6,4)+1;

end

x2(6,:)=x1(6,:)/y;

[u,y]=size(A7);

for j=1:y

m=A7(j);

switch m

case 'A';

x1(7,1)=x1(7,1)+1;

case 'T';

x1(7,2)=x1(7,2)+1;

case 'C';

x1(7,3)=x1(7,3)+1;

case 'G';

x1(7,4)=x1(7,4)+1;

end

x2(7,:)=x1(7,:)/y;

end

[u,y]=size(A8);

for j=1:y

m=A8(j);

switch m

case 'A';

x1(8,1)=x1(8,1)+1;

case 'T';

x1(8,2)=x1(8,2)+1;

case 'C';

x1(8,3)=x1(8,3)+1;

case 'G';

x1(8,4)=x1(8,4)+1;

end

end

x2(8,:)=x1(8,:)/y;

%画散点图

subplot(2,2,1)

plot(1:8,x2(1:8,1),'*') xlabel('八种DNA序列') ylabel('A碱基丰度')

title('单个碱基丰度')

axis([1,8,0.15,0.45])

subplot(2,2,2)

plot(1:8,x2(1:8,2),'*')

xlabel('八种DNA序列')

ylabel('T碱基丰度')

axis([1,8,0.15,0.45])

hold on

subplot(2,2,3)

plot(1:8,x2(1:8,3),'*')

xlabel('八种DNA序列')

ylabel('C碱基丰度')

axis([1,8,0.15,0.45])

hold on

subplot(2,2,4)

plot(1:8,x2(1:8,4),'*')

xlabel('八种DNA序列')

ylabel('G碱基丰度')

axis([1,8,0.15,0.45])

(二)相邻碱基序列情况matlab程序

%求相邻碱基序列情况

A1_XX、A2_XX、A3_XX、A4_XX、A5_XX、A6_XX、A7_XX、A8_XX分别为十六种碱基相邻情况的分析结果

%以求A1样本为例,其余求解代码只需将A1分别改为A2、A3、A4、A5、A6、A7、A8即可

char m;

char n;

Yaa=0;Yag=0;Yat=0;Yac=0;

Yca=0;Ycc=0;Ycg=0;Yct=0;

Yga=0;Ygc=0;Ygg=0;Ygt=0;

Yta=0;Ytc=0;Ytg=0;Ytt=0;

[u,y]=size(A2);

for j=1:y-1;

m=A1(j);

n=A1(j+1);

switch m;

case'A'

switch n;

case'A'

Yaa=Yaa+1;

case'C'

Yac=Yac+1;

case'G'

Yag=Yag+1;

case'T'

Yat=Yat+1;

end

case'C'

switch n;

case'A'

Yca=Yca+1;

case'C'

Ycc=Ycc+1;

case'G'

Ycg=Ycg+1;

case'T'

Yct=Yct+1;

end

case'G'

switch n;

case'A'

Yga=Yga+1;

case'C'

Ygc=Ygc+1;

case'G'

Ygg=Ygg+1;

case'T'

Ygt=Ygt+1;

end

case'T'

switch n

case'A'

Yta=Yta+1;

case'C'

Ytc=Ytc+1;

case'G'

Ytg=Ytg+1;

case'T'

Ytt=Ytt+1;

end

end

end

A1_r=[Yaa,Yac,Yag,Yat;

Yca,Ycc,Ycg,Yct;

Yga,Ygc,Ygg,Ygt;

Yta,Ytc,Ytg,Ytt]

Y=Yaa+Yac+Yag+Yat+Yca+Ycc+Ycg+Yct+Yga+Ygc+Ygg+Ygt+Yta+Ytc+Ytg+Ytt; A1_XX=A1_X/Y

(三)求两个碱基间丰度之比

P(i,j)表示T/A、C/A、G/A、C/T、G/T、G/C

p=zeros(8,6);

for i=1:8;

p(i,1)=x1(i,2)/x1(i,1)

p(i,2)=x1(i,3)/x1(i,1)

p(i,3)=x1(i,4)/x1(i,1)

p(i,4)=x1(i,3)/x1(i,2)

p(i,5)=x1(i,4)/x1(i,2)

p(i,6)=x1(i,4)/x1(i,3)

End

%画出相应的散点图

subplot(2,3,1)

plot(1:8,x2(1:8,1),'+')

xlabel('八种DNA序列')

ylabel('T/A碱基丰度之比')

title('碱基对丰度之比')

axis([1,8,0,0.7])

hold on

subplot(2,3,2)

plot(1:8,x2(1:8,2),'+')

xlabel('八种DNA序列')

ylabel('C/A碱基丰度之比')

axis([1,8,0,0.7])

hold on

subplot(2,3,3)

plot(1:8,x2(1:8,3),'+')

xlabel('八种DNA序列')

ylabel('G/A碱基丰度之比')

axis([1,8,0,0.7])

hold on

subplot(2,3,4)

plot(1:8,x2(1:8,4),'+')

2000年全国大学生数学建模竞赛A题 DNA序列分类

2000年全国大学生数学建模竞赛A题DNA序列分类 2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。这本大自然写成的“天书”是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。 虽然人类对这部“天书”知之甚少,但也发现了DNA序列中的一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3 字符串,其中大多数用于编码构成蛋白质的20种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。 作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题: 1)下面有20个已知类别的人工制造的序列(见下页),其中序列标号1—10 为A类,1 1-20为B类。请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21—4 0)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入): A类__________ ;B类_______________ 。 请详细描述你的方法,给出计算程序。如果你部分地使用了现成的分类方法,也要将方法名称准确注明。 这40个序列也放在如下地址的网页上,用数据文件Art-model-data 标识,供下载: 网易网址:https://www.360docs.net/doc/518396686.html, 教育频道在线试题; 教育网: https://www.360docs.net/doc/518396686.html, New mcm2000 教育网: https://www.360docs.net/doc/518396686.html,/mcm 2)在同样网址的数据文件Nat-model-data 中给出了182个自然DNA序列,它们都较长。用你的分类方法对它们进行分类,像1)一样地给出分类结果。 提示:衡量分类方法优劣的标准是分类的正确率,构造分类方法有许多途径,例如提取序列

数学建模DNA序列分类模型终

DNA序列分类模型DNA序列分类模型

毕业设计(论文)原创性声明和使用授权说明 原创性声明 本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。 作者签名:日期: 指导教师签名:日期: 使用授权说明 本人完全了解大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。 作者签名:日期:

学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。 作者签名:日期:年月日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 涉密论文按学校规定处理。 作者签名:日期:年月日 导师签名:日期:年月日

DNA序列的一种分类方法

收稿日期:2002203210 作者简介:刘志(1965— )男,山东东平人,空军工程大学工程师文章编号:100123857(2002)Sup.20114203 D NA 序列的一种分类方法 刘 志 (空军工程大学导弹学院,陕西西安713800) 摘 要:基于小波变换和相关技术,提出了一种DNA 序列的分类方法.首先将DNA 序列转换成数字序列,然后对此序列进行Matlab 快速分解,计算未知类别序列与已知类别序列的相关系数,由此判定序列的类别.结果表明,该方法是切实可行的. 关键词:DNA 序列;相关技术;小波变换 中图分类号:O357 文献标识码:A 2000年6月,人类基因组计划中DNA 全部草图完成,预计2002年可以完成精确的全序列图,此后人类将拥有一本记录着自己生老病死及遗传进化的全部信息的“天书”.这本大自然写成的“天书”是由4个字符A ,T ,C ,G 按一定的顺序排成的长约30亿的序列,其中没有“断句”也没有“标点符号”,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂.破译这部世界上最巨量信息的天书是21世纪最重要的任务之一.虽然人类对这部天书知之甚少,但也发现了DNA 序列中的一些规律和结构.例如,在全序列中有一些是用于,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸.此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等.本文利用小波变换和相关技术,提出了一种DNA 序列的分类方法. 1 Matlab 快速算法 信号的小波分析相当于对信号加上一个可调的时—频窗.Matlab 根据多分辨分析的观点,利用共轭正交镜像滤波器,给出了离散小波变换的金字塔算法,使信号快速分解和重构得以实现.在Matlab 算法基础上,进一步对高频信号进行分解,将信号分解到不同的频带上,滤波时根据需要,选取所需频带内的信号进行重构,就可以完成信号的多通带滤波.小波变换不改变信号所引起的小波变换系数的极值点的位置,而噪声所引起的小波变换系数的极值点主要表现在第一、二尺度上,且随着尺度增大,小波系数的极值点越来越少.由第三级小波变换系数重构的信号的自相关函数的极大值的位置和原函数的自相关函数的极大值的位置完全相同,这是本文所提方案的依据.由第三级小波变换系数重构的信号的自相关函数图形比较光滑,而且,没有影响自相关函数的极大值的位置.此结论对信号检测非常有用. 根据多分辨分析理论,在二进正交小波基下,Matlab 快速算法[1]为 A k j f =∑n ∈Z h (n -2k )A n j -1f , j =1,2,…,J .第30卷 专 辑 陕西师范大学学报(自然科学版)Vol.30 Sup. 2002年5月Journal of Shaanxi Normal University (Natural Science Edition )May.2002

数学建模竞赛试题--基因识别问题及其算法实现

基因识别问题及其算法实现 一、背景介绍 DNA 是生物遗传信息的载体,其化学名称为脱氧核糖核酸(Deoxyribonucleic acid ,缩写为DNA )。DNA 分子是一种长链聚合物,DNA 序列由腺嘌呤(Adenine, A ),鸟嘌呤(Guanine, G ),胞嘧啶(Cytosine, C ),胸腺嘧啶(Thymine, T )这四种核苷酸(nucleotide )符号按一定的顺序连接而成。其中带有遗传讯息的DNA 片段称为基因(Gene )(见图1第一行)。其他的DNA 序列片段,有些直接以自身构造发挥作用,有些则参与调控遗传讯息的表现。 在真核生物的DNA 序列中,基因通常被划分为许多间隔的片段(见图1第二行),其中编码蛋白质的部分,即编码序列(Coding Sequence )片段,称为外显子(Exon ),不编码的部分称为内含子(Intron )。外显子在DNA 序列剪接(Splicing )后仍然会被保存下来,并可在 图1真核生物DNA 序列(基因序列)结构示意图 蛋白质合成过程中被转录(transcription )、复制(replication )而合成为蛋白质(见图2)。DNA 序列通过遗传编码来储存信息,指导蛋白质的合成,把遗传信息准确无误地传递到蛋白质(protein )上去并实现各种生命功能。 DNA 序列 外显子(Exon ) 内含子(Intron)

DNA序列 剪接、转录、复制 蛋白质序列 图2蛋白质结构示意图 对大量、复杂的基因序列的分析,传统生物学解决问题的方式是基于分子实验的方法,其代价高昂。诺贝尔奖获得者W.吉尔伯特(Walter Gilbert,1932—;【美】,第一个制备出混合脱氧核糖核酸的科学家)1991年曾经指出:“现在,基于全部基因序列都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设。” 随着世界人类基因组工程计划的顺利完成,通过物理或数学的方法从大量的DNA序列中获取丰富的生物信息,对生物学、医学、药学等诸多方面都具有重要的理论意义和实际价值,也是目前生物信息学领域的一个研究热点。 二、数字序列映射与频谱3-周期性: 对给定的DNA序列,怎么去识别出其中的编码序列(即外显子),也称为基因预测,是一个尚未完全解决的问题,也是当前生物信息学的一个最基础、最首要的问题。 基因预测问题的一类方法是基于统计学的[1]。很多国际生物数据网站上也有“基因识别”的算法。比如知名的数据网站https://www.360docs.net/doc/518396686.html,/GENSCAN.html提供的基因识别软件GENSCAN(由斯坦福大学研究人员研发的、可免费使用的基因预测软件),主要就是基于隐马尔科夫链(HMM)方法。但是,它预测人的基因组中有45000个基因,相当于现在普遍认可数目的两倍。另外,统计预测方法通常需要将编码序列信息已知的DNA序列作为训练数据

DNA序列分类实验报告

数理学院专业实践报告题目: 专业 学生姓名 班级学号 指导教师(签字) 指导教师职称 实习单位 负责人签字 日期

1.2000 年6月,人类基因组计划中DNA 全序列草图完成,预计2001 年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。这本大自然写成的“天书”是由4 个字符A,T,C,G 按一定顺序排成的长约30 亿的序列,其中没有“断句”也没有标点符号,除了这4 个字符表示4 种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。在这个目标中,研究DNA 全序列具有什么结构,由这4 个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。虽然人类对这部“天书”知之甚少,但也发现了DNA 序列中的一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4 个字符组成的64 种不同的3 字符串,其中大多数用于编码构成蛋白质的20 种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A 和T 的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA 序列的结构也取得了 一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA 序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA 全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。作为研究 DNA 序列的结构的尝试,提出以下对序列集合进行分类的问题:

19398-数学建模-DNA序列分类模型

DNA序列分类模型 陈荣生张海军张旭东指导教师:数模组 海军航空工程学院 摘要本文讨论了在给定A类和B类各10个DNA序列的情况下,如何找出判断DNA 序列类型的方法,并具体分析了DNA序列的局部特征,最后将总体特征与局部特征综合考虑。 文中我们先根据给出的已知类型的20组DNA序列,考虑了四个碱基及其组合形式出现的频率,以此为研究对象进行深入研究,并建立了两个数学模型,即信息熵模型和Z曲线模型,最后还给出了模型的改进方向。 本文采取的用Z曲线来研究DNA序列的方法很有意义。 一、问题的重述 2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,DNA全序列是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号。人们发现了DNA序列中的一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A 和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。 作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题: 1)下面有20个已知类别的人工制造的序列,其中序列标号1—10 为A类,11-20为B 类。请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21—40)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入): A类; B类。 请详细描述你的方法,给出计算程序。如果你部分地使用了现成的分类方法,也要将方法名称准确注明。 2),用你的分类方法对182个自然DNA序列进行分类,像1)一样地给出分类结果。二、问题的分析 为了找出分类方法,我们可以省略细节,突出特征,以某 种碱基出现的频率或以两种甚至三种碱基的组合出现的频率, 或者以几种碱基出现的频率之和为依据来考虑。现分别就A、 B两组DNA序列针对以下20个方面做一些简单分析: 1)A出现的频率; 2)C出现的频率; 3)G出现的频率; 4)T出现的频率;

DNA序列分类

DNA序列分类 2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。这本大自然写成的“天书”是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。 虽然人类对这部“天书”知之甚少,但也发现了DNA序列中的一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。 作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题: 1)下面有20个已知类别的人工制造的序列(见下页),其中序列标号1—10 为A类,11-20为B类。请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21—40)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入):A类;B类。 请详细描述你的方法,给出计算程序。如果你部分地使用了现成的分类方法,也要将方法名称准确注明。 2)在同样网址的数据文件Nat-model-data 中给出了182个自然DNA序列,它们都较长。用你的分类方法对它们进行分类,像1)一样地给出分类结果。 提示:衡量分类方法优劣的标准是分类的正确率,构造分类方法有许多途径,例如提取序列的某些特征,给出它们的数学表示:几何空间或向量空间的元素等,然后再选择或构造适合这种数学表示的分类方法;又例如构造概率统计模型,然后用统计方法分类等。 Art-model-data 1.aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggc cggaagtgaagggggatatgaccgcttgg 2.cggaggacaaacgggatggcggtattggaggtggcggactgttcggggaattattcggtttaaacgggacaaggaaggcggctg gaacaaccggacggtggcagcaaagga 3.gggacggatacggattctggccacggacggaaaggaggacacggcggacatacacggcggcaacggacggaacggaggaa ggagggcggcaatcggtacggaggcggcgga 4.atggataacggaaacaaaccagacaaacttcggtagaaatacagaagcttagatgcatatgttttttaaataaaatttgtattattatggt atcataaaaaaaggttgcga 5.cggctggcggacaacggactggcggattccaaaaacggaggaggcggacggaggctacaccaccgtttcggcggaaaggcg gagggctggcaggaggctcattacggggag 6.atggaaaattttcggaaaggcggcaggcaggaggcaaaggcggaaaggaaggaaacggcggatatttcggaagtggatattag gagggcggaataaaggaacggcggcaca

历年全国数学建模试题及其解法归纳

历年全国数学建模试题及解法归纳 赛题解法 93A非线性交调的频率设计拟合、规划 93B足球队排名图论、层次分析、整数规划94A逢山开路图论、插值、动态规划 94B锁具装箱问题图论、组合数学 95A飞行管理问题非线性规划、线性规划 95B天车与冶炼炉的作业调度动态规划、排队论、图论96A最优捕鱼策略微分方程、优化 96B节水洗衣机非线性规划 97A零件的参数设计非线性规划 97B截断切割的最优排列随机模拟、图论 98A一类投资组合问题多目标优化、非线性规划98B灾情巡视的最佳路线图论、组合优化 99A自动化车床管理随机优化、计算机模拟 99B钻井布局0-1规划、图论 00A DNA序列分类模式识别、Fisher判别、人工 神经网络 00B钢管订购和运输组合优化、运输问题 01A血管三维重建曲线拟合、曲面重建

赛题解法 01B 公交车调度问题多目标规划 02A车灯线光源的优化非线性规划 02B彩票问题单目标决策 03A SARS的传播微分方程、差分方程 03B 露天矿生产的车辆安排整数规划、运输问题 04A奥运会临时超市网点设计统计分析、数据处理、优化04B电力市场的输电阻塞管理数据拟合、优化 05A长江水质的评价和预测预测评价、数据处理 05B DVD在线租赁随机规划、整数规划 06A出版社书号问题整数规划、数据处理、优化06B Hiv病毒问题线性规划、回归分析 07A 人口问题微分方程、数据处理、优化07B 公交车问题多目标规划、动态规划、图 论、0-1规划 08A 照相机问题非线性方程组、优化 08B 大学学费问题数据收集和处理、统计分 析、回归分析 2009年A题制动器试验台的控制方法分析工程控制 2009年B题眼科病床的合理安排排队论,优化,仿真,综 合评价 2009年C题卫星监控几何问题,搜集数据

有限元计算原理与方法..

1.有限元计算原理与方法 有限元是将一个连续体结构离散成有限个单元体,这些单元体在节点处相互铰结,把荷载简化到节点上,计算在外荷载作用下各节点的位移,进而计算各单元的应力和应变。用离散体的解答近似代替原连续体解答,当单元划分得足够密时,它与真实解是接近的。 1.1. 有限元分析的基本理论 有限元单元法的基本过程如下: 1.1.1.连续体的离散化 首先从几何上将分析的工程结构对象离散化为一系列有限个单元组成,相邻单元之间利用单元的节点相互连接 而成为一个整体。单元可采用各种类 型,对于三维有限元分析,可采用四 面 体单元、五西体单元和六面体 单元等。在Plaxis 3D Foundation 程序中,土体和桩体主要采用包 含6个高斯点的15节点二次楔 形体单元,该单元由水平面为6 节点的三角形单元和竖直面为四 边形8节点组成的,其局部坐标 下的节点和应力点分布见图3.1,图3.1 15节点楔形体单元节点和应力点分布界面单元采用包含9个高斯点的 8个成对节点四边形单元。 在可能出现应力集中或应力梯度较大的地方,应适当将单元划分得密集些;

若连续体只在有限个点上被约束,则应把约束点也取为节点:若有面约束,则应 把面约束简化到节点上去,以便对单元组合体施加位移边界条件,进行约束处理; 若连续介质体受有集中力和分布荷载,除把集中力作用点取为节点外,应把分布 荷载等效地移置到有关节点上去。 最后,还应建立一个适合所有单元的总体坐标系。 由此看来,有限单元法中的结构已不是原有的物体或结构物,而是同样材料 的由众多单元以一定方式连接成的离散物体。因此,用有限元法计算获得的结果 只是近似的,单元划分越细且又合理,计算结果精度就越高。与位移不同,应力 和应变是在Gauss 积分点(或应力点)而不是在节点上计算的,而桩的内力则可通 过对桩截面进行积分褥到。 1.1. 2. 单元位移插值函数的选取 在有限元法中,将连续体划分成许多单元,取每个单元的若干节点的位移 作为未知量,即{}[u ,v ,w ,...]e T i i i δ=,单元体内任一点的位移为{}[,,]T f u v w =。 引入位移函数N (x,y,z )表示场变量在单元内的分布形态和变化规律,以便用 场变量在节点上的值来描述单元内任一点的场变量。因此在单元内建立的位移模 式为: {}[]{}e f N δ= (3-1) 其中:12315[][,,......]N IN IN IN IN =,I 为单位矩阵。 按等参元的特性,局部坐标(,,)ξηζ到整体坐标,,x y z ()的坐标转换也采用 与位移插值类似的表达式。经过坐标变化后子单元与母单元(局部坐标下的规则 单元)之间建立一种映射关系。不管内部单元或边界附近的单元均可选择相同的 位移函数,则为它们建立单元特性矩阵的方法是相同的。因此,对于15节点楔 形体单元体内各点位移在整体坐标系,,x y z ()下一般取:

DNA序列的分类与判别分析

DNA序列的分类与判别分析 摘要: 本文对DNA 序列分类问题进行了讨论.。从“不同序列中碱基含量不同”入手,建立了欧氏距离判别模型、马氏距离判别模型以及Fisher准则判定模型。接着,本文对三种分类算法进行了对比, 对算法的稳定性进行了讨论。 关键词:DNA分类;欧氏距离;马氏距离;Fisher判别; DNA sequence classification and discriminant analysis MA Fuyu School of Management and Economics, China University of Geosciences, P.R.China, 430074 Abstract: In this paper, the classification of DNA sequences are discussed. From the “content of different base sequence in a different” approach, the establishment of a discriminant model of Euclidean distance, Mahalanobis distance, as well as Fisher discriminant model to determine the model guidelines. Then, this paper three classification algorithms were compared, the stability of the algorithm are discussed. Keywords: DNA taxonomy; Euclidean distance; Mahalanobis distance; Fisher Discriminant 1、问题的重述 2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。这本大自然写成的“天书”是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。 虽然人类对这部“天书”知之甚少,但也发现了DNA序列中的一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于

DNA序列分类

DNA序列分类

实验目的 学习利用MATLAB提取DNA序列特征建立向量的方法,掌握利用FCM命令进行DNA 分类的方法,学会做出分类图形直接给出分类结果的MATLAB编程。 知识扩展 DNA序列分类 DNA(Deoxyribonucleic acid),中文译名为脱氧核苷酸,是染色体的主要化学成分,同时也是基因组成的,有时被称为“遗传微粒”。DNA是一种分子,可组成遗传指令,以引导生物发育与生命机能运作。主要功能是长期性的资讯储存,可比喻为“蓝图”或“食谱”。DNA分子是由两条核苷酸链以互补配对原则所构成的双螺旋结构的分子化合物。其中两条DNA链中对应的碱基A-T以双键形式连接,C-G以三键形式连接,糖-磷酸-糖形成的主链在螺旋外侧,配对碱基在螺旋内侧。 FCM算法中样本点隶属于某一类的程度是用隶属度来反映的,不同的样本点以不同的隶属度属于每一类;但是算法中的概率约束∑uij=1使得样本的典型性反映

不出来,不适用于有噪音,样本分布不均衡,存在两个或者两个以上样本分别距两个类的距离相等的样本等等。 欧氏距离( Euclidean distance)也称欧几里得距离,它是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离。 公式 在二维和三维空间中的欧式距离的就是两点之间的距离,二维的公式是 d = sqrt((x1-x2)^+(y1-y2)^) 三维的公式是 d=sqrt(x1-x2)^+(y1-y2)^+(z1-z2)^) 推广到n维空间,欧式距离的公式是 d=sqrt( ∑(xi1-xi2)^ ) 这里i=1,2..n xi1表示第一个点的第i维坐标,xi2表示第二个点的第i维坐标 n维欧氏空间是一个点集,它的每个点可以表示为(x(1),x(2),...x(n)),其中x(i)(i=1,2...n)是实数,称为x的第i个坐标,两个点x和y=(y(1),y(2)...y(n))之间的距离d(x,y)定义为上面的公式. 欧氏距离判别准则如下: 若dAdB,则将Xi点判为B类 若dA=dB,则将Xi点判为不可判别点。 欧氏距离看作信号的相似程度。距离越近 1.问题的提出 2000年6月,人类基因组计划中DNA全序列草图完成,预计2001以完精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗的全部信息的“天书”,这本大自然写成的“天书”,是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂,破译这部世界上最巨量信息的“天书”是21实际最重要的任务之一。在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学最重要的课题之一。 2.问题的分析 这是一个比较典型的分类问题,为了表述的严格和方便,我们用数学的方法来重述这个问题。在这里问题的关键就是要从已知的20个字母序列中提取用于分类的特征。知道了这些特征,我们就可以比较容易的,对那些未标明类型的序列进行分类,下面我们将首先对用于分类的标准问题进行必要的讨论。 3.分类的方法 为了在众多可能的分类中寻求合理的分类结果,为此,就要确定合理的聚类准则。定义目标函数为

15春学期《移动计算理论与技术》在线作业

15春学期《移动计算理论与技术》在线作业 试卷总分:100 测试时间:-- 单选题多选题判断题 一、单选题(共10 道试题,共20 分。)V A 1. ()的全称是安全开放的移动Agent。。 A. SOMA B. LIME C. CARISMA D. JADE 满分:2 分 D2. ()将总频段划分为若干占用较小带宽的频段,这些频段在频域上互不重叠,每个频段就是一个通信信道,将它分配给一个用户。在接收设备中使用带通滤波器允许指定频段里的能量通过,但滤除其他频率的信号,从而抑制临近信道之间的相互干扰。。 A. TDMA B. CDMA C. SDMA D. FDMA 满分:2 分 B3. 1995年,德国斯图加特大学设计开发出()系统。该系统基于纯Java,也是最早用Java 语言实现的移动Agent系统之一。 A. Aglets B. Mole C. D' Agent D. Telescript 满分:2 分 A4. 在宏观层次上,移动终端的节能技术大致可以分为:()。 A. 节能硬件设计 B. 软件节能设计 C. 无线通信节能设计 D. 可适应性能源管理 满分:2 分 C5. 码分多址是()。 A. FDMA B. TDMA C. CDMA 满分:2 分 A6. ()是射频通信协议,它可以仿真串行电缆接口协议(如RS-232、V24等) ,可以在无线环境下实现对高层协议(如PPP、TCP/IP、WAP等协议)的支持。。 A. RFCOMM B. LMP C. L2CAP D. SDP

满分:2 分 D7. 红外线链路访问协议是()。 A. IrDASIR B. IrLAP C. IrLMP 满分:2 分 B8. ()作为一个开源软件平台,是根据P2P应用需求开发的移动中间件。 A. SOMA B. LIME C. CARISMA D. JADE 满分:2 分 A9. ()系统主要由3部分组成:一是编写Agent和场所的语言,二是语言解释器,三是实现引擎交换的移动Agent通信协议。在Telescript当中主要实现了以下基本概念:Agent、场所、旅行、会晤、授权和许可证。 A. Telescript B. Aglets C. Mole D. D' Agent 满分:2 分 C10. 时分多址是()。 A. FDMA B. CDMA C. TDMA 满分:2 分 二、多选题(共15 道试题,共30 分。)V ABCDE1. 移动Agent关键技术有()。 A. 通信 B. 迁移 C. 定位 D. 安全 E. 容错 满分:2 分 ABC2. 移动计算模型大体上分为()。 A. 移动客户/服务器模型 B. 移动对等(P2P)模型 C. 移动Agent模型 满分:2 分 ABCD3. 按照时间耦合与空间耦合的特性,现有的移动Agent协同模型大致可以分为()。 A. 直接协同模型 B. 面向会晤协同模型

DNA序列研究数学建模问题

题目 DNA 序列 摘要 本文主要研究DNA 序列的结构问题,通过建立相应的数学模型,对DNA 序列中所隐藏的规律进行研究和分析,给出了解决问题的最优方案,并且对模型进行了评价和推广。 对于问题一,为了挖掘DNA 序列的特征将其分为A 类和B 类,以20种基本氨基酸为目标,利用Matlab 软件编程得出每一行每一种氨基酸出现的概率;再运用主成分分析法进行降维,利用SPSS 软件进行数据处理得到矩阵;然后再将模糊聚类问题转化为如下优化问题: 211 1 min (,)(()) ..1(1,2, 6) 01 n c q ik ik k i c ik i ik J U V u d s t u k u ======≤≤∑∑∑ 用模糊聚类分析方法来获取样本与聚类中心的加权距离最小的最佳分类,使其分 题一相同的方法进行分类,分类结果见问题二的求解。 总的来说,本模型在未知数据特征的情况下很好的将数据进行分类,成功地解决了此次数学建模的DNA 序列问题,是聚类分析问题的一个有效而且具有较强实用性的方法。 关键词:主成分分析 模糊聚类分析 Matlab 软件 Spss 软件

一、问题重述 1.1背景分析 随着DNA测序时代的到来,越来越多生物的全基因组序列正逐渐展现于人们的眼前。如何从中挖掘有用的信息成为对当今生物学乃至整个科学领域的一个挑战。本文主要致力于对DNA序列结构以及序列中所隐藏规律的研究。 1.2问题重述 2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。这本大自然写成的“天书”是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学(Bioinformatics)最重要的课题之一。 虽然人类对这部“天书”知之甚少,但也发现了DNA序列中的一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸。又例如,在不用于编码蛋白质的序列片段中,A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等。这些发现让人们相信,DNA序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。 作为研究DNA序列的结构的尝试,提出以下对序列集合进行分类的问题:问题一:下面有20个已知类别的人工制造的序列(见附录),其中序列标号1—10 为A类,11-20为B类。请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。然后用你认为满意的方法,对另外20个未标明类别的人工序列(标号21—40)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入): A类; B类。 请详细描述你的方法,给出计算程序。如果你部分地使用了现成的分类方法,也要将方法名称准确注明。

DNA序列的分类模型

第31卷第1期2001年1月 数学的实践与认识 M A TH EM A T I CS I N PRA CT I CE AND TH EO R Y V o l131 N o11  Jan.2001  D NA序列的分类模型 汤诗杰, 周 亮, 王晓玲 指导老师: 孙广中 (中国科技大学,合肥 230026) 编者按: 本文提出了DNA序列分类的三种模型,其一,基于A、G、T、C四种碱基出现的频率;其二利用了 同一碱基在序列中的间隔,这一信息是单纯考虑频率所不能包含的;在第三种模型中,作者把DNA序列视 为一个信息流,考虑每增加一个字符所带来的信息增量.尽管文中信息量的定义方式仍可讨论,但本文思想新颖活跃,有其独特之处.本文最后的分类方法,是以上三种的综合使用. 摘要: 本文针对DNA序列分类这个实际问题,提出了相应的数学模型.为了很好的体现DNA序列的局 部性和全局性的特征,我们给出了衡量分类方法优劣的标准,即在满足一定限制条件的情况下,是否能充分反映序列的各方面特性. 依据我们提出的判别标准,单一标准的分类是无法满足要求的.我们的方法是侧重点不同的三种方法的综合集成.这三种方法分别体现了序列中元素出现的概率,序列中元素出现的周期性,序列所带有的信息含量.利用这个方法,完成了对未知类型的人工序列及自然序列的分类工作.最后,对分类模型的优缺点进行了分析,并就模型的推广作了讨论. 1 问题的提出(略) 2 问题的分析 这是一个比较典型的分类问题,为了表述的严格和方便,我们用数学的方法来重述这个问题.已知字母序列S1,S2,S3……S40,S i=x1x2x3…x n i,其中x j∈{a,t,c,g};有字符序列集合A,B,满足A∩B=<,并当1ΦiΦ10时,S i∈A;当11ΦiΦ20时,S i∈B.现要求考虑当21ΦiΦ40时,S i与集合A及集合B的关系. 在这里,问题的关键就是要从已知的分好类的20个字母序列中提取用于分类的特征.知道了这些特征,我们就可以比较容易的对那些未标明类型的序列进行分类.下面我们将首先对用于分类的标准问题进行必要的讨论. 3 分类的标准及评价 首先,我们提取的特征应该满足以下两个条件: (1)所取特征必须可以标志A组和B组.也就是说,我们利用这些特征应该可以很好的区分已经标示分类的20个序列.这是比较显然的一个理由. (2)所取特征必须是有一定的实际意义的.这一点是决不能被忽视的.比如,如果不考虑模型的实际意义,我们就可以以序列的开头字母为分类标准:已知在B类中的十个序列都是以g t开始的,而已知在A类中10个序列没有以g t开始的,甚至以g开始的都没有.显然这是满足上面的第一个条件的.如果仅因此就认为这种特征是主要的,并简单的利用这个特征将所有待分类的序列分成两类,显然是不甚合理的.

DNA序列问题模型详解

2015年芜湖三校数学建模竞赛 题目 DNA序列问题模型 摘要 DNA 序列是由A,T,G,C 四个表示4 种碱基的字符组成的序列。本文研究DNA 序列的结构找出序列间的差异和对八个物种的DNA序列进行分类。 对于问题一首先对数据运用数理统计方法对数据进行计算,得到八个物种的DNA序列的碱基的丰度、碱基的重复出现情况、碱基之间的相邻情况、不同碱 基的丰度之比的四个特征,通过对这四个特征作出相应的散点图比较得出八个物种的DNA序列间的差异:Human 、Opossum、 Lemur 、Rat等4种DNA序列的长度相同,其他四种DNA序列的长度各不相同,每种DNA序列四种碱基的的 重复情况也各不相同;G碱基的丰度相对于本序列的其他碱基的丰度都要高,碱基A的丰度在各个序列中丰度差不多,其他三种碱基在序列中波动性较大,差异性较大;8种DNA序列中GG、GT的相邻的状况比较明显;各个DNA序列中碱基 丰度比 f、GT f、CT f含量差不多且都含量比较高;其中,DNA序列中TA f、CA f、 GC f含量差不多且都含量比较低。 GA 对于问题二我们首先通过对问题一散点图的分析选取以碱基的丰度和碱基间的丰度之比为分类的指标,构建为分类的特征向量,但这些特征向量之间存在着一定的相关性,我们运用R型聚类选择出相关性程度差的特征向量为Q型聚类的指标。通过Q型聚类我们将这8种DNA序列分为3种分类方式,通过利用means方法,检验各类别在所有变量上的差异,再利用单因素方差分析最终确定将8种DNA序列分为四类。分类结果如下: 第一类:Human 、Mouse; 第二类:Goat、Rabbit; 第三类:Opossum、 Lemur 、Rat ; 第四类:Gallus。 关键词:数理统计;R型聚类;Q型聚类;means法;单因素方差分析法 1 问题重述 DNA 序列是由A,T,G,C 四个表示4 种碱基的字符组成的序列。研究DNA 序列的结构及序列中隐藏的规律,成为生物信息学的重要研究课题。根据表 1 中八个物种的β-球蛋白基因的第一个外显子序列,请解决以下问题: 1.建立数学模型刻画序列间的差异; 2. 对表1中八个物种的DNA序列进行分类。 2 基本假设

移动计算理论与技术复习完整版

移动计算理论与技术复 习

一、客观部分:(单项选择、多项选择、不定项选择、判断) (一)、单选题。 1、()是射频通信协议,它可以仿真串行电缆接口协议(如RS-23 2、V24等),可以在无线环境下实现对高层协议(如PPP、TCP/IP、WAP等协议)的支持。 A、RFCOMM B、LMP C、L2CAP D、SDP ★1-3题的考核知识点:蓝牙协议栈 附2.2.2:(考核知识点解释) RFCOMM是射频通信协议,它可以仿真串行电缆接口协议(如RS-232、V24等),可以在无线环境下实现对高层协议(如PPP、TCP/IP、WAP等协议)的支持。另外,RFCOMM协议可以支持AT命令集,从而可实现移动电话和传真机及调制解调器之间的无线连接。蓝牙协议可以固化为一个芯片,嵌入到各种各样的智能终端中。 2、时分多址是()。 A、TDMA B、FDMA C、CDMA D、以上全不是 ★4-5题的考核知识点:多址接入技术的方式 附2.1.4:(考核知识点解释)多址接入 在无线通信环境的电波覆盖区内,如何建立用户之间无线信道的连接是多址接入(multipleaccess)问题。现阶段,主要的多址接入技术包括3种方式,即频分多址(FDMA)、时分多址(TDMA)和码分多址(CDMA)。在实际应用技术中还有一些从这3种基本方式派生出来或集成的多址方式,如DAMA(按需分配多址----卫星通信中采用)、TDMA/FDMA、CDMA/FDMA等。此外,还有PDMA(极分多址)、SDMA(空分多址)等多址接入。以下简要介绍TDMA、FDMA、SDMA与CDMA4种多址接入方式。 3、()将总频段划分为若干占用较小带宽的频段,这些频段在频域上互不重叠,每个频段就是一个通信信道,将它分配给一个用户。在接收设备中使用带通滤波器允许指定频段里的能量通过,但滤除其他频率的信号,从而抑制临近信道之间的相互干扰。 A、TDMA B、FDMA C、CDMA D、SDMA ★6-7题的考核知识点:频分多址FDMA 附2.1.4:(考核知识点解释) FDMA将总频段划分为若干占用较小带宽的频段,这些频段在频域上互不重叠,每个频段就是一个通信信道,将它分配给一个用户。在接收设备中使用带通滤波器允许指定频段里的能量通过,但滤除其他频率的信号,从而抑制临近信道之间的相互干扰。FDMA通信系统的基站必须同时发射和接收多个不同频率的信号,任意两个移动用户之间进行通信都必须经过基站的中转,因而必须占用4个频段才能实现双工通信。移动终端通信结束后,将退出它占用的频段,这些频段又可以重新分配给别的用户使用。 4、()作为一个开源软件平台,是根据P2P应用需求开发的移动中间件。 A、SOMA B、CARISMA C、JADE D、LIME ★8-10题的考核知识点:移动中间件,参见P155 附6.5.4:(考核知识点解释)JADE JADE作为一个开源软件平台,是根据P2P应用需求开发的移动中间件。JADE符合FIPA规范的标准Agent平台,因此能够与其他符合FIPA规范的移动Agent系统实现兼容,从而有助于多Agent 系统的实现。JADE的体系结构是完全模块化的,通过激活其中的某些模块就可以在连接性、内存和处理能耗等方面满足某些应用的特定需求。 5、()系统主要由3部分组成:一是编写Agent和场所的语言,二是语言解释器,三是实现引擎交换的移动Agent通信协议。在Telescript当中主要实现了以下基本概念::Agent、场所、旅行、会晤、授权和许可证。

相关文档
最新文档