数学建模_DNA序列分类(2000年竞赛题)

DNA

序列分类

摘要本问题是一个“有人管理分类问题”。首先分别列举出20个学习样本序列中1字符串、2字符串、3字符串出现的频率，构成含41个变量的基本特征集，接着用主成分分析法从中提取出4个特征。然后用Fisher线性判别法进行分类，得出了所求20个人工制造序列及182个自然序列的分类结果如下：

1）20个人工序列：22, 23，25，27，29，34，35，36，37为A类，其余为B类。2）182个自然序列：1，4，8，10，27，29，32，41，43，48，54，63，70，72，75，

76，81，86，90，92，102，110，116，119，126，131，144，150，157，159，160，161，162，163，164，165，166，169，170，182为B类，其余为A类。

最后通过检验证明所用的分类数学模型效率较高。

一.问题重述

人类基因组计划中DNA全序列草图是由4个字符A，T，C，G按一定顺序排成的长约30亿的序列，其中没有“断句”也没有标点符号。虽然人类对它知之甚少，但也发现了其中的一些规律性和结构。例如，在全序列中有一些是用于编码蛋白质的序列片段，即由这4个字符组成的64种不同的3字符串，其中大多数用于编码构成蛋白质的20种氨基酸。又例如，在不用于编码蛋白质的序列片段中，A和T的含量特别多些，于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外，利用统计的方法还发现序列的某些片段之间具有相关性，等等。这些发现让人们相信，DNA序列中存在着局部的和全局性的结构，充分发掘序列的结构对理解DNA全序列是十分有意义

的。目前在这项研究中最普通的思想是省略序列的某些细节，突出特征，然后将其表示成适当的数学对象。

作为研究DNA序列的结构的尝试，提出以下对序列集合进行分类的问题：

1）请从20个已知类别的人工制造的序列（其中序列标号1—10 为A类，11-20为B类）中提取特征，构造分类方法，并用这些已知类别的序列，衡量你的方法是否足够好。然后用你认为满意的方法，对另外20个未标明类别的人工序列（标号21—40）进行分类，把结果用序号（按从小到大的顺序）标明它们的类别（无法分类的不写入）

2）同样方法对182个自然DNA序列(它们都较长)进行分类，像1）一样地给出分类结果。

二.模型的合理假设

1．各序列中DNA碱基三联组（即3字

符串）的起始位置和基因表达不影响分

类的结果。

2．64种3字符串压缩为20组后不影响

分类的结果。

3．较长的182个自然序列与已知类别的

20个样本序列具有共同的特征。

三.模型建立与求解

研究DNA序列具有什么结构，其A，T，C，G4个碱基排成的看似随机的序列中隐藏着什么规律，是解读人类基因组计划中DNA 全序列草图的基础，也是生物信息学（Bioinformaties）最重要的课题之一。

题目给出了20个已知为两个类别的人工制造的DNA序列，要求我们从中提取特征，构造分类方法，从而对20个未标明类别的人工DNA序列和182个自然DNA序列进行分类。这是模式识别中的“有人管理分类”问题，即事先规定了分类的标准和种类的数目，通过大批已知样本的信息处理找出规律，再用计算机预报未知。给出的已知类别

的样本称为学习样本。对于此类问题，我们通过建立分类数学模型（这包括形成和提取特征以及制定分类决策）、考查分类模型的效率、预报未知这几个步骤来进行。

一．特征的形成和提取

为了有效地实现分类识别，首先要根据被识别的对象产生一组基本特征，并对基本特征进行变换，得到最能反映分类本质的特征。这就是特征形成和提取的过程。在列举了尽可能完备的特征参数集之后，就要借助于数学的方法，使特征参数的数目（在保证分类良好的前提下）减到最小。这是因为：1.多余的特征参数不但没有多少好处，而且会带来噪音，干扰分类和数学模型的建立。

2.为了保证样本数和特征参数个数的比值足够大，而又不必要用太多的样本，最好使特征参数的个数降至最少。模式识别计算一般要求样本数至少为变量数的3倍，否则结果不够可靠。本问题的学习样本数为20个，

故特征参数的个数以6—8个为宜。

我们通过研究4个字符A,T,C,G在DNA

序列中的排列、组合特性，主要是研究字符

和字符串的排列在序列中出现的频率，从中

提取DNA序列的结构特征参数。

（一）特征的形成

分别列举一个字符，2个字符，3个字符

的排列在序列中出现的频率，构成基本特征

集。

i.1个字符的出现频率

表1列出了20个样本中A，T，C，G

这4个字符出现的频率。由于在不用于编码

蛋白质的序列片段中，A和T的含量特别多

些，因此我们将A和T是否特别丰富作为

一个特征。在表一中，列出了A和T出现

的频率之和。(程序见附录一)

表 1

A C T G A+T

1. 29.73 17.12 13.51 39.64 43.24

2. 27.03 16.22 15.32 41.44 42.34

3. 27.03 21.62 6.31 45.05 33.33

4. 42.34 10.81 28.83 18.02 71.17

5. 23.42 23.42 10.81 42.34 34.23

6. 35.14 12.61 12.61 39.64 4

7.75

7. 35.14 9.91 18.92 36.04 54.05

8. 27.93 16.22 18.92 36.94 46.85

9. 20.72 20.72 15.32 43.24 36.04

10. 18.18 27.27

13.64 40.91 31.82

11. 35.45 4.55

50.00 10.00 85.45

12. 32.73 2.73 50.00 14.55 82.73

13. 25.45 10.00 51.82 12.73 77.27

14. 30.00 8.18 50.00 11.82 80.00

15. 29.09 .00 64.55 6.36 93.64

16. 36.36 8.18 46.36 9.09 82.73

17. 35.45 24.55 26.36 13.64 61.82

18. 29.09 11.82 50.00 9.09 79.09

19. 21.82 14.55 56.36 7.27 78.18

20. 20.00 17.27 56.36 6.36 76.36

2．2字符串的排列出现的频率

A，T，C，G这4个字符组成了16种不同的2字符串。表2列出了20个样本中各2字符串出现的频率。（用“滚动”算法，如attcg有at,tt,tc,cg共4个2字符串）(程序与附录一类似)

表 2

AA AC AT AG TA TC TG TT CA CT CC CG GA GT GC GG

1. 9.01 9.01 3.60 8.11 4.50 .90 4.50 3.60 3.60 3.60 1.80 8.11 11.7 1

2.70 5.41 18.92

2. 9.91 7.21

3.60 5.41 2.70 1.80 5.41 5.41

4.50 1.80 .90 9.01 9.91 4.50

5.41 21.62

3. 5.41 11.71 3.60 5.41 2.70 1.80 .90 .90 5.41 .90 .90 1

4.41 13.51 .90 7.21 23.42

4. 18.92

5.41 11.71 5.41 10.81 1.80 5.41 10.81 5.41 1.80 .90 2.70

6.31 4.50 2.70

4.50

5. 6.31 8.11 1.80 7.21 1.80 2.70 2.70 3.60 5.41 4.50 2.70 10.81 9.91 .90 9.01 21.62

6. 15.32 2.70 6.31 9.91 3.60 1.80 1.80 5.41 4.50 .00 .00 8.11 10.81 .90 8.11 19.82

7. 15.32 1.80 10.81 7.21 4.50 2.70 6.31 5.41 .90 1.80 .90 6.31 13.51 .90 4.50 16.22

8. 8.11 3.60 6.31 9.91 5.41 3.60 2.70 7.21 2.70 3.60 1.80 8.11 10.81 1.80 7.2116.22

9. 9.01 .90 4.50 6.31 .00 3.60 7.21 4.50 3.60 2.70 2.70 11.71 7.21 3.60 13.5118.02

10. 6.36 3.64 1.82 6.36 1.82 5.45 2.73 3.64 5.45 3.64 4.55 13.64 4.55 3.64 13.64 18.18

11. 15.45 2.73 14.55 2.73 16.36 .91 1.82 30.00 .91 .91 .91 1.82 2.73 4.55 .00 2.73

12. 13.64 .91 10.91 6.36 15.45 1.82 1.82 30.91 .91 .91 .00 .91 2.73 7.27 .00 4.55

13. 6.36 4.55 10.00 4.55 12.73 1.82 2.73 34.55 2.73 2.73 1.82 1.8 2 3.64 4.55 1.82 2.73

14. 8.18 .91 12.73 7.27 13.64 6.36 1.82 28.18 2.73 4.55 .00 .91 5.45 4.55 .91 .91

15.13.64 .00 12.73 1.82 13.64 .00 2.73 48.18 .00 .00 .00 .00 1.82 3.64 .00 .91

16. 16.36 3.64 15.45 .9113.64 4.55 4.55 22.73 1.82 5.45 .00 .91 4.55 2.73 .00 1.82

17.17.27 5.45 10.91 1.82 10.00 6.36 4.55 5.45 4.55 7.27 9.09 2.73 3.64 2.73 3.64 3.64

18.8.18 7.27 11.82 1.82 15.45 1.82 .91 30.91 3.64 3.64 1.82 2.73 1.82 3.64 .91 2.73

19.2.73 2.73 13.64 1.82 14.55 9.09 .913

1.82 1.82 8.18 1.82

2.73 2.73

2.73 .91 .91

20. 6.36 6.36 6.36 .91 9.09 10.00 3.64 32.73 2.73 13.64 .91 .00 1.82 3.64 .00 .91

3．3字符串的排列出现的频率

A，T，C，G这4个字符组成了64种不同的3字符串。这64种3字符串构成生物蛋白质的20种氨基酸。在参考文献[1]的Figur2中，给出了这20种氨基酸的编码（见图1）。因此，在计算3字符串的出现频率时，我们根据图1将代表同一种氨基酸的3字符串合成一类，只统计20类3字符串的出现频率。（不考虑字符串在序列片段中的起始位置，也采用“滚动”算法。如acgtcc中就有acg,cgt,gtc,tcc共4个3字符串）见表3。

(程序与附录一类似)

Figure 2. Symmetries of the diamond code sort the 64 codons into 20 classes, indicated here by 20 colors. All the codons in each class specified the same amino acid.

图 1 Brian Hayes 在论文“The Invention of the Genetic Code”中给出的图形

（注：图中DNA被转录为RNA,“U”代表“T”）

表 3

b1 b2 b3 b4 b5 b6 b7 b8 b9 b10 b11 b12 b13 b14 b15 b16 b17 b18 b19 b20

1 1.77 3.54 2.65 0.88 0.00 0.00 7.96 0.88 4.4

2 2.65 17.70 10.62 3.54 4.42 4.42 7.08 1.77 3.54 13.27 7.08

2 1.89 1.89 0.94 0.94 0.00 0.94 1.89 0.94 4.72 12.26 7.55 11.32 8.49 3.77 3.77 6.60 9.4

3 6.60 7.55 2.83

3 0.98 0.00 0.00 5.88 0.98 8.82 2.9

4 0.00 0.00 2.94 10.78

5.88 13.73 0.00 4.90 3.92 19.61 1.96 8.82 5.88

4 0.00 0.00 0.00 0.87 0.00 0.87 13.04 1.74 6.09 2.61 11.30 13.04 3.48 5.22 3.48 8.70 3.48 1.74 14.78，7.83

5 2.8

6 0.00 0.00 3.81 0.95 3.81 3.81 0.00 3.81 3.81 9.52 9.52 12.38 2.86 9.52 4.76 7.62 2.86 7.62 9.52

6 0.00 0.00 0.88 2.63 0.00 1.75 13.16 0.88 4.39 1.75 14.04 9.65 7.02 5.26 4.39 11.40 2.63 1.75 10.53 6.14

7 1.92 0.00 0.00 2.88 0.96 4.81 2.88 0.00 1.92 4.81 12.50 6.73 13.46 1.92 6.73 4.81 10.58 3.85 9.62 7.69

8 2.56 3.42 0.00 0.85 0.85 0.85 12.82 0.85 1.71 0.85 20.51 2.56 3.42 9.40 5.98 11.11 0.85 4.27 11.97 3.42

9 0.00 0.00 0.00 2.97 2.97 9.90 2.97 0.00 0.99 3.96 6.93 1.98 13.86 1.98 2.97 3.96 23.76 2.97 8.91 6.93

10 1.87 0.93 3.74 2.80 0.00 0.00 2.80 0.00 7.48 8.41 9.35 7.48 3.74 14.95 12.15 0.00 2.80 4.67 7.48 7.48

11 0.00 0.89 0.00 0.00 0.00 1.79 8.04 0.00 5.36 4.46 15.18 8.04 8.93 4.46 3.57 8.04 4.46 6.25 13.39 5.36

12 2.73 0.00 0.91 2.73 0.91 3.64 4.55 3.64 3.64 1.82 9.09 5.45 3.64 5.45 6.36 7.27 8.18 5.45 10.91 9.09

13 1.80 0.90 0.90 0.90 0.00 0.90 9.01 0.00 3.60 7.21 14.41 8.11 7.21 6.31 7.21 4.50 1.80 7.21 11.71 4.50

14 2.94 0.00 0.00 5.88 0.00 6.86 1.96 0.00 3.92 6.86 3.92 9.80 13.73 0.98 5.88 2.94 10.78 0.98 1 0.78 9.80

15 2.91 1.94 2.91 1.94 0.00 5.83 1.94 0.00 1.94 9.71 5.83 8.74 10.68 1.94 3.88 3.88 8.74 2.91 11.65 10.68

16 2.86 0.95 0.00 11.43 1.90 1.90 2.86 0.00 4.76 3.81 5.71 8.57 8.57 6.67 9.52 4.76 5.71 2.86 7.62 7.62

17 1.92 0.96 1.92 4.81 1.92 3.85 1.92 0.96 0.96 6.73 4.81 8.65 10.58 2.88 6.73 2.88 9.62 6.73 8.65 7.69

18 1.71 0.85 1.71 0.85 0.85 2.56 16.24 0.85 1.71 0.85 16.24 5.13 6.84 5.98 3.42 11.11 1.71 5.13 11.11 3.42

19 0.94 0.94 1.89 0.94 0.94 0.94 1.89 0.94 10.38 7.55 5.66 9.43 8.49 8.49 7.55 5.66 6.60 11.32 6.60 0.94

20 0.86 0.86 0.00 1.72 0.86 0.86 17.24 0.86 2.59 1.72 15.52 7.76 5.17 3.45 4.31 9.48 5.17 5.17 9.48 5.17

其中b1 =aaa+ata b2=aca+aga b3=cac+ctc

b4=ccc+cgc

b5 =gag+gtg b6=gcg+ggg b7=tat+ttt b8=tct+tgt

b9 =aac+caa+atc+cta b10=aag+gaa+atg+gta

b11=aat+taa+att+tta

b12=acc+cca+agc+cga

b13=acg+gac+ctg+gtc

b14=act+tca+agt+tga

b15=cag+gac+ctt+ttc

b16=cat+tac+ctt+ttc

b17=ccg+gcc+cgg+ggc

b18=cct+tcc+cgt+tgc

b19=gat+tag+gtt+ttg

b20=gct+tcg+ggt+tgg

综合起来，形成了有41个变量的基本特征集。

(二)特征的提取

上述基本特征集中有41个变量，即样

本处于一个高维空间中。特征的提取就是

通过变换的方法用低维空间来表示样本，

使得X 的大部分特性能由Y 来表达，即

将p 维随机向量X 变换成q 维随机向量 Y

（q

提取，其步骤是：

1．求X 的均方差矩阵V 的特征根，记

为：

λ1≥λ2≥……≥λk ＞0 λ

k+1=……=λP =0

2．求λ1,λ2……λK 对应的标准正交

的特征向量r 1，r 2……r K

得到第i 个主成分为y i =r i X, i=1,2……

3．求第i 个主成分的贡献率u i =λi / ∑=k

i 1

λj , i=1,2……K 及前m 个主成分的累

计贡献率v m =∑=m

i 1

u i . 4．求得q ，使得V q ≥V 0(V 0一般在0.85

到1之间)，则取

W=(r 1,r 2,……,r q )

Y=XW

第3步所求的贡献率，代表主成分表达X 的能力，贡献率越大，对应的主成分表达X 的能力越强。只要前q个主成分的累计贡献率超过给定的百分比V。就可以用低维特征Y=（y1,y2, ……y q）来反映高维特征（x1,x2……x p）的变化特性。

现将反映20个已知类别样本的41个特征的随机向量X进行特征提取。

计算得前4个主成分的累计贡献率为96%，故提取特征为4个变量，取

W=（r1,r2,r3,r4），则Y=XW，Y的4个分量就是从基本特征集提取所得的特征参数向量。(程序及结果见附录二)

二．分类决策的制定

前面已选取了特征参数，把特征参数张成的多维空间称为特征空间。分类决策就是在特征空间中用统计的方法把被识别对象归为某一类别。基本作法是在学习样本集的基础上确定某个判决规则，使按这种判决规则

对被甄别对象进行分类所造成的错误识别率最小或引起的损失最少。

这里，我们的分类决策选取Fisher线性判别法。即选取线性判别函数U(x)，使得：

U(x)={E1[U(x)]-E2[U(x)]}2/{D1 [U(x)]+D2[U(x)]}=max (1) 其中Ei与Di分别表示母体i的期望和方差运算，i=1，2。

（1）式的含义是：构造一个线性判别函数U(x)对样本进行分类，使得平均出错概率最小。即应在不同母体下，使U(x)的取值尽量分开。具体地说，要使母体间的差异(E1(U(x))-E2(U(x)))2相对于母体内的差异D1[U(x)]+D2[U(x)] 为最大。取

U(x)=(X1-X2)＇(∑1+∑2)-1X

就可满足(1)。其中X i为第i类母体的均值矩阵的估计，∑i为第i类母体的方差矩阵的估计。取分类门槛值为：

U0=U(α*X1+(1-α)*X2)

其中0<α<1，本问题中两类样本的个数相

等，可取α=1/2。若U(X1)>U0,U(X2)U0.,就认为X取自母体1；当U(X)

用上面得出的4个主成分构成的特征组和此分类决策，对20个学习样本进行分类，能得出正确的结果。但是，若取W=（r1,r2,r3），求Y=XW，以Y的3个分量作为特征参数向量，再用Fisher线性判别法对20个学习样本进行分类，则第四个样本不能正确分类。

因此，得出分类的数学模型为：

（1）特征选取：取W=（r1,r2,r3,r4），求Y=XW，得出特征参数向量就是

Y的4个列向量。其中X是反映20

个学习样本的41个特征的随机向

量。

（2）分类决策：Fisher线性判别法。

三. 分类模型的有效性考查

前面建立的分类数学模型对20个学习

2011高教社杯全国大学生数学建模竞赛C 题评阅要点 [说明]本要点仅供参考，各赛区评阅组应根据对题目的理解及学生的解答，自主地进行评阅。命题思路：企业退休职工养老金制度改革及退休推迟问题是一个热点课题。由于国情的复杂和数据的缺乏，对全国甚至一个地区的社会统筹基金进行总体规模的预测都是困难的，所以本题仅限于在现有制度下，对职工个人的基金和个人账户收支情况进行精算。本题的数学模型并不复杂，关键是学生正确理解养老金收支计算办法和题目的要求。 1 必要的假设如下一些假设是基本的：1）假设我国在今后一个较长时间段内社会政治经济形势稳定，工资不会出现异常动荡。2）假设男女同工同酬。3）假设现有缴费及发放制度在一个充分长的时间段内不发生变化。4）假设附件2 中反映的该企业不同年龄的职工工资与企业平均工资的比例可以用来计算一个普通职工的养老保险缴费指数。5）假设只有个人账户中的储存额产生利息，而社会统筹基金账户中的储存额不产生利息。6）假设附件1中的社会平均工资为缴费工资。7）为便于计算，可以假设第i 岁参加工作、退休、死亡均是指在刚满i 周岁时，缴费年数为整数。 2问题一虽然我国当前正处于经济快速发展期，但考虑到我国发展的战略目标是在二十一世纪中期达到中等发达国家的经济发展水平，而发达国家的工资增长率多比较低，所以应当假设我国未来的工资增长率会逐步降低。只要符合这一假设的预测方法，都可以认为是恰当的。如Logistic 模型以及其它阻滞型增长模型均可用，用这些方法得到的工资上限大约在2010年工资水平的3-4倍左右。但若假设工资以固定比例增长或线性增长、以及用线性或多项式拟合都是不恰当的，用灰色预测或指数预测也不恰当。 3 问题二根据附件2，用加权平均方法容易求得该企业不同年龄段的职工工资与企业平均工资的比值，结果如下：表1：该企业不同年龄段职工平均工资与企业平均工资的比值：本题的本意是将此数据作为一个一般意义上的企业职工在不同年龄段时的缴费指数。如果学生在计算养老金支出时没有利用该数据，只考虑了一些特殊情况，如缴费指数取固定值，是不合题意的。对于60-64岁的职工的缴费指数，可以基于一些简单合理的假设进行预测。在计算社会统筹基金账户和个人账户金额时，按年或按月缴存的两种计算方式都是可以的。到退休时职工个人账户中的金额的计算模型如下： ∑k 退休前第k 年缴费额本息=∑k 退休前第k 年缴费工资×缴费率×k r )1( , 其中r 为银行利息。学生中可能会出现忘记计算个人账户利息或利息计算错误的情况。因为社会统筹基金账户中的储存额不计利息，所以其中金额的计算模型如下： ∑k 退休前第k 年缴费额=∑k 退休前第k 年缴费工资×缴费率. 退休后第一个月领取的养老金=基础养老金+个人账户养老金，其中基础养老金=（退休前一年社会平均工资+本人指数化月平均缴费工资）/2×缴费年限×1%；个人账户养老金=个人账户储存额÷计发月数。其中，

2000年全国大学生数学建模竞赛A题DNA序列分类 2000年6月，人类基因组计划中DNA全序列草图完成，预计2001年可以完成精确的全序列图，此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。这本大自然写成的“天书”是由4个字符A，T，C，G按一定顺序排成的长约30亿的序列，其中没有“断句”也没有标点符号，除了这4个字符表示4种碱基以外，人们对它包含的“内容”知之甚少，难以读懂。破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。在这个目标中，研究DNA全序列具有什么结构，由这4个字符排成的看似随机的序列中隐藏着什么规律，又是解读这部天书的基础，是生物信息学（Bioinformatics）最重要的课题之一。虽然人类对这部“天书”知之甚少，但也发现了DNA序列中的一些规律性和结构。例如，在全序列中有一些是用于编码蛋白质的序列片段，即由这4个字符组成的64种不同的3 字符串，其中大多数用于编码构成蛋白质的20种氨基酸。又例如，在不用于编码蛋白质的序列片段中，A和T的含量特别多些，于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外，利用统计的方法还发现序列的某些片段之间具有相关性，等等。这些发现让人们相信，DNA序列中存在着局部的和全局性的结构，充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节，突出特征，然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。作为研究DNA序列的结构的尝试，提出以下对序列集合进行分类的问题： 1）下面有20个已知类别的人工制造的序列（见下页），其中序列标号1—10 为A类，1 1-20为B类。请从中提取特征，构造分类方法，并用这些已知类别的序列，衡量你的方法是否足够好。然后用你认为满意的方法，对另外20个未标明类别的人工序列（标号21—4 0）进行分类，把结果用序号（按从小到大的顺序）标明它们的类别（无法分类的不写入）： A类__________ ；B类_______________ 。请详细描述你的方法，给出计算程序。如果你部分地使用了现成的分类方法，也要将方法名称准确注明。这40个序列也放在如下地址的网页上，用数据文件Art-model-data 标识，供下载：网易网址：https://www.360docs.net/doc/ea18162417.html, 教育频道在线试题；教育网： https://www.360docs.net/doc/ea18162417.html, New mcm2000 教育网： https://www.360docs.net/doc/ea18162417.html,/mcm 2）在同样网址的数据文件Nat-model-data 中给出了182个自然DNA序列，它们都较长。用你的分类方法对它们进行分类，像1）一样地给出分类结果。提示：衡量分类方法优劣的标准是分类的正确率，构造分类方法有许多途径，例如提取序列

承诺书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则. 我们完全明白，在竞赛开始后参赛队员不能以任何方式（包括电话、电子邮件、网上咨询等）与队外的任何人（包括指导教师）研究、讨论与赛题有关的问题。我们知道，抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料（包括网上查到的资料），必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺，严格遵守竞赛规则，以保证竞赛的公正、公平性。如有违反竞赛规则的行为，我们将受到严肃处理。我们参赛选择的题号是（从A/B/C/D中选择一项填写）： B 我们的参赛报名号为（如果赛区设置报名号的话）：所属学校（请填写完整的全名）：参赛队员(打印并签名) ：1. 韩晓峰 2. 杨晓帆 3. 李弘倩指导教师或指导教师组负责人(打印并签名)：日期： 2011 年 9 月 11 日赛区评阅编号（由赛区组委会评阅前进行编号）：

编号专用页赛区评阅编号（由赛区组委会评阅前进行编号）：赛区评阅记录（可供赛区评阅时使用）：评阅人评分备注全国统一编号（由赛区组委会送交全国前编号）：全国评阅编号（由全国组委会评阅前进行编号）：

交巡警服务平台的设置与调度摘要在（1）第一问中，我们根据附表1所给各路口坐标算出A图中每条路线的长度，然后通过floyd算法找出了两点之间的最短路程，得出矩阵D，通过使用matlab圈出各服务平台到周围路口小于3min（即3km）的点，再根据就近原则，将各路口划分到这个圈中离此路口最近的交巡警平台。对于任意到交巡警平台路程大于3min（即3km）序号为28，29，38，39，61，92的五个路口，则采用就近原则人工划入距离其最近的交巡警平台辖区，这样就在保证出警时间基本都小于3min的条件下，划分出各警务平台合理的管辖范围。对于（1）第二问中，我们采用指派模型，用lingo软件对20个巡警服务平台对17个城市出入口进行封锁的方法进行了优化，得到初步的调度方案。在这个方案的基础上，如果在某条巡警服务平台调度路线中经过其他的的调度点，则与所经过的调度点互换目标路口，由此得到最佳调度方案，即最快8分钟可以实现快速封锁路口。对于（1）第三问，我们按照工作量均衡和出警时间尽可能短的原则考虑增加交巡警平台。首先，利用excel算出了各辖区内交巡警服务平台的工作量总和以及出警时间的平均值，求出了所有辖区的工作总量与出警时间的平均值，取出工作总量明显高于平均值且平均出警时间超过3min的四个辖区来增设新的交巡警平台。我们通过（1）第一问中的最短路程矩阵得到各辖区内种增设平台的所有可能的方法，通过比较每种方法的工作量总和及出警时间综合考虑得到一个最优的设置。最后通过spss软件求得优化前后两组数据的标准差，比较后发现优化后的数据标准差明显下降，达到了优化的目的。在（2）第一问中，首先参照（1）中A区的处理方法分别求出了城区B，C，D，E，F中路口到最近交巡警服务平台的路程，出警时间以及工作量。通过spss软件计算出标准差，并与优化后的A城区进行比较，找出了交巡警平台明显分配不合理（标准差远高于A区优化后方案的标准差）的三个区，在其距离较远工作量较大的路口增设服务平台。对于（2）中第二问搜捕嫌疑犯问题，我们采用时间圈法，以事发地点为圆心，以一分钟所行使的路程为单位半径，画出等间隔的数个同心圆，这样就可以确定每个时间段嫌疑犯的逃逸范围（因为任意两点间的路程大于等于两点间的距离，所以在某时间内嫌疑犯必定在对应的时间圈内），根据每个路口在这些时间圈上的位置，要求警察到这些路口的时间小于罪犯到达的时间（即可以围堵住罪犯），找出所有这些路口，构成闭圈，最小的闭圈便是围堵罪犯的最佳方案。关键词：floyd算法，指派模型，spss分析数据，时间圈法

DNA序列分类模型DNA序列分类模型

毕业设计（论文）原创性声明和使用授权说明原创性声明本人郑重承诺：所呈交的毕业设计（论文），是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知，除文中特别加以标注和致谢的地方外，不包含其他人或组织已经发表或公布过的研究成果，也不包含我为获得及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体，均已在文中作了明确的说明并表示了谢意。作者签名：日期：指导教师签名：日期：使用授权说明本人完全了解大学关于收集、保存、使用毕业设计（论文）的规定，即：按照学校要求提交毕业设计（论文）的印刷本和电子版本；学校有权保存毕业设计（论文）的印刷本和电子版，并提供目录检索与阅览服务；学校可以采用影印、缩印、数字化或其它复制手段保存论文；在不以赢利为目的前提下，学校可以公布论文的部分或全部内容。作者签名：日期：

学位论文原创性声明本人郑重声明：所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名：日期：年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。涉密论文按学校规定处理。作者签名：日期：年月日导师签名：日期：年月日

2012高教社杯全国大学生数学建模竞赛承诺书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则. 我们完全明白，在竞赛开始后参赛队员不能以任何方式（包括电话、电子邮件、网上咨询等）与队外的任何人（包括指导教师）研究、讨论与赛题有关的问题。我们知道，抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料（包括网上查到的资料），必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺，严格遵守竞赛规则，以保证竞赛的公正、公平性。如有违反竞赛规则的行为，我们将受到严肃处理。我们授权全国大学生数学建模竞赛组委会，可将我们的论文以任何形式进行公开展示（包括进行网上公示，在书籍、期刊和其他媒体进行正式或非正式发表等）。我们参赛选择的题号是（从A/B/C/D中选择一项填写）：我们的参赛报名号为（如果赛区设置报名号的话）：所属学校（请填写完整的全名）：参赛队员(打印并签名) ：1. 2. 3. 指导教师或指导教师组负责人(打印并签名)：日期：年月日赛区评阅编号（由赛区组委会评阅前进行编号）：

2012高教社杯全国大学生数学建模竞赛编号专用页赛区评阅编号（由赛区组委会评阅前进行编号）：全国评阅编号（由全国组委会评阅前进行编号）：

基于背包算法的太阳能小屋的研究与设计摘要本文针对太阳能小屋上光伏电池铺设问题,运用贪婪算法,通过局部最优来逼近整体最优.针对三个问题,分别得出了光伏电池的铺设方案和对应的逆变器选择,架空后光伏电池与水平面夹角的最优解以及小屋对太阳辐射的最大化利用的设计方案. 对于问题一,首先对光伏电池的性价比K 进行了纵向比较,选出了性价比最高的三种光伏电池312,,A B B .为了使剩余面积达到最少,采用整数背包算法,从而确定各平面每种光伏电池的理论个数,并通过计算各平面总盈利情况,发现东面盈利为负,因此舍弃东面,在铺设过程中,优先选择产生盈利最大的光伏电池,并考虑实际情况,经过计算选择光伏电池10C 填补剩余面积,得到10312,,,C A B B 实际铺设个数,分别为：顶面（12,12,7,0）,南面（4,2,0,21）,北面（6,5,2,0）,再选配相应的逆变器,最终计算出太阳能小屋的35年内的发电量为17047.54h kw ?;经济效益为76854.11元;回报年限为20.58年. 对于问题二,首先通过建立三个坐标系结合正交分解求出顶面真实吸收太阳辐射强的表达式为（θαθαcos sin sin cos cos +-A ）w .其次一一针对固定时刻将ααsin ,cos ,cos A 固定即可得关于θ的函数=)(θf θαθαcos sin sin cos cos +-A .最后对)(θf 进行求导即可求出)(θf 取得max )(θf 时的角度=θ?7.51,即为架空后光伏电池与水平面的夹角.这样可得太阳能小屋的35年内的发电量22161.81h kw ?;经济效益92224.93元;回报年限为18.2年. 对于问题三,结合问题一、二分析的数据,将屋顶采用单坡面设计,房屋朝向南偏西15度,达到了屋顶接收阳光面积最大和全年太阳辐射强度的最优目的. 关键词：背包算法贪婪算法多重最优化 1问题重述在设计太阳能小屋时,需在建筑物外表面（屋顶及外墙）铺设光伏电池,光伏电池组件所产生的直流电需要经过逆变器转换成220V 交流电才能供家庭使用,并将剩余电量输入电网.不同种类的光伏电池每峰瓦的价格差别很大,且每峰瓦的实际发电效率或发电量还受诸多因素的影响,如太阳辐射强度、光线入射角、环境、建筑物所处的地理纬度、地区的气候与气象条件、安装部位及方式（贴附或架空）等.因此,在太阳能小屋的设计中,研究光伏电池在小屋外表面的优化铺设是很重要的问题.

2014年云南财经大学校内数学建模选拔赛试题注意事项：（1）请希望参加今年全国大学生数学建模竞赛的同学积极参加校内选拔赛，但是要务必能够保证八月底提前一周回校参加集训，9月12日-9月15日参加竞赛。（2）请各位同学下列4个问题中选一个问题，3人组队，按照全国大学生数学建模竞赛（cumcm）模板和格式要求书写论文。（2）论文写好后，打印纸质文件，于6月20日11点前将论文交送到统数学院310办公室王天友老师，同时填写报名表。 A 人力资源安排问题某高校数学系现有44名教师，其职称结构和相应的工资水平分布如表1所示。表1 数学系的职称结构及工资情况目前，该系承接有4个项目，其中2项项目实践，需要到现场监理，分别在A地和B地，主要工作在现场完成；另外2项是理论研究，分别在C 地和D地，主要工作在办公室完成。由于4个项目来源于不同客户，并且工作的难易程度不一，因此，各项目的合同对有关技术人员的报酬不同，具体情况如表2所示。

表2 不同项目和各种人员的报酬标准为了保证项目质量，各项目中必须保证各职称人员结构符合客户的要求，具体情况如表3所示。表3 各项目对专业技术人员结构的要求说明：表中“1～2”表示“大于等于1，小于等于2”，其他有“～”符号的同理；项目D，由于技术要求较高，人员配备必须是讲师以上，助教不能参加；教授相对稀缺，而且是质量保证的关键，因此，各项目客户对教授的配备有不能少于一定数目的限制。各项目对其他职称人员也有不同的限制或要求；

各项目客户对总人数都有限制；由于C、D两项目是在办公室完成，所以每人每天有50元的管理费开支。 (1) 收费是按人工计算的，而且4个项目总共同时最多需要的人数是8+12+14+16=50，多于数学系现有人数44。因此需解决的问题是：如何合理的分配现有的技术力量，使数学系每天的直接收益最大？并写出相应的论证报告。 (2) 以一个星期为周期，如果每个教授最多只能工作四天，每个副教授最多只能工作5天，讲师和助教每天都可以工作。此时如何合理的分配现有的技术力量，使数学系一个星期的直接收益最大？并写出相应的论证报告。 B 客房价格确定和预定问题旅游景区中的宾馆主要提供举办会议和游客使用。确定房间价格以及开展预定服务是是需要解决的问题。本文要求针对下面两个问题进行建模说明 1.宾馆往往采用变动价格，根据市场需求情况调整价格，一般来说旅游旺季价格比较高，淡季价格略低。往年房间价格是确定今年房间价格的重要参考依据，下表给出了附表给出了某宾馆2008年1月～2011年12月期间，每月标准间平均价格(单位:元)，用你的模型说明价格变动的规律，并据此估计未来一年内的标准房参考价格。可以收集更多的数据来佐证

收稿日期:2002203210 作者简介:刘志(1965— )男,山东东平人,空军工程大学工程师文章编号:100123857(2002)Sup.20114203 D NA 序列的一种分类方法刘　志 (空军工程大学导弹学院,陕西西安713800) 摘　要:基于小波变换和相关技术,提出了一种DNA 序列的分类方法.首先将DNA 序列转换成数字序列,然后对此序列进行Matlab 快速分解,计算未知类别序列与已知类别序列的相关系数,由此判定序列的类别.结果表明,该方法是切实可行的. 关键词:DNA 序列;相关技术;小波变换中图分类号:O357　文献标识码:A 2000年6月,人类基因组计划中DNA 全部草图完成,预计2002年可以完成精确的全序列图,此后人类将拥有一本记录着自己生老病死及遗传进化的全部信息的“天书”.这本大自然写成的“天书”是由4个字符A ,T ,C ,G 按一定的顺序排成的长约30亿的序列,其中没有“断句”也没有“标点符号”,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂.破译这部世界上最巨量信息的天书是21世纪最重要的任务之一.虽然人类对这部天书知之甚少,但也发现了DNA 序列中的一些规律和结构.例如,在全序列中有一些是用于,即由这4个字符组成的64种不同的3字符串,其中大多数用于编码构成蛋白质的20种氨基酸.此外,利用统计的方法还发现序列的某些片段之间具有相关性,等等.本文利用小波变换和相关技术,提出了一种DNA 序列的分类方法. 1　Matlab 快速算法信号的小波分析相当于对信号加上一个可调的时—频窗.Matlab 根据多分辨分析的观点,利用共轭正交镜像滤波器,给出了离散小波变换的金字塔算法,使信号快速分解和重构得以实现.在Matlab 算法基础上,进一步对高频信号进行分解,将信号分解到不同的频带上,滤波时根据需要,选取所需频带内的信号进行重构,就可以完成信号的多通带滤波.小波变换不改变信号所引起的小波变换系数的极值点的位置,而噪声所引起的小波变换系数的极值点主要表现在第一、二尺度上,且随着尺度增大,小波系数的极值点越来越少.由第三级小波变换系数重构的信号的自相关函数的极大值的位置和原函数的自相关函数的极大值的位置完全相同,这是本文所提方案的依据.由第三级小波变换系数重构的信号的自相关函数图形比较光滑,而且,没有影响自相关函数的极大值的位置.此结论对信号检测非常有用. 根据多分辨分析理论,在二进正交小波基下,Matlab 快速算法[1]为 A k j f =∑n ∈Z h (n -2k )A n j -1f ,　j =1,2,…,J .第30卷　专　辑陕西师范大学学报(自然科学版)Vol.30　Sup.　2002年5月Journal of Shaanxi Normal University (Natural Science Edition )May.2002

2017年中国研究生数学建模竞赛D题基于监控视频的前景目标提取视频监控是中国安防产业中最为重要的信息获取手段。随着“平安城市”建设的顺利开展，各地普遍安装监控摄像头，利用大范围监控视频的信息，应对安防等领域存在的问题。近年来，中国各省市县乡的摄像头数目呈现井喷式增长，大量企业、部门甚至实现了监控视频的全方位覆盖。如北京、上海、杭州监控摄像头分布密度约分别为71、158、130个/平方公里，摄像头数量分别达到115万、100万、40万，为我们提供了丰富、海量的监控视频信息。目前，监控视频信息的自动处理与预测在信息科学、计算机视觉、机器学习、模式识别等多个领域中受到极大的关注。而如何有效、快速抽取出监控视频中的前景目标信息，是其中非常重要而基础的问题[1-6]。这一问题的难度在于，需要有效分离出移动前景目标的视频往往具有复杂、多变、动态的背景[7，8]。这一技术往往能够对一般的视频处理任务提供有效的辅助。以筛选与跟踪夜晚时罪犯这一应用为例：若能够预先提取视频前景目标，判断出哪些视频并未包含移动前景目标，并事先从公安人员的辨识范围中排除；而对于剩下包含了移动目标的视频，只需辨识排除了背景干扰的纯粹前景，对比度显著，肉眼更易辨识。因此，这一技术已被广泛应用于视频目标追踪，城市交通检测，长时场景监测，视频动作捕捉，视频压缩等应用中。下面简单介绍一下视频的存储格式与基本操作方法。一个视频由很多帧的图片构成，当逐帧播放这些图片时，类似放电影形成连续动态的视频效果。从数学表达上来看，存储于计算机中的视频，可理解为一个3维数据，其中代表视频帧的长，宽，代表视频帧的帧数。视频也可等价理解为逐帧图片的集合，即，其中为一张长宽分别为的图片。3维矩阵的每个元素（代表各帧灰度图上每个像素的明暗程度）为0到255之间的某一个值，越接近0，像素越黑暗；越接近255，像素越明亮。通常对灰度值预先进行归一化处理（即将矩阵所有元素除以255），可将其近似认为[0,1]区间的某一实数取值，从而方便数据处理。一张彩色图片由R（红），G（绿），B（蓝）三个通道信息构成，每个通道均为同样长宽的一张灰度图。由彩色图片

2011年全国大学生数学建模竞赛测试试题(A) 时量：180分钟满分：150分院系：专业：学号：姓名：一、选择题（2分/题×10题=20分） 1、Matlab程序设计中清除当前工作区的变量x,y的命令是( c ) A.clc x,y B.clear(x y) C.clear x y D.remove(x,y) 2、关于Matlab程序设计当中变量名和函数名的描述，下述说法正确的是( B ) A.都不区分大小写 B.都区分大小写 C.变量名区分,函数名不区分 D. 变量名区分,函数名不区分 3、MA TLAB软件中，把二维矩阵按一维方式寻址时的寻址访问是按（B）优先的。 A.行 B.列 C.对角线 D.左上角 4、关于矩阵上下拼接和左右拼接的方式中，下列描述是正确的是（ D ） A．上下拼接的命令为C=[A, B]，要求矩阵A, B的列数相同； B．左右拼接的命令为C=[A; B]，要求矩阵A, B的行数相同； C．上下拼接的命令为C=[A; B]，要求矩阵A, B的行数相同； D．左右拼接的命令为C=[A, B]，要求矩阵A, B的行数相同。 5、Matlab命令a=[65 72 85 93 87 79 62 73 66 75 70];find(a>=70 & a<80)得到的结果为（C ） A.[72 79 73 75] B.[72 79 73 75 70] C.[2 6 8 10 11] D.[0 1 0 0 0 1 0 1 0 1 1] 6、矩阵(或向量)的范数是用来衡量矩阵(或向量)的（A）的一个量 A.维数大小 B.元素的值的绝对值大小 C.元素的值的整体差异程度 D.所有元素的和 7、计算非齐次线性方程组AX=b的解可转化为计算矩阵X=A-1b，可以用Matlab的命令（A）实现 A.左除命令x=A\b B.左除命令x=A/b C.右除命令x=A\b D.右除命令x=A/b 8、关于Matlab的矩阵命令与数组命令，下列说法正确的是（b） A.矩阵乘A*B是指对应位置元素相乘 B.矩阵乘A.*B是指对应位置元素相乘 C.数组乘A.*B是指对应位置元素相乘 D.数组乘A*B是指对应位置元素相乘 9、生成5行4列，并在区间[1:10]内服从均分布的随机矩阵的命令是（d） A.rand(5,4)*10 B.rand(5,4,1,10) C.rand(5,4)+10 D.rand(5,4)*9+1 10、关于Matlab的M文件的描述中，以下错误的是（ d ） A、Matlab的M 文件有脚本M文件和函数M文件两种； B、Matlab的函数M文件中要求首行必须以function顶格开头；

基因识别问题及其算法实现一、背景介绍 DNA 是生物遗传信息的载体，其化学名称为脱氧核糖核酸（Deoxyribonucleic acid ，缩写为DNA ）。DNA 分子是一种长链聚合物，DNA 序列由腺嘌呤（Adenine, A ），鸟嘌呤（Guanine, G ），胞嘧啶（Cytosine, C ），胸腺嘧啶（Thymine, T ）这四种核苷酸（nucleotide ）符号按一定的顺序连接而成。其中带有遗传讯息的DNA 片段称为基因（Gene ）（见图1第一行）。其他的DNA 序列片段，有些直接以自身构造发挥作用，有些则参与调控遗传讯息的表现。在真核生物的DNA 序列中，基因通常被划分为许多间隔的片段（见图1第二行），其中编码蛋白质的部分，即编码序列（Coding Sequence ）片段，称为外显子（Exon ），不编码的部分称为内含子（Intron ）。外显子在DNA 序列剪接（Splicing ）后仍然会被保存下来，并可在图1真核生物DNA 序列（基因序列）结构示意图蛋白质合成过程中被转录（transcription ）、复制（replication ）而合成为蛋白质（见图2）。DNA 序列通过遗传编码来储存信息，指导蛋白质的合成，把遗传信息准确无误地传递到蛋白质（protein ）上去并实现各种生命功能。 DNA 序列外显子(Exon ) 内含子(Intron)

DNA序列剪接、转录、复制蛋白质序列图2蛋白质结构示意图对大量、复杂的基因序列的分析，传统生物学解决问题的方式是基于分子实验的方法，其代价高昂。诺贝尔奖获得者W.吉尔伯特（Walter Gilbert，1932—；【美】，第一个制备出混合脱氧核糖核酸的科学家）1991年曾经指出：“现在，基于全部基因序列都将知晓，并以电子可操作的方式驻留在数据库中，新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发，然后再回到实验中去，追踪或验证这些理论假设。” 随着世界人类基因组工程计划的顺利完成，通过物理或数学的方法从大量的DNA序列中获取丰富的生物信息，对生物学、医学、药学等诸多方面都具有重要的理论意义和实际价值，也是目前生物信息学领域的一个研究热点。二、数字序列映射与频谱3-周期性：对给定的DNA序列，怎么去识别出其中的编码序列（即外显子），也称为基因预测，是一个尚未完全解决的问题，也是当前生物信息学的一个最基础、最首要的问题。基因预测问题的一类方法是基于统计学的[1]。很多国际生物数据网站上也有“基因识别”的算法。比如知名的数据网站https://www.360docs.net/doc/ea18162417.html,/GENSCAN.html提供的基因识别软件GENSCAN（由斯坦福大学研究人员研发的、可免费使用的基因预测软件）,主要就是基于隐马尔科夫链（HMM）方法。但是，它预测人的基因组中有45000个基因，相当于现在普遍认可数目的两倍。另外，统计预测方法通常需要将编码序列信息已知的DNA序列作为训练数据

A: 网络舆论的形成、发展与控制持有、接受、表达某种相同、相似的观点的人在社会人群中所占的比例超过一定的阀值，这时候这种观点就上升为舆论（opinions）。舆论在特定的条件下，产生巨大的社会力量，能够左右社会大众和政府的行为。如今，互联网作为一个开放自由的平台，已经成为了世界的“第四媒体”。显然，网络舆论与传统舆论在形成、发展等方面有着诸多不同的特点，如何控制和引导网络舆论的形成与发展是当今社会的一个重要课题。作为开放的网络平台，加上其虚拟性、隐蔽性、发散性、渗透性和随意性等特点，越来越多的人们愿意通过互联网来表达自己的个人想法。现今，互联网已成为新闻集散地、观点集散地和民声集散地。互联网上的信息内容庞杂多样，容纳了各种人群、各类思潮，对于社会上的一些敏感问题出现在网上而引起一些人的共鸣应是一种正常现象，但是由于各种复杂因素使这些敏感问题向热点演变，最后形成网络舆论并引起社会群众的违规和过激行动时，将影响到社会安定和其他政治问题，因此网络舆论的爆发将以“内容威胁”的形式对社会公共安全形成威胁，对网上的信息内容进行管理和控制将成为互联网进一步发展的必然趋势。请在上述背景基础上，解决如下问题：（1）请在查找资料的基础上，给出网络舆论的基本概念和特性，分析影响网络舆论的各种因素；（2）运用你们所掌握数学知识，建立网络舆论形成的数学模型，使其能够对网络舆论的发展、变化趋势做出有效的判断，并能对网络舆论的态势做出客观的表述；（3）基于上述模型的基础上，请描述在网络舆论形成后，如何利用你们的模型来控制和引导网络舆论的发展趋势。

B题：水资源短缺风险综合评价水资源，是指可供人类直接利用，能够不断更新的天然水体。主要包括陆地上的地表水和地下水。风险，是指某一特定危险情况发生的可能性和后果的组合。水资源短缺风险，泛指在特定的时空环境条件下，由于来水和用水两方面存在不确定性，使区域水资源系统发生供水短缺的可能性以及由此产生的损失。近年来，我国、特别是北方地区水资源短缺问题日趋严重，水资源成为焦点话题。以北京市为例，北京是世界上水资源严重缺乏的大都市之一，其人均水资源占有量不足300m3，为全国人均的1/8，世界人均的1/30，属重度缺水地区，附表中所列的数据给出了1979年至2000年北京市水资源短缺的状况。北京市水资源短缺已经成为影响和制约首都社会和经济发展的主要因素。政府采取了一系列措施, 如南水北调工程建设, 建立污水处理厂,产业结构调整等。但是，气候变化和经济社会不断发展，水资源短缺风险始终存在。如何对水资源风险的主要因子进行识别，对风险造成的危害等级进行划分，对不同风险因子采取相应的有效措施规避风险或减少其造成的危害，这对社会经济的稳定、可持续发展战略的实施具有重要的意义。《北京2009统计年鉴》及市政统计资料提供了北京市水资源的有关信息。利用这些资料和你自己可获得的其他资料，讨论以下问题： 1评价判定北京市水资源短缺风险的主要风险因子是什么？影响水资源的因素很多,例如：气候条件、水利工程设施、工业污染、农业用水、管理制度，人口规模等。 2建立一个数学模型对北京市水资源短缺风险进行综合评价，作出风险等级划分并陈述理由。对主要风险因子,如何进行调控，使得风险降低？ 3 以北京市水行政主管部门为报告对象，写一份建议报告。

数理学院专业实践报告题目：专业学生姓名班级学号指导教师(签字) 指导教师职称实习单位负责人签字日期

1．2000 年6月，人类基因组计划中DNA 全序列草图完成，预计2001 年可以完成精确的全序列图，此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。这本大自然写成的“天书”是由4 个字符A，T，C，G 按一定顺序排成的长约30 亿的序列，其中没有“断句”也没有标点符号，除了这4 个字符表示4 种碱基以外，人们对它包含的“内容”知之甚少，难以读懂。破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。在这个目标中，研究DNA 全序列具有什么结构，由这4 个字符排成的看似随机的序列中隐藏着什么规律，又是解读这部天书的基础，是生物信息学（Bioinformatics）最重要的课题之一。虽然人类对这部“天书”知之甚少，但也发现了DNA 序列中的一些规律性和结构。例如，在全序列中有一些是用于编码蛋白质的序列片段，即由这4 个字符组成的64 种不同的3 字符串，其中大多数用于编码构成蛋白质的20 种氨基酸。又例如，在不用于编码蛋白质的序列片段中，A 和T 的含量特别多些，于是以某些碱基特别丰富作为特征去研究DNA 序列的结构也取得了一些结果。此外，利用统计的方法还发现序列的某些片段之间具有相关性，等等。这些发现让人们相信，DNA 序列中存在着局部的和全局性的结构，充分发掘序列的结构对理解DNA 全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节，突出特征，然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。作为研究 DNA 序列的结构的尝试，提出以下对序列集合进行分类的问题：

DNA序列分类模型陈荣生张海军张旭东指导教师：数模组海军航空工程学院摘要本文讨论了在给定A类和B类各10个DNA序列的情况下，如何找出判断DNA 序列类型的方法，并具体分析了DNA序列的局部特征，最后将总体特征与局部特征综合考虑。文中我们先根据给出的已知类型的20组DNA序列，考虑了四个碱基及其组合形式出现的频率，以此为研究对象进行深入研究，并建立了两个数学模型，即信息熵模型和Z曲线模型，最后还给出了模型的改进方向。本文采取的用Z曲线来研究DNA序列的方法很有意义。一、问题的重述 2000年6月，人类基因组计划中DNA全序列草图完成，预计2001年可以完成精确的全序列图，DNA全序列是由4个字符A，T，C，G按一定顺序排成的长约30亿的序列，其中没有“断句”也没有标点符号。人们发现了DNA序列中的一些规律性和结构。例如，在全序列中有一些是用于编码蛋白质的序列片段，即由这4个字符组成的64种不同的3字符串，其中大多数用于编码构成蛋白质的20种氨基酸。又例如，在不用于编码蛋白质的序列片段中，A 和T的含量特别多些，于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外，利用统计的方法还发现序列的某些片段之间具有相关性，等等。这些发现让人们相信，DNA序列中存在着局部的和全局性的结构，充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节，突出特征，然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。作为研究DNA序列的结构的尝试，提出以下对序列集合进行分类的问题： 1）下面有20个已知类别的人工制造的序列，其中序列标号1—10 为A类，11-20为B 类。请从中提取特征，构造分类方法，并用这些已知类别的序列，衡量你的方法是否足够好。然后用你认为满意的方法，对另外20个未标明类别的人工序列（标号21—40）进行分类，把结果用序号（按从小到大的顺序）标明它们的类别（无法分类的不写入）： A类； B类。请详细描述你的方法，给出计算程序。如果你部分地使用了现成的分类方法，也要将方法名称准确注明。 2），用你的分类方法对182个自然DNA序列进行分类，像1）一样地给出分类结果。二、问题的分析为了找出分类方法，我们可以省略细节，突出特征，以某种碱基出现的频率或以两种甚至三种碱基的组合出现的频率，或者以几种碱基出现的频率之和为依据来考虑。现分别就A、 B两组DNA序列针对以下20个方面做一些简单分析： 1)A出现的频率； 2)C出现的频率； 3)G出现的频率； 4)T出现的频率；

2013高教社杯全国大学生数学建模竞赛承诺书我们仔细阅读了《全国大学生数学建模竞赛章程》和《全国大学生数学建模竞赛参赛规则》（以下简称为“竞赛章程和参赛规则”，可从全国大学生数学建模竞赛网站下载）。我们完全明白，在竞赛开始后参赛队员不能以任何方式（包括电话、电子邮件、网上咨询等）与队外的任何人（包括指导教师）研究、讨论与赛题有关的问题。我们知道，抄袭别人的成果是违反竞赛章程和参赛规则的，如果引用别人的成果或其他公开的资料（包括网上查到的资料），必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺，严格遵守竞赛章程和参赛规则，以保证竞赛的公正、公平性。如有违反竞赛章程和参赛规则的行为，我们将受到严肃处理。我们授权全国大学生数学建模竞赛组委会，可将我们的论文以任何形式进行公开展示（包括进行网上公示，在书籍、期刊和其他媒体进行正式或非正式发表等）。我们参赛选择的题号是（从A/B/C/D中选择一项填写）： A 我们的参赛报名号为（如果赛区设置报名号的话）：所属学校（请填写完整的全名）：参赛队员(打印并签名) ：1. 2. 3. 指导教师或指导教师组负责人(打印并签名)：（论文纸质版与电子版中的以上信息必须一致，只是电子版中无需签名。以上内容请仔细核对，提交后将不再允许做任何修改。如填写错误，论文可能被取消评奖资格。）日期：年月日赛区评阅编号（由赛区组委会评阅前进行编号）：

2013高教社杯全国大学生数学建模竞赛编号专用页赛区评阅编号（由赛区组委会评阅前进行编号）：全国统一编号（由赛区组委会送交全国前编号）：全国评阅编号（由全国组委会评阅前进行编号）：

DNA序列分类 2000年6月，人类基因组计划中DNA全序列草图完成，预计2001年可以完成精确的全序列图，此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。这本大自然写成的“天书”是由4个字符A，T，C，G按一定顺序排成的长约30亿的序列，其中没有“断句”也没有标点符号，除了这4个字符表示4种碱基以外，人们对它包含的“内容”知之甚少，难以读懂。破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。在这个目标中，研究DNA全序列具有什么结构，由这4个字符排成的看似随机的序列中隐藏着什么规律，又是解读这部天书的基础，是生物信息学（Bioinformatics）最重要的课题之一。虽然人类对这部“天书”知之甚少，但也发现了DNA序列中的一些规律性和结构。例如，在全序列中有一些是用于编码蛋白质的序列片段，即由这4个字符组成的64种不同的3字符串，其中大多数用于编码构成蛋白质的20种氨基酸。又例如，在不用于编码蛋白质的序列片段中，A和T的含量特别多些，于是以某些碱基特别丰富作为特征去研究DNA序列的结构也取得了一些结果。此外，利用统计的方法还发现序列的某些片段之间具有相关性，等等。这些发现让人们相信，DNA序列中存在着局部的和全局性的结构，充分发掘序列的结构对理解DNA全序列是十分有意义的。目前在这项研究中最普通的思想是省略序列的某些细节，突出特征，然后将其表示成适当的数学对象。这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。作为研究DNA序列的结构的尝试，提出以下对序列集合进行分类的问题： 1）下面有20个已知类别的人工制造的序列（见下页），其中序列标号1—10 为A类，11-20为B类。请从中提取特征，构造分类方法，并用这些已知类别的序列，衡量你的方法是否足够好。然后用你认为满意的方法，对另外20个未标明类别的人工序列（标号21—40）进行分类，把结果用序号（按从小到大的顺序）标明它们的类别（无法分类的不写入）：A类；B类。请详细描述你的方法，给出计算程序。如果你部分地使用了现成的分类方法，也要将方法名称准确注明。 2）在同样网址的数据文件Nat-model-data 中给出了182个自然DNA序列，它们都较长。用你的分类方法对它们进行分类，像1）一样地给出分类结果。提示：衡量分类方法优劣的标准是分类的正确率，构造分类方法有许多途径，例如提取序列的某些特征，给出它们的数学表示：几何空间或向量空间的元素等，然后再选择或构造适合这种数学表示的分类方法；又例如构造概率统计模型，然后用统计方法分类等。 Art-model-data 1.aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggc cggaagtgaagggggatatgaccgcttgg 2.cggaggacaaacgggatggcggtattggaggtggcggactgttcggggaattattcggtttaaacgggacaaggaaggcggctg gaacaaccggacggtggcagcaaagga 3.gggacggatacggattctggccacggacggaaaggaggacacggcggacatacacggcggcaacggacggaacggaggaa ggagggcggcaatcggtacggaggcggcgga 4.atggataacggaaacaaaccagacaaacttcggtagaaatacagaagcttagatgcatatgttttttaaataaaatttgtattattatggt atcataaaaaaaggttgcga 5.cggctggcggacaacggactggcggattccaaaaacggaggaggcggacggaggctacaccaccgtttcggcggaaaggcg gagggctggcaggaggctcattacggggag 6.atggaaaattttcggaaaggcggcaggcaggaggcaaaggcggaaaggaaggaaacggcggatatttcggaagtggatattag gagggcggaataaaggaacggcggcaca

历年全国数学建模试题及解法归纳赛题解法 93A非线性交调的频率设计拟合、规划 93B足球队排名图论、层次分析、整数规划94A逢山开路图论、插值、动态规划 94B锁具装箱问题图论、组合数学 95A飞行管理问题非线性规划、线性规划 95B天车与冶炼炉的作业调度动态规划、排队论、图论96A最优捕鱼策略微分方程、优化 96B节水洗衣机非线性规划 97A零件的参数设计非线性规划 97B截断切割的最优排列随机模拟、图论 98A一类投资组合问题多目标优化、非线性规划98B灾情巡视的最佳路线图论、组合优化 99A自动化车床管理随机优化、计算机模拟 99B钻井布局0-1规划、图论 00A DNA序列分类模式识别、Fisher判别、人工神经网络 00B钢管订购和运输组合优化、运输问题 01A血管三维重建曲线拟合、曲面重建

赛题解法 01B 公交车调度问题多目标规划 02A车灯线光源的优化非线性规划 02B彩票问题单目标决策 03A SARS的传播微分方程、差分方程 03B 露天矿生产的车辆安排整数规划、运输问题 04A奥运会临时超市网点设计统计分析、数据处理、优化04B电力市场的输电阻塞管理数据拟合、优化 05A长江水质的评价和预测预测评价、数据处理 05B DVD在线租赁随机规划、整数规划 06A出版社书号问题整数规划、数据处理、优化06B Hiv病毒问题线性规划、回归分析 07A 人口问题微分方程、数据处理、优化07B 公交车问题多目标规划、动态规划、图论、0-1规划 08A 照相机问题非线性方程组、优化 08B 大学学费问题数据收集和处理、统计分析、回归分析 2009年A题制动器试验台的控制方法分析工程控制 2009年B题眼科病床的合理安排排队论，优化，仿真，综合评价 2009年C题卫星监控几何问题，搜集数据