基于逐步聚类分析的水库浮游藻类生长预测

给水处理中藻类的去除

论文作者：彭海清1，谭章荣2，高乃云1，孟长再3摘要：原水中的藻类会产生异臭、异味，影响净水厂出水水质。针对这些问题，总结了国内外一些除藻方法和经验，并介绍了关键词：除藻氧化澄清气浮 1 混凝除藻投加硫酸铝作为混凝剂可同时去除浊度和藻类，出水中藻类数量＜1000个/mL时所需混凝剂量远大于浊度＜3 NTU 时所需的量。原因是粘土类胶体在ζ电位=-5 mV时即可完全脱稳，而藻类必须在ζ电位=0 采用混凝法除藻时应根据藻的种类选择药剂。去除硅藻时可单独投加硫酸铝，例如番禺市沙弯水厂在硅藻高繁殖期的投铝量从平时的1.2 mg/L增加到3.0 mg/L，可使沉淀池出水的浊度降至1～2 NTU以减少进入滤池的藻类数量。去除绿藻一般需要预氧化，预加氯时其去除率约为95%～98%，无预氯化时其平均去除率为85%(如果考虑到预加氯会产生三卤甲烷，也可以用其他氧化剂)。蓝、绿藻会产生臭味，甚至含有毒素，并且会分泌黏液造成配水管网中出现后絮凝现象，此种分泌物又可能转化为三卤甲烷母体，因此是水处理中较难去除的藻类，也是多数富营养化水体中主要生长的藻类，它对混凝剂投量的调整极为敏感。另外，藻类代谢产生的有机物对絮凝和过滤也有影响，其原因是该有机物中的酸性物质与混凝剂(铁盐或铝盐)的水解产物发生反应，生成的表面络合物附着在絮体颗粒表面，阻碍了颗粒相互碰撞，因此必须增加混凝剂的投量，补偿由于表面络合物的形成对颗粒脱稳和絮凝造成的影响［1］。 2 直接过滤除藻直接过滤不适宜处理含藻量极高的水，这时应在过滤池前增加沉淀池或澄清池，但这样还可能出现滤池出水含藻量＞1000 个/mL 沉淀或澄清构筑物的类型很多，可除藻率却不相同。例如用静沉池处理泰晤士河水时，平均除藻率为59%，可是它处理衣阿华河水时，除藻率为37%(硫酸铝混凝)～97%(石灰软化)。应用澄清池处理波兰河水时，平均除藻率为85%～86%(无预氯化)、95%～97%(预氯化)，并且浮游动物量也相应下降93%～96%(无预氯化)和99%(预氯化)，因此澄清池的处理效果优于静沉池。直接过滤适用于原水中藻类和悬浮物数量较少的情况，该工艺的关键是滤速的大小。采用均质砂滤池或双层滤料滤池进行直接过滤的工艺，藻类去除率约为15%～75%。若进行预氯化并在投加混凝剂后采用白煤—砂双层滤料滤池直接过滤(滤速＜3 m/h)，则藻类的最优去除率约为95%。但是当原水中藻量＞1000个/mL、白煤粒径为0.9 mm或藻类数量＞2500个/mL、白煤粒径为1.5 mm时，过滤周期明显缩短。昆明五水厂原水藻类数量平均为30 500个/mL，采用微絮凝直接过滤法除藻(双层滤料：陶粒粒径为2.0～2.5 mm、高为700 mm，石英砂粒径为0.6～1.2 m m、高为500 mm，滤速为6～10 m/h)，其去除率平均为96.4%。[!--empirenews.page--] 将马德里的西班牙河水作为原水进行的半生产性试验也得出了类似的结果。双层滤料滤池的藻类去除率为63%～98%,其中以同时投加10 mg/L的硫酸铝和0.5 mg/L的活化硅酸时效果最好，但因原水中藻类数量＞2500个/mL，致使滤池的工作周期仅为6 h 3 沉淀或过滤除藻向反应沉淀池中投加粉末活性炭(PAC)作为助凝剂(可有效去除泥土气味)，可以强化反应、沉淀效果，特别是在藻类大量繁殖的季节此法可作为应急措施。1995年5月，美国芝加哥的供水部门在夏季到来之前就开始投加PAC(投量约为2.4 mg/L)；当水中出现甲基—异冰片(MIB)时(7月中旬)，将PAC的投量逐渐增加到11 mg/L；夏季过后，PAC的投加量随MIB浓度的减小而减少，当PAC的投量减到1.2 mg/L时再持续投加1个月，在此期间若MIB浓度降到5μg/L 则可停止投加PAC。日本的高桥和孝等人对以水库水为水源的某水厂(采用常规处理工艺)全年的进、出水进行监测，得出蓝藻6月—10月数量多、硅藻9月—转年4月数量多。同时证明，只要藻类的数量不太多，常规处理对藻类具有较好的去除性能［2美国的Pakmer 教授研究了水中藻类对过滤效果的影响：当藻类数量＜500个/mL时，不会引起滤池堵塞；当藻类数量为500～1000个/mL时，滤池有稍许堵塞；当藻类数量为1000～2000个/mL时，有明显堵塞现象；当藻类数量＞2000个/mL时，会出现严重堵塞。上海市月浦水厂自陈行

matlab、lingo程序代码14-模糊聚类(聚类分析)

模糊聚类 function c=fuz_hc(a,b) %模糊矩阵的合成运算程序 %输入模糊矩阵a,b，输出合成运算结果c m=size(a,1);n=size(b,2);p=size(a,2); %错误排除 if size(a,2)~=size(b,1) disp('输入数据错误！');return; end %合成运算 for i=1:m for j=1:n for k=1:p temp(k)=min(a(i,k),b(k,j)); end c(i,j)=max(temp); end end disp('模糊矩阵a与b作合成运算后结果矩阵c为：'); c % 求模糊等价矩阵 function r_d=mhdj(r) [m,n]=size(r); for i=1:n for j=1:n for k=1:n r1(i,j,k)=min(r(i,k),r(k,j)); end r1max(i,j)=r1(i,j,1); end end for i=1:n for j=1:n for k=1:n

if r1(i,j,k)>r1max(i,j) r1max(i,j)=r1(i,j,k); end end r_d(i,j)=r1max(i,j); end end %模糊聚类程序 function f=mujl(x,lamda) %输入原始数据以及lamda的值 if lamda>1 disp('error!') %错误处理 end [n,m]=size(x); y=pdist(x); disp('欧式距离矩阵：'); dist=squareform(y) %欧氏距离矩阵 dmax=dist(1,1); for i=1:n for j=1:n if dist(i,j)>dmax dmax=dist(i,j); end end end disp('处理后的欧氏距离矩阵，其特点为每项元素均不超过1：'); sdist=dist/dmax %使距离值不超过1 disp('模糊关系矩阵：'); r=ones(n,n)-sdist %计算对应的模糊关系矩阵 t=mhdj(r); le=t-r; while all(all(le==0)==0)==1 %如果t与r相等，则继续求r乘以r r=t; t=mhdj(r); le=t-r;

聚类分析Matlab程序实现

2. Matlab程序 2.1 一次聚类法 X=[11978 12.5 93.5 31908;…;57500 67.6 238.0 15900]; T=clusterdata(X,0.9) 2.2 分步聚类 Step1 寻找变量之间的相似性用pdist函数计算相似矩阵，有多种方法可以计算距离，进行计算之前最好先将数据用zscore 函数进行标准化。 X2=zscore(X); %标准化数据 Y2=pdist(X2); %计算距离 Step2 定义变量之间的连接 Z2=linkage(Y2); Step3 评价聚类信息 C2=cophenet(Z2,Y2); //0.94698 Step4 创建聚类，并作出谱系图 T=cluster(Z2,6); H=dendrogram(Z2); Matlab提供了两种方法进行聚类分析。一种是利用 clusterdata函数对样本数据进行一次聚类，其缺点为可供用户选择的面较窄，不能更改距离的计算方法；另一种是分步聚类：（1）找到数据集合中变量两两之间的相似性和非相似性，用pdist函数计算变量之间的距离；（2）用 linkage函数定义变量之间的连接；（3）用 cophenetic函数评价聚类信息；（4）用cluster函数创建聚类。 1．Matlab中相关函数介绍 1.1 pdist函数调用格式：Y=pdist(X,’metric’) 说明：用‘metric’指定的方法计算 X 数据矩阵中对象之间的距离。’ X：一个m×n的矩阵，它是由m个对象组成的数据集，每个对象的大小为n。 metric’取值如下： ‘euclidean’：欧氏距离（默认）；‘seuclidean’：标准化欧氏距离； ‘mahalanobis’：马氏距离；‘cityblock’：布洛克距离； ‘minkowski’：明可夫斯基距离；‘cosine’： ‘correlation’：‘hamming’： ‘jaccard’：‘chebychev’：Chebychev距离。 1.2 squareform函数调用格式：Z=squareform(Y,..) 说明：强制将距离矩阵从上三角形式转化为方阵形式，或从方阵形式转化为上三角形式。 1.3 linkage函数调用格式：Z=linkage(Y,’method’) 说明：用‘method’参数指定的算法计算系统聚类树。 Y：pdist函数返回的距离向量；

[VIP专享]聚类分析案例研究

聚类分析案例—我国各地区普通高等教育发展状况分析聚类分析又称群分析，是对多个样本（或指标）进行定量分类的一种多元统计分析方法。对样本进行分类称为Q型聚类分析，对指标进行分类称为R型聚类分析。本案例运用Q型和R型聚类分析方法对我国各地区普通高等教育的发展状况进行分析。 1．案例研究背景近年来，我国普通高等教育得到了迅速发展，为国家培养了大批人才。但由于我国各地区经济发展水平不均衡，加之高等院校原有布局使各地区高等教育发展的起点不一致，因而各地区普通高等教育的发展水平存在一定的差异，不同的地区具有不同的特点。对我国各地区普通高等教育的发展状况进行聚类分析，明确各类地区普通高等教育发展状况的差异与特点，有利于管理和决策部门从宏观上把握我国普通高等教育的整体发展现状，分类制定相关政策，更好的指导和规划我国高教事业的整体健康发展。 -592- 2．案例研究过程（1）建立综合评价指标体系高等教育是依赖高等院校进行的，高等教育的发展状况主要体现在高等院校的相关方面。遵循可比性原则，从高等教育的五个方面选取十项评价指标，具体如图4。（2）数据资料指标的原始数据取自《中国统计年鉴，1995》和《中国教育统计年鉴，1995》除以各地区相应的人口数得到十项指标值见表6。其中： 1 x 为每百万人口高等院校数； 2 x 为每十万人口高等院校毕业生数； 3 x 为每十万人口高等院校招生数； 4 x 为每十万人口高等院校在校生数； 5 x 为每十万人口高等院校教职工数； 6 x 为每十万人口高等院校专职教师数；7 x 为高级职称占专职教师的比例；8 x 为平均每所高等院校的在校生数；9 x 为国家财政预算内普通高教经费占国内生产总值的比重；10 x 为生均教育经费。图4 高等教育的十项评价指标

聚类分析

聚类分析聚类分析又称群分析，它是研究（样品或指标）分类问题的一种多元统计方法，所谓类，通俗地说，就是指相似元素的集合。聚类分析内容非常丰富，按照分类对象的不同可分为样品分类（Q-型聚类分析）和指标或变量分类（R-型聚类分析）；按照分类方法可分为系统聚类法和快速聚类法。 1. 系统聚类分析先将n 个样品各自看成一类，然后规定样品之间的“距离”和类与类之间的距离。选择距离最近的两类合并成一个新类，计算新类和其它类（各当前类）的距离，再将距离最近的两类合并。这样，每次合并减少一类，直至所有的样品都归成一类为止。系统聚类法直观易懂。 1.1系统聚类法的基本步骤：第一，计算n 个样品两两间的距离，记作D= 。第二，构造n 个类，每个类只包含一个样品。第三，合并距离最近的两类为一新类。第四，计算新类与各当前类的距离。第五，重复步骤3、4，合并距离最近的两类为新类，直到所有的类并为一类为止。第六，画聚类谱系图。第七，确定类的个数和类。 1.2 系统聚类方法： 1.2.1最短距离法 1.2.2最长距离法 1.2.3中间距离法 1.2.4重心法 1.2.5类平均法 1.2.6离差平方和法（Ward 法）上述6种方法归类的基本步骤一致，只是类与类之间的距离有不同的定义。最常用的就是最短距离法。 1.3 最短距离法以下用ij d 表示样品i X 与j X 之间距离，用ij D 表示类i G 与j G 之间的距离。定义类i G 与j G 之间的距离为两类最近样品的距离，即 ij G G G G ij d D j J i i ∈∈=,min 设类p G 与q G 合并成一个新类记为r G ，则任一类k G 与r G 的距离是： ij G X G X kr d D j j i i ∈∈=,min ??????=∈∈∈∈ij G X G X ij G X G X d d q j k i p j k i ,,min ,min min {} kq kp D D ,min = 最短距离法聚类的步骤如下： ij d {}ij d

活性污泥中各种生物内部及之间的相互关系和对水处理效果的影响

关于活性污泥中各种生物内部及之间的相互关系和对水处理效果的影响的论文.

活性污泥中各种生物内部及之间的相互关系和对水处理效果的影响. 活性污泥中的生物群。包括细菌、原生动物、鳃引等环节动物、轮虫类、线形动物和椎实螺属（Lymnaea）软体动物和昆虫〔花虻（Eristalis te－nax）〕。但从活性污泥的机能方面来看，还是以动胶菌属细菌为主体，在有钟虫属（Vorticella）、等枝虫属（Epistilis）等有柄的原生动物存在的污泥，活性更高。微生物在自然界中的分布一、土壤中的微生物：（一）土壤是微生物天然培养基 1、营养：有机质丰富，可提供C、N及矿质元素和水分等。 2、PH值：土壤PH值多在5.5—8.5之间，适合微生物生长。 3、渗透压：土壤渗透压在3—6（大气压）适合微生物生长。 4、空气、水分：土壤空隙中充满着空气和水分，为好氧、厌氧微生物生长提供条件。 5、温度：土壤保温性能好，温度较稳定，变动幅度较空气小。即昼夜、季节温度比空气小得多，不同温度湿度不同。所以土壤中存在着大量的微生物，是微生物的大本营，“菌种资源库”。（二）土壤中的微生物分布 1、数量：丰富：几百万—几十亿/g，贫瘠：几百万—几千万/g。 2、种类：细菌最多，放线菌，真菌次之，藻类，原生动物少，病毒。 3、营养类型：多为异养型，少为自养型。 4、数量：①细菌：占土壤中微生物总量的70%—90%，由于数量多，生物量也高。生物量：单位体积中，活细胞的重量。多为自养菌，少为异氧菌，多为中温型好气菌，或兼性厌气菌

②放线菌：数量仅次于细菌，孢子：几千万—几亿/g占微生物总数5—30%分布于碱性，有机质丰富的温暖地带。酸性，贫瘠土地中放线菌少。由于放线菌菌体大，有分支，虽数量少，但生物量与细菌相近。种类：链霉菌，诺卡氏菌，小单胞菌。 ③真菌；几万—几十万/g，好气性，分布于土壤表层。存在：在土壤中的菌丝及孢子状态存在。由于真菌菌丝粗，且长，故生物量不小于细菌，真菌分布于酸性土壤，分解纤维素，果胶质，木质素等。酵母菌在土壤中较少，几个—几千个/g，果园中可达几十万/g。 ④藻类：很普遍，多为单细胞藻类，丝状绿藻和裸藻。分布：分布于土壤表层，数量少，生物量大。藻类可进行光合作用，有色素，可为土壤积累有机质/ ⑤原生动物：单细胞，能运动。如：纤毛虫，鞭毛虫，变形虫等，多为异养，以有机物为食，或吞噬细菌，单细胞藻类，真菌孢子等。 5 微生物在土壤中分布：土壤垂直温度的增加，养料，水分，空气相对减少，微生物分布逐渐减少，土表由于阳光照射和水分散失易造成微生物的死亡，在5—20 cm土壤层中微生物数量最多，植物根系附近微生物数量更多,自20 cm以下，微生物数量随土层深度增加而减少，100cm以下养料，氧气减少，微生物数量开始减少，减少约20倍，至2m深处，因缺乏营养和氧气每克土中仅有几个。土壤中的微生物种类和数量是土壤环境条件的综合反应。不同土壤，不同气候，都影响微生物己系的组成和强度。二、水体中的微生物 ①、来源：来自空气、土壤、动植物排泄物等，工业废水，生活废水。 ②、类群：水中微生物的种类及分布，与水的类型，有机质含量，微生物拮抗等多种因素有关。（一）淡水微生物主要存在于陆地的江河湖海，池塘，水库等。 ①地下水、自流水中、泉水中，含菌数少。

MATLAB实现FCM 聚类算法

本文在阐述聚类分析方法的基础上重点研究FCM 聚类算法。FCM 算法是一种基于划分的聚类算法，它的思想是使得被划分到同一簇的对象之间相似度最大，而不同簇之间的相似度最小。最后基于MATLAB实现了对图像信息的聚类。第 1 章概述聚类分析是数据挖掘的一项重要功能，而聚类算法是目前研究的核心，聚类分析就是使用聚类算法来发现有意义的聚类，即“物以类聚” 。虽然聚类也可起到分类的作用，但和大多数分类或预测不同。大多数分类方法都是演绎的，即人们事先确定某种事物分类的准则或各类别的标准，分类的过程就是比较分类的要素与各类别标准，然后将各要素划归于各类别中。确定事物的分类准则或各类别的标准或多或少带有主观色彩。为获得基于划分聚类分析的全局最优结果，则需要穷举所有可能的对象划分，为此大多数应用采用的常用启发方法包括：k-均值算法，算法中的每一个聚类均用相应聚类中对象的均值来表示；k-medoid 算法，算法中的每一个聚类均用相应聚类中离聚类中心最近的对象来表示。这些启发聚类方法在分析中小规模数据集以发现圆形或球状聚类时工作得很好，但当分析处理大规模数据集或复杂数据类型时效果较差，需要对其进行扩展。而模糊C均值(Fuzzy C-means, FCM)聚类方法，属于基于目标函数的模糊聚类算法的范畴。模糊C均值聚类方法是基于目标函数的模糊聚类算法理论中最为完善、应用最为广泛的一种算法。模糊c均值算法最早从硬聚类目标函数的优化中导出的。为了借助目标函数法求解聚类问题，人们利用均方逼近理论构造了带约束的非线性规划函数，以此来求解聚类问题，从此类内平方误差和WGSS(Within-Groups Sum of Squared Error)成为聚类目标函数的普遍形式。随着模糊划分概念的提出，Dunn [10] 首先将其推广到加权WGSS 函数，后来由Bezdek 扩展到加权WGSS 的无限族，形成了FCM 聚类算法的通用聚类准则。从此这类模糊聚类蓬勃发展起来，目前已经形成庞大的体系。第 2 章聚类分析方法 2-1 聚类分析聚类分析就是根据对象的相似性将其分群，聚类是一种无监督学习方法，它不需要先验的分类知识就能发现数据下的隐藏结构。它的目标是要对一个给定的数据集进行划分，这种划分应满足以下两个特性：①类内相似性：属于同一类的数据应尽可能相似。②类间相异性：属于不同类的数据应尽可能相异。图2.1是一个简单聚类分析的例子。

数据挖掘中的聚类分析方法

计算机工程应用技术本栏目责任编辑：贾薇薇数据挖掘中的聚类分析方法黄利文（泉州师范学院理工学院，福建泉州３６２０００）摘要：聚类分析是多元统计分析的重要方法之一，该方法在许多领域都有广泛的应用。本文首先对聚类的分类做简要的介绍，然后给出了常用的聚类分析方法的基本思想和优缺点，并对常用的聚类方法作比较分析，以便人们根据实际的问题选择合适的聚类方法。关键词：聚类分析；数据挖掘中图分类号：ＴＰ３１１文献标识码：Ａ文章编号：１００９－３０４４（２００８）１２－２０５６４－０２ＣｌｕｓｔｅｒＡｎｌａｙｓｉｓＭｅｔｈｏｄｓｏｆＤａｔａＭｉｎｉｎｇＨＵＡＮＧＬｉ－ｗｅｎ（ＳｃｈｏｏｌｏｆＳｃｉｅｎｃｅ，ＱｕａｎｚｈｏｕＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ，Ｑｕａｎｚｈｏｕ３６２０００，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｃｌｕｓｔｅｒａｎａｌｙｓｉｓｉｓｏｎｅｏｆｔｈｅｉｍｐｏｒｔａｎｔｍｅｔｈｏｄｓｏｆｍｕｌｔｉｖａｒｉａｔｅｓｔａｔｉｓｔｉｃａｌａｎａｌｙｓｉｓ，ａｎｄｔｈｉｓｍｅｔｈｏｄｈａｓａｗｉｄｅｒａｎｇｅｏｆａｐｐｌｉｃａ－ｔｉｏｎｓｉｎｍａｎｙｆｉｅｌｄｓ．Ｉｎｔｈｉｓｐａｐｅｒ，ｔｈｅｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｔｈｅｃｌｕｓｔｅｒｉｓｉｎｔｒｏｄｕｃｅｄｂｒｉｅｆｌｙ，ａｎｄｔｈｅｎｇｉｖｅｓｓｏｍｅｃｏｍｍｏｎｍｅｔｈｏｄｓｏｆｃｌｕｓｔｅｒａｎａｌｙｓｉｓａｎｄｔｈｅａｄｖａｎｔａｇｅｓａｎｄｄｉｓａｄｖａｎｔａｇｅｓｏｆｔｈｅｓｅｍｅｔｈｏｄｓ，ａｎｄｔｈｅｓｅｃｌｕｓｔｅｒｉｎｇｍｅｔｈｏｄｗｅｒｅｃｏｍｐａｒｅｄａｎｄａｎｓｌｙｚｅｄｓｏｔｈａｔｐｅｏｐｌｅｃａｎｃｈｏｓｅｓｕｉｔａｂｌｅｃｌｕｓｔｅｒｉｎｇｍｅｔｈｏｄｓａｃｃｏｒｄｉｎｇｔｏｔｈｅａｃｔｕａｌｉｓｓｕｅｓ．Ｋｅｙｗｏｒｄｓ：ＣｌｕｓｔｅｒＡｎａｌｙｓｉｓ；ＤａｔａＭｉｎｉｎｇ１引言聚类分析是数据挖掘中的重要方法之一，它把一个没有类别标记的样本集按某种准则划分成若干个子类，使相似的样品尽可能归为一类，而不相似的样品尽量划分到不同的类中。目前，该方法已经被广泛地应用于生物、气候学、经济学和遥感等许多领域，其目的在于区别不同事物并认识事物间的相似性。因此，聚类分析的研究具有重要的意义。本文主要介绍常用的一些聚类方法，并从聚类的可伸缩性、类的形状识别、抗“噪声”能力、处理高维能力和算法效率五个方面对其进行比较分析，以便人们根据实际的问题选择合适的聚类方法。２聚类的分类聚类分析给人们提供了丰富多彩的分类方法，这些方法大致可归纳为以下几种［１，２，３，４］：划分方法、层次方法、基于密度的聚类方法、基于网格的聚类方法和基于模型的聚类方法。２．１划分法（ｐａｒｔｉｔｉｏｎｇｉｎｇｍｅｔｈｏｄｓ）给定一个含有ｎ个对象（或元组）的数据库，采用一个划分方法构建数据的ｋ个划分，每个划分表示一个聚簇，且ｋ≤ｎ。在聚类的过程中，需预先给定划分的数目ｋ，并初始化ｋ个划分，然后采用迭代的方法进行改进划分，使得在同一类中的对象之间尽可能地相似，而不同类的中的对象之间尽可能地相异。这种聚类方法适用于中小数据集，对大规模的数据集进行聚类时需要作进一步的改进。２．２层次法（ｈｉｅｔａｒｃｈｉｃａｌｍｅｔｈｏｄｓ）层次法对给定数据对象集合按层次进行分解，分解的结果形成一颗以数据子集为节点的聚类树，它表明类与类之间的相互关系。根据层次分解是自低向上还是自顶向下，可分为凝聚聚类法和分解聚类法：凝聚聚类法的主要思想是将每个对象作为一个单独的一个类，然后相继地合并相近的对象和类，直到所有的类合并为一个，或者符合预先给定的终止条件；分裂聚类法的主要思想是将所有的对象置于一个簇中，在迭代的每一步中，一个簇被分裂为更小的簇，直到最终每个对象在单独的一个簇中，或者符合预先给定的终止条件。在层次聚类法中，当数据对象集很大，且划分的类别数较少时，其速度较快，但是，该方法常常有这样的缺点：一个步骤（合并或分裂）完成，它就不能被取消，也就是说，开始错分的对象，以后无法再改变，从而使错分的对象不断增加，影响聚类的精度，此外，其抗“噪声”的能力也较弱，但是若把层次聚类和其他的聚类技术集成，形成多阶段聚类，聚类的效果有很大的提高。２．３基于密度的方法（ｄｅｎｓｉｔｙ－ｂａｓｅｄｍｅｔｈｏｄｓ）该方法的主要思想是只要临近区域的密度（对象或数据点的数目）超过某个阈值，就继续聚类。也就是说，对于给定的每个数据点，在一个给定范围的区域中必须至少包含某个数目的点。这样的方法就可以用来滤处＂噪声＂孤立点数据，发现任意形状的簇。２．４基于网格的方法（ｇｒｉｄ－ｂａｓｅｄｍｅｔｈｏｄｓ）这种方法是把对象空间量化为有限数目的单元，形成一个网格结构。所有的聚类操作都在这个网格结构上进行。用这种方法进行聚类处理速度很快，其处理时间独立于数据对象的数目，只与量化空间中每一维的单元数目有关。２．５基于模型的方法（ｍｏｄｅｌ－ｂａｓｅｄｍｅｔｈｏｄ）基于模型的方法为每个簇假定一个模型，寻找数据对给定模型的最佳拟合。该方法经常基于这样的假设：数据是根据潜在的概收稿日期：２００８－０２－１７作者简介：黄利文（１９７９－），男，助教。

数学实验05聚类分析---用matlab做聚类分析

用matlab做聚类分析 Matlab提供了两种方法进行聚类分析。一种是利用clusterdata函数对样本数据进行一次聚类，其缺点为可供用户选择的面较窄，不能更改距离的计算方法；另一种是分步聚类：（1）找到数据集合中变量两两之间的相似性和非相似性，用pdist函数计算变量之间的距离；（2）用linkage函数定义变量之间的连接；（3）用cophenetic函数评价聚类信息；（4）用cluster函数创建聚类。1．Matlab中相关函数介绍 1.1pdist函数调用格式：Y=pdist(X,’metric’) 说明：用‘metric’指定的方法计算X数据矩阵中对象之间的距离。’X：一个m×n的矩阵，它是由m个对象组成的数据集，每个对象的大小为n。 metric’取值如下： ‘euclidean’：欧氏距离（默认）；‘seuclidean’：标准化欧氏距离； ‘mahalanobis’：马氏距离；‘cityblock’：布洛克距离； ‘minkowski’：明可夫斯基距离；‘cosine’： ‘correlation’：‘hamming’： ‘jaccard’：‘chebychev’：Chebychev距离。 1.2squareform函数调用格式：Z=squareform(Y,..)

说明：强制将距离矩阵从上三角形式转化为方阵形式，或从方阵形式转化为上三角形式。 1.3linkage函数调用格式：Z=linkage(Y,’method’) 说明：用‘method’参数指定的算法计算系统聚类树。 Y：pdist函数返回的距离向量； method：可取值如下： ‘single’：最短距离法（默认）；‘complete’：最长距离法； ‘average’：未加权平均距离法；‘weighted’：加权平均法； ‘centroid’：质心距离法；‘median’：加权质心距离法； ‘ward’：内平方距离法（最小方差算法）返回：Z为一个包含聚类树信息的（m-1）×3的矩阵。 1.4dendrogram函数调用格式：[H，T，…]=dendrogram(Z,p，…) 说明：生成只有顶部p个节点的冰柱图（谱系图）。 1.5cophenet函数调用格式：c=cophenetic(Z,Y) 说明：利用pdist函数生成的Y和linkage函数生成的Z计算cophenet相关系数。 1.6cluster函数调用格式：T=cluster(Z,…) 说明：根据linkage函数的输出Z创建分类。

浮游藻类与温度、光照、营养盐因素之间的关系

浮游藻类与温度、光照、营养盐等因素之间的关系王钰摘要：浮游藻类生长受物理、化学、生物等多方面因素的影响[1]。大量营养元素可以促进叶绿素a和浮游藻类生物量的剧增，其中氮、磷是影响水中浮游藻类生长的主要因素。本文介绍了浮游藻类与温度、光照、营养盐等因素间的关系，重点讲述营养元素氮、磷与浮游藻类间的相互关系。关键词：浮游藻类；影响因子；关系 The relationship between phytoplankton and temperature, light, nutrients and other factors Wang Yu Abstract: The growth of algae by physical, chemical, biological and other multiple factors, a large number of nutrients can promote chlorophyll a and phytoplankton biomass increase, including nitrogen, phosphorus is the main factor affecting the algae growth. This paper introduces the influence of algae and various relations among the factors, focuses on relationship between nitrogen, phosphorus and algae. Key words: phytoplankton; influence factor; relationship 浮游藻类是原生生物界一类真核生物(有些也为原核生物，如蓝藻门的藻类）。主要水生，无维管束，能进行光合作用。体型大小各异，小至长1微米的单细胞的鞭毛藻，大至长达60公尺的大型褐藻。一些权威专家继续将浮游藻类归入植物或植物样生物，但浮游藻类没有真正的根、茎、叶，也没有维管束。浮游藻类分布的范围极广，对环境条件要求不严，适应性较强，在只有极低的营养浓度、极微弱的光照强度和相当低的温度下也能生活。不仅能生长在江河、溪流、湖泊和海洋，而且也能生长在短暂积水或潮湿的地方。从热带到两极，从积雪的高山到温热的泉水，从潮湿的地面到不很深的土壤内，几乎到处都有浮游藻类分布。在水生生态系统中，氮磷比作为关键因子，常被用来预测藻细胞密度的变化和季节演替[2]。它同时作为一项指标，能代表营养盐对浮游藻类生长的限制水平。有研究表明，适当的营养盐可以控制浮游藻类的生长，生物量以及种群结构，但就氮或磷哪种营养元素作为浮游植物生长的限制因子，目前尚没有统一的结论。在南太平洋，初级生产者通常被认为是氮限制因子[3]。越来越多的研究表明，在其它生态系统中，如东、西地中海，磷可能是最主要的限制因子[3]。在中国，据调查已经有相当数量的湖泊已处于富营养化水平，如巢湖、太湖等。 1物理因素 1.1温度浮游藻类的生长需要温度，温度也对浮游藻类的生长产生影响。比如微囊藻是一种喜温生物，其最适温度在30~35℃高于其他浮游藻类。水库中的围隔实验证实当水温为26℃时最

聚类分析

聚类分析 1.1聚类分析的概念：聚类分析法是理想的多变量统计技术，主要有分层聚类法和迭代聚类法。聚类分析也称群分析、点群分析，是研究分类的一种多元统计方法。 1.2常见的聚类分析法： K-means算法、凝聚聚类算法以及EM算法系统聚类法和Ｋ均值聚类法是聚类分析中最常用的两种方法经典的聚类分析方法：【数据挖掘中聚类算法研究和发展-周涛】 1.2.1基于划分的相关聚类算法 K-means 算法是一种最为典型的基于划分的聚类分析算法，自从该算法被开发出来后，就一直被拿来研究和改进。该算法的主要思想是大家非常了解的，首先随机选取K个对象作为中心点，然后遍历每个数据对象，直到收敛为止。 1.2.2基于密度的相关聚类算法 DBSCAN 算法是一种较为常见的基于密度的聚类分析算法，该算法首先需要将任意的数据对象设定为核心数据对象，在Eps 范围内包含的数据对象数目要不少于Minpts 规定的个数，然后根据相应的规则来对核心对象进行合并，最终完成类簇的聚类分析。 1.2.3基于层次的相关聚类算法 BIRCH 算法[28]是一种出现较为基本且简单的可以进行良好的伸缩的层次聚类算法。该算法具有较好的聚类表现，它主要包含两个概

念：聚类特征(CF)和聚类特征树(CF-Tree)，通过这两个概念来进行描述并使得该算法能够有效地处理数据集。 1.2.4基于网格的相关聚类算法 Yang W 等人提出的STING(Statistical INformation Grid)算法的的核心思想是将目标数据集映射到矩形单元，该空间区域通过分层和递归方法进行划分，其主要是基于多分析率的网格算法。 1.2.5基于模型的相关聚类算法 EM(Exception-Maximization)算法是一种基于模型的聚类方法，该算法主要分为两步，期望步和最大化步。期望步先给定当前的簇中心，将每个数据对象划分到距离簇中心最近的簇，然后最大化步调整每个簇中心，使得该分派的数据对象到新中心的距离之和最小化，直到聚类收敛或改变充分小。 1.3目前聚类分析法的发展现状： 1.3.1高维数据聚类算法【高维数据聚类算法的研究及应用_孙志鹏】随着信息技术的迅速发展，信息化的数据不断积累，高维空间数据的分析成为一个亟待解决的问题。因此，高维数据聚类分析成为聚类分析中一个重要的课题。目前，在高维数据聚类分析方面主要有基于传统聚类算法的改进，子空间聚类算法和基于数据对象相似度的聚类分析算法。历经几十年的发展，研究学者已经针对不同的应用提出了许多改进的算法，大多数是基于常见的K-means算法、凝聚聚类算法以及

两种藻类对水体氮磷去除效果

第52卷第4期　2006年8月武汉大学学报(理学版) J.Wuhan Univ.(Nat.Sci.Ed.)Vol.52No.4　Aug.2006,487～491 收稿日期:2006202228 通讯联系人　E 2mail :Huzy @https://www.360docs.net/doc/ce8349991.html, 基金项目:国家高技术研究发展计划(863)项目资助(2002AA601021);国家重点基础研究发展规划(973)项目资助(2002CB412309)作者简介:凌晓欢(19822),男,硕士生,现从事藻类水质净化研究. 文章编号:167128836(2006)0420487205 两种藻类对水体氮、磷去除效果凌晓欢1,2,况琪军1,邱昌恩1,2,胡征宇1 (1.中国科学院水生生物研究所/淡水生态与生物技术国家重点实验室,湖北武汉430072; 2.中国科学院研究生院,北京100049) 摘　要:借助人工装置和露天水池,通过分析实验水体中氮、磷元素浓度的变化,研究了实验室条件下一种绿球藻(Chlorococcum sp.)和露天小型生态系统中寡枝刚毛藻(Cladophora oli goclona K ütz ).对污水中氮磷营养的去除效果.结果显示:绿球藻在高浓度氮和磷的污水中生长良好并维持较高的氮磷去除率,在6天处理期间,人工污水中总溶解性氮、硝酸盐氮、氨氮、总溶解性磷的去除率分别达到46.2%,37.8%,98.4%和79.3%;在对天然湖泊水的处理中,绿球藻对总溶解性磷的去除率在第5天为79.2%.室外条件下,该刚毛藻通过吸收水体中的氮、磷营养维持自身正常生长代谢,从而降低水体的电导率和改善水质.根据本次研究,结果两种被试藻类均可作为污水处理用藻类,其中Chlorococcum sp.适合用于静态水体的修复与改善,Cladop hora oli goclona 适合于流动水体的减负与治理. 关　键　词:绿球藻;刚毛藻;氮;磷;水质;净化中图分类号:X 171 文献标识码:A 0　引　言应用藻类进行水质净化的研究,自20世纪50年代起,至今已有近60年的历史[1].早期主要是应用微型藻悬浮培养技术进行污水处理,相关技术有藻菌氧化塘、高效藻类塘、活性藻 [2] 等.由于微型藻悬浮培养技术在实际应用中有诸如过量藻体不易收获、出水中仍有藻类细胞残留等问题,科学家们随之将研究的焦点更多地集中在固着藻类的研究与应用上,如:固定化藻类技术[3]和藻菌生物膜技术.Da Costa [4]的研究结果证明,固定化藻类不但能有效去除污水中的氮磷营养,对去除镉和锌等重金属离子也效果显著.由于受限于固定藻类用载体的成本较高,以致该项技术仅停留在实验室规模的研究和探索阶段,至今未见大规模实际应用的报道.吴永红等[5]以高分子材料的人工水草作为藻菌生物膜载体,用于改善富营养化水体的水质,同样获得较为理想的水质净化效果.为了进一步挖掘和筛选能有效净化污水且藻细胞易于收获的藻种,拓展藻类在污水处理中的应用范围,本文研究了一种极为耐污的绿球藻(Chlorococcum sp.)和寡枝刚毛藻 (Cl adop hora oli goclona K ütz )对氮磷的去除效果,对二者各自的应用前景作了简要分析,同时对藻类水质净化的优势进行了探讨. 1　材料和方法 1.1　室内实验藻种与培养条件绿球藻(Chlorococcum sp.)采自美国亚里桑那州一家污水处理厂,应用微藻分离纯化的方法,用B G11琼脂培养基分离纯化后保种培养.在无菌条件下,将琼脂培养基上的单个藻落转接到B G11液体培养基中,置L R H 22502G 光照培养箱中培养,培养温度(25±1)℃,光照强度35～40μmol/m -2?s -1,在获得足够生物量后用于污水处理试验. 实验污水分别为人工合成污水和天然富营养化湖泊水.人工合成污水配方为:NaNO 30.425g 、(N H 4)2SO 40.075g 、MgSO 4?7H 2O 0.025g 、Ca (H 2PO 4)20.03g 、Na HCO 30.30g 、FeCl 30.0015g ,用自来水定容至1L.天然富营养化湖泊水采自武汉东湖茶港湖区,经25号浮游生物网过滤去除明

聚类算法分析报告汇总

嵌入式方向工程设计实验报告学院班级：130712 学生学号：13071219 学生姓名：杨阳同作者：无实验日期：2010年12月

聚类算法分析研究 1 实验环境以及所用到的主要软件 Windows Vista NetBeans6.5.1 Weka3.6 MATLAB R2009a 2 实验内容描述聚类是对数据对象进行划分的一种过程，与分类不同的是，它所划分的类是未知的，故此，这是一个“无指导的学习” 过程，它倾向于数据的自然划分。其中聚类算法常见的有基于层次方法、基于划分方法、基于密度以及网格等方法。本文中对近年来聚类算法的研究现状与新进展进行归纳总结。一方面对近年来提出的较有代表性的聚类算法，从算法思想。关键技术和优缺点等方面进行分析概括；另一方面选择一些典型的聚类算法和一些知名的数据集，主要从正确率和运行效率两个方面进行模拟实验，并分别就同一种聚类算法、不同的数据集以及同一个数据集、不同的聚类算法的聚类情况进行对比分析。最后通过综合上述两方面信息给出聚类分析的研究热点、难点、不足和有待解决的一些问题等。实验中主要选择了K 均值聚类算法、FCM 模糊聚类算法并以UCI Machine Learning Repository 网站下载的IRIS 和WINE 数据集为基础通过MATLAB 实现对上述算法的实验测试。然后以WINE 数据集在学习了解Weka 软件接口方面的基础后作聚类分析，使用最常见的K 均值（即K-means ）聚类算法和FCM 模糊聚类算法。下面简单描述一下K 均值聚类的步骤。 K 均值算法首先随机的指定K 个类中心。然后：（1）将每个实例分配到距它最近的类中心，得到K 个类；（2）计分别计算各类中所有实例的均值，把它们作为各类新的类中心。重复（1）和（2），直到K 个类中心的位置都固定，类的分配也固定。在实验过程中通过利用Weka 软件中提供的simpleKmeans （也就是K 均值聚类算法对WINE 数据集进行聚类分析，更深刻的理解k 均值算法，并通过对实验结果进行观察分析，找出实验中所存在的问题。然后再在学习了解Weka 软件接口方面的基础上对Weka 软件进行一定的扩展以加入新的聚类算法来实现基于Weka 平台的聚类分析。 3 实验过程 3.1 K 均值聚类算法 3.1.1 K 均值聚类算法理论 K 均值算法是一种硬划分方法，简单流行但其也存在一些问题诸如其划分结果并不一定完全可信。K 均值算法的划分理论基础是 2 1 min i c k i k A i x v ∈=-∑∑ （1）其中c 是划分的聚类数，i A 是已经属于第i 类的数据集i v 是相应的点到第i 类的平均距离，即

藻类及其分泌物对混凝过程的影响研究

藻类及其分泌物对混凝过程的影响研究罗晓鸿　周　荣　王占生 (清华大学环境工程系,北京　100084) 周晓燕　江迎春　王营花　王　衡 (绍兴市自来水公司,浙江绍兴　312001) 摘要　采用纯藻进行烧杯混凝试验,考察了试验藻种及其分泌物对混凝过程的影响.试验发现:藻类对混凝过程的影响与藻的种类、生长阶段及藻浓度有关;一般说来,藻类在浓度较低时,对混凝过程有不同程度的促进作用,而在高浓度时,对混凝过程有不同程度的干扰.增加混凝剂投加量、调节p H 、预加氯可以减弱藻类及其分泌物对混凝过程的影响. 关键词　藻类;分泌物;混凝. 1　引言藻类大量繁殖是水体富营养化的一个重要特征.富营养化水源给常规净水工艺造成的主要影响是藻类及其胞外分泌物干扰混凝过程,使沉淀效果不理想,进而堵塞或穿透滤池.然而,有关这种影响的研究还不多,人们对究竟多大数量的藻类会对混凝产生不利影响尚无明确认识.德国的Bernhardt H.及其同事曾研究过藻类胞外分泌物(EOM )对无机颗粒混凝过程产生的影响[1—4],他们在试验中采用不含藻类细胞的藻类有机物提取液,用纯水及石英粉或高岭土配制试验水样.自然水体中不只含有无机颗粒,纷繁复杂的有机物已成为目前给水处理领域主要的研究对象.对于有机物含量较高的水源水的处理,混凝剂的最佳投加量不再由无机颗粒产生的浊度控制,而是由有机物控制[5].藻类及其分泌物对于这种受有机污染的水的混凝有何影响尚未见报道. 本文研究目的是考察藻类及其分泌物对实际水体的混凝产生的影响.考虑到水体中藻类细胞与其分泌物的关联性,试验采用藻类培养液进行,不滤除藻类细胞.主要研究内容有两个:(1)研究藻类及其分泌物对混凝过程的影响,确定对混凝过程产生干扰作用的藻类浓度范围;(2)考察几种技术措施能否减弱藻类及其分泌物对混凝过程的影响. 2　试验材料与方法 211　水样的制备为了接近实际水源状况,采用湖水(某中等程度富营养化湖水)过滤除藻的办法制备试验水样.制备过程如下:湖水→0145μm 滤膜过滤→投加高岭土使浊度为10N TU →投加纯培养藻.试验水样的溶解性有机物的种类及含量与湖水基本相同,而湖水中的藻类和颗粒态有机物被滤除.试验水样的主要水质参数见表1. 212　藻类的培养第18卷第3期 1998年5月环　境　科　学　学　报ACTA SCIEN TIA E CIRCUMSTAN TIA E Vol.18,No.3 May ,1998

MATLAB的统计工具箱中的多元统计分析中提供了聚类分析的两种方法

MATLAB的统计工具箱中的多元统计分析中提供了聚类分析的两种方法： 1.层次聚类hierarchical clustering 2.k-means聚类这里用最简单的实例说明以下层次聚类原理和应用发法。层次聚类是基于距离的聚类方法，MATLAB中通过pdist、linkage、dendrogram、cluster等函数来完成。层次聚类的过程可以分这么几步： (1) 确定对象（实际上就是数据集中的每个数据点）之间的相似性，实际上就是定义一个表征对象之间差异的距离，例如最简单的平面上点的聚类中，最经常使用的就是欧几里得距离。这在MATLAB中可以通过Y=pdist（X）实现，例如 >> X=randn(6,2) X = -0.4326 1.1892 -1.6656 -0.0376 0.1253 0.3273 0.2877 0.1746 -1.1465 -0.1867 1.1909 0.7258 >> plot(X(:,1),X(:,2),'bo') %给个图，将来对照聚类结果把 >> Y=pdist(X) Y = Columns 1 through 14 1.7394 1.0267 1.2442 1.5501 1.6883 1.8277 1.9648 0.5401 2.9568 0.2228 1.3717 1.1377 1.4790 1.0581 Column 15

2.5092 例子中X数据集可以看作包含6个平面数据点，pdist之后的Y是一个行向量，15个元素分别代表X 的第1点与2-6点、第2点与3-6点,......这样的距离。那么对于M个点的数据集X，pdist之后的Y 将是具有M*(M-1)/2个元素的行向量。Y这样的显示虽然节省了内存空间，但对用户来说不是很易懂，如果需要对这些距离进行特定操作的话，也不太好索引。MATLAB中可以用squareform把Y转换成方阵形式，方阵中位置的数值就是X中第i和第j点之间的距离，显然这个方阵应该是个对角元素为0的对称阵。 >> squareform(Y) ans = 0 1.7394 1.0267 1.2442 1.5501 1.6883 1.7394 0 1.8277 1.9648 0.5401 2.9568 1.0267 1.8277 0 0.2228 1.3717 1.1377 1.2442 1.9648 0.2228 0 1.4790 1.0581 1.5501 0.5401 1.3717 1.4790 0 2.5092 1.6883 2.9568 1.1377 1.0581 2.5092 0 这里需要注意的是，pdist可以使用多种参数，指定不同的距离算法。help pdist把。另外，当数据规模很大时，可以想象pdist产生的Y占用内存将是很吓人的，比如X有10k个数据点，那么X占10k*8*2Bytes=160K，这看起来不算啥，但是pdist后的Y会有10k*10k/2*8Bytes=400M 。怕了把，所以，废话说在前面，用MATLAB的层次聚类来处理大规模数据，大概是很不合适的。 (2) 确定好了对象间的差异度（距离）后，就可以用Z=linkage(Y)来产生层次聚类树了。 >> Z=linkage(Y) Z = 3.0000 4.0000 0.2228 2.0000 5.0000 0.5401 1.0000 7.0000 1.0267