基因微阵列数据中的聚类技术研究

第l6卷第2期

2006年2月

计算机技术与发展

C()NIPUTERTE({N0l)【YANI)I)EVE1』)ljMEN7,

V(,l16NO.2

Feb.2006

基因微阵列数据中的聚类技术研究

马煜,陈莉,方鹤鹤

(西北大学计算机科学系,陕西西安710069)

摘要:微阵列技术是后基因时代功能基因组研究的主要工具.由于采用了高效的并行杂交技术,每次实验可以得到大量

丰富的数据,因此其结果分析成为一项很有挑战性而且具有重要意义的工作.聚类分析是微阵列数据分析中使用最为广

泛的一类方法.微阵列实验得到的大量数据通过聚类分析,可以得到很多有用的信息,其成功应用已广泛涉及到基因功能

研究和生物医学研究中的各个领域.文中介绍了基因微阵列数据的聚类分析方法及其重要应用.

关键词:微阵列;基因表达谱;聚类分析

中图分类号:TP391文献标识码:A文章编号:1005—3751(2006)02一Ol17—03 ClusteringAnalysisofMicroarrayGeneExpressionData

MAYu,CHENLi,FANGHe-he

(DepartmentofComputerScience,NorthwestUniversity,Xi'an710069,China) Abstract:Microarraytechnologyisthechieftoolforfunctionalgenomeresearch.Asadoptin gthehighefficientandparallelDNAhy?

bridizaitontechnology,canachieveadundantdatafromeachexperiment,sothedataanalysis ofmicroarraysdatabecomesamorechalleng?

ingandmeaningfultask.Clusteringistheu~fulandmostwidelyusedmethodofmicroarrayda taanalysis.Abundantusefulinformationcarl beobtainedthroughthemicroarrayclustering.Thispaperpresentsasystemofclusteringanal ysisforDNAmicroarraydata.

Keywords:microarray;geneexpressionprofiles;clusteringanalysis

O引言

近年来生物信息学持续迅速发展.随着果蝇基因组

测试和人类基因组工程的第一个草图的完成,基因组测序

研究蓬勃发展.高密度cDNA微阵列与寡核苷酸微阵列

技术已经可以同时测定多个基因(甚至整个基因组)在某

一

条件下的转录水平.大规模基因表达谱数据为研究基

因功能,基因之间的调控机制及医药研究提供了新的研究

思路.怎样从如此浩如烟海的数据集中找到研究者所感

兴趣的信息,不仅是生物信息学研究者的一个重要课题,

也对计算机研究者提出了新的课题.近几年,高性能生物

序列聚类算法¨叫J有了很大提高,这些算法都能自动把数

量非常庞大的基因数据库进行聚类,它是微阵列研究中的

一

个重要的工具.文中系统评述了微阵列数据分组基因

问题中所用到的各种聚类方法.由于聚类问题的多样性

和"开放性",评价一个聚类问题的优劣不仅仅是要看其数

学上表现,而且要在具体的生物学的环境下进行评价,聚

类问题和聚类算法中,特别是在基因表达条件下,有很多

收稿日期:2005—05—27

基金项目:陕西省自然科学基金(98X11);陕西省教育厅重点科研计

划项目(00JK015)

作者简介:马煜(1975～),女,陕西子州人,硕士研究生,研究方向

为数据挖掘,生物信息学;陈莉,副教授,硕士研究生导师,研究方

向为人工智能,数据挖掘.

重要问题需要考虑.因此在这里并不对所有的聚类算法给定一个统一的评价标准.

1微阵列数据简介

在过去短短几年里,基于微阵列的新技术大量涌现并

且迅速发展.这一类技术包括DNA杂交阵列(hybndi~一tionarray)[基因表达阵列以及用于测序和多态性研究的寡核苷酸(oligonucleotide)阵列],蛋白质阵列,组织阵列等.由于这些高能量方法使大量分子与一个大型文库之间的组合成为可能.

DNA基因表达微阵列便利生物学家能够在基因组层

次上研究任何种类细胞的任何时间,任何给定条件下的基因表达模式【.利用这些微阵列,人们正产生出大量的数据,它们可以帮助人们深入地认识诸多生物过程的本质, 如基因功能,发育,癌症,衰老和药理等.即使是对现有信

息的部分理解也能够提供很有价值的线索.例如,新基因的共表达(CO—expression)就有助于推断许多缺乏相关信息的基因的功能.然而,基因徽阵列数据分析方法的发展现在才刚刚起步.

2基因聚类分析

聚类就是将物理或抽象对象分组成为多个类或簇(cluster),在同一个簇中的对象之间具有较高的相似度.

ll8-计算机技术与发展第16卷

而不同簇中的对象差别较大.基因聚类就是将基因在属性的基础上分组,这些属性往往是基因在一些特定的情况下的表达水平或其子集.

2.1分级聚类

聚类可以通过分级的分支过程得到.因此有一些方

法,可以根据两两相似度从数据中自动建立一棵树.对于基因表达的情况,这就是文献[6]所用的方法.这种方法的输出是一棵树而非一组类别.特别地,如何从树中定义类别往往不明显.因为类别是通过在树的某些点剪枝得到,而这一过程或多或少带有主观性.

分级聚类算法的步骤:

Stepl:建立Gene—experiment矩阵.

建立m×矩阵,其中每一列是不同的组织,或者在

不同的条件下的样本,每一行是基因的编号,每个基因的表达量用标准化后的log2R/G表示.

Step2:计算所有基因之间的相关系数(correlationco—efficient).

基因的相似分值(similarityscore)可以由Pearsonscor—relation公式计算:

,y:

i=1

G妇一般取值为标准化后的中位数G=

√堕,或平均值.它等于0,即log2R/G:

0.表示表达无差异.

Step3:建立C-ene—C-ene的距离矩阵(见表1).

表1Gene—Gene距离矩阵

G1G2G3G4G5

G10

G220

G3650

(3410940

G598530

Step'*:建立系统发育树(dendrograrn).

根据Game-Gane矩阵的分值,首先找到矩阵中两个

最相似的元素(具有最大相关性,距离最近的),生成一个

结点将它们结合在一起,例如对表1,有5个基因的矩阵, 得到的系统发育树如图1所示.

12345

图L系统发育树图

Steps:建立表达图谱,通过求两个元素表达谱(ex—pressionprofile)(或向量)的平均(缺失的数据可以忽略,求平均时可以按照向量中元素的个数进行加权)生成新节点的表达谱(或向量).

s~tp6:用新节点取代两个结合的元素,按照新计算的

表达谱(或向量)计算新的相关矩阵.这个相关矩阵比原

来的矩阵要小一些.

Step7:从N个点开始,这个过程将最多重复N一1

次,直至只剩下1个单节点.

正如已经指出的,在建立了这样一个标准树图以后,

如何显示结果以及如何选取类别仍然是个问题.这一步往往是由人手工来完成的,既浪费时间又带着强烈的主观性.文献[6]用了一种启发式近似算法,它用平均表达水平,柒色体位置和最大诱导时间(timeofmaximalinduc—tion)对基因加权.通过对一组基因表达数据聚类得到的

主要类别确实显示出了生物学上的相关性.

2.2K均值聚类法

在所有的聚类算法中,K均值聚类法_7J可能具有最清

晰的概率表述.K均值聚类法与分层聚类有本质的区别, 首先类别数被固定为一个值K,然后将全部的基因按照相似性的距离,归人这几类中.一开始就给各类选择代表点或类中心,这样K个代表点或类中心的选择或多或少带

有随意性.它们也被称为质心(centroid)或原型(proto—thee).

K均值聚类算法:

Stepl:将gene—experiments矩阵转化为gene—gene distance矩阵,但与分层聚类计算相关系数的方法不同,用欧氏距离(Euclideandistance)公式计算:

———_

d(X,Y)=^/(K—)Yi=l

式中,x,y为两个基因.

然后将所有的基因随机分配到K类中.

Step2:计算出每个类中的基因的均值,把每个点分到

离它最近的代表点所代表的类内;分类诸新的代表点,比如取每一个新类的平均或重心.

Step3:重复上面两个步骤,直到系统收敛或涨落很

小.

这里要注意:K均值聚类法要求选择类别数,要求可

以计算点与点之间的距离或相似度,并且对于每一类在给定其成员时可以计算代表点.

2.3基于图论的聚类算法

该算法基于图论中最小生成树方法的聚类分析.其

作法是利用最小生成树算法(MST)将多维基因数据建树,这个表示的关键性是表达数据的每个簇对应MST的一

个子树,这样将一个多维数据的聚类问题严格地转换成为一个树的划分问题,然后删去最大边产生聚类J.'

D={d}是一个表达数据的集合,其中每个d=

{e,e;,…,e}表示从时间1到时间t基因,的表达水平.

在这里定义一个带权图G(D):(,E).向量集V:{d

ldj∈D},边集E∈{(d,d,)ld,df∈D且i≠J}.因

第2期马煜等:基因微阵列数据中的聚类技术研究?ll9? 此((D)是一个完全图,每个边(U,)∈E都有一个权重

用来代表两个结点之间的距离或(相异性).p(U,)在U

和之间的距离可以被定义为欧氏距离,相关性系数或是

其它一些距离测试方法.

连接带权图G(D)造成树T是G(D)一个连通子图.

树的属性为:(1)T包含G(D)中每个向量;(2)T不包含

任何的环.MST是距离总和最小的生成树.

最小生成树算法:

Stepl:用最小生成树(MSr)算法数据建树.

Step2:找到最小生成树中两个叶结点之间距离最长

的剪枝,生成一个新簇.

Step3:若没有执行到N一1步,则执行Step2;否则,输

出聚类结果.

基于图论理论的聚类算法的优点:

(1)树形结构有利于高效地实现严格的聚类算法;

(2)基于图论的聚类不依赖于簇的几何形状,它可以

克服其它划分聚类算法的问题即严重依赖簇的几何形状, 一

般在面对包含无重叠的向量集中的簇时并不能很好地

发挥性能.

缺点:因为过渡区域的点,这个算法所面对的是一套

强连通的基因,所以基于图论的聚类算法的计算复杂性高.

2.4自组织映射

自组织映射(sat—organizedmap,SOMs)分析'2J是人

工神经网络应用于聚类分析中的例子.它采用的是结构

简单的单层竞争性神经网络.模式在输入端引入并与输

出结点关联,其间的权重通过学习反复变更,直到达到终

止标准.结果是相似的模式被分人同组,并为同一个单位(神经元)所代表.SOMs法有着和K—me~-3s相同的不足, 在未知分块数目时其初始权重选择很可能不合适而导致产生次优解.另外收敛受到多种参数影响,结果可能不稳定.Mavroudi等…1提出了改进的SOMs算法,称为sNet—SOM(supervisednetworkself—organizedmap),它通过一个动态扩展过程可以自适应地确定分组数目,同时有效地降低了计算代价.

2.5模拟退火算法聚类

模拟退火算法-9.9是一种受统计力学启发的通用的优

化算法.在模拟退火聚类算法中假设N是基因表达水平的数量,每一个表达水平包含M个时间点上的数据.起初每个基因表达水平用一个M维向量{e,,…,}表示,

每个维的值被标准化为{0,l}之间的值.两个向量和

之间的距离用欧氏距离表示:

d:[:(一)]尼一l

对于给定簇的数量K时,使用最小化簇中所有点之

间距离d之和来得到簇的最优分布.簇内所有点之间距

离之和用下式表示:

E(K)=∑[∑∑]

这里计算最小化簇中所有点之间距离之和时使用的

是模拟退火算法.

模拟退火算法步骤:

Stepl:将集体中的所有向量任意分到K个簇内.

Step2:选择一个簇中的任意一个向量,将它分配至另

一

簇中.计算一个新的E一和原来的值Edd进行比较.如

果Edd大于E一则向量就被无条件地分配到新的簇中, E一做为下一次迭代的开始.

Step3:计算新的分配被接受的可能性exp[～(E一一

E)/T].

Step4:如果T没有接近0,则执行Step2,else输出所得

到的簇.

这里可能性表达式中如果E的值可以看作系统的能

量时,T可以被理解为"温度".这个算法保证了经过有限步的迭代后系统在给定的温度下服从波耳兹曼一吉布斯分布.因此,如果温度T接近0,那么系统中E函数也就接近了全局的最小值.

3展望

基因微阵列数据的聚类分析方法已经在生命科学的

各个领域内得到了许多成功的应用,如基因表达谱与生物个体行为关系的研究,肿瘤分类等等.由于其应用的广泛性,出现了大量可用的聚类分析软件,更加方便了其推广和应用.

聚类算法在目前生物信息的分析中应用极其广泛,但

大多数是基于统计理论,而生物领域的知识很少被涉及. 而一个聚类结果的质量的好坏不仅仅要看其在数学形态上的表现,生物领域的知识是要起非常大的作用的.生物信息的聚类分析进行应该充分考虑将基因的生物学意义和聚类算法很好地结合起来.

参考文献:

[1]Mavrou~S,PapadimitriouS,BegerianosA.Geneexpression dataanalysiswithadynamicallyextendedself—organizedmap thatexploitsclassinformation[J].Bioinformatics,2002,18: 1446～1453.

[2]GoulbTR,SlonimDK,TamayoP,eta1.Molecularclassifica. tionofcancer:classdiscoveryanddasspredictionbygeneex-

pressionminitoring[J].Science,1999,286(18):1194～1206. [3]Cxx)https://www.360docs.net/doc/1761223.html,putationalcomplexityofprobabilityinference usingBayesianBeliefNetworks[J].ArtificialIntelligence, 1993,15:246—255.

[4]Luk~shinA V,FucKsR.Analysisiftemporalgeneexpression profiles:clusteringbysimulatedannealinganddetemfiningthe optimalnumberofclusters[J].Bioinformaties,2001,17:405

～

414.

[5]HolstegeFCP,JenningsEG,WyrickJJ,eta1.Dissectingthe regulatorydrc~tryofaeukaryoticgenome[J].Ceu,1998,95:

(下转第l22页)

l22?计算机技术与发展第16卷synchronizedvoidLeftEnter()throws[nterruptedException{

a)一一一while(nRight>O)wait();

nLeft+;//获取资源,nLeft加1

}

synchronizedvoidLeftExit(){

p_Le~t一一;//释放资源线处,nLeft减1

b)一一一if(nLeft==O)

notifyAU();

}

a)判断另一类线程是否占用资源:如果nRight等于

0说明没有占用该资源,如果nRight大于0,说明另一类

线程正在占用该资源,这样就挂起本线程.

b)释放资源并唤醒线程:如果nLeft(nRight)等于零,

就说明该类线程已经全释放了资源,重新唤醒所有线程继

续竞争资源,这样就保证了多线程的延续性.

(3)synchronized的作用[.

Java提供了专门机制以解决这种冲突,即synchro—

nized关键字,它有效避免了同一个数据对象被多个线程

同时访问.synchronized方法使每个类实例对应一把锁,

每个synchronized方法都必须获得调用该方法的类实例

的锁方能执行,否则所属线程阻塞本程序就是使用第一种

方法来实现对公共资源的互斥访问.

3.3.3关于FairTunne1.java的控制分析

FairTunnel类是对SafeTunnel类的改进,在实现多线

程并发执行中的安全性的同时,也保证了多个线程对资源

访问的公平性.

privatehatnLeft:0,nRight=0,wai~ht=0,waitLeft

=0;

privatebooleanRightturn:true;

synchronizedvoidLeft.Enter()throwsInterruptedException{

++waitLeft;//等待的LeftTrain线程的个数加1

a)一一一while(nPdght>0II(waitiight>0&&R/ght—turn))wait();

一一waitLeft;//等待的LeftTrain线程个数减1

++nLeft;//占用该资源的线程个数随之加1

}

synchronizedvoidLeftExit(){

一一rllt;//释放资源,nLeft(nRight)减1

b)一一一Righrtum=true;

c)一一一if(n1.eft:=O)

notifyAU();

(上接第119页)

717—728.

[6]EisenMB,SpeIlmaJ1PT,BrownPO,eta1.Clusteranalysis

anddisplayofgenome--wideexpressionpatterns[A].Proc. Nat1.Acad.SciUSA,95[C].USA:[S.n.],1998.14863—14868.

[7]DudaRO,HartPE.PatternClassificatinandSceneAnalysis }

在这个类中引用了以下几个公共变量:

*nLeft,nRight:代表占用资源的同类线程数;

*waitLeft,waitRight:代表申请资源的同类线程数;

*Rightturn:是一个时间片开关,它实现了两边的两

类线程公平地访问资源,两类线程申请资源获得允许使用权力的时间片就是一列Train通过单行隧道的时间.

a)挂起线程:当n_Right大于0时说明RightTrain线

程正在占用资源,当waitRight大于0时,说明有新的RightTrain线程将准备使用资源,Rightturn等于true时, 说明RightTrain线程有权继续使用资源.在上述情况下, 挂起LeftTrain线程.

b)当第一个使用资源的LeftTrain线程到达资源释放

处时,使得Rightturn改为true,使得LeftTrain线程失去申请资源获得允许使用权力.

c)释放资源并唤醒线程:如果n.Left(nRight)等于零,

就说明该类线程已经全释放了资源,重新唤醒所有线程继续竞争资源,这样就保证了多线程的延续性.

4结束语

文中简单模拟火车行驶单行隧道,通过这个实验模拟

了多线程并发系统中的安全性与公平性问题,分别演示了在不同情况下产生何种后果:只考虑安全性,将会有一类Train(LeftTrain或者RightTrain)长时间等待,申请不到资源;只考虑公平性,会出现两边火车相撞的情况.由此,可

充分认识打到并发系统中的安全性与公平性二者的辨证

关系,通过两者的结合,设计解决实际问题的最优方案.

参考文献:

[1JMageeJ,KramerJ.Concurrency:StateModels&JavaPro—grams[M].[s.1_]:Willeypublishingoompany,1999

[2]任爱华,王雷.操作系统实用教程(第2版)[M].北京:清

华大学出版社,2004.

[3]StallingsW.操作系统精髓与设计原理(第3版)[M].北京: 清华大学出版社,1998.

[4]陶冶.Java多线程学习笔记[EB/OL].http://www.岱一

https://www.360docs.net/doc/1761223.html,,'programAnd0-2(.hun.2003—06—18.

[5]DeitelHM,DeitelPJ.Java程序设计教程[M].施平安,施

惠琼译.北京:清华大学出版社,2004.

[M].[S.I_]:JohnWileyandSorts,1973.

[8]XuYing,OlmanV,XuDong.Clusteringgeneexprexsiondata usingagraph-theoreticapproach:anapplicationofnfinimum spanningtrees[J].Bioinformatics,2002,l8:536—545.

[9]KirkpatrickS,GelattCD,VecchiMP.Optimizationbysimu—latedanne~ng[JJ.Science,1983,220:671—680.

数据挖掘中的聚类分析方法

计算机工程应用技术本栏目责任编辑：贾薇薇数据挖掘中的聚类分析方法黄利文（泉州师范学院理工学院，福建泉州３６２０００）摘要：聚类分析是多元统计分析的重要方法之一，该方法在许多领域都有广泛的应用。本文首先对聚类的分类做简要的介绍，然后给出了常用的聚类分析方法的基本思想和优缺点，并对常用的聚类方法作比较分析，以便人们根据实际的问题选择合适的聚类方法。关键词：聚类分析；数据挖掘中图分类号：ＴＰ３１１文献标识码：Ａ文章编号：１００９－３０４４（２００８）１２－２０５６４－０２ＣｌｕｓｔｅｒＡｎｌａｙｓｉｓＭｅｔｈｏｄｓｏｆＤａｔａＭｉｎｉｎｇＨＵＡＮＧＬｉ－ｗｅｎ（ＳｃｈｏｏｌｏｆＳｃｉｅｎｃｅ，ＱｕａｎｚｈｏｕＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ，Ｑｕａｎｚｈｏｕ３６２０００，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｃｌｕｓｔｅｒａｎａｌｙｓｉｓｉｓｏｎｅｏｆｔｈｅｉｍｐｏｒｔａｎｔｍｅｔｈｏｄｓｏｆｍｕｌｔｉｖａｒｉａｔｅｓｔａｔｉｓｔｉｃａｌａｎａｌｙｓｉｓ，ａｎｄｔｈｉｓｍｅｔｈｏｄｈａｓａｗｉｄｅｒａｎｇｅｏｆａｐｐｌｉｃａ－ｔｉｏｎｓｉｎｍａｎｙｆｉｅｌｄｓ．Ｉｎｔｈｉｓｐａｐｅｒ，ｔｈｅｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｔｈｅｃｌｕｓｔｅｒｉｓｉｎｔｒｏｄｕｃｅｄｂｒｉｅｆｌｙ，ａｎｄｔｈｅｎｇｉｖｅｓｓｏｍｅｃｏｍｍｏｎｍｅｔｈｏｄｓｏｆｃｌｕｓｔｅｒａｎａｌｙｓｉｓａｎｄｔｈｅａｄｖａｎｔａｇｅｓａｎｄｄｉｓａｄｖａｎｔａｇｅｓｏｆｔｈｅｓｅｍｅｔｈｏｄｓ，ａｎｄｔｈｅｓｅｃｌｕｓｔｅｒｉｎｇｍｅｔｈｏｄｗｅｒｅｃｏｍｐａｒｅｄａｎｄａｎｓｌｙｚｅｄｓｏｔｈａｔｐｅｏｐｌｅｃａｎｃｈｏｓｅｓｕｉｔａｂｌｅｃｌｕｓｔｅｒｉｎｇｍｅｔｈｏｄｓａｃｃｏｒｄｉｎｇｔｏｔｈｅａｃｔｕａｌｉｓｓｕｅｓ．Ｋｅｙｗｏｒｄｓ：ＣｌｕｓｔｅｒＡｎａｌｙｓｉｓ；ＤａｔａＭｉｎｉｎｇ１引言聚类分析是数据挖掘中的重要方法之一，它把一个没有类别标记的样本集按某种准则划分成若干个子类，使相似的样品尽可能归为一类，而不相似的样品尽量划分到不同的类中。目前，该方法已经被广泛地应用于生物、气候学、经济学和遥感等许多领域，其目的在于区别不同事物并认识事物间的相似性。因此，聚类分析的研究具有重要的意义。本文主要介绍常用的一些聚类方法，并从聚类的可伸缩性、类的形状识别、抗“噪声”能力、处理高维能力和算法效率五个方面对其进行比较分析，以便人们根据实际的问题选择合适的聚类方法。２聚类的分类聚类分析给人们提供了丰富多彩的分类方法，这些方法大致可归纳为以下几种［１，２，３，４］：划分方法、层次方法、基于密度的聚类方法、基于网格的聚类方法和基于模型的聚类方法。２．１划分法（ｐａｒｔｉｔｉｏｎｇｉｎｇｍｅｔｈｏｄｓ）给定一个含有ｎ个对象（或元组）的数据库，采用一个划分方法构建数据的ｋ个划分，每个划分表示一个聚簇，且ｋ≤ｎ。在聚类的过程中，需预先给定划分的数目ｋ，并初始化ｋ个划分，然后采用迭代的方法进行改进划分，使得在同一类中的对象之间尽可能地相似，而不同类的中的对象之间尽可能地相异。这种聚类方法适用于中小数据集，对大规模的数据集进行聚类时需要作进一步的改进。２．２层次法（ｈｉｅｔａｒｃｈｉｃａｌｍｅｔｈｏｄｓ）层次法对给定数据对象集合按层次进行分解，分解的结果形成一颗以数据子集为节点的聚类树，它表明类与类之间的相互关系。根据层次分解是自低向上还是自顶向下，可分为凝聚聚类法和分解聚类法：凝聚聚类法的主要思想是将每个对象作为一个单独的一个类，然后相继地合并相近的对象和类，直到所有的类合并为一个，或者符合预先给定的终止条件；分裂聚类法的主要思想是将所有的对象置于一个簇中，在迭代的每一步中，一个簇被分裂为更小的簇，直到最终每个对象在单独的一个簇中，或者符合预先给定的终止条件。在层次聚类法中，当数据对象集很大，且划分的类别数较少时，其速度较快，但是，该方法常常有这样的缺点：一个步骤（合并或分裂）完成，它就不能被取消，也就是说，开始错分的对象，以后无法再改变，从而使错分的对象不断增加，影响聚类的精度，此外，其抗“噪声”的能力也较弱，但是若把层次聚类和其他的聚类技术集成，形成多阶段聚类，聚类的效果有很大的提高。２．３基于密度的方法（ｄｅｎｓｉｔｙ－ｂａｓｅｄｍｅｔｈｏｄｓ）该方法的主要思想是只要临近区域的密度（对象或数据点的数目）超过某个阈值，就继续聚类。也就是说，对于给定的每个数据点，在一个给定范围的区域中必须至少包含某个数目的点。这样的方法就可以用来滤处＂噪声＂孤立点数据，发现任意形状的簇。２．４基于网格的方法（ｇｒｉｄ－ｂａｓｅｄｍｅｔｈｏｄｓ）这种方法是把对象空间量化为有限数目的单元，形成一个网格结构。所有的聚类操作都在这个网格结构上进行。用这种方法进行聚类处理速度很快，其处理时间独立于数据对象的数目，只与量化空间中每一维的单元数目有关。２．５基于模型的方法（ｍｏｄｅｌ－ｂａｓｅｄｍｅｔｈｏｄ）基于模型的方法为每个簇假定一个模型，寻找数据对给定模型的最佳拟合。该方法经常基于这样的假设：数据是根据潜在的概收稿日期：２００８－０２－１７作者简介：黄利文（１９７９－），男，助教。

数据挖掘中聚类分析的研究_陈学进

收稿日期:2005-11-09 作者简介:陈学进(1972-),男,安徽六安人,讲师,硕士研究生,研究方向为计算机软件理论及数据挖掘;导师:胡学钢,博士,教授,研究方向为知识工程、数据挖掘、数据结构。数据挖掘中聚类分析的研究陈学进 (合肥工业大学计算机与信息学院,安徽合肥230009; 安徽工业大学计算机学院,安徽马鞍山243002) 摘　要:聚类分析是由若干个模式组成的,它在数据挖掘中的地位越来越重要。文中阐述了数据挖掘中聚类分析的概念、方法及应用,并通过引用一个用客户交易数据统计出每个客户的交易情况的例子,根据客户行为进行聚类。通过数据挖掘聚类分析,可以及时了解经营状况、资金情况、利润情况、客户群分布等重要的信息。对客户状态、交易行为、自然属性和其他信息进行综合分析,细分客户群,确定核心客户。采用不同的聚类方法,对于相同的记录集合可能有不同的划分结果对其进行关联分析,可为协助各种有效的方案,开展针对性的服务。关键词:数据挖掘;聚类分析;客户行为中图分类号:T P311.13 文献标识码:A 文章编号:1673-629X (2006)09-0044-02 Research of Cluster Analysis in Data Mining CHEN Xue -jin (Computer and Information College of Hefei U niversity of T echnology ,Hefei 230009,China ; Computer College ,A nhui U niversity of T echnology ,M aanshan 243002,China ) Abstract :Cluster anal ysis is made up of patterns ,and becoming increasingly essential in data mining field .T his paper b riefly introduces the bas ic concept ,means and application of cluster anal ysis discussing about cluster analysis by using a case of customer trans action .In order to k now about much imoport information of running ,funds ,profits and customers .And anal yze state of cl ient ,bargaining action ,natu ral ess attribute and other information ,subdivide customer groups and fix on core client .By us ing various methods of cluster analysis ,it is effec -tive p roject to develop pertinence s ervice . Key words :data mining ;cluster analys is ;customer action 0　引　言自20世纪60年代数据库系统诞生以来,数据库技术已经得到了飞速的发展,并且己经深入到社会生活的各个方面。现在,数据无处不在,可以存放在不同类型的数据库中,数据仓库技术可以将异构的数据库集成起来进行综合管理,从而提供更好的服务。但是,随着科学技术的进步,新的数据采集和获取技术不断发展,使得数据库中所存储的数据量也随之急剧增长。另一方面,数据处理技术的发展却相对落后,数据库技术仍然停留在相对简单的录入、查询、统计、检索阶段,对数据库中的数据之间存在的关系和规则、数据的群体特征、数据集内部蕴涵的规律和趋势等,却缺少有效的技术手段将其提取出来,从而出现所谓的“被数据淹没,却饥渴于知识”(John Na isbett ,1997)的现象[1]。为了解决这种现象,科学家们于20世纪80年代末期创立了一个新的研究领域,即数据挖掘(Data M ining ),或称数据挖掘和知识发现(Data M ining and Know ledge Discovery ,DM KD )。这是在数据库技术、机器学习、人工智能、统计分析等基础上发展起来的一个交叉性的学科。区别于简单地从数据库管理系统检索和查询信息。数据挖掘是指“从数据中发现隐含的、先前不知道的、潜在有用的信息的非平凡过程”(Fra w le y ,1991),其目的是把大量的原始数据转换成有价值的、便于利用的知识。自从数据挖掘和知识发现的概念于1989年8月首次出现在第11届国际联合人工智能学术会议以来,数据挖掘和知识发现领域的研究和应用均得到了长足的发展,形成了一些行之有效的理论和方法,并逐渐成为计算机信息处理领域的研究热点。数据挖掘(Data M ining )是一个多学科交叉研究领域,它融合了数据库(Database )技术、人工智能(Artificial Intel -ligenc e )、机器学习(Machine Learning )、统计学(Statistics )、知识工程(Know ledge Engineering )、面向对象方法(Object -Oriented Method )、信息检索(Information Retrieval )、高性能计算(High -Perform ance Computing )以及数据可视化(Data Visualization )等最新技术的研究成果[2,3]。第16卷　第9期2006年9月计算机技术与发展COM PUTER TECHNOLOGY AND DEVELOPM ENT Vo l .16　N o .9Sep .　2006

数据流挖掘算法研究综述

－1130－ 1引言所谓数据流就是大量连续到达的、潜在无限的数据的有序序列，这些数据或其摘要信息只能按照顺序存取并被读取一次或有限次。在网络监控、入侵检测、情报分析、金融服务、股票交易、电子商务、电信、卫星遥感（气象、环境资源监控等）、Web 页面访问和科学研究等众多领域中，数据以流的形式出现。由于数据流的特殊性，短时间内有大量数据连续到达，这些数据具有随时间动态变化的趋势，往往又是高维的，怎样对这些流数据使用有限存储空间进行快速处理以获取有用信息，为数据挖掘及其应用研究带来了新的机遇和挑战，也具有非常重要的意义。由于众多应用领域的需求，近几年数据流处理问题，特别是数据流挖掘问题已受到越来越多的研究人员关注。国外在数据流挖掘方面有两个比较有影响的研究小组：一个是Stanford 大学的R.Motwani 教授领导的研究小组，另一个是UIUC 的C.Aggarwal 和J.Han 教授领导的研究小组。前者的研究侧重在数据流管理、数据流的连续查询和数据流的聚类方面 [1-4] ，提出了不同于传统DBMS 的DSMS （Data Stream Management System ）概念，他们的研究得到了美国国家自然科学基金的资助。后者的研究侧重在数据流分析方面，对于数据流的在线分析,从聚类、分类、频繁项集挖掘以及可视化等角度做了大量研究工作[5-8]，提出了倾斜时间窗口（tilted-time window ）策略，采用不同时间粒度保存数据流的信息，他们的研究得到了美国军方和国家自然科学基金的资助。目前鲜见国内在数据流挖掘方面公开发表的研究文献。本文拟对数据流挖掘的研究现状进行总结，并对存在的问题和未来的研究方向提出我们的观点。 2数据流挖掘研究现状目前数据流挖掘方面的研究成果主要集中在数据流的聚类、分类和频繁模式挖掘方面。 2.1数据流聚类算法研究尽管聚类问题在数据库、数据挖掘和统计等领域得到了广泛研究，流数据的分析仍为聚类算法提出了前所未有的挑战，由于完整甚至部分地存储过去数据的方法不可行，需要能够只使用新数据就能够追踪聚类变化的算法，这就要求算法必须是增量式的，对聚类表示要简洁，对新数据的处理要快速，对噪音和异常数据是稳健的。因为数据流可看成是随时间不断变化的无限过程，其隐含的聚类可能随时间动态地变化而导致聚类质量降低。近年来，有学者提出了应用于大规模数据集的一趟聚类算法，如Squeezer 算法[9]和BIRCH [11]算法，它们可以应用于某些数据流问题，也有学者提出了针对流数收稿日期：2004-06-12。基金项目：国家自然科学基金项目（60273075）。作者简介：蒋盛益(1963-)，男，湖南隆回人，副教授，博士生，研究方向为数据挖掘和网络安全；李庆华，教授，博士生导师，研究方向为并行计算、网格计算和网络安全；李新，硕士生，研究方向为数据挖掘和并行计算。 2005年5月计算机工程与设计 May.2005 第26卷第5期Vol.26 No.5 数据流挖掘算法研究综述蒋盛益1，2 ，李庆华1，李新1 (1.华中科技大学计算机学院，湖北武汉430074；2.衡阳师范学院计算机系，湖南衡阳421008) 摘要：流数据挖掘是数据挖掘的一个新的研究方向，已逐渐成为许多领域的有用工具。在介绍数据流的基本特点以及数据流挖掘的意义的基础上，对现有数据流挖掘算法的主要思想方法进行了总结，并指出了这些方法的局限性。最后对数据流挖掘的发展方向进行了展望。关键词：数据流；数据流挖掘；聚类；分类；频繁模式中图法分类号：TP3ll 文献标识码：A 文章编号：1000-7024(2005)05-1130-03 Survey on data stream mining JIANG Sheng-yi 1,2, LI Qing-hua 1, LI Xin 1 (https://www.360docs.net/doc/1761223.html,puter School,Huazhong University of Science and Technology,Wuhan 430074,China;https://www.360docs.net/doc/1761223.html,puter Department, Hengyang Normal University,Hengyang 421008,China ) Abstract ：Data stream mining is a new research aspect of data mining.It has be come a useful tool for many fields.The essential characteristic of data stream and the significance of data stream mining are introduced.The main ideal of existing data stream mining algorithms is summarized,and the limitation of the algorithms is pointed out.Some research directions about data stream mining in future work are put forward. Key words ：data stream;data stream mining;clustering,classification;frequent pattern Computer Engineering and Design

基因微阵列数据中的聚类技术研究

基因微阵列数据中的聚类技术研究第l6卷第2期 2006年2月计算机技术与发展 C()NIPUTERTE({N0l)【YANI)I)EVE1』)ljMEN7, V(,l16NO.2 Feb.2006 基因微阵列数据中的聚类技术研究马煜,陈莉,方鹤鹤 (西北大学计算机科学系,陕西西安710069) 摘要:微阵列技术是后基因时代功能基因组研究的主要工具.由于采用了高效的并行杂交技术,每次实验可以得到大量丰富的数据,因此其结果分析成为一项很有挑战性而且具有重要意义的工作.聚类分析是微阵列数据分析中使用最为广泛的一类方法.微阵列实验得到的大量数据通过聚类分析,可以得到很多有用的信息,其成功应用已广泛涉及到基因功能研究和生物医学研究中的各个领域.文中介绍了基因微阵列数据的聚类分析方法及其重要应用. 关键词:微阵列;基因表达谱;聚类分析中图分类号:TP391文献标识码:A文章编号:1005—3751(2006)02一Ol17—03 ClusteringAnalysisofMicroarrayGeneExpressionData MAYu,CHENLi,FANGHe-he (DepartmentofComputerScience,NorthwestUniversity,Xi'an710069,China) Abstract:Microarraytechnologyisthechieftoolforfunctionalgenomeresearch.Asadoptin gthehighefficientandparallelDNAhy? bridizaitontechnology,canachieveadundantdatafromeachexperiment,sothedataanalysis ofmicroarraysdatabecomesamorechalleng?

数据挖掘考试题目——聚类

数据挖掘考试题目——聚类一、填空题 1、密度的基于中心的方法使得我们可以将点分类为：__________、________ 、_________。 2、DBSCAN算法在最坏的情况下，时间复杂度是__________、空间复杂度是__________。 3、DBSCAN算法的优点是_______、__________________________。 4、DBSCAN算法的缺点是处理_________________、_____________的数据效果不好。 5、DBSCAN算法的参数有：___________、____________。 6、簇的有效性的非监督度量常常可以分为两类：__________、__________，它常采用的指标为__________。 7、簇的有效性的监督度量通常称为___________，它度量簇标号与外部提供的标号的匹配程度主要借助____________。 8、在相似度矩阵评价的聚类中，如果有明显分离的簇，则相似度矩阵应当粗略地是__________。 9、DBSCAN算法的参数确定的基本方法是观察____________________的特性。 10、不引用附加的信息，评估聚类分析结果对数据拟合情况属于__________技术。答案： 1、核心点边界点噪声点 2、O(n2) O(n) 3、耐噪声能够处理任意大小和形状的簇 4、高维数据变密度的 5、EPS MinPts 6、簇的凝聚性簇的分离性均方差(SSE) 7、外部指标监督指标的熵 8、块对角的 9、点到它的第K个最近邻的距离（K-距离） 10、非监督

二、选择题 1、DBSCAN算法的过程是（B）。 ①删除噪声点。 ②每组连通的核心点形成一个簇。 ③将所有点标记为核心点、边界点和噪声点。 ④将每个边界点指派到一个与之关联的核心点的簇中。 ⑤为距离在Eps之内的所有核心点之间赋予一条边。 A：①②④⑤③ B：③①⑤②④ C：③①②④⑤ D：①④⑤②③ 2、如果有m个点，DBSCAN在最坏的情况下的时间复杂度度为（C）。 A O(m) B O(mlogm) C O(m2) D O(logm) 3、在基本DBSCAN的参数选择方法中，点到它的K个最近邻的距离中的K选作为哪一个参数（B）。 A Eps B MinPts C 质心 D 边界 4、当采用K-距离的方法选择DBSCAN的Eps和MinPts参数时，如果设置的K的值太大，则小簇（尺寸小于K的簇）可能会被标记为（A）。 A 噪声 B 核心簇 C 边界簇D以上都不对 5、如果处理以下形状的数据时，适宜采用DBSCAN的是（B） A 球形 B SS形 C 椭球形 D 方形 6、DBSCAN之所以难以有效处理高维数据，其主要原因是（D）

1基于网格的数据流聚类算法

3)国家自然科学基金(60172012)。刘青宝　博士生,副教授,主要研究方向为数据仓库技术和数据挖掘;戴超凡　博士,副教授,主要研究方向为数据仓库技术和数据挖掘;邓　苏　博士,教授,主要研究方向指挥自动化、信息综合处理与辅助决策;张维明　博士生导师,教授,主要研究方向为军事信息系统、信息综合处理与辅助决策。计算机科学2007Vol 134№13 　基于网格的数据流聚类算法3) 刘青宝　戴超凡　邓　苏　张维明 (国防科学技术大学信息系统与管理学院　长沙410073) 　摘　要　本文提出的基于网格的数据流聚类算法,克服了算法CluStream 对非球形的聚类效果不好等缺陷,不仅能在噪声干扰下发现任意形状的类,而且有效地解决了聚类算法参数敏感和聚类结果无法区分密度差异等问题。关键词　聚类,数据流,聚类参数,相对密度　 G rid 2based Data Stream Clustering Algorithm L IU Qing 2Bao DA I Chao 2Fan DEN G Su ZHAN G Wei 2Ming (College of Information System and Management ,National University of Defense Technology ,Changsha 410073) 　 Abstract With strong ability for discovering arbitrary shape clusters and handling noise ,grid 2based data stream cluste 2ring algorithm efficiently resolves these problem of being very sensitive to the user 2defined parameters and difficult to distinguish the density distinction of clusters.K eyw ords Clustering ,Data stream ,Clustering parameter ,Relative density 随着计算机和传感器技术的发展和应用,数据流挖掘技术在国内外得到广泛研究。它在网络监控、证券交易分析、电信记录分析等方面有着巨大的应用前景。特别在军事应用中,为了获得及时的战场态势信息,大量使用了各种传感器,对这些传感器数据流的分析处理已显得极为重要。针对数据流数据持续到达,且速度快、规模大等特点,数据流挖掘技术的研究重点是设计高效的单遍数据集扫描算法[12]。数据流聚类问题一直是吸引许多研究者关注的热点问题,已提出多种一次性扫描的方法和算法,如文[1～4]等等,但它们的聚类结果通常是球形的,不能支持对任意形状类的聚类[5]。本文提出的基于网格的数据流聚类算法,在有限内存条件下,以单遍扫描方式,不仅能在噪声干扰下发现任意形状的类,而且有效地解决了基于绝对密度聚类算法所存在的高密度聚类结果被包含在相连的低密度聚类结果中的问题。本文第1节简要介绍数据流聚类相关研究,并引出基于网格的数据流聚类算法的思路及其与相关研究的异同;第2节给出基于网格的数据流聚类算法所使用到的基本概念;第3节给出一个完整的基于网格的数据流聚类算法,详细解析算法的执行过程;第4节进行算法性能分析对比;最后总结本文的主要工作和贡献,并指出需要进一步研究和改进的工作。 1　相关研究在有限内存约束下,一般方法很难对数据流进行任意形状的聚类。第一个增量式聚类挖掘方法是文[6]提出的In 2crementalDBSCAN 算法,它是一个用于数据仓库环境(相对稳定的数据流)的有效聚类算法,可以在有噪声的数据集中发现任意形状的类。但是,它为了形成任意形状的类,必须用类中的所有点来表示,要求获得整个数据流的全局信息,这在内存有限情况下是难以做到的。而且,它采用全局一致的绝对密度作参数,使得聚类结果对参数值非常敏感,设置的细微不同即可能导致差别很大的聚类结果。 Aggarwal 在2003年提出的一个解决数据流聚类问题的框架CluStream [1]。它使用了两个过程来处理数据流聚类问题:首先,使用一个在线的micro 2cluster 过程对数据流进行初级聚类,并按一定的时间跨度将micro 2cluster 的结果按一种称为pyramid time f rame 的结构储存下来。同时,使用另一个离线的macro 2cluster 过程,根据用户的具体要求对micro 2cluster 聚类的结果进行再分析。但它采用距离作为度量参数,聚类结果通常是球形的,不能支持对任意形状类的聚类。而且,它维护的是micro 2cluster 的聚类特征向量(CF 2x ;CF 1x ;CF 2t ;CF 1t ;n ),这在噪声情况下,会产生干扰误差。 2006年,Feng Cao 等人在文[5]中提出了针对动态进化数据流的DenStream 算法。它相对CluStream 有很大的改进,继承了IncrementalDBSCAN 基于密度的优点,能够支持对有噪声的动态进化(非稳定)的数据流进行任意形状的聚类。但由于采用全局一致的绝对密度作参数,使得聚类结果对参数值非常敏感。同时,与CluStream 算法相比,它只能提供对当前数据流的一种描述,不能反映用户指定时间窗内的流数据的变化情况。朱蔚恒等在文[13]中提出的基于密度与空间的ACluS 2tream 聚类算法,通过引入有严格空间的意义聚类块,在对数据流进行初步聚类的同时,尽量保留数据的空间特性,有效克服了CluStream 算法不能支持对任意形状聚类的缺陷。但它在处理不属于已有聚类块的新数据点时,使用一种类似“抛硬币”的方法来猜测是否为该点创建一个新的聚类块,误差较大。而且它以绝对密度做参考,所以在聚类结果中无法区分密度等级不同的簇[7]。本文提出的基于网格的数据流聚类算法GClustream

数据聚类实验报告(附代码)

实验题目：数据聚类实验 1 实验目的（1）了解常用聚类算法及其优缺点；（2）掌握k-means聚类算法对数据进行聚类分析的基本原理和划分方法。（3）利用k-means聚类算法对“ch7 iris.txt”数据集进行聚类实验。（4）熟悉使用matlab进行算法的实现。 2 实验步骤 2.1 算法原理聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起，不同数据尽量分离。 k-means是划分方法中较经典的聚类算法之一。由于该算法的效率高，所以在对大规模数据进行聚类时被广泛应用。目前，许多算法均围绕着该算法进行扩展和改进。 k-means算法以k为参数，把n个对象分成

k个簇，使簇内具有较高的相似度，而簇间的相似度较低。k-means算法的处理过程如下：首先，随机地选择k个对象，每个对象初始地代表了一个簇的平均值或中心;对剩余的每个对象，根据其与各簇中心的距离，将它赋给最近的簇;然后重新计算每个簇的平均值。这个过程不断重复，直到准则函数收敛。通常，采用平方误差准则，其定义如下： ∑∑=?- = k i C p i i m p E 1 2，这里E是数据集中所有对象的平方误差的总和，p是空间中的点， i m是簇i C的平均值。该目标函数使生成的簇尽可能紧凑独立，使用的距离度量是欧几里得距离,当然也可以用其他距离度量。本实验便采用k-means聚类方法对样本数据对象进行聚类。该方法易实现，对不存在极大值的数据有很好的聚类效果，并且对大数据集有很好的伸缩性。 2.2 算法流程本实验采用的是k-means聚类算法，类中心

基于微阵列的比较基因组分析

微阵列芯片（Microarray）以高密度阵列为特征。其基础研究始于20世纪80年代末，本质上是一种生物技术，主要是在生物遗传学领域发展起来的。微阵列分为cDNA微阵列和寡聚核苷酸微阵列.微阵列上"印"有大量已知部分序列的DNA探针,微阵列技术就是利用分子杂交原理,使同时被比较的标本(用同位素或荧光素标记)与微阵列杂交,通过检测杂交信号强度及数据处理,把他们转化成不同标本中特异基因的丰度,从而全面比较不同标本的基因表达水平的差异.微阵列技术是一种探索基因组功能的有力手段. 其发展契机主要来自于现代遗传学的一些重要发现，并直接收益于该领域的某些重要研究成果，即在载体上固定寡核苷酸的基础上以杂交法测序的技术。因此发展早期，微阵列芯片有时被通俗的称为“生物芯片（Biochip）”，目前媒体和科普读物中仍然常用该名称。微阵列芯片经过近十年的主要发展期，国内外学术界渐渐采用名称Microarray（微阵列芯片），而Biochip（生物芯片）由于这名称容易混淆微阵列芯片和微流控芯片，渐渐该领域用的越来越少了。比较基因组杂交技术比较基因组杂交（comparative genomic hybridization,CGH）是自1992年后发展起来的一种分子细胞遗传学技术，它通过单一的一次杂交可对某一肿瘤整个基因组的染色体拷贝数量的变化进行检查。其基本原理是用不同的荧光染料通过缺口平移法分别标记肿瘤组织和正常细胞或组织的DNA制成探针，并与正常人的间期染色体进行共杂交，以在染色体上显示的肿瘤与正常对照的荧光强度的不同来反映整个肿瘤基因组DNA表达状况的变化，再借助于图像分析技术可对染色体拷贝数量的变化进行定量研究。 CGH技术的优点：1.实验所需DNA样本量较少，做单一的一次杂交即可检查肿瘤整个基因组的染色体拷贝数量的变化。2.此法不仅适用于外周血、培养细胞和新鲜组织样本的研究，还可用于对存档组织的研究，也可用于因DNA量过少而经PCR扩增的样本的研究。CGH技术的局限性：CGH技术所能检测到的最小的DNA扩增或丢失是在3-5Mb,故对于低水平的DNA扩增和小片段的丢失会漏检。此外在相差染色体的拷贝数量无变化时，CGH技术不能检测出平等染色体的易位。

数据流聚类算法D-Stream

Density-Based Clustering for Real-Time Stream Data 基于密度的实时数据流聚类(D-Stream) 翻译by muyefei E-mail: muyefei@https://www.360docs.net/doc/1761223.html, 注释：版权归作者所有，文档仅用于交流学习，可以用大纲视图查看文档结构摘要：现有的聚类算法比如CluStream是基于k-means算法的。这些算法不能够发现任意形状的簇以及不能处理离群点。而且，它需要预先知道k值和用户指定的时间窗口。为了解决上述问题，本文提出了D-Stream算法，它是基于密度的算法。这个算法用一个在线部分将数据映射到一个网格，在离线部分计算网格的密度然后基于密度形成簇。算法采用了密度衰减技术来捕获数据流的动态变化。为了探索衰减因子、数据密度以及簇结构之间的关系，我们的算法能够有效的并且有效率地实时调整簇。而且，我们用理论证明了移除那些属于离群点的稀疏网格是合理的，从而提高了系统的时间和空间效率。该技术能聚类高速的数据流而不损失聚类质量。实验结果表明我们的算法在聚类质量和效率是有独特的优势，并且能够发现任意形状的簇，以及能准确地识别实时数据流的演化行为。关键词流数据挖掘基于密度的聚类D-Stream 分散的网格 1 介绍实时聚类高维数据流是困难的但很重要。因为它在各个领域应用到。比如... 聚类是一项关键的数据挖掘任务。挖掘数据流有几项关键的挑战：（1）单遍扫描（2）将数据流视为数据一个很长的向量在很多应用中捉襟见肘，用户更加关注簇的演化行为。近来，出现了许多数据流聚类方法。比如STREAM、CluStream以及扩展（在多数据流，分布式数据流，并行数据流上的扩展）等。 CluStream以及扩展的算法有以下一些缺陷： 1、只能发现球形簇，不能发现任意形状的簇。 2、不能够识别噪声和离群点。 3、基于k-means的算法需要多次扫描数据（其实CluStream利用两阶段方法和微簇解决了该问题）。基于密度的聚类算法介绍。基于密度的方法可以发现任意形状的簇，可以处理噪声，对原始数据集只需一次扫描。而且，它不需要像k-means算法那样预先设定k值。文本提出了D-Stream,一种基于密度的数据流聚类框架。它不是简单用基于密度的算法替代k-means的数据流算法。它有两项主要的技术挑战：首先，我们不大愿意将数据流视为静态数据很长的一个序列，因为我们对数据流演化的时间特征更加感兴趣。为了捕获簇的动态变化，我们提出了一个新颖的方案，它可以将衰减

聚类分析、数据挖掘、关联规则这几个概念的关系

聚类分析和关联规则属于数据挖掘这个大概念中的两类挖掘问题，聚类分析是无监督的发现数据间的聚簇效应。关联规则是从统计上发现数据间的潜在联系。细分就是聚类分析与关联规则是数据挖掘中的核心技术；从统计学的观点看，聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中，如SPSS、SAS等。从机器学习的角度讲，簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同，无监督学习不依赖预先定义的类或带类标记的训练实例，需要由聚类学习算法自动确定标记，而分类学习的实例或数据对象有类别标记。聚类是观察式学习，而不是示例式的学习。聚类分析是一种探索性的分析，在分类的过程中，人们不必事先给出一个分类的标准，聚类分析能够从样本数据出发，自动进行分类。聚类分析所使用方法的不同，常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析，所得到的聚类数未必一致。从实际应用的角度看，聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况，观察每一簇数据的特征，集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法（如分类和定性归纳算法）的预处理步骤。关联规则挖掘过程主要包含两个阶段：第一阶段必须先从资料集合中找出所有的高频项目组(FrequentItemsets)，第二阶段再由这些高频项目组中产生关联规则(AssociationRules)。关联规则挖掘的第一阶段必须从原始资料集合中，找出所有高频项目组(LargeItemsets)。高频的意思是指某一项目组出现的频率相对于所有记录而言，必须达到某一水平。关联规则挖掘的第二阶段是要产生关联规则(AssociationRules)。从高频项目组产生关联规则，是利用前一步骤的高频k-项目组来产生规则，在最小信赖度(MinimumConfidence)的条件门槛下，若一规则所求得的信赖度满足最小信赖度，称此规则为关联规则。

K-means-聚类算法研究综述

K-means聚类算法研究综述摘要:总结评述了K-means聚类算法的研究现状，指出K-means聚类算法是一个NP难优化问题，无法获得全局最优。介绍了K-means聚类算法的目标函数，算法流程，并列举了一个实例，指出了数据子集的数目K，初始聚类中心选取，相似性度量和距离矩阵为K-means聚类算法的3个基本参数。总结了K-means聚类算法存在的问题及其改进算法，指出了K-means 聚类的进一步研究方向。关键词：K-means聚类算法；NP难优化问题；数据子集的数目K；初始聚类中心选取；相似性度量和距离矩阵 Review of K-means clustering algorithm Abstract: K-means clustering algorithm is reviewed. K-means clustering algorithm is a NP hard optimal problem and global optimal result cannot be reached. The goal，main steps and example of K-means clustering algorithm are introduced. K-means algorithm requires three user-specified parameters: number of clusters K，cluster initialization，and distance metric. Problems and improvement of K-means clustering algorithm are summarized then. Further study directions of K-means clustering algorithm are pointed at last. Key words: K-means clustering algorithm; NP hard optimal problem; number of clusters K; cluster initialization; distance metric K-means聚类算法是由Steinhaus1955年、Lloyed1957年、Ball & Hall1965年、McQueen1967年分别在各自的不同的科学研究领域独立的提出。K-means聚类算法被提出来后，在不同的学科领域被广泛研究和应用，并发展出大量不同的改进算法。虽然K-means聚类算法被提出已经超过50年了，但目前仍然是应用最广泛的划分聚类算法之一[1]。容易实施、简单、高效、成功的应用案例和经验是其仍然流行的主要原因。文中总结评述了K-means聚类算法的研究现状，指出K-means聚类算法是一个NP难优化问题，无法获得全局最优。介绍了K-means聚类算法的目标函数、算法流程，并列举了一个实例，指出了数据子集的数目K、初始聚类中心选取、相似性度量和距离矩阵为K-means聚类算法的3个基本参数。总结了K-means聚类算法存在的问题及其改进算法，指出了K-means聚类的进一步研究方向。 1经典K-means聚类算法简介 1.1K-means聚类算法的目标函数对于给定的一个包含n个d维数据点的数据集 12 {x,x,,x,,x} i n X=??????，其中d i x R ∈，以及要生成的数据子集的数目K，K-means聚类算法将数据对象组织为 K个划分{c,i1,2,} k C K ==???。每个划分代表一个类c k，每个类c k有一个类别中心iμ。选取欧氏距离作为相似性和距离判断准则，计算该类内各点到聚类中心 i μ的距离平方和 2 (c) i i k i k x C J xμ ∈ =- ∑（1）聚类目标是使各类总的距离平方和 1 (C)(c) K k k J J = =∑最小。 22 1111 (C)(c) i i K K K n k i k ki i k k k x C k i J J x d x μμ ==∈== ==-=- ∑∑∑∑∑ （2）其中， 1 i i ki i i x c d x c ∈ ? =? ? ? 若若，显然，根据最小二乘法和拉格朗日原理，聚类中心 k μ应该取为类别 k c类各数据点的平均值。 K-means聚类算法从一个初始的K类别划分开始，然

基于 DNA 微阵列的基因表达数据管理和分析

基于DNA微阵列的基因表达数据管理和分析 029129 谢建明 2002年10月摘要：DNA微阵列是生命科学研究的重要工具，在疾病诊断、药物开发等领域得到了广泛应用。在应用过程中，产生了大量的数据，这些数据的存储、分发和数据挖掘成为DNA微阵列能被推广应用的关键技术。本论文简单介绍了这两方面的研究现状。关键词：DNA微阵列数据挖掘数据仓库标准基因表达分析一、引言 DNA微阵列（DNA microarray）,也叫基因芯片，是近几年发展起来的一种能快速、高效检测DNA片段序列、基因型及其多态性或基因表达水平的新技术。它将几十个到上百万个不等的称之为探针的核苷酸序列固定在微小的（约1cm2）玻璃或硅片等固体基片或膜上，该固定有探阵的基片就称之为DNA微阵列。它利用核苷酸分子在形成双链时遵循碱基互补原则，可以检测出样本中与探阵阵列中互补的核苷酸片段，从而得到样本中关于基因结构和表达的信息。它的技术来源追溯到一个多世纪之前，Ed Southern发现被标记的核酸分子能够与另一被固化的核酸分子配对杂交。因此，Southern blot可被看做是最早的基因芯片。在八十年代，Bains W.等人就将短的DNA片断固定到支持物上，借助杂交方式进行序列测定。1995年，斯坦福大学开发出第一片cDNA芯片并用于生命科学研究，1998年美国Affymetrix公司将第一片带有13.5万个基因探阵的寡聚核苷酸芯片推向市场，标志着DNA微阵列的产业化，从此基因芯片或DNA微阵列的研究和应用得到了广泛的重视，可以说在生命科学研究界和产业界掀起了基因芯片热潮，1999年Nature出专刊介绍这门基因芯片及其应用。基因芯片可用于DNA序列的再测序、基因SNP或多态性检测和基因表达分析。由于基因芯片技术是一种高通量检测技术，它可是并行的同时检测成百上千，甚至成千上万个基因的活动情况或DNA片段，改变了传统的每次只能检测一个基因的情况，因此能大大提高检测效率，降低检测成本，并保证了检测质量。基因芯片技术可广泛应用于疾病诊断和治疗、药物筛选、农作物的优育优选、司法鉴定、食品卫生监督、环境检测、国防、航天等许多领域。它将为人类认识生命的起源、遗传、发育与进化、为人类疾病的诊断、治疗和防治开辟全新的途径，为生物大分子的全新设计和药物开发中先导化合物的快速筛选和药物基因组学研究提供技术支撑平台。通过基因表达谱的研究可以进行进一步的理论研究或应用研究。 1、理论研究。根据基因组基因表达谱可以进一步分析共表达基因是否存在共同的顺式调控元件，发现新的调控元件。此外，可以研究基因的调控规律，构建调控网络。 2、应用研究包括疾病诊断和药物开发。根据不同疾病状态下的差异表达谱的研究可以确定疾病的类型和进展。研究药物作用后基因表达谱的改变可以确定药物的毒性、预后和疗效，从而指导药物开发和临床合理用药。在基于DNA微阵列的基因表达分析研究中，数据的分析和管理是一个关键性的问题，它直接影响了实验结果的准确型和实验的可靠性。