空间聚类的研究现状及其应用_戴晓燕

空间聚类的研究现状及其应用_戴晓燕
空间聚类的研究现状及其应用_戴晓燕

空间聚类的研究现状及其应用*

戴晓燕1 过仲阳1 李勤奋2 吴健平1

(1华东师范大学教育部地球信息科学实验室 上海 200062)

(2上海市地质调查研究院 上海 200072)

摘 要 作为空间数据挖掘的一种重要手段,空间聚类目前已在许多领域得到了应用。文章在对已有空间聚类分析方法概括和总结的基础上,结合国家卫星气象中心高分辨率有限区域分析预报系统产品中的数值格点预报(HLAFS)值,运用K-均值法对影响青藏高原上中尺度对流系统(MCS)移动的散度场进行了研究,得到了一些有意义的结论。

关键词 空间聚类 K-均值法 散度

1 前言

随着GPS、GI S和遥感技术的应用和发展,大量的与空间有关的数据正在快速增长。然而,尽管数据库技术可以实现对空间数据的输入、编辑、统计分析以及查询处理,但是无法发现隐藏在这些大型数据库中有价值的模式和模型。而空间数据挖掘可以提取空间数据库中隐含的知识、空间关系或其他有意义的模式等[1]。这些模式的挖掘主要包括特征规则、差异规则、关联规则、分类规则及聚类规则等,特别是聚类规则,在空间数据的特征提取中起到了极其重要的作用。

空间聚类是指将数据对象集分组成为由类似的对象组成的簇,这样在同一簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大,即相异度较大。作为一种非监督学习方法,空间聚类不依赖于预先定义的类和带类标号的训练实例。由于空间数据库中包含了大量与空间有关的数据,这些数据来自不同的应用领域。例如,土地利用、居住类型的空间分布、商业区位分布等。因此,根据数据库中的数据,运用空间聚类来提取不同领域的分布特征,是空间数据挖掘的一个重要部分。

空间聚类方法通常可以分为四大类:划分法、层次法、基于密度的方法和基于网格的方法。算法的选择取决于应用目的,例如商业区位分析要求距离总和最小,通常用K-均值法或K-中心点法;而对于栅格数据分析和图像识别,基于密度的算法更合适。此外,算法的速度、聚类质量以及数据的特征,包括数据的维数、噪声的数量等因素都影响到算法的选择[2]。

本文在对已有空间聚类分析方法概括和总结的基础上,结合国家卫星气象中心高分辨率有限区域分析预报系统产品中的数值格点预报(HLAFS)值,运用K-均值法对影响青藏高原上中尺度对流系统(MCS)移动的散度场进行了研究,得到了一些有意义的结论。

2 划分法

设在d维空间中,给定n个数据对象的集合D 和参数K,运用划分法进行聚类时,首先将数据对象分成K个簇,使得每个对象对于簇中心或簇分布的偏离总和最小[2]。聚类过程中,通常用相似度函数来计算某个点的偏离。常用的划分方法有K-均值(K-means)法和K-中心(K-medoids)法,但它们仅适合中、小型数据库的情形。为了获取大型数据库中数据的聚类体,人们对上述方法进行了改进,提出了K-原型法(K-prototypes method)、期望最大法EM(Expectation Maximization)、基于随机搜索的方法(ClAR ANS)等。

K-均值法[3]根据簇中数据对象的平均值来计算

———————————————

*基金项目:国家自然科学基金资助。(资助号:

40371080)

收稿日期:2003-7-11

第一作者简介:戴晓燕,女,1979年生,华东师范大学

地理系硕士研究生,主要从事空间数

据挖掘的研究。

·

41

·

2003年第4期 上海地质

Shanghai Geology

相似度,将簇中对象的平均值(或称为质心)作为簇中心。算法首先在n 个数据对象中随机选择k 个对象,每个对象代表了一簇的平均值;对余下的每个对象,根据其与各个簇中心的距离,按距离最小的原则,将它们分配给最近的簇;在此基础上,重新计算每个簇的平均值;如此往复,直到误差平方和的值最

小,即:E =∑k

j =1

∑i l ∈Cj ︳i l -w j ︳2的值最小,此时,簇中的成员不再发生变化。式中,il 是给定的数据对象,wj 是簇Cj 的平均值。其时间复杂度为O (nkt ),其中,n 是数据对象的个数(下同),k 是簇的个数(下同),t 是迭代次数。该法在实际工作中得到了广泛的应用。例如,Lucchese 和Mitra 利用K -均值法实现了对彩色图像的非监督分割

[4]

;Linde 和Buzo

等人则在对K -均值法修改的基础上,提出了用于图像压缩的LB G 算法[5];Tapas 和David 等人根据kd -树的数据结构特征对K -均值法进行了改进,提出了一种简单而有效的过滤算法(filtering algo -rithm )[6],并将它应用于色彩定量化、数据压缩和图像分割,取得了较好的效果。此外,Steinbach 的研究也表明,分层划分的K -均值法也适合于文本聚类[7]。然而,运用该法进行聚类时,其缺点是容易陷入局部最优解,很难找到全局最优解,且对噪声和异常数据敏感,因而限制了其应用范围。

K -中心法将簇中位置最中心的对象作为簇中心,其目的是消除K -均值法对于孤立点的敏感性。

例如,PAM (Partitioning around Medoid )[8]

是一种早期

提出的K -中心法,该法首先从n 个数据对象中随机选择k 个对象作为初始中心点,进而分析所有可能的对象对,用产生误差平方和值减少的对象代替原来的中心点;迭代过程中产生的最佳对象集就成为下次迭代的中心点,直到误差达到最小。其每步

迭代的时间复杂度为O (k (n -k )2)。与K -均值法

相比,其效率较低。

与前述方法相比,基于选择的方法CLARA

(Clustering Large Applications )[8]

则适合处理数据量较大的情形。计算过程中,首先从数据库中随机提取多个样本,对每个样本应用PAM 法选择中心点,在此基础上,选择误差值最小的中心点集合,将误差最小的聚类结果作为输出。聚类的质量即平均相异度根据整个数据集中的所有对象计算。CLARA 法每步迭代的时间复杂度为O (ks 2+k (n -k )),其中,s

是样本的大小。然而,运用该法聚类时,若采样的均匀性较差,那么,基于样本的最优聚类结果并不能代表整个数据集合的最优聚类,因而就不能得到最佳的聚类结果。

而ClARANS (Clustering Large Applications based

upon Randomized Search )[9]

法则是一种基于随机搜索

的方法,其优点是一方面改进了CLARA 的聚类质量,另一方面拓展了数据处理量的伸缩范围。CL AR ANS 法与CL ARA 法的本质区别在于CLARA 法在搜索的开始是抽取节点的样本,而CLARANS 法在搜索的每一步是抽取邻居的样本。Ng 与Han 的研究表明[9],与PAM 和CLARA 法相比,Cl A R ANS 法的聚类效果明显占优,但其时间复杂度仍为O (n 2

),因此,低效仍是其存在的缺点之一。为此,Ester 等人在已有研究的基础上,利用R *-树和聚焦技术来改善其效率[10],取得了明显的成效。

此外,Ng 与Han 对ClARANS 法进行了改进,提出了空间属性占优法(Spatial Dominant Approach )和非空间属性占优法(Non -Spatial Dominant Ap -proach ),其主要思想是假定输入的空间数据库同时包含空间属性和非空间属性数据,利用CLARANS 法来处理空间属性数据,用DBLE AR N 法来处理非空间属性数据。DBLE AR N 的实质就是从非空间属性数据中挖掘出有用的信息和知识,根据学习要求,首先用SQL 查询抽取相关维的一个集合,随后,在属性概念分层的基础上循环地概括维。空间属性占优法首先利用CLAR ANS 法进行空间聚类,并用启发式算法来确定簇的自然个数,然后利用DB LE ARN 对每个簇进行非空间属性概括,它侧重于发现空间簇的非空间特征。与空间属性占优法不同,非空间属性占优法侧重于发现存在于非空间数据集中的空间簇。算法首先使用DBLEAR N 对非空间属性进行概括,在此基础上,运用CLAR ANS 法进行空间聚类。Ng 与Han 通过对Vancouver 地区住房单元数的聚类研究表明,运用这两种方法来处理空间属性数据,效果十分明显[9]。

3 层次法

该法通过对给定的数据对象集按层次进行分

解,形成一棵以数据子集为节点的树。层次法可分为凝聚和分裂两类方法。运用凝聚法进行聚类时,

·42· 上海地质

Shanghai Geology 总第88期

首先将每个数据对象视为一个簇,然后根据某些准则(例如,两个子簇中心的距离),由低向上,直到所有子簇被合并成为一个簇,或满足某个终止条件。分裂聚类则相反,该法首先将所有数据对象放在一个簇中,然后按照两个子簇中心距离最小准则,将一个簇分裂为若干个子簇,直至每个对象自成一簇,或达到某个终止条件。

AGNE S(Agglomerative Nesting)和DIANA(Divisive Analysis)是早期的层次聚类方法,前者是一种凝聚的层次聚类方法,后者是一种分裂的层次聚类方法,两者都使用简单的准则即根据各簇间距离度量来合并或分裂簇。由于这两种方法在选择合并或分裂点时有一定困难,并且所进行的合并或分裂的步骤不能被撤消,簇之间也不能交换对象,就会导致发现错误的簇而降低聚类质量。同时,这种方法没有很好的可伸缩性。因此,人们在对这两种方法概括和总结的基础上,提出了一些新的层次聚类算法,如BIRC H(Balanced Iterative Reducing and Clustering Using Hierarchies)法,CURE(Clustering Using Representatives)法和C HAMELE ON法。

BIRC H[11]法是一种综合的层次聚类法,聚类过程中,首先运用CF树将数据对象压缩为许多子簇,然后用划分法来提高聚类精度。此法适合对大型数据库中数据的处理,尤其是空间数据库,其主要原因在于它采用了一种多阶段聚类技术,即扫描一次数据集合就可以产生一个基本的聚类,多次扫描就可以逐步改善聚类质量。算法的时间复杂度为O(n)。实验结果揭示了BIRC H法在所需内存大小、运行时间、聚类质量、稳定性和伸缩性方面都胜于CLARANS法和K-均值法[13]。然而,由于C F树的每个节点只能包含有限数目的子簇,因此一个CF 树的节点并不总对应于用户所认为的一个自然簇,且由于BIRCH法定义了子簇直径的概念,因而对非球形簇情形的聚类效果较差。

CURE[12]法和CHAMELE ON[13]法利用较为复杂的准则进行合并或分裂簇,极大地提高了聚类的准确性。CURE法首先从样本中随机取样,并对样本进行划分,在此基础上,对每个划分结果作局部聚类,进而对局部聚类获得的簇再次聚类,并根据落在每个新簇中的代表点按照特定的收缩因子或分数向簇中心收缩或移动。在算法的每一步,距离最近的代表点对的两个簇被合并。由于CURE法选择簇中固定数目的分散点来代表一个簇,因此,该法能适应非球形形状,且适合大型数据库中数据的聚类,通常,其时间复杂度为O(n)。影响该法聚类效果的主要因子包括样本大小、期望簇的个数、收缩因子等。实验结果表明,CURE法比BIR CH法更适合于处理高维数据库以及发现任意形状的簇,且抗噪能力较强。CHAME LE ON法是一种动态的层次聚类算法,用K-最近邻居图中的每个点代表一个数据对象,首先通过图划分算法将数据对象聚类为大量相对较小的子簇,然后用一个凝聚的层次聚类算法反复合并子簇来发现结果簇。其合并准则是当两个簇间的互连性和近似度与簇内部对象间的互连性和近似度高度相关时,就合并这两个簇,因而有利于发现不同密度下的任意形状的簇。但是,该法的时间复杂度为O(n2),计算代价较高。

4 基于密度的方法

基于对象间距离进行聚类的方法,如大部分的划分方法,只能发现球状的簇。而基于密度的方法将簇视为数据空间中被低密度区域分割开的高密度对象区域。这样就可以过滤掉噪声和发现任意形状的簇。基于密度的主要方法有DB SCAN(Density-Based Spatial Clustering of Applications with Noise)、OP-TIC S(Ordering Points to Identify the Clustering Structure)和DE NCLUE(Density-Based Clustering)等。其中, DBSC AN是一种基于高密度连接区域的密度聚类方法,OPTIC S法通过对象排序来识别聚类结构,而DENCLUE法则是一种基于密度分布函数的聚类方法。

DBSC AN[14]法将簇定义为基于密度可达性最大的密度相连对象的集合。聚类过程中,它必须输入参数ε、MinPts,其中,ε是给定对象的半径,MinPts是一个对象的ε邻域内包含对象的最少数目。检查一个对象的ε邻域的密度是否足够高,即一定距离ε内数据点的个数是否超过MinPts来确定是否建立一个以该对象为核心对象的新簇,再合并密度可达簇。运用人工数据和真实数据的实验研究证明[14],该法在发现任意形状的簇以及处理大型数据库方面比CLAR ANS法更有效,若采用空间索引R*-树,其时间复杂度为O(n*logn)。其缺点是对输入参数过分敏感。为此,Ester和Kriegel等人在上述研究的

·

43

·

2003年第4期 戴晓燕等:空间聚类的研究现状及其应用*

基础上提出了Incr ementalDB SCAN [16],他们加入了动态插入和删除算法,对人工二维空间数据库以及WW W -log 数据库进行聚类的结果表明,该法在数据仓库的环境下挖掘信息和知识具有较高的效率。与此同时,他们利用DB SCAN 法来提取地理空间数据库中与经济发展有关的影响区域[17],取得了一定成效。而Sander 和Ester 等人则在概括和总结DB -SC AN 法优缺点的基础上,提出了可以根据空间属性和非空间属性来聚类空间对象的GDB SCAN ,并且运用此法对卫星图像进行了光谱分析、微生物中的蛋白质分析以及从地理信息系统中提取影响经济发展的区域分析等研究,得到了一些有意义的结论

[15]

另一方面,运用OPTICS 法进行密度聚类同样需要输入两个参数ε、MinPts (其含义同前),但并不根据一个参数值对来产生聚类结果,而是产生数据对象的一个次序,该次序描述了数据基于密度的聚类结构[18]。OPTIC S 法可以产生基于密度的簇的次序集合,而且一个数据集的聚类次序可以用图形来表示,其时间复杂度与DB SCAN 相同。

此外,密度聚类中,DE NCLUE 法

[19]

也是一种常

有的方法,它用一个影响函数来模拟每个数据点在邻域的影响,所有数据点的影响函数总和来模拟数据空间的整体密度,通过确定密度吸引点即整体密度函数的局部最大来发现簇,该法使用网格结构来保存密度函数和爬山算法的计算结果。DE NCLUE 法可以处理高维数据集中任意形状的簇,且具有较强的抗噪能力。

5 基于网格的方法

基于网格的方法是指使用多分辨率的网格数据结构,将数值空间量化为有限数目的单元,形成一种网格结构。基于网格的聚类方法可以处理高维数据集,处理时间仅依赖于每维上的数值单元数目,而与数据对象数目无关。常用的方法有统计信息网格法STI NG (Statistical Infor mation Grid )、基于小波变换的聚类法WaveCluster (Clustering Using Wavelet Transfor -mation )以及聚类高维空间法CLIQUE (Clustering in Quest )等[20-22]。

运用STI NG 法进行空间数据聚类时,首先将数据空间划分成矩形单元,对应不同级别的分辨率,存在着不同级别的矩形单元,这些单元形成一个层次

结构:高层的每个单元被划分为多个低一层的单元。高层单元的统计信息可以由计算低层单元获得,而统计信息的查询则采用自顶向下的基于网格的方法。可以看到,基于网格的计算独立于查询;而且网格结构有利于并行处理和增量更新;其聚类的时间复杂度为O (n ),查询处理的时间复杂度为O (g ),其中,g 为最低层网格单元的数目。聚类质量则取决于网格结构最低层的粒度。

WaveCluster 是一种基于网格和密度的多分辨率聚类方法,适合对大型空间数据库中数据的聚类。聚类过程中,首先在数据空间上加一个多维网格结构来汇总数据,然后用多分辨率小波变换来变换原特征空间,进而在变换后的空间中寻找密集区域。其时间复杂度为O (n )。该法的特点是可以实现并行处理;可以发现任意形状的簇,而且能成功地处理孤立点。实验结果表明,WaveCluster 法比BIRCH 法、CLARANS 法和DBSC AN 法的效率更高、聚类质量更好[21]。它能处理维数高达20的海量数据[23]。

此外,CLIQUE 法也是基于网格和密度的聚类方法,与WaveCluster 法类似,其特点是适合对大型数据库中高维数据的聚类,其优点在于发现数据子空间中的簇。聚类过程中,沿着每一维,数据空间被划分成互不重叠的矩形单元。簇被定义为相连的密集单元的最大集合,通过区分数据空间中稀疏和拥挤的单元来发现数据集的全局分布模式。Ben -Dor 和Yakhini 利用CLI QUE 法实现了聚类基因的表达模式[24]。

6 实际应用

为了了解聚类方法在实际工作中的应用效果,我们以K -均值法为例,根据1998年6月1日青藏高原上中尺度对流系统(Mesoscale Convective System ,简称MCS )在不同时次(00,12,24)的分布情况,结合国家卫星气象中心高分辨率有限区域分析预报系统产品中的数值格点预报资料(HLAFS ),对影响MCS 移动的散度(DI V :10-6s -1)场进行了聚类。研究范围为27°-45°N ,90°-110°E ;水平分辨率为1°(经)×1°(纬),研究层次为400hpa 。因此,根据研究范围,每个数据集含有21*19个DI V 值,聚类过程中,簇的个数定为6个,在此基础上,运用K -均值法可以初步揭示这三个时次研究区内散度的聚类情况,

·44· 上海地质

Shanghai Geology 总第88期

如图1所示。(a )、(b )、(c )分别代表1998年6月1日青藏高原上00、12、24时次散度场的分布情况。其中,图(a )中品红色部分DIV 值的范围为[-24,-11],棕色部分为[-3,-10],黄色部分为[-2,2],橙色部分为[3,6],红色部分为[7,13],紫色部分为[14,26];图(b )中棕色部分DIV 值的范围为[-25,

-10],橙色部分为[-9,-3],黄色部分为[-2,1],红色部分为[2,6],紫色部分为[7,12],品红色部分为[7,12];而(c )中品红色部分DI V 值的范围为[-14,-9],黄色部分为[-8,-4],橙色部分为[-3,-1],红色部分为[0,3],棕色部分为[4,8],紫色部分为[9,17]

图1 1998年6月1日青藏高原400hPa 上不同时次的散度场特征

Fig .1 The features of divergence in different UTC at level 400hPa over the Tibetan Plateau on 1June 1998

从中可以看到,运用空间聚类方法能较好地揭示中尺度对流系统周边物理量场的特征,得到MCS 移动时周边物理量场的变化趋势,从而为我们进一步提取高原上影响MCS 移动的环境场条件,建立MCS 移动路径与环境场之间的数学模型提供了一种新的方法和思路。

7 结论

聚类方法是空间数据挖掘中的主要方法之一,运用空间数据聚类方法来处理海量数据,对于提取大型空间数据库中有用的信息和知识具有十分重要的现实意义。通过对已有空间聚类方法的分析表

明,目前空间聚类方法主要有四类方法:划分法、层次法、基于密度的方法及基于网格的方法。同时也表明,各种方法在处理数据量的伸缩性、发现任意形状的簇、抗噪能力等方面各有特点,因此,实际工作中,采用何种聚类方法来提取数据库中的信息和知识要视实际情况而定。另一方面,研究也表明,运用聚类方法来提取影响青藏高原上中尺度对流系统移动的环境场条件是切实有效的,这为建立高原上MCS 移动路径与环境场之间的关系奠定了基础。

参考文献:

[1]J .Han ,M .Kamber ,Data Mining :Concepts and Techniques ,

San Francisco :Academic Press ,2001

[2]J .Han ,M .Kamber ,A .K .H .Tung ,Spatial Clustering

Methods in Data Mining :A Survey ,H .Miller and J .Han (eds .),Geographic Data Mining and Knowled ge Discovery ,Taylor and Francis ,2001

[3]J .MacQueen ,Some Methods for Classification and Analysis of

Multivariate Observations ,Proc .5th Berkeley Symp .Mat .Statist ,Prob .,1,1967:281-297

[4]Lucchese ,S .K .Mitra ,Unsupervised Segmentation of Color

Images Based on K -meansClusterin g in the Chromaticity Plane ,IEEE ,1999:74-78

[5]Y .Linde ,A .Buzo ,R .M .Gray ,An Al gorithm for Vector

Quantization Design ,IEEE Trans .On Communications ,vol .28,no .1,1980

[6]Tapas Kanun go ,David M .Mount ,Nathan S .Netanyahu ,

Christine D .Piatko ,Ruth Silverman ,Angela Y .Wu ,An Ef -ficient k -Means Clustering Algorithm :Analysis and Imple -mentation ,IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE ,VOL .24,NO .7,J ULY 2002:881

[7]M .Steinbach ,G .Karypis ,V .Kumar ,A Comparison of Docu -ment Clustering Techniques ,Proc .6th AC M -SIGKDD Int .

·

45·2003年第4期 戴晓燕等:空间聚类的研究现状及其应用*

Conf .Text Mining ,Boston ,MA ,2000

[8]L .Kaufman ,P .J .Rousseeu w ,Finding Groups in Data :An

Introduction to Cluster Anal ysis ,New York :John Wiley &Sons ,1990

[9]R .Ng ,J .Han ,Efficient and E ffective Clustering Method for

Spatial Data Mining ,Proc .1994Int .Conf .Very Large Data Bases (VLDB '94),1994:144-155

[10]M .Ester ,H .-P .Kriegel ,X .Xu ,A Database Interface for

Clusterin g in Large Spatial Databases ,Proc .1st

Int .Conf .On Knowledge Discovery and Data Mining ,Montreal ,Canada ,1995,AAAI Press ,1995

[11]T .Zhang ,R .Ramakrishnan ,M .Livny ,BIRCH :An Effi -cient Data Clustering Method for Very Large Databases ,Proc .1996ACM -SIGMOD Int .Conf .Management of Data (SIG -MOD '96),1996:103-114

[12]S .Guha ,R .Rastogi ,K .Shim ,CURE :An E fficient Clus -tering Algorithm for Large Databases ,Proc .1998ACM -SIGMOD Int .Con f .Management of Data (SIGMOD '98),1998:73-84

[13]G .Karypis ,E .-H .Han ,V .Ku mar ,CHAMELEON :A

Hierarchical Clustering Algorithm Using Dynamic Modeling ,COMPUTER ,32,1999:68-75

[14]M .Ester ,H .-P .Kriegel ,J .Sander ,X .Xu ,A Density -Based Algorith m for Discovering Clusters in Large Spatial Databases ,Proc .1996Int .Conf .Knowledge Discovery and Data Mining (KDD '96),1996:226-231

[15]J .Sander ,M .Ester ,H .-P .Kriegel ,X .Xu ,Density -based Clustering in Spatial Databases :The Algorithm GDB -SCAN and its Applications ,Data Mining and Knowledge Dis -covery ,2,2,1998:169-194

[16]M .Ester ,H .-P .Kriegel ,J .Sander ,M .Wimmer ,X .

Xu ,Incremental Clustering for Minin g in a Data Warehousing

Environment ,Proc .24th VLDB Conference ,New York ,

USA ,1998

[17]M .Ester ,H .-P .Kriegel ,J .Sander ,Algorithms and Ap -plications for Spatial Data Mining ,Geographic Data Mining and Knowledge Discovery ,Research Monographs in GIS ,

Taylor and Francis ,2001

[18]M .Ankerst ,M .Breunig ,H .-P .Kriegel ,J .Sander ,OP -TICS :Ordering Points To Identify the Clustering Structure ,Proc .1999AC M -SIGMOD Int .Conf .On Management of Data (SIGMOD '99),1999:49-60

[19]A .Hinneburg ,D .A .Keim ,An E fficient Approach to Clus -tering in Large Multimedia Databases with Noise ,Proc .1998Int .Conf .Knowledge Discovery and Data Mining (KDD '98),1998:58-65

[20]J .Wan g ,R .Yang ,Muntz ,STING :A Statistical Information

Grid Approach to Spatial Data Mining ,Proc .1997Int .Conf .Very Large Data Bases (VLDB '97),1997:186-195[21]G .Sheikholeslami ,S .Chatterjee ,A .Zhang ,WaveCluster :

A MultiResolution Clustering Approach for Very Large Spatial Databases ,Proc .1998Int .Conf .Very Large Data Bases (VLD

B '98),1998:428-439

[22]R .Agrawal ,J .Gehrke ,D .Gunopulos ,P .Raghavan ,Au -tomatic Subspace Clustering of High Dimensional Data for Data Mining Applications ,Proc .1998ACM -SIGMOD Int .Conf .Management of Data (SIGMOD '98),1998:94-105

[23]Dor ,Z .Yakhini ,Clustering Gene Expression Patterns .Proc .

3rd Annual Int .Conf .Computational Molecular Biology (RE -COMB99),Lyon ,France ,1999:11-14

[24]D .Yu ,S .Chatterjee ,G .Sheikholeslami ,A .Zhang ,Effi -cientl y Detecting Arbitrary Shaped Clusters in Very Large Datasets with High Dimens ions ,SUNY Buffalo ,Computer Science Technical Report 98-08,1998(Nov .)

An Overview of Spatial Clustering Analysis and Its Application

Dai Xiaoyan 1 Guo Zhongyang 1 Li Qingfen 2 Wu Jianping 1

(1Laboratory of Geographic Infor mation Science ,East China Normal University ,Ministry of Education ,Shanghai 200062)

(2

Shanghai Institute of Geological Survey ,Shanghai 200072)

A bstract :As an important means of spatial data mining ,spatial clustering has been applied in many fields at present .In

this paper ,existed spatial clustering methods are generalized .Based on these ,K -means algorithm is applied to study the features of divergence using High Resolution Limited Area Analysis and Forecasting System

(HLAFS )data over the Tibetan Plateau at different UTC on 1June 1998and some meaningful results are ob -tained .

Keywords :spatial clustering ,K -means algorithm ,divergence

·46· 上海地质

Shanghai Geology

总第88期

空间聚类的研究现状及其应用_戴晓燕

空间聚类的研究现状及其应用* 戴晓燕1 过仲阳1 李勤奋2 吴健平1 (1华东师范大学教育部地球信息科学实验室 上海 200062) (2上海市地质调查研究院 上海 200072) 摘 要 作为空间数据挖掘的一种重要手段,空间聚类目前已在许多领域得到了应用。文章在对已有空间聚类分析方法概括和总结的基础上,结合国家卫星气象中心高分辨率有限区域分析预报系统产品中的数值格点预报(HLAFS)值,运用K-均值法对影响青藏高原上中尺度对流系统(MCS)移动的散度场进行了研究,得到了一些有意义的结论。 关键词 空间聚类 K-均值法 散度 1 前言 随着GPS、GI S和遥感技术的应用和发展,大量的与空间有关的数据正在快速增长。然而,尽管数据库技术可以实现对空间数据的输入、编辑、统计分析以及查询处理,但是无法发现隐藏在这些大型数据库中有价值的模式和模型。而空间数据挖掘可以提取空间数据库中隐含的知识、空间关系或其他有意义的模式等[1]。这些模式的挖掘主要包括特征规则、差异规则、关联规则、分类规则及聚类规则等,特别是聚类规则,在空间数据的特征提取中起到了极其重要的作用。 空间聚类是指将数据对象集分组成为由类似的对象组成的簇,这样在同一簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大,即相异度较大。作为一种非监督学习方法,空间聚类不依赖于预先定义的类和带类标号的训练实例。由于空间数据库中包含了大量与空间有关的数据,这些数据来自不同的应用领域。例如,土地利用、居住类型的空间分布、商业区位分布等。因此,根据数据库中的数据,运用空间聚类来提取不同领域的分布特征,是空间数据挖掘的一个重要部分。 空间聚类方法通常可以分为四大类:划分法、层次法、基于密度的方法和基于网格的方法。算法的选择取决于应用目的,例如商业区位分析要求距离总和最小,通常用K-均值法或K-中心点法;而对于栅格数据分析和图像识别,基于密度的算法更合适。此外,算法的速度、聚类质量以及数据的特征,包括数据的维数、噪声的数量等因素都影响到算法的选择[2]。 本文在对已有空间聚类分析方法概括和总结的基础上,结合国家卫星气象中心高分辨率有限区域分析预报系统产品中的数值格点预报(HLAFS)值,运用K-均值法对影响青藏高原上中尺度对流系统(MCS)移动的散度场进行了研究,得到了一些有意义的结论。 2 划分法 设在d维空间中,给定n个数据对象的集合D 和参数K,运用划分法进行聚类时,首先将数据对象分成K个簇,使得每个对象对于簇中心或簇分布的偏离总和最小[2]。聚类过程中,通常用相似度函数来计算某个点的偏离。常用的划分方法有K-均值(K-means)法和K-中心(K-medoids)法,但它们仅适合中、小型数据库的情形。为了获取大型数据库中数据的聚类体,人们对上述方法进行了改进,提出了K-原型法(K-prototypes method)、期望最大法EM(Expectation Maximization)、基于随机搜索的方法(ClAR ANS)等。 K-均值法[3]根据簇中数据对象的平均值来计算 ——————————————— *基金项目:国家自然科学基金资助。(资助号: 40371080) 收稿日期:2003-7-11 第一作者简介:戴晓燕,女,1979年生,华东师范大学 地理系硕士研究生,主要从事空间数 据挖掘的研究。 · 41 · 2003年第4期 上海地质 Shanghai Geology

各种聚类算法及改进算法的研究

论文关键词:数据挖掘;聚类算法;聚类分析论文摘要:该文详细阐述了数据挖掘领域的常用聚类算法及改进算法,并比较分析了其优缺点,提出了数据挖掘对聚类的典型要求,指出各自的特点,以便于人们更快、更容易地选择一种聚类算法解决特定问题和对聚类算法作进一步的研究。并给出了相应的算法评价标准、改进建议和聚类分析研究的热点、难点。上述工作将为聚类分析和数据挖掘等研究提供有益的参考。 1 引言随着经济社会和科学技术的高速发展,各行各业积累的数据量急剧增长,如何从海量的数据中提取有用的信息成为当务之急。聚类是将数据划分成群组的过程,即把数据对象分成多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。它对未知数据的划分和分析起着非常有效的作用。通过聚类,能够识别密集和稀疏的区域,发现全局的分布模式,以及数据属性之间的相互关系等。为了找到效率高、通用性强的聚类方法人们从不同角度提出了许多种聚类算法,一般可分为基于层次的,基于划分的,基于密度的,基于网格的和基于模型的五大类。 2 数据挖掘对聚类算法的要求(1)可兼容性:要求聚类算法能够适应并处理属性不同类型的数据。(2)可伸缩性:要求聚类算法对大型数据集和小数据集都适用。(3)对用户专业知识要求最小化。(4)对数据类别簇的包容性:即聚类算法不仅能在用基本几何形式表达的数据上运行得很好,还要在以其他更高维度形式表现的数据上同样也能实现。(5)能有效识别并处理数据库的大量数据中普遍包含的异常值,空缺值或错误的不符合现实的数据。(6)聚类结果既要满足特定约束条件,又要具有良好聚类特性,且不丢失数据的真实信息。(7)可读性和可视性:能利用各种属性如颜色等以直观形式向用户显示数据挖掘的结果。(8)处理噪声数据的能力。(9)算法能否与输入顺序无关。 3 各种聚类算法介绍随着人们对数据挖掘的深入研究和了解,各种聚类算法的改进算法也相继提出,很多新算法在前人提出的算法中做了某些方面的提高和改进,且很多算法是有针对性地为特定的领域而设计。某些算法可能对某类数据在可行性、效率、精度或简单性上具有一定的优越性,但对其它类型的数据或在其他领域应用中则不一定还有优势。所以,我们必须清楚地了解各种算法的优缺点和应用范围,根据实际问题选择合适的算法。 3.1 基于层次的聚类算法基于层次的聚类算法对给定数据对象进行层次上的分解,可分为凝聚算法和分裂算法。 (1)自底向上的凝聚聚类方法。这种策略是以数据对象作为原子类,然后将这些原子类进行聚合。逐步聚合成越来越大的类,直到满足终止条件。凝聚算法的过程为:在初始时,每一个成员都组成一个单独的簇,在以后的迭代过程中,再把那些相互邻近的簇合并成一个簇,直到所有的成员组成一个簇为止。其时间和空间复杂性均为O(n2)。通过凝聚式的方法将两簇合并后,无法再将其分离到之前的状态。在凝聚聚类时,选择合适的类的个数和画出原始数据的图像很重要。 [!--empirenews.page--] (2)自顶向下分裂聚类方法。与凝聚法相反,该法先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到每个对象自成一簇,或者达到了某个终结条件。其主要思想是将那些成员之间不是非常紧密的簇进行分裂。跟凝聚式方法的方向相反,从一个簇出发,一步一步细化。它的优点在于研究者可以把注意力集中在数据的结构上面。一般情况下不使用分裂型方法,因为在较高的层很难进行正确的拆分。 3.2 基于密度的聚类算法很多算法都使用距离来描述数据之间的相似性,但对于非凸数据集,只用距离来描述是不够的。此时可用密度来取代距离描述相似性,即基于密度的聚类算法。它不是基于各种各样的距离,所以能克服基于距离的算法只能发现“类圆形”的聚类的缺点。其指导思想是:只要一个区域中的点的密度(对象或数据点的数目)大过某个阈值,就把它加到与之相近的聚类中去。该法从数据对象的分布密度出发,把密度足够大的区域连接起来,从而可发现任意形状的簇,并可用来过滤“噪声”数据。常见算法有DBSCAN,DENCLUE 等。[1][2][3]下一页 3.3 基于划分的聚类算法给定一个N个对象的元组或数据库,根据给定要创建的划分的数目k,将数据划分为k个组,每个组表示一个簇类(<=N)时满足如下两点:(1)每个组至少包含一个对象;(2)每个对

K-means-聚类算法研究综述

K-means聚类算法研究综述 摘要:总结评述了K-means聚类算法的研究现状,指出K-means聚类算法是一个NP难优化问题,无法获得全局最优。介绍了K-means聚类算法的目标函数,算法流程,并列举了一个实例,指出了数据子集的数目K,初始聚类中心选取,相似性度量和距离矩阵为K-means聚类算法的3个基本参数。总结了K-means聚类算法存在的问题及其改进算法,指出了K-means 聚类的进一步研究方向。 关键词:K-means聚类算法;NP难优化问题;数据子集的数目K;初始聚类中心选取;相似性度量和距离矩阵 Review of K-means clustering algorithm Abstract: K-means clustering algorithm is reviewed. K-means clustering algorithm is a NP hard optimal problem and global optimal result cannot be reached. The goal,main steps and example of K-means clustering algorithm are introduced. K-means algorithm requires three user-specified parameters: number of clusters K,cluster initialization,and distance metric. Problems and improvement of K-means clustering algorithm are summarized then. Further study directions of K-means clustering algorithm are pointed at last. Key words: K-means clustering algorithm; NP hard optimal problem; number of clusters K; cluster initialization; distance metric K-means聚类算法是由Steinhaus1955年、Lloyed1957年、Ball & Hall1965年、McQueen1967年分别在各自的不同的科学研究领域独立的提出。K-means聚类算法被提出来后,在不同的学科领域被广泛研究和应用,并发展出大量不同的改进算法。虽然K-means聚类算法被提出已经超过50年了,但目前仍然是应用最广泛的划分聚类算法之一[1]。容易实施、简单、高效、成功的应用案例和经验是其仍然流行的主要原因。 文中总结评述了K-means聚类算法的研究现状,指出K-means聚类算法是一个NP难优化问题,无法获得全局最优。介绍了K-means聚类算法的目标函数、算法流程,并列举了一个实例,指出了数据子集的数目K、初始聚类中心选取、相似性度量和距离矩阵为K-means聚类算法的3个基本参数。总结了K-means聚类算法存在的问题及其改进算法,指出了K-means聚类的进一步研究方向。 1经典K-means聚类算法简介 1.1K-means聚类算法的目标函数 对于给定的一个包含n个d维数据点的数据集 12 {x,x,,x,,x} i n X=??????,其中d i x R ∈,以及要生成的数据子集的数目K,K-means聚类算法将数据对象组织为 K个划分{c,i1,2,} k C K ==???。每个划分代表一个类c k,每个类c k有一个类别中心iμ。选取欧氏距离作为相似性和 距离判断准则,计算该类内各点到聚类中心 i μ的距离平方和 2 (c) i i k i k x C J xμ ∈ =- ∑(1) 聚类目标是使各类总的距离平方和 1 (C)(c) K k k J J = =∑最小。 22 1111 (C)(c) i i K K K n k i k ki i k k k x C k i J J x d x μμ ==∈== ==-=- ∑∑∑∑∑ (2)其中, 1 i i ki i i x c d x c ∈ ? =? ? ? 若 若 ,显然,根据最小二乘 法和拉格朗日原理,聚类中心 k μ应该取为类别 k c类各数据点的平均值。 K-means聚类算法从一个初始的K类别划分开始,然

遥感图像分类方法的国内外研究现状与发展趋势

遥感图像分类方法的国内外研究现状与发展趋势

遥感图像分类方法的研究现状与发展趋势 摘要:遥感在中国已经取得了世界级的成果和发展,被广泛应用于国民经济发展的各个方面,如土地资源调查和管理、农作物估产、地质勘查、海洋环境监测、灾害监测、全球变化研究等,形成了适合中国国情的技术发展和应用推广模式。随着遥感数据获取手段的加强,需要处理的遥感信息量急剧增加。在这种情况下,如何满足应用人员对于大区域遥感资料进行快速处理与分析的要求,正成为遥感信息处理面临的一大难题。这里涉及二个方面,一是遥感图像处理本身技术的开发,二是遥感与地理信息系统的结合,归结起来,最迫切需要解决的问题是如何提高遥感图像分类精度,这是解决大区域资源环境遥感快速调查与制图的关键。 关键词:遥感图像、发展、分类、计算机 一、遥感技术的发展现状 遥感技术正在进入一个能够快速准确地提供多种对地观测海量数据及应用研究的新阶段,它在近一二十年内得到了飞速发展,目前又将达到一个新的高潮。这种发展主要表现在以下4个方面: 1. 多分辨率多遥感平台并存。空间分辨率、时间分辨率及光谱分辨率普遍提高目前,国际上已拥有十几种不同用途的地球观测卫星系统,并拥有全色0.8~5m、多光谱3.3~30m的多种空间分辨率。遥感平台和传感器已从过去的单一型向多样化发展,并能在不同平台

上获得不同空间分辨率、时间分辨率和光谱分辨率的遥感影像。民用遥感影像的空间分辨率达到米级,光谱分辨率达到纳米级,波段数已增加到数十甚至数百个,重复周期达到几天甚至十几个小时。例如,美国的商业卫星ORBVIEW可获取lm空间分辨率的图像,通过任意方向旋转可获得同轨和异轨的高分辨率立体图像;美国EOS卫星上的MOiDIS-N传感器具有35个波段;美国NOAA的一颗卫星每天可对地面同一地区进行两次观测。随着遥感应用领域对高分辨率遥感数据需求的增加及高新技术自身不断的发展,各类遥感分辨率的提高成为普遍发展趋势。 2. 微波遥感、高光谱遥感迅速发展微波遥感技术是近十几年发展起来的具有良好应用前景的主动式探测方法。微波具有穿透性强、不受天气影响的特性,可全天时、全天候工作。微波遥感采用多极化、多波段及多工作模式,形成多级分辨率影像序列,以提供从粗到细的对地观测数据源。成像雷达、激光雷达等的发展,越来越引起人们的关注。例如,美国实施的航天飞机雷达地形测绘计划即采用雷达干涉测量技术,在一架航天飞机上安装了两个雷达天线,对同一地区一次获取两幅图像,然后通过影像精匹配、相位差解算、高程计算等步骤得到被观测地区的高程数据。高光谱遥感的出现和发展是遥感技术的一场革命。它使本来在宽波段遥感中不可探测的物质,在高光谱遥感中能被探测。高光谱遥感的发展,从研制第一代航空成像光谱仪算起已有二十多年的历史,并受到世界各国遥感科学家的普遍关注。但长期以来,高光谱遥感一直处在以航空为基础的研究发展阶段,且主要

PAM聚类算法的分析与实现

毕业论文(设计)论文(设计)题目:PAM聚类算法的分析与实现 系别: 专业: 学号: 姓名: 指导教师: 时间:

毕业论文(设计)开题报告 系别:计算机与信息科学系专业:网络工程 学号姓名高华荣 论文(设计)题目PAM聚类算法的分析与实现 命题来源□√教师命题□学生自主命题□教师课题 选题意义(不少于300字): 随着计算机技术、网络技术的迅猛发展与广泛应用,人们面临着日益增多的业务数据,这些数据中往往隐含了大量的不易被人们察觉的宝贵信息,为了得到这些信息,人们想尽了一切办法。数据挖掘技术就是在这种状况下应运而生了。而聚类知识发现是数据挖掘中的一项重要的内容。 在日常生活、生产和科研工作中,经常要对被研究的对象经行分类。而聚类分析就是研究和处理给定对象的分类常用的数学方法。聚类就是将数据对象分组成多个簇,同一个簇中的对象之间具有较高的相似性,而不同簇中的对象具有较大的差异性。 在目前的许多聚类算法中,PAM算法的优势在于:PAM算法比较健壮,对“噪声”和孤立点数据不敏感;由它发现的族与测试数据的输入顺序无关;能够处理不同类型的数据点。 研究综述(前人的研究现状及进展情况,不少于600字): PAM(Partitioning Around Medoid,围绕中心点的划分)算法是是划分算法中一种很重要的算法,有时也称为k-中心点算法,是指用中心点来代表一个簇。PAM算法最早由Kaufman和Rousseevw提出,Medoid的意思就是位于中心位置的对象。PAM算法的目的是对n个数据对象给出k个划分。PAM算法的基本思想:PAM算法的目的是对成员集合D中的N个数据对象给出k个划分,形成k个簇,在每个簇中随机选取1个成员设置为中心点,然后在每一步中,对输入数据集中目前还不是中心点的成员根据其与中心点的相异度或者距离进行逐个比较,看是否可能成为中心点。用簇中的非中心点到簇的中心点的所有距离之和来度量聚类效果,其中成员总是被分配到离自身最近的簇中,以此来提高聚类的质量。 由于PAM算法对小数据集非常有效,但对大的数据集合没有良好的可伸缩性,就出现了结合PAM的CLARA(Cluster LARger Application)算法。CLARA是基于k-中心点类型的算法,能处理更大的数据集合。CLARA先抽取数据集合的多个样本,然后用PAM方法在抽取的样本中寻找最佳的k个中心点,返回最好的聚类结果作为输出。后来又出现了CLARNS(Cluster Larger Application based upon RANdomized

文本聚类的现状研究

1 文本聚类研究现状 1 文本聚类研究现状 Internet 已经发展为当今世界上最大的信息库和全球范围内传播信息最主要的渠道。随着Internet 的大规模普及和企业信息化程度的提高,各种资源呈爆炸式增长。在中国互联网络信息中心(CNNIC)2007 年 1 月最新公布的中国互联网络发展状况统计报告中显示,70.2% 的网络信息均以文本形式体现。对于这种半结构或无结构化数据,如何从中获取特定内容的信息和知识成为摆在人们面前的一道难题。近年来,文本挖掘、信息过滤和信息检索等方面的研究出现了前所未有的高潮。 作为一种无监督的机器学习方法,聚类技术可以将大量文本信息组成少数有意义的簇,并提供导航或浏览机制。 文本聚类的主要应用点包括: (1) 文本聚类可以作为多文档自动文摘等自然语言处理应用的预处理步骤。其中比较典型的例子是哥伦比亚大学开发的多文档自动文摘系统Newsblaster[1] 。该系统将新闻进行 聚类处理,并对同主题文档进行冗余消除、信息融合、文本生成等处理,从而生成一篇简明扼要的摘要文档。 (2) 对搜索引擎返回的结果进行聚类,使用户迅速定位到所需要的信息。比较典型的系统有Infonetware Real Term Search 。Infonetware 具有强大的对搜索结果进行主题分类的功能。另外,由Carrot Search 开发的基于Java 的开源Carrot2 搜索结果聚合聚类引擎2.0 版也是这方面的利用,Carrot2 可以自动把自然的搜索结果归类( 聚合聚类) 到相应的语义类别中,提供基于层级的、同义的以及标签过滤的功能。 (3) 改善文本分类的结果,如俄亥俄州立大学的Y.C.Fang 等人的工作[2] 。 (4) 文档集合的自动整理。如Scatter/Gather[3] ,它是一个基于聚类的文档浏览系统。 2 文本聚类过程 文本聚类主要依据聚类假设:同类的文档相似度较大,非同类的文档相似度较小。作为一种无监督的机器学习方法,聚类由于不需要训练过程、以及不需要预先对文档手工标注类别,因此具有较高的灵活性和自动化处理能力,成为对文本信息进行有效组织、摘要和导航的重要手段。文本聚类的具体过程如图 1 所示。 图 1 文本聚类过程 2.1 文本信息的预处理 文本聚类的首要问题是如何将文本内容表示成为数学上可分析处理的形式,即建立文本特

肤色在各颜色空间的聚类分析

肤色在各颜色空间的聚类分析 摘要肤色是人体表面最显著的特征之一。对不同肤色在RGB、YCbCr颜色空间内和同一肤色在不同亮度环境下的聚类情况进行深入的分析研究,发现肤色在YCbCr空间内聚类效果更好,更适合做肤色分割。然后在此基础上对黑色肤色、黄色肤色及白色肤色在YCbCr空间内进行肤色分割,达到较好的分割效果。 关键词肤色;颜色空间;肤色分割;YCbCr空间 肤色是人体表面最显著的特征之一,由于它对姿势、旋转、表情等变化不敏感,因此将人体的肤色特征应用于人脸检测与识别、表情识别、手势识别具有很大的优势,所以肤色特征是人脸识别、表情识别、与手势识别中最为常用的分割方法。然而,若要利用肤色进行分割,我们首先应该对肤色以及肤色的聚类情况进行分析。 世界上的人种主要有三种,即尼格罗—澳大利亚人种(黑色皮肤),蒙古人种(黄色皮肤),欧罗巴人种(白色皮肤)。尽管人的肤色因人种的不同而不同,呈现出不同的颜色,但是有学者指出:排除亮度、周围环境等对肤色的影响后,皮肤的色调基本一致。本文对在不同环境下的不同肤色进行取样,然后分别在RGB、YCbCr颜色空间进行统计,从而对比分析肤色在各颜色空间聚类的情况。 1肤色在各颜色空间的聚类比较 1.1不同肤色在RGB和YCbCr颜色空间上的分布 图1—图2给出了黄色、黑色和白色肤色分别在RGB、YCbcr空间的分布情况。 由图1—图2可以得出,不同肤色在RGB、YCbCr空间的分布有如下特征: 1)不同肤色在不同颜色空间均分布在很小的范围内。 2)不同肤色在不同颜色空间内不是随机分布,而是在某固定区域呈聚类分布。 3)不同肤色在YCbCr空间内分布的聚类状态要好于在RGB空间内分布的聚类状态。 4)不同肤色在亮度上的差异远远高于在色度上的差异。 1.2肤色在不同亮度下的分布 图3—图4给出了不同亮度下的同一肤色分别在RGB、YCbCr空间的分布情况。图(a)至图(d)的肤色来源于同一人在不同亮度下的照片。

基于k—means聚类算法的试卷成绩分析研究

基于k—means聚类算法的试卷成绩分析研 究 第39卷第4期 2009年7月 河南大学(自然科学版) JournalofHenanUniversity(NaturalScience) V o1.39NO.4 Ju1.2009 基于k—means聚类算法的试卷成绩分析研究 谭庆' (洛阳师范学院信息技术学院,河南洛阳471022) 摘要:研究_rk-means聚类算法,并将此算法应用于高校学生试卷成绩分析中.首先对数据进行了预处理,然后 使用k-means算法,对学生试卷成绩进行分类评价.用所获得的结果指导学生的学习和今后的教学工作. 关键词:数据挖掘;聚类;k-means算法;试卷成绩 中圈分类号:TP311文献标志码:A文章编号:1003—4978(2009)04—0412—04 AnalysisandResearchofGradesofExaminationPaper BasedonK—meansClusteringAlgorithm TANQing (Acaderny.l,InformationTechnologY,LuoyangNormalUniversity,LuoyangHenan47102 2,China) Abstract:Thispaperresearcheslhekmeansclusteringalgorithmandappliesittotheanalysiso fthegradedataof examinationpaperofhighereducationschoolSstudents.Firstly,itpreprocessesthedatabefor eminingThen,it usesthek—

基于聚类分析的Kmeans算法研究及应用概要

第24卷第5期 2007年5月 计算机应用研究 Application Resea心h of Computers V01.24.No.5 Mav 2007 基于聚类分析的K—means算法研究及应用爿: 张建萍1,刘希玉2 (1.山东师范大学信息科学与工程学院,山东济南250014;2.山东师范大学管理学院,山东济南250014 摘要:通过对聚类分析及其算法的论述,从多个方面对这些算法性能进行比较,同时以儿童生长发育时期的数据为例通过聚类分析的软件和改进的K.means算法来进一步阐述聚类分析在数据挖掘中的实践应用。 关键词:数据挖掘;聚类分析;数据库;聚类算法 中图分类号:TP311文献标志码:A 文章编号:1001—3695(200705—0166-03 Application in Cluster’s Analysis Is Analyzed in Children DeVelopment Period ZHANG Jian—pin91,UU Xi—yu。 (1.coz比伊矿,咖mo砌n 5c掂Me&E蟛袱^增,|s胁础增Ⅳo丌mf‰洫瑙毋,五n 帆5^a蒯D昭250014,吼i胁;2.cozz学矿讹加舻删眦, s^0n幽凡g舳丌Mf‰i孵璐匆,^加n乩。砌。昭250014,傩iM Abstract: nis paper passed cluster’s analysis and its algorithm corTectly,compared

these algorithm perfbrnlances f}om a lot of respects,and explained that cluster analysis excavates the practice application of in datum further to come through software and impmved K—means aIgorithm,cIuster of analysis at the same time practise appIication. Key words:data mining; cluster analysis; database; cluster algorithm 随着计算机硬件和软件技术的飞速发展,尤其是数据库技 术的普及,人们面临着日益扩张的数据海洋,原来的数据分析工具已无法有效地为决策者提供决策支持所需要的相关知识, 从而形成一种独特的现象“丰富的数据,贫乏的知识”。数据挖掘…又称为数据库中知识发现(Knowledge Discovery from Database,KDD,它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程。目的是在大量的数据中发现人们感兴趣的知识。 常用的数据挖掘技术包括关联分析、异类分析、分类与预测、聚类分析以及演化分析等。由于数据库中收集了大量的数据,聚类分析已经成为数据挖掘领域的重要技术之一。 1问题的提出 随着社会的发展和人们生活水平的提高,优育观念嵋一。逐渐渗透到每个家庭,小儿的生长发育越来越引起家长们的重视。中国每隔几年都要进行全国儿童营养调查,然而用手工计算的方法在大量的数据中分析出其中的特点和规律,显然是不现实的,也是不可行的。为了有效地解决这个问题,数据挖掘技术——聚类分析发挥了巨大的作用。 在数据挖掘领域,聚类算法经常遇到一些问题如聚类初始点的选择H J、模糊因子的确定‘5o等,大部分均已得到解决。现在的研究工作主要集中在为大型的数据库有效聚类分析寻找适当的方法、聚类算法对复杂分布数据和类别性数据聚类的有效性以及高维数据聚类技术等方面。本文通过对聚类分析算法的分析并重点

快速流分类算法研究综述

快速流分类算法研究综述 李振强 (北京邮电大学信息网络中心,北京 100876) 摘要 本文对流分类算法进行了综述,包括流分类的定义,对流分类算法的要求,以及各种流分类算法的分析比较。文章的最后指出了在流分类方面还没有得到很好解决的问题,作为进一步研究的方向。 关键词 流分类;服务质量;IP 背景 当前的IP网络主要以先到先服务的方式提供尽力而为的服务。随着Internet的发展和各种新业务的出现,尽力而为的服务已经不能满足人们对Internet的要求,IP网络必须提供增强的服务,比如:SLA(Service Level Agreement)服务,VPN(Virtual Private Network)服务,各种不同级别的QoS (Quality of Service)服务,分布式防火墙,IP安全网关,流量计费等。所有这些增强服务的提供都依赖于流分类,即根据包头(packet header)中的一个或几个域(field)决定该包隶属的流(flow)。典型的,包头中可以用来分类的域包括:源IP地址(Source IP Address)、目的IP地址(Destination IP Address)、协议类型(Protocol Type)、源端口(Source Port)和目的端口(Destination Port)等。 流分类算法描述 首先定义两个名词:规则(rule)和分类器(classifier)。用来对IP包进行分类的由包头中若干域组成的集合称之为规则,而若干规则的集合就是分类器。构成规则的域(我们称之为组件component)的值可以是某个范围,例如目的端口大于1023。流分类就是要确定和每个包最匹配的规则。表1是由6条规则组成的一个分类器。我们说这是一个5域分类器,因为每条规则由5个组件构成。我们假定分类器中的规则是有优先级的,越靠前的规则优先级越高,即规则1的优先级最高,规则6的最低。

系统聚类分析方法

系统聚类分析方法 聚类分析是研究多要素事物分类问题的数量方法。基本原理是根据样本自身的属性,用数学方法按照某种相似性或差异性指标,定量地确定样本之间的亲疏关系,并按这种亲疏关系程度对样本进行聚类。 常见的聚类分析方法有系统聚类法、动态聚类法和模糊聚类法等。 1. 聚类要素的数据处理 假设有m 个聚类的对象,每一个聚类对象都有个要素构成。它们所对应的要素数据可用表3.4.1给出。(点击显示该表)在聚类分析中,常用的聚类要素的数据处理方法有如下几种。 ①总和标准化 ②标准差标准化

③极大值标准化 经过这种标准化所得的新数据,各要素的极大值为1,其余各数值小于1。 ④极差的标准化 经过这种标准化所得的新数据,各要素的极大值为1,极小值为0,其余的数值均在0与1之间。 2. 距离的计算 距离是事物之间差异性的测度,差异性越大,则相似性越小,所以距离是系统聚类分析的依据和基础。 ①绝对值距离

选择不同的距离,聚类结果会有所差异。在地理分区和分类研究中,往往采用几种距离进行计算、对比,选择一种较为合适的距离进行聚类。

例:表3.4.2给出了某地区九个农业区的七项指标,它们经过极差标准化处理后,如表3.4.3所示。 对于表3.4.3中的数据,用绝对值距离公式计算可得九个农业区之间的绝对值距离矩阵:

3. 直接聚类法 直接聚类法是根据距离矩阵的结构一次并类得到结果。 ▲ 基本步骤: ①把各个分类对象单独视为一类; ②根据距离最小的原则,依次选出一对分类对象,并成新类;③如果其中一个分类对象已归于一类,则把另一个也归入该类;如果一对分类对象正好属于已归的两类,则把这两类并为一类;每一次归并,都划去该对象所在的列与列序相同的行;④那么,经过m-1次就可以把全部分类对象归为一类,这样就可以根据归并的先后顺序作出聚类谱系图。 ★直接聚类法虽然简便,但在归并过程中是划去行和列的,因而难免有信息损失。因此,直接聚类法并不是最好的系统聚类方法。 [举例说明](点击打开新窗口,显示该内容) 例:已知九个农业区之间的绝对值距离矩阵,使用直接聚类法做聚类分析。 解: 根据上面的距离矩阵,用直接聚类法聚类分析:

软件学报 2008 聚类算法研究

ISSN 1000-9825, CODEN RUXUEW E-mail: jos@https://www.360docs.net/doc/197272730.html, Journal of Software, Vol.19, No.1, January 2008, pp.48?61 https://www.360docs.net/doc/197272730.html, DOI: 10.3724/SP.J.1001.2008.00048 Tel/Fax: +86-10-62562563 ? 2008 by Journal of Software. All rights reserved. ? 聚类算法研究 孙吉贵1,2, 刘杰1,2+, 赵连宇1,2 1(吉林大学计算机科学与技术学院,吉林长春 130012) 2(符号计算与知识工程教育部重点实验室,吉林长春 130012) Clustering Algorithms Research SUN Ji-Gui1,2, LIU Jie1,2+, ZHAO Lian-Yu1,2 1(College of Computer Science and Technology, Jilin University, Changchun 130012, China) 2(Key Laboratory of Symbolic Computation and Knowledge Engineering of the Ministry of Education, Changchun 130012, China) + Corresponding author: Phn: +86-431-85166478, E-mail: liu_jie@https://www.360docs.net/doc/197272730.html, Sun JG, Liu J, Zhao LY. Clustering algorithms research. Journal of Software, 2008,19(1):48?61. https://www.360docs.net/doc/197272730.html,/ 1000-9825/19/48.htm Abstract: The research actuality and new progress in clustering algorithm in recent years are summarized in this paper. First, the analysis and induction of some representative clustering algorithms have been made from several aspects, such as the ideas of algorithm, key technology, advantage and disadvantage. On the other hand, several typical clustering algorithms and known data sets are selected, simulation experiments are implemented from both sides of accuracy and running efficiency, and clustering condition of one algorithm with different data sets is analyzed by comparing with the same clustering of the data set under different algorithms. Finally, the research hotspot, difficulty, shortage of the data clustering and some pending problems are addressed by the integration of the aforementioned two aspects information. The above work can give a valuable reference for data clustering and data mining. Key words: clustering; algorithm; experiment 摘要: 对近年来聚类算法的研究现状与新进展进行归纳总结.一方面对近年来提出的较有代表性的聚类算法, 从算法思想、关键技术和优缺点等方面进行分析概括;另一方面选择一些典型的聚类算法和一些知名的数据集,主 要从正确率和运行效率两个方面进行模拟实验,并分别就同一种聚类算法、不同的数据集以及同一个数据集、不同 的聚类算法的聚类情况进行对比分析.最后通过综合上述两方面信息给出聚类分析的研究热点、难点、不足和有待 解决的一些问题.上述工作将为聚类分析和数据挖掘等研究提供有益的参考. 关键词: 聚类;算法;实验 中图法分类号: TP18文献标识码: A 聚类分析研究有很长的历史,几十年来,其重要性及与其他研究方向的交叉特性得到人们的肯定.聚类是数 ? Supported by the National Natural Science Foundation of China under Grant Nos.60473003, 60573073 (国家自然科学基金); the Major Research Program of National Natural Science Foundation of China under Grant No.60496321 (国家自然科学基金重大项目) Received 2007-04-24; Accepted 2007-08-03

数据挖掘分类算法研究综述终板

数据挖掘分类算法研究综述 程建华 (九江学院信息科学学院软件教研室九江332005 ) 摘要:随着数据库应用的不断深化,数据库的规模急剧膨胀,数据挖掘已成为当今研究的热点。特别是其中的分类问题,由于其使用的广泛性,现已引起了越来越多的关注。对数据挖掘中的核心技术分类算法的内容及其研究现状进行综述。认为分类算法大体可分为传统分类算法和基于软计算的分类法两类。通过论述以上算法优缺点和应用范围,研究者对已有算法的改进有所了解,以便在应用中选择相应的分类算法。 关键词:数据挖掘;分类;软计算;算法 1引言 1989年8月,在第11届国际人工智能联合会议的专题研讨会上,首次提出基于数据库的知识发现(KDD,Knowledge DiscoveryDatabase)技术[1]。该技术涉及机器学习、模式识别、统计学、智能数据库、知识获取、专家系统、数据可视化和高性能计算等领域,技术难度较大,一时难以应付信息爆炸的实际需求。到了1995年,在美国计算机年会(ACM)上,提出了数据挖掘[2](DM,Data Mining)的概念,由于数据挖掘是KDD过程中最为关键的步骤,在实践应用中对数据挖掘和KDD这2个术语往往不加以区分。 基于人工智能和信息系统,抽象层次上的分类是推理、学习、决策的关键,是一种基础知识。因而数据分类技术可视为数据挖掘中的基础和核心技术。其实,该技术在很多数据挖掘中被广泛使用,比如关联规则挖掘和时间序列挖掘等。因此,在数据挖掘技术的研究中,分类技术的研究应当处在首要和优先的地位。目前,数据分类技术主要分为基于传统技术和基于软计算技术两种。 2传统的数据挖掘分类方法 分类技术针对数据集构造分类器,从而对未知类别样本赋予类别标签。在其学习过程中和无监督的聚类相比,一般而言,分类技术假定存在具备环境知识和输入输出样本集知识的老师,但环境及其特性、模型参数等却是未知的。 2.1判定树的归纳分类 判定树是一个类似流程图的树结构,其中每个内部节点表示在一个属性上的测试,每个分支代表一个测试输出,而每个树叶节点代表类或类分布。树的最顶层节点是根节点。由判定树可以很容易得到“IFTHEN”形式的分类规则。方法是沿着由根节点到树叶节点的路径,路径上的每个属性-值对形成“IF”部分的一个合取项,树叶节点包含类预测,形成“THEN”部分。一条路径创建一个规则。 判定树归纳的基本算法是贪心算法,它是自顶向下递归的各个击破方式构造判定树。其中一种著名的判定树归纳算法是建立在推理系统和概念学习系统基础上的ID3算法。 2.2贝叶斯分类 贝叶斯分类是统计学的分类方法,基于贝叶斯公式即后验概率公式。朴素贝叶斯分类的分类过程是首先令每个数据样本用一个N维特征向量X={X1,X2,?X n}表示,其中X k是属性A k的值。所有的样本分为m类:C1,C2,?,C n。对于一个类别的标记未知的数据记录而言,若P(C i/X)>P(C j/X),1≤ j≤m,j≠i,也就是说,如果条件X下,数据记录属于C i类的概率大于属于其他类的概率的话,贝叶斯分类将把这条记录归类为C i类。 建立贝叶斯信念网络可以被分为两个阶段。第一阶段网络拓扑学习,即有向非循环图的——————————————————— 作者简介:程建华(1982-),女,汉族,江西九江,研究生,主要研究方向为数据挖掘、信息安全。

基于向量空间模型的文本聚类算法

基于向量空间模型的文本聚类算法 转自:https://www.360docs.net/doc/197272730.html,/2009/0910/15270.php 1 文本聚类研究现状 Internet 已经发展为当今世界上最大的信息库和全球范围内传播信息最主要的渠道。随着Internet 的大规模普及和企业信息化程度的提高,各种资源呈爆炸式增长。在中国互联网络信息中心(CNNIC)2007 年1 月最新公布的中国互联网络发展状况统计报告中显示,70.2% 的网络信息均以文本形式体现。对于这种半结构或无结构化数据,如何从中获取特定内容的信息和知识成为摆在人们面前的一道难题。近年来,文本挖掘、信息过滤和信息检索等方面的研究出现了前所未有的高潮。 作为一种无监督的机器学习方法,聚类技术可以将大量文本信息组成少数有意义的簇,并提供导航或浏览机制。 文本聚类的主要应用点包括: (1) 文本聚类可以作为多文档自动文摘等自然语言处理应用的预处理步骤。其中比较典型的例子是哥伦比亚大学开发的多文档自动文摘系统Newsblaster[1] 。该系统将新闻进行 聚类处理,并对同主题文档进行冗余消除、信息融合、文本生成等处理,从而生成一篇简明扼要的摘要文档。 (2) 对搜索引擎返回的结果进行聚类,使用户迅速定位到所需要的信息。比较典型的系统有Infonetware Real Term Search 。Infonetware 具有强大的对搜索结果进行主题分类的功能。另外,由Carrot Search 开发的基于Java 的开源Carrot2 搜索结果聚合聚类引擎2.0 版也是这方面的利用,Carrot2 可以自动把自然的搜索结果归类( 聚合聚类) 到相应的语义类别中,提供基于层级的、同义的以及标签过滤的功能。 (3) 改善文本分类的结果,如俄亥俄州立大学的Y.C.Fang 等人的工作[2] 。 (4) 文档集合的自动整理。如Scatter/Gather[3] ,它是一个基于聚类的文档浏览系统。 2 文本聚类过程 文本聚类主要依据聚类假设:同类的文档相似度较大,非同类的文档相似度较小。作为一种无监督的机器学习方法,聚类由于不需要训练过程、以及不需要预先对文档手工标注类别,因此具有较高的灵活性和自动化处理能力,成为对文本信息进行有效组织、摘要和导航的重要手段。文本聚类的具体过程如图 1 所示。 图 1 文本聚类过程

相关文档
最新文档