基于粗糙集理论的两类离散化方法研究

１０．３９７９／ｊ．　ｉｓｓｎ．　１６７３－８２５Ｘ．　２０１１．０５．０２８

基于粗糙集理论的两类离散化方法研究

张文波

重庆邮电大学计算机科学与技术研究所，重庆　４０００６５

摘要：连续属性离散化是数据预处理的关键步骤之一，在实际应用中往往通过高效的启发式算法来计算离散化结果。对基于辅助矩阵和信息熵的两类启发式离散化算法进行实验研究，分别选取每类算法中的５种典型方法，通过系列实验，对两类算法的性能进行对比研究，结果表明：辅助矩阵类算法具有相对较高的样本识别能力，但算法复杂度较高，运行时间更长，较适合于处理小容量数据集；信息熵类算法的特性则正好与之相反。

粗糙集；离散化；辅助矩阵；信息熵

ＴＰ１８Ａ１６７３－８２５Ｘ（　２０１１　）０５－０６４１－０６

Ｓｔｕｄｙ　ｏｎ　ｔｗｏ　ｋｉｎｄｓ　ｏｆ　ｄｉｓｃｒｅｔｉｚａｔｉｏｎ　ｍｅｔｈｏｄｓ　ｂａｓｅｄ　ｏｎ　ｒｏｕｇｈ　ｓｅｔ　ｔｈｅｏｒｙ　

ＺＨＡＮＧ　Ｗｅｎ－ｂｏ

２００９－１１－０６２０１０－１２－２７

教育部留学回国人员科研启动基金项目（教外司留［　２００７］　１１０８号）；重庆邮电大学科研基金（Ａ２００６－０５）

万方数据

粗糙集理论及其应用综述

控制理论与应用 CONTROL THEORY & APPLICATIONS 1999年第16卷第2期 Vol.16　No.2 1999 粗糙集理论及其应用综述* 韩祯祥　张琦　文福拴摘要：粗糙集理论是一种较新的软计算方法，可以有效地分析和处理不完备信息.该理论近年日益受到国际学术届的重视，已经在模式识别、机器学习、决策支持、过程控制、预测建模等许多科学与工程领域得到成功的应用.本文介绍了粗糙集理论的基本概念，对其在各领域的应用情况进行了综述. 关键词：粗糙集；不确定性；数据分析；软计算；粗糙控制 A Survey on Rough Set Theory and Its Application Han Zhenxiang,　Zhang Qi　and　Wen Fushuan (Department of Electrical Engineering, Zhejiang University.Hangzhou,310 027,P.R.China) Abstract: Rough set theory is a relatively new soft comput ingtool to deal with vagueness and uncertainty.It has received much attention of the researchers around the world.Rough set theory has been applied to many area s successfully including pattern recognition,machine learning,decision support, process control and predictive modeling.This paper introduces the basic concepts of rough set.A survey on its applicatoins is also given. Key words: rough set; uncertainty; data analysis; soft computing; rough control 1　引言(Introduction) 粗糙集(Rougn Set,RS)理论是一种刻划不完整性和不确定性的数学工具，能有效地分析和处理不精确、不一致、不完整等各种不完备信息，并从中发现隐含的知识，揭示潜在的规律［1］.RS理论是由波兰学者Pawlak Z在1982年［2］提出的.1991年Pawlak Z出版了专著［3］，系统全面地阐述了RS理论，奠定了严密的数学基础.该书与1992年出版的RS理论应用专集［4］较好地总结了这一时期RS理论与实践的研究成果，促进了它的进一步发展，现已成为学习和应用RS理论的重要文献.从1992年至今，每年都召开以RS 为主题的国际会议，推动了RS理论的拓展和应用.国际上成立了粗糙集学术研究会，参加的成员来自波兰、美国、加拿大、日本、挪威、俄罗斯、乌克兰和印度等国家.目前RS理论已成为人工智能领域中一个较新的学术热点，引起了越来越多的科研人员的关注. 2　粗糙集理论的基本概念(Basic concepts of rough set theory) 2.1　知识与不可分辨关系(Knowledge and indiscern ibility relation) 在RS理论中，“知识”被认为一种将现实或抽象的对象进行分类的能力［3］.假定

粗糙集理论

粗糙集理论与应用研究综述王国胤1Yiyu Yao2 于洪1,2 (1重庆邮电大学计算机科学与技术研究所重庆400065) (2Department of Computer Science, University of Regina, Regina, Canada S4S 0A2) {wanggy, yuhong}@https://www.360docs.net/doc/053413970.html,, yyao@cs.uregina.ca 摘要本文在阐释粗糙集理论基本体系结构的基础上，从多个角度探讨粗糙集模型的研究思路，分析粗糙集理论与模糊集、证据理论、粒计算、形式概念分析、知识空间等其他理论之间的联系，介绍国内外关于粗糙集理论研究的主要方向和发展状况，讨论当前粗糙集理论研究的热点研究领域，以及将来需要重点研究的主要问题。关键词粗糙集，模糊集，粒计算，形式概念分析，知识空间，智能信息处理 A Survey on Rough Set Theory and Its Application Wang Guo-Yin1Yao Yi-Yu2 Yu Hong1,2 1 Institute of Computer Science and Technology, Chongqing University of Posts and Telecommunications, Chongqing, 400065 2 Department of Computer Science, University of Regina, Regina, Saskatchewan, Canada, S4S 0A2 Abstract This paper introduces the basic ideas and framework of rough set theory and the different views of knowledge representation in rough set theory, and then discusses the relations between the rough set theory and the other theories, such as fuzzy set, evidence theory, granular computing, formal concept analyzing, knowledge space, etc. Furthermore, the paper reviews the recent studies for this theory and a survey on its applications is also given. The future development trend of rough set theory is also discussed. Keywords rough set, fuzzy set, granular computing, formal concept analyzing, knowledge space, intelligent information processing 1 引言智能信息处理是当前信息科学理论和应用研究中的一个热点领域。由于计算机科学与技术的发展，特别是计算机网络的发展，每日每时为人们提供了大量的信息，信息量的不断增长，对信息分析工具的要求也越来越高，人们希望自动地从数据中获取其潜在的知识。特别是近20年间，知识发现（规则提取、数据挖掘、机器学习）受到人工智能学界的广泛重视，知识发现的各种不同方法应运而生。粗糙集（Rough Set，有时也称Rough集、粗集）理论是Pawlak教授于1982年提出的一种能够定量分析处理不精确、不一致、不完整信息与知识的数学工具[1]。粗糙集理论最初的原型来源于比较简单的信息模型，它的基本思想是通过关系数据库分类归纳形成概念和规则，通过等价关系的分类以及分类对于目标的近似实现知识发现。由于粗糙集理论思想新颖、方法独特，粗糙集理论已成为一种重要的智能信息处理技术[2-4]，该理论已经在机器学习与知识发现、数据挖掘、决策支持与分析等方面得到广泛应用。目前，有三个有关粗糙集的系列国际会议，即：RSCTC、RSFDGrC和RSKT。中国学者在这方面也取得了很大的成果，从2001年开始每年召开中国粗糙集与软计算学术会议；RSFDGRC2003、IEEE GrC2005、RSKT2006、IFKT2008、RSKT2008、IEEE GrC2008等一系列国际学术会议在中国召开。粗糙集理论与应用的核心基础是从近似空间导出的一对近似算子，即上近似算子和下近似算子（又称上、下近似集）。经典Pawlak模型中的不分明关系是一种等价关系，要求很高，限制了粗糙集模型的应用。因此，如何推广定义近似算子成为了粗糙集理论研究的一个重点。目前，常见的关于推广粗糙集理论的研究方法有两种，即：构造化方法和公理化方法。构造化方法是以论域上的二元关系、划分、覆盖、邻域系统、布尔子代数等作为基本要素，进而定义粗糙近似算子，从而导出粗糙集代数系统。公理化方法的基本要素是一对满足某些公理的一元集合算子，近似算子的某些公理能保证有一些特殊类型的二元关系的存在；反过来, 由二元关系通过构造性方法导出的近似算子一定满足某些公理。事实上，有两种形式来描述粗糙集，一个是从集

基于变精度粗糙集理论的知识约简方法

2004年1月系统工程理论与实践第1期　文章编号:100026788(2004)0120076207 基于变精度粗糙集理论的知识约简方法米据生1,2,吴伟志1,张文修1 (1.西安交通大学理学院信息与系统科学研究所,陕西西安710049;2.河北师范大学数学与信息科学学院,河北石家庄050016) 摘要:　基于变精度粗糙集理论与包含度理论,引入了不协调目标信息系统的上、下分布约简的概念,并讨论了它们之间的关系.上(下)分布约简是保持每个决策类的上(下)近似不变的最小属性集,由约简系统产生的命题规则与由原系统产生的命题规则是相容的,即约简不会改变由对象所产生的规则的决策结果.通过对这两种知识约简的等价刻画,得到了上、下分布知识约简的判定定理和可辨识属性矩阵, 从而提供了不协调目标信息系统知识约简的新方法. 关键词:　变精度粗糙集;知识约简;信息系统;协调集中图分类号:　T P18 文献标识码:　A Know ledge R educts Based on V ariab le P recisi on Rough Set T heo ry M I J u2sheng1,2,W U W ei2zh i1,ZHAN G W en2x iu1 (1.In stitu te fo r Info rm ati on and System Sciences,Facu lty of Science,X i’an J iao tong U n iversity,X i’an710049,Ch ina;2. Co llege of M athem ath is and Info rm ati on Science,H ebei N o rm al U n iversity,Sh ijiazhuang050016,Ch ina) Abstract:　T he m ain ob jective of the paper is to in troduce som e new concep ts of know ledge reducti on based on variab le p recisi on rough set theo ry such as upper distribu ti on reducti on and low er distribu ti on reducti on.T he decisi on ru les derived from the distribu ti on con sisten t set are compatib le w ith the ones derived from o riginal system.T heir equ ivalen t defin iti on s are studied.T he relati on sh i p s among alterna2 tive reducts in incon sisten t info rm ati on system s are discu ssed.T he judgem en t theo rem s and discern ib ili2 ty m atrixes w ith respect to upper and low er reducti on s are ob tained.So one can calcu lates the reducts by the discern ib ility fo rm u las.T hese resu lts are m ean ingfu l bo th in the theo ry and in app licati on s. Key words:　variab le p recisi on rough set;info rm ati on system;know ledge reducti on;con sisten t set 知识发现是人工智能的核心问题之一,它是从信息系统中识别正确、新颖、有潜在应用价值并最终可为人们所理解的模式的方法.粗糙集理论提供了知识发现的一种数学方法.由于这一理论的广泛应用,它越来越引起国际学术界的关注. 知识约简是知识发现的重要课题,因而也是粗糙集理论的核心问题之一.目前,信息系统的知识约简大多是在Paw lak粗糙集模型下进行的[1-7].Paw lak粗糙集模型的一个局限性是它所处理的分类必须是完全正确的或肯定的,因而它的分类是精确的,亦即只考虑完全“包含”与“不包含”,而没有某种程度上的“包含”与“属于”.Paw lak粗糙集模型的另一个局限性是它所处理的对象是已知的,且从模型中得到的结论仅适用于这些对象.但在实际应用中,往往需要把从小规模对象集中得到的结论应用于大规模对象集上去.Paw lak粗糙集模型的这些局限性限制了它的应用.近年来,许多学者从多方面推广了这一模型. Ziarko于1993年提出了变精度粗糙集模型.在这个模型中,给定一个阈值,当对象所在的等价类在某种程度上包含于集合X中时,就认为这个对象属于X.这一推广在应用上是非常重要的,因为在实际问题收稿日期:2002211218 资助项目:国家自然科学基金(10271039);973项目(2002CB312206) 作者简介:张文修(1940-),男,教授,博士生导师,中国数学会常务理事.研究方向:应用概率论,人工智能的数学基础等;米据生(1966-),男,副教授,博士生.研究方向:人工智能的数学基础,粗糙集与随机集;吴伟志(1964-),男,副教授,博士生.研究方向:人工智能的数学基础,粗糙集与随机集

粗糙集理论介绍(对于初学者来说,很经典的滴)

粗糙集理论介绍面对日益增长的数据库，人们将如何从这些浩瀚的数据中找出有用的知识？我们如何将所学到的知识去粗取精？什么是对事物的粗线条描述什么是细线条描述？粗糙集合论回答了上面的这些问题。要想了解粗糙集合论的思想，我们先要了解一下什么叫做知识？假设有8个积木构成了一个集合A，我们记：A={x1,x2,x3,x4,x5,x6,x7,x8}，每个积木块都有颜色属性，按照颜色的不同，我们能够把这堆积木分成R1={红，黄，兰}三个大类，那么所有红颜色的积木构成集合X1={x1,x2,x6}，黄颜色的积木构成集合X2={x3,x4}，兰颜色的积木是：X3={x5,x7,x8}。按照颜色这个属性我们就把积木集合A进行了一个划分(所谓A的划分就是指对于A中的任意一个元素必然属于且仅属于一个分类），那么我们就说颜色属性就是一种知识。在这个例子中我们不难看到，一种对集合A的划分就对应着关于A中元素的一个知识，假如还有其他的属性，比如还有形状R2={三角,方块,圆形}，大小R3={大,中,小}，这样加上R1属性对A构成的划分分别为：A/R1={X1,X2,X3}={{x1,x2,x6},{x3,x4},{x5,x7,x8}} （颜色分类）A/R2={Y1,Y2,Y3}={{x1,x2},{x5,x8},{x3,x4,x6,x7}} （形状分类）A/R3={Z1,Z2,Z3}={{x1,x2,x5},{x6,x8},{x3,x4,x7}} （大小分类）上面这些所有的分类合在一起就形成了一个基本的知识库。那么这个基本知识库能表示什么概念呢？除了红的{x1,x2,x6}、大的{x1,x2,x5}、三角形的{x1,x2}这样的概念以外还可以表达例如大的且是三角形的{x1,x2,x5}∩{x1,x2}={x1,x2}，大三角{x1,x2,x5}∩{x1,x2}={x1,x2}，兰色的小的圆形({x5,x7,x8}∩{x3,x4,x7}∩{x3,x4,x6,x7}={x7}，兰色的或者中的积木{x5,x7,x8}∪{x6,x8}={x5,x6,x7,x8}。而类似这样的概念可以通过求交运算得到，比如X1与Y1的交就表示红色的三角。所有的这些能够用交、并表示的概念以及加上上面的三个基本知识(A/R1,A/R2.A/R3)一起就构成了一个知识系统记为R=R1∩R2∩R3，它所决定的所有知识是A/R={{x1,x2},{x3},{x4},{x5},{x6},{x7},{x8}}以及A/R中集合的并。下面考虑近似这个概念。假设给定了一个A上的子集合X={x2,x5,x7}，那么用我们的知识库中的知识应该怎样描述它呢？红色的三角？****的大圆？都不是，无论是单属性知识还是由几个知识进行交、并运算合成的知识，都不能得到这个新的集合X，于是我们只好用我们已有的知识去近似它。也就是在所有的现有知识里面找出跟他最像的两个一个作为下近似，一个作为上近似。于是我们选择了“兰色的大方块或者兰色的小圆形”这个概念：{x5,x7}作为X的下近似。选择“三角形或者兰色的”{x1,x2,x5,x7,x8}作为它的上近似，值得注意的是，下近似集是在那些所有的包含于X的知识库中的集合中求并得到的，而上近似则是将那些包含X的知识库中的集合求并得到的。一般的，我们可以用下面的图来表示上、下近似的概念。这其中曲线围的区域是X的区域，蓝色的内部方框是内部参考消息，是下近似，绿的是边界加上蓝色的部分就是上近似集。其中各个小方块可以被看成是论域上的知识系统所构成的所有划分。整个粗集理论的核心就是上面说的有关知识、集合的划分、近似集合等等概念。下面我们讨论一下关于粗糙集在数据库中数据挖掘的应用问题。考虑一个数据库中的二维表如下：元素颜色形状大小稳定性 x1 红三角大稳定 x2 红三角大稳定 x3 黄圆小不稳定 x4 黄圆小不稳定 x5 兰方块大稳定 x6 红圆中不稳定 x7 兰圆小不稳定 x8 兰方块中不稳定可以看出，这个表就是上面的那个例子的二维表格体现，而最后一列是我们的决策属性，也就是说评价什么样的积木稳定。这个表中的每一行表示了类似这样的信息：红色的大三角积木稳定，****的小圆形不稳定等等。我们可以把所有的记录看成是论域A={x1,x2,x3,x4,x5,x6,x7,x8}，任意一个列表示一个属性构成了对论域的元素上的一个划分，在划分的每一个类中都具有相同的属性。而属性可以分成两大类，一类叫做条件属性：颜色、形状、大小都是，另一类叫做决策属性：最后一列的是否稳定？下面我们考虑，对于决策属性来说是否所有的条件属性都是有用的呢？考虑所有决策属性是“稳定”的集合

粗糙集理论分析及其应用研究

1、前言随着信息技术的飞速发展和广泛应用，面对信息系统中不完整、不精确或不确定的数据如何有效分析处理？如何发现隐藏在信息系统中的有用知识和潜在的规律？为了解决这些问题，学术界和研究者们采用了粗糙集理论。粗糙集理论是由波兰数学家 Z.Pawlak 在1982年提出的[1]，它是一种分析处理不完整性、不精确性、不确定性知识的数学工具。该理论不需要任何初始或附加信息，直接利用已知的知识库，将知识库中的不确定或不精确的知识进行近似的划分，并对所划分的知识域确定其支持程度。目前，该理论已成为信息科学和认识科学领域的研究热点之一，随着研究的深入，该理论得到了很大的发展和壮大，并已成功应用于人工智能、模式识别与分类、知识发现与决策分析、专家系统、数据挖掘、故障检测、金融、医学、生物学等领域。 2、粗糙集的基本理论定义粗糙集理论是一种研究不完整、不确定性知识的数学工具[2]。在信息系统中，对知识的理解和表示是人们首先思考的问题，同时也是比较难解决的问题，从目前研究来看，对这些问题的解决，粗糙集理论和技术是比较理想的方法。定义1：（信息系统）设一个信息系统[3]S＝（U，A，V，f）,这里，粗糙集理论分析及其应用研究覃宝灵（佛山科学技术学院信息与教育技术中心广东佛山 528000）摘要：本文阐述粗糙集理论的基本概念，探讨粗糙集理论中知识约简和规则提取的重要性，通过分析、比较，把这些理论和技术应用于实际中，取得了显著的效果，对其在信息系统中的应用具有一定的研究价值。关键词：粗糙集；知识约简；规则提取；遗传算法 ①U是对象的非空有限集合，即称为论域，记为：U＝{x 1,x 2,…,x n }； ②A是属性的非空有限集合，记为：A＝{A 1，A 2，…，A m }； ③V是属性的值域集，记为：V＝{V 1，V 2，…，V m }，且V i 是属性A i 的值域； ④f是信息函数，即f：U×A→V，f(x i ,A j )∈V j 。在信息系统中，若属性集合Ａ由条件属性集合Ｃ和决策属性集合Ｄ组成，且Ｃ∪Ｄ＝Ａ，Ｃ∩Ｄ＝Ф，则称Ｓ为决策系统，又称决策表。定义２：（等价关系）设知识表示系统S=(U,A ,V,f),若属性集合时,称P的不可分辨关系Ind(P) 是U上的等价关系，其中Ind(P)={(x，y)∈U × U |，f(x,a)= f(y,a)}。由Ind(P)导出的所有等价类集合记为U／P，它构成了论域的一个划分，含有元素x的等价类,记为[x]p 。定义3：（下近似、上近似、边界域）设是一个集合，R是一个定义在U上的等价关系。有： ①若R一(X)=U{Y∈U／R：Y∈X}，则称R一(X)为X的R下近似集； ②若R一(X)=U{Y∈U／R：Y∩X≠Ф}，则称R一(X)为X的R上近似集； ③若R(X)=R一(X)一R一(X)，则称R(X)为集合X的边界域。若R(X)是空集，则称集合X关于集合R是清晰的；反之，称集合X为关于集合R的粗糙集。定义4：设R是一族等价关系，且{R}∈R，若

粗糙集理论及其应用与发展研究

Computer Knowledge And Technology电脑知识与技术2008年第4卷第1期（总第28期）粗糙集理论及其应用与发展研究韦良（同济大学电子与信息工程学院，上海201804）摘要：粗糙集理论是一种研究不精确、不确定性、处理不完备知识的数学工具，目前被广泛应用于人工智能、模式识别、机器学习、决策支持和数据挖掘等领域。该文通过介绍粗糙集理论及特点，叙述了粗糙集理论在各领域的应用发展情况，并且展望了其未来发展趋势。关键词：粗糙集；属性约简；粗糙集应用；数据挖掘中图分类号：TP18文献标识码：A文章编号：1009-3044(2008)28-0172-03 Rough Set Theory and Its Application Research WEI Liang (Electronics and Information School,Tongji University,Shanghai201804,China) Abstract:Rough set theory is a math theory which processes non-accurate,uncertain and incomplete knowledge.Currently,it has already been applied successfully in the area of Artificial Intelligence,Pattern Recognition,Machine Learning,Decision Analyzing and Data Mining etc.This paper introduces the rough set theory and its characteristics,reviews the development of this theory in different fields,and suggests evolutional trend in the coming future. Key words:rough set;attribute reduction;rough set application;data mining 1引言波兰数学家Pawlak于1982年提出的粗糙集理论是一种新的处理模糊和不确定性知识的数学工具[1]。其主要思想就是在保持分类能力不变的前提下，通过知识约简，导出问题的决策或分类规则。粗糙集理论能有效地分析和处理不精确、不一致和不完整等各种不完备信息，并从中发现隐含的知识，揭示潜在的规律。以粗糙集理论为基本框架的知识发现过程的研究，越来越引起人们的关注，特别是将粗糙集理论与机器学习、模式识别、数据库理论等相结合，并融合其它有效的数学工具与方法的研究，显示出基于粗糙集理论的多种软计算方法相结合算法在知识发现和优化过程中的强大的优越性，为知识发现的理论基础提供了一定的依据。目前粗糙集理论已成为人工智能领域中一个较新的学术热点，引起了越来越多科研人员的关注。 2粗糙集理论的基本概念设U是非空有限论域，R是U上的二元等价关系，R称为不可分辨关系，序对A=(U,R)称为近似空间。坌(x,y)∈U×U，若(x,y)∈R，则称对象x与y在近似空间A中是不可分辨的。U/R是U上由R生成的等价类全体，它构成了U的一个划分。可以证明，U上划分可以与U上的二元等价关系之间建立一一对应。U/R中的集合称为基本集或原子集。若将U中的集合称为概念或表示知识，则A= (U,R)称为知识库，原子集表示基本概念或知识模块。任意有限的基本集的并和空集均称为可定义集，否则称为不可定义的。可定义集也称为精确集，它可以在知识库中被精确地定义或描述，可表示已知的知识。可以验证所有可定义集全体可构成U上的一个拓扑。令知识库K=(U,R)，集合X哿U，R是一个等价关系：分别称RX为X的R下近似（Lower Approximation）和RX为X的R上近似（Upper Approximation）。称集合BN R(X)=RX-RX为X 的R边界域；POS R(X)RX为X的R正域；NEG R(X)=U-RX为X的R负域。下近似RX包含了所有使用知识R可确切分类到概念X的元素。上近似 RX则包含了所有那些可能是属于概念X的元素。概念的边界区域BN R(X) 由不能肯定分类到这个概念X或其补集X中的所有元素组成。关系如图1 所示。刻画粗糙集的方法有以下两种：一种是用表示近似精度的数值表示粗糙集的数字特征；数字特征表示粗糙集边界域的相对大小，但没有说明边界域的结构。另一种是用粗糙集的拓扑分类表示粗糙集的拓扑特征。拓扑特征给出边界域的结构信息，但没有给出边界域大小的信息。由等价关系R定义的集合X的近似精度如下：收稿日期：2008-07-03 作者简介：韦良（1982-），男（朝鲜族），黑龙江牡丹江人，在读硕士研究生，研究方向：数据挖掘，人工智能，粗糙集应用。图1概念的上近似、下近似和区域表示 ISSN1009-3044 Computer Knowledge And Technology电脑知识与技术 Vol.4,No.1,October2008,pp.172-174 E-mail:eduf@https://www.360docs.net/doc/053413970.html, https://www.360docs.net/doc/053413970.html, Tel:+86-551-56909635690964 172 本栏目责任编辑：唐一东人工智能及识别技术

粗糙集理论与应用发展

粗糙集理论与应用发展 1、引言粗糙集( roughs ets,RS)理论是20世纪80年代初由波兰科学家Pawlak提出的[1]。其主思想就是在保持分类能力不变的前提下，通过知识约简，导出概念的分类规则。它从一个新的角度将知识定义为对论域的划分能力，并将其引入数学中的等价关系来进行讨论，从而为数据分析，特别是不精确、不完整数据分析提供了一套新的数学方法。同时，粗糙集理论具有无需提供除问题所需处理的数据集合之外的任何先验信息，仅根据观测数据删除冗余信息，比较不完整知识的程度—粗糙度、属性间的依赖性与重要性，抽取分类规则等的能力。近几年，这个理论已得到空前的发展，无论在理论本身研究方面，还是在理论应用方面都取得了令人瞩目的成果。 2、粗糙集理论简介粗糙集理论是建立在分类机制的基础之上的，不可区分关系的概念是粗糙集理论的基础。信息系统S由论域U和等价关系集A构成，表示成S=(U,A)，不可区分关系ind(A)是信息系统S上的一个等价关系，它是A上全部等价关系的交集。信息系统S所表示的知识可理解为*对论域U划分的结果。不可区分关系的等价类构成了信息系统表示的知识的最小粒度，这个粒度内的对象不可区分。正是由于知识的粒度性，造成使用已有知识不能精确地表示某些概念。为此，在不可区分关系基础上定义了上下近似，使粗糙集理论能够有效地逼近这些概念。令XCU是论域上对象的一个集合，BCA是一族等价关系，CXIs表示元素x在B 下的等价类，则B( X )二 {xEU}Cxls(=X)B( X) 二

基于模糊粗糙集的系统连续变量离散化方法

万方数据

基于模糊粗糙集的系统连续变量离散化方法作者：张化光，徐悦，孙秋野， ZHANG Hua-guang， XU Yue， SUN Qiu-ye 作者单位：张化光,ZHANG Hua-guang(东北大学,流程工业综合自动化教育部重点实验室,辽宁,沈阳,110004;东北大学,信息科学与工程学院,辽宁,沈阳,110004)，徐悦,孙秋野,XU Yue,SUN Qiu-ye(东北大学,信息科学与工程学院,辽宁,沈阳,110004) 刊名：东北大学学报（自然科学版）英文刊名：JOURNAL OF NORTHEASTERN UNIVERSITY(NATURAL SCIENCE) 年，卷(期)：2008，29(1) 被引用次数：4次参考文献(10条) 1.Pawlak Z Rough sets 1982(05) 2.Han J W.Kamber M Data Mining:concepts and techniques 2001 3.Nguyen H S Discretization of real value attributes:boolean reasoning approach 1997 4.Nyuyen H S.Skowron A Boolean reasoning for feature extraction problems 1997 5.Nyuyen S H.Skowron A Quantization of real value attributes-rough set and boolean reasoning approach 1995 6.孙秋野.张化光基于粗糙集的配电系统连续信号故障诊断方法[期刊论文]-中国电机工程学报 2006(11) 7.Hu X H.Cercone N Learning in relational database:a rough set approach 1995(02) 8.吴山产.毛峰.王文渊基于粗糙集的两种离散化算法的研究[期刊论文]-计算机工程与应用 2004(26) 9.苗夺谦Rough set理论中连续性的离散化方法[期刊论文]-自动化学报 2001(03) 10.Klir G.Yuan B Fuzzy sets and fuzzy logic theory and applications 1995 相似文献(10条) 1.期刊论文李艳晓.黄士国.袁可红粗糙集连续属性的一种离散化方法-高等函授学报(自然科学版)2007(3) 文中给出了基于属性值出现的频率的连续属性离散化的一种方法.在离散化问题描述的基础上,利用属性值出现的频率确定频数候选断点,再利用边缘断点算法进一步减少断点数目,达到离散化目的.该方法提高了决策属性关于条件属性的支持度,提高了属性约简的满意度. 2.期刊论文刘静.王国胤.胡峰.LIU Jing.WANG Guo-yin.HU Feng基于断点辨别力的粗糙集离散化算法-重庆邮电大学学报（自然科学版）2010,22(2) 提出了基于断点辨别力的粗糙集离散化算法.通过分析候选断点与决策类之间的相关性,定义了候选断点对决策类的辨别力,并以此作为断点重要性的度量,实现连续属性的离散化.离散化后的决策系统不改变原有的相容性,而且能最大限度地保留有用信息.采用多组数据对此算法的性能进行了检验,并与其他算法做了对比实验.实验结果表明此算法是有效的,而且当候选断点个数增多时仍有较高的计算效率. 3.期刊论文陈昊.杨俊安.王岩.庄镇泉.CHEN Hao.YANG Jun-an.WANG Yan.ZHUANG Zhen-quan一种多值决策属性的决策系统的离散化算法-小型微型计算机系统2010,31(10) 决策系统中连续属性的离散化,即实型属性空问向整型属性空间的映射,它是对决策表中属性约简的第一步.针对多值决策属性的决策信息系统,提出一种新的属性离散化算法.首先根据决策属性的不同,将条件属性集划分为不同的序列,对每两个序列求取候选断点,最后,综合所有的候选断点即为所求的候选断点集合;然后在基于条件属性重要度和贪心算法的基础上提出一种确定结果断点子集的新启发式算法.实例验证了本文所提出的算法能够取得较理想的连续属性离散化结果. 4.期刊论文王国胤.刘静.胡峰.WANG Guo-yin.LIU Jing.HU Feng基于断点辨别力的粗糙集离散化算法-重庆邮电大学学报（自然科学版）2009,21(3) 提出了基于断点辨别力的粗糙集离散化算法.通过分析候选断点与决策类之间的相关性,定义了候选断点对决策类的辨别力,并以此作为断点重要性的度量,实现连续属性的离散化.离散化后的决策系统不改变原有的相容性,而且能最大限度地保留有用信息.采用多组数据对该算法的性能进行了检验,并与其它算法做了对比实验实验结果表明该算法是有效的,而且当候选断点个数增多时仍具有较高的计算效率. 5.期刊论文张俊明.邱东.Zhang Junming.Qiu Dong粗糙集理论中基于断点重要性的离散化方法-气象水文海洋仪器2009,26(1) 离散化是粗糙集理论中的一类重要研究课题.一个好的离散化方法能够起到简化知识的描述和便于对知识系统的处理.而求离散化的最优断点集合是一个NP难题,本文对该问题提出了一种基于断点重要性[1]的遗传算法,以最小断点集为目标,并通过增加断点集过滤器来保证所选断点既能够保持原有系统的不可分辨关系又不会引入冲突. 6.学位论文王军霞粗糙集理论中的若干方法研究与应用2006 粗糙集(RoughSet，简称RS)理论是一种全新的刻划不完整性和不确定性的数学工具。本文针对粗糙集理论的特点，从其核心问题——约简问题以及属性离散化问题两方面展开探讨。

粗糙集理论及其发展

龙源期刊网 https://www.360docs.net/doc/053413970.html, 粗糙集理论及其发展作者：张也驰来源：《管理观察》2010年第16期摘要:粗糙集理论以其出色的处理模糊和不确定知识的能力,在数据挖掘领域占据了越来越重要的地位。文章首先描述了粗糙集理论的核心思想,接着介绍了粗糙集理论在不完备信息系统领域的扩充,最后论述了粗糙集理论的应用发展以及未来的研究方向。关键词:粗糙集机器学习不完备信息系统数据挖掘 1.引言粗糙集理论[1]是由波兰数学家Z. Pawlak于20世纪80年代提出的一种新的处理不精确性和不确定性信息的数学方法。之后国内外许多学者对粗糙集理论及其应用进行了坚持不懈的研究。1991年,Pawlak出版了第一本关于粗糙集理论的专著,详细介绍了粗糙集的理论基础,它奠定了粗糙集理论的基础,但由于最初关于粗糙集理论的研究大部分是用波兰语发表的,当时并没有引起国际计算机学界和数学界的重视;1992年,在波兰Kiekrz召开了第一届国际粗糙集研讨会, 从此每年一次以粗糙集理论为主题的国际研讨会以及粗糙集学术研究会的成立,推动了国际上对粗糙集理论与应用的深入研究。1995年,Z. Pawlak概括性地介绍了粗糙集理论[2]的基本概念及其具体研究进展。我国对粗糙集理论的研究起步较晚。粗糙集理论是建立在分类机制基础上的,它将知识理解为对数据的划分,每一个被划分的集合称为概念或范畴,其主要思想是利用已有的知识库,将不精确知识用已知知识库中的知识来(近似)刻画。与其他处理不精确性和不确定性信息的理论相比,该理论的一个最主要的优点是其无需提供任何除现有知识以外的任何先验知识,从而具有相当的客观性。近年来,由于粗糙集理论在人工智能和认知科学中日益呈现出的重要性和优越性,特别是在机器学习、数据挖掘、决策分析、数据库知识发现、专家系统、决策支持系统、归纳推理和模式识别等领域,受到越来越多的研究人员的关注。 2.粗糙集理论的基本概念粗糙集理论作为一种处理模糊和不确定性知识的数学工具,其主要思想是在保持分类能力不变的前提下,经过知识约简,导出问题的决策或分类规则。即粗糙集理论是建立在不可分辨关系基础知识的,不可分辨关系构成了粗糙集理论的数学基础。 2.1 知识表达系统和决策表

粗糙集理论论文

粗糙集理论浅析粗糙集理论，是继概率论、模糊集、证据理论之后的又一个处理不确定性的数学工具。作为一种较新的软计算方法，粗糙集近年来越来越受到重视，其有效性已在许多科学与工程领域的成功应用中得到证实，是当前国际上人工智能理论及其应用领域中的研究热点之一。在很多实际系统中均不同程度地存在着不确定性因素，采集到的数据常常包含着噪声，不精确甚至不完整。一、引言粗糙集作为一种处理不精确、不确定与不完全数据的新的数学理论, 最初是由波兰数学家Z. Paw lak于1982年提出的。由于最初关于粗糙集理论的研究大部分是用波兰语发表的, 因此当时没有引起国际计算机学界和数学界的重视, 研究地域也仅局限在东欧一些国家, 直到20世纪80年代末才逐渐引起各国学者的注意。近几年来, 由于它在机器学习与知识发现、数据挖掘、决策支持与分析等方面的广泛应用, 研究逐渐趋热。1992年, 第一届关于粗糙集理论国际学术会议在波兰召开。1995年,A CM Com 2m unication 将其列为新浮现的计算机科学的研究课题。1998年, 国际信息科学杂志( Infor2m ation Sciences) 还为粗糙集理论的研究出了一期专辑。粗糙集理论是建立在分类机制的基础上的, 它将分类理解为在特定空间上的等价关系, 而等价关系构成了对该空间的划分。粗糙集理论将知识理解为对数据的划分, 每一被划分的集合称为概念。粗糙集理论的主要思想是利用已知的知识库, 将不精确或不确定的知识用已知的知识库中的知识来(近似) 刻画。该理论与其他处理不确定和不精确问题理论的最显著的区别是它无需提供问题所需处理的数据集合之外的任何先验信息, 所以对问题的不确定性的描述或处理可以说是比较客观的, 由于这个理论未能包含处理不精确或不确定原始数据的机制, 所以这个理论与概率论, 模糊数学和证据理论等其他处理不确定或不精确问题的理论有很强的互补性。二、基本概念粗糙集是一种较有前途的处理不确定性的方法，相信今后将会在更多的领域中得到应用. 但是，粗糙集理论还处在继续发展之中，正如粗糙集理论的创立人Z. Paw lak 所指出的那样，尚有一些理论上的问题需要解决，诸如用于不精确推理的粗糙逻辑（Rough logic) 方法，粗糙集理论与非标准分析（Nonstandard analysis) 和非参数化统计（Nonparametric statistics）等之间的关系等等. 将粗糙集与其它软计算方法（如模糊集，人工神经网络，遗传算法等）相综合，发挥出各自的优点，可望设计出具有较高的机器智商（M IQ) 的混合智能系统(Hybrid Intelligent System），这是一个值得努力的方向。三、粗糙集理论中的知识表示 “知识”这个概念在不同的范畴内有多种不同的含义。在粗糙集理论中，“知识”被认为是一种分类能力。人们的行为是基于分辨现实的或抽象的对象的

粗糙集理论RS

RS理论一、定义：粗糙集理论，是继概率论、模糊集、证据理论之后的又一个处理不确定性的数学工具。它是当前国际上人工智能理论及其应用领域中的研究热点之一。在自然科学、社会科学和工程技术的很多领域中，都不同程度地涉及到对不确定因素和对不完备（imperfect) 信息的处理。从实际系统中采集到的数据常常包含着噪声，不够精确甚至不完整，对这些信息进行合适地处理，常常有助于相关实际系统问题的解决。二、对比的理论：模糊集和基于概率方法的证据理论是处理不确定信息的两种方法，已应用于一些实际领域。但这些方法有时需要一些数据的附加信息或先验知识，如模糊隶属函数、基本概率指派函数和有关统计概率分布等，而这些信息有时并不容易得到。概率与统计、证据理论：理论上还难以令人信服，不能处理模糊和不完整的数据。模糊集合理论：能处理模糊类数据，但要提供隶属函数（先验知识）。 RS理论与其他处理不确定和不精确问题理论的最显著的区别是：它无需提供问题所需处理的数据集合之外的任何先验信息，所以对问题的不确定性的描述或处理可以说是比较客观的。由于这个理论未能包含处理不精确或不确定原始数据的机制，所以这个理论与概率论、模糊数学和证据理论等其他处理不确定或不精确问题的理论有很强的互补性。三、不足：粗糙集理论还处在继续发展之中，尚有一些理论上的问题需要解决，诸如用于不精确推理的粗糙逻辑（Rough logic) 方法，粗糙集理论与非标准分析（Nonstandard analysis) 和非参数化统计（Nonparametric statistics）等之间的关系等。四、由来： 1982年波兰学者Z. Paw lak 提出了粗糙集理论——它是一种刻画不完整性和不确定性的数学工具，能有效地分析不精确，不一致（inconsistent)、不完整（incomplete) 等各种不完备的信息，还可以对数据进行分析和推理，从中发现隐含的知识，揭示潜在的规律。五、特点： (1) 它能处理各种数据，包括不完整（incomplete) 的数据以及拥有众多变量的数据； (2) 它能处理数据的不精确性和模棱两可（ambiguity），包括确定性和非确定性的情况； (3) 它能求得知识的最小表达（reduct) 和知识的各种不同颗粒（granularity) 层次； (4) 它能从数据中揭示出概念简单，易于操作的模式（pattern) ; (5) 它能产生精确而又易于检查和证实的规则，特别适于智能控制中规则的自动生成. 在粗糙集理论中，“知识”被认为是一种分类能力。粗糙集理论的主要思想是利用已知的知识库，将不精确或不确定的知识用已知的知识库中的知识来（近似）刻画。它的一个重要特点是具有很强的数据定性分析能力,可直接对不完整性和不确定性的数据进行分析处理,提取有用属性,简化知识表达式。六、前景将粗糙集与其它软计算方法（如模糊集，人工神经网络，遗传算法等）相综合，发挥出各自的优点，可望设计出具有较高的机器智商（MIQ) 的混合智能系统(Hybrid Intelligent System），这是一个值得努力的方向。软计算（sof t compu t ing) 的概念是由模糊集创始人Zadeh[ 9 ]提出的. 软计算中的主要工具包括粗糙集，模糊逻辑（FL),神经网络(NN），概率推理（PR），信度网络（Belief Networks），遗传算法（GA) 与其它进化优化算法，混沌（Chaos) 理论等. 传统的计算方法即所谓的硬