改进的HyperSplit报文分类算法

————————————

基金项目基金项目：：国家“973”计划基金资助项目(2012CB315901, 2012CB315906)；国家“863”计划基金资助项目(2011AA01A103)；国家科技支撑计划基金资助项目(2011BAH19B01)

作者简介作者简介：：马腾(1987－)，男，硕士研究生，主研方向：报文分类，网络安全；陈庶樵，教授；张校辉，讲师收稿日期收稿日期：：2012-11-19 修回日期修回日期：：2013-01-22 E-mail ：123mateng321@https://www.360docs.net/doc/eb16205729.html,

改进的HyperSplit 报文分类算法

马腾，陈庶樵陈庶樵，，张校辉

(国家数字交换系统工程技术研究中心，郑州 450002)

摘要：针对现有高速、大容量、多域报文分类算法普遍存在内存使用量大的问题，提出一种改进的HyperSplit 多域报文分类算法。通过分析现有算法内存使用量大的原因，修正和设计选择分割维度与分割点、去除冗余结构的启发式算法，最大限度减少决策树中的复制规则数量，消除决策树中存在的冗余规则和冗余节点，优化决策树结构。仿真结果表明，该算法与现有多域报文分类算法相比，不依赖于规则集类型和特征，在保证内存访问次数不增加、报文得到线速处理的情况下，可降低算法的内存使用量，当规则集容量为105时，内存使用量降低到HyperSplit 算法的80%。

关键词关键词：：报文分类；规则复制；决策树；内存使用量；内存访问；冗余规则；冗余节点

Improved HyperSplit Packet Classification Algorithm

MA Teng, CHEN Shu-qiao, ZHANG Xiao-hui

(National Digital Switching System Engineering & Technology Research Center, Zhengzhou 450002, China)

【Abstract 】In order to solve the problem of too much memory usage in existing work for high speed large volume multi-field packet classification, an improved HyperSplit algorithm is proposed. By analyzing the cause of too much memory usage, the heuristic algorithms are modified and designed to choose the cutting points and dimensions and eliminate redundancy. Rule replication is greatly reduced, redundant rules and nodes are removed, and the decision tree’s structure is optimized. Simulation results demonstrate that compared with the existing work, independent of rule base’s type and characteristic, the algorithm can greatly reduce memory usage without increasing the number of memory accesses and ensure that packets can be processed at wire speed, and when the volume of classifier is 105, the algorithm consumes about 80% memory usage as that of HyperSplit.

【Key words 】packet classification; rule replication; decision tree; memory usage amount; memory access; redundant rule; redundant node DOI: 10.3969/j.issn.1000-3428.2014.01.055

计算机工程 Computer Engineering 第40卷第1期 V ol.40 No.1 2014年1月

January 2014

·开发研究与工程应用开发研究与工程应用·· 文章编号文章编号：：1000—3428(2014)01—0258—05 文献标识码文献标识码：：A

中图分类号中图分类号：：TP301.6

1 概述

报文分类作为防火墙、入侵检测、QoS 、虚拟专用网、流量计费等网络应用领域的关键技术，正面临前所未有的挑战。新的网络应用不断出现，导致报文分类规则出现新的特征：规则集规模增大，规则维数增加，范围规则大量出现。诸如路由器等网络转发和交换设备必须提供更强的报文分类处理能力：线速处理报文，算法的内存消耗足够小。

目前基于三态内容可寻址存储器(Ternary Content Addressable Memory, TCAM)或现场可编程门阵列(Field Programmable Gate Array, FPGA)的报文分类算法[1]大多满足线速处理报文的需求，但是内存消耗巨大的问题依然存在，加上硬件资源受限，使得解决高速网络、复杂规则环境下的多域报文分类问题愈加困难。

对收到的报文，提取其头部相关域的数值，与规则集中的规则进行查询匹配，得到最佳匹配规则，按照规则对应的动作处理该报文，这就是报文分类的过程。在至今已经提出的报文分类算法中，基于TCAM 的相关算法不宜处理范围规则[2-4]，而基于决策树的报文分类算法在多个方面可扩展性强，且树型结构可映射成深度流水线运行于FPGA 平台以实现报文线速处理，成为高速、大容量、多域报文分类算法研究的热点。

由于规则相互交迭，这类算法在预处理阶段构建决策树时，不可避免出现规则复制(一条规则在同一节点的多个子节点出现)的情况，加上树型结构的冗余，带来严重的存储空间消耗，不利于硬件实现。虽然各种算法采取了一系列启发式算法处理这些弊端，一定程度上降低了算法内存使用量，但效果不够理想。因此，本文提出从根本上最大限度地减少规则复制，去除冗余，优化决策树结构。

关联规则挖掘算法的研究

Ｖｏｌ．２９Ｎｏ．１Ｊａｎ．２０１３赤峰学院学报（自然科学版）ＪｏｕｒｎａｌｏｆＣｈｉｆｅｎｇＵｎｉｖｅｒｓｉｔｙ（ＮａｔｕｒａｌＳｃｉｅｎｃｅＥｄｉｔｉｏｎ）第29卷第1期（下） 2013年1月关联规则挖掘算法的研究目前是数据挖掘领域的一个重要方向，其中，Ａｐｒｉｏｒｉ算法就是一个经典的挖掘关联规则算法．１９９３年，Ａｇｒａｗａｌ等提出关联规则挖掘的相关概念，随后提出经典Ａｐｒｉｏｒｉ算法，它是一个采用两阶段挖掘思想的算法，且多次扫描事务数据库，直到寻找出给定数据集中数据项之间有趣的关联规则．1关联规则基本概念１．１关联规则关联规则是形如Ａ圯Ｂ的蕴含式，在关联规则中，有两个重要的概念：支持度和置信度．支持度是对关联规则的重要性的衡量，置信度是对关联规则的准确度的衡量，一般情况下，用户根据实际挖掘需要，预先给定最小支持度和最小置信度，通常情况下，如果规则的置信度和支持度大于用户指定的最小置信度和支持度，那么这个规则就是一条有效规则．事实上，有效规则并不一定具有实用性，还要参照关联规则的其他指标．定义1 设Ｉ＝｛Ｉ１，Ｉ２，…，ＩＭ｝是数据项的集合，Ｄ是全体事务的集合，一个事务Ｔ有一个唯一的标识ＴＩＤ．如果项集Ａ哿Ｔ，则称事务Ｔ支持项集Ａ，也称事务Ｔ包含项集Ａ．定义2 关联规则是形如Ａ圯Ｂ的蕴含式，其中Ａ奂Ｉ，Ｂ奂Ｉ，且Ａ∩Ｂ＝Φ．定义3 事务数据库Ｄ中有Ｎ条交易事务，关联规则Ａ圯Ｂ的支持度定义为：ｓｕｐｐｏｒｔ（Ａ圯Ｂ）＝ｓｕｐｐｏｒｔ（Ａ∪Ｂ）×１００％．定义4 置信度定义为：ｃｏｎｆｉｄｅｎｃｅ（Ａ圯Ｂ）＝ｓｕｐｐｏｒｔ（Ａ∪Ｂ）×１００％．引理1 在数据库中若有一事务Ｔ其长度小于Ｋ＋１，则由Ｋ项频繁集生成Ｋ＋１项频繁集时，事务Ｔ是没必要扫描的．１．２Ａｐｒｉｏｒｉ算法的基本思想Ａｐｒｉｏｒｉ算法是发现关联规则的经典算法．该算法分两个步骤发现关联规则：第一步通过迭代，找出事务数据库中的所有频繁项集，即支持度不低于最小支持度的项集；第二步利用频繁项集构造出满足用户最小可信度的规则．2 Apriori 算法的不足之处Ａｐｒｉｏｒｉ算法最大的优点是算法思路比较简单，它以递归统计为基础，生成频繁项集，易于实现．Ａｐｒｉｏｒｉ算法虽然能够从海量数据中挖掘出关联规则，但是算法在执行速度和效率上有一定的局限性，表现如下：２．１Ａｐｒｉｏｒｉ算法会产生大量的候选项集．该算法是由候选集函数Ａｐｒｉｏｒｉ－Ｇｅｎ利用Ｌｋ－１项产生候选项集Ｃｋ，所产生的Ｃｋ由ＣｋＬｋ－１项集组成．显然ｋ越大产生的候选项集的数目就越多．２．２Ｉ／Ｏ负载过大．Ａｐｒｉｏｒｉ算法需要多次扫描事务数据库，需要很大的Ｉ／Ｏ负载．对每次ｋ循环，候集Ｃｋ中的每个元素都必须扫描数据库１次来决定其是否加入Ｃｋ．例如，一个频繁大项目集包含１２个项，那么就至少扫描事务数据库１２遍．3 对Apriori 算法的改进算法改进的思路１．改变数据的存储结构，用二进制位存储各项目的事务集，矩阵的列代表频繁Ｋ－项集，矩阵的行代表事务，其中１表示该项目在某事务中出现，０表示该项目在某事务中没有出现．２．生成频繁１－项集．首先扫描源数据库，生成矩阵．统计每列中包含１的数目，得到该项目的支持事务数，如果该项的支持事务数大于最小支持事务数，则该项是频繁项集，否则是非频繁项集．从矩阵中将该列删除，并根据引理１，在矩阵中删除第９行，得出频繁１－项集．３．由频繁１－项集生成频繁２－项集．对频繁１－项集中的项两两连接得出候选２－项集，也就是对矩阵中第ｉ列所代表的项集和第ｊ列所代表的项集进行逻辑与操作．然后计关联规则挖掘算法的研究张丽（湖南文理学院经济与管理学院，湖南常德415000）摘要：本文介绍了数据挖掘中的关联规则经典Ap r i or i 算法.针对Ap r i or i 算法在执行速度和效率上的缺点，提出了一种改进的Ap r i or i 算法. 关键词：Ap r i or i ；算法；关联规则中图分类号：ＴＰ３１１文献标识码：Ａ文章编号：１６７３－２６０Ｘ（２０１３）０１－００２２－０２基金项目：湖南文理学院2010年度青年启动课题（QNQD1017）２２－－

数据挖掘试卷一

数据挖掘整理（熊熊整理-----献给梦中的天涯）单选题 1．下面哪种分类方法是属于神经网络学习算法？（） A. 判定树归纳 B. 贝叶斯分类 C. 后向传播分类 D. 基于案例的推理 2．置信度(confidence)是衡量兴趣度度量（ A ）的指标。 A、简洁性 B、确定性 C.、实用性 D、新颖性 3．用户有一种感兴趣的模式并且希望在数据集中找到相似的模式，属于数据挖掘哪一类任务？(A) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 4．数据归约的目的是（） A、填补数据种的空缺值 B、集成多个数据源的数据 C、得到数据集的压缩表示 D、规范化数据 5．下面哪种数据预处理技术可以用来平滑数据，消除数据噪声？ A.数据清理 B.数据集成 C.数据变换 D.数据归约 6．假设12个销售价格记录组已经排序如下：5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频（等深）划分时，15在第几个箱子内？(B) A 第一个 B 第二个 C 第三个 D 第四个 7．下面的数据操作中，（）操作不是多维数据模型上的OLAP操作。 A、上卷(roll-up) B、选择(select) C、切片(slice) D、转轴(pivot) 8．关于OLAP和OLTP的区别描述,不正确的是: (C) A. OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同. B. 与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务. C. OLAP的特点在于事务量大,但事务内容比较简单且重复率高. D. OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的 9．下列哪个描述是正确的？（） A、分类和聚类都是有指导的学习 B、分类和聚类都是无指导的学习

教育研究方法分类

教育研究方法分类浅谈新课程改革的重要性进入21世纪的今天，全球一体化进程不断加快，科学技术日新月异，对人才的要求也不断提高了，培养21世纪合格的中国公民成为了我们育人的方向。21世纪合格的中国公民应具备的基本素质包括要有历史使命感、社会责任感、人文主义精神、健全的人格、开放的世界意识。要培养新时期新形势下国家需要的新人才，按照传统的教育模式，老师一味灌、，学生机械的记，学生缺乏自主性、创新性，显然不利于新型人才的培养。因此，新时期呼唤新人才，新人才的培养呼唤新的教育理念、教育模式，这就要求必须进行教育改革。必须顺应历史发展的潮流，切实转变教学观念，以提高我国国民的整体素质和人文素养。新课程进入到学校操作层面，所遭遇的许多问题往往令教师对先前接受的理论产生困惑甚至怀疑。这当中固然有教师在理论上的误读和实践上偏离的问题，但是，理论的适切性与指导力也是我们应当关注的一个重要问题。今天的实践已经无法回避许多与理论有关的认识问题，如在以人为本的教育理念下如何认识学生个性发展与国家定向培养的矛盾，在建构主义教育理论下如何认识教师在课堂教学中的主导作用，等等。尽管理论工作者对这些问题都已经注意到并有了一些研究，但就现有的理论研究成果而言，一线的实践者多少感到有些单薄、有些苍白，一些课程理论因为较少涉及现实的教学实践活动及其客观存在的

特点，依然停留在思辨的层面。所以，我们仍期待更具针对性和指导力理论的出现。新课程理论充分借鉴了各国先进的教育理念与课程理论。尽管我们反对以“国情不同”为由拒绝对国外先进理论的传播与吸纳，但来自国外的教育理论毕竟有其生成和发展的特定环境。对理论的把握离不开对环境的认识，在引进理论的时候，要注意与中国的基本国情相适应。理论有其超越环境的共性部分，这是我们要吸收的东西；也有依赖于环境、体现个性的部分，这就需要我们从实际出发，进行必要的修正。同时，要全面地看待这些引进的国外理论，不仅要了解其成功的方面，也要认识到它们在本土的实践中遇到的各种问题和遭到的各种批判，不能忽视对问题的呈现和对局限性的剖析。在传播理论的过程中，要用理论来分析、解释实践中出现的问题，不能重传播、轻应用，我们要欢迎教育理论在重建中的百花齐放、百家争鸣。不同的观察问题的视角，多维度全方位的理论研究，对新课程的健康推进无疑是大有裨益的。第一：我们渴望理论对实践有及时的观照与呼应，我们在艰难推进新课程的时候更需要专家的支持和指导。课程改革的理论工作者需要更多地深入一线，和教师们一起，分享改革的快乐，体验改革的阵痛，发现改革的问题，破解改革的疑难。对实践中具体案例的生动剖析远比简单的传播或是粗暴的批评更能令实践者心服口服，更能显出理论的功效与威力。适应中国国情、具有中国特色的课程理论只有在新课程改革的实践中才能逐步建立起来，我

教育研究方法分类模拟3

教育研究方法分类模拟3 一、单项选择题 1. 将教育研究分为教育价值研究与教育事实研究的维度是______。 A.教育研究对象及其任务 B.教育研究目的 C.教育研究范式 D.教育研究旨趣答案：A [解答] 本题考查的是教育研究的类型。对教育研究类型的划分，主要有三个维度：①根据教育研究对象及任务，将教育研究分为教育价值研究、教育事实研究。其中教育价值研究是一种应然研究，揭示的是“为什么”和“如何做”的问题；教育事实研究是一种实然的研究，主要揭示“是什么”的问题。②根据教育研究的目的不同，将教育研究分为基础研究和应用研究。③根据教育研究范式不同，将教育研究分为定量研究和定性研究。D项是干扰项。因此，正确答案为A。 2. 将教育研究分为基础研究和应用研究的分类维度是______。 A.教育研究对象及其任务 B.教育研究目的 C.教育研究范式 D.教育研究旨趣答案：B [解答] 本题考查的是教育研究的类型。对教育研究类型的划分，主要有三个维度：①根据教育研究对象及任务，将教育研究分为教育价值研究、教育事实研究。②根据教育研究的目的不同，将教育研究分为基础研究和应用研究。其中基础研究旨在揭示教育现象的一般规律，建立具有普遍性的理论，增进人类知识；应用研究旨在寻找解决实际问题的方法或途径。应用研究常常依据基础研究的成果进行探讨，而应用研究的成果也有助于完善基础研究。③根据教育研究范式不同，将教育研究分为定量研究和定性研究。D项是干扰项。因此，正确答案为B。

3. 同基础研究相比，应用研究______。 A.以抽象、一般为特征 B.强调可行性 C.探讨更为周密的研究的可能 D.把研究过程中的情况描述下来答案：B [解答] 本题考查的是基础研究、应用研究的特点。基础性研究以抽象、一般为特征，目的是揭示、描述、揭示某些现象和过程，其结果与应用无关；应用研究以具体、特殊为特征，对基础性研究的成果作进一步的验证，应用研究的可行性较强。而探讨更为周密的研究的可能是探索性研究的特点之一。把研究过程中的情况描述下来是描述性研究。因此，正确答案为B。 4. 下列不属于质性研究通常运用的方法的是______。 A.开放式访谈 B.参与观察 C.个案调查 D.实验研究答案：D [解答] 本题考查的是质性研究。质性研究(或质的研究)通常是指在自然环境下，运用现场实验、开放式访谈、参与观察和个案调查等方法，对所研究的现象进行长期深入、细致的分析，在此基础上建立假设和理论，并通过证伪、相关检验等方法对研究结果加以检验的一种研究范式。在研究目的上，定性研究重视描述与揭示，以揭示教育现象或行为的“意义”为主；在研究角度上，注重从整体上把握现象；在分析方式上，以归纳法为主，倾向于对研究结果进行归纳分析；在角色上，研究者在当时当地收集第一手资料，从当事人的视角来理解他们言行的意义和对事物的看法，研究者就是参与者。实验研究按实验进行的场所可以分为实验室实验、自然实验。因此，正确答案为D。 5. 任何一种教育研究方法的选用都应遵循其内在的规定和基本的原则。在教育研究过程中，我们必须按程序和要求去研究客观现实，不能随意更改和省略。这一教育研究所遵循的原则是______。 A.可行性原则 B.客观性原则

数据挖掘常用的方法

数据挖掘常用的方法在大数据时代，数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程，也是一种决策支持过程。其主要基于人工智能，机器学习，模式学习，统计学等。通过对大数据高度自动化地分析，做出归纳性的推理，从中挖掘出潜在的模式，可以帮助企业、商家、用户调整市场政策、减少风险、理性面对市场，并做出正确的决策。目前，在很多领域尤其是在商业领域如银行、电信、电商等，数据挖掘可以解决很多问题，包括市场营销策略制定、背景分析、企业管理危机等。大数据的挖掘常用的方法有分类、回归分析、聚类、关联规则、神经网络方法、Web 数据挖掘等。这些方法从不同的角度对数据进行挖掘。 (1)分类。分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类，其目的是通过分类模型，将数据库中的数据项映射到摸个给定的类别中。可以应用到涉及到应用分类、趋势预测中，如淘宝商铺将用户在一段时间内的购买情况划分成不同的类，根据情况向用户推荐关联类的商品，从而增加商铺的销售量。 (2)回归分析。回归分析反映了数据库中数据的属性值的特性，通过函数表达数据映射的关系来发现属性值之间的依赖关系。它可以应用到对数据序列的预测及相关关系的研究中去。在市场营销中，回归分析可以被应用到各个方面。如通过对本季度销售的回归分析，对下一季度的销售趋势作出预测并做出针对性的营销改变。 (3)聚类。聚类类似于分类，但与分类的目的不同，是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大，但不同类别之间数据的相似性很小，跨类的数据关联性很低。 (4)关联规则。关联规则是隐藏在数据项之间的关联或相互关系，即可以根据一个数据项的出现推导出其他数据项的出现。关联规则的挖掘过程主要包括两个阶段：第一阶段为从海量原始数据中找出所有的高频项目组;第二极端为从这些高频项目组产生关联规则。关联规则挖掘技术已经被广泛应用于金融行业企业中用以预测客户的需求，各银行在自己的ATM 机上通过捆绑客户可能感兴趣的信息供用户了解并获取相应信息来改善自身的营销。 (5)神经网络方法。神经网络作为一种先进的人工智能技术，因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的以及那些以模糊、不完整、不严密的知识或数据为特征的处理问题，它的这一特点十分适合解决数据挖掘的问题。典型的神经网络模型主要分为三大类：第一类是以用于分类预测和模式识别的前馈式神经网络模型，其主要代表为函数型网络、感知机;第二类是用于联想记忆和优化算法的反馈式神经网络模型，以Hopfield 的离散模型和连续模型为代表。第三类是用于聚类的自组

教育研究方法

教育科学研究法主讲教师：陈伙平参考书目 1、叶澜.教育研究方法论初探【M 】.上海教育出版社，1999 2、裴娣娜.教育研究方法导论【M 】.安徽教育出版社，1995 3、威廉·维尔斯曼（美），袁振国等译.教育研究方法导论【M 】.教育科学出版社，1997 4、陈伙平.教育科学研究方法与原理【M 】.福建科学与技术出版社，2007 5、林焕章等.教育科研操作指南【M 】.国际文化出版社，2000 一、基本理论（一）科学与教育科学 1.科学 2.教育科学（二）科学研究与教育科学研究 1.科学研究 2.教育科学研究 ①教育科学研究对象及其特点研究对象——教育问题研究问题的特点 A.复杂性：一果多因；一因多果；亦因亦果理论中的两难：实践中的两难：个人本位与社会本位；自由与纪律。理论与实践的脱节造成的两难：新课改的理念与实际操作的不一致；打孩子。 D.整合性与扩散性 ②教育科学研究的基本原则 A.客观性原则 B.操作性原则 C.系统性原则 D.公共性原则 E.检验性原则 a.理论中两难B.两难性 b.实践中两难 c.理论与实践脱节造成的两难 ì????í?????：：孔子：性相近，习相远人性论孟子性善论荀子性恶论ì????í?????：：：朱熹知先行后知行观王夫之行先知后王守仁知行合一ì????í?????a.时间上的开放C.开放性 b.空间上的开放 ì??í???

③教育科学研究分类（三）科学研究方法与教育科学研究方法 1.科学研究方法 ①含义：包括方法论与具体的研究方法。方法论与具体研究方法的联系与区别。 ②非科学方法 A.根据权威的解释 B.直觉判断 C.奠基在纯理论假设基础上的逻辑推理 2.教育科学研究方法 ①以方法论为基础二、教育科学研究的方向与态度（一）方向——“四个坚持” （二）态度——实事求是三、教育科学研究的重要意义 1.科学教育呼唤科学研究 2.当今中国教育需要教育科研五个需要第二章选题与抽样一、选题（一）选题的重要性提出课题比解决课题更困难实践证明：选题恰当，研究成果容易得到认可基础研究A.根据研究目的应用研究 ì??í???定性研究B.根据研究方法定量研究ì??í???教育事实研究C.根据研究问题的性质教育价值研究 ì??í???个案研究D.根据研究对象的数量成组研究ì??í???宏观研究E.根据研究问题的大小微观研究 ì??í??? ② A.实践第一树立三个正确观点 B.辩证发展C.系统整体 ì????í????? ③ A.方法论方法体系 B.具体方法C.辅助性技术 ì????í?????

三种包分类算法的实现 SX1116090

简单实现包分类算法概要包分类是VPNs、下一代路由器、防火墙等设备的关键技术。包分类算法研究具有十分重要的意义，是目前的热点之一。本文介绍了常用的包分类算法，分析了它们的优缺点，并简单实现线性、Hicuts 和Hypercut三种基本算法，对这三种算法进行性能对比。

一、包分类算法背景路由器的主要功能是将一个网络的IP数据报（包）Packet转发到另一个网络。传统路由器仅根据数据包的目的地址对数据包进行转发，提供未加区分的尽力服务(Best Effort Service)，这是一维报文分类的典型形式：对所有的用户报文一视同仁的处理。但是，随着因特网规模的不断扩大和应用技术的进步，越来越多的业务需要对数据包进行快速有效的分类以便区别处理提供不同级别的服务，因此路由器还需要对数据包进行进一步的处理。最常见的是根据安全性需要，对包进行过滤，阻止有安全隐患的数据包通过。因此，研究高速包分类算法具有十分重要的意义。因特网是由许许多多的主机及连接这些主机的网络组成，主机间通过TCP ／IP协议交换数据包。数据包从一个主机穿过网络到达另一个主机，其中就需要路由器提供数据包转发服务。近年来，因特网己经从主要连接教育机构的低速网络迅速成为重要的商业基础设施。现在，因特网正呈现两方面的新变化：一方面，因特网上的用户正在呈现爆炸性增长，Web站点正在迅速增加，需要宽带网络的多媒体应用正在日益普及，因特网的通信量也正在呈现爆炸性增长，因特网正日益变得拥挤：另一方面，因特网上的用户正呈现许多不同的种类，从以浏览和下载资料为主的普通家庭用户到经营电子商务的大型企业等等，这些用户从安全、性能、可靠性方面对因特网的期望是不同的。人们希望路由器能够具有诸如数据包过滤、区分服务、QoS、多播、流量计费等额外功能。所有这些处理都需要路由器按某些规则将数据包进行分类，分类后的数据构成许多“流’’，再对每一个流分别进行处理。对于网络流量的不断增长问题，由于光纤技术和DWDM 技术的发展使得链路的速率不再成为瓶颈，已经满足了大流量传输的需求，这就使得路由器的处理速度成为网络整体速度的一个瓶颈。这主要由于路由器需要对每个输入包执行许多操作，包括十分复杂的分类操作。例如，它们需要对每个输入包执行最长前缀匹配以发现其下一跳地址：需要对每个输入包执行多维包分类以便在执行缓冲器管理、QoS调度、防火墙、网络地址翻译、多播服务、虚拟专用网、速率限制、流量计费等任务时区别对待不同的包。因此，为了满足服务快速性和服务多样性这两方面的需要，就必须研究相应的快速包分类算法应用到实际路由中。

关联规则挖掘算法研究

关联规则挖掘算法的研究摘要：Apriori算法是发现频繁项目集的经典算法，但是该算法需反复扫描数据库，因此效率较低。本文介绍了Apriori算法的思想，同时对已经提出的经典的关联规则更新算法FUP和IUA算法进行分析，指出其优缺点；最后对另外的改进算法，做一个简单的叙述。关键词数据挖掘；关联规则；Apriori算法 Keywords：data mining；relation rule；Apriori algorithm 关联规则反映了数据库中数据项目之间有趣的关联关系，而其中发现频繁项目集是关联规则挖掘应用中的关键技术和步骤。关于频繁项目集的挖掘算法研究，人们对此进行了大量的工作，其中以R. Agrawal 等人提出的Apriori 、AprioriTid 等算法最具有影响力和代表性。而这些算法的提出都是在挖掘数据库和最小支持度不变的条件下进行的。但实际中，遇到的情况可能是：随着时间的推移，挖掘数据库的规模可能不断膨胀或需要删除一部分记录，或者需要对最小支持度进行调整从而逐步聚集到我们感兴趣的频繁项目集上。因而如何从数据发生变动后的数据库中高效地对已经推导出的关联规则进行更新，具有非常重要的应用价值，这就是所谓的增量式挖掘关联规则的问题。 1关联规则问题描述：设I={i1，i2，...，i m}是m个不同项目的集合，给定一个事务数据库D，其中D每一个事务T是I中一组项目的集合，即T I，T有一个惟一的标志符TID。如果对于I中的一个子集X，有X T，我们就说一个事务T包含X。一条关联规则(association rule)就是一个形如X =>Y的蕴涵式，其中X，Y T，而X∩Y=Φ。关联规则成立的条件是：①它具有最小支持度s，即事务数据库D中至少有s%的事务包含X∪Y；②它具有最小可信度c，即在事务数据库D中包含X的事务中至少有c%同时也包含Y。给定一个事务集D，挖掘关联规则问题就是产生支持度和可信度分别大于用户给定的最小支持度和最小可信度的关联规则，也就是产生强规则的问题。关联规则的挖掘问题可以分解为以下两个问题： (1) 找出事务数据库中所有具有用户最小支持度的项目集。具有用户指定最小支持度的项目集称为频繁项目集，反之称为非频繁项目集。一个项目中所含项目的个数称为该项目的长度。 (2) 利用频繁项目集生成关联规则。对于每一个频繁项目集A，若B A，B≠Φ，且support(A)/support(B)>minconf，则有关联规则B=> (A-B)。目前大多数的研究主要集中在第一个问题上面。 2 Apriori核心算法 Agrawal等人于1994年提出了一个挖掘顾客交易数据库中项集间的关联规则的重要方法Apriori算法，其核心是基于两个阶段频繁项集思想的递推算法。算法的基本思想是首先找出所有的频集，这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频繁项集产生强关联规则，这些规则必须满足最小支持度和最小可信度。Apriori核心算法思想简要描述如下：该算法中有两个关键步骤连接步和剪枝步。 (1) 连接步：为找出Lk(频繁k一项集)，通过Lk-1与自身连接，产生候选k-项集，该候选项集记作Ck；其中Lk-1的元素是可连接的。

数据挖掘分类算法比较

数据挖掘分类算法比较分类是数据挖掘、机器学习和模式识别中一个重要的研究领域。通过对当前数据挖掘中具有代表性的优秀分类算法进行分析和比较，总结出了各种算法的特性，为使用者选择算法或研究者改进算法提供了依据。一、决策树（Decision Trees）决策树的优点： 1、决策树易于理解和解释.人们在通过解释后都有能力去理解决策树所表达的意义。 2、对于决策树，数据的准备往往是简单或者是不必要的.其他的技术往往要求先把数据一般化，比如去掉多余的或者空白的属性。 3、能够同时处理数据型和常规型属性。其他的技术往往要求数据属性的单一。 4、决策树是一个白盒模型。如果给定一个观察的模型，那么根据所产生的决策树很容易推出相应的逻辑表达式。 5、易于通过静态测试来对模型进行评测。表示有可能测量该模型的可信度。 6、在相对短的时间内能够对大型数据源做出可行且效果良好的结果。 7、可以对有许多属性的数据集构造决策树。 8、决策树可很好地扩展到大型数据库中，同时它的大小独立于数据库的大小。决策树的缺点： 1、对于那些各类别样本数量不一致的数据，在决策树当中,信息增益的结果偏向于那些具有更多数值的特征。 2、决策树处理缺失数据时的困难。 3、过度拟合问题的出现。 4、忽略数据集中属性之间的相关性。二、人工神经网络人工神经网络的优点：分类的准确度高,并行分布处理能力强,分布存储及学习能力强，对噪声神经有较强的鲁棒性和容错能力，能充分逼近复杂的非线性关系，具备联想记忆的功能等。人工神经网络的缺点：神经网络需要大量的参数，如网络拓扑结构、权值和阈值的初始值；不能观察之间的学习过程，输出结果难以解释，会影响到结果的可信度和可接受程度；学习时间过长,甚至可能达不到学习的目的。

教育研究方法整理

1、教育研究的基本范式是什么？基本特点各是什么？教育研究的基本范式有“实证主义范式”和“自然主义范式”。在20世纪80年代，美国一些学者也将这两种范式称为定量研究和定性研究（一）实证主义研究范式的基本特点 1、实证主义范式的出发点：教育研究中实证主义范式的兴起，得益于教育研究向自然科学学习，以实现“科学化”的不懈努力。这种范式以自然科学的研究为典范，强调通过观察和实验、运用数学工具、推究因果关系，对研究对象加以说明或解释 2.实证主义范式关注的主要方面研究结果的客观真实性；研究过程和结论的可检验性；所获认识的确定性；研究结论的普遍有效性 3.实证主义范式评价研究质量的主要指标有代表性的抽样技术；确立研究变量的规范；（每一个变量是否有清晰的操作性定义，否则在实施研究过程中难以准确地控制和考察这些变量；还要看变量之间及变量内部是否具有逻辑关系：同一变量的不同指标之间是否既不重复也不遗漏，不同变量之间是否具有时间上的先后关系）标准化的研究工具；控制干扰变量的手段；符合线性因果观的论证过程；检验假设时精确的统计处理（二）自然主义研究范式的基本特点 1.自然主义范式的出发点自然主义范式是在社会科学、人文学科的研究中形成的本体论，它认为教育活动是由人在意识和情感支配下完成的，必然带有参与者的主观价值因素，因而不存在纯粹客观的现实，而只有被人赋予意义的现实认识论，它认为研究主体和客体不可能分离，也不可能存在精致地等待被人发现的纯粹客观的规律，主体对客体的认识实际上是主体通过与客体的接触和相互作用而产生的有意义的、可沟通的见解。认识的结果不是对变量之间因果关系的确证，而是理解人的特征、活动和教育情境方法论，它特别强调研究者深入现场，在尽可能自然的情境中与被研究者一起生活，了解他们所关心的问题，倾听他们的心声，同时，对自己所用的研究方法进行深刻的反省，注意自己与被研究者的关系对研究的影响，然后在此基础上通过移情理解被研究者的行为和思想，获得对研究对象的真切认识。这种范式更多地采用归纳法的研究思路，研究者不是从一定的假设出发，只关注由此

分类算法的研究进展

分类算法的研究进展分类是数据挖掘、机器学习和模式识别中一个重要的研究领域，分类的目的是根据数据集的特点构造一个分类函数或分类模型，该分类模型能把未知类别的样本映射到给定类别中的某一个。分类和回归都可以用于预测，和回归方法不同的是，分类的输出是离散的类别值，而回归的输出是连续或有序值。一、分类算法概述为了提高分类的准确性、有效性和可伸缩性，在进行分类之前，通常要对数据进行预处理，包括：（1）数据清理，其目的是消除或减少数据噪声处理空缺值。（2）相关性分析，由于数据集中的许多属性可能与分类任务不相关，若包含这些属性将减慢和可能误导分析过程，所以相关性分析的目的就是删除这些不相关的或兀余性。（3）数据变换，数据可以概化到较高层概念，比如连续值属为离散值：低、可概化到高层概念“省”此外，数据也可以规范化，规范化将给定的值按比例缩放，落入较小的区间，比如【0，1】等。

的属性“收入”的数值可以概化性“市” 中、高。又比如，标称值属二、常见分类算法 2.1 决策树决策树是用于分类和预测的主要技术之一，决策树学习是以实例为基础的归纳学习算法，它着眼于从一组无次序、无规则的实例中推理出以决策树表示的分类规则。构造决策树的目的是找出属性和类别间的关系，用它来预测将来未知类别的记录的类别。它采用自顶向下的递归方式，在决策树的内部节点进行属性的比较，并根据不同属性值判断从该节点向下的分支，在决策树的叶节点得到结论。 2.2贝叶斯分类贝叶斯分类是统计学分类方法，它足一类利用概率统计知识进行分类的算法。在许多场合，朴素贝叶斯(Naive Bayes, NB)分类算法可以与决策树和神经网络分类算法相媲美，该算法能运用到大型数据库中，且方法简单、分类准确率高、速度快。由于贝叶斯定理假设一个属性值对给定类的影响独立于其它属性的值,而此假设在实际情况中经常是不成立的,因此其分类准确率可能会下降。为此,就出现了许多降低独立性假设的贝叶斯分类算

全面解析数据挖掘的分类及各种分析方法

全面解析数据挖掘的分类及各种分析方法 1.数据挖掘能做以下六种不同事情（分析方法）： ?分类（Classification） ?估值（Estimation） ?预言（Prediction） ?相关性分组或关联规则（Affinitygroupingorassociationrules） ?聚集（Clustering） ?描述和可视化（DescriptionandVisualization） ?复杂数据类型挖掘(Text,Web,图形图像，视频，音频等) 2.数据挖掘分类以上六种数据挖掘的分析方法可以分为两类：直接数据挖掘；间接数据挖掘?直接数据挖掘目标是利用可用的数据建立一个模型，这个模型对剩余的数据，对一个特定的变量（可以理解成数据库中表的属性，即列）进行描述。 ?间接数据挖掘目标中没有选出某一具体的变量，用模型进行描述；而是在所有的变量中建立起某种关系。 ?分类、估值、预言属于直接数据挖掘；后三种属于间接数据挖掘 3.各种分析方法的简介 ?分类（Classification）首先从数据中选出已经分好类的训练集，在该训练集上运用数据挖掘分类的技术，建立分类模型，对于没有分类的数据进行分类。例子： a.信用卡申请者，分类为低、中、高风险 b.分配客户到预先定义的客户分片注意：类的个数是确定的，预先定义好的 ?估值（Estimation）估值与分类类似，不同之处在于，分类描述的是离散型变量的输出，而估值处理连续值的输出；分类的类别是确定数目的，估值的量是不确定的。例子： a.根据购买模式，估计一个家庭的孩子个数 b.根据购买模式，估计一个家庭的收入 c.估计realestate的价值

基于分类规则信息熵的报文处理算法

第３６卷第８期计算机工程２０１０年４月ＶｏＬ３６Ｎｏ．８ＣｏｍｐｕｔｅｒＥｎｇｉｎｅｅｄｎｇＡｐｒｉｌ２０１０?软件技术与数据库?文章编号ｔｌ伽ｍ—３４２８（２０ｌｏ）０８—．，¨９ｌ—０２文献标识码：Ａ中图分类号；ＴＰ３９３基于分类规则信息熵的报文处理算法陈善雄１，彭茂玲２，余建桥１（１．西南大学计算机与信息科学学院，重庆４００７１５；２．重庆城市管理职业学院，重庆４０００５５）摘要：针对分类规则的预处理问题，提出离群属性检测分类算法。在报文分类规则属性域上计算离群属性子集．利用规则属性加权矢量计算加权距离，分析规则加权邻域的子空间离群影响网子，通过与离群因子阈值比较生成频繁匹配子集对规则进行预处理。实验结果表明，该算法能缩小后续报文的匹配范围，提高报文转发的匹配精度与速度。关健蔼：分类规则；报文匹配；离群属性ＰａｃｋｅｔＰｒｏｃｅｓｓｉｎｇＡｌｇｏｒｉｔｈｍＢａｓｅｄｏｎＣｌａｓｓｉｆｉｃａｔｉｏｎＲｕｌｅＩｎｆｂｒｍａｔｉｏｎＥｎｔｒｏｐｙＣＨＥＮＳｈａｈ－ｘｉｏｎ９１，ＰＥＮＧＭａｏ．１ｉｎ９２，ＹＵＪｉａｎ－ｑｉａ０１（１．ＣｏｌｌｅｇｅｏｆＣｏｍｐｕｔｅｒａｎｄＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅ，ＳｏｕｔｈｗｅｓｔＵｎｉｖｅｒｓｉｔｙ，Ｃｈｏｎｇｑｉｎｇ４００７１５；２．ＣｈｏｎｇｑｉｎｇＣｉｔｙＭａｎａｇｅｍｅｎｔＣｏｌｌｅｇｅ，Ｃｈｏｎｇｑｉｎｇ４０００５５）［Ａｂｓｔｒａｃｔ］Ａｉｍｉｎｇａｔｔｈｅｐｒｅｐｒｏｃｅｓｓｉｎｇｐｒｏｂｌｅｍｆｏｒｃｌａｓｓｉｆｉｃａｔｉｏｎｒｕｌｅ，ｔｈｉｓｐａｐｏｒｐｒｏｐｏｓｅｓｏｕｔｌｉｅｒａｔｔｒｉｂｕｔｅｄｅｔｅｃｔｉｏｎｃｌａｓｓｉｆｉｃａｔｉｏｎａｌｇｏｒｉｔｈｍ．Ｉｔａｃｃｏｕｎｔｓｏｕｔｌｉｅｒａｔｔｒｉｂｕｔｅｓｓｕｂｓｐａｃｅｏｎｐａｃｋｅｔｃｌａｓｓｉｆｉｃａｔｉｏｎｒｏｌｅａｔｔｒｉｂｕｔｅ，ＵＳｅＳｒｕｌｅａｔｔｒｉｂｕｔｅｗｅｉｇｈｔｅｄｖｅｃｔｏｒｔｏｃａｌｃｕｌａｔｅｗｅｉｇｈｔｅｄｄｉｓｔａｎｃｅ，ａｎａｌｙｚｅｓｓｕｂｓｐａｃｅｏｕｔｌｉｅｒｉｎｆｌｕｅｎｃｅｆａｃｔｏｒｏｆｒｕｌｅｗｅｉｇｈｔｅｄｎｅｉｇｈｂｏｒｈｏｏｄａｒｅａ．ａｎｄｇｅｎｅｒａｔｅｓｆｒｅｑｕｅｎｔｍａｔｃｈｉｎｇｓｕｂｓｅｔｂｙｃｏｍｐａｒｉｎｇｗｉｔｈｏｕｔｌｉｅｒｆａｃｔｏｒｔｈｒｅｓｈｏｌｄｖａｌｕｅ．Ｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｉｓａｌｇｏｒｉｔｈｍｃａｎｓｈｏｒｔｅｎｔｈｅｍａｔｃｈｉｎｇｒａｎｇｏｆｆｏｌｌｏｗｐａｃｋｅｔ，ｅｎｈａｎｃｅｍａｔｃｈｉｎｇｐｒｅｃｉｓｉｏｎａｎｄｓｐｅｅｄｏｆｐａｃｋｅｔｆｏｒｗａｒｄｉｎｇ．［Ｋｅｙｗｏｒｄｓ］ｃｌａｓｓｉｆｉｃａｔｉｏｎｒｕｌｅ；ｐａｃｋｅｔｍａｔｃｈｉｎｇ；ｏｕｔｌｉｅｒａｔｔｒｉｂｕｔｅ１概述报文分类通常是根据数据报文头部的若干字段，把数据流划分为不同类别，以便对每一类数据流做不同处理。它用不同规则来标志各个数据流，每条规则根据对报文头部各字段的分析指出该数据流中的报文应当执行的操作…。报文分类在消息处理、内容过滤、支持ＱｏＳ路由器、防火墙、入侵检测和Ｗｅｂ信息检索等方面都有重要应用。目前报文分类算法研究主要集中在基于特殊的数据结构、几何空间映射、硬件优化以及规则启发这些方面Ｉｚ七Ｊ，对分类规则预处理的研究相对较少。在报文匹配过程中，不是所有规则都有相同的匹配频率。在对数据流进行分类处理时，大多数报文经常匹配的是部分分类规则，在大多数网络应用中，报文是以数据流形式到达网络设备。通常一个报文匹配某些规则后，后面的报文也要匹配相同的规则。因此，利用报文匹配过程的连续性，在分类规则集中生成频繁匹配子集时，对规则进行预处理，可加快报文匹配速度｜４】。本文通过信息熵选取具有离群属性的规则，即报文匹配频率低的规则，从而得到匹配频率高的频繁匹配子集。２报文分类定义假定一个分类器佗是过滤规则的集合，也称为策略数据库、流分类器）含有Ｎ个过滤规则Ｒ『（１≤Ｊ≤＾Ｄ，给出报文分类的形式化定义。定义ｌ属性矢量Ｖｉ＝（一１１１，Ｆ；［２１，…，Ｆｉ闻），其中，维数ｄ为规则集包含的属性总数，Ｆｉ［／１（１≤Ｊ≤由为属性，忉的取值，可能为空、单值、集合或区间。定义２规则尺ｉ：（Ｋ，尸ｒｉ，Ａｉ），其中，＇，。为ｄ元属性矢量；肌表示这个规则在分类器中的优先级，当一个报文同时匹配多个规则时，它决定哪个规则优先匹配；Ａｒ表示当这个规则被匹配后对应报文所作的操作。定义３对于报文Ｐ＝（尸［１】，Ｐ［２１，…，ＰＩｋｌ），Ｐ【『】（１≤＿『≤田为报文中属性Ｆ啪的取值，在给定的规则集ｃ＝｛冠１１≤ｉ＜ＮＩ（Ｎ为规则集包含的规则总数）中，查找具有最高优先权的凡，即Ｐｒ（Ｒｋ）＞Ｐｒ（Ｒｊ），Ｖｋ＊ｊ，１≤，≤Ⅳ，且满足Ｂ【司匹配风【ｆ１，称甩为报文Ｐ的匹配规则ｐ１。３基于分类规则信息熵的子空间选取熵是信息理论中用来描述信息和随机变量不确定性的重要工具，设ｘ为随机变量，其取值集合为ｓ（嗣，ＰＯ）表示ｘ可能取值的概率，则ｘ的熵定义为Ｅ（工）＝一∑Ｐ（工）１ｂ（Ｐ（工））（１）正５（Ｘ）变量的不确定性越大，熵越大，所需的信息量也越大；熵值越小，不确定性越小。在此基础上，引入局部属性熵，定义如下：假设ｄ维规则集Ｃ的属性集为Ｋ＝（Ｈｌ】，Ｅ【２】，…，Ｅ嘲），ｃ中规则Ｒ在属性Ｆｆ上的投影，记为ｎ，（尺），也（尺）为尺的￡邻域（￡为距离半径）。作者简介：陈善雄（１９８ｌ一），男，讲师，主研方向：信息安全，网络系统集成；彭茂玲，讲师；余建桥，教授收藕日期：２００９—０９—１９Ｅ?ｍａｉｌ：ｃｓｘｐｍｌ＠１６３．ｃｏｒｎ —哆ｌ一万方数据

数据挖掘分类实验详细报告

《数据挖掘分类实验报告》信息安全科学与工程学院 1120362066 尹雪蓉数据挖掘分类过程（1）数据分析介绍本次实验为典型的分类实验，为了便于说明问题，弄清数据挖掘具体流程，我们小组选择了最经典的决策树算法进行具体挖掘实验。（2）数据准备与预处理在进行数据挖掘之前，我们首先要对需要挖掘的样本数据进行预处理，预处理包括以下步骤： 1、数据准备，格式统一。将样本转化为等维的数据特征（特征提取），让所有的样本具有相同数量的特征，同时兼顾特征的全面性和独立性 2、选择与类别相关的特征（特征选择） 3、建立数据训练集和测试集 4、对数据集进行数据清理在本次实验中，我们选择了ILPD (Indian Liver Patient Dataset) 这个数据集，该数据集已经具有等维的数据特征，主要包括Age、Gender、TB、DB、Alkphos、Sgpt、Sgot、TP、ALB、A/G、classical，一共11个维度的数据特征，其中与分类类别相关的特征为classical，它的类别有1,2两个值。详见下表：本实验的主要思路是将该数据集分成训练集和测试集，对训练集进行训练生成模型，然后再根据模型对测试集进行预测。数据集处理实验详细过程：

●CSV数据源处理由于下载的原始数据集文件Indian Liver Patient Dataset (ILPD).csv（见下图）中间并不包含属性项，这不利于之后分类的实验操作，所以要对该文件进行处理，使用Notepad文件，手动将属性行添加到文件首行即可。 ●平台数据集格式转换在后面数据挖掘的实验过程中，我们需要借助开源数据挖掘平台工具软件weka，该平台使用的数据集格式为arff，因此为了便于实验，在这里我们要对csv文件进行格式转换，转换工具为weka自带工具。转换过程为： 1、打开weka平台，点击”Simple CLI“，进入weka命令行界面，如下图所示： 2、输入命令将csv文件导成arff文件，如下图所示: 3、得到arff文件如下图所示：内容如下：

-教育研究方法

教育研究方法一，教育研究概述 1)教育研究的类型：按照研究目的—基础研究（研究教育的事理，揭示教育活动本身所固有的法则和规律，也成“纯研究”或“理论研究”）和应用研究（将基础研究所揭示的法则或规律运用于教育实践活动，以直接指导或改进教育实践活动，提高教育实践活动的有效性与合理性）；按照分析方法—定性研究和定量研究按照研究内容—价值研究（价值研究要回答的问题是因为什么，为谁，为什么目的，许诺什么，多大风险，应优先考虑什么等等。价值研究通过价值的确认与分析而直接面对价值问题）和事实研究（事实研究要回答的问题是：是什么，在什么时候，到什么程度等等。事实研究对事物、事件、关系和相互作用等等进行描述、观察、计数和测量） 2)教育研究的历史、现状和发展趋势【每一个时段的结点，方法特征和代表人物】 ●直观观察时期（古希腊—16BC）观察法为主，思维方式主要是归纳、演绎和类比；初步运用辩证法和朴素的系统观；代表人物是亚里士多德 ●分析为主的方法论时期（17BC-19BC末20BC初）经验论（培根）、唯理论（笛卡尔）和经验论与唯理论相结合（康德） ●形成独立学科时期（20世纪初—50年代）受社会科学影响较大；实用主义倾向明显；心理学实验教育学兴起；代表人物是桑代克、拉伊和梅伊曼；比较教育学出现 ●现代教育研究方法的变革时期（20BC50年代至今）：受自然科学影响较大； 3)我国教育研究的现状以及问题：重思辨分析、轻实践和实验；重视定性研究、忽视定量研究；方法比较单一，归纳和演绎仍然是主要方法；学科移植为主，基本上还没有形成教育学独特的方法论体系；借鉴国外为主，本土化程度仍然有待提高；多学科和跨学科合作研究不足； 4)教育研究主要发展趋势：方法日趋多样化和多学科化；定量研究和定性研究的结合；受自然科学发展的影响越来越明显；跨学科和多学科教育研究趋势越来越突出；随着社会科学和教育学科自身的发展，新的研究方法会不断出现； 5)教育研究的基本原则：客观性原则；创新性原则；理论联系实际原则；伦理原则； 6)教育研究的一般过程：选题阶段（问题的提出与背景，研究假设的提出，研究的目的和意义）--研究设计阶段（研究内容和对象的确定，抽样，方法的选择，指标选择，时间和经费安排--搜集资料阶段--整理与分析资料阶段--撰写研究报告阶段--总结与评价阶段（结论与优缺点分析） 7)教育研究方法的类型：理论方法【归纳，演绎，类比，分类，比较，分析，综合，概括】，实证方法【观察，问卷，访谈，测量】，实验研究方法【前实验，准实验，真实验】和

改进的HyperSplit报文分类算法

———————————— 基金项目基金项目：：国家“973”计划基金资助项目(2012CB315901, 2012CB315906)；国家“863”计划基金资助项目(2011AA01A103)；国家科技支撑计划基金资助项目(2011BAH19B01) 作者简介作者简介：：马腾(1987－)，男，硕士研究生，主研方向：报文分类，网络安全；陈庶樵，教授；张校辉，讲师收稿日期收稿日期：：2012-11-19 修回日期修回日期：：2013-01-22 E-mail ：123mateng321@https://www.360docs.net/doc/eb16205729.html, 改进的HyperSplit 报文分类算法马腾，陈庶樵陈庶樵，，张校辉 (国家数字交换系统工程技术研究中心，郑州 450002) 摘要：针对现有高速、大容量、多域报文分类算法普遍存在内存使用量大的问题，提出一种改进的HyperSplit 多域报文分类算法。通过分析现有算法内存使用量大的原因，修正和设计选择分割维度与分割点、去除冗余结构的启发式算法，最大限度减少决策树中的复制规则数量，消除决策树中存在的冗余规则和冗余节点，优化决策树结构。仿真结果表明，该算法与现有多域报文分类算法相比，不依赖于规则集类型和特征，在保证内存访问次数不增加、报文得到线速处理的情况下，可降低算法的内存使用量，当规则集容量为105时，内存使用量降低到HyperSplit 算法的80%。关键词关键词：：报文分类；规则复制；决策树；内存使用量；内存访问；冗余规则；冗余节点 Improved HyperSplit Packet Classification Algorithm MA Teng, CHEN Shu-qiao, ZHANG Xiao-hui (National Digital Switching System Engineering & Technology Research Center, Zhengzhou 450002, China) 【Abstract 】In order to solve the problem of too much memory usage in existing work for high speed large volume multi-field packet classification, an improved HyperSplit algorithm is proposed. By analyzing the cause of too much memory usage, the heuristic algorithms are modified and designed to choose the cutting points and dimensions and eliminate redundancy. Rule replication is greatly reduced, redundant rules and nodes are removed, and the decision tree’s structure is optimized. Simulation results demonstrate that compared with the existing work, independent of rule base’s type and characteristic, the algorithm can greatly reduce memory usage without increasing the number of memory accesses and ensure that packets can be processed at wire speed, and when the volume of classifier is 105, the algorithm consumes about 80% memory usage as that of HyperSplit. 【Key words 】packet classification; rule replication; decision tree; memory usage amount; memory access; redundant rule; redundant node DOI: 10.3969/j.issn.1000-3428.2014.01.055 计算机工程 Computer Engineering 第40卷第1期 V ol.40 No.1 2014年1月 January 2014 ·开发研究与工程应用开发研究与工程应用·· 文章编号文章编号：：1000—3428(2014)01—0258—05 文献标识码文献标识码：：A 中图分类号中图分类号：：TP301.6 1 概述报文分类作为防火墙、入侵检测、QoS 、虚拟专用网、流量计费等网络应用领域的关键技术，正面临前所未有的挑战。新的网络应用不断出现，导致报文分类规则出现新的特征：规则集规模增大，规则维数增加，范围规则大量出现。诸如路由器等网络转发和交换设备必须提供更强的报文分类处理能力：线速处理报文，算法的内存消耗足够小。目前基于三态内容可寻址存储器(Ternary Content Addressable Memory, TCAM)或现场可编程门阵列(Field Programmable Gate Array, FPGA)的报文分类算法[1]大多满足线速处理报文的需求，但是内存消耗巨大的问题依然存在，加上硬件资源受限，使得解决高速网络、复杂规则环境下的多域报文分类问题愈加困难。对收到的报文，提取其头部相关域的数值，与规则集中的规则进行查询匹配，得到最佳匹配规则，按照规则对应的动作处理该报文，这就是报文分类的过程。在至今已经提出的报文分类算法中，基于TCAM 的相关算法不宜处理范围规则[2-4]，而基于决策树的报文分类算法在多个方面可扩展性强，且树型结构可映射成深度流水线运行于FPGA 平台以实现报文线速处理，成为高速、大容量、多域报文分类算法研究的热点。由于规则相互交迭，这类算法在预处理阶段构建决策树时，不可避免出现规则复制(一条规则在同一节点的多个子节点出现)的情况，加上树型结构的冗余，带来严重的存储空间消耗，不利于硬件实现。虽然各种算法采取了一系列启发式算法处理这些弊端，一定程度上降低了算法内存使用量，但效果不够理想。因此，本文提出从根本上最大限度地减少规则复制，去除冗余，优化决策树结构。