基于数据挖掘算法的入侵检测方法

陈小辉

(淮阴师范学院计算机科学与技术学院，淮安 223300)

摘要：K-Means 和 DBSCAN 算法初始聚类中心的选择对数据挖掘结果的影响较大。针对上述问题，利用信息熵改进初始聚类中心选择方法，提高数据挖掘效率。将改进的K-Means 算法与DBSCAN 算法结合应用于入侵检测系统，对一个通用检测记录集进行异常检测测试，实验结果证明了该方法的有效性。

关键词：入侵检测系统；数据挖掘；异常记录；聚类算法

Intrusion Detection Method Based on Data Mining Algorithm

CHEN Xiao-hui

(School of Computer Science and Technology, Huaiyin Normal University, Huaian 223300)

【Abstract 】How to select original clustering cores of K-Means and DBSCAN is important to the result of data mining. Aiming at the problem, this paper improves the method of selecting original clustering cores via entropy. It applies improved K-Means and DBSCAN to the intrusion detection system, and does anomaly detection test on a common set of records in the system. Experimental result proves that the method is effective. 【Key words 】intrusion detection system; data mining; anomaly record; clustering algorithm

计算机工程 Computer Engineering 第36卷第17期

ol 2010年9月

Se V .36 No.17 ptember 2010

术与数据库·

文章编号：1000—3428(2010)17—0072—02

文献标识码：A

中图分类号：TP309.2

·软件技1 概述

在信息化大潮席卷全球的今天，信息安全问题日益突出[1]

。如何保证信息安全成为当前紧迫的任务。目前，信息安全技术主要有数据挖掘入侵检测[2]技术等。本文分析了数据挖掘技术[3]的2种常用算法DBSCAN 和K-Means ，并将DBSCAN 和改进的K-Means 算法结合应用于入侵检测系统，对入侵行为进行检测，形成入侵检测分析系统。

2 常用的数据挖掘算法

将物理或抽象对象的集合分组成由类似的对象组成的多

个类的过程称为聚类。常用的聚类算法[4]有基于划分的算法K-Means 和基于密度的算法DBSCAN 等。

2.1 DBSCAN 算法

DBSCAN 算法是一种简单有效的基于密度的聚类算法。在该算法执行的开始阶段，设置不同的Eps 和Minpts 参数值将对聚类的效果产生很大影响，因此，如何合理地设置Eps 和Minpts 是本文工作的重点。在聚类划分算法中，采用基于距离的分类度量K-Means 也是当前比较流行的算法，本文采用该算法对已知用户行为数据库进行聚类划分以检测出入侵行为。而Eps 和Minpts 参数将由K-Means 聚类算法得到。 2.2 K-Means 算法

实际应用时应先对数据进行标准化处理，DBSCAN 算法也采用同样的数据标准化过程。

给定一个对象x 的度量值，则属性值标准化的处理步骤如下：

(1)计算平均绝对误差S f ：

1|n

|f fi f i S x m n ==

?∑ (1) 其中，n 代表对象的数目；f m 是第f 个属性的平均值，即

f m =

fi i x n =∑，1f x ,2f x ,…,fn x 是各个对象第f 个属性的取值。

(2)计算标准化的度量值fi x ：

fi f

y m x S ?=

, i =1,2,…,n (2) 其中，fi x 是标准化后第i 个对象的第f 个属性值。由此将原来的数据转换到一个标准空间。

用于判断的准则函数通常采用均方误差和，其定义如下：

E =21

x c i i |x m ∈=?∑∑

(3)

其中，E 是数据库中所有对象的均方误差总和；x 表示给定的数据对象；是簇中数据对象的加权平均值(x 和都是多维的)；簇的数目取决于待划分类数K 。

i m i c i m i c 每个对象与簇中心的距离采用欧几里德距离，定义如下：

(,)d i j = (4)

其中，i =(1i x ,2i x ,…,ip x )和j =(1j x ,2j x ,…,jp x )是2个p 维的数据对象。

K-Means 算法基于簇中对象平均值以及输入簇的数目K ，在有N 个对象的数据库中输出K 个簇，使该K 个簇满足均方误差函数值最小。因此，K-Means 算法是一个不断迭代的过程[5]。传统的K-Means 对初始聚类中心采取随机选择的方式，而聚类结果受初始聚类中心的影响。事实上，选择较好的初始聚类中心可以得到更好的聚类效果。在实际应用中，参数K 是用户根据实际情况事先给定的，因此，影响最后聚类结果的主要因素就是初始簇中心的选取。本文通过引入信息熵提出了一种改进的算法。

3 改进的K-Means 算法

定义信息熵是对一个随机变量的信息和不确定性的测

作者简介：陈小辉(1977－)，男，讲师、硕士，主研方向：网络安全收稿日期：2010-02-28 E-mail ：cxhshangke@https://www.360docs.net/doc/c114686824.html,

—72—

量。如果X 是一个随机变量，S (X )是X 可能的取值的集合，p (X )是X 的概率函数，那么信息熵E (X )为

()

()log (())n x s x E X ∈=?∑p x (5)

含有多个属性的记录R ={x 1,x 2,…,x n }的熵的计算如下： 11221212()()

()

()(,,,)log ((,,,)n n n n n x s x x s x x s x E R p x x x p x x x ∈∈∈=?∑∑∑L L L

(6)

如果记录的属性之间互相独立，则可以将式(6)转化成式(7)。换句话说，属性值的联合概率可以转化成每个属性概率的乘积，因此，总的信息熵等于所有属性的信息熵的积。 11221212()()

()

()()()()log (()()()n n n n n x s x x s x x s x E R p x p x p x p x p x p x ∈∈∈=?∑∑∑L L L 改进

(7)

信息熵被用来测量一个系统的“无序”程度。熵值越大，说明系统中的数据越无序；熵值越小，说明系统中的数据越有序、越“纯净”，即数据的相似性越好。因此，“熵值越小，聚类越好”是应用信息熵评估聚类好坏的理论标准。

初始簇中心的选择过程如下：(1)对样本空间M 中的每一对记录计算信息熵，根据这些信息熵值，将每一个记录与样本空间M 中的任意其他记录的信息熵做比较，找出信息熵最小的那个记录，该最小信息熵值就是这个记录的基准信息熵。(2)逐一比较所有的基准信息熵，基准信息熵值越大，说明这个记录与所有其他记录越不相似。根据这个判断标准，可以求出最不相似的若干记录。(3)将这些记录分配给每一个聚类作为初始聚类记录。

初始化聚类子算法InitClusterCore 的伪代码如下：

For i=1 to m For j=1 to m if i 不等于j

计算任意2个记录之间的信息熵E({Ri,Rj}); For i=1 to m For j=1 to m gi=min E({Ri,Rj}); For i=1 to m

对最小熵值gi 按降序排列产生队列G;

选择队列G 中前K 个记录作为K-Means 聚类算法的初始簇中心

初始化聚类子算法的第1个for 循环计算任意2个记录之间的信息熵，由于涉及m 个记录中两两之间的关系，共需进行m ×(m -1)/2次基本操作，因此该循环的时间复杂度为O (m 2)。第2个for 循环计算每个记录与其他记录之间最小信息熵，由于一共有m 个记录，且每个记录需要从其他m -1个记录中查找出与它信息熵最小的配对记录，因此第2个循环的时间复杂度也为O (m 2)。第3个for 循环是一个排序过程，排序的最好时间复杂度为O (m ×log(m ))，最差时间复杂度为O (m 2)。综上所述，初始化聚类子算法的时间复杂度为O (m 2)。的K-Means 算法流程如图1所示。

图1 改进的K-Means 算法流程

经上述算法计算，可以在含有N 个记录的集合D 中得到C 1, C 2,…, Ci 个簇(其中，i =1, 2,…, k )，每个簇的对象集合

C 1={Obm ,…}, …, Ci ={Obn ,…}(其中，m ,…,n 属于1~N )。

计算Eps 的伪代码如下：

Num=0; Len=0 //Num 记录含有大于等于2个对象的簇的 //数目，Len 为所有簇平均距离之和

For each Ci in D If Ci 中有大于等于2个对象 then

计算本簇平均距离di //di 为Ci 中对象的平均欧几里德距离 Len=Len + di Num=Num+1 End if

Eps=Len/Num End for

其中，簇平均距离计算的伪代码如下：

AllLen=0 //AllLen 为所有簇中对象之间欧几里德距离之和 For each ob in Ci

For each 不为ob 的对象ob1 in Ci 计算 dist(ob,ob1) AllLen=AllLen+ dist(ob,ob1) End for End for

di=AllLen/C(n,2) //C(n,2)为Ci 中对象的组合数，n 为Ci 中对//象的数目

计算Minpts 的伪代码如下(假定所有对象的集合为M )：

数组Array[Num]所有元素为0，i=0 // Num 所有对象的数目 For each ob in M

令x 为dist(ob,ob1)≤Eps 的对象数目 //di 为Ci 中对象的

//平均距离

i=i+1 Array[I]=x End for Sum=0

For i=1 to NUM

Sum=Sum+Array[I] End for

Minpts=Sum/Num

至此得到DBSCAN 算法所需要的Eps 和Minpts 。

4 结合DBSCAN 和K-Means 的入侵检测方法

本文提出的入侵检测方法流程如图2所示。

图2 本文方法流程

具体步骤如下：(1)用户输入聚类数目K 的初始值。 (2)计算对象的基准信息熵，利用该基准信息熵确定K-Means 算法所需要的初始簇中心，即用降序法选定前K 个对象为初始簇中心。(3)初始簇中心确定后，利用K-Means 方法得到K 个聚类。(4)利用本文提出的方法计算DBSCAN 的Eps 和Minpts 。(5)利用DBSCAN 算法对K 个聚类中的异常[6]记录集合进行再次分析，得到更精确的分析结果。

本文通过计算数据信息熵来解决数据集合初始簇中心的选择问题，有效地避免了簇中心选择的盲目性，较大程度地提高了算法效率。在K-Means 算法中以所有对象之间的欧几

（下转第76页）

—73—

根据listValue, ListField以及tableName生成Insert语句并执行该语句；

return true; }

同样，为了确保checkError()方法的通用性，需要对数据库表作如下约束：

(1)每一个数据库表中的字段都需要写出字段说明，且字段说明与GUI上的相应数据项前的标签内容相同，其目的是能够提供该字段的说明，给出数据项的错误提示。

(2)创建包含每一个字段详细信息的视图all_fields_des- cription，该详细信息包括数据库名、表名、字段名、是可否为空、是否主键、字段数据类型、字段长度、字段说明等，可用作判断用户输入的数据是否满足要求的依据。Check Error()的处理过程具体如下：

boolean checkError(Container cntn, String tableName, String[] notField) {

从all_fields_description视图中查询出表table Name的所有字段可否为空、是否主键、字段数据类型、字段长度、字段说明等信息，并赋值给二维数组fieldInfo;

对于GUI上的每一个组件{

if(该组件的组件名为空，或者组件名在不需要检查错误的字段数组中，或者组件名前3个字母不是"txt"和"cmb"){

continue;

}else {

通过组件名查询到其对应字段在fieldInfo二维数组的位置，并赋值给rowIndex;

得到该组件的数据值并赋值给value;

通过fieldInfo[rowIndex][0]得到该字段是否可以为空，将其值赋值给isNull;

if(isNull的值为false并且(value的值为null或者value的值为" ")){

给出该字段“不能为空”的错误提示信息；

将焦点置于该组件；

return false; }

通过fieldInfo[rowIndex][1]得到该字段的数据类型名，并赋值给typeName;

if(typeName的值为"varchar"或者"char"，也即说明该字段为文本类型){

通过fieldInfo[rowIndex][2]得到该字段的数据长度，并赋值给maxLength;

if(value的长度大于maxLength){

给出该字段“数据长度超出范围”的错误提示信息；

将焦点置于该组件；

return false; } }

if(value不能转化为typeName所指定的数据类型){

给出该字段“数据类型错误”的错误提示信息；将焦点置于该组件；

return false; } } }

return true; }

5 结束语

随着测试技术与测试目标的不断扩展，测试对象也在不断扩展和深化，本文设计并实现一个数据库中间件，解决了网络自动测试化系统中异构测试数据的交换、传输和存储等问题。下一步工作是进一步分析网络化测试系统中测试数据查询和显示的特点，抽取其共性，设计并实现通用的数据查询和显示业务逻辑，进一步完善该数据库中间件。

参考文献

[1] 康健, 左宪章. 网络化测试技术[J]. 电测与仪表, 2008, 45(7):

47-51.

[2] 付新华, 肖明清, 周越文, 等. 自动测试系统的可重构测试接口

适配器设计[J]. 计算机工程, 2010, 36(1): 225-228.

[3] 黄姝娟, 杜承烈. 中间件技术实时性能的比较[J]. 计算机工程,

2009, 35(11): 32-37.

[4] 肖贤建. 数据库中间件的查询优化机制研究[D]. 南京: 河海

大学, 2005.

编辑陆燕菲

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ （上接第73页）

6 结束语

里德距离平均值作为DBSCAN算法的Eps参考值具有很好的

一般性，避免了Eps设置的经验性和盲目性，而该盲目性正

是导致DBSCAN算法效果差异很大的关键因素之一。以

K-Means算法中所得各簇对象数目之和的均值为Minpts，这

是由于在K-Means算法中所得的K个簇中心是与核心点相近的，因此围绕簇中心对象数目与围绕核心点数目也是相近的。而Minpts也是DBSCAN算法计算中必须涉及的核心问题。

5 实验

本文用KDDCUP99作为入侵检测实验数据。在导入训练

数据集后，分别采用单一的K-Means算法、K-Means和DBSCAN的混和方法进行对比测试。在实验中取不同的K值，对包含DOS攻击的入侵样本进行监测。采用攻击检测率和误

检率作为评估标准。实验结果如表1所示，可以看出，本文

方法在检测率上高于传统的聚类算法K-Means，检测率有一

定的提升，误检率有所降低，因此，本文方法的检测性能更好。

表1 2种方法对DOS攻击的检侧率和误检率

K-Means算法合成聚类分析方法聚类个数K

检测率/(%) 误检率/(%) 检测率/(%) 误检率/(%)

20 83.17 3.20 85.12 0.06

30 93.35 6.53 94.57 0.26

40 96.51 9.72 97.53 0.57

相对于单一的聚类方法，将DBSCAN和K-Means算法相结合的聚类方法很好地解决了聚类中心初始选择问题，因此，检测效果更好。但由于本算法采用串行的方式进行分析，因此如何更好地提升算法执行效率是需要继续研究的问题。

参考文献

[1] 刘启原, 刘怡. 数据库与信息系统的安全[M]. 北京: 科学出

版社, 2000.

[2] Anderson J P. Computer Security Thread Monitoring and Surveil-

lance[Z]. [2009-08-11]. https://www.360docs.net/doc/c114686824.html,/publications/history/ ande80.pdf.

[3] 彭四明, 王明, 柳祥云. 数据挖掘技术在互联网时代的应用[J].

广东自动化与信息工程, 2001, 21(4): 52-55.

[4] 杨向荣, 沈钧毅, 王瑞. 一种可分类数据的聚类算法及其应

用[J]. 微电子学与计算机, 2002, 19(8): 30-33.

[5] 李洋. K-Means聚类算法在入侵检测中的应用[J]. 计算机工程,

2007, 33(14): 154-156.

[6] 刘文涛. 网络安全开发包详解[M]. 北京: 电子工业出版社,

2005.

编辑张帆

—76—

基于数据挖掘算法的入侵检测方法

作者：陈小辉， CHEN Xiao-hui

作者单位：淮阴师范学院计算机科学与技术学院,淮安,223300

刊名：

计算机工程

英文刊名：COMPUTER ENGINEERING

年，卷(期)：2010，36(17)

被引用次数：0次

参考文献(6条)

1.刘启原.刘怡数据库与信息系统的安全 2000

2.Anderson J P Computer Security Thread Monitoring and Surveillance 2009

3.彭四明.王伟.枊祥云数据挖掘技术在互联网时代的应用 2001(4)

4.杨向荣.沈钧毅.王瑞一种可分类数据的聚类算法及其应用 2002(8)

5.李洋K-means聚类算法在入侵检测中的应用 2007(14)

6.刘文涛网络安全开发包详解 2005

相似文献(10条)

1.期刊论文焦亚冰.JIAO Ya-bing基于数据挖掘的入侵检测系统分析研究-重庆工商大学学报（自然科学版）2010,27(1)

首先介绍了入侵检测系统的相关技术,然后着重介绍了将数据挖掘技术应用于入侵检测系统;通过数据挖掘技术和入侵检测技术,提出了一种基于数据挖掘技术的入侵检测系统模型;将数据挖掘方法中的关联规则,分类分析在入侵检测系统中的协同工作方式,通过对关联规则和分类分析,得到入侵规则.

2.学位论文王文娟数据挖掘算法及其在入侵检测系统中的应用2007

入侵检测系统(IDS)是防火墙的必要补充，与传统的加密和访问控制方法相比，IDS是全新的计算机安全措施。在收集到系统和网络的原始数据后，如何建立入侵检测模型是入侵检测领域的研究重点。通过手工书写规则和其它特殊方式实现的检测模型，使多数入侵检测系统只具有有限的有效性和适应性。将数据挖掘技术应用于入侵检测，其思想是用一种以数据为中心的观点：尽可能除去在入侵检测系统构建过程中的人工行为，把测试过程看作分析数据的过程，从而提高入侵检测系统构建过程的自动化程度。

本文通过研究入侵检测系统和数据挖掘技术，将数据挖掘技术应用于传统的入侵检测系统来处理入侵检测系统中的海量数据，以提高整个系统的检测性能，有效的减少整个系统的虚警率和误警率。数据挖掘技术主要是用来对攻击诱骗环节提供的大量网络行为数据进行挖掘，使其变为可以对规则集合进行训练的有效的样本数据。关联规则挖掘、序列模式挖掘等可以用于入侵检测从而得到入侵规则库。本文所作的工作主要有以下几点：

1.通过研究和分析传统入侵检测系统，论证入侵检测系统规则库的建立对于海量网络行为数据的依赖性，而数据挖掘技术正是一个强有力的数据处理工具，从而说明了数据挖掘技术应用于入侵检测系统的必要性。

2.比较数据挖掘技术中的诸算法，结合该技术所要应用的环境——入侵检测系统，得出关联规则和序列模式挖掘算法更适合入侵检测系统规则挖掘的结论。

3.为了提高数据挖掘算法的效率，得到有用的关联规则，对关联规则算法的两个子问题分别通过改变频繁项目集元素的生成方法和对导出规则进行关键属性及最小置信度筛选的方法进行了改进，并通过具体实例说明了改进的有效性。

4.对序列模式挖掘算法，本文采用关键属性查找频繁相关，再从这些相关中产生串行频繁序列模式。这种改进算法不仅消除了不相关的规则，对审计记录数据关系的描述也提供了更加有用的信息。

5.设计了一个基于Windows的入侵检测平台，该平台通过管理配置模块实现了人机交互，手动控制该平台使其完成数据生成、数据预处理和数据挖掘等功能，并详细介绍了规则库的建立与更新。基于数据挖掘的入侵检测研究是一个非常活跃的研究领域。本文在最后给出了一些作者认为在今后针对该领域需要研究和改进的方向。

3.期刊论文耿俊燕.吴灏.曾勇军.张连杰.GENG Jun-yan.WU Hao.ZENG Yong-jun.ZHANG Lian-jie数据挖掘在入侵检测系统中的应用研

究-计算机工程与设计2005,26(4)

数据挖掘技术在网络安全领域的应用已成为一个研究热点.入侵检测系统是网络安全的重要防护工具,近年来得到广泛的研究与应用,分析了现有入侵检测系统主要检测方法存在的问题,构建了应用数据挖掘技术的入侵检测系统模型以改善入侵检测的精确性和速度.对各种数据挖掘方法对入侵检测系统产生的作用做了描述.

4.学位论文李鹏数据挖掘在入侵检测中的应用研究2004

互联网的开放性为信息的共享和交互提供了极大的便利，但同时也对信息的安全性提出了严峻的挑战。信息安全已逐渐发展成为信息系统的关键问题。

入侵检测系统(IDS)作为一种主动的信息安全保障措施，有效地弥补了传统安全防护技术的缺陷。通过构建动态的安全循环，可以最大限度地提高系统的安全保障能力，减少安全威胁对系统造成的危害。

随着计算机技术和网络技术的不断发展，海量存储和高带宽传输技术的普及，入侵检测系统所面临的数据日益庞大，用传统的方法对这些数据进行分析所耗费的时间相当惊人；同时现在的入侵手段干变万化，很难通过传统的规则匹配检测出复杂的入侵以及未知的入侵方式。因此迫切需要在传统的入侵检测系统中融入一个对海量数据强有力的分析工具—数据挖掘(DataMining)技术。通过数据挖掘技术处理入侵检测系统面临的大量的、不完全的、有噪声的、模糊的、随机的数据，发现这些数据中的潜在联系并提交给整个入侵检测系统进行进一步的处理。

本文通过研究入侵检测系统和数据挖掘技术，将数据挖掘技术应用于传统的入侵检测系统来处理入侵检测系统中的海量数据，以提高整个系统的检测性能，有效的减少整个系统的虚警率和误警率。所做的工作主要有以下几点：1.通过研究和分析传统入侵检测系统的缺陷，得出解决这些缺陷需要处理大量的数据，而数据挖掘技术正是一个强有力的数据处理工具，从而说明了数据挖掘技术应用于入侵检测系统的必要性。

2.比较数据挖掘技术中的诸算法，结合该技术所要应用的环境—入侵检测系统，提出将关联规则方法中的Apriori算法用于入侵检测系统较为合适。

3.深入分析了Apriori算法用于入侵检测系统存在的缺陷，并针对这些缺陷进行了改进，并通过具体实例说明了改进的有效性。

4.将数据挖掘技术应用到传统的入侵检测系统之中，设计了基于改进的Apriori挖掘算法的入侵检测系统模型。

基于数据挖掘的入侵检测研究是一个非常活跃的研究领域。本文在最后给出了一些作者认为在今后针对该领域需要研究和改进的方向。

5.会议论文蓝静.罗代升.罗鹏基于数据挖掘的入侵检测系统2006

入侵检测系统作为继防火墙之后的第二道安全闸门,是近十多年来发展起来的新一代动态安全防范技术,传统的入侵检测系统需要根据专家知识"手工"编写数据库,不能检测出一些新的或以前未知特征的入侵,针对现有入侵检测系统存在的问题,提出了将数据挖掘技术应用于入侵检测的方法,并在此基础上构建了基于数据挖掘技术的入侵检测系统的体系结构模型.

6.学位论文邢婷基于数据挖掘的入侵检测系统的研究与设计2008

计算机网络安全已经引起了人们的广泛关注。在允许各种网络资源以开放方式运作的背景下，入侵检测系统成了确保网络安全的一种必要手段。入侵检测技术是继传统的安全保护措施之后新一代的安全保障技术。作为信息安全保障中的一个重要环节，它很好地解决了访问控制、身份认证等传统机制所不能解决的问题，对计算机和网络资源上的恶意访问行为进行识别和响应。由于新的攻击方法的不断出现，尤其是一些互相协作的入侵行为的出现，给入侵检测领域的研究带来了新的课题。传统的入侵检测技术在扩展性和适应性上已不能应付越来越复杂的攻击方式，因此许多其他领域的知识被引入。

本文以基于数据挖掘的入侵检测技术为研究内容，以提高入侵检测的检测率、降低误检率为目标，以聚类分析为主线，提出聚类检测算法和模型，并进行仿真实验。首先介绍了入侵检测的概念和相关技术、入侵检测系统的研究现状，然后分析了数据挖掘技术在入侵检测系统中的应用，提出将数据挖掘技术应用于入侵检测中。通过分析入侵检测系统的通用模型，从数据挖掘的基本技术着手，结合入侵检测自身的特点，研究在入侵检测中应用K—means算法、基于相似度的聚类算法和蚁群聚类算法，具体阐述了三种聚类算法的思想，将其应用在入侵检测系统中，并在此基础上，利用KDDCup1999网络数据集的测试数据进行实验测试，进行算法比较。最后，提出将聚类组合算法应用于IDS模型中，并设计了一个基于数据挖掘的入侵检测系统模型，实验证明，新的检测系统具有良好的性能。

7.期刊论文杨武.何波.程勇军.李波.YANG Wu.HE Bo.CHENG Yong-jun.LI Bo基于Agent和数据挖掘的自适应入侵检测系统-重庆大学学

报（自然科学版）2005,28(8)

入侵检测系统是网络安全保护体系中的一个重要组成部分,目前大多数入侵检测系统不能适应网络环境的变化,即不具备自适应性.针对这种情况,提出了一种入侵检测系统的自适应策略,该自适应策略由条件空间和策略空间构成,条件空间用来描述网络环境,策略空间用来描述采用的策略.对于条件空间中的某一具体的环境状态,在策略空间存在唯一的策略与之对应.在构建自适应策略的基础上,利用Agent和数据挖掘技术,设计了一个自适应入侵检测系统.模拟实验表明了该自适应策略的有效性.

8.学位论文刘应玲基于数据挖掘的入侵检测系统的研究2003

在信息化大潮席卷全球的今天,计算机网络及互联网飞速发展,信息已经成为推动经济和社会发展的关键因素.在人们进行高度资源共享的同时,也感受到日益突出信息安全问题

.在网络环境中,如何使系统资源和数据能够授权访问,免遭恶意入侵和破坏,是当前信息安全的重大问题,日益成为人们关注的焦点.国内外近二十年来一直在研究网络安全的核心技术之一,入侵检测系统.入侵检测系统是目前安全领域较新课题,是动态安全领域的核心,但目前仍然存在很多问题,尤其是具有自适应能力、能自我学习的入侵检测系统还不完善.针对这些问题,该文采用了一种基于数据挖掘技术建立入侵检测系统的方法,讨论了该系统实现中的关键技术及解决方法,将现有的数据挖掘算法中关联分析、序列模式分析、分类等算法应用于入侵检测系统,对入侵行为提取特征、建立规则,通过对审计数据的处理与这些特征进行匹配,检测入侵,以形成智能化的入侵检测系统.该文对基于连接(会话)记录的误用检测和基于用户行为的异常检测进行测试,实现一个简单的原型.最后总结了今后的研究方向.

9.期刊论文曾希君.高珩.周勇.Zeng Xijun.Gao Heng.Zhou Yong基于数据挖掘的入侵检测系统的研究-计算机与数字工程2009,37(4) 通过对入侵检测技术和数据挖掘技术的研究,提出了一种基于数据挖掘的入侵检测系统,该系统具有可扩展性、自适应性、准确性等特点.对数据预处理模块,数据挖掘模块,入侵检测模块进行了设计.

10.学位论文任建平基于数据挖掘的实时入侵检测系统的研究2006

随着网络技术的飞速发展，计算机网络被广泛应用到人类活动的各个领域，网络对社会经济和人们生活的影响越来越大。网络的安全性问题也越来越受到广泛的关注，各种网络安全相关的技术和产品不断涌现。入侵检测技术是其中一个重要的技术。本文针对现有的入侵检测系统的不足，提出了将数据挖掘技术应用于入侵检测以提高其性能的方法。

本文在参考前人的基础上，提出了一种基于数据挖掘的实时入侵检测系统(RTDAIDS)框架结构。针对当前入侵检测系统检测策略单一，不能应对复杂的环境变化，误报与漏报率高。我们在分布式实时架构的基础上，增加了自适应策略管理器模块及自适应模式管理器。这两个模块采用数据挖掘技术，从而减少了对专家的依赖。它能够实现检测策略及检测模型的自动生成与分发。我们把研究重点放在RTDAIDS系统的体系结构的设计与配置上，它包括传感器、探测器、数据仓库、数据分析、自适应模式管理和策略管理等组件。该系统采用关联规则及频繁模式算法构造检测模型，大大的减少了人工编码，进一步提高了系统的自动化能力；采用RIPPER学习算法构造分类器及生成策略。这种体系结构使得审计数据的共享与存贮及增加或者更新模型和策略的配置非常便利。在一定程度上提高了IDS系统的高效性(efficiency)及可测量性(scalability)。

该系统模型，使用了独立组件的模块化设计，最大限度的降低对于被保护主机的资源占用，这对于入侵检测系统的实时性和对被保护主机的资源的占用性是非常重要的口而且采用集中式管理的办法，所有的组件都和数据仓库连接起来，这大大方便了对于整个系统的集中管理和监控。所有组件之间的相互联系，采用了通用的协议格式，采用XML格式来在各个组件之间传递信息，这使得系统的通用性和可扩展性得到了大大提高。这样可以很好的兼容一些已有的入侵检测系统的相对成熟的模块。

本文链接：https://www.360docs.net/doc/c114686824.html,/Periodical_jsjgc201017025.aspx

授权使用：中国科技大学(wfzykjdx)，授权号：f5391f32-42f0-439a-8e36-9e72011c23dd

下载时间：2011年1月21日