基于人工神经网络的入侵检测模型与算法研究

论文价格:150元/篇 论文用途:硕士毕业论文 Master Thesis 编辑:硕博论文网 点击次数:
论文字数:65666 论文编号:sb2021120111502740255 日期:2021-12-06 来源:硕博论文网

本文是一篇计算机论文,本文针对传统入侵检测方法存在的高误报和漏报等问题,将神经网络应用于入侵检测领域当中,以提高入侵检测模型的检测性能。虽然神经网络较传统的入侵检测方法具有更好的检测效果,但神经网络模型随机初始化参数会影响模型的检测效果,我们使用群智能算法和神经网络模型相结合来解决初始参数对入侵检测性能的影响;其次,从神经网络模型结构出发,结合入侵检测数据集本身的特点,优化神经网络模型的结构;最后,充分考虑神经网络模型学习方式对入侵检测性能的影响,使用残差学习调整网络训练过程中存在的误差。并且针对提出的模型进行实验验证,通过和现有入侵检测模型对比验证本文提出模型的入侵检测能力。

第一章 绪论

1.1  研究背景及意义
2020 年伊始,我国爆发了大规模的新冠肺炎疫情,为了预防疫情传播,国家政务服务平台建设了“防疫健康信息码”,累计数据共享达到 6.23 亿次,为 6 亿人次服务。在线游戏、远程办公、在线教育和其它应用程序有效地满足了 Internet用户的学习,工作和娱乐需求。在 2020 年 9 月 29 日,中国互联网络信息中心(CNNIC)在京发布的第 46 次《中国互联网络发展状况统计报告》[1]显示,到 2020年 6 月,我国的互联网用户数量达到 9.4 亿,比同年 3 月增加了 3625 万。互联网用户数量的增加将不可避免地导致互联网普及率的提高,同年 6 月与 3 月相比,上升了 2.5 个百分点。互联网的飞速发展不仅给我们的生活带来了许多便利,而且促进了我国经济的发展。
在全球范围内,计算机的快速发展使人们无论何时何地都可以通过 Internet掌握感兴趣的信息。人们已经享受了 Internet 快速发展所带来的便利,但是与此同时,网络攻击多样且频繁发生,给个人、企业和政府造成了不同程度的损失。同时,随着网络的快速发展,网络流量不断增加,导致网络攻击更加复杂,网络安全问题日益严峻。《报告》[1]指出,2020 年上半年,国家互联网应急中心监测发现,受感染网站的数量从 50,257 个增加到 147,682 个,与 2019 年同期相比有所增加。被植入后门的网站数量,与 2019 年相比增长了 32.7%。与 2019 年同期相比,收集整理信息系统安全漏洞增加了 89.2%。这表明我国的网络安全形势仍然不容乐观。
网络安全研究者提出了防火墙技术[2]、防病毒技术[3]、数据加密技术[4]、SSL加密技术[5]来解决网络中存在的安全问题。虽然它们起到了保护网络的作用,但它们均是静态的被动的安全防御系统,无法阻止病毒文件的传输,无法防御未知攻击或检测外部干扰。与静态的被动的安全防御系统相比,入侵检测系统[6]是一种动态的主动的安全防御系统。该系统可以实时监视网络传输,对可疑传输发出警报并采取主动防御措施。它已经成为确保网络安全的一项重要技术,因为它可以检测到防火墙无法检测到的攻击。
..............................

1.2  研究现状
20 世纪 80 年代,James  P.Anderson 在题为《Computer  Security  Threat Monitoring and Sureillance》[14]的论文中首次提出了入侵和入侵检测的概念。同一时期,Dorothy Denning 和 Peter Neumann 在此基础上提出了一种实时入侵检测系统模型[15],并命名为入侵检测专家系统(Intrusion Detection Expert System, IDES),这也是今后研究入侵检测的通用模型。1990 年,L.T.Heberlein 等[16]第一次提出了基于网络的入侵检测系统,该系统能够在数据格式不统一的情况下直接监视网络,同时也形成了基于网络和基于主机的两种检测方法。因此,很多机构开始考虑将基于网络和基于主机的检测方法集成在一起,提出了分布式入侵检测系统(Distribute Intrusion Detection System, DIDS)。
90 年代以后,入侵检测朝着智能化和分布式方向进行发展,前者是入侵检测的核心,后者是设计入侵检测的框架。在大数据和机器学习算法不断发展的情况下,网络安全研究者开始关注数据预处理以及将机器学习算法与入侵检测相结合。在数据预处理过程中,特征选择和特征提取是降维技术的两种类型。Serpen等[17]在 Linux 操作系统中采用主成成分分析对操作系统中的数据进行特征提取,并将其应用于基于主机的滥用入侵检测系统,总体而言,滥用系统可以检测攻击并预测攻击的类型。Tama 等[18]考虑异常检测中较难区分正常和攻击类型之间的边界,具有较高的误报率,因此,通过混合三种算法对基于树的分类器进行特征选择和集成,并减少用于分类的错误修剪树,仿真结果表明,某些检测性能优于现有方法。Beulah 等[19]提出了一种用于特征选择的混合方法,该方法从不同的特征选择方法中选择并组合最佳特征,此方法可以用于任何应用程序域中的特征压缩。两种常用的降维技术虽然能够减少无关和冗余的数据,在一定程度上降低数据集的维数,节约模型的训练时间,但目前大多数混合特征选择和特征提取技术更多考虑的是原始数据的线性组合,并没有考虑变量内部潜在的关系,可能在数据处理过程中删除了较为重要的特征,从而影响模型的训练效果。
.............................

第二章 基础理论 

2.1 入侵检测概述
2.1.1 入侵检测概念
对企图入侵、正在入侵或者已经发生入侵的行为进行识别的过程称为入侵检测[36](Intrusion Detection, ID)。该方法的技术核心是分析收集到的网络数据,以确定网络中是否存在不安全的行为。作为防火墙技术的合理补充,入侵检测可以在网络受到威胁之前识别并拦截内部和外部攻击以及误操作行为。
2.1.2 入侵检测分类
现在主流的入侵检测分类大多数都是基于数据源和分析方法进行的。 (1)根据各种数据源,入侵检测可以分为基于主机、基于网络以及分布式入侵检测[37]。
1)基于主机的入侵检测
20 世纪 80 年代初期,因当时网络环境较为简单,网络攻击相对较少,通过对已出现网络攻击的分析就可以预防以后出现的攻击,所以基于主机的入侵检测系统(Host-based Intrusion Detection System, HIDS)应时而生。HIDS 因没有额外附加的硬件设备,所以成本较低,效率较高。但仍存在一些不足,因为需要占用主机资源,对主机的依赖性较强,故只能检测有限的攻击类型,且对于网络发起的攻击无法检测。
2)基于网络的入侵检测
基于网络的入侵检测系统(Network-based Intrusion Detection System, NIDS)需要通过分析网络流量和网络协议来分析可能发生的入侵,在现有的网络环境下,它需要通过网卡来抓取所监视网段内的混合数据包。目前,常用的检测方法大多数是基于网络的,且能够检测出 HIDS 无法检测出的攻击行为。这类方法的优点是配置较为简单,成本较低,可以将其应用于不同的操作系统中。但因在传输过程中极易出现丢包现象,所以导致模型的精确度较低;对于加密后的数据则无法进行处理。
3)分布式入侵检测
分布式入侵检测系统很好地将 HIDS 和 NIDS 结合起来,能够充分利用各自系统的优点,克服其存在的不足,构成一套较为完整的入侵检测防御系统。该系统由多个部件构成,在不同的节点上使用不同的检测方法,使用 HIDS 检测主机上的节点,使用 NIDS 检测网络上的节点,大大提升了入侵检测的能力。
.............................

2.2 入侵检测数据集
2.2.1 入侵检测数据集简介
根据各种入侵数据源,入侵检测数据集可以将分为基于网络和基于主机的入侵检测数据集。
(1)基于网络的入侵检测数据集
公开的基于网络的入侵检测数据集主要包括 KDD  Cup99、NSL-KDD、UNSW-NB15 和 CIDDS-001。
1)KDD Cup99[46]:该数据集是通过处理 1998 年 DARPA 入侵检测挑战数据集的 tcpdump 数据构建的,此数据集中添加了许多模拟的攻击类型。收集网络流量数据并将其以 tcpdump 格式存储了 10 周的数据。前 7 周的数据作为训练数据集,其余的数据作为测试数据集。数据集有两种类型,完整数据集和 10%数据集。该数据集包含 41 个属性和 1 个类别标签,类别标签有 5 类,分别为:Normal、Probe、DoS、U2R、R2L。表 2.2 详细描述了 KDD Cup99 数据集。
2)NSL-KDD[47]:该数据集是 KDD Cup99 数据集的改进,删除了 KDD Cup99数据集中的冗余数据和重复记录,并从测试数据集中删除了 136489 和 136497 编号的连接记录。该数据集包括完整数据集和 20%数据集,相比于 KDD Cup99 更适合用于误用检测,但不利于表示实时网络流量特征。表 2.2 详细描述了 NSL-KDD 数据集。
3)UNSW-NB15[48]:该数据集是 2015 年由澳大利亚安全中心(ACCS)的网络安全研究小组提出的,为了解决 KDD Cup99 和 NSL-KDD 数据集上存在的不足,该数据集是以混合方式生成的,包含实时网络流量的正常和攻击行为,包括训练数据集和测试数据集。由 1 种正常流量和 9 种异常流量组成。数据流量用 42个特征来描述,加上最后的标签。UNSW-NB15 数据集的详细描述在表 2.3 中。
4)CIDDS-001[49]:该数据集是基于标记流的数据集并将其用于评估异常的入侵检测系统。通过模拟小型企业生成了来自 OpenStack 和 External 服务器的数据。OpenStack 和 External 服务器分别捕获了 312 万和 6 万条网络流量,包含 10个特征属性和 1 个类别标签。表 2.4 详细描述了 CIDDS-001 数据集在 External 上的数据.

计算机论文怎么写
计算机论文怎么写

..........................

第三章 基于改进灰狼算法优化 BP 神经网络的入侵检测 ......................... 26
3.1 改进灰狼算法 ............................. 26
3.1.1 混沌映射初始化种群 .......................... 26
3.1.2 非线性收敛因子 ................................ 27
第四章 基于天牛群优化与改进正则化极限学习机的入侵检测 .................... 39
4.1 基于 LU 分解的正则化极限学习机 .................................... 39
4.2 天牛群优化算法 ................................................... 41
第五章 基于集成深度学习模型的入侵检测 .................................... 58
5.1 集成深度入侵检测模型 ............................................. 58
5.1.1 入侵检测模型简析 ............................................ 58
5.1.2 SDAE-ELM 集成深度入侵检测模型 ............................... 59

第六章 基于残差稀疏宽度学习系统的入侵检测

6.1 宽度学习系统的残差阶段
6.1.1SVD 中的截断误差
虽然,使用 SVD 分解法求解输出权值矩阵可以在很大程度上提高 BLS 模型的求解精度,降低模型的复杂度。但 SVD 分解法在实际问题求解过程中会将较小的奇异值设置为 0,这是为了避免在公式(6.2)的反演计算过程中出现这些小值膨胀的问题,但是在计算过程中把这些较小的奇异值归零,在计算过程中会引起数值误差。在此,我们把这个误差称为残差。我们利用这些小范围的误差值,设计一个稀疏的模型,可以大大提高模型最终分类的准确性。残留误差在