网络攻防技术与实战答案_网络攻防中的对抗与博弈_网络攻防_黑客业务‖网站/服务器入侵业务‖软件/文件破解业务‖大学成绩修改‖网站入侵‖软件破解‖黑客小组‖微博等公关危机数据处理‖中国VIP黑客业务网络

基于随机博弈与改进WolF-PHC的网络防御决策方法

基于随机博弈与改进WolF-PHC的网络防御决策方法杨俊楠

问题：实际网络攻防中很难达到完全理性的要求，使得现有方法的准确性和指导价值有所降低。状态爆炸。

思路：从网络攻防对抗实际出发，分析有限理性对攻防随机博弈的影响，在有限理性约束下构建攻防随机博弈模型。针对网络状态爆炸的问题，提出一种基于攻防图的网络状态与攻防动作提取方法，有效压缩了博弈状态空间。在此基础上引入了强化学习中的WoLF-PHC算法进行分析，并设计了具有在线学习能力的防御决策算法，通过引入资格迹改进WoLF-PHC算法，进一步提高了防御者的学习速度。

所得策略在有限理性下优于现有攻防随机博弈模型的纳什均衡策略。

本文贡献：

（1）提出一种以主机为中心的攻防图模型并设计了攻防图生成算法，有效压缩了博弈状态空间。

（2）本文将强化学习引入到随机博弈中，使随机博弈由完全理性拓展到有限理性领域。现有有限博弈大多采用生物进化机制进行学习，以群体为研究对象，与其相比，本文所提方法降低了博弈参与人之间的信息交换，更适用于指导个体防御决策。

（3）基于资格迹对WoLF-PHC算法进行了改进，加快了防御者的学习速度，减少了算法对数据的依赖并通过实验证明了方法的有效性。

强化学习：一种经典的在线学习方法，其参与人通过环境的反馈进行独立学习，相比生物进化方法，强化学习更适于指导个体的决策。

基于随机博弈的攻防对抗建模

问题描述与分析

有限理性下的攻防随机博弈学习机制需满足2点需求：

1）学习算法的收敛性。

2）学习过程不需要过多攻击者信息。

WoLF-PHC算法是一种典型的策略梯度强化学习方法，使防御者通过网络反馈进行学习，不需要与攻击者之间过多的信息交换。

WoLF机制的引入保证了WoLF-PHC算法的收敛性：在攻击者通过学习采用纳什均衡策略后，WoLF机制使得防御者能够收敛到对应的纳什均衡策略；在攻击者尚未学习到纳什均衡策略时，WoLF机制使得防御者能够收敛到对应的最优防御策略。

攻防随机博弈模型

对每个状态下博弈所需的“信息”和“行动顺序”2个关键要素进行假定。

（1）“信息”。受有限理性的约束，将攻击者历史动作和攻击者的收益函数设定为攻击者的私有信息。网络状态为双方的共同知识。

（2）“行动顺序”。由于攻防双方的非合作行，双方只能通过检测网络来观察对方的行动，这会比动作的执行时间至少延迟一个时间片，所以在每个时间片攻防双方是同时行动的，这里的“同时”是一个信息概念而非时间概念，即尽管从时间概念上攻防双方的选择可能不在同一时刻，但由于攻防双方在选择行动时不知道对方的选择则认为是同时行动。

为了增强模型的通用性将转移概率设定为攻防双方的未知信息。

定义1.攻防随机博弈模型（attack defense stochastic game model,AD-SGM）是一个六元组AD-SGM=（N,S,DR,Q, ）,其中：

①N=（attacker,defender）为参与博弈的2个剧中人，分别代表网络攻击者和防御者；

②S=（ , ,···, ）为随机博弈状态集合，由网络状态组成；

③D=（ , ,···, ）为防御者动作集合，其中 ={ , ,···， }为防御者在博弈状态的动作集合；

④ ( ,d, )为防御者状态转移后的立即回报

⑤ ( ,d)为防御者的状态-动作收益函数，指期望收益

⑥ 为防御者在状态的防御策略

基于攻防图的网络状态与攻防动作提取方法

随即博弈模型重要组成部分——网络状态与攻防动作

关键点是对两者的提取

每个网络状态包含当前网络所有节点的安全要素，网络状态的数量是安全要素的幂集，会产生“状态爆炸”。为此提出了以主机为中心的攻防图模型，每个状态节点仅描述主机状态，可以有效压缩状态节点规模。利用此攻防图提取的网络状态及攻防动作更有利于进行网络攻防对抗分析。

定义2.攻防图是一个二元组G=（S,E）。其中S={ , ,····, }是节点安全状态集合, =host,privilege,其中host是节点的唯一标识，privilege={none,user,root}分别标识不具有任何权限、具有普通用户权限、具有管理员权限。E=（ , ）为有向边，标识攻击动作或防御动作的发生引起节点状态的转移， =( ,v/d, ),k=a,d,其中为源结点，为目标结点。

攻防随机博弈模型的状态集合由攻防图节点提取，防御动作集合由攻防图的边提取。

1）网络安全要素

网络安全要素NSE由网络连接关系矩阵C 、节点脆弱性信息V 、节点服务信息F 、节点访问权限P 组成。其中C=host host port描述节点之间的连接关系，矩阵的行表示源节点shost，矩阵的列表示dhost，矩阵元素表示shost到dhost的端口port访问关系，当port= 时表示shost与dhost之间不存在连接关系；V=host,service,cveid表示节点host上的服务service存在脆弱性cveid，包括系统软件、应用软件存在的安全漏洞和配置不当或配置错误引起的安全漏洞；F=host,service表示节点host上开启服务service；P=host,privilege表示攻击者在节点host上拥有privilege访问权限。

2）攻击模板

攻击模板AM时对脆弱性利用的描述：AM=tid,prec,postc。其中tid是攻击模式标识；prec=P,V,C,F描述攻击者利用一个脆弱性所需具备的前提条件集合，包括攻击者在源节点shost上具有的初始访问权限privilege、目标节点的脆弱性信息cveid、网络节点关系C、节点运行服务F，只有满足该条件集合，攻击者才能成功利用该脆弱性；postc=P，C，sd描述攻击者成功利用一个脆弱性而产生的后果，包括攻击者在目标节点上获得权限的提升、网络连接关系的变化以及服务破坏等。

3）防御模块

防御模板DM是防御者在预测或者识别攻击后采取的相应措施：DM=tid,dset，tid是攻击标识，dset={ ,post , ,post ,····， ,post }是应对特定攻击的防御策略集。其中，是防御策略标识；post =F,V,P,C描述防御策略对网络安全要素的影响，包括对节点服务信息、节点漏洞信息、攻击者权限信息、节点连接关系等的影响。

攻防图生成算法

基于WoLF-PHC的博弈分析与策略选取

将强化学习机制引入到有限理性随机博弈中，采用WoLF-PHC算法在AD-SGM基础上进行防御策略选取。

WoLF-PHC算法原理

Q-learning算法

Q-learining是WoLF-PHC算法的基础，是一种典型的免模型强化学习算法，

Q-learning中Agent通过与环境的交互获得回报和环境状态转移的只是，知识用收益来表示，通过更新来进行学习。其收益函数为

Q-learning的策略为

PHC算法

爬山策略算法是一种适用于混合策略的简单实用的梯度下降学习算法，是对Q-learning的改进。PHC的状态-动作收益函数与Q-learning相同，但不再沿用Q-learning的策略更新方式，而是通过执行爬山算法对混合策略进行更新，为策略学习率。

WoLF-PHC算法

狼爬山策略算法是对PHC算法的改进。通过引入WoLF机制，使防御者具有2种不同的策略学习率，当获胜时采用低策略学习率 ,当失败时采用高策略学习率 .

2个学习率使得防御者在比与其表现差时能快速适应攻击者的策略，比预期表现差时能快速适应攻击者的策略，比与其表现好时能谨慎学习。最重要的时WoLF机制的引入，保证了算法的收敛性。WoLF-PHC算法采用平均策略作为胜利和失败的判断标准

基于资格迹的改进WoLF-PHC及防御策略算法

为提高WoLF-PHC算法的学习速度，减少算法对数据量的依赖程度，引入资格迹对WoLF-PHC进行改进。资格迹能跟踪最近访问的特定状态-动作轨迹，然后将当前回报分配给最近访问的状态-动作。

对WoLF-PHC进行改进。定义，每个状态-动作的资格迹为e(s,a)设定当前网络状态为，资格迹更新：

算法2 防御决策算法

实验分析

利用工具对实验网络进行扫描

构建实验场景的AD-SGM

①N=（attacker,defender）为参与博弈的局中人，分别代表网络攻击者和防御者。

②随机博弈状态集合S=（s0,s1,s2,s3,s4,s5,s6），随机博弈状态由网络状态组成，从攻击图与防御图种的节点提取。

测试与分析

实验的目的：1）测试不同参数设置对算法的影响，从而找出适用于本场景的实验参数

2）将本文的方法与现有典型方法进行比较，验证本文方法的先进性；

3）测试基于资格迹对WoLF-PHC算法改进的有效性。

1）

2）

第一组实验：

[12]随即博弈 [16]演化博弈

[12]防御策略为 =0.7, =0.3

[16]演化稳定均衡的防御策略为 =0.8, =0.2

第二组实验：

可知，当面对学习能力较弱的攻击者时，本文方法由于文献[12]和文献[16]的方法。当面对学习能力较强的攻击者时，如果攻击者尚未通过学习得到纳什均衡，此时本文的方法仍然优秀；如果攻击者通过学习得到了纳什均衡策略，取得与文献[12]相同的效果，并优于文献[16]。

有无资格迹的对比测试

每1000次的平均收益变化对比

统计有、无资格迹下前3000次防御收益的平均值，各统计10次。

ctf是什么意思？三种竞争模式

CTF，全称是“Capture The Flag”，也叫“旗赛”。

起源:CTF起源于1996年在拉斯韦加斯举行的DEFCON全球黑客大会。这是最早的交换安全技术的重要方式。已有20多年的历史，是目前世界上技术水平和影响力最高的CTF比赛。

性质:网络安全领域，网络安全技术人员之间的一场技术比拼。通过各种攻击手段，获取服务器后，在文件中寻找指定字段或者某个格式字段。这个场是flag，也就是拿到旗子才能赢得分数。

二、CTF的竞争模式

赛场的亮点，顶级的装备，每个选手精心打理的发型，让很多自称“现任女友”的女生觉得这些白帽黑客简直牛逼，但真实的CTF与剧中李习安的“电竞”训练和比赛大相径庭。

那么CTF是如何竞争的呢？

CTF竞赛一般可分为三种模式:解题模式、攻防模式和混合模式。

1问题解决模式(危险)

在问题解决模式下，参赛队伍可以通过互联网或现场网络参与。这种模式通过解决网络安全技术挑战的得分和时间进行排名，通常用于在线审判。

2攻防模式(攻防)

在攻防模式中，参赛队伍在网络空间相互攻防，通过得分可以实时反映比赛情况，最终通过得分直接决出胜负。

3混合模式(Mix)

混合模式结合了解题模式和攻防模式。参赛队伍可以通过解决问题得到初始分数，然后通过攻防对抗进行增加或减少分数的零和博弈，最后以分数决定胜负。

网络攻击与防御的博弈从单边代码漏洞发展到了大数据对抗阶段，网络空间搜索引擎是什么？

随着互联网、物联网、传感网、社交网络等信息系统所构成的泛在网络不断发展，网络终端设备数量呈指数级上升。这为企业进行终端设备资产清点和统一管控带来了巨大挑战，同时也引发了一系列安全问题，网络攻击与防御的博弈从单边代码漏洞发展到了大数据对抗阶段，网络空间搜索引擎应运而生。

搜索引擎是指从互联网搜集信息，经过一定整理以后，提供给用户进行查询的系统。传统搜索引擎对我们来说并不陌生，像Google百度等，每天我们几乎都会用它们来搜索消息。与传统搜索引擎相比，网络空间搜索引擎有很大不同，其搜索目标为全球的IP地址，实时扫描互联网和解析各种设备，对网络中的设备进行探测识别和指纹分析，并将其扫描的目标信息进行分布式存储，供需求者检索使用。传统的网络空间搜索模型框架一般由五部分组成:扫描和指纹识别、分布存储、索引、U界面以及调度程序随着互联网、物联网、传感网、社交网络等信息系统所构成的泛在网络不断发展，网络终端设备数量呈指数级上升。这为企业进行终端设备资产清点和统一管控带来了巨大挑战，同时也引发了一系列安全问题，网络攻击与防御的博弈从单边代码漏洞发展到了大数据对抗阶段，网络空间搜索引擎应运而生。

网络攻防技术与实战答案_网络攻防中的对抗与博弈

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

网络攻防技术与实战答案_网络攻防中的对抗与博弈

基于随机博弈与改进WolF-PHC的网络防御决策方法

ctf是什么意思？三种竞争模式

网络攻击与防御的博弈从单边代码漏洞发展到了大数据对抗阶段，网络空间搜索引擎是什么？

0条大神的评论

发表评论

网络攻防技术与实战答案_网络攻防中的对抗与博弈

基于随机博弈与改进WolF-PHC的网络防御决策方法

ctf是什么意思？三种竞争模式

网络攻击与防御的博弈从单边代码漏洞发展到了大数据对抗阶段，网络空间搜索引擎是什么？

相关文章

如何防被盗用_网络攻防qq被盗

网络攻防实操_网络攻防原理与实践下载

华中科技大学网络攻防实践基地_华中科技大学网络攻防实践

红蓝军攻防演练_网络攻防演练红方蓝方

0条大神的评论

发表评论