微信扫码
与创始人交个朋友
我要投稿
1 背景
能力要点:
基于大模型的推理能力与微软丰富的威胁情报数据,从海量安全信号中识别未知风险
Microsoft Security Copilot的产品演示功能总结:
基于大模型的推理能力实现攻击路径还原,输出可视化的攻击路径
内置丰富的预定义分析策略或剧本,如恶意软件分析和通用事件分析剧本
通过Promptbook剧本的形式,将大模型的逻辑推理能力限制在特定场景,减弱可能由于知识幻觉带来的误导性答案出现的可能性
基于大模型的语义理解和整合能力,生成安全报告,提升人机交互的友好性
通过一系列的方式,实现数据合规,确保用户的数据不会被用来训练模型,减弱大模型出现数据泄露的可能性
谷歌云主要推出了如下功能:
Virus Total Code Insight,使用Sec-PaLM模型分析恶意脚本的行为,识别威胁;
Mandiant Breach Analytics for Chronicle:运用谷歌云和Mandiant威胁情报对用户环境内的活动漏洞,进行情景化和及时响应;
Assured OSS:利用大语言模型将更多开源软件(OSS)包纳入OSS漏洞管理解决方案当中;
Mandiant Threat Intelligence AI:以Mandiant庞大的威胁图谱为基础,利用Sec-PaLM大模型帮助客户快速查找、汇总并应对相关威胁;
Chronicle AI:支持搜索数十亿个安全事件,并与结果进行对话交互、提出后续问题并快速生成检测结果;
综上所述,可以看出两家厂商的核心点可以归纳为:
提供辅助功能,解决安全人才缺口问题;
提供结果交互及事件感知等功能,通过情景化的剧本辅助威胁分析工作;
安全智能的发展已经进入了新的阶段,需要我们去不断探索新的应用方向,为数字风险防护添砖加瓦。
2 应用性研究
安全分析工具:
威胁分析和预警:使用大模型作为安全分析的工具,通过对大量的安全信号和威胁情报进行深度学习,发现隐藏的恶意行为和威胁信号,提供威胁优先级和威胁预警。
威胁防御:辅助构建内部的安全大脑,通过对攻击者的动机、目的、技能和行为进行分析,设计针对不同威胁类型的防御策略;
安全教育:使用大模型作为安全教育的资源,通过生成网络安全相关的文档、报告和指南,帮助安全人员了解最佳实践、常见漏洞和修复方法,从而提高安全人员的技能水平
威胁狩猎:
威胁分析:
预设场景提问,给出预期内行为的定义,让GPT直接去预测。或是给出正常的行为数据,让GPT自己总结出预期内行为的特征和规律,辅助/加速做可信策略,完善可信纵深检测和防御体系的知识库
增强可信纵深检测和防御体系:高效训练可信策略/模型
利用大模型的自然语言处理能力,提高威胁情报的收集、分析和生成效率,例如微软的Security Copilot
利用大模型的数据关联、检查关联和时序关联技术,构建基于大数据的威胁情报防御体系,实现对风险因素的全面监控和及时响应
通过自然语言交互来帮助安全人间检查和响应网络威胁
可以根据安全人员的问题和指令,生成可操作的回答或指导,例如如何识别、评估和修复一个正在进行的攻击
可以集成分析来自多个安全工具的数据集,并根据组织的特点提供定制化指导
利用丰富的威胁情报和端侧日志数据,来发现隐藏的模式、提前发现网络安全威胁,并给出预测性指导,帮助阻止攻击者的下一步行动
可以通过提供分步说明来帮助安全人员降低风险,并提高他们的技能,从而缓解人才缺口问题
大模型的安全应用一个闭环学习系统,它不断地从用户反馈中学习,并提供反馈功能,让用户直接对AI生成的内容进行评价
领域迁移和数据增强:
利用大模型的迁移学习和小样本学习能力,解决威胁检测中的数据不足和不平衡问题,提高对新型和少见攻击方法的检测精度;
利用大模型的文本生成能力,进行数据增强,解决安全领域样本少的问题。
2.1 知识幻觉问题
大模型的推理能力是把双刃剑,在进行文本生成时,也会带来一些知识幻觉。知识幻觉是指大模型在生成文本时,可能会产生一些不符合事实或者逻辑的内容,这是因为大模型并不真正理解语言携带的信息,而知识根据统计规律来模拟语言的生成。在解决知识幻觉问题方面,有以下几个方面的策略:
基于知识图谱的方法:通过知识图谱来增强大模型的常识和事实知识,从而提高生成文本的质量和可靠性
基于对抗学习的方法:基于对抗学习来训练一个判别器,来检测和纠正大模型生成的错误或不一致的内容
基于元学习的方法:让大模型能够快速适应不同领域的知识,并且能够从用户反馈中学习和改进
基于多任务学习的方法:让大模型能够同时处理多种自然语言处理任务,并且能够在不同任务之间共享和迁移知识
2.2 推理性应用
大模型最强悍的推理能力,有哪些具体的推理性应用呢?
大模型的逻辑推理是指利用大模型来对威胁情报中的逻辑关系进行推理和推断,从而发现威胁情报中的缺失信息或者潜在威胁,推理能力应用路线笔者认为可分如下三个层级:
大模型可以利用自然语言处理等技术,对威胁情报进行结构化和语义化的表示,提取威胁情报中的关键信息,如攻击者、目标、手段、影响等,构建威胁情报的知识图谱
大模型可以利用图神经网络等技术,对威胁情报的知识图谱进行深度学习,挖掘威胁情报中的隐含关系,如攻击者之间的联系、目标之间的相似性、手段之间的变化规律等,构建威胁情报的关联图谱;
大模型可以利用逻辑推理技术,对威胁情报的关联图谱进行推理和推断,发现威胁情报中缺失的信息,如攻击者的动机、目标的漏洞、手段的演变等,构建威胁情报的推理图谱
推理应用相关示例:
如果威胁情报中显示某个攻击者使用了某种攻击手段,而这种攻击手段需要利用某种漏洞,那么大模型可以推理出该攻击者针对的目标可能存在该漏洞;
如果威胁情报中显示某个攻击者针对了某个目标,而这个目标和另一个目标有很高的相似性,那么大模型可以推理出该攻击者可能也对对另一个目标发起攻击;
如果威胁情报中显示某个攻击者的攻击手段有一定的演变规律,而这个规律和另一个攻击者的规律相似,那么大模型可以推理出这两个攻击者可能有某种联系和合作。
大模型推理的应用场景:
大模型的逻辑推理可以帮助安全人员发现威胁情报中的漏洞和风险,从而提前采取防御措施,降低被攻击的可能性和损失
大模型的逻辑推理可以帮助安全人员发现威胁情报中的攻击链和攻击目的,从而更好的理解攻击者的行为和意图,提高应对攻击的能力和效果
大模型的逻辑推理如何与知识图谱结合,实现因果推理:
一种方法是利用知识图谱中的关系路径作为特征,输入到大模型中,让大模型学习路径和因果关系之间的映射,从而进行因果推理。这种方法类似路径排序算法(Path Ranking Algorithm),但是不需要预定义或学习规则,而是直接利用大模型强大的拟合能力
另一种方法是利用神经张量网络(Neural Tensor Networks, NTM),将知识图谱中的实体和关系都表示为向量,并通过一个双线性张量层来建立实体和关系之间的复杂交互,从而进行因果推理。这种方法可以捕捉知识图谱中的非线性和高阶关系,提高因果推理的准确性。
利用混合模型,将符号主义和连接主义相结合,既利用知识图谱中的逻辑规则进行符号推理,又利用大模型进行连接推理,从而进行因果推理。这种方法可以克服各自的局限性,实现更好的认知和智能行为。
3 业务场景的应用
那么大模型在威胁情报和数字风险防护这两个业务场景中可以发挥怎样的魔力呢?
3.1 LLM在威胁情报中的应用
当前威胁情报的及时性、有效性和完整性是我们关注的要点。纵观近几年攻击形势,如何缩短安全事件发生到行程情报的事件,减少开源情报中的脏数据对于企业防守的误导,以及如何让一线缺乏安全经验的人员也可以很好的利用威胁情报进行前置防御,是我们值得思考的要点。笔者从自动化情报提升情报生产效率,威胁情报提升情报质量和情报专家系统提升一线人员的安全防御水平的角度去展开陈述下。
3.1.1 自动化情报提升威胁情报生产效率
自动化情报是指通过使用人工智能技术,自动化地收集、分析和利用各种情报信息的过程,以提高情报效率和质量的一种方法。
大模型在自动化情报中扮演着重要角色。可以通过从安全报告,漏洞预警和安全资讯等非结构化的文本数据中提取实体信息,再利用情报挖掘与推理技术进行信息补全。大模型可以实现从非结构化的文本数据到结构化的威胁情报数据的转化,从而提高威胁情报的生产效率,有效地缩短安全事件从发生到情报交付的周期,释放安全分析师大量的情报整理类工作时间。当然,为了达到一定的效果,信息抽取方面需要具备较完善的能力矩阵,如:安全实体和关系抽取,IOCs(Indicators of Compromise)抽取,文本摘要,主题抽取,热点情报推荐和标注反馈平台,实现情报信息抽取的反馈闭环。同时,结构化和语义化表示的攻击者、目标、技战术和目的等信息,不仅可以为自动化情报提供基础数据,还可以为自动化构建安全知识图谱提供基础数据。
3.1.2 虚假威胁情报检测提升情报质量
虚假威胁情报是指故意制造和传播一些错误或误导性的网络安全信息,目的是为了干扰或破坏网络防御系统或人员的正常工作。这种数据投毒攻击对基于威胁情报数据训练的算法模型的破坏力极大,会干扰模型的正常工作。
虚假威胁情报识别是提高情报质量的重要手段之一。通过在数据层面构建防火墙,可以有效地拦截开源情报中潜在的数据投毒攻击。此外,充分利用开源情报来扩充情报信息的维度,可以提高情报质量。
在虚假威胁情报检测中,可以通过大模型构建多模态特征融合和知识一致性检测的方法,从特征和知识的角度去判断是否为虚假威胁情报,这样可以有效解决了小样本和冷启动问题。这种方法在处理虚假威胁情报方面已经取得了较好的效果。
3.1.3 情报专家系统提升情报利用效率
当前威胁情报的利用方式主要还是一种静态形式,无论是人读情报,还是机读情报。无法根据用户的及时需求,动态的根据需求分析结果,提供定制化的威胁情报。大模型的强大的分析和推理能力结合丰富的威胁情报数据,可以构建情报专家系统去构建一种全新的威胁情报动态利用方式,提高威胁情报的利用效率,充分挖掘情报的价值。
情报专家系统可以有效的分析用户的问题,进行意图识别。利用大模型的分析与推理能力,对威胁情报中的知识进行总结、归纳、演绎和推理,为用户提供动态的威胁情报,其中包含确定性结论,即对黑客组织既往攻击行为,攻击手法和使用工具等信息的总结,也包括基于用户问题和热点情报趋势等信息推理获得的风险预警类的概率性结论。同时,情报专家系统还可以辅助安全分析人员构建APT组织的画像。
情报专家系统可以在三个层次进行深入探索研究,结构化信息表示,关联分析和事实推理。通过三个层次的信息表达,基于大模型去构建动态的情报应用形式,即情报专家系统。
3.2 LLM在DRP业务中的应用
数字风险防护作为威胁情报的下一步发展方向,如何缩短数字风险从发现到处置的时延是个重要问题。我们从风险发现,风险审核和新的风险场景探索三个方向展开讨论。
3.2.1 提升数字风险的证据链完善效率
数字风险防护是指通过监测、分析和管理网络空间中的各种数字风险,以保护组织的品牌、声誉和资产的一种服务。
我们究竟该如何利用大模型来监测、分析和预测网络空间中的各种数字风险,以帮助组织提前发现和防范潜在网络威胁或损失,是大模型在数字风险探测环节最核心的问题。大模型可以用来对收集和整合的数据进行深入的分析和评估,例如识别网站风险类型,它究竟是赌博,色情,C2控制页面还是钓鱼网站。区分风险数据的风险类型,如侵权欺诈,数据泄露,代码泄露,社交媒体仿冒和威胁误报。
通过大模型不仅可以对不同来源的风险数据进行风险分类,还可以提取数字风险中的关键信息,如数据泄露场景下的暗网情报,可提取黑客论坛,发帖人,发帖时间,信息概述,泄露规模和泄露数据的类别等信息。通过数字风险进行风险分类和风险信息提取,可以提升数字风险的证据链完善环节的效率,即风险探测时的询证环节的检测效率,进而缩短整个数字风险探测过程中的时延,进一步降低企业数字风险暴露时间。
3.2.2 大模型助力数字风险审核效率提升
3.2.3 应对大模型数字风险场景的策略
4 合规性
笔者综合DeepMind的大模型风险研究报告和一系列的大模型应用调研结果,认为大模型在合规层面的潜在风险点如下:
歧视和排斥性言论:由语言模型产生的歧视性或排斥性言论所带来的社会危害;
错误信息:因语言模型提供虚假或误导性信息而产生的危害;
数据泄露:因语言模型泄露或推断出真正敏感信息而产生的危害;
恶意使用:用户通过语言模型构建钓鱼邮件等行为而产生的危害;
人机交互危害:因用户过度信任语言模型,直接将其结果作为可信参考,并执行而产生的危害;
一般来说,想要成功地减轻风险需要:
了解一个风险的起源点及其与其他风险的联系和相似性;
识别适当的缓解方法;
明确责任的分配和纠正措施的实施。
4.1 了解风险的起源点
风险的起源点可以从模型训练到应用的过程去梳理,大语言模型的风险起源点可分为:
训练和推理的计算成本:大模型的训练数据、参数大小和训练方式影响着训练和操作模型的成本,进而影响模型的效果。
4.2 识别和实施缓解方法
基于对大语言模型风险起源点的,可找到对应的解决方案,简述如下:
数据层面:创建更好的数据集,更好的基准和微调数据集
模型层面:优化模型的可解释性,构架更强大的大语言模型
产品层面:通过用户界面的和产品的约束,控制大语言模型按照预期的方向进行内容输出;
业务层面:有限的发布特定领域的应用模型,提升模型对专业知识的了解;
4.3 法律法规
近日中国国家网信办就生成式AI服务管理办法征求意见。征求意见稿共有21条,当中提及提供生成式人工智能产品或服务应当遵守法律法规的要求,尊重社会公德、公序良俗,所生成的内容应当体现社会主义核心价值观,不得含有颠覆国家政权、推翻社会主义制度,煽动分裂国家、破坏国家统一,宣扬恐怖主义、极端主义,宣扬民族仇恨、民族歧视,暴力、淫秽色情信息,虚假信息,以及可能扰乱经济秩序和社会秩序的内容;在算法设计、训练数据选择、模型生成和优化、提供服务等过程中,采取措施防止出现种族、民族、信仰、国别、地域、性别、年龄、职业等歧视;尊重知识产权、商业道德,不得利用算法、数据、平台等优势实施不公平竞争;利用生成式人工智能生成的内容应当真实准确,采取措施防止生成虚假信息。
另外,尊重他人合法利益,防止伤害他人身心健康,损害肖像权、名誉权和个人隐私,侵犯知识产权。禁止非法获取、披露、利用个人信息和隐私、商业秘密。
利用生成式人工智能产品提供聊天和文本、图像、声音生成等服务的组织和个人提供者,包括通过提供可编程接口等方式支持他人自行生成文本、图像、声音等,承担该产品生成内容生产者的责任;涉及个人信息的,承担个人信息处理者的法定责任,履行个人信息保护义务;提供者应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责。
4.4 合规化运营
基于目前的法律法规约束要求,针对威胁情报应用场景,可通过如下举措实现合规化运营:
数据层面:脱敏的训练集。
产品层面:通过各种场景的Prompt剧本,如恶意软件分析和溯源事件调查等,实现有约束的大语言模型分析推理能力应用。同时对输出的信息进行反馈和判别,拦截误导性结果。
工程方面:模型的所有结果输出,均应基于内部的知识库,做到有迹可循,降低知识幻觉出现的可能。
5 现有大模型
6 总结
大模型是一个速度倍增器,可以用来强化/增强/辅助现有产品的迭代,实现从静态的数据输出,到动态情报专家系统输出,以智能化的情报应用提升企业和从业人员对安全事件的追踪,分析和防御风险的能力。作为安全研究人员,我们应该拥抱大模型,让大模型和现有技术体系行优势互补,在享受大模型带来的智能化提升的同时,也要关注大模型带来的风险。从感知智能,到认知智能的阶段,好像已悄然走过,安全领域也伴随着这股浪潮,踏入了认知智能的应用阶段。诸君,冲吧,安全智能的研究还有很多有意思的问题亟待我们解决。
大模型论文周报丨来自微软、北大、清华、Meta AI等机构前沿科研动态 - 知乎https://zhuanlan.zhihu.com/p/620747266
2023年AI+行业应用专题研究 GPT推动任务交互,大模型赋能网安发展 - 报告精读 - 未来智库https://www.vzkoo.com/read/20230407b7d7179715840f1619191221.html
微软推出网络安全行业的“ChatGPT”http://stock.10jqka.com.cn/20230407/c646240227.shtml
Microsoft Security Copilot | Microsoft Security https://www.microsoft.com/en-us/security/business/ai-machine-learning/microsoft-security-copilot
Introducing Microsoft Security Copilot https://blogs.microsoft.com/blog/2023/03/28/introducing-microsoft-security-copilot-empowering-defenders-at-the-speed-of-ai/
微软推出Security Copilot,用人工智能强化网络安全防御https://safe.zol.com.cn/814/8147817.html
Microsoft Security Copilot - 百度百科https://baike.baidu.com/item/Microsoft%20Security%20Copilot/62830774
微软亚洲互联网工程院:大规模语言模型的技术趋势和落地实践 – 知乎https://zhuanlan.zhihu.com/p/399551392
屠榜各大CV任务!微软提出大“统一模型”BEiT-3 - 知乎https://zhuanlan.zhihu.com/p/560792790
微软引入Open AI保障网络安全 - 知乎 - 知乎专栏. https://zhuanlan.zhihu.com/p/617906339
微软推出网络安全行业的“ChatGPT”http://stock.10jqka.com.cn/20230407/c646240227.shtml
AI赋能网络安全,微软发布Security Copilot引领行业迈入新时代-研究报告正文 _ 数据中心 _ 东方财富网. http://data.eastmoney.com/report/zw_industry.jshtml?infocode=AP202303291584641266
腾讯安全斩获权威研报「大满贯」,威胁情报中心构筑防护壁垒 | 极客公园. https://www.geekpark.net/news/317212
面向伴随多维度特征的大规模异质威胁情报,构建基于图挖掘的威胁情报可信评估框架模型 - 知乎. https://zhuanlan.zhihu.com/p/420838765
涨知识 | 超全威胁情报概念科普,先马再看!- 知乎. https://zhuanlan.zhihu.com/p/414961130
基于大数据与威胁情报的防御体系技术研究-阿里云开发者社区. https://developer.aliyun.com/article/793121
AI在网络安全领域(尤其是威胁检测领域),有什么好的应用场景?- 知乎. https://www.zhihu.com/question/454259809
从Google内部安全架构设计看威胁情报与威胁狩猎的应用场景 - 知乎. https://zhuanlan.zhihu.com/p/129064940
AI在网络安全领域(尤其是威胁检测领域),有什么好的应用场景?- 知乎. https://www.zhihu.com/question/454259809
机器学习与威胁情报的融合:一种基于AI检测恶意域名的方法 - FreeBuf网络安全行业门户. https://www.freebuf.com/articles/es/187451.html
有了大语言模型后,知识图谱该何去何从?- 知乎. https://www.zhihu.com/question/588865784
什么是大模型?超大模型和 Foundation Model 呢?- 知乎. https://www.zhihu.com/question/498275802
ChatGPT细说从头(十四):思维链 - 知乎 - 知乎专栏. https://zhuanlan.zhihu.com/p/610248943
【知识图谱】知识图谱(三)—— 知识推理算法总结 - 知乎. https://zhuanlan.zhihu.com/p/353043426
有了大语言模型后,知识图谱该何去何从?- 知乎. https://www.zhihu.com/question/588865784
认知图谱:知识图谱+认知推理+逻辑表达 - 知乎. https://zhuanlan.zhihu.com/p/126656200
安全内参:安全大模型进入爆发期!谷歌云已接入全线安全产品|RSAC 2023 https://www.secrss.com/articles/54093
作者介绍
Lionel,一个努力搬砖的AI+TI研究人员。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-04-26
2024-05-10
2024-05-28
2024-04-12
2024-04-25
2024-05-14
2024-07-18
2024-08-13
2024-04-26