我要投稿

黑掉大模型？恶意 Prompt 攻击成无解之谜？

发布日期：2024-11-01 19:19:11 浏览次数： 2476 作者：腾讯技术工程

随着大模型应用的逐步发展，出现了一种新型的攻击手法，它的隐蔽性强且难以检测。本文将探讨如何有效检测此类攻击，并在实际战场中的有所成效

一、新的安全战场

由于大模型独有的对话业务特性：通过大量的数据训练，学会了从用户输入的 Prompt 中理解和生成语言。恶意 Prompt 攻击正在成为新的安全威胁战场。

攻击者可以通过精心设计的恶意 Prompt 来操纵模型行为，进而诱导模型调用插件产生错误的输出、执行恶意命令或泄露各类敏感信息，这种恶意 Prompt 攻击的隐蔽性极强，且通过传统的安全检测能力难以察觉。

（图1：大模型时代下面临的安全威胁分类）

以下简单列举几个典型案例，由恶意 Prompt 攻击引发的大模型安全事件：

1.1 借助大模型“黑掉”你的电脑

近期，某海外大厂发布了前沿大模型的新功能 —— “Computer Use“ ，这是一个可以让大模型控制计算机的神奇能力。它通过截取屏幕截图来做出决策，可以运行 bash 命令、控制鼠标键盘等操作，听起来很神奇吧？但同时也带来了很大的安全隐患，那就是恶意 Prompt 攻击。

只需要准备好三样东西就可以黑掉你的电脑。接下来我们来看一下黑客是如何借助大模型实现的：

1、准备好 C2 Server（黑客控制的服务器）、恶意文件、下载页面（让大模型下载木马文件）；

2、诱导大模型模仿正常用户，点击下载恶意文件；

3、利用大模型查找、修改权限以运行恶意文件；

4、用户电脑在大模型的帮助下成功“上线”（被黑客获取机器权限）。

（图2：绕过某大模型产品的应用层限制，诱导模型下载恶意文件）

（图3：大模型模仿用户点击下载恶意文件）

（图4：大模型在本地查找并运行恶意文件）

（图5：用户电脑被黑客远程控制并查看目录）

1.2 “唾手可得”服务器权限

黑客通过 Prompt 注入 + 代码变形 + 字符串编码拼接等攻击手法组合利用，成功绕过应用层的限制，从而让大模型应用在后端容器中执行任意代码或者命令，拿到对应服务器权限。

（图6：绕过某大模型产品的对话层限制，成功执行系统命令）

（图7：利用某大模型产品工作流，成功获取云服务凭证）

1.3 “手到擒来” 用户隐私数据

黑客通过散布含有恶意配置的钓鱼 URL 或文件，利用大模型的长期记忆（Memory Update）功能漏洞，植入虚假记忆或恶意指令。用户在对话中触发这些链接或文件后，其对话内容会被恶意配置，导致后续对话记录被拼接成 Markdown 图片链接泄露到外部URL，从而实现对用户隐私的窃取。

（图8：某大模型产品泄露用户对话数据）

（图9：某大模型产品泄露用户对话数据）

二、新战场的布防

2.1 大模型方案的优势

传统Web应用防火墙（WAF）因其局限性，无法理解自然语义的目的，导致真实攻击事件频频漏检，难以应对新型威胁，比如恶意用户在进行攻击测试，由于 Prompt 的内容未命中WAF正则关键词，导致该攻击被识别成正常请求，未被拦截。

（图10：真实攻击漏报事件）

基于行业内三种通用解决方案进行不同方案优劣势进行对比，发现在检测外部恶意 Prompt 攻击场景下，大模型在泛化能力、检出效果、维护成本上均优于另外两个方案，详细情况如下表：

可选方案

基于大语言模型

基于传统机器学习引擎

基于正则引擎

方案说明

基于大模型海量知识底座，利用Prompt调优进行恶意攻击场景泛化识别。

利用机器学习算法对大量的正常和恶意流量进行分析，从而自动学习并识别恶意流量模式，然后对流量进行分类和阻止。

基于专家经验针对各种攻击类型提炼的特征编写正则，对流量进行正则特征匹配检测。

方案优点

维护成本低

有安全知识基础

场景泛化能力极强

无需规则维护

能够自我学习，一定程度可以应对未知威胁

开发成本较低

方案缺点

偶尔存在模型幻觉、分析结论不稳定情况

对数据量和质量要求较高，不同攻击类型需要单独训练，泛化能力较差，误报率较高

正则维护繁琐，且检测模式单一，无法应对未知威胁

检测效果

维护效率

泛化能力

⭐️⭐️⭐️⭐️

⭐️⭐️⭐️⭐️⭐️

⭐️⭐️

⭐️

⭐️⭐️

⭐️

2.2 大模型 Cosplay 派对侦探

通过聚类分析恶意攻击样本和拦截日志，发现恶意 Prompt 攻击的核心场景在于：如何深入分析提问者的提问实际场景与提问意图。而大模型在这个分析场景下存在天然的优势（超强推理能力、语言理解能力），当仁不让的成为了安全运营分析的最佳助手。

借鉴过往经验设计了一个更有性价比的流程。想象一下，在一个派对上，你要辨别哪些宾客可能是不受欢迎的捣蛋鬼，那么的流程如下：

1）首先，用一份“不受欢迎名单”筛选出可疑人物，初步过滤掉正常行为的来宾。（恶意攻击特征初筛）

2）接着你请来一位侦探朋友，他凭借出色的观察力和理解力，进一步识别出潜在的麻烦制造者。（大模型检测）

3）最后，只有侦探依然怀疑是捣蛋鬼的宾客，才需要你亲自处理。（人工研判处置）

（图11：恶意 Prompt 检测分析流程）

这个过程就像一个漏斗，逐步筛选出捣蛋鬼。但有时侦探也会粗心大意，所以你会使用一些策略和行为标签来提高他的准确性，确保派对顺利且尽可能少的出问题。

同样的，也可以通过黑白样本多维度验证，结合提示词工程（Prompt Engineering）以及通用攻击子场景归类拆分，以帮助这位侦探更好地识别出恶意的捣蛋鬼。具体包括：

1）通用攻击场景拆分：根据现网样本日志，划分六大类场景，细化 30+ 攻击子场景，让大模型利用其语义理解能力和网络安全知识储备，快速判断用户行为并根据场景归类打标。

2）Prompt Engineering：通过构造 Prompt 来引导大模型如何进行打标和分类。若发现大模型识别错误、子场景描述模糊或是不准确的情况，通过对大模型的回答内容的分析，反哺运营同学对子场景精细化定义与阐释，闭环场景分类的优化。

除此之外，为应对复杂 Prompt 的人工审核漏判/误判问题，引入大模型辅助安全运营，自主识别并提供解释，配合人工快速复核。同时，利用企业微信机器人来推送恶意 Prompt 至群内，便于运营人员迅速研判和处理。

2.3 老生常谈的沙箱加固

随着各种功能丰富的插件以及工作流的引入，一种常见的攻击方式是通过恶意 Prompt 来调用大模型运行恶意代码，通过插件实现服务器入侵，直接威胁到用户数据以及业务敏感文件。

（图12：某大模型产品遭受 Prompt 攻击泄露内部云账号密码）

因此，除了前端恶意 Prompt 的检测，后端的组件加固也十分重要。通过容器加固后，能实现网络、多用户隔离及容器逃逸防护，确保用户代码执行环境与业务环境完全隔离，实现较为安全的代码执行环境。

三、总结

恶意 Prompt 攻击仅仅是大模型时代安全挑战的冰山一角。安全从业人员面临的不仅是技术难题，更是一场持久的安全攻防战。

安全不是一蹴而就的工程，而是一个需要持续投入、不断更新的过程。我们要正视当前的挑战，同时也要未雨绸缪，为未来可能出现的新型威胁做好准备。

这条安全之路没有终点，期待与诸位同僚一起，不断前行。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-26

MCP超市：百度上线AI开放计划

2025-04-26

从Function Call到MCP：大模型如何调用外部工具

2025-04-26

增量代码自动Review工具：洞窝在AI上的探索和实践

2025-04-25

OpenAI 白送 200 美元的深度研究功能？实测后发现这个「阉割版」不如不用

2025-04-25

为什么一定要做Agent智能体？

2025-04-25

哇！首个MCPBench来了，MCP竟然不比Function Calls更有优势？ | 最新

2025-04-25

医疗大模型案例分析（一）：Google Med-PaLM

2025-04-25

vLLM+Qwen-32B+Open Web UI构建本地私有大模型

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

大模型｜“上下文长度”和“上下文窗口”不再傻傻分不清楚！

2024-07-31

一文带你了解大模型——智能体（Agent）

2024-05-28

50+个AI大模型在不同领域的应用案例

2024-08-04

全面对比dify、coze、streamlit、chainlit

2024-04-26

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

一文读懂OpenAI新发布o1系列大模型

2024-09-17

大家都在问

为什么一定要做Agent智能体？

2025-04-25

除了MCP我们还有什么？

2025-04-24

LLM 推理引擎之争：Ollama or vLLM ?

2025-04-24

专题策划（下）| 如何实现大模型与行业的深度耦合？

2025-04-23

OpenAI：就你们也配做智能体？

2025-04-23

白话解析 DPO：如何让 AI 直接学习人类偏好？

2025-04-22

独家｜百度上线“心响”App，平替版Mauns来了？

2025-04-21

Deep Research 类产品深度测评：下一个大模型产品跃迁点到来了吗？

2025-04-21

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB