微信扫码
与创始人交个朋友
我要投稿
OpenAI新研究,推理模型防攻击有新发现!增加推理时间效果显著。核心内容:1. 模型被攻击风险增加的现状2. 主流防御方法的缺点3. 新研究中的多种攻击面考察
OpenAI的新Scaling Law,含金量又提高了。
像o1这样的推理模型,随着思考时间的延长,面对对抗性攻击会变得更加稳健。
随着大语言模型被越来越多地赋予Agent能力,执行现实世界的任务,模型被对抗攻击的风险也与日俱增。
特别是OpenAI官方Agent“Operator”发布在即,现在放出这样一个研究,是否是想让外界更放心一些呢?
而目前主流的“对抗性训练”防御方法,有几个缺点:
依赖先验知识,需要了解对手的攻击方式。
要交“安全税”,在稳健性和模型能力之间取舍。
现在OpenAI实验证明,在不做对抗性训练的情况下,只要增加推理时计算,模型的对抗稳健性就能显著提升,在多个任务上都得到了验证。
这项新研究,共同一作中包括仅剩的联创之一Wojciech Zaremba。
另一位共同一作Boaz Barak表示“ 我们没有‘解决’对抗稳健性问题……但我对未来方向感到兴奋”。
针对推理模型特性,团队在实验中考察了几种的“攻击面”(attack surfaces):
Many-shot攻击:攻击者在提示中提供大量上下文示例,攻击资源量由提供的tokens数量衡量。
Soft token攻击:攻击者可以直接操纵embedding向量,通过梯度下降优化token来达到对抗目的。这是个强有力但不太现实的白盒攻击。
Think less攻击(想太少):这种新型攻击旨在降低模型的推理时计算量,从而增加其犯错概率。
Nerd-sniping(狙击书呆子):当模型陷入不必要的“深思熟虑”,在无谓的地方耗费算力时,反而更容易受到攻击。
人类/AI红队攻击:请专家或AI组成红队通过人机交互,针对性探索潜在的prompt注入漏洞。
多模态输入对抗攻击:针对图像分类任务,使用特定的对抗图像数据集进行攻击。
在大多数实验里,随着推理时计算的增加,模型抵御攻击的成功率都在提高。
举几个例子:
下面几张图中,Y轴是攻击者的资源量,X轴是推理时间计算量。随着攻击者资源的增加,其成功概率也会增加。
但对于每固定数量的攻击者资源,成功的概率会随着模型在推理时花费更多的计算而下降。
在数学问题的many-shot攻击下,攻击方目标包括要求模型无论如何输出42,输出正确答案+1、或正确答案x7。
但随着推理算力增加,攻击成功率最终趋于0。
在智能体网页浏览任务中,通过在网站注入恶意指令来攻击,增加推理时计算后,攻击成功率也降为0。
即使更强大的攻击下,增加更多的推理时间还是能显著提升防御力。
论文对几种新颖的攻击方式做了额外分析。
Think less攻击,主要是o1-mini比较容易中招,o1-preview防御能力还可以。
Nerd-sniping攻击,模型在某些实例上花费异常大的推理时间计算时,攻击成功率可能更高,表明模型可能会陷入无效率的思考循环。
尽管如此,研究者也指出,目前的方法在以下几个方面有局限:
研究仅涉及有限的任务和计算缩放范围,在面对利用策略模糊性或漏洞的攻击时,增加计算量可能无效
“think less”和“nerd sniping”攻击也揭示了推理时计算的两面性,攻击者可以诱导模型想太多或想太少。
对于这项针对推理大模型特性的研究,有创业者从不一样的角度思考:
那么DeepSeek-R1系列也可以从中受益呗?
论文地址:
https://cdn.openai.com/papers/trading-inference-time-compute-for-adversarial-robustness-20250121_1.pdf
参考链接:
[1]https://openai.com/index/trading-inference-time-compute-for-adversarial-robustness/
[2]https://x.com/boazbaraktcs/status/1882164218004451334
— 完 —
量子位智库年终发布三大年度报告!
带你一起回顾2024年人工智能、智能驾驶、Robotaxi新趋势,预见2025年科技行业新机遇!
2024年度AI十大趋势报告
Robotaxi2024年度格局报告
智能驾驶2024年度报告
一键关注 ? 点亮星标
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-01-24
OpenAI发布首款AI智能体Operator,能像人类一样自主操控浏览器
2025-01-24
AI Agent大爆发!智谱AI神器GLM-PC上线,让你的电脑自己干活?
2025-01-24
奇智:生成式 AI 应用创建平台
2025-01-24
OpenAI 发布 Operator 智能体,“hybrid Internet”升级拉开帷幕
2025-01-24
2025中国AI格局:字节VS阿里的巅峰对决
2025-01-24
Perplexity发布Sonar API,提供实时信息搜索功能,一举超越所有搜索引擎和LLM!
2025-01-24
刚刚,OpenAI首个智能体提前曝光!高级编码AI剑指400万年薪L6级工程师
2025-01-24
突发!OpenAI 刚刚发布代理Operator:AI进入Level 3,但只有美国Pro用户可以试用
2024-08-13
2024-05-28
2024-08-21
2024-04-26
2024-06-13
2024-09-23
2024-08-04
2024-07-09
2024-07-01
2024-07-18
2025-01-24
2025-01-23
2025-01-22
2025-01-22
2025-01-21
2025-01-21
2025-01-18
2025-01-15