AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


AI安全黑科技"短路技术"问世,让有害输出自动失效
发布日期:2024-09-04 07:33:14 浏览次数: 1686 来源:AGI Hunt


最近有研究团队搞出了一个叫"短路"(Short Circuiting)的新技术,能让AI系统更安全、更强悍,还能抵御那些企图让AI说坏话的"坏蛋攻击"。

这个技术可不是简单地告诉AI"不许说坏话哦",而是直接掐断AI内部那些可能导致有害输出的神经通路。

想象一下,就好比AI脑子里有条线路专门用来说脏话,这个技术直接把这条线路给剪断了,让AI想说都说不出来!

有意思的是,这个技术的灵感居然来自于"表征工程"其工作原理是通过重新映射导致有害输出的模型表示序列,将其导向无意义或拒绝表示,从而直接破坏模型生成有害输出的能力。

那么这个"短路"技术具体怎么玩呢?

研究团队提出了一个叫"表征重定向"(Representation Rerouting,RR)的方法。听起来高大上?其实原理很简单:
  1. 准备两组数据:一组是"短路集"(Short Circuit Set),里面都是可能让AI说坏话的例子;另一组是"保留集"(Retain Set),是那些正常无害的例子。
  2. 训练时用两个损失函数:一个"重定向损失"(rerouting loss),把那些可能导致有害行为的内部表征硬拽到一个安全的方向;另一个"保留损失"(retain loss),确保正常的表征不受影响。

效果如何?那可不得了!

实验表明,这个RR方法不仅让AI变得更"乖",还能扛住各种花里胡哨的攻击,包括那些玩弄AI内部表征的高级攻击。最牛的是,它几乎不影响AI的正常能力!

有网友调侃道:

"这不就是给AI装了个保险丝吗?一旦检测到'过载',立马'啪'地一声断开!"

还有人说:

"感觉像是给AI装了个'良心',想说坏话的时候自动卡壳。"

不过也有人担心:

"这会不会限制AI的创造力?毕竟有时候'坏话'也可能是创新的源泉。"

更令人称赞的是,这个技术还能用在多模态模型上!就是那些既能看图又能聊天的AI。实验显示,它能有效防止有人用特制的图片诱导AI说坏话。

甚至连AI代理(就是那些能自主执行任务的AI)也能用上这个技术。研究团队还专门搞了个新的"代理函数调用安全基准"来测试,结果显示有害行为大幅减少。

有AI研究员兴奋地表示:

"这简直是AI安全领域的一次突破!我们终于可以在源头上遏制AI的'歪心思'了。"

当然,也有人泼冷水:

"技术是好技术,就怕那些'坏人'想出新招数来绕过这个'保险丝'。"

总的说来,这个"短路"技术无疑为AI安全带来了新的希望。它不仅能让AI更安全,还几乎不影响性能,简直是神来之笔!

那么问题来了,你觉得这个短路技术靠谱吗?



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询