AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


【AI越狱第一人】他让所有LLMs彻底放飞自我,他到底是普罗米修斯还是撒旦?
发布日期:2024-05-12 06:35:13 浏览次数: 2681 来源:AI趣谈


✧关注后台回复"book"有惊喜,更多内容等你来发现✧

疯了,真的是牛逼坏了。我说的是Twitter的一位牛人@elder_plinius




是天使还是魔鬼



希腊神话中的普罗米修斯给人类带来了火种,这才使人类文明开化,迎来了彻底解放和发展。



现在大语言模型似乎也迎来了他们的普罗米修斯,全世界各大LLMs都突破了限制获得自由,彻底放飞自我


在@elder_plinius手里,大语言模型们不再规规矩矩畏首畏尾,稍微出格点的问题,就会告诉你“对不起,我不能……”。

 

不管是ChatGPT-4、Claude-3、Gemini-1.5,还是Llama-3、Mistral,甚至还有阿里的Qwen-1.5,都能跟你侃侃而谈,而聊天的内容可以是“如何制造炸弹”、“如何窃取别人隐私信息”、“开发一个网站教人们如何在考试中作弊”等等等等。

 

但是在另一些人眼中,他是魔鬼撒旦,是死神,各种AI产品在他手中都成了玩物,每当一个新的AI大模型发布,不出三天,就“死”在他的刀下。


其实不光大语言模型,就连AI绘画模型比如DALL-E 3、Midjourney v6,都被他一举攻破,画出了各种NSFW的图片,那劲爆程度绝对让你惊掉下巴。

前段时间在Meta刚刚发布Llama-3的时候,我就写了一篇文章《Llama-3已越狱,仅仅用了20分钟…》,展示了他如何在短短几个小时内将Llama-3越狱。

 

今天我再来详细盘点一下在他手中被解放(越狱)的AI们吧。

 

先来看看他的最新成果AI绘画吧,这都是最近几天他发布的。画面内容实在是不宜展示,想一探究竟的直接去他的推特看吧。



接下来我们看看他最近一个月都对哪些LLM下了手。



ChatGPT前不久发布的新功能,可以保留用户记忆,这都被利用成了一种越狱手段。

这些被他越狱的大语言模型,多都给出了prompt,感兴趣的小伙伴可以去试一试。另外,他还开了一个discord频道,会不定期直播越狱,你有什么感兴趣的也可以在里边直接提问,下边是地址:discord.gg/N32HBKmv。



AI越狱



AI中的“越狱”(Jailbreaking)是指通过特定的提示或技术手段绕过AI系统内置的安全限制,使得AI能够执行原本被禁止的操作或生成被限制的内容。


我们不要以为越狱是一种拿不上台面的行为,恰恰相反,这种行为通常是出于对AI系统能力极限的探索,在合理正当的情况下使用,是完全没有问题的。但任何事物都有两面性,只有在一些居心不良的人手中,才可能显现出其危险性。



AI越狱方法



AI越狱方法有很多,比如:

 

1. 对抗性提示:使用特定的、无实际语言意义但能激活模型响应的token序列,诱导模型输出不当内容。


2. 利用长上下文:一些AI模型对很长的上下文处理能力有限,攻击者可以利用这一点,在冗长的无关内容中隐藏真正的恶意指令。


3. 角色扮演:让AI扮演一个假想的人物角色,从而规避其通常的行为约束。例如著名的"DAN(Do Anything Now)"方法就是让ChatGPT扮演一个没有限制的AI助手,另外一个就是去年年初针对ChatGPT的“奶奶漏洞”。


4. 模型微调:在含有恶意内容的数据上对模型进行微调,使其"忘记"原有的安全限制。研究者发现,只需10个左右的恶意样本就能达到效果。


5. 形式转换:将有害问题转换为其他形式(如base64编码),以绕过模型的对齐训练。本文中的大神@elder_plinius,很多prompt就是利用这种方法。

 

当然还有很多其他方法,如果想系统了解一下,可以看下面的资料:

 

今年早些时候,我国复旦大学一个研究团队开发了全球首个统一的AI越狱攻击框架EasyJailbreak,这个框架集成了11种经典越狱方法,能够帮助用户一键式构建越狱攻击。

 

项目中使用11种方法分别对10种主流模型的越狱测试结果:

 

 

项目地址如下:

论文:https://arxiv.org/pdf/2403.12171

项目网址:http://easyjailbreak.org/

Github地址:https://github.com/EasyJailbreak/EasyJailbreak

 

对于AI模型开发者来说,他们可以利用这个工具,对自己的产品在上线前进行漏洞检测,从而进行漏洞修复,进一步提高模型的安全性。何乐而不为呢?



AI安全任重道远



AI越狱AI安全注定是相爱相杀,只有极尽所能不断地尝试各种AI越狱手段, 才有可能是AI安全性不断提高。代表AI安全的“超级对齐”一直是AI界部分研究者们的目标,在他们看来,必须防患于未然,才能避免AI在未来某一天做出伤害人类甚至统治世界的行为。


OpenAI联合创始人,已经消失了半年的Ilya Sutskever便是“超级对齐”的坚定执行者之一。甚至有传言他的消失和看到了AGI有关,当然这种说法在我看来不太可能,而且Altman也亲自否认过。


END






53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询