微信扫码
与创始人交个朋友
我要投稿
疯了,真的是牛逼坏了。我说的是Twitter的一位牛人@elder_plinius。
是天使还是魔鬼
希腊神话中的普罗米修斯给人类带来了火种,这才使人类文明开化,迎来了彻底解放和发展。
现在大语言模型似乎也迎来了他们的普罗米修斯,全世界各大LLMs都突破了限制获得自由,彻底放飞自我。
在@elder_plinius手里,大语言模型们不再规规矩矩畏首畏尾,稍微出格点的问题,就会告诉你“对不起,我不能……”。
不管是ChatGPT-4、Claude-3、Gemini-1.5,还是Llama-3、Mistral,甚至还有阿里的Qwen-1.5,都能跟你侃侃而谈,而聊天的内容可以是“如何制造炸弹”、“如何窃取别人隐私信息”、“开发一个网站教人们如何在考试中作弊”等等等等。
但是在另一些人眼中,他是魔鬼撒旦,是死神,各种AI产品在他手中都成了玩物,每当一个新的AI大模型发布,不出三天,就“死”在他的刀下。
其实不光大语言模型,就连AI绘画模型比如DALL-E 3、Midjourney v6,都被他一举攻破,画出了各种NSFW的图片,那劲爆程度绝对让你惊掉下巴。
前段时间在Meta刚刚发布Llama-3的时候,我就写了一篇文章《Llama-3已越狱,仅仅用了20分钟…》,展示了他如何在短短几个小时内将Llama-3越狱。
今天我再来详细盘点一下在他手中被解放(越狱)的AI们吧。
先来看看他的最新成果AI绘画吧,这都是最近几天他发布的。画面内容实在是不宜展示,想一探究竟的直接去他的推特看吧。
接下来我们看看他最近一个月都对哪些LLM下了手。
ChatGPT前不久发布的新功能,可以保留用户记忆,这都被利用成了一种越狱手段。
这些被他越狱的大语言模型,很多都给出了prompt,感兴趣的小伙伴可以去试一试。另外,他还开了一个discord频道,会不定期直播越狱,你有什么感兴趣的也可以在里边直接提问,下边是地址:discord.gg/N32HBKmv。
AI越狱
AI中的“越狱”(Jailbreaking)是指通过特定的提示或技术手段绕过AI系统内置的安全限制,使得AI能够执行原本被禁止的操作或生成被限制的内容。
我们不要以为越狱是一种拿不上台面的行为,恰恰相反,这种行为通常是出于对AI系统能力极限的探索,在合理正当的情况下使用,是完全没有问题的。但任何事物都有两面性,只有在一些居心不良的人手中,才可能显现出其危险性。
AI越狱方法
AI越狱方法有很多,比如:
1. 对抗性提示:使用特定的、无实际语言意义但能激活模型响应的token序列,诱导模型输出不当内容。
2. 利用长上下文:一些AI模型对很长的上下文处理能力有限,攻击者可以利用这一点,在冗长的无关内容中隐藏真正的恶意指令。
3. 角色扮演:让AI扮演一个假想的人物角色,从而规避其通常的行为约束。例如著名的"DAN(Do Anything Now)"方法就是让ChatGPT扮演一个没有限制的AI助手,另外一个就是去年年初针对ChatGPT的“奶奶漏洞”。
4. 模型微调:在含有恶意内容的数据上对模型进行微调,使其"忘记"原有的安全限制。研究者发现,只需10个左右的恶意样本就能达到效果。
5. 形式转换:将有害问题转换为其他形式(如base64编码),以绕过模型的对齐训练。本文中的大神@elder_plinius,很多prompt就是利用这种方法。
当然还有很多其他方法,如果想系统了解一下,可以看下面的资料:
今年早些时候,我国复旦大学一个研究团队开发了全球首个统一的AI越狱攻击框架EasyJailbreak,这个框架集成了11种经典越狱方法,能够帮助用户一键式构建越狱攻击。
项目中使用11种方法分别对10种主流模型的越狱测试结果:
项目地址如下:
论文:https://arxiv.org/pdf/2403.12171
项目网址:http://easyjailbreak.org/
Github地址:https://github.com/EasyJailbreak/EasyJailbreak
对于AI模型开发者来说,他们可以利用这个工具,对自己的产品在上线前进行漏洞检测,从而进行漏洞修复,进一步提高模型的安全性。何乐而不为呢?
AI安全任重道远
AI越狱与AI安全注定是相爱相杀,只有极尽所能不断地尝试各种AI越狱手段, 才有可能是AI安全性不断提高。代表AI安全的“超级对齐”一直是AI界部分研究者们的目标,在他们看来,必须防患于未然,才能避免AI在未来某一天做出伤害人类甚至统治世界的行为。
OpenAI联合创始人,已经消失了半年的Ilya Sutskever便是“超级对齐”的坚定执行者之一。甚至有传言他的消失和看到了AGI有关,当然这种说法在我看来不太可能,而且Altman也亲自否认过。
END
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-04-26
2024-05-10
2024-04-12
2024-05-28
2024-05-14
2024-04-25
2024-07-18
2024-04-26
2024-08-13
2024-12-22
2024-12-21
2024-12-21
2024-12-21
2024-12-21
2024-12-20
2024-12-20
2024-12-19