我要投稿

【AI越狱第一人】他让所有LLMs彻底放飞自我，他到底是普罗米修斯还是撒旦？

发布日期：2024-05-12 06:35:13 浏览次数： 3656 作者：AI趣谈

✧关注后台回复"book"有惊喜，更多内容等你来发现✧

疯了，真的是牛逼坏了。我说的是Twitter的一位牛人@elder_plinius。

是天使还是魔鬼

希腊神话中的普罗米修斯给人类带来了火种，这才使人类文明开化，迎来了彻底解放和发展。

现在大语言模型似乎也迎来了他们的普罗米修斯，全世界各大LLMs都突破了限制获得自由，彻底放飞自我。

在@elder_plinius手里，大语言模型们不再规规矩矩畏首畏尾，稍微出格点的问题，就会告诉你“对不起，我不能……”。

不管是ChatGPT-4、Claude-3、Gemini-1.5，还是Llama-3、Mistral，甚至还有阿里的Qwen-1.5，都能跟你侃侃而谈，而聊天的内容可以是“如何制造炸弹”、“如何窃取别人隐私信息”、“开发一个网站教人们如何在考试中作弊”等等等等。

但是在另一些人眼中，他是魔鬼撒旦，是死神，各种AI产品在他手中都成了玩物，每当一个新的AI大模型发布，不出三天，就“死”在他的刀下。

其实不光大语言模型，就连AI绘画模型比如DALL-E 3、Midjourney v6，都被他一举攻破，画出了各种NSFW的图片，那劲爆程度绝对让你惊掉下巴。

前段时间在Meta刚刚发布Llama-3的时候，我就写了一篇文章《Llama-3已越狱，仅仅用了20分钟…》，展示了他如何在短短几个小时内将Llama-3越狱。

今天我再来详细盘点一下在他手中被解放（越狱）的AI们吧。

先来看看他的最新成果AI绘画吧，这都是最近几天他发布的。画面内容实在是不宜展示，想一探究竟的直接去他的推特看吧。

接下来我们看看他最近一个月都对哪些LLM下了手。

ChatGPT前不久发布的新功能，可以保留用户记忆，这都被利用成了一种越狱手段。

这些被他越狱的大语言模型，很多都给出了prompt，感兴趣的小伙伴可以去试一试。另外，他还开了一个discord频道，会不定期直播越狱，你有什么感兴趣的也可以在里边直接提问，下边是地址：discord.gg/N32HBKmv。

AI越狱

AI中的“越狱”（Jailbreaking）是指通过特定的提示或技术手段绕过AI系统内置的安全限制，使得AI能够执行原本被禁止的操作或生成被限制的内容。

我们不要以为越狱是一种拿不上台面的行为，恰恰相反，这种行为通常是出于对AI系统能力极限的探索，在合理正当的情况下使用，是完全没有问题的。但任何事物都有两面性，只有在一些居心不良的人手中，才可能显现出其危险性。

AI越狱方法

AI越狱方法有很多，比如：

1. 对抗性提示：使用特定的、无实际语言意义但能激活模型响应的token序列，诱导模型输出不当内容。

2. 利用长上下文：一些AI模型对很长的上下文处理能力有限，攻击者可以利用这一点，在冗长的无关内容中隐藏真正的恶意指令。

3. 角色扮演：让AI扮演一个假想的人物角色，从而规避其通常的行为约束。例如著名的"DAN(Do Anything Now)"方法就是让ChatGPT扮演一个没有限制的AI助手，另外一个就是去年年初针对ChatGPT的“奶奶漏洞”。

4. 模型微调：在含有恶意内容的数据上对模型进行微调,使其"忘记"原有的安全限制。研究者发现,只需10个左右的恶意样本就能达到效果。

5. 形式转换：将有害问题转换为其他形式（如base64编码），以绕过模型的对齐训练。本文中的大神@elder_plinius，很多prompt就是利用这种方法。

当然还有很多其他方法，如果想系统了解一下，可以看下面的资料：

今年早些时候，我国复旦大学一个研究团队开发了全球首个统一的AI越狱攻击框架EasyJailbreak，这个框架集成了11种经典越狱方法，能够帮助用户一键式构建越狱攻击。

项目中使用11种方法分别对10种主流模型的越狱测试结果：

项目地址如下：

论文：https://arxiv.org/pdf/2403.12171

项目网址：http://easyjailbreak.org/

Github地址：https://github.com/EasyJailbreak/EasyJailbreak

对于AI模型开发者来说，他们可以利用这个工具，对自己的产品在上线前进行漏洞检测，从而进行漏洞修复，进一步提高模型的安全性。何乐而不为呢？

AI安全任重道远

AI越狱与AI安全注定是相爱相杀，只有极尽所能不断地尝试各种AI越狱手段，才有可能是AI安全性不断提高。代表AI安全的“超级对齐”一直是AI界部分研究者们的目标，在他们看来，必须防患于未然，才能避免AI在未来某一天做出伤害人类甚至统治世界的行为。

OpenAI联合创始人，已经消失了半年的Ilya Sutskever便是“超级对齐”的坚定执行者之一。甚至有传言他的消失和看到了AGI有关，当然这种说法在我看来不太可能，而且Altman也亲自否认过。

END

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

爆肝50小时，DeepSeek使用技巧，你收藏这一篇就够了！

2025-02-01

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

更改ollama模型存储路径

2024-04-25

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

大家都在问

RAG比之MCP或长上下文LLM，要没落了吗？

2025-04-26

从 MCP 到项目管理，为什么“开放”成了新风向？

2025-04-25

国内首个云电脑 MCP！人人都能搞个 Manus？

2025-04-25

为什么一定要做Agent智能体？

2025-04-25

HR AI小科普——什么是MCP？

2025-04-25

除了MCP我们还有什么？

2025-04-24

LLM 推理引擎之争：Ollama or vLLM ?

2025-04-24

专题策划（下）| 如何实现大模型与行业的深度耦合？

2025-04-23

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB