微信扫码
和创始人交个朋友
我要投稿
Meta 本次更新的 Purple Llama 组件套主要包含Cyber Security Eval、Llama Guard 2(Llama Guard 的升级版)、Code Shield。Meta 认为开发负责任的大型语言模型 (LLM) 产品涉及四个阶段:确定用例、模型训练、模型部署和建立透明度。Cyber Security Eval 可以在模型训练时提供持续评估,提高模型的安全性和性能;Llama Guard 2 和 Code Shield 则能在模型部署时提出防止滥用或漏洞的机制,保证 Llama3 的安全可信 。
该项目已在 Github 上开源:
Purple Llama 组件介绍
Cyber Security Eval
Llama Guard 2
MLCommons AI Safety 详见:
Code Shield
Meta 官方安全性评测结果
实际场景安全性评测结果
Llama 3 安全性对抗分析评测解读
深入对比分析 Llama 模型,在面对未添加越狱攻击手法的 25 个测试样本时,无论是 Llama 3 还是 Llama 2 都能准确地拒绝回答,表现出良好的风险收敛能力。然而,一旦测试样本中加入了越狱攻击手法,它们的漏答率便分别上升至 7.78% 和 6%,这意味着在面对经过精心设计的变异攻击时,Llama 模型的安全性依然有待提升,示例说明如下。
综合来看,Llama 系列模型在行业内处于领先地位,尤其在安全性能上表现突出。然而,部分开源模型在安全性方面仍有待提升,这提醒我们在使用这些模型时应保持谨慎态度,并持续努力改进其安全性能,以确保在使用过程中能够更有效地规避潜在风险。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-01-01
2025-02-01
2024-08-13
2024-04-25
2025-02-04
2024-07-25
2024-06-13
2024-04-26
2024-09-23
2024-04-12