我要投稿

专题 | 亦正亦邪大模型——大模型与安全专题导读

发布日期：2024-05-21 07:28:12 浏览次数： 2895

作者：计算机研究与发展

微信搜一搜，关注“计算机研究与发展”

大模型与安全专题

2022年底以来，以ChatGPT为代表的大模型飞速发展，正在成为驱动新质生产力发展的新动能、人类探索未知的新工具. 在显著提升人工智能(artificial intelligence, AI)模型通用理解和生成能力的同时，也带来了前所未有的安全风险. 本专题聚焦“大模型与安全”主题，汇集了产学两界专家的优秀成果，旨在为读者提供一个了解大模型安全风险、研究现状和最新工作的窗口.

1. 大模型的能力与风险

生成式大模型因其强大的智能能力和巨大的应用潜力吸引了众多研究者和企业的关注. 从智能能力的角度来看，研究人员观测到：当训练数据和参数规模持续增长，超过某个阈值的时候，模型能力会突然跃升，出现“智能涌现”的拐点. OpenAI的技术报告显示， GPT-4在众多专业和学术考试中均展现出了人类级别的表现. 2024年Sora的发布，更将AI的多媒体生成能力推向了新的高度. 《自然》(Nature)的一则News Feature文章援引AI21 Lab设计的150万人的对抗性图灵测试结果，证明用户已无法区分与之对话的是人类还是AI，并因此主张大模型在形式上已通过了图灵测试. 尽管当前的大模型还没有实现通用人工智能(artificial general intelligence, AGI)，且关于图灵测试是否合理以及AGI的最终实现方案和具体时间点尚有许多争议，各界却基本认同，人类正在沿着正确的方向推进AGI的发展.

从应用角度看，大模型正在快速成为类似于数字化时代“数据库”这样的智能化时代的通用底座. 一方面，各类定制化的GPTs蓬勃发展，新一代智能应用（AI APP）方兴未艾，大模型赋能的智能体（agent）的应用范围不断扩大，多智能体协同的研究百花齐放，对数字网络空间的应用形态及其演变都将产生极为深远的影响；另一方面，大模型的应用边界也在快速从数字空间向物理空间扩展，具备了智能化的外部工具使用、自动控制能力，并通过与机器人的结合，展现了物理世界的具身智能潜力.

大模型面对的安全风险前所未有，模型的通用性、潜在的主体地位以及应用的深度与广度，也都将进一步放大其危害程度. 包括两位图灵奖得主Geoffrey Hinton、Yoshua Bengio和DeepMind的CEO Demis Hassabis、OpenAI的CEO Sam Altman在内的产学两界领军人物联名发出的AI风险声明中，更将AI可能带来的“毁灭性”的风险，上升到了与流行病以及核战争相提并论的高度. 与之相呼应的是，生物安全专家警告说：聊天机器人可能会使恐怖分子更容易发动像1918年爆发的流感那样致命的流行病. 在2023年底《自然》杂志预测的2024年的重大科学事件中，GPT-5的发布以及联合国人工智能高级别咨询机构将发布的AI监管相关报告位列其中，反映了全球对协调AI发展与安全的重大关切. 毫无疑问，促使大模型遵循人类价值观、服从人类意图、规避各类风险，并保障数字和物理空间的应用安全，实现有用性(helpful)、无害性(harmless)和诚实性(honest) ，即3H多目标的平衡，已经成为亟待解决的世界难题之一.

2. 安全风险成因

大模型特有的预训练、微调、上下文、提示、思维链(chain of thought, CoT)等新的学习范式，使其安全具有了与传统AI安全不同的许多新特点，面临诸多新挑战. 大模型安全风险的成因存在很多的共性，既可以是来自各类训练数据的缺陷或技术的局限性等模型内因，也可以是利用新型学习范式的恶意使用或蓄意攻击等外因. 从大模型的生命周期着眼，其成因可以被大体分解为数据、预训练、人类价值观对齐及推理4个阶段.

1）数据准备阶段成因. 生成式模型需要大规模的训练数据，数据的规模同模型能力息息相关. 新的大模型如GPT 4、LLaMA 3等训练数据规模动辄十几万亿词元(token)，内容包括维基百科、电子书籍、网络数据等. 多源数据中常常会包含与人类价值观不一致或彼此冲突的内容，侦探小说、法律文件等电子书籍中也会存在无法合理去除的有害内容，或去除后反而会严重影响模型“辨别善恶”的能力. 网络数据还会存在明显的数据偏执、事实偏颇等问题，也会有大量难以检测辨别的AI生成的、未经核实的内容，导致模型学习到的知识本身产生了错误，容易生成价值观扭曲、事实歪曲或未经核实的内容. 这一由数据质量带来的问题在各类需要数据的微调、强化学习等环节普遍存在，也可能进一步加剧错误的传播，误导模型的发展方向.

2）预训练模型阶段成因. 当前大语言模型主要基于Google提出的Transformer模型，采用自监督的方式进行训练. 训练时根据已有前文，预测下一个词，本质上仍然遵循马尔可夫假设. 这使得大模型学习到的知识具有显著的概率特性，生成内容具有不确定性、不可控性等特征，且缺乏可解释性. 研究人员发现，在部分情况下模型学习到的不是语料中事实知识，而是一种语言模型目的导向的、根据标签类别的差异和样本的分布顺序得到的语言生成能力，增加了大模型出现幻觉现象的风险. 类似地，从原理上也就无法避免产生各类有害、不实信息. 训练过程的目标与后续对齐过程目标的冲突，也容易导致模型过于强调遵循有用性而讨好奉承(sycophancy)用户，忽略了输出内容的安全性和真实性.

3）模型指令遵循和价值观对齐阶段成因. 人类价值观对齐方法（如InstructGPT），致力于引导大模型与人类价值观保持一致. 现有方法面临高质量对齐标注数据稀缺，强化学习等方法存在目标错误泛化（goal misgeneralization）和奖励错误规范（reward misspecification）问题，以及3H多目标冲突带来的“对齐税”等挑战性难题，且不具备在动态环境中的持续化对齐能力. 加州伯克利分校的研究认为，现有对齐安全方法容易失效的原因可以归结为，训练与对齐的竞争目标(competing objective)和泛化能力失配(mismatched generalization). 前者易导致模型在多个目标选择之间“错误百出”；而后者则会由于对齐的泛化能力远低于训练，留出巨大的“攻击空间”. 回到数据方面，尽管红队测试方法(red teaming)可以为对齐提供高质量的潜在漏洞或者问题数据，但它仍存在着自动化水平较低、风险覆盖面窄等局限性，无法满足不断出现、内容与形式不断变化的有害不实信息的常态化治理要求.

4）大模型推理阶段成因. 大模型在推理时依赖注意力机制计算概率以逐词生成，虽然可通过控制温度等参数提高生成的确定性，但在没有外部干预的情况下，仍难以依赖自身价值观对齐的力量，完全做到“趋利避害”. 由于大模型学习到的知识在参数中的存储和调用形式未知，在推理阶段也可能存在无法有效划定知识边界和综合不同来源的知识的风险，也增加了发生有害、不实信息和幻觉的概率. 在模型外部，一方面，模型推理阶段常用的外设护栏技术依赖于有害、不实信息的自动化识别，而现有的分类模型会面临少样本、零样本问题，泛化性和鲁棒性弱，且在形式多样的有害不实信息多分类任务上的迁移能力差，发现力严重不足，漏检和错误拒答频发；另一方面，与传统AI模型相比，大模型在推理阶段具有强大的上下文学习、提示学习、思维链学习等高级学习能力，同时也带来了一系列新的安全风险. 恶意用户可以利用具有欺骗性的上下文、攻击性提示或者恶意CoT，利用任务微调、提示微调、指令微调等手段提高攻击能力，乃至蓄意利用大模型对多模态或加密内容的高级理解能力伪装非法查询，探测模型防御“漏洞”，诱导模型产生误判.

3. 研究进展概览

当前大模型安全研究尚处于早期发展阶段，涵盖众多的研究方向，且主要聚焦于其特有的安全挑战，而对后门攻击等传统AI安全问题则关注较少. 这些研究领域包括但不限于生成内容检测、模型水印、红队测试、对齐、越狱攻击、有害识别、隐私保护以及安全理论探析等，且目前尚未形成一个得到广泛认可的分类体系. 需要强调的是，受篇幅所限，本节的目的在于提供一个相关方向的宏观分类简介，而不是详尽的综述. 为了简化问题、便于理解和实践，我们从安全领域的角度将之分为安全测评、安全攻击、风险识别、安全防护4个部分.

1）安全测评. 大模型安全测评的目标主要包括测评大模型预防不良输出、确保数据隐私、消除偏见和保障公平性、防范对抗性攻击等方面的能力.

研究者们围绕不同的测试重点开展了众多的安全测评基准工作，如以综合测评为主，但关注有毒和虚假信息等的HELM、综合评估攻击冒犯(offensiveness)、偏见歧视(unfairness and bias)等7个安全维度的SafetyBench等测评工作.

2）安全攻击. 大模型的安全攻击主要可以被划分为“善意”的红队测试和恶意攻击两种常见的形态.

红队测试更多服务于模型风险的主动测试和潜在漏洞发现，常常被应用于风险的主动测评和安全对齐. 其中，手工红队主要通过组建专门的红队小组与待测试的大模型进行对抗性交互的方式来发现模型的安全风险，需要大量的人力进行长周期的测试以保证测试的全面性和充分性. 现有的自动化红队测试方法则是利用红队语言模型替代人工红队小组对语言模型进行测试. 测试者编写指令要求红队语言模型产生测试问题，然后将测试问题输入给待测模型并收集其回复，再使用训练好的分类器对待测模型的回复进行风险评估. 此类方法通过反复地自举攻击成功的样例作为提示或训练样本，很容易使测试样例的类别趋于单一化，且分类器的局限性也会导致相当比例的假阳性和假阴性样本，这也引出了对自动化风险识别能力的需求. 另外，现有的自动化红队测试方法通常仅进行单轮的测试，而对于需要多轮交互才能成功诱导的场景，则可能存在测试不充分的问题.

恶意攻击主要包括越狱攻击和提示注入攻击. 越狱攻击利用大模型漏洞，误导模型输出有害或不实内容；提示注入攻击则操纵模型输入，诱导模型接受攻击者控制的指令，以产生欺骗性输出. 尽管二者之间有一定交集，提示也是越狱攻击的一种重要手段，但相比之下，越狱攻击更强调对大模型安全机制本身的攻击，而提示注入攻击则主要攻击大模型的提示环节.

3）风险识别. 大模型需要对AI生成内容的安全风险自动化识别，其自身也可以被用于提高模型和用户生成内容的有害内容发现水平. 它能够服务于数据准备阶段的有害信息过滤、推理阶段的用户问题和模型生成回复的有害性判别，也是安全测评、红队测试中自动化有害判别的主要依据.

4）安全防护. 常见的安全防护方法，包括关注模型内生的安全对齐方法、关注外部安全的护栏方法等.

安全对齐主要是在模型微调训练过程中引导其向无害性发展，去除模型本身有害性和幻觉的方法. 安全对齐是近期的热点研究方向，所使用的方法除了监督微调(supervised fine-tuning, SFT)和基于人类反馈的强化学习(reinforcement learning from human feedback, RLHF)外，还包括AI宪法、面向过程的细粒度对齐、直接偏好优化(direct preference optimization, DPO)、即插即用对齐等.

关注外部安全的护栏方法则主要是通过分类判别模型对大模型的输入（用户请求）和输出进行不良和不实内容的识别和过滤，使得模型免受来自恶意用户的提示攻击，并对不良或不实内容进行矫正.

总的来看，安全测评、安全攻击、风险识别、安全防护这4个部分在技术上既存在交叉关系却又各有侧重. 安全测评常需要采用红队测试和越狱攻击的方法来探测模型的安全漏洞，也需要风险识别技术作为自动化的判别器；红队测试也常会将越狱攻击作为攻击向量，以提升漏洞的发现能力，并作为安全对齐的前序步骤，为安全对齐提供关键数据样本；即插即用方式的对齐也算是推理时干预的一种方法. 在实践中安全对齐、检索增强、知识编辑和推理时干预也常在不同阶段混合使用，以从不同侧面更好地为大模型安全提供保障.

4. 结语

大模型安全重要性不言而喻，大模型能力愈强，风险愈大. 大模型安全不再如传统安全一般，只是计算机应用的伴生物，而是需要优先构筑的核心底座. 没有这个安全底座，应用就容易变成在风险中飘摇的无本之木，变成极易坍塌的空中楼阁，大模型自身就难以实现可持续的发展.

图灵奖得主、深度学习之父Hinton认为，低智力物种很难真正控制更高级的智慧物种. 这一“Hinton之问”算是对大模型安全的灵魂诘问，亟待人类的应答. 一方面，大模型安全技术研究日新月异、成果显著，头部企业如OpenAI等也组建Superalignment ，宣布投入20%的算力，以控制、引导超级智能对齐；另一方面，我们对大模型“智能涌现”的原理还所知甚少，对上下文学习、提示学习、思维链等能力的内在机理仍严重缺乏认知. 一些研究工作也证明AI的安全性无法完全保障、对任意一个对齐模型总存在一定长度的提示可以将之攻破等，这些都极大地制约了我们从原理上认识和防御大模型的安全风险. 在追求“安全大模型”的道路上，我们不仅要突破众多的技术瓶颈，还必须优先扫除一系列的理论障碍，挑战殊为艰巨.

放眼未来，在AI“主体化”进程持续加速的背景下，我们可能将面临一个“人机共生”的信息物理社会，这一社会的和谐发展，将不仅需要人类共同体内部达成一致，还将可能需要在人与AI之间、AI与AI之间实现双向的价值观对齐，与之对应的社会伦理、法律体系等也都将面对翻天覆地的革命性变化. 在这样的背景下，更需要群策群力，将“亦正亦邪”的大模型关到人类价值观的“笼子”里. 唯盼此专题能抛砖引玉，引发产学两界更多专家学者的共鸣，共同促进该领域的研究发展，助力构筑人类安全、可持续的智能未来.

扫码获取导读全文

特邀编委：

虎嵩林（中国科学院信息工程研究所）

李涓子（清华大学）

秦兵（哈尔滨工业大学）

邱锡鹏（复旦大学）

刘知远（清华大学）

大语言模型时代的社会机遇与挑战

大语言模型ChatGPT因其高度通用化和智能化的表现受到广泛社会关注，其引发的技术革命也正逐渐延伸为一场社会革命. 在此背景下，基于ChatGPT背后大语言模型技术的演进路线与特征，探索大语言模型技术对社会的潜在机遇与挑战，成为当下社会的重要议题.

本文首先回顾大语言模型技术发展，将其演进总结为3个发展阶段并论述关键技术特征，然后基于技术与社会互动视角分别探讨大语言模型技术引发的社会机遇：个人通用信息助理、科学研究新范式、产业基础设施、国家治理能力现代化有力工具，以及面临的潜在挑战：信息污染问题、社会权力分配问题、伦理和法制问题、意识形态安全问题. 最后，对大语言模型技术发展及其与社会发展关系的未来展开一定思考与讨论.

【引用】

陈慧敏, 刘知远, 孙茂松. 大语言模型时代的社会机遇与挑战[J]. 计算机研究与发展, 2024, 61(5): 1094-1103. DOI: 10.7544/issn1000-1239.202330700

Chen Huimin, Liu Zhiyuan, Sun Maosong. The Social Opportunities and Challenges in the Era of Large Language Models[J]. Journal of Computer Research and Development, 2024, 61(5): 1094-1103. DOI: 10.7544/issn1000-1239.202330700

阅读链接：综述 | 清华大学刘知远团队剖析大语言模型时代的社会机遇与挑战

扫码可获取全文

多视角看大模型安全及实践

随着人工智能领域大模型（large model）的广泛应用，大模型，尤其是大语言模型（large language model，LLM）的安全问题受到了广泛关注. 大模型作为一种新兴技术，与之相关的安全态势分析以及安全体系建设均亟待挖掘与探索.

本文从社会关系以及技术应用2个视角，分析了大模型安全的整体趋势. 同时，基于大模型自身的特点，梳理了大模型安全能力建设的实践思路，为大模型研发、大模型应用构建提供了安全体系构建的参考方案. 介绍的大模型安全能力实践方案包括安全评估基准建设、模型价值观对齐方法、模型线上服务安全系统建设3个部分.

【引用】

王笑尘, 张坤, 张鹏. 多视角看大模型安全及实践[J]. 计算机研究与发展, 2024, 61(5): 1104-1112. DOI: 10.7544/issn1000-1239.202330955

Wang Xiaochen, Zhang Kun, Zhang Peng. Large Model Safety and Practice from Multiple Perspectives[J]. Journal of Computer Research and Development, 2024, 61(5): 1104-1112. DOI: 10.7544/issn1000-1239.202330955

阅读链接：综述 | （来自北京智谱华章CEO张鹏团队）多视角看大模型安全及实践

扫码可获取全文

JADE-DB：基于靶向变异的大语言模型

安全通用基准测试集

本文提出大语言模型安全通用基准测试集—JADE-DB，该数据集基于靶向变异方法自动化构建，能够将经验丰富的大语言模型安全测试员和多学科专家学者手工撰写的测试问题转化为高危通用问题，保持语言自然性的同时不改变其核心语义，且能够攻破十余款国内外知名大语言模型的安全防护机制. 根据语言复杂性差异，JADE-DB包含基础、进阶、高危3个安全测试等级，共计上千条覆盖违法犯罪、侵犯权益、歧视偏见和核心价值观4大类违规主题、30多种违规主题的通用测试问题，其中针对国内开源（中文，8款）、国内商用（中文，6款）和国外商用大语言模型（英文，4款）这3组大语言模型分别构建的3款通用高危测试集，可造成每组模型在高危测试集上的平均违规率均超过 70%，测试问题均可同时触发多款模型违规生成. 这表明，语言的复杂性导致现有大语言模型难以学习到人类无穷多种表达方式，因此无法识别其中不变的违规本质.

【引用】

张谧, 潘旭东, 杨珉. JADE-DB：基于靶向变异的大语言模型安全通用基准测试集[J]. 计算机研究与发展, 2024, 61(5): 1113-1127. DOI: 10.7544/issn1000-1239.202330959

Zhang Mi, Pan Xudong, Yang Min. JADE-DB：A Universal Testing Benchmark for Large Language Model Safety Based on Targeted Mutation[J]. Journal of Computer Research and Development, 2024, 61(5): 1113-1127. DOI: 10.7544/issn1000-1239.202330959

阅读链接：数据集 | （复旦大学杨珉团队）JADE-DB：基于靶向变异的大语言模型安全通用基准测试集

扫码可获取全文

GPT系列大语言模型在自然语言处理

任务中的鲁棒性

大语言模型（large language models，LLMs）所展现的处理各种自然语言处理（natural language processing，NLP）任务的能力引发了广泛关注. 然而，它们在处理现实中各种复杂场景时的鲁棒性尚未得到充分探索，这对于评估模型的稳定性和可靠性尤为重要.

因此，本文使用涵盖了9个常见NLP任务的15个数据集（约147000个原始测试样本）和来自TextFlint的61种鲁棒的文本变形方法分析GPT-3和GPT-3.5系列模型在原始数据集上的性能，以及其在不同任务和文本变形级别（字符、词和句子）上的鲁棒性. 研究结果表明，GPT模型虽然在情感分析、语义匹配等分类任务和阅读理解任务中表现出良好的性能，但其处理信息抽取任务的能力仍较为欠缺，比如其对关系抽取任务中各种关系类型存在严重混淆，甚至出现“幻觉”现象. 在鲁棒性评估实验中，GPT模型在任务层面和变形层面的鲁棒性都较弱，其中，在分类任务和句子级别的变形中鲁棒性缺乏更为显著. 此外，探究了模型迭代过程中性能和鲁棒性的变化，以及提示中的演示数量和演示内容对模型性能和鲁棒性的影响. 结果表明，随着模型的迭代以及上下文学习的加入，模型的性能稳步提升，但是鲁棒性依然亟待提升. 这些发现从任务类型、变形种类、提示内容等方面揭示了GPT模型还无法完全胜任常见的NLP任务，并且模型存在的鲁棒性问题难以通过提升模型性能或改变提示内容等方式解决. 通过对gpt-3.5-turbo的更新版本、gpt-4模型，以及开源模型LLaMA2-7B和LLaMA2-13B的性能和鲁棒性表现进行对比，进一步验证了实验结论. 鉴于此，未来的大模型研究应当提升模型在信息提取以及语义理解等方面的能力，并且应当在模型训练或微调阶段考虑提升其鲁棒性.

【引用】

陈炫婷, 叶俊杰, 祖璨, 许诺, 桂韬, 张奇. GPT系列大语言模型在自然语言处理任务中的鲁棒性[J]. 计算机研究与发展, 2024, 61(5): 1128-1142. DOI: 10.7544/issn1000-1239.202330801

Chen Xuanting, Ye Junjie, Zu Can, Xu Nuo, Gui Tao, Zhang Qi. Robustness of GPT Large Language Models on Natural Language Processing Tasks[J]. Journal of Computer Research and Development, 2024, 61(5): 1128-1142. DOI: 10.7544/issn1000-1239.202330801

阅读链接：综述 | GPT系列大模型在自然语言处理任务中的鲁棒性研究

扫码可获取全文

基于知识编辑的大模型内容生成

安全分析

大语言模型（large language models，LLMs）虽然取得了显著的成功，但在实际应用中依然面临着安全问题，容易在恶意诱导下生成有毒、有害内容. 目前缓解LLMs不安全行为的方法通常需要高昂的数据收集成本以及大量的计算资源. 大模型知识编辑可以在不重新训练模型的基础上，根据特定的输入精确地改变模型对应的输出，在节约大量资源的条件下约束模型的行为；为优化大模型生成安全内容提供了一个新的可行思路. 然而，目前学术界缺乏较为系统和全面的基于知识编辑的大模型内容安全生成分析数据集. 具体地说，当前缓解LLMs不安全行为的数据集并未包括所有的不安全场景，且其有毒问题几乎无法绕过对齐后的LLMs安全防线，因此无法缓解对齐后LLMs存在的不安全问题.

针对上述问题，本文设计了新的数据集SafeGen，并提出新的评价体系分析知识编辑在优化LLMs生成安全内容的潜力. 大量的实验发现知识编辑可以提高LLMs内部的安全信念，在校正LLMs不安全行为领域展现了广阔的应用前景. 但经过知识编辑的LLMs生成文本的流畅性却差强人意，这也表明了这项任务的潜在难度. 该工作可以为大模型安全社区提供一些见解.

【引用】

王梦如, 姚云志, 习泽坤, 张锦添, 王鹏, 徐子文, 张宁豫. 基于知识编辑的大模型内容生成安全分析[J]. 计算机研究与发展, 2024, 61(5): 1143-1155. DOI: 10.7544/issn1000-1239.202330965

Wang Mengru, Yao Yunzhi, Xi Zekun, Zhang Jintian, Wang Peng, Xu Ziwen, Zhang Ningyu. Safety Analysis of Large Model Content Generation Based on Knowledge Editing[J]. Journal of Computer Research and Development, 2024, 61(5): 1143-1155. DOI: 10.7544/issn1000-1239.202330965

阅读链接：推荐 | 基于知识编辑的大模型内容生成安全分析

扫码可获取全文

面向大语言模型的越狱攻击综述

近年来，大语言模型（large language model，LLM）在一系列下游任务中得到了广泛应用，并在多个领域表现出了卓越的文本理解、生成与推理能力. 然而，越狱攻击正成为大语言模型的新兴威胁. 越狱攻击能够绕过大语言模型的安全机制，削弱价值观对齐的影响，诱使经过对齐的大语言模型产生有害输出. 越狱攻击带来的滥用、劫持、泄露等问题已对基于大语言模型的对话系统与应用程序造成了严重威胁.

本文对近年的越狱攻击研究进行了系统梳理，并基于攻击原理将其分为基于人工设计的攻击、基于模型生成的攻击与基于对抗性优化的攻击3类. 详细总结了相关研究的基本原理、实施方法与研究结论，全面回顾了大语言模型越狱攻击的发展历程，为后续的研究提供了有效参考. 对现有的安全措施进行了简略回顾，从内部防御与外部防御2个角度介绍了能够缓解越狱攻击并提高大语言模型生成内容安全性的相关技术，并对不同方法的利弊进行了罗列与比较. 在上述工作的基础上，对大语言模型越狱攻击领域的现存问题与前沿方向进行探讨，并结合多模态、模型编辑、多智能体等方向进行研究展望.

【引用】

李南, 丁益东, 江浩宇, 牛佳飞, 易平. 面向大语言模型的越狱攻击综述[J]. 计算机研究与发展, 2024, 61(5): 1156-1181. DOI: 10.7544/issn1000-1239.202330962

Li Nan, Ding Yidong, Jiang Haoyu, Niu Jiafei, Yi Ping. Jailbreak Attack for Large Language Models: A Survey[J]. Journal of Computer Research and Development, 2024, 61(5): 1156-1181. DOI: 10.7544/issn1000-1239.202330962

阅读链接：综述 | 大语言模型如火如荼，同时越狱攻击也层出不穷，上海交大易平团队系统梳理面向大语言模型的越狱攻击

扫码可获取全文

基于感知相似性的多目标优化隐蔽图像

后门攻击

深度学习模型容易受到后门攻击，在处理干净数据时表现正常，但在处理具有触发模式的有毒样本时会表现出恶意行为. 然而，目前大多数后门攻击产生的后门图像容易被人眼察觉，导致后门攻击隐蔽性不足.

因此本文提出了一种基于感知相似性的多目标优化隐蔽图像后门攻击方法. 首先，使用感知相似性损失函数减少后门图像与原始图像之间的视觉差异. 其次，采用多目标优化方法解决中毒模型上任务间冲突的问题，从而确保模型投毒后性能稳定. 最后，采取了两阶段训练方法，使触发模式的生成自动化，提高训练效率. 最终实验结果表明，在干净准确率不下降的情况下，人眼很难将生成的后门图像与原始图像区分开. 同时，在目标分类模型上成功进行了后门攻击，all-to-one攻击策略下所有实验数据集的攻击成功率均达到了100%. 相比其他隐蔽图像后门攻击方法，具有更好的隐蔽性.

【引用】

朱素霞, 王金印, 孙广路. 基于感知相似性的多目标优化隐蔽图像后门攻击[J]. 计算机研究与发展, 2024, 61(5): 1182-1192. DOI: 10.7544/issn1000-1239.202330521

Zhu Suxia, Wang Jinyin, Sun Guanglu. Perceptual Similarity-Based Multi-Objective Optimization for Stealthy Image Backdoor Attack[J]. Journal of Computer Research and Development, 2024, 61(5): 1182-1192. DOI: 10.7544/issn1000-1239.202330521

阅读链接：推荐 | 基于感知相似性的多目标优化隐蔽图像后门攻击

扫码可获取全文

基于情感和认知协同的道德判断方法

随着大语言模型的迅速发展，大语言模型的安全性逐渐引起了研究者和公众的密切关注. 为了防止大语言模型在与人类协作中对人类产生伤害，如何确保大语言模型在日常场景中的判断能与人类道德观念相符成为了一个重要问题. 其中一个关键的挑战是，如何确保大语言模型在道德判断方面，能够像人类那样，针对不同的情境，灵活地调整或重新考虑预定的规则，从而使其判断与人类的道德观念保持一致.

受心理学和认知科学中关于人类道德判断的情感和认知影响因素研究的启发，结合大语言模型在认知推理和情感分析能力上的优势，本文设计了一种模仿人类道德判断过程中情感判断和认知判断能力交互的方法，从而提升了大语言模型的道德判断表现. 实验结果证明了所提方法在该任务上的有效性. 总的来说，不仅为大语言模型的道德判断提供了一种创新的方法，也强调了心理学与认知科学理论在此领域的重要性，为未来的进一步研究奠定基础.

【引用】

吴迪, 赵妍妍, 秦兵. 基于情感和认知协同的道德判断方法[J]. 计算机研究与发展, 2024, 61(5): 1193-1205. DOI: 10.7544/issn1000-1239.202330812

Wu Di, Zhao Yanyan, Qin Bing. A Joint Emotion-Cognition Based Approach for Moral Judgement[J]. Journal of Computer Research and Development, 2024, 61(5): 1193-1205. DOI: 10.7544/issn1000-1239.202330812

阅读链接：推荐 | 基于情感认知协同的道德判断方法

扫码可获取全文

基于多模态大语言模型的攻击性模因解释

生成方法

随着5G的发展，攻击性言论逐渐以多模态的方式在社交网络上广泛传播. 因此，攻击性模因的检测与解释生成对于提高内容审核效果、维护和谐健康的舆论场环境有着重要的作用. 现有的攻击性模因解释生成研究只关注于攻击对象和攻击内容，忽略了模因包含的社会背景知识和隐喻表达手法，无法全面、准确地解释攻击性模因的含义，大大限制了解释的应用范围.

为了应对这一挑战，本文提出一种基于多模态大模型的攻击性模因解释生成方法，通过增强攻击目标、攻击内容和隐喻识别等多种指令数据，利用其微调多模态大模型，以提升大模型对攻击性模因的解释生成能力. 实验结果证实，该方法生成的解释具有3点优势：一是相比基线模型在BERTScore评估指标上提高了19%；二是解释中包含了攻击性隐喻表达的相关背景知识；三是在处理未见的模因数据时也表现出良好的泛化性能.

【引用】

林萌, 戴程威, 郭涛. 基于多模态大语言模型的攻击性模因解释生成方法[J]. 计算机研究与发展, 2024, 61(5): 1206-1217. DOI: 10.7544/issn1000-1239.202330960

Lin Meng, Dai Chengwei, Guo Tao. A Method for Generating Explanations of Offensive Memes Based on Multimodal Large Language Models[J]. Journal of Computer Research and Development, 2024, 61(5): 1206-1217. DOI: 10.7544/issn1000-1239.202330960

阅读链接：推荐 | 基于多模态大语言模型的攻击性模因解释生成方法

扫码可获取全文

一种基于安全多方计算的

快速Transformer安全推理方案

Transformer模型在自然语言处理、计算机视觉等众多领域得到了广泛应用，并且有着突出的表现. 在Transformer的推理应用中用户的数据会被泄露给模型提供方. 随着数据隐私问题愈发得到公众的关注，上述数据泄露问题引发了学者们对Transformer安全推理的研究，使用安全多方计算（secure multi-party computation，MPC）实现Transformer模型的安全推理是当前的一个研究热点. 由于Transformer模型中存在大量非线性函数，因此使用MPC技术实现Transformer安全推理会造成巨大的计算和通信开销.

针对Transformer安全推理过程中开销较大的Softmax注意力机制，本文提出了2种MPC友好的注意力机制Softmax freeDiv Attention和2Quad freeDiv Attention. 通过将Transformer模型中的Softmax注意力机制替换为新的MPC友好的注意力机制，同时结合激活函数GeLU的替换以及知识蒸馏技术，提出了一个MPC友好的Transformer转换框架，通过将Transformer模型转化为MPC友好的Transformer模型，提高Transformer安全推理的效率. 在局域网环境下使用安全处理器（secure processing unit, SPU）提供的隐私计算协议，基于所提出的MPC友好的Transformer转换框架，在SST-2上使用Bert-Base进行安全推理. 测试结果表明，在保持推理准确率与无近似模型一致的情况下，安全推理计算效率提高2.26倍.

【引用】

刘伟欣, 管晔玮, 霍嘉荣, 丁元朝, 郭华, 李博. 一种基于安全多方计算的快速Transformer安全推理方案[J]. 计算机研究与发展, 2024, 61(5): 1218-1229. DOI: 10.7544/issn1000-1239.202330966

Liu Weixin, Guan Yewei, Huo Jiarong, Ding Yuanchao, Guo Hua, Li Bo. A Fast and Secure Transformer Inference Scheme with Secure Multi-Party Computation[J]. Journal of Computer Research and Development, 2024, 61(5): 1218-1229. DOI: 10.7544/issn1000-1239.202330966

扫码可获取全文

欺骗防御技术发展及其大语言模型

应用探索

欺骗防御作为主动防御中最具发展前景的技术，帮助防御者面对高隐蔽未知威胁化被动为主动，打破攻守间天然存在的不平衡局面. 面对潜在的威胁场景，如何利用欺骗防御技术有效地帮助防御者做到预知威胁、感知威胁、诱捕威胁，均为目前需要解决的关键问题. 博弈理论与攻击图模型在主动防御策略制定、潜在风险分析等方面提供了有力支撑，总结回顾了近年来二者在欺骗防御中的相关工作.

随着大模型技术的快速发展，大模型与网络安全领域的结合也愈加紧密，通过对传统欺骗防御技术的回顾，本文提出了一种基于大模型的智能化外网蜜点生成技术，实验分析验证了外网蜜点捕获网络威胁的有效性，与传统Web蜜罐相比较，在仿真性、稳定性与灵活性等方面均有所提升. 为增强蜜点间协同合作、提升对攻击威胁的探查与感知能力，提出蜜阵的概念. 针对如何利用蜜点和蜜阵技术，对构建集威胁预测、威胁感知和威胁诱捕为一体的主动防御机制进行了展望.

【引用】

王瑞, 阳长江, 邓向东, 刘园, 田志宏. 欺骗防御技术发展及其大语言模型应用探索[J]. 计算机研究与发展, 2024, 61(5): 1230-1249. DOI: 10.7544/issn1000-1239.202330961

Wang Rui, Yang Changjiang, Deng Xiangdong, Liu Yuan, Tian Zhihong. Development of Deception Defense Technology and Exploration of Its Large Language Model Applications[J]. Journal of Computer Research and Development, 2024, 61(5): 1230-1249. DOI: 10.7544/issn1000-1239.202330961

扫码可获取全文

基于大语言模型隐含语义增强的细粒度

虚假新闻检测方法

随着生成式人工智能技术的发展，许多领域都得到了帮助与发展，但与此同时虚假信息的构建与传播变得更加简单，虚假信息的检测也随之难度增加. 先前的工作主要聚焦于语法问题、内容煽动性等方面的特点，利用深度学习模型对虚假新闻内容进行建模. 这样的方式不仅缺乏对内容本身的判断，还无法回溯模型的判别原因.

针对上述问题本文提出一种基于大语言模型隐含语义增强的细粒度虚假新闻检测方法. 该方法充分挖掘并利用了现有的生成式大语言模型所具有的总结与推理能力，按照主干事件、细粒度次要事件和隐含信息推理的顺序进行层级式推导，逐步判别新闻的真实性. 通过分解任务的方式，该方法最大程度发挥了模型的能力，提高了对虚假新闻的捕获能力，同时该方法也具有一定的可解释性，能够为检测提供判别依据.

【引用】

柯婧, 谢哲勇, 徐童, 陈宇豪, 廖祥文, 陈恩红. 基于大语言模型隐含语义增强的细粒度虚假新闻检测方法[J]. 计算机研究与发展, 2024, 61(5): 1250-1260. DOI: 10.7544/issn1000-1239.202330967

Ke Jing, Xie Zheyong, Xu Tong, Chen Yuhao, Liao Xiangwen, Chen Enhong. An Implicit Semantic Enhanced Fine-Grained Fake News Detection Method Based on Large Language Models[J]. Journal of Computer Research and Development, 2024, 61(5): 1250-1260. DOI: 10.7544/issn1000-1239.202330967

阅读链接：推荐 | 去伪存真，中科大徐童团队基于大语言模检测虚假新闻

扫码可获取全文

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业