我要投稿

推理模型出现后，系统提示词的人设并未过时

发布日期：2025-04-01 05:21:38 浏览次数： 1620 作者：灰阶法典

一、R1等推理模型让人设提示词过时了？

AI系统提示词（System Prompt）是预先放模型内部的结构化指令集，相当于AI的“人格说明书”和“工作指南”，与用户直接输入的用户提示词（User Prompt）形成互补。一般包含角色定义、任务目标、行为边界、输出格式等规则。比如下列就是一个系统提示词的设计示例：

人设就属于系统提示词中的重要方面，在DeepseekR1推理模型出现之后，部分AI创作者说不需要再写人设提示词了，我觉得他们可能混淆了【用户提示词】和【系统提示词】。

用户提示词方面，他们说是用户可以直接输入所要完成的任务和目标，不再需要写人设，也不需要把工作流程规定得太死，如果写了反而会阻碍推理模型的创造力，理由主要是推理模型用了RL强化学习的方式。

但R1-Zero版本用的是RL强化推理，最终产品面世的R1版本，也是有加入了人类监督微调SFT的，不是纯粹的推理模型，而且现在GPT4O、Claude3.5，其实也兼具推理能力，只不过没有外露而已。

所以对于推理模型要不要写人设这一点，我还没有肯定的答案。因为我对写和不写产生的结果差异，很难分辨出来。

系统提示词方面，目前我用扣子AI应用开发平台在做佛陀功能的智能体时，仍然沿用之前的结构化提示词的写法，R1的回复效果也非常好，暂未找到更适合R1推理模型的系统提示词写法。以下是相同输入【人生没有钱怎么办】，V3和R1的回答，实质上差不多。

我之前有一种误区，以为采用了MoE架构的模型，会对系统提示词的人设有更好的遵循，我以为是有直接的因果关系，后来去查了资料发现是我想当然了。

它是什么？ 这是大模型的一种内部结构设计。它不像传统的“密集”模型那样用一个巨大的网络处理所有信息，而是包含多个相对较小的“专家”子网络和一个“门控”网络。
它如何工作？ 当模型接收到输入时（比如你的提示词），门控网络会判断输入中的这部分信息（例如一个词或一小段话）最适合由哪个或哪些“专家”来处理，然后只激活被选中的专家进行计算。
它的目的？ 主要为了提高计算效率（同样的总参数量下，每次推理激活的参数更少，可能更快、更省资源）。在可控的计算成本下，就能极大地增加模型的总参数量，扩展模型规模。

Moe是在模型的底层计算和架构层面运作的。它关心的是模型如何在内部处理信息，如何分工协作更高效。而系统提示词是在模型的高层行为指导和交互层面运作的，关注的是输出的“内容和风格，以及如何与用户互动。

一个模型采用MoE架构，并不代表它能否很好地遵循系统提示词设定的人设。同样，一个非MoE的密集型模型，也可能很好地遵循人设。架构选择和遵循指令的能力是两码事。

MoE的门控网络根据输入内容的局部特征来选择专家，而不是直接根据系统提示词里定义的抽象“人设”概念来选择。（虽然系统提示词也是输入的一部分，门控网络也会看到它，但路由主要基于更底层的模式匹配）。
MoE架构使得构建拥有更大总参数量的模型成为可能，因此，一个基于MoE构建的、能力非常强大的大模型，可能会因为它本身更“聪明”、能力更强，而能更精确、更稳定地扮演好系统提示词设定的人设。但这并非MoE架构本身带来的直接效果，而是MoE参与这种高能力模型的构建。
可能的专长化（理论上）： 如果在训练或微调过程中，模型经常处理需要特定人设或风格的任务，理论上MoE中的某些专家可能会逐渐对处理这类风格或任务相关的模式变得更擅长。但这更多是训练数据和任务分布带来的潜在副作用。

总结：

MoE是一种着眼于计算效率和模型规模扩展的架构选择。系统提示词中的人设是一种用于指导模型行为和输出风格的高级指令。它们处于不同层面，基本上是相互独立的。MoE架构带来的模型整体能力的提升，可以间接地让模型有更好的基础，去理解和执行系统提示词中设定的人设要求。