我要投稿

让 LLM 来评判 | 设计你自己的评估 prompt

发布日期：2025-03-31 21:06:13 浏览次数： 1675 作者：Hugging Face

通用 prompt 设计建议

我总结的互联网上通用 prompt 的通用设计原则如下:

任务描述清晰:

Your task is to do X (你的任务是 X).
You will be provided with Y (你拿到的信息是 Y).

评估标准精细，评分细则详尽 (如有必要)：

You should evaluate property Z on a scale of 1 - 5, where 1 means ... (根据属性 Z 的表现进行评分，评分范围为 1 - 5，其中 1 分表示 ...)
You should evaluate if property Z is present in the sample Y. Property Z is present if ... (请指出样本 Y 中是否具备属性 Z，如果具备，那么 ...)

加入一些 “推理” 评估步骤

To judge this task, you must first make sure to read sample Y carefully to identify ..., then ... (评估此任务之前，请先仔细阅读样本 Y，识别出 ...，然后再 ...)

输出格式明确 (添加特定字段可以提升一致性)

Your answer should be provided in JSON, with the following format {"Score": Your score, "Reasoning": The reasoning which led you to this score} (以 JSON 格式回答，格式为 {"Score": 评分, "Reasoning": 评分推理过程})

Prompt 书写灵感可以参考或的 prompt 模板。

其他要点:

成对比较比对输出评分，且通常更稳健
如果任务确实需要对输出评分为具体的值，建议使用整数，并详细解释，或添加说明 prompt 如 provide 1 point for this characteristic of the answer, 1 additional point if ... (回答具备某项特性得 1 分，如果 ... 再加 1 分) 等
尽量每评估一项能力就使用专门评分 prompt，会得到更好而鲁棒的结果

提升评估准确性

可以通过以下方式或技术来提升评估准确性 (有可能会增加成本):

Few-shot 示例：提供少量示例可以帮助模型理解和推理，但也会增加上下文长度。
引用参考：提供参考内容可以提高模型输出的准确性。
思维链 (CoT) ：要求模型 在评分之前 给出推理过程，可以(参考这篇)。
多轮分析：可以更好地
陪审团机制：汇总多个评价模型的结果。

使用多个小模型替代一个大模型可以大幅降低成本。
也可以使用一个模型的多个温度参数来进行多次实验。

社区意外发现，prompt 引入奖励机制 (例如：回答正确将得到一只小猫) 可以提高回答正确性。这个方法的效果视场景而异，你可以根据需求灵活调整。

注：如要减少模型偏见，可以参考社会学中的问卷设计，然后根据使用场景来书写 prompt。如想使用模型来替代人工评估，可以设计类似的评价指标：如计算标注员一致性，使用正确的问卷方法来减少偏见等。

不过在实际应用中，大多数人并不需要完全可复现且高质量无偏的评估，快速且略显粗糙的 prompt 就能满足需求。(只要知悉使用后果，这种情况也是能接受的)。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-28

拨开MCP的迷雾，聊聊LLM工具调用的本质（二）：Prompt和API限定法

2025-04-27

扔掉你的“提示词大全”吧，来聊聊语言模型真正诡异的地方

2025-04-27

从命令到共创：AI提示词如何释放你的创造力？

2025-04-27

GPT-4o(多模态版)、Claude3.7、Gemini2.5最新系统提示词！

2025-04-27

Google：人人都能成为Prompt大师

2025-04-26

Manus 完整版系统提示词

2025-04-25

Claude 3.7 赋能决策分析！运用卡尼曼理论，避开常见思维误区（附Prompt模板）

2025-04-24

偷感极重，Cursor、Manus等多家常用AI工具底层提示词被曝光。

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

如何选择AI Agent框架？五种主流AI Agent框架对比

2024-08-20

一文讲透AI Prompt提示词工程 (上）

2024-06-29

Chat GPT不知怎么问？102种行业的Prompt提示词大全来了

2023-06-08

10分钟打造小红书？| 42个Cursor神级提示词（全网最新最全）

2024-09-17

更好的提示词？快试试这个方法来套取大模型的系统提示词吧

2024-06-27

使用ChatGPT显著提升学术写作水平的实用攻略，附顶级学术提示词指令

2024-06-26

提示词最佳实践（一）：Prompt框架

2024-07-09

玩转大模型的第一步——提示词(Prompt)工程【抛砖篇】

2024-07-12

豆包、kimi 这些大模型系统提示词里写了啥？(一)

2024-09-16

图解DSPy：Prompt的时代终结者？！

2024-06-14

大家都在问

从命令到共创：AI提示词如何释放你的创造力？

2025-04-27

为什么我们在AI提示词上投入的智慧，最终却变成了数字垃圾？

2025-04-20

思维链（Chain of Thought）是什么？有什么价值？怎么用？

2025-04-16

为什么提示工程，可以驾驭大模型？

2025-04-11

Claude 3.7 核心提示词曝光｜最懂提示词的大模型公司，现在怎么写 Prompt？

2025-02-25

我是如何基于 DeepSeek-R1 构建出高效学习Agent的？

2025-02-21

李继刚：AI都这么智能了，为什么还要研究写「提示词」？

2025-01-05

Claude 团队内部分享！什么时候该用Workflow和Agent，如何用简单模式构建有效的 LLM Agent ?

2025-01-04

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部