微信扫码
添加专属顾问
我要投稿
掌握LLM评估技巧,提升模型性能。 核心内容: 1. 通用prompt设计原则与应用 2. 精细评估标准与推理步骤 3. 成对比较与输出评分的优势
我总结的互联网上通用 prompt 的通用设计原则如下:
Your task is to do X (你的任务是 X)
.You will be provided with Y (你拿到的信息是 Y)
.You should evaluate property Z on a scale of 1 - 5, where 1 means ... (根据属性 Z 的表现进行评分,评分范围为 1 - 5,其中 1 分表示 ...)
You should evaluate if property Z is present in the sample Y. Property Z is present if ... (请指出样本 Y 中是否具备属性 Z,如果具备,那么 ...)
To judge this task, you must first make sure to read sample Y carefully to identify ..., then ... (评估此任务之前,请先仔细阅读样本 Y,识别出 ...,然后再 ...)
Your answer should be provided in JSON, with the following format {"Score": Your score, "Reasoning": The reasoning which led you to this score} (以 JSON 格式回答,格式为 {"Score": 评分, "Reasoning": 评分推理过程})
Prompt 书写灵感可以参考或的 prompt 模板。
其他要点:
如 provide 1 point for this characteristic of the answer, 1 additional point if ... (回答具备某项特性得 1 分,如果 ... 再加 1 分)
等可以通过以下方式或技术来提升评估准确性 (有可能会增加成本):
例如:回答正确将得到一只小猫
) 可以提高回答正确性。这个方法的效果视场景而异,你可以根据需求灵活调整。注:如要减少模型偏见,可以参考社会学中的问卷设计,然后根据使用场景来书写 prompt。如想使用模型来替代人工评估,可以设计类似的评价指标:如计算标注员一致性,使用正确的问卷方法来减少偏见等。
不过在实际应用中,大多数人并不需要完全可复现且高质量无偏的评估,快速且略显粗糙的 prompt 就能满足需求。(只要知悉使用后果,这种情况也是能接受的)。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-28
拨开MCP的迷雾,聊聊LLM工具调用的本质(二):Prompt和API限定法
2025-04-27
扔掉你的“提示词大全”吧,来聊聊语言模型真正诡异的地方
2025-04-27
从命令到共创:AI提示词如何释放你的创造力?
2025-04-27
GPT-4o(多模态版)、Claude3.7、Gemini2.5最新系统提示词!
2025-04-27
Google:人人都能成为Prompt大师
2025-04-26
Manus 完整版系统提示词
2025-04-25
Claude 3.7 赋能决策分析!运用卡尼曼理论,避开常见思维误区(附Prompt模板)
2025-04-24
偷感极重,Cursor、Manus等多家常用AI工具底层提示词被曝光。
2024-08-20
2024-06-29
2023-06-08
2024-09-17
2024-06-27
2024-06-26
2024-07-09
2024-07-12
2024-09-16
2024-06-14
2025-04-27
2025-04-20
2025-04-16
2025-04-11
2025-02-25
2025-02-21
2025-01-05
2025-01-04