我要投稿

提示词最佳实践（三）：prompt效果评测与产品构建

发布日期：2024-07-09 08:21:29 浏览次数： 3529 作者：AIGC新知

学习了智谱AI对外分享的prompt最佳实践，感触良多，记录一下自己的总结，本系列将分为三部分：prompt框架、prompt迭代优化和prompt评测与产品构建。

本篇是第三篇，主要介绍prompt效果评测。

Prompt效果评测

01

确定评测维度

如何评价模型输出效果：

基于业务需求，确定评测标准；
参考不同的场景通用评测维度
如果仍然无法确定，可以通过小样本测试，从评测过程中提炼迭代。

场景	不同场景通用评测维度
文本写作	格式正确(文书格式、诗歌格式押韵、段落数量约束等) 内容正确可用(符合规范、和输入内容相关) 用词等符合要求(使用有要求的成语、术语、歌后语，使用指定难度的句式等)
信息抽取	格式正确(json格式、key-value对、数据格式等) 抽取维度正确(按照要求维度的粒度抽取) 抽取内容正确(没有多抽取、漏抽取、造内容)
角色扮演（多轮对话）	人设一致性(性格相符合，人物关系/兴趣爱好/经历事件在对话中符合人物措述设定) 对话流畅性(对话不生硬，有趣，人设突出。断句、语气、说话方式流畅) 回复多样性(可以主动推进剧情的发展、场地的移动。进免重复内容) 对话逻辑性(避免语句截断、说话不完整、话设说完。避免答非所问。避免对话出现回答前后矛盾和逻辑错误)
知识库问答	答案正确性(端到端准确率。答案和知识一致，没有多答、漏答。通过人工方式与原文进行比对，人工进行主观有依据的定性判定其回答的准确与否) 拒等准确性(知识库无法回等的问题需要拒等，避免睫造) 反问追问正确性(在适当的时机询问适当的问题以补全信息，进行解答)
意图识别/分类	整体准确率(判断正确的数量/总case数) 精准率(预测有多少是对的)召回事(正例里预测覆盖了多少)

示例：人物扮演闲聊场景

要求模型输出简洁流畅的日常口语化回复

02

构建评测集、测试迭代

评测集数量不少于50条，最好100+
评测集分布：与真实问题分布一致，线上抽样、按照维度构造

线上抽样
小版本调优、灰度上线收集线badcase，再次迭代、上线
按照维度构造

测试迭代：为了降低评测成本，前期通过小部分评测集进行小版本迭代测试；效果稳定后进行大版本完整评测集测试。

构建示例：知识库项目

构建产品方案

01

产品方案构建流程

模型层：预训练（通用能力）、微调（领域能力）、prompt工程（处理任务能力）。

应用层：产品化和工程化（将多种任务集合起来调度）。

02

不同应用场景

To C：主要面对的是C端用户，需要考虑以内容优先为导向，给用户提高全能助理。

To B：适用于专业场景的AI领域专家，具备工程能力，客户对内容输出要求严谨。

To C场景

To B场景

03

大模型应用规划流程

大模型应用构建流程

flow形式【以对话质检为例】

第一类：通过flow方式，将过程拆解【对话质检】

prompt1：信息预处理

prompt2：信息抽取

Agent【方案】外卖助手agent

第二类：通过agent方案构建。

使用智谱清言的智能体进行设计，设计agent相关人设、技能、知识库等

prompt设计：

prompt是低成本调用AI能力的最佳方法。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-18

世界有很多好答案，只等一个好问题

2025-04-15

DeepSeek V3-0324很不错，这是一些提示词和使用建议

2025-04-14

我是如何高效翻译 65 页 Google 官方提示工程白皮书 PDF 文件的

2025-04-13

HR使用DeepSeek八大场景神级提示词大全

2025-04-13

停止过度提示：为什么简短的 AI 提示比长prompt更胜一筹

2025-04-07

一段提示词就能使用 Claude 制作网页版 PPT

2025-04-05

[吴恩达的信] 懒人提示法：AI时代的高效秘诀

2025-03-31

Cursor AI 提示词编写技巧总结

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

爆肝50小时，DeepSeek使用技巧，你收藏这一篇就够了！

2025-02-01

李继刚神级 Claude prompt合集

2024-09-18

豆包好用的关键，是你得会用！28+ 超实用 AI 常用指令（AI 写作+办公提效）

2025-01-08

我拿800段润色文章的提示词去除了AI味儿，顺便悟透了AI底层写作。（建议收藏）

2024-08-23

120个AI润色指令，让AI内容更加生动！

2025-01-17

ChatGPT：文件上传功能全面解析

2024-07-26

别再写无效Prompt了！2024最实用的18个提示工程技巧详解 (上篇)

2024-12-26

100个让AI写出没AI味并且润色优质文章的方法和提示词（建议收藏）

2024-08-23

未来已来！Runway Gen-3 Alpha全面开放，这份官方提示词指南收藏好

2024-07-02

为了上手ChatGPT的全新交互形态Canvas，我深挖出了6个使用技巧

2024-10-17

大家都在问

如果使用AI工具有段位，你是青铜还是王者？

2025-03-31

参加李继刚线下活动启发：未来提示词还会存在吗？

2025-03-29

AI小技巧：LLM时代，如何写好Prompts？

2025-03-17

DeepSeek-R1提示词使用指南：为什么说没有技巧就是最好的技巧？

2025-02-06

跟大模型对话时prompt提示词越礼貌结果越好？为什么？

2025-01-10

还在吐槽 o1 降智？OpenAI最新提示指南来了！试试看？

2024-12-25

圆桌讨论 | 提示词的应用和实践中要避开哪些坑？

2024-11-20

为什么你编写不出优秀的ChatGPT提示词?

2024-11-13

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部