微信扫码
和创始人交个朋友
我要投稿
学习了智谱AI对外分享的prompt最佳实践,感触良多,记录一下自己的总结,本系列将分为三部分:prompt框架、prompt迭代优化和prompt评测与产品构建。
本篇是第三篇,主要介绍prompt效果评测。
基于业务需求,确定评测标准;
参考不同的场景通用评测维度
如果仍然无法确定,可以通过小样本测试,从评测过程中提炼迭代。
场景 | 不同场景通用评测维度 |
文本写作 | 格式正确(文书格式、诗歌格式押韵、段落数量约束等) 内容正确可用(符合规范、和输入内容相关) 用词等符合要求(使用有要求的成语、术语、歌后语,使用指定难度的句式等) |
信息抽取 | 格式正确(json格式、key-value对、数据格式等) 抽取维度正确(按照要求维度的粒度抽取) 抽取内容正确(没有多抽取、漏抽取、造内容) |
角色扮演(多轮对话) | 人设一致性(性格相符合,人物关系/兴趣爱好/经历事件在对话中符合人物措述设定) 对话流畅性(对话不生硬,有趣,人设突出。断句、语气、说话方式流畅) 回复多样性(可以主动推进剧情的发展、场地的移动。进免重复内容) 对话逻辑性(避免语句截断、说话不完整、话设说完。避免答非所问。避免对话出现回答前后矛盾和逻辑错误) |
知识库问答 | 答案正确性(端到端准确率。答案和知识一致,没有多答、漏答。通过人工方式与原文进行比对,人工进行主观有依据的定性判定其回答的准确与否) 拒等准确性(知识库无法回等的问题需要拒等,避免睫造) 反问追问正确性(在适当的时机询问适当的问题以补全信息,进行解答) |
意图识别/分类 | 整体准确率(判断正确的数量/总case数) 精准率(预测有多少是对的)召回事(正例里预测覆盖了多少) |
要求模型输出简洁流畅的日常口语化回复
评测集数量不少于50条,最好100+
评测集分布:与真实问题分布一致,线上抽样、按照维度构造
线上抽样
小版本调优、灰度上线收集线badcase,再次迭代、上线
按照维度构造
测试迭代:为了降低评测成本,前期通过小部分评测集进行小版本迭代测试;效果稳定后进行大版本完整评测集测试。
模型层:预训练(通用能力)、微调(领域能力)、prompt工程(处理任务能力)。
应用层:产品化和工程化(将多种任务集合起来调度)。
To C:主要面对的是C端用户,需要考虑以内容优先为导向,给用户提高全能助理。
To B:适用于专业场景的AI领域专家,具备工程能力,客户对内容输出要求严谨。
大模型应用构建流程
第一类:通过flow方式,将过程拆解【对话质检】
prompt1:信息预处理
prompt2:信息抽取
第二类:通过agent方案构建。
使用智谱清言的智能体进行设计,设计agent相关人设、技能、知识库等
prompt设计:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-02-23
如何从 A 推进到 B?特别适合 DeepSeek R1 的一种提示词
2025-02-23
扒完清华的《DeepSeek从入门到精通》,发现 99% 的人都不会用 DeepSeek
2025-02-23
10个常用的DeepSeek万能提示词模版|技巧
2025-02-20
DeepSeek 提示词技巧: 用 AI 白手起家,失业潮下的新活法
2025-02-19
重生之我在 Claude 上 “复刻”了 DeepSeek-R1 效果
2025-02-19
别再学那破提示词技巧了!
2025-02-19
大模型Prompt技巧全解析
2025-02-18
5 条实战指南,教你用高质量 Prompt 榨干 DeepSeek 的潜力
2025-02-01
2024-09-18
2024-08-23
2025-01-08
2025-01-17
2024-07-26
2024-07-02
2024-12-26
2024-07-09
2024-10-17
2025-02-06
2025-01-10
2024-12-25
2024-11-20
2024-11-13
2024-10-31
2024-10-29
2024-10-16