微信扫码
添加专属顾问
我要投稿
学习了智谱AI对外分享的prompt最佳实践,感触良多,记录一下自己的总结,本系列将分为三部分:prompt框架、prompt迭代优化和prompt评测与产品构建。
本篇是第三篇,主要介绍prompt效果评测。
基于业务需求,确定评测标准;
参考不同的场景通用评测维度
如果仍然无法确定,可以通过小样本测试,从评测过程中提炼迭代。
场景 | 不同场景通用评测维度 |
文本写作 | 格式正确(文书格式、诗歌格式押韵、段落数量约束等) 内容正确可用(符合规范、和输入内容相关) 用词等符合要求(使用有要求的成语、术语、歌后语,使用指定难度的句式等) |
信息抽取 | 格式正确(json格式、key-value对、数据格式等) 抽取维度正确(按照要求维度的粒度抽取) 抽取内容正确(没有多抽取、漏抽取、造内容) |
角色扮演(多轮对话) | 人设一致性(性格相符合,人物关系/兴趣爱好/经历事件在对话中符合人物措述设定) 对话流畅性(对话不生硬,有趣,人设突出。断句、语气、说话方式流畅) 回复多样性(可以主动推进剧情的发展、场地的移动。进免重复内容) 对话逻辑性(避免语句截断、说话不完整、话设说完。避免答非所问。避免对话出现回答前后矛盾和逻辑错误) |
知识库问答 | 答案正确性(端到端准确率。答案和知识一致,没有多答、漏答。通过人工方式与原文进行比对,人工进行主观有依据的定性判定其回答的准确与否) 拒等准确性(知识库无法回等的问题需要拒等,避免睫造) 反问追问正确性(在适当的时机询问适当的问题以补全信息,进行解答) |
意图识别/分类 | 整体准确率(判断正确的数量/总case数) 精准率(预测有多少是对的)召回事(正例里预测覆盖了多少) |
要求模型输出简洁流畅的日常口语化回复
评测集数量不少于50条,最好100+
评测集分布:与真实问题分布一致,线上抽样、按照维度构造
线上抽样
小版本调优、灰度上线收集线badcase,再次迭代、上线
按照维度构造
测试迭代:为了降低评测成本,前期通过小部分评测集进行小版本迭代测试;效果稳定后进行大版本完整评测集测试。
模型层:预训练(通用能力)、微调(领域能力)、prompt工程(处理任务能力)。
应用层:产品化和工程化(将多种任务集合起来调度)。
To C:主要面对的是C端用户,需要考虑以内容优先为导向,给用户提高全能助理。
To B:适用于专业场景的AI领域专家,具备工程能力,客户对内容输出要求严谨。
大模型应用构建流程
第一类:通过flow方式,将过程拆解【对话质检】
prompt1:信息预处理
prompt2:信息抽取
第二类:通过agent方案构建。
使用智谱清言的智能体进行设计,设计agent相关人设、技能、知识库等
prompt设计:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-25
AI联网搜索时的prompt小技巧
2025-03-25
DeepSeek小技巧分享:解锁AI深度思考的奥秘!
2025-03-23
提示词工程师自白:我如何用一个技巧解放自己的生产力
2025-03-22
我测试了 Gemini 2.0,MJ,可灵,即梦......原来用好 AI 绘画的本质还是提示词
2025-03-22
获取 Cursor 最新的系统提示词
2025-03-22
【Cursor】Cursor的基本使用方式
2025-03-22
分享10个我最常用的DeepResearch提示词模板和用法。
2025-03-22
提示词技巧:如何让非推理AI具备推理能力
2025-02-01
2024-09-18
2025-01-08
2024-08-23
2025-01-17
2024-07-26
2024-12-26
2024-07-02
2024-08-23
2024-07-09
2025-03-17
2025-02-06
2025-01-10
2024-12-25
2024-11-20
2024-11-13
2024-10-31
2024-10-29