微信扫码
和创始人交个朋友
我要投稿
DSPy(声明式自改进语言程序),面向大模型编程的新方法,克服当前LLM应用开发的诸多缺点
今天,介绍一款当前这一领域最强工具——Ape,它是由YC资助的创业公司Weavel开发的一款prompt优化工具,它在GSM 8 K基准测试中得分高达93%,超过BaseLLM的70%及DSPy的86%。
同时,它也可以自动生成评估代码,并使用LLM作为判断,或者自己设置评估指标。
Ape的核心理念非常简单:
好的输入 + 正确的引导 = 更好的提示。
APE的设计实现受到DSPy的影响,采用数据+迭代的方式进行prompt自我优化,得益于平台产品化的设计,整体使用门槛大大降低,易于上手。
它具备以下能力:
通过分析prompt和数据集生成评估代码
运行批量测试来评估prompt
从之前的测试中提取反馈和洞察
通过使用贝叶斯优化等统计方法找到最佳prompt
在改进prompt时考虑Human-in-loop的反馈
它的工作原理如下:
记录输入输出:仅需一行代码,即可开始记录LLM的调用。
数据集过滤:Ape将日志过滤成数据集。
生成评估代码:Ape使用LLM作为复杂任务的评估者。
持续优化:随着更多生产数据的加入,Ape会持续优化提升prompt性能。
虽然,APE内核已经被开源到github(https://github.com/weavel-ai/Ape),但目前缺乏使用帮助,集成使用可能还需要再等一段时间。当前可以在Weavel产品上体验APE,过程比较简单:
通过创建prompt,添加数据,开启优化三步就能完成prompt优化,训练数据除了上传外,也可以通过接口采集,同时APE提供了prompt版本化以及评估的功能,包含大量的评估方法,如下图。
APE相较于其他工具在能力层面已达到prompt工具的高级水平(prompt的工具分级金字塔详见:一文探秘LLM应用开发(23)-Prompt(相关工具)),这样很容易形成这样的迭代机制,进而保证prompt一直能够不劣化,这和小模型每日更新避免模型性能衰退逻辑十分相似。
数据+迭代的模式已经被验证是行之有效的prompt优化方法,以此思路启发,进一步构建一个“数据+迭代”的自学习LLM应用将是一个新的热点命题。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-02-20
如何编写适合自己的 Cursor Rules
2025-02-19
告别链式思考:新一代 AI 推理模型的提示词设计革命
2025-02-19
如何为DeepSeek这类推理模型编写Prompt
2025-02-18
推理框架对比:ReAct、思维链(COT)和思维树(TOT)谁更胜一筹
2025-02-15
DeepSeek提示词工程完全指南:如何用「思维翻译器」激发大模型潜能——附官方提示词和优化案例
2025-02-15
说说Kimi探索版的深度搜索和o1
2025-02-09
普通人的 GPT 时刻!Deepseek R1 让每个人都学会了麦肯锡式思考
2025-02-09
当AI变“聪明”了,提问的姿势也要变!
2024-08-20
2024-06-29
2023-06-08
2024-09-17
2024-06-27
2024-07-09
2024-07-12
2024-06-14
2024-06-26
2024-09-16
2025-01-05
2025-01-04
2024-12-15
2024-11-15
2024-11-01
2024-10-29
2024-09-11
2024-09-06