我要投稿

在使用大语言模型 (LLMs) 构建产品一年中的经验总结 (第一部分)-工作流的重要性

发布日期：2024-06-04 19:54:15 浏览次数： 1680

调整和优化工作流

提示大语言模型只是开始。要充分利用它们，我们需要超越单一提示，拥抱工作流。例如，如何将一个复杂的任务拆分成多个简单的任务？何时微调或缓存有助于提高性能并减少延迟/成本？在本节中，我们分享了经过验证的策略和实际案例，帮助你优化并构建可靠的大语言模型工作流。

逐步多轮的“流程”能显著提升效果

我们已经知道，将一大段提示词分解为若干个小段提示词可以取得更好的效果。例如，在 AlphaCodium 的研究中，通过从单一提示改为多步工作流程，他们将 GPT-4 在 CodeContests 上的准确率 (pass@5) 从 19% 提高到 44%。这一工作流程包括以下步骤：

反思问题
在公共测试中进行推理
生成可能的解决方案
对可能的解决方案进行排序
生成模拟测试
在公共和模拟测试中迭代解决方案

明确目标的小任务是最有效的智能体或流程提示。虽然不是每个智能体提示都需要结构化输出，但结构化输出有助于与协调智能体与环境互动的系统进行接口对接。

一些值得尝试的方法：

制定尽可能详细的计划步骤。可以考虑从预定义的计划中进行选择
将原始用户提示转化为智能体提示，但要注意，这个过程可能会有信息损失！
将智能体行为设计成线性链、DAG 和状态机的形式；不同的依赖关系和逻辑关系适用于不同的任务规模。能否通过不同的任务架构来优化性能？
计划验证；在你的计划中包含如何评估其他智能体响应的指导，以确保最终组合效果果良好。
通过固定的上游状态进行提示工程——确保你的智能体提示能够应对可能发生的各种情况。

优先采用确定性工作流程

虽然 AI 智能体可以动态响应用户请求和环境变化，但其不确定性使得部署变得困难。每一步操作都有失败的可能，而且从错误中恢复的几率很低。因此，智能体在执行多步骤任务时，随着步骤的增加，其成功率会呈指数下降。这使得开发团队很难部署出可靠的智能体。

一个有效的方法是让智能体系统生成确定性的计划，并以结构化、可重复的方式执行。首先，智能体根据高层次的目标或提示生成一个计划。然后，按计划进行确定性执行。这使得每一步操作都更可预测、更可靠。这样做的好处包括：

生成的计划可以作为少样本示例，用于提示或微调智能体。
确定性执行使系统更加可靠，便于测试和调试，且可以精确定位失败步骤。
生成的计划可以表示为有向无环图 (DAG)，比起静态提示更容易理解和适应新情况。

成功的智能体开发者往往具备管理初级工程师的经验，因为生成计划的过程类似于指导和管理初级工程师。我们会给初级工程师明确的目标和具体的计划，而不是模糊的指示，对智能体也应如此。

最终，构建可靠智能体的关键在于采用更结构化、确定性的方法，同时收集数据来完善提示和微调模型。否则，虽然智能体在某些情况下表现出色，但整体表现可能会让用户失望，导致用户流失。

超越温度参数获取更丰富的输出

假设你的任务需要大语言模型（LLM）的输出更加多样化。例如，你正在设计一个 LLM 流程，根据用户之前购买的产品列表推荐新产品。当你多次运行提示时，可能会发现结果推荐过于相似，因此你可能会考虑增加 LLM 请求中的温度参数。

简单来说，增加温度参数会使 LLM 的响应更加多样化。在采样时，下一个 token 的概率分布变得更加均匀，这意味着那些通常不太可能被选择的 token 被选中的几率增加。然而，增加温度可能会导致一些与输出多样性相关的问题。例如，目录中一些非常适合的产品可能从未被 LLM 推荐，而某些产品因为在训练时被认为非常适合而频繁出现。如果温度过高，输出可能会包含不存在的产品或一些无意义的内容。

换句话说，增加温度并不能保证 LLM 会从你期望的概率分布中抽取输出（例如，均匀随机分布）。不过，我们还有其他方法可以增加输出的多样性。最简单的方法是调整提示的内容。例如，如果提示模板包括一系列项目，如历史购买记录，每次将这些项目的顺序打乱插入提示中，可以产生显著差异。

另外，保持一个最近输出的简短列表可以帮助防止重复推荐。在推荐产品的示例中，可以通过指示 LLM 避免建议该列表中的项目，或者拒绝并重新采样与最近建议相似的输出，从而进一步多样化结果。另一种有效的策略是改变提示的表达方式。例如，使用“选择用户可能经常使用的产品”或“选择用户可能会推荐给朋友的产品”等短语，可以改变推荐的重点，从而影响推荐产品的多样性。

缓存的重要性被低估了

缓存可以节省成本并消除响应延迟，因为它避免了对相同输入重新计算响应的需要。此外，如果一个响应之前已经经过安全审核，我们可以提供这些审核过的响应，从而减少提供有害或不适当内容的风险。

一种简单的缓存方法是为正在处理的项目使用唯一 ID，例如，如果我们正在总结新文章或产品评论。当收到请求时，我们可以检查缓存中是否已经存在摘要。如果存在，我们可以立即返回；如果不存在，我们生成、审核并提供，然后将其存储在缓存中以供将来请求使用。

对于开放式查询，我们可以借鉴搜索领域的技术，该领域也利用缓存处理开放式输入。自动完成功能和拼写校正等功能也有助于标准化用户输入，从而提高缓存命中率。

何时进行微调

我们可能有一些任务，即使是最巧妙设计的提示也无法胜任。例如，即使经过大量提示工程，我们的系统可能仍然无法返回可靠的高质量输出。如果是这样，那么可能有必要为特定任务微调模型。

成功的例子包括：

Honeycomb 的自然语言查询助手：最初，“编程指南”与 n-shot 样例一起提供给提示以进行上下文理解。虽然这效果尚可，但微调模型后，在特定领域语言的语法和规则上输出更好。
ReChat 的 Lucy：LLM 需要以一种非常特定的格式生成响应，该格式结合了结构化和非结构化数据，以便前端正确呈现。微调对于让它一致运行至关重要。

尽管如此，微调可能有效，但它伴随着显著的成本。我们必须对微调数据进行标注、微调和评估模型，并最终自我托管它们。因此，应考虑更高的前期成本是否值得。如果提示已经让您完成了 90% 的工作，那么微调可能不值得投资。然而，如果我们决定微调，为了减少收集人工标注数据的成本，我们可以在合成数据或开源数据上进行微调。

53AI，企业落地应用大模型首选服务商

产品：大模型应用平台+智能体定制开发+落地咨询服务

承诺：先做场景POC验证，看到效果再签署服务协议。零风险落地应用大模型，已交付160+中大型企业

160+中大型企业正在使用53AI

立即咨询预约演示

百度智能云邀53AI：共创AI新纪元，启航智能新时代

2024-05-27

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

2024-05-22

热点资讯

最强 GPT 免费使用！GPT4O 开启多模态新时代！

2024-05-14

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

【开源看AI】4.9K star！Khoj：完美融合本地文档和在线网页的AI第二大脑

2024-05-22

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

2024-04-12

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

2024-07-18

万字长文解析：大模型需要怎样的硬件算力

2024-03-30

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

2024-05-10

开源项目Composio：突破 AI 智能体开发的边界

2024-08-13

更改ollama模型存储路径

2024-04-25

全面对比dify、coze、streamlit、chainlit

2024-04-26

大家都在问

从 Data 到 Data + AI，必然之路还是盲目跟风？

2024-09-21

疯狂星期四Qwen2.5开源，通义成了最Open的AI?

2024-09-20

在长上下文LLM的时代，RAG是否仍然必要？

2024-09-20

【AI赋能】揭秘大模型微调：如何让机器智能跃升一个台阶？

2024-09-19

从案例分析到客户沟通：AI提示词如何优化律师工作流程？

2024-09-19

o1 能带我们走进 AGI 吗？

2024-09-19

如何微调（Fine-tuning）大语言模型？

2024-09-18

AI软件必须用GPU么？

2024-09-18

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询

大模型定制

调整和优化工作流

逐步多轮的“流程”能显著提升效果

超越温度参数获取更丰富的输出

缓存的重要性被低估了

何时进行微调

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

最强 GPT 免费使用！GPT4O 开启多模态新时代！

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

【开源看AI】4.9K star！Khoj：完美融合本地文档和在线网页的AI第二大脑

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

万字长文解析：大模型需要怎样的硬件算力

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

开源项目Composio：突破 AI 智能体开发的边界

更改ollama模型存储路径

全面对比dify、coze、streamlit、chainlit

大家都在问

从 Data 到 Data + AI，必然之路还是盲目跟风？

疯狂星期四Qwen2.5开源，通义成了最Open的AI?

在长上下文LLM的时代，RAG是否仍然必要？

【AI赋能】揭秘大模型微调：如何让机器智能跃升一个台阶？

从案例分析到客户沟通：AI提示词如何优化律师工作流程？

o1 能带我们走进 AGI 吗？

如何微调（Fine-tuning）大语言模型？

AI软件必须用GPU么？

热门标签

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询

大模型定制

调整和优化工作流

逐步多轮的“流程”能显著提升效果

超越温度参数获取更丰富的输出

缓存的重要性被低估了

何时进行微调

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

最强 GPT 免费使用！GPT4O 开启多模态新时代！

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

【开源看AI】4.9K star！Khoj：完美融合本地文档和在线网页的AI第二大脑

OLLama详细的 api 介绍 不完全指南 python 直接调用 OLLama api 翻译助手演示

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

万字长文解析：大模型需要怎样的硬件算力

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

开源项目Composio：突破 AI 智能体开发的边界

更改ollama模型存储路径

全面对比dify、coze、streamlit、chainlit

大家都在问

从 Data 到 Data + AI，必然之路还是盲目跟风？

疯狂星期四Qwen2.5开源，通义成了最Open的AI?

在长上下文LLM的时代，RAG是否仍然必要？

【AI赋能】揭秘大模型微调：如何让机器智能跃升一个台阶？

从案例分析到客户沟通：AI提示词如何优化律师工作流程？

o1 能带我们走进 AGI 吗？

如何微调（Fine-tuning）大语言模型？

AI软件必须用GPU么？

热门标签

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示