我要投稿

通过微调和多分支推理增强低参数（7B/13B）大模型的通用Agent能力

发布日期：2024-04-30 08:04:15 浏览次数： 2007 来源：PaperAgent

开源预训练的大型语言模型（LLMs）展现出强大的语言理解和生成能力，使它们在多种任务中取得巨大成功。然而，在现实世界中处理复杂问题时，开源预训练的大型语言模型（如GPT-3和GPT-4）表现出强大的语言理解和生成能力，但与商业模型（如ChatGPT和GPT-4）相比，它们的性能仍有较大差距。作为智能体，LLMs需要具备任务规划、长期记忆和利用外部工具的能力。为了提升LLMs的智能体能力，提出了多种方法，包括构建特定于智能体的数据和对模型进行微调，以及设计有效的提示来激活LLMs的推理能力。

开源LLMs和商业LLMs的智能体性能，总体得分是几个agent任务的平均准确度

针对7B和13B模型进行了探索，提出了一种使用GPT-4构建特定于智能体数据的全面方法，通过使用构建的数据进行监督微调，对于这些参数数量相对较少的模型，监督微调可以显著减少智能体任务中的幻觉输出和格式错误。此外，多路径推理和任务分解等技术可以有效降低问题的复杂性，并增强LLMs作为智能体的性能。

通过监督微调（Supervised Fine-Tuning, SFT）来提高智能体能力。这种方法通过在多样化的数据集上训练LLMs，使其能够反映智能体与环境之间的互动行为，从而根本性地提升LLMs的能力。

构建agent数据的过程，对于任务规划和外部工具使用能力，分别采用两种策略

受“思维链”（Chain of Thought）启发，提出了一种结合任务分解和回溯的多路径推理方法，以有效降低问题复杂性并增强LLMs作为智能体的性能。任务分解利用LLMs的任务规划能力，将复杂任务分解为更小的子任务。而多路径推理则允许模型在每个推理步骤中生成多个可行的动作，并使用一个判断模型来选择最佳动作。这种方法可以有效地降低问题复杂性，并提高LLMs作为智能体的性能。

任务分解的过程，规划模型将整个任务分解成几个小的子任务。

不同推理方法的比较，从左到右分别是输入输出（IO）、思维树（ToT）和提出的方法

在AgentBench基准上选择了五个agent任务进行评估，包括ALFWorld、WebShop、Mind2Web、操作系统和数据库操作。实验结果表明，通过使用GPT-4构建的特定于智能体的数据进行监督微调，可以显著提高LLMs在agent任务上的性能，尤其是在减少幻觉输出和格式错误方面。

在AgentBench任务上使用不同指令调整数据集对大型语言模型（LLMs）进行微调的实验结果。使用llama2-7b-chat作为基础模型

此外，通过引入多路径推理和任务分解技术，可以有效地简化复杂任务，帮助LLMs找到最优解。

在三个agent基准测试上不同推理方法的实验结果

ReAct方法和提出的方法在agent任务推理中的比较示例，展示了在网络商店和家务任务中的行动和观察。

Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoninghttps://arxiv.org/pdf/2403.19962.pdf

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

爆肝50小时，DeepSeek使用技巧，你收藏这一篇就够了！

2025-02-01

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

更改ollama模型存储路径

2024-04-25

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

OpenAI o1与GPT4o的对比分析

2024-09-23

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

大家都在问

小参数出奇迹！360开源最强14B推理模型，端侧部署春天来了？

2025-03-17

火爆 AI 编程圈的 MCP 到底是个什么东西？

2025-03-17

DeepSeek-R1的Qwen-32B蒸馏模型与QwQ-32B模型，谁更强？

2025-03-16

教育大模型有哪些，以及我们为什么需要教育专属大模型？

2025-03-16

部署DeepSeek的4条路，企业级客户到底该咋走？

2025-03-16

什么是RAG？大模型和RAG有什么关系？

2025-03-15

NLP+图技术：如何低成本打造高效GraphRAG应用？

2025-03-15

我们能从Manus学到什么，企业版的Manus会长什么样？

2025-03-15

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB