我要投稿

xLAM: 一个赋能AI agent系统的动作大模型家族

发布日期：2024-09-10 13:03:52 浏览次数： 2198

作者：AI帝国

微信搜一搜，关注“AI帝国”

一、结论写在前面

论文标题：xLAM: A Family of Large Action Models to Empower AI Agent Systems

论文链接：https://arxiv.org/pdf/2409.03215

Models: https://huggingface.co/collections/Salesforce/xlam-models-65f00e2a0a63bbcd1c2dade4

GitHub: https://github.com/SalesforceAIResearch/xLAM

介绍了xLAM系列，这是一组用于自主AIagent的大型动作模型。论文的模型参数范围从1B到8x22B，通过一个可扩展且灵活的数据管道进行训练，该管道统一、增强和综合了多种数据集。

这一多样化的集合适用于各种应用，其中较小的模型（1B和7B）针对设备部署进行了优化，而较大的模型（8x7B和8x22B）则旨在应对更具挑战性的任务。除了模型的发布，论文还提供了从agent模型训练经验中获得的几个见解和教训：

•数据处理：论文强调数据统一和增强在提高数据集多样性和缓解过拟合方面的重要性。论文开发的数据预处理和增强管道显著提高了agent模型在不同环境中的泛化能力。

•数据合成: 论文展示了可扩展、高质量数据合成对agent模型性能的影响。论文的合成数据集使xLAM模型在Berkeley Function Calling Leaderboard上获得了前20名中的4个位置，包括获得第一名（图2），其中较小的模型实现了与更大模型相当的表现，显示出在这一方向上的巨大潜力。

论文在公共agent基准上评估了xLAM系列，展示了在各种agent任务中的卓越性能。通过开源这些模型，论文旨在推动开源agent模型的发展，并提供关于数据处理和合成技术的宝贵见解，解决开发与专有模型竞争的替代方案的关键挑战。

二、论文的简单介绍

2.1 论文的背景

自主agent（autonomous agents）领域近年来取得了显著进展，大型语言模型（LLMs）在提升agent在各种任务中的能力方面发挥了关键作用。研究人员在开发复杂框架和专用环境方面取得了重大进展，以增强agent能力，如工具使用和网络浏览。同时，像AgentBench、ToolBench和AgentBoard这样的综合基准已经建立，以严格评估agent在推理、规划和多轮交互中的性能。

尽管行业领导者开发的专有大型语言模型（LLMs）在各种agent任务中展示了有竞争的性能，但开源社区在这一领域面临专门模型的选择有限。这种稀缺源于将开源LLMs适应agent任务的几个挑战，主要原因是缺乏全面、高质量的数据集以及现有数据格式的异质性。这些因素使得多样化数据集的统一变得复杂，并阻碍了不同agent任务之间可转移知识的习得。

最近，agent研究社区在开源agent数据处理和模型训练方面加大了努力。然而，这些工作在管理复杂环境和泛化到新场景方面仍面临挑战，主要原因是收集的agent数据存在局限性。一个主要障碍是现有数据集中内容和格式的同质性，导致模型在各种任务中缺乏多样性，并且在实际应用中难以适应新的或略有不同的数据结构。尽管之前的努力尝试设计统一数据的管道，但它们通常只涵盖少数场景，或者在其统一格式中缺乏灵活性。例如，Lumos主要解决问答、网页agent以及涉及规划和基础的数学任务；而AgentOhana虽然涵盖了更多样化的环境，但缺乏可扩展的统一格式以适应新环境。

此外，开源数据集通常存在质量问题，如agent输出的错误、幻觉动作以及轨迹中的重复交互轮次[20, 21]。对agent数据缺乏详细的分析和理解进一步加剧了这些挑战，阻碍了开发稳健且多功能的开源agent模型。解决这些挑战对于推动开源agent模型领域的发展，并缩小与专有LLMs在agent任务中的性能差距至关重要。

图1：xLAM数据处理、训练和评估的概述。论文根据模型评估结果的诊断反馈来迭代改进数据质量。

图2：xLAM模型在Berkeley Function Calling Leaderboard v2（截止日期09/03/2024）上的表现概述。论文的8x22b模型在排行榜上以较大优势位居榜首。

2.2 数据处理流水线

论文将讨论用于训练xLAM的数据流水线，包括数据统一、增强、质量验证、通用指令数据合成和偏好数据生成。

2.2.1 数据统一

现有的agent数据集来自不同的环境，并以各种格式设计，引入了噪声并使数据增强和验证变得复杂。NexusRaven 、Gorilla-Openfunctions和 AgentOhana等模型在函数调用方面表现出色，表明定义良好的通用格式可以显著提升模型性能。通过标准化现有数据的格式，论文可以减少噪声，并促进更简单的数据增强和质量验证，从而形成一个更高效和稳健的模型训练和评估框架。此外，标准化的格式确保了一致性，简化了模型训练，并增强了模型在各种基准上的泛化能力。

函数调用格式构成了模型理解和执行任务的基础，促使论文以函数调用的风格设计统一的数据格式。如图 4 所示，统一格式由几个模块组成：任务指令、可用工具、格式指令、少样本示例、查询和步骤。具体来说，可用工具定义了agent的动作空间，格式指令指定了agent在生成响应时应遵循的输出格式。在每个步骤中，agent的输出、环境的反馈/执行结果以及用户的后续输入被组织成一个字典。用户与agent之间纯粹的对话交互很常见，这些交互不会触发任何API或接收相应的观察结果。在这些情况下，相关条目的值将简单地保持为空。

这种统一格式兼容各种环境和任务，使得论文的数据处理流程能够适应不同的数据集并扩展到大量数据。此外，模块化设计允许进行细粒度的数据增强和质量验证，这对于提高agent数据质量至关重要。例如，通过统一所有可用的工具和工具调用，论文可以轻松检查幻觉和函数调用错误，并应用各种增强技术。

2.2.2 数据增强

论文的数据增强策略侧重于提高数据的多样性。它涉及对现有数据集应用各种变换，从而生成新的合成数据样本。数据统一步骤显著简化了各种增强技术的应用。标准化的数据格式确保了一致性和易于实现，使得增强过程更加高效。具体而言，论文采用的增强技术可以分为提示格式增强和指令跟随增强。

提示格式增强：提示格式增强专注于基于结构化、统一的数据格式创建各种提示格式。格式增强可以进一步分为两类：1）顺序打乱。在统一格式中，可用工具以列表形式提供，每个工具包含名称、描述和参数。为了避免模型对工具的特定顺序产生过拟合，论文随机打乱工具列表。此外，论文还打乱名称、描述、参数的顺序，以及参数内部的顺序，以不同方式呈现信息。论文在每一步的工具调用中也做同样的事情。此外，论文还打乱输入中不同部分的顺序，包括任务指令、工具、格式指令、少样本示例等。2）连接符。每个训练数据点是一对输入和输出序列。为了将结构化的统一格式转换为训练提示，论文使用特殊符号将不同部分连接成一个序列。论文创建了多种不同的特殊符号样式，包括"ISTART/END OF QUERY]"、""和纯文本。

指令遵循增强：指令遵循增强专注于增加指令的多样性，以提高模型的指令遵循能力。它涉及重新表述现有指令和添加新指令，而不引入不准确和不一致性。因此，新指令的验证是这种增强的关键步骤。论文采用两种方法进行指令遵循增强：1）任务指令重新表述。论文使用强大的LLM重新表述任务指令，以适应用户不同的输入风格。为了确保重新表述的指令仍然与原始版本一致，论文通过使用重新表述的指令提示LLM，并检查LLM是否仍能遵循它们并生成正确的函数调用来验证它们。2）格式指令遵循。在论文的统一格式中，输出格式是一个包含思考和工具调用的JSON字符串。为了避免模型对JSON格式产生过拟合，并使模型能够根据不同的格式指令遵循各种输出格式，论文准备了15种不同的输出格式及其相应的格式指令和格式转换器。输出格式包括JSON、XML、YAML、纯文本等。

2.2.3 数据质量验证

为了进一步了解数据质量并彻底调查评估中的错误来源，论文对统一数据集进行了详细分析。论文使用基于规则和LLM作为评判的方法，识别了数据中的一系列错误。

未定义函数调用：在函数调用中，提供了一组可用函数，模型应使用其中之一生成函数调用。然而，论文发现许多情况下，预测的函数调用不在给定的列表中。论文通过比较函数名称和参数名称列表来匹配预测的函数与给定的函数。当函数调用名称与任何给定函数不匹配时，论文称之为未定义函数调用。当函数名称匹配但参数列表包含未定义参数时，论文称之为未定义参数传递。论文还考虑了可选参数。

参数类型错误：除了上述错误类型外，论文还观察到有时模型生成了正确的参数值，但类型错误。例如，当参数期望[val1, val2, val3]时，生成的参数是“[vali, val2, val3]·”，这是列表的字符串版本。在执行函数调用时，由于数据类型不正确，将发生错误。论文通过比较可用工具中的参数类型和实际参数类型，识别出包含参数类型错误的轨迹。论文还发现，大多数参数类型错误可以通过将参数转换为正确的参数类型来修复。

参数幻觉：在检查来自公共来源的统一数据集时，论文发现工具调用经常包含用户查询或先前步骤中不存在的参数值。这一问题出现的原因在于，这些数据大部分是由容易产生幻觉的LLMs生成的，这是LLM生成内容中的一个常见问题。论文识别出两种类型的幻觉：1) 生成的工具名称或参数名称未出现在提供的工具和参数列表中；2) 参数值与用户查询或先前步骤的观察结果不一致。第一种幻觉通过搜索生成的工具调用和参数名称并将其与提供的工具列表匹配来解决，因为它们都是以JSON结构化的，这使得处理过程高效。然而，检测第二种幻觉，即参数值不一致的情况，更具挑战性，因为简单的字符串匹配对于复杂的查询和任务是无效的。为了解决这个问题，论文使用LLMs作为判断者来进行逐步的参数幻觉检测，检测参数与预期查询或先前观察之间是否存在不匹配。

低质量推理和规划：论文观察到许多数据轨迹中的推理和规划步骤质量较低，这是许多LLM输出中的一个常见问题。为了解决这个问题，论文首先使用基于启发式的规则方法过滤掉低质量数据，然后提示模型如Mixtral-8x22b-Instruct-v0.1 [35] 和 DeepSeek-V2 [36] 对选定数据的整体轨迹和单个思维步骤进行评估。其中一部分评级结果被抽样并由人工验证。论文还尝试使用专门微调的模型来迭代这一过程。

2.2.4 数据合成

论文观察到大多数这些公开可用的数据集存在几个局限性。首先，这些数据集通常是静态的，由弱模型合成，范围有限，更重要的是，未经执行验证。其次，这些数据集主要集中在单一类型的函数调用类别，即基于提供的工具输出单个函数调用。然而，现实世界场景可能包含许多其他类型的用例，例如并行函数调用场景[32]，其中用户查询包含多个请求，模型应在单个响应中并行响应并发函数调用。

为了解决这两个问题，论文采用了一种系统的数据合成框架，称为APIGen ，该框架可以根据一组可执行的API生成可验证的数据集。其核心思想是一个多阶段的验证过程，以确保生成数据的高准确性和质量。该过程包括格式验证（如第3.3节所述）、执行验证和语义验证，共同帮助识别和过滤掉低质量的数据点，例如存在幻觉问题或参数值不准确的数据。

论文利用ToolBench 中的21个类别共3,673个API，生成了总计60,000条高质量数据。这些样本由多个强大的开源语言模型生成：DeepSeek-V2-Chat和 Mixtral-8x22B-Inst。该合成框架极大地提高了数据集的鲁棒性和适用性，因为大多数低质量数据可以通过多阶段验证过程被识别出来。

2.2.5 数据混合

对于有监督微调（SFT），论文的数据集结合了来自三个主要来源的训练样本：清洗和增强的agent数据集、合成函数调用数据集以及通用指令微调数据集。这些来源用于训练通用xLAM模型。

具体而言，为了增强xLAM的通用指令能力，论文整合了来自DialogStudio和Data Provenance的多样化指令调优数据集。论文采用基于规则的技术过滤掉低质量数据，如重复的词语和对话轮次，这些常见于较弱模型生成的内容。论文还移除了包含不当内容、响应和非商业许可的数据。此外，论文对相似的用户查询进行去重，并按领域或类别组织数据。随后，论文提示Mixtral-8x22b-Instruct-v0.1和DeepSeek-V2评估所选数据中的整个对话和单个系统响应。这部分指令数据占论文训练集的20%到30%。为了进一步增强模型鲁棒性，论文保留了通用指令调优数据的原始格式。

为了增强xLAM-7b-fc-r和xLAM-1b-fc-r的功能调用能力，论文采用针对性的训练方法，其中50%的训练数据来自论文高质量的合成功能调用数据集。其余50%的训练数据从论文训练集中的其他任务中采样。

对于直接偏好优化（Direct Preference Optimization,DPO），论文提示较弱模型为每个来源的选定数据生成和评分响应，然后抽取子集进行人工验证。在对模型和提示进行调整后，论文将选定的响应分类为被拒绝的样本。

2.3 模型训练

2.3.1 建模

论文采用监督微调（SFT）方法，进一步将模型检查点与DPO方法对齐，并利用论文灵活数据管道的鲁棒性。论文的训练代码基于HuggingFace Transformers和Accelerate库，以及PyTorch FSDP。在训练过程中，模型经历多个epoch，每次数据集随机打乱。在使用多设备数据并行时，论文根据进程ID多样化随机种子，通过分区、打乱和交错确保数据分布均衡，从而增强训练过程的鲁棒性和可重复性。

通用xLAM模型的微调在Nvidia H100 GPU上进行。对于SFT，论文使用全微调框架，采用完全分片数据并行算法。在xLAM-8x22b-r的情况下，论文整合了LoRA，以更好地保留模型的原始能力并防止灾难性遗忘。LoRA也用于所有xLAM模型的DPO对齐。此外，论文使用带有100个预热步数的余弦学习率调度器来优化性能。

xLAM-FC模型针对不同类别的函数调用agent，包括简单、多重、并行和并行多重。这些类别旨在增强模型在不同场景中的性能。例如，一个简单的查询，如获取某个地点的天气（例如，“今天帕洛阿尔托的天气如何？”）可以通过调用get weather("Palo Alto", "today")来处理。多重查询涉及从多个API中选择适当的函数，而并行查询则需要同时执行多个函数调用。此外，模型在相关性检测方面进行了训练，以确保函数调用、执行结果与查询目标之间的一致性。

表1：xLAM模型系列概览。

2.3.2 xLAM模型系列

论文介绍了一系列针对不同用例定制的agent模型。论文的旗舰模型系列xLAM基于Mixtral Instruct[35]模型构建，旨在在多样化的agent任务中实现平衡性能，从复杂的多轮交互到函数调用应用。为确保其多功能性，xLAM在论文训练数据集中均匀采样的数据上进行了训练。

除了通用的xLAM模型外，论文还基于DeepSeek-Coder-7B-instruct-v1.5和DeepSeek-Coder-1.3B-instruct分别开发了两个专门用于函数调用用例的模型，xLAM-7b-fc-r和xLAM-1b-fc-r [49]。较小的模型尺寸提供了更高的可访问性，使用户能够轻松地在单个GPU上托管它们，以解决各种函数调用任务，从简单的用户查询到并行并发请求。

通过提供一系列不同尺寸和专业化的模型，xLAM系列满足了广泛的用戶需求和计算资源，使强大的agent能力更易于访问和适应实际应用。

2.4 实验

2.4.1 基准测试

在考虑了环境的稳定性和研究预算限制后，论文在四个严格的基准测试中评估了模型的性能：Webshop、ToolQuery、ToolBench和Berkeley函数调用基准测试。每个基准测试旨在评估模型在各种设置和约束下的不同能力。

Webshop是一个交互式网络环境，旨在模拟在线购物体验，测试agent在电子商务任务中的导航和协助能力。Webshop包含大约250个测试用例。

ToolQuery评估agent在跨领域使用工具检索和处理信息的能力。ToolQuery在三个不同的设置中提供了60个测试用例：天气、电影和学术。

论文使用AgentBoard [10]的测试配置来评估Webshop和ToolQuery。这些配置通过成功率和进展率来评估整体性能，其中成功率是更为关键的指标。

论文还评估了ToolQuery-Unified，它本质上就是ToolQuery，但要求agent按照83.2中描述的增强提示格式摄取任务指令和工具，并按照统一格式解决任务。在这种设置下测试agent的目的是评估其在结构化格式上的推理和工具使用能力。

ToolBench是为通过RapidAPI实时评估多轮推理和交互能力而开发的，包含约1,000个测试用例。它使用通过率作为指标，其中轨迹和最终响应被发送给GPT-4-0125-preview，以确定agent的最终响应是否成功解决了给定的用户查询。评估涵盖了领域内和领域外的设置，包括使用熟悉的工具处理未见过的指令、在先前已知类别中使用未见过的工具，以及完全新的未见过工具类别。

Berkeley Function-Calling Leaderboard (BFCL) Benchmark [32] 提供了一个全面的评估框架，用于评估agent在各种编程语言和应用领域中推理和执行函数调用的能力。该基准包含超过2,200个测试用例，挑战模型处理复杂场景，如在Java、JavaScript和Python等语言中的并行和多重函数调用。评估指标包括非可执行测试查询的抽象语法树（AST）准确性、通过运行API获取结果的可执行准确性，以及一个相关性检测分数，该分数衡量agent区分非相关查询和提供工具的能力。

重要的是，论文的评估使用了截至截止日期2024年9月3日的最新BFCL v2版本。v2版本引入了实时函数调用和用户贡献的真实场景，通过利用用户提供的数据解决了数据污染、偏见和公平性等问题。这个更新后的数据集更好地反映了现实世界的分布，表现为在多个函数中选择的需求增加，而对并行函数调用的需求减少。例如，论文的分析表明，在v2基准测试中，可用函数的平均数量增加了一倍，而函数调用的平均数量减少了一半，相比于非实时的v1数据。需要注意的是，论文所有的模型都是在BFCL v2实时数据发布之前训练的。

2.4.2实验结果

2.4.2.1 Webshop和ToolQuery

表 2 ：Webshop和ToolQuery的测试结果。粗体和下划线结果分别表示成功率的最佳结果和第二佳结果。

网页商店(Webshop)。表2展示了在Webshop和ToolQuery环境中，最先进的语言和agent模型之间的详细比较，说明了xLAM模型在性能上的稳健和强大。在Webshop环境中，xLAM-7b-r不仅以0.414的成功率达到了最高的成功率，超过了其他通用LLM如GPT-4-0125-preview、GPT-4o-2024-0523和Claude2，还优于专门的agent模型如AgentOhana-8x7b和Lemur-70b。这展示了xLAM模型在网页交互环境中有效导航和执行任务的卓越能力。

工具查询(ToolQuery)。在更为复杂且未知的ToolQuery环境中，xLAM-8x7b-r和xLAM-8x22b-r也表现出高水平的性能，如表2所示，以0.683的成功率排名第二。这相较于Mixtral-8x7b-inst和Mixtral-8x22b-inst的基础性能（分别为0.167和0.400）有显著提升。值得注意的是，所有三个xLAM模型都超过了Mixtral-8x22B-Instruct模型。尽管Mixtral-8x22B-Instruct拥有大量的参数和针对高级功能如函数调用、推理和复杂工具使用的专门调优，但其性能仍不及xLAM模型。此外，与其他通用LLM一样，它缺乏关于数据收集、统一过程和其他关键细节的透明度，这与xLAM的开源目的形成对比。这些结果显示了论文提出的数据统一和合成数据管道的有效性。

表3：ToolQuery-Unified的测试结果。加粗和下划线的结果分别表示成功率的最佳结果和第二最佳结果。括号中的值表示在ToolQuery上的相应性能。

工具查询-统一格式。当工具查询的系统提示以图 5 所示的统一格式呈现给模型，并要求模型遵循提供的格式指令生成结构化输出时，论文观察到 xLAM 模型的表现比 GPT 模型更为一致，如表 3 所示。尽管 GPT-4o 的表现相比工具查询下降了 42%，但论文的最佳 xLAM 8x22b 模型仍保持了相当的性能。这可以归因于 xLAM 在遵循统一格式的轨迹上进行训练，使其在推理过程中表现一致。同时进行的其他研究 [50] 也观察到，当大型语言模型（LLMs）被限制以特定格式生成输出时，在推理任务上的表现有所下降。深入分析表明，这种下降不仅仅是由于输出格式错误，而是模型自身推理能力的下降。

2.4.2.2 工具库

表4展示了工具库的结果，其中 xLAM 模型表现出色。它们在所有测试设置中均超过了 TooLlama-V2 和 GPT-3.5-Turbo-0125。此外，xLAM 模型在涉及未见指令和未见工具的场景中优于 AgentOhana-8x7b，同时在未见工具设置中达到了与 GPT-4-0125-preview 相当的性能。这些结果显示了 xLAM 模型在多轮推理和复杂工具使用方面的强大能力，能够有效处理领域内和领域外的任务。

2.4.2.3 伯克利函数调用基准（Berkeley Function-Calling Benchmark）

表 5 展示了在 BFCL v2 基准（截止日期 2024年9月3日）上的实验结果，显示了论文的 xLAM 模型系列在函数调用任务中的卓越表现。值得注意的是，xLAM 模型占据了前二十名中的四个位置，证明了论文的数据流水线和训练方法在各种模型规模上的有效性。

论文的旗舰模型 xLAM-8x22b-r 在基准测试中取得了最高的总体准确率 87.31%，超越了所有其他模型。这一结果验证了论文的数据处理和模型训练流程在提升模型功能调用能力方面的有效性。紧随其后，xLAM-8x7b-r 排名第 6，表现优于包括 GPT-4o-mini 和 Claude-3 在内的多数知名模型。

表 4：在 ToolBench 上三种不同场景的通过率。加粗和下划线的结果分别表示每种设置下的最佳结果和第二佳结果。由于 ToolBench 服务器在 2024 年 7 月 28 日至论文的评估截止日期 2024 年 9 月 3 日期间宕机，xLAM-8x22b-r 的结果无法获取。

论文的模型性能表现出与模型规模清晰的扩展关系，这一趋势在xLAM-7b-r中得到了体现，该模型以80.33%的准确率排名第14位。该模型优于多个更大且资源密集型的替代方案，包括多个GPT-4和GPT-4o版本，突显了小型模型在agent领域的潜力。

也许最值得注意的是，论文最小的模型xLAM-1b-fc-r以75.439%的准确率排名第32位，超越了像Claude-3-Opus（FC）和GPT-3.5-Turbo这样的更大模型。这一表现突显了论文的数据合成框架在生成高质量、多样化数据集方面的能力，这些数据集即使对于较小的语言模型也能增强函数调用的效果。

同样值得注意的是，BFCL v2基准测试[32]包含了一个在论文模型训练日期之后发布的实时数据集。这些新鲜数据来自论文模型完全未见过的真实用户查询。尽管如此，论文的模型在处理这些真实世界用例时表现出强大的泛化能力。从8x22亿到10亿参数的一系列模型中，持续强劲的表现展示了论文方法的可扩展性和多功能性。这种可扩展性尤为显著，因为它使得在资源受限环境中适合使用的小型模型能够取得强大结果，同时也适用于更苛刻应用的大型模型。此外，论文的小型模型能够与更大的替代方案竞争，这表明在各种现实场景中高效部署具有显著潜力。

2.4.3 消融研究

论文对7B模型进行了消融研究，以衡量数据管道中各个步骤的影响。为此分析准备了三个数据集：原始数据、增强数据和增强+清洗数据。原始数据代表数据统一前的数据集，而其他两个数据集则是统一后的数据。图表展示了在这三个数据集上训练的模型的评估结果。用于此评估的指标来自ToolBench的G1指令和Webshop及ToolQuery的成功率。结果表明，增强数据在ToolBench上提升了2.3%，在Webshop上提升了5.8%，在ToolQuery上提升了18.3%，显示出一致的改进。

此外，数据清洗的加入使得ToolQuery的性能大幅提升，进一步提高了23.4%。这些结果突显了数据增强和清洗过程在数据管道中的有效性。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业