阿里Qwen团队开源的AgentScope：一个灵活但强大的多智能体开发平台（一） - 53AI-AI知识库|大模型知识库|大模型训练|智能体开发

开发多智能体应用程序的复杂程度显著增加。与智能体仅与用户交互的单智能体设置不同，在多智能体场景中的开发需要精心创建和管理多个模型和智能体。这对平台的通用性和便利性提出了较高要求。特别是，多智能体应用程序中的智能体可以通过不同的初始配置专门化于不同的功能；一个多智能体应用程序可能需要智能体按照标准化的操作流程（SOP）或更动态的工作流程执行；智能体之间的通信模式可以从一对一到广播（例如，一组智能体的讨论组）不同。因此，从开发者的角度来看，他们期望一个方便的平台，在处理所有这些方面时能提供简洁明了的编程模式，加速和促进开发周期。然而，同时实现通用性和便利性需要进行谨慎设计并进行权衡。

异常是多智能体系统中的易爆点。尽管大型语言模型发展迅速，但它们仍然在与幻觉和不充分的指令遵循等问题作斗争。此外，一个智能体可以配备各种工具，但这些工具会引入额外的不确定性（例如，对数据库或互联网的可访问性）。从多智能体系统鲁棒性的角度来看，单个意外错误或响应可能会传播到整个系统，如果不正确处理，则会引起一系列级联效应。因此，多智能体应用程序自主检测并处理LLMs的错误响应至关重要。虽然LLMs可以帮助识别和管理这些错误，但确定它们是否能够自行解决错误，并自动提供错误纠正所需的信息仍然是一个挑战。因此，在多智能体应用程序开发中，设计整合LLMs的容错性是一个关键挑战。

兼容的多模态数据具有高度的系统性。针对多模态内容生成的智能体或LLM应用程序正在增加。在多智能体应用程序中支持多模态数据需要一种全面而系统的方法。这包括对数据存储、呈现、用户交互、消息传输、通信等的考虑。然而，满足这些要求提出了新的挑战，包括确保不同格式的数据一致性、在数据传输和智能体通信过程中保持高性能，以及避免为开发者和用户引入复杂的概念。尽管有特定于应用程序的解决方案，但目前没有通用的平台级编程接口来支持多模态应用程序。

分布式应用程序带来额外的编程困难和系统设计挑战。一个针对多智能体应用程序的面向工业的场景是，智能体由不同的组织拥有，并且在不同的机器上运行，因为智能体配备了独特的私有知识或专利工具。为了支持这样的应用程序，通常需要应用程序开发人员在设计阶段具备分布式系统编程和优化的专业知识。此外，分布式应用程序通常需要在开发和测试过程中付出更多的努力，特别是在调试和诊断分布式进程或智能体上的问题时。此外，将高级功能（如多模态数据处理）集成到分布式环境中时，智能体需要不同的时间来完成子任务，或生成的内容非常异构，这通常会引入额外的挑战。糟糕的设计决策可能导致智能体之间的通信开销过大。因此，对于开发者来说，有效地解决这些问题以确保系统有效运行具有挑战性

为了解决这些挑战AgentScope应运而生，这是一个专为具有不同专业水平的开发人员设计的新型多智能体平台

AgentScope 的架构包括三个层次结构层，如上图所示。这些层为多智能体应用程序提供了不同层次的支持，包括单个智能体的基本和高级功能（实用层）、资源和运行时管理（管理器和包装器层）以及从智能体级到工作流级的编程接口（智能体层）。AgentScope 引入了直观的抽象，旨在满足每个层次固有的多样化功能，并简化构建多智能体系统时复杂的层间依赖关系。此外，我们提供了编程接口和默认机制，以增强多智能体系统对不同层内故障的弹性。

实用层：作为平台的基础，AgentScope 中的实用层提供了支持智能体核心功能的基本服务。该层抽象了底层操作的复杂性，如 API 调用、数据检索和代码执行，使智能体能够专注于其主要任务。AgentScope 的实用层设计以易用性和鲁棒性为最高优先级，支持多智能体系统中的多功能操作，并为异常和错误处理提供内置的自动重试机制，以应对意外中断。

管理器和包装器层：作为中介，管理器和包装器抽象层管理资源和 API 服务，确保资源的高可用性，并抵御 LLMs 的不良响应。与实用层提供默认处理程序不同，管理器和包装器层还为故障容错控制提供可定制接口，根据开发人员的需求和应用程序的特定要求。该层负责维护智能体的运行完整性，这是 LLMs 在不同条件下保持一致性执行的关键方面。

智能体层：AgentScope 的核心是智能体抽象，它构成了多智能体工作流的骨架，是负责交互和通信的主要实体。该层旨在促进复杂工作流的构建，并增强可用性，减轻开发人员的编程负担。通过集成简化的语法和工具，AgentScope 赋予开发人员集中于利用 LLMs 能力的基于智能体的应用程序的实现和优化。

用户交互：除了分层架构外，AgentScope 提供了多智能体导向的接口，如终端和 Web UI。这些接口允许开发人员轻松监控应用程序的状态和指标，包括智能体通信、执行时间和财务成本。AgentScope 的分层结构共同为开发人员提供了必要的构建模块，以打造定制的多智能体应用程序，利用大型语言模型的先进功能。接下来的部分将深入探讨增强多智能体应用程序开发编程体验的 AgentScope 特性。

AgentScope 中的主要概念：消息、智能体、服务和工作流。这四个概念贯穿于整个平台和基于它的所有多智能体应用程序中。

消息：消息在多智能体对话中作为信息交换的载体，封装了信息的来源和内容。在 AgentScope 中，消息被实现为具有两个必填字段（名称和内容）和一个可选字段（URL）的 Python 字典。名称字段记录生成消息的智能体的名称，内容字段包含由智能体生成的基于文本的信息。URL 字段设计用于保存统一资源定位符（URL），通常链接到多模态数据，如图像或视频。具有此字段的消息特别与可以处理和生成多模态内容的智能体交互相关。每个消息由自动生成的 UUID 和时间戳唯一标识，确保可追溯性。示例 1 展示了如何创建消息，作为 AgentScope 中智能体间通信的基本单元。

智能体：智能体是多智能体应用程序中的主要参与者，充当对话参与者和任务执行者。在 AgentScope 中，智能体行为通过两个接口进行抽象化：reply 和 observe 函数。reply 函数将消息作为输入并生成响应，而 observe 函数则处理传入的消息而不生成直接回复。智能体与消息之间的相互作用，如示例 2 所示，构成了 AgentScope 的运行基础，并且对于开发人员来模拟多智能体 LLMs 中的复杂交互至关重要。

服务：AgentScope 中的服务指的是使智能体执行特定任务的功能性 API。这些服务分为模型 API 服务（用于使用 LLMs 的通道）和通用 API 服务（提供各种工具功能）。将这些服务集成到智能体中对于执行各种任务至关重要，特别是当与可能需要外部数据或计算服务的 LLMs 进行接口时。

工作流：工作流代表智能体执行和智能体之间消息交换的有序序列，类似于 TensorFlow 中的计算图，但具有适应非 DAG 结构的灵活性。工作流定义了智能体之间信息流和任务处理的流程，促进并行执行和效率改进。这个概念对于设计与 LLMs 交互的多智能体系统至关重要，因为它允许协调复杂、相互依赖的任务。

为开发人员提供卓越的易用性：AgentScope 着重于易用性，特别是对于具有不同专业水平的开发人员。通过实现面向过程的消息交换机制，AgentScope 确保了平滑的学习曲线。为了进一步减轻编程负担，AgentScope 提供了广泛的语法实用程序套件，包括各种流水线和信息共享机制。结合丰富的内置资源和集成的用户交互模块，AgentScope 使编程多智能体应用程序比以往任何时候都更加愉快。

多样的 LLMs 和 API 的稳健容错性：随着模型和 API 的规模和范围的扩大，在多智能体应用程序中引入稳健的容错机制变得至关重要。AgentScope 集成了一个全面的服务级重试机制来保持 API 的可靠性。AgentScope 配备了一组基于规则的修正工具，用于处理 LLMs 响应中的一些明显的格式问题。此外，AgentScope 提供可定制的容错配置，使开发人员可以通过参数如 parse_func、fault_handler 和 max_retries 来定制自己的容错机制。

多模态应用程序的广泛兼容性：随着大规模多模态模型的显著进展，AgentScope 支持在对话呈现、消息传输和数据存储中使用多模态数据（例如文件、图像、音频和视频）。具体而言，AgentScope 通过消息中的统一基于 URL 的属性将多模态数据传输与存储分离。在消息传输过程中，AgentScope 仅向消息附加一个 URL，从而最小化了每个智能体内存中由消息副本引起的内存使用。这种策略确保了多模态数据仅在必要时加载，例如在 Web UI 中呈现或由模型包装器调用时。

分布式多智能体操作的优化效率：认识到分布式部署的重要性，AgentScope 引入了一种基于 actor 的分布式机制，实现了复杂分布式工作流的集中式编程和自动并行优化。特别是，本地和分布式部署的工作流完全相同，这意味着在集中式和分布式环境之间迁移应用程序时几乎没有开销。借助这样的分布框架，AgentScope 使开发人员能够专注于应用程序设计，而不是实现细节。