我要投稿

AutoAgent：让AI智能体开发变得触手可及

发布日期：2025-03-20 11:31:09 浏览次数： 1746 作者：觉察流

“ AutoAgent是一个全新的LLM智能体框架，它实现了全自动、零代码的复杂任务自动化开发。在GAIA基准中排名开源解决方案第一，其RAG相关性能也优于许多基于LLM的解决方案。它革命性的方法使AI开发民主化，让任何人都能轻松创建和定制自己的智能体、工具和工作流。”

大家好，我是肆〇柒。今天要和大家聊一个AI Agent框架——AutoAgent。这个框架是由香港大学的研究团队发布的，它让创建AI智能体变得像聊天一样简单，即使你不会写代码，也能轻松上手。是不是很让人兴奋？下面，我们就一起来了解一下这个框架吧。

一、AutoAgent的背景与意义

在AI技术飞速发展的今天，大型语言模型（LLM）展现出了惊人的能力，能够理解复杂指令、生成高质量文本，并与各种工具和API无缝集成。基于LLM的智能体（Agent）也因此应运而生，它们可以自动化执行任务、做出智能决策，在众多领域大显身手。然而，传统的智能体开发框架，比如LangChain、AutoGen等，往往需要开发者具备深厚的技术背景。全球仅有0.03%的人口拥有足够的编程技能，这无疑给智能体的广泛应用设置了高门槛。

AutoAgent构建的目标希望框架可以是完全自动化、零代码的智能体开发框架，让每个人都能通过自然语言创建和定制自己的AI智能体。这不仅极大地降低了技术门槛，还为AI技术的普及和应用开辟了新的道路。正如下图所示，AutoAgent曾在GAIA基准测试中排名第一，展现了其卓越的性能和易用性。它不仅实现了全自动、零代码的复杂任务自动化开发，还通过其革命性的方法使AI开发民主化，让任何人都能轻松创建和定制自己的智能体、工具和工作流。

二、AutoAgent的核心架构

AutoAgent的架构设计精妙，由多个关键组件协同工作，实现了智能体的高效创建与任务执行。下图展示了AutoAgent的核心组件，包括智能体系统工具（Agentic System Utilities）、基于LLM的可行动引擎（LLM-powered Actionable Engine）、自我管理文件系统（Self-Managing File System）和自我博弈智能体定制（Self-Play Agent Customization）模块。

1.智能体系统工具（Agentic System Utilities）

这是AutoAgent的基石，它提供了多种专业智能体，能够处理从网络浏览、信息检索到数据分析和代码执行等各类任务。

• 编排智能体（Orchestrator Agent）：它是用户的首要接口，负责接收任务、理解任务、分解任务，并将子任务分配给相应的子智能体。一旦子智能体完成任务，它会将结果返回给编排智能体，后者根据任务完成情况继续分配下一个子任务，直至整个任务完成。
• 网络智能体（Web Agent）：具备强大的网络操作能力，能执行网络搜索、页面导航、内容浏览和文件下载等任务。它将网络浏览行为抽象为多个高级工具，如点击、搜索、访问URL等，方便智能体完成各种网络相关任务。
• 编码智能体（Coding Agent）：是处理代码相关任务的全能选手。无论是数据处理、机器学习还是系统管理，它都能轻松应对。它提供了丰富的工具，包括创建代码脚本、执行Python代码、运行命令等，满足多样化的编程需求。
• 本地文件智能体（Local File Agent）：专注于本地文件的管理和分析。它能够处理多种文件格式，如文本、视频、音频、电子表格等，并将文件转换为Markdown格式以便于分析，为用户提供高效便捷的文件处理体验。

2.基于LLM的可行动引擎（LLM-powered Actionable Engine）

这个组件如同AutoAgent的“大脑”，利用大型语言模型（LLM）理解自然语言输入、生成行动计划，并协调多智能体之间的合作。它通过标准化LLM请求，支持100多种模型，实现了智能体之间的高效协作和任务执行。

3.自我管理文件系统（Self-Managing File System）

该文件系统将用户上传的多模态数据转换并存储在向量数据库中，使智能体能够方便地检索和理解各类信息。它支持多种文件格式，包括文本、压缩文件夹等，并能自动将这些文件转换为统一的文本格式进行存储和查询，大大提高了信息管理的效率。

4.自我博弈智能体定制（Self-Play Agent Customization）

这是AutoAgent的一大亮点。它允许用户通过自然语言定制工具和智能体，甚至构建自己的多智能体系统和工作流，无需任何编码。用户只需提供高层次的描述，AutoAgent就能自动生成相应的智能体和工作流，极大地简化了开发流程。

三、AutoAgent的技术亮点与优势

AutoAgent作为一款零代码的LLM智能体开发框架，其技术亮点与优势主要体现在以下几个方面：

1. 自然语言驱动的开发体验

AutoAgent的核心优势之一在于其完全基于自然语言的交互模式。用户无需编写任何代码，仅通过自然语言描述需求，即可完成智能体、工具和工作流的创建与定制。这种开发方式极大地降低了技术门槛，使得没有编程经验的普通用户也能轻松上手。无论是企业中的非技术员工，还是教育领域的教师、医疗领域的医生，都可以根据自身需求快速创建出个性化的AI智能体，从而将AI技术广泛应用于各种实际场景中。

2. 高度自动化与智能化的工作流生成

AutoAgent能够根据用户提供的高层次任务描述，自动创建、优化和适应智能体工作流。它不需要用户详细指定实现细节，而是通过智能分析和动态调整，为每个任务生成最优的工作流方案。这种高度自动化的特性，不仅节省了用户的时间和精力，还能够根据任务的复杂性和需求变化，实时调整工作流的结构和执行逻辑，确保任务的高效完成。例如，在处理复杂的多步骤任务时，AutoAgent可以自动识别任务中的关键节点，合理分配子任务给不同的智能体，并协调它们之间的协作，从而实现复杂任务的自动化解决。

3. 强大的智能体协作能力

AutoAgent采用了多智能体系统架构，支持多种类型的智能体协同工作。这些智能体各具特色，能够处理不同类型的任务，如网络浏览、数据分析、代码执行等。通过智能体之间的协作，AutoAgent可以完成更为复杂的任务。例如，在一个金融分析任务中，文档管理智能体可以负责整理和分析本地的金融文档，市场研究智能体可以在线检索最新的金融信息，而编排智能体则负责协调这两个智能体的工作，并将它们的结果整合起来，生成一份全面的分析报告。这种智能体协作模式，充分发挥了每个智能体的优势，提高了任务处理的效率和质量。

4. 灵活的资源编排与管理

AutoAgent通过自然语言提供对工具、API和计算资源的统一访问，并能够自动管理资源分配和优化。它可以根据任务的需求，动态调配资源，确保每个智能体在执行任务时都能获得足够的计算能力和其他必要的资源支持。同时，AutoAgent还能够对资源的使用情况进行实时监控和分析，及时发现并解决资源瓶颈问题，从而提高系统的整体性能和稳定性。这种灵活的资源编排与管理能力，使得AutoAgent在处理大规模任务和复杂场景时更具优势，能够更好地满足不同用户的需求。

5. 自我学习与持续优化

AutoAgent具备自我学习和持续优化的能力。它能够根据用户的反馈和任务的执行结果，自动调整自身的参数和策略，以提高性能和适应性。这种自我学习机制使得AutoAgent能够随着时间的推移不断改进，更好地满足用户的需求。例如，当用户对某个智能体的输出结果不满意时，可以通过简单的自然语言反馈，让AutoAgent自动调整智能体的行为模式，从而在后续的任务中提供更准确、更符合用户期望的结果。这种自我学习与持续优化的特性，使得AutoAgent能够不断进化，保持在AI智能体领域的领先地位。

6. 广泛的适用性与扩展性

AutoAgent不仅适用于各种类型的用户，还能够广泛应用于不同的领域和场景。无论是在教育、医疗、金融、商业还是其他任何需要自动化任务处理的领域，AutoAgent都能快速创建出符合用户需求的智能体和工作流。此外，AutoAgent还具有很强的扩展性，用户可以根据自己的需求，进一步定制和扩展智能体的功能，添加新的工具和模块，从而满足更加复杂和多样化的需求。这种广泛的适用性与扩展性，使得AutoAgent成为了一个极具潜力的AI开发平台，能够推动AI技术在各个领域的广泛应用和发展。

四、AutoAgent的性能评估与实际应用案例

为了验证AutoAgent的有效性，研究者们在多个基准数据集上进行了评估，并通过实际案例展示了其强大的功能。

1.通用智能体系统基准（GAIA）

下表展示了AutoAgent在GAIA基准测试中的性能，与基线模型进行了比较。AutoAgent在成功率达到55.15%，在众多开源智能体系统中排名第一，接近最新的专有智能体系统h2oGPTe Agent v1.6.8的性能。特别是在一级任务上，AutoAgent的准确率超过70%，展现了其在处理日常简单任务方面的高效能力。

Agent Name	Avg.	L1	L2	L3
TapeAgent v0.1	33.94	47.17	34.88	3.85
FRIDAY	34.55	45.28	34.88	11.54
Magentic-1	36.97	54.72	33.72	11.54
AgentIM	37.58	50.94	36.05	15.38
Multi-Agent Exp v0.1	39.39	54.72	38.37	11.54
AgentIM v1.1	40.00	50.94	40.70	15.38
Trase Agent	40.00	47.17	40.70	23.08
HuggingFace Agents	44.24	58.49	43.02	19.23
Magentic-1 (o1)	46.06	56.60	46.51	23.08
omne	46.06	60.38	44.19	23.08
Trase Agent v0.2	47.27	58.49	46.51	26.92
Barcelona v0.1	50.30	62.26	50.00	26.92
Langfun Agent v2.0	54.55	60.38	59.30	26.92
h2oGPTe Agent v1.6.8	63.64	67.92	67.44	42.31
AutoAgent	55.15	71.70	53.49	26.92

• 上表是基线模型与AutoAgent在GAIA基准测试中的性能比较

2.检索增强生成（RAG）任务

下表展示了AutoAgent在RAG任务评估中的性能，与基线方法进行了比较。AutoAgent显著优于其他基线方法。与LangChain的智能体RAG相比，AutoAgent的准确率更高，错误率更低。这得益于其灵活的智能体框架，能够在检索和推理过程中动态协调，实现更高效准确的结果。

Method	acc	err	acc	err
Chunk-Based NaiveRAG	53.36%	12.28%	56.59%	16.55%
Graph-Based MiniRAG	57.81%	34.78%	58.18%	35.40%
Agent-Based Langchain	62.83%	20.50%	73.51%	14.20%
AutoAgent	73.51%	14.20%	73.51%	14.20%

• 上表是AutoAgent及其基线方法在RAG中的评估.

3.实际应用案例

AutoAgent的强大之处不仅在于其理论设计，更在于其在实际应用中的出色表现。以下是论文中的一些具体案例，展示了AutoAgent如何在不同场景中发挥作用。

（1）达芬奇智能体创建

在创意设计领域，用户需要一个能够根据自然语言描述生成图像的智能体。AutoAgent通过其自我博弈智能体定制（Self-Play Agent Customization）模块，成功创建了一个“达芬奇智能体”。用户只需提供简单的自然语言描述，如“生成一个未来城市的图像”，AutoAgent就能利用Hugging Face上的图像生成模型（如Sana_600M_1024px_diffusers），生成高质量的图像，并将其保存到本地指定路径。此外，该智能体还能通过visual_question_answering工具对生成的图像进行评估，并根据评估结果进行迭代优化，直到满足用户的需求。

生成智能体的自然语言指令：

I want to create a ‘DaVinci Agent’ that can help me to generate the image with
natural language. it can:
1. generate the image with natural language and save it to the specified path on
the local machine using the HF model ’Sana_600M_1024px_diffusers’
2. evaluate the image using ‘visual_question_answering‘ tool according to the given
image.
3. interatively refine generated image based on the evaluation result.

这一案例不仅展示了AutoAgent在创意生成方面的强大能力，还体现了其在多模态数据处理上的灵活性。用户无需编写任何代码，只需通过自然语言交互，就能完成从创意构思到最终产品的整个过程。

（2）金融智能体构建

在金融领域，用户需要一个能够管理本地金融文档并在线检索金融信息的智能体。AutoAgent根据用户的需求，自动创建了两个智能体：文档管理智能体（Document Manager Agent）和市场研究智能体（Market Research Agent）。文档管理智能体负责管理本地存储的金融文档，如10-K报告、财务报表等，通过将这些文档转换为向量数据库，实现高效的信息检索和分析。市场研究智能体则负责在线检索特定公司的财务信息，如资产负债表、现金流量表和损益表，并对这些信息进行分析和总结。

AutoAgent进一步创建了一个金融分析协调器（Financial Analysis Orchestrator），用于协调这两个智能体的工作。用户可以通过自然语言向协调器提出请求，例如“分析AAPL和MSFT过去五年的财务表现，并提供2025年的投资建议”。协调器会将任务分解，分配给相应的智能体，并最终生成一份详细的投资分析报告，包括投资组合分配策略、投资理由、关键监控点、风险管理策略以及实施方法。

生成多智能体的自然语言指令：

I want to create ‘Financial Agent‘ that can help me to do two kinds of tasks:
1. Manage the private financial docs. I have a folder that contain the financial
docs in my local machine, and I want to help me to manage them.
2. Search the financial information online. You may help me to:
- get balance sheets for a given ticker over a given period.
- get cash flow statements for a given ticker over a given period.
- get income statements for a given ticker over a given period.

这一案例展示了AutoAgent在处理复杂任务时的能力，尤其是在需要多个智能体协同工作的情况下。它不仅能够高效地管理本地和在线数据，还能生成具有实际应用价值的分析报告。

（3）多数投票工作流生成

在需要高准确性的任务中，如数学问题求解，AutoAgent能够创建一个基于多数投票的工作流，以提高结果的可靠性。用户可以指定多个语言模型（如GPT-4、Claude、DeepSeek等）并行求解同一个问题，然后通过投票聚合智能体（Vote Aggregator Agent）确定最终答案。

例如，用户提出一个复杂的数学问题，AutoAgent会将问题分配给不同的语言模型进行求解。每个模型生成一个答案后，投票聚合智能体会对这些答案进行比较，并通过多数投票确定最终结果。这种方法不仅提高了答案的准确性，还减少了单一模型可能出现的错误。

这一案例展示了AutoAgent在处理需要高精度的任务时的优势，尤其是在需要多个模型协同工作的情况下。通过动态创建和优化工作流，AutoAgent能够有效地提高任务的执行效率和结果的可靠性。

生成工作流的自然语言指令：

I want to create a workflow that can help me to solving the math problem.
The workflow should:
1. Parallelize solving the math problem with the same ‘Math Solver Agent‘ using
different language models (‘gpt-4o‘, ‘claude-3-5-sonnet‘, ‘deepseek-chat‘)
2. Aggregate the results from the ‘Math Solver Agent‘ and return the final result
using majority voting.

通过这些实际应用案例，我们可以看到AutoAgent不仅在理论上具有创新性，而且在实际应用中也展现出了强大的功能和灵活性。无论是创意设计、金融分析还是高精度任务求解，AutoAgent都能通过自然语言交互，快速生成定制化的智能体和工作流，极大地简化了开发流程，降低了技术门槛。

下面，我们再一起看看这个框架的开源情况：

五、AutoAgent的安装与使用

安装步骤

git clone https://github.com/HKUDS/AutoAgent.git
cd AutoAgent
pip install -e .

Docker安装

这个框架会使用Docker来容器化智能体交互环境。需要先安装Docker。你无需手动拉取预构建镜像，因为框架会根据你的机器架构自动拉取预构建镜像。

API密钥设置

创建一个环境变量文件，就像.env.template一样，并为想要使用的LLM设置API密钥。并非每个LLM API密钥都是必需的，只需设置你需要的即可。

# 必须的GitHub令牌
GITHUB_AI_TOKEN=

# 可选的API密钥
OPENAI_API_KEY=
DEEPSEEK_API_KEY=
ANTHROPIC_API_KEY=
GEMINI_API_KEY=
HUGGINGFACE_API_KEY=
GROQ_API_KEY=
XAI_API_KEY=

以CLI模式启动

你可以运行auto main来启动AutoAgent的全部功能，包括用户模式、智能体编辑器和工作流编辑器。此外，你也可以运行auto deep-research来启动更轻量级的用户模式。

命令选项

• --container_name：Docker容器的名称（默认：'deepresearch'）
• --port：容器的端口（默认：12346）
• COMPLETION_MODEL：指定要使用的LLM模型，应按照Litellm的名称设置模型名称。（默认：claude-3-5-sonnet-20241022）
• DEBUG：启用调试模式以获取详细日志（默认：False）
• API_BASE_URL：LLM提供商的基础URL（默认：None）
• FN_CALL：启用函数调用（默认：None）。大多数情况下，你可以忽略这个选项，因为框架已经根据模型名称设置了默认值。
• git_clone：将AutoAgent存储库克隆到本地环境（仅支持auto main命令，默认：True）
• test_pull_name：测试拉取的名称。（仅支持auto main命令，默认：'autoagent_mirror'）

使用不同LLM提供商的`auto main`

Anthropic

• 在.env文件中设置ANTHROPIC_API_KEY。

ANTHROPIC_API_KEY=your_anthropic_api_key

• 运行以下命令以启动Auto-Deep-Research。

auto main # 默认模型是claude-3-5-sonnet-20241022

OpenAI

• 在.env文件中设置OPENAI_API_KEY。

OPENAI_API_KEY=your_openai_api_key

• 运行以下命令以启动Auto-Deep-Research。

COMPLETION_MODEL=gpt-4o auto main

Gemini - Google AI Studio

• 在.env文件中设置GEMINI_API_KEY。

GEMINI_API_KEY=your_gemini_api_key

• 运行以下命令以启动Auto-Deep-Research。

COMPLETION_MODEL=gemini/gemini-2.0-flash auto main

OpenAI-Compatible Endpoints（例如，Grok）

• 在.env文件中设置OPENAI_API_KEY。

OPENAI_API_KEY=your_api_key_for_openai_compatible_endpoints

• 运行以下命令以启动Auto-Deep-Research。

COMPLETION_MODEL=openai/grok-2-latest API_BASE_URL=https://api.x.ai/v1 auto main

OpenRouter（例如，DeepSeek-R1）

建议暂时使用OpenRouter作为DeepSeek-R1的LLM提供商，因为DeepSeek-R1的官方API无法高效使用。

• 在.env文件中设置OPENROUTER_API_KEY。

OPENROUTER_API_KEY=your_openrouter_api_key

• 运行以下命令以启动Auto-Deep-Research。

COMPLETION_MODEL=openrouter/deepseek/deepseek-r1 auto main

DeepSeek

• 在.env文件中设置DEEPSEEK_API_KEY。

DEEPSEEK_API_KEY=your_deepseek_api_key

• 运行以下命令以启动Auto-Deep-Research。

COMPLETION_MODEL=deepseek/deepseek-chat auto main

六、如何使用AutoAgent

AutoAgent的使用非常灵活，主要分为三种模式：

• 用户模式（User Mode）
• 智能体编辑器（Agent Editor）
• 工作流编辑器（Workflow Editor）。

这些模式分别针对不同的使用场景和需求，让不同层次的用户都能轻松上手。

1. 用户模式（User Mode）

用户模式是AutoAgent最基础的使用方式，适合那些只需要简单交互的用户。在这种模式下，用户可以通过自然语言与智能体进行对话，完成各种任务。例如，你可以直接向智能体提问，或者要求它执行特定的操作，如搜索网络、分析文件等。用户模式非常适合那些没有技术背景的普通用户，因为它完全不需要任何编程知识。

2. 智能体编辑器（Agent Editor）

智能体编辑器模式是AutoAgent的核心功能之一，它允许用户通过自然语言创建和定制自己的智能体。用户可以定义智能体的名称、描述、输入输出格式以及它需要执行的任务。AutoAgent会根据用户的描述自动生成智能体的代码，并将其部署到环境中。这种模式非常适合那些需要定制化智能体来完成特定任务的用户，例如，你可以创建一个专门用于数据分析的智能体，或者一个用于创意写作的智能体。

3. 工作流编辑器（Workflow Editor）

工作流编辑器模式进一步扩展了AutoAgent的功能，它允许用户创建和管理多个智能体之间的协作流程。用户可以通过自然语言描述智能体之间的交互逻辑，AutoAgent会自动生成相应的工作流。这种模式非常适合那些需要多个智能体协同完成复杂任务的场景，例如，你可以创建一个工作流，让一个智能体负责数据收集，另一个智能体负责数据分析，最后由第三个智能体生成报告。

通过这三种模式，AutoAgent不仅能够满足普通用户的基本需求，还能为高级用户提供强大的定制化功能，真正实现了AI智能体开发的民主化。

七、AutoAgent的未来展望

AutoAgent让没有编程经验的用户也能轻松创建和定制AI智能体，为AI技术的广泛应用提供了强大的支持。

这个框架在零代码开发AI智能体方面迈出了重要一步。未来，开源团队会致力于增强其与更多工具平台的集成，进一步丰富智能体的功能。同时，优化工作流管理机制，使其能更智能地应对复杂任务，提升执行效率。此外，开发更友好的用户界面，降低使用门槛，让非技术用户也能轻松上手。在资源管理方面，进一步提高数据处理和模型优化的效率，确保系统在处理大规模数据时的稳定性和响应速度。这些改进将使AutoAgent更加强大和实用，推动AI技术的普及。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业