我要投稿

OpenDevin：AI Agent 编程新时代，赋能软件开发的未来

发布日期：2024-08-17 10:05:56 浏览次数： 2290 作者：子非AI

OpenDevin 是一个开源平台，为 AI Agent 提供了像人类程序员一样与世界交互的强大能力。通过编写代码、使用命令行和浏览网页，AI Agent 能够解决软件工程、Web 浏览和综合任务，并在多个基准测试中取得了可喜的成绩。OpenDevin 正在推动 AI 软件开发领域的创新，并将重塑我们构建和使用软件的方式。

软件：人类与世界交互的桥梁，AI Agent 的新舞台

软件是人类智慧的结晶，它让我们能够以强大的方式与世界互动。随着人工智能技术的不断发展，特别是大型语言模型 (LLM) 的突破，AI Agent 正在以前所未有的速度学习和掌握软件开发技能，并展现出巨大的潜力。

然而，构建能够真正像程序员一样编写代码、修复错误和发布新功能的 AI Agent 并非易事。AI Agent 需要能够理解复杂的指令、学习编程语言、掌握软件工程工具，并安全地与各种系统进行交互。

OpenDevin：AI Agent 编程的利器，像程序员一样写代码

图 1: OpenDevin 用户界面

OpenDevin 应运而生，它是一个由社区驱动的开源平台，致力于为 AI Agent 提供一个学习和成长为软件开发者的理想环境。OpenDevin 的核心理念是赋予 AI Agent 与人类程序员相似的工具和能力，让他们能够像我们一样与计算机世界互动。

OpenDevin 提供了以下关键特性：

(1) 灵活强大的交互机制：OpenDevin 允许 AI Agent 通过事件流架构与用户界面、环境和工具进行交互，这种架构既强大又灵活，能够支持复杂的交互流程。

(2) 模拟真实开发环境：OpenDevin 为 AI Agent 提供了一个由沙盒操作系统和 Web 浏览器组成的环境，AI Agent 可以像真实的软件工程师一样利用这些环境完成任务，包括编写代码、执行命令和浏览网页。

(3) 为 AI Agent 量身定制的接口：OpenDevin 提供了一套专门为 AI Agent 设计的接口，包括 AgentSkills 库，该库包含了各种实用的工具和功能，可以让 AI Agent 更轻松地完成各种编程任务，例如文件编辑、代码搜索、网页解析等。

(4) 多 Agent 协作：OpenDevin 支持多 Agent 协作，允许多个专门的 AI Agent 协同工作，共同完成复杂的任务，例如一个 AI Agent 可以负责编写代码，而另一个 AI Agent 则负责测试和调试代码。

(5) 全面的评估框架：OpenDevin 提供了一个全面的评估框架，包含了多个基准测试，可以用来评估 AI Agent 在各种软件工程任务上的性能，例如修复代码错误、生成代码、回答代码相关问题等。

OpenDevin 架构：打造 AI Agent 编程的摇篮

为了实现上述目标，OpenDevin 采用了一个精心设计的架构，该架构包含三个主要组成部分：

(1) Agent 抽象: 社区开发者可以贡献不同实现的 Agent，并将其添加到 AgentHub 中。Agent 抽象定义了 Agent 如何感知环境状态 (例如之前的操作和观察结果) 并生成要执行的操作。Agent 的核心在于 step 函数，它接收当前状态作为输入，并根据 Agent 的逻辑生成相应的动作。

图 2: OpenDevin 中 Agent 实现的最小示例

(2) 事件流: 用于跟踪操作和观察结果的历史记录。事件流连接用户界面、Agent 和运行时，允许跟踪所有交互和环境变化。

(3) Agent 运行时: 执行 Agent 操作并生成观察结果。运行时提供了一个沙盒环境，其中包含 Agent 可以访问的工具和资源，例如 bash 终端、Jupyter Notebook 和 Web 浏览器。Agent 运行时通过一组核心动作将 Agent 与环境连接起来。这些动作包括 IPythonRunCellAction 和 CmdRunAction，允许 Agent 在沙盒环境中执行任意的 Python 代码和 bash 命令；以及 BrowserInteractiveAction，允许 Agent 使用领域特定语言与 Web 浏览器进行交互。

图 3: OpenDevin 架构细节

这种架构设计使得 OpenDevin 具有高度的灵活性和可扩展性，开发者可以根据自己的需求创建和定制 Agent，并将其集成到 OpenDevin 平台中。

AgentHub：社区贡献的 AI Agent 宝库

OpenDevin 的 AgentHub 提供了一个丰富的 AI Agent 库，这些 Agent 由社区开发者贡献，并根据不同的任务进行分类。

AgentHub 中的 Agent 类型包括：

• CodeAct Agent：默认的通用 Agent，能够通过代码 (CodeAct) 与环境交互，例如执行 bash 命令、Python 代码或特定于浏览器的编程语言。
• 浏览 Agent：专门用于 Web 浏览任务的通用 Agent，可以导航网页、点击按钮、提交表单等。
• GPTSwarm Agent：利用可优化图构建代理系统，每个节点代表不同的操作，边定义协作和通信路径，支持多 Agent 系统的自动优化。
• 微 Agent：专注于特定任务的 Agent，例如生成 git 提交信息的 CommitWriterAgent 和纠正整个代码库中拼写错误的 TypoFixerAgent。

OpenDevin 性能：AI Agent 编程实力的证明

OpenDevin 秉持着“Talk is cheap, show me the code” 的理念，集成了 15 个已建立的基准测试，用于评估 AI Agent 在软件工程、Web 浏览和综合任务上的性能。这些基准测试涵盖了多种任务类型，例如：

• 软件工程任务： 修复 GitHub 问题 (SWE-Bench), 修复代码错误 (HumanEvalFix), 将自然语言翻译成可执行的 SQL (BIRD), 生物信息学编码 (BioCoder), 机器学习编码 (ML-Bench), 使用软件 API (Gorilla APIBench), 使用工具 (ToolQA)。
• Web 浏览任务： 目标规划和现实的网页浏览 (WebArena), 在合成网络上进行短轨迹浏览 (MiniWoB++).
• 综合任务： 工具使用、浏览、多模态 (GAIA), 研究生水平的 Google 证明问答 (GPQA), 操作系统交互 (AgentBench), 状态跟踪和战略规划 (Entity Deduction Arena), 演绎逻辑推理 (ProofWriter)。

在这些基准测试中，OpenDevin 的 CodeAct Agent 在解决各种编程任务上表现出色，展现出强大的代码理解、生成和执行能力。例如：

• 在 SWE-Bench Lite 基准测试中，CodeAct Agent v1.8 使用 claude-3.5-sonnet 模型取得了 26% 的成功解决率，与其他专门用于软件开发的开源 Agent 相比具有竞争力。
• 在 HumanEvalFix 基准测试中，CodeAct Agent v1.5 在零样本设置下成功修复了 79.3% 的 Python 代码错误，显著优于所有非 Agent 方法。
• 在 ML-Bench 基准测试中，CodeAct Agent v1.5 使用 GPT-40 模型取得了 76.47% 的最高成功率，超过了其他专门针对软件开发的 Agent。

这些结果表明，OpenDevin 能够有效地训练和评估 AI Agent，使它们能够像人类程序员一样解决各种编程问题。

OpenDevin：重塑软件开发的未来

OpenDevin 正在推动 AI 软件开发领域的创新，它不仅是一个强大的 AI Agent 编程平台，更是一个汇聚全球开发者智慧的开源社区。我们相信，OpenDevin 将会重塑我们构建和使用软件的方式，让 AI Agent 成为软件开发者的得力助手，并最终解放程序员的双手，让他们能够更专注于创造性的工作，从而推动软件工程进入一个全新的智能化时代。