我要投稿

FixAgent: 基于多 Agent 交互的自动 debug 应用框架

发布日期：2024-10-17 17:09:39 浏览次数： 2427

作者：AI 搜索引擎

微信搜一搜，关注“AI 搜索引擎”

本文是由香港中文大学、伊利诺伊大学联合发表。该文提出的 FixAgent 框架通过 LLM 代理的协同作用的方式，能够一站式完成漏洞的定位、修复和分析。有效提升模型 20% debug 能力。

FixAgent: A Unified Debugging Approach via LLM-Based Multi-Agent Synergy

FixAgent: 基于多 Agent 交互的自动 debug 应用框架

论文地址：https://arxiv.org/pdf/2404.17153

摘要

目前，大语言模型（LLM）在自动化调试领域展现出了显著的潜力。尽管如此，传统调试工具以及基于 LLM 的调试工具仍面临三个主要的挑战：

1. 故障定位的不准确会影响后续的修复工作；
2. 在处理复杂的逻辑错误方面存在不足；
3. 忽略了程序的上下文信息。

针对这些挑战，本文提出了一个名为 FixAgent 的创新自动化调试框架，该框架通过 LLM 代理的协同作用，实现了自动化的bug定位、修复和分析。

核心内容

FixAgent 架构

下图是 FixAgent 的整体架构图。

FixAgent 的核心系统架构由三名专业的 Agent 组成，各自负责不同的任务：一个专注于错误定位，一个负责生成补丁，还有一个专门负责修复后的审查工作。

除此之外，还有一个名为 Agent Crafter 的特别单元，它的任务是创建超越传统手动测试集的测试案例，以此来防止发生过度拟合的问题。如果检测到生成的补丁不可行或存在问题，系统会通过收集失败信息的反馈机制，重新启动修复流程。

FixAgent 三个关键的核心技术组件

1. 高效的多 Agent 协同工作

该框架首先设计了两个专业的 LLM 代理，分别担任 "错误定位专家" 和 "补丁生成专家" 的角色。随后，引入了第三个 LLM 代理，负责对错误和修复方案进行深入分析。每个代理都采用了"小黄鸭调试法"，以确保其工作过程得到详尽的解释。

这种协同机制不仅能够在错误位置未知的情况下提供带有详细解释的程序修复方案，还能弥补错误定位器可能存在的不足。例如，它能够修复那些超出定位器识别范围的代码语句。

2. 中间变量监控

FixAgent 通过引导每个 Agent 在错误程序的关键节点监控关键变量，从而实现对程序的深入分析。此过程详细讨论了如何通过这种监控来指导 FixAgent 完成其任务。

这种设计的优势在于它允许代理按照逻辑执行路径逐步分析代码，从而提供更精确的错误解释。

3. 构建上下文联系

通过分析软件本身及其依赖项来构建代码段的背景信息，并将错误信息与代码一同传递给 FixAgent。软件环境通常涵盖以下要素：功能概述、输入输出及其样本、变量的可见范围等。

本文鼓励 Agent 在诊断错误时，全面考虑这些背景信息，以便更准确地把握错误发生的根源。

多 Agent 协作机制

故障定位 Agent：它可以指出缺失的语句，并在 buggy 程序中标记它们，例如 “

中间变量监控

FixAgent 引导每个代理专注于失败的测试案例，追踪程序中关键的中间变量，并将其与预期结果进行比较。每个代理都必须在回复中清楚地展示其追踪中间变量的步骤，并阐明这一过程如何有助于形成答案。这种设计灵感来源于 “小黄鸭调试法”，即通过解释代码来加深对代码调试的理解。

此外，这种设计还增强了 LLM 决策过程的透明度，允许开发者观察到代理推理答案的完整路径，为开发者与AI之间的互动提供了更多信息。

构建上下文联系

在构建程序的上下文理解时，FixAgent 特别关注两个核心要素：需求和依赖。

对于文档资料较为完善的程序代码，FixAgent 会利用程序的功能描述、输入/输出规范以及精度要求等信息。如果程序实现了一个通用算法，但缺乏明确的文档说明，FixAgent 将使用一个通用的大语言模型（不一定是 FixAgent 本身）根据算法的名称来生成算法的描述，以此作为算法需求的文档。

接下来，FixAgent会分析出错程序的依赖项，并提取出相关的依赖文件代码。这些提取出的代码会被放置在程序代码之前，这样做可以确保 LLM 能够首先处理依赖代码，然后再处理出错的程序代码，从而提高处理的效率。

总结

FixAgent 框架的产生标志着在自动化调试领域迈出了重要的一步。它是首次提出了一个基于 LLM 代理协同工作的统一调试框架。它能够以端到端的方式执行故障定位、补丁生成和错误分析。

本文洞悉到 LLM 可以从软件开发者广泛认可的软件工程原则中获益，因此，本文采纳了橡皮鸭调试法，即通过详细解释代码来促进 LLM 模型的理解，基于此原则，本文设计了新的策略，以激发LLM的调试潜力，并克服了以往的挑战。

在两个广泛使用的基准数据集上的评估显示，FixAgent 在性能上超越了现有的自动化程序修复（APR）工具和基于 LLM 的解决方案。

此外，本文还进行了额外的实验，这些实验采用了最近收集的数据，以避免数据泄露的问题，进一步证明了 FixAgent 框架在调试任务上的泛化能力和有效性

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-03-23

知识基座：让“AI 越用越懂业务”的团队经验实践【天猫AI Coding实践系列】

2026-03-21

面向手机Agent的记忆系统工程:OPPO的Agentic-RAG实战与演进

2026-03-20

为什么总感觉 Claude Code 比 Cursor 聪明？真正的原因根本不是模型能力！

2026-03-18

从RAG到GraphRAG：货拉拉元数据检索应用实践

2026-03-17

企业AI落地三重门，用友如何破局？

2026-03-16

Java 开发者的轻量级 RAG 方案：MeiliSearch 混合搜索实战

2026-03-11

Embedding相似度虚高，如何用langchain+Milvus搭建CRAG解决？

2026-03-11

上下文腐烂：拖垮企业AI与LLM表现的隐患与对策

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

2026 年你需要了解的 RAG 全解析

2026-01-15

如何用NotebookLM，把枯燥的财报解读成精美的PPT？

2026-01-02

深度解析 PageIndex：无向量 RAG 框架的技术实现与原理剖析

2026-02-13

企业RAG知识库系统中关于向量数据库的对比选型指南

2025-12-31

使用 Agent Skills 做知识库检索，能比传统 RAG 效果更好吗？

2026-02-03

当 Claude Code 连接 NotebookLM，个人 AI 终于有了“长期记忆”

2026-01-06

告别向量数据库！PageIndex：让AI像人类专家一样阅读长文档

2026-02-03

Claude Code 外挂最强大脑 NotebookLM Skill

2025-12-29

RAG 落地全干货深度分享：从“效果不理想”到生产级 RAG 系统的进化之路

2026-02-06

今天，分享Clawdbot记忆系统最佳工程实践

2026-01-28

大家都在问

企业AI落地三重门，用友如何破局？

2026-03-17

Embedding相似度虚高，如何用langchain+Milvus搭建CRAG解决？

2026-03-11

不用向量数据库的 RAG，居然跑得更准了？

2026-02-22

当RAG遇上Agent记忆：为什么相似度检索会"塌方"？

2026-02-15

Claude Cowork 真能替换 RAG ？

2026-02-04

使用 Agent Skills 做知识库检索，能比传统 RAG 效果更好吗？

2026-02-03

为什么 RAG 越用越慢？如何反向调优？

2026-01-19

NotebookLM如何在48小时内分析2万份论文？

2026-01-12

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw