我要投稿

【Agent智能体指北】告别996，LangGraph 打造代编程智能体！

发布日期：2024-06-14 07:06:16 浏览次数： 2353 作者：AI模数师

代码生成和分析是大型语言模型（LLMs）最重要的应用场景之一，比如我们可以直接让Kimi写一段Python程序。

不过对于复杂的程序，有时候效果并不能满足我们的期望。

不过现在有了工作流，可以通过LangGraph打造一个编程智能体，通过迭代的方式，让Agent自我进化，实现更好的编程效果，主要包含两个步骤：

（1）测试答案

（2）反思这些测试的结果，以改进解决方案。

但是，通过 LangGraph 打造智能体究竟能带来多大的提升效果？我们想需要对比两种不同的架构：

通过提示词编写代码
通过LangGraph 构建编写代码的流程，如果有错误则自我纠正

我们实现了一个包含以下组件的代码生成的工作流：

受最近长上下文 LLMs 趋势的启发，我们使用 GPT-4 和 128k 令牌上下文窗口对 60k 令牌 LCEL 文档进行上下文填充。我们将一个关于 LCEL 的问题传递给我们填充了上下文的 LCEL 链以生成初始答案。
我们使用 OpenAI 工具将输出解析为 Pydantic 对象，该对象包含三个部分：（1）描述问题的序言，（2）import 代码块（3）代码。
我们首先检查导入执行，因为我们发现在代码生成过程中，导入语句中可能会出现幻觉。
如果导入检查通过，我们接下来检查代码本身是否可以执行。在生成提示中，我们指示 LLM 不要在代码解决方案中使用伪代码或未定义的变量，这应该产生可执行的代码。
重要的是，如果任一检查失败，我们将堆栈跟踪与之前的答案一起传回生成节点以进行反思。我们允许重试 3 次（仅作为默认值），重试次数可以根据需要扩展。

使用 LangSmith 进行评估

作为基线，我们实现了没有 LangGraph 的提示词代码生成，使用 GPT-4 和 128k 令牌上下文窗口对 60k 令牌 LCEL 文档进行内容生产。将一个关于 LCEL 的问题传递给我们填充了上下文的 LCEL 链以生成答案。

使用 LangSmith 进行评估，主要评估两项：import的内容和代码执行是否正确。

在评估集上用 20 个问题对提示词生成的代码进行了四次评估。我们看到大约98% 的导入测试是正确的，大约 55% 的代码通过了执行测试。

失败的内容主要是它没有意识到 RunnableLambda 函数的输入将是一个 dict 并认为它是一个 string：AttributeError: 'dict' object has no attribute 'upper'

然后我们测试了提示词 + LangGraph 在导入和代码执行中执行此类错误的检查，然后在执行更新答案生成时反思任何错误。

在相同的评估集上，我们看到 100% 的导入测试是正确的，以及大约 81% 的代码通过了测试。

使用LangGraph也遇到了相同的错误，但在错误的反思过程中，通过三次反思，最终生成正确处理了 RunnableLambda 函数中的输入 dict。

总体而言，添加这个简单的反思步骤并使用 LangGraph 重试，导致代码执行有了显著改进，大约有 26% 的改进。

结论

LangGraph 可以有效地通过编程智能体解决代码编写过程中的一些问题，通过对失败结果的反思，并自我迭代改进代码结果。

在不远的将来，Agent智能体已经可以替代大部分初级开发的工作，人人都能编程的时代已经到来！

欢迎关注我，获取更多关于 AI 优化的前沿资讯。别忘了将今天的内容分享给你的朋友们，让我们一起见证 AI 技术的飞跃！

觉得我的文章对你有帮助的话，请不要吝啬你的点赞、在看和转发~

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-19

Exa：给 AI Agent 的 “Bing API”

2025-04-19

Chrome过时了，AI Agent需要自己的浏览器。

2025-04-19

n8n + mcp王炸组合：5个节点轻松搭建一个AI工作流

2025-04-18

火山引擎OS Agent解决方案、豆包1.5·UI-TARS模型发布

2025-04-18

前沿导读 | 基于大模型智能体的出行行为模拟

2025-04-18

大概念模型（Large Concept Models）会取代提示工程吗？

2025-04-18

AI 重要概念科普与热门技术解析

2025-04-18

我对于AI领域商业模式的思考

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

大模型｜“上下文长度”和“上下文窗口”不再傻傻分不清楚！

2024-07-31

一文带你了解大模型——智能体（Agent）

2024-05-28

50+个AI大模型在不同领域的应用案例

2024-08-04

全面对比dify、coze、streamlit、chainlit

2024-04-26

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

一文读懂OpenAI新发布o1系列大模型

2024-09-17

大家都在问

大概念模型（Large Concept Models）会取代提示工程吗？

2025-04-18

LLM中的Token和Embedding到底是啥？

2025-04-16

探秘 LLM Agents：ReAct 框架藏着哪些惊喜？

2025-04-13

MCP、Function Calling 有什么区别？与 AI Agent 有什么关系？

2025-04-13

有了MCP，还需要深入研究Agent吗？

2025-04-13

大模型备案详解：哪些企业需要备案？如何高效准备？

2025-04-12

一夜之间，所有AI都会“说普通话”！谷歌A2A协议到底有多猛？

2025-04-12

谁是MCP 的 AI 好搭档？

2025-04-11

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部