我要投稿

Dosu：Github维护Agent，与LangSmith携手打造可持续学习Agent

发布日期：2024-05-19 06:08:47 浏览次数： 2330 作者：槿墨AI

什么是Dosu

如果你经常因为各种Bug在Github的Issues里面翻来翻去，你有可能会见过Dosu在帮忙解决这些问题。

https://github.com/langchain-ai/langchain/issues/19703

https://github.com/chatchat-space/Langchain-Chatchat/issues/3961

Dosu是一个人工智能驱动的维护Github的Agent，帮助开源维护人员鼓励贡献者、组织问题、分类bug、回答问题等等。

https://github.com/apps/dosubot

Dosu的CEO Devin Stein发现，受欢迎的开源项目会花费更多的时间在维护上，而不是开发新功能。Dosu通过接管开发人员的部分工作，让开发者专注功能创新，同时为社区提供即时支持，解决用户问题。

早期的Dosu

Dosu于2023年6月底发布。最初的用户反馈很少，Dosu团队每天仅使用grep 和 print 语句，通过检查日志就能找出改进的地方。

与传统的代码更新不同，改变大型语言模型（LLM）的逻辑并不简单。很难知道一个小的改动如何影响整体性能。

因此需要一种方法来衡量更改的影响。对于每一个更改，能够确保：

· 在表现良好的地方保持性能

· 在表现不佳的地方提高性能

评估驱动开发

评估驱动开发 (EDD, Evaluation driven development) 与测试驱动开发一样，为Dosu提供了开发的最终目标。

通过EDD，有一个明确的流程来改进 Dosu：

· 通过一些初始评估创建新行为

· 向用户推出新行为

· 监控生产结果并识别故障模式

· 将每种故障模式的示例添加到我们的离线评估中

· 迭代更新的评估以提高性能

· 重新启动并重复

这种开发工作流程的效果很好，但随着使用量的增长，跟上Dosu的步调变得很困难。

大规模保持高质量标准

如今，Dosu已安装在数千个Github仓库中，并全天生成响应。

Dosu团队构建了数十个子模块来智能处理不同类型的场景，并且随着模型研究的发展，不断迭代解决问题的方法。

虽然 Dosu的成长令人兴奋，但也面临着挑战。Dosu活动的增加使得监控响应和识别生产中的故障模式几乎变得不可能，而这对于EDD工作流程至关重要。

Dosu团队寻找一种工具，不仅可以帮助监控Dosu的活动，而且足够灵活，可以融入现有的工作流程。一些标准包括：

· prompts必须存在于Git中 —— 在 EDD的宗旨中，将prompts视为代码。对prompts的任何更改都必须按照与代码更改相同的标准进行处理。

· 代码级跟踪 —— Dosu不仅仅是一系列LLM请求。希望能在单个跟踪中跟踪LLM请求之间的元数据。

· 易于导出数据 —— 能够保留的现有评估数据集和工具。

· 可定制和可扩展 —— LLM正在迅速发展，构建LLM应用程序没有标准方法。我们希望控制哪些元数据被追踪，并根据我们的需求定制这个工具。

在探索了一些工具后，Dosu团队发现Langchain推出的LangSmith工具似乎可以满足所有的这些要求！

通过SDK实施LangSmith

LangSmith最让Dosu团队兴奋的不是它时尚的UI或广泛的功能集，而是它的SDK。

LangSmith SDK提供了Dosu团队所追寻的细粒度控制和可定制性。

要尝试 LangSmith，只需使用@traceable向一些与 LLM 相关的函数添加一个装饰器。

装饰器@traceable的一个令人意想不到的强大功能是它可以将函数和LLM调用跟踪发送给LangSmith。

这使我们能够在LangSmith UI的单个跟踪中查看原始函数输入、渲染的提示模板和LLM输出。

LangSmith开箱即用，让我们可以了解Dosu的所有活动。下一步是利用LangSmith识别故障模式并将其集成到EDD工作流程中。

寻找错误

Dosu收到了来自用户的无数请求，从有关代码库的简单问题，到升级到新库版本的错误跟踪，再到询问功能状态。

Dosu的更多输入意味着更多的错误结果。

可以通过以下几点，识别错误结果或Dosu处理不好的请求：

· 显式反馈：ChatGPT流行的经典的赞成/反对反馈。

· 用户情绪：当用户在GitHub问题上与Dosu互动时，他们的回复通常会表明Dosu是否有帮助

· 内部错误：LLM可能因多种原因而失败。输入或输出是否太大？生成的响应是否与所需的架构不匹配？

· 响应时间：在Dosu中，优先考虑质量而不是速度；然而，了解响应缓慢的原因很重要。有些请求需要快速响应，而另一些请求则需要较慢但更精确的响应。

LangSmith 的高级搜索功能可以轻松识别异常行为。

我们可以使用一系列标准执行搜索，包括：明确的用户反馈、最近的错误事件、响应时间延迟或负面情绪。

LangSmith还允许我们将额外的元数据附加到每个跟踪，以进一步扩展其搜索功能。

一旦我们找到失败的行为，EDD工作流程就与以前相同。

1. 搜索LangSmith以获取更多示例

2. 将它们添加到我们的评估数据集中

3. 针对评估进行迭代

4. 推送新版本的 Dosu，然后重复。

Dosu X Lang Smith无需提示工程实现30%的精度提升

尽管提示工程（prompt engineering）对于大型语言模型（LLM）的性能提升至关重要，但Dosu不仅仅是一个LLM，它是一个产品。

如果产品依赖于用户的提示工程能力，会导致产品体验不稳定。

如果提示工程不可行，那么微调（fine-tuning）呢？Dosu拥有足够的流量，收集微调数据集相对容易，但微调也有一些致命的缺点：

· 微调模型管理复杂。如果我们需要为N个客户微调模型，我们就有N个不同的模型需要服务、重新训练和监控。这个问题可以解决，但非常耗时。

· 微调模型是静态的。与提示类似，微调模型固定在某个时间点。组织的变化会导致微调模型的性能因数据漂移而以意想不到的方式下降。

静态上下文学习也容易受到数据漂移的影响

持续的上下文学习是个简单而有效的方案

上下文学习的一个优雅的部分是只有一个变量需要调整：示例。

为了让Dosu了解组织的细节，我们所需要做的就是，为该组织在给定时间，针对给定任务选择最佳示例。

在选择最好的例子之前，需要先收集它们。

如前所述，当用户更正Dosu回答时，我们会将其更正结果保存为该任务的示例，然后将其与用户的组织相关联。

我们将所有这些示例存储在一个数据库中，我们将其称为存储示例（类似于传统的 ML 特征存储）。

现在，每当Dosu要完成任务时，我们都可以搜索存储示例以查找最相关的示例。这将我们的学习问题转变为检索问题，类似于我们在RAG中所做的。

最终的持续上下文学习流程在概念上很简单：

· 收集用户的更正并将其保存到存储示例

· 在推理时，搜索示例存储并尝试找到当前输入的最佳示例

· 重复

最终结果正是我们所寻求的：Dosu以一种自然的方式来了解组织并随着时间的推移适应其变化。

与Lang Smith一起实施持续学习

LangSmith拥有轻松实施持续学习的所有构建模块。

为了收集更正示例，LangSmith可以将更正结果作为反馈附加到运行(run)中。

run：: https://docs.smith.langchain.com/old/tracing/concepts?ref=blog.langchain.dev#runs

对于我们的存储示例，可以依赖LangSmith的数据集。要将示例插入LangSmith，我们可以使用规则或通过数据集API插入它们。

持续学习是智能体的未来

持续学习能够创造神奇的产品体验。它使最终用户能够定制Dosu以满足他们的需求。

通过不断学习，Dosu可能会犯错误，但我们可以确保 Dosu像伙伴一样，从这些错误中吸取教训，不再犯同样的错误。

自动标记只是Dosu团队融入持续学习的例子之一。他们正在积极探索其他方法，将持续学习整合到检索、答案生成和 Dosu 的许多其他任务中。

参考链接：

1. https://blog.langchain.dev/iterating-towards-llm-reliability-with-evaluation-2. driven-development/

3. https://blog.langchain.dev/dosu-langsmith-no-prompt-eng/

4. https://dosu.dev/

5. https://github.com/apps/dosubot

6. https://github.com/dosu-bot

7. https://twitter.com/LangChainAI/status/1767208574588207320

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-06

比Kimi还好用？AI写作神器「橙篇」来势汹汹欲夺长文创作之未来

2024-07-06

暴走WAIC：跟AI+教育有关的，都在这儿↑

2024-07-02

【研究成果】ArchGPT：利用大语言模型支持传统建筑遗产的更新与保护

2024-06-28

所有男生女生，AI 卖货主播来咯！

2024-06-28

AI+医疗专题报告：院内场景丰富，AI 全面赋能医疗健康领域

2024-06-20

AI 背后 B 端设计师的机会

2024-06-20

30 款让教师工作更轻松的 AI 工具

2024-06-13

知识图谱(KG)和大模型(LLMs)双轮驱动的企业级AI平台构建之道暨行业调研

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

大模型在医学领域的应用

2024-05-03

使用LM Studio与Anything LLM基于Llama-3高效构建本地知识库系统

2024-04-28

5个VS Code顶级AI插件，助你如虎添翼

2024-05-25

关于人工智能在金融领域的应用研究

2024-07-18

36氪开的AI淘宝店，经营了2个月之后

2023-06-30

突发！ChatGPT紧急下线联网模式

2023-07-06

AI 大模型在金融行业应用深度分析 2024

2024-04-30

从国内外10个智能体案例，看AI Agent在教育领域的应用

2024-10-17

第一个HR AI助手上线了！

2023-06-29

警惕！“AI换脸”诈骗出现涉政苗头~

2023-07-03

大家都在问

2025年关于医疗+AI的最新思考（3）看研究报告去创业？

2025-03-21

2025年关于医疗+AI的最新思考（6）对医生最最重要的那件事，已经发生了？

2025-03-21

如何利用DeepSeek帮我做金融理财?

2025-03-20

对话Deepseek（8）AI编程会让标品SaaS走向何方？

2025-03-17

摩根大通CEO戴蒙：落地450个AI应用靠什么？

2025-03-10

DeepSeek 热潮下，SaaS 行业的未来在哪？

2025-02-18

上半年拿到投资的 18 家 AI 制药，他们都在做什么？

2025-02-18

为什么使用AI诊断癌症如此困难？

2025-01-23

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB