我要投稿

🦜🤖LangManus：基于LangChain的开源多智能体助手

发布日期：2025-03-23 18:11:07 浏览次数： 1633 来源：In The Loop

近日 Manus 这个号称可以实现 a glimpse at AGI 的系统在内测阶段就吸引了大量关注，成为科技圈的热门话题。就在大家还在讨论 Manus 的技术细节时，一款名为 LangManus^[1] 的开源项目悄然上线，目标是复刻 Manus 的核心功能，并将其开源给所有开发者和研究者。该项目上线不到 2 天，Stars 数就已经突破了 2,000 大关，并在迅速增长中。

GitHub: https://github.com/langmanus/langmanus

LangManus 的快速增长也引来了 LangChain 作者 Harrison Chase 的点赞，彰显着开源社区的活跃与对真正 AGI 的期望。

今天，我们就来聊聊这个令人兴奋的开源项目，看看它究竟有何特别之处。

项目

LangManus 是一个基于 LangChain 全家桶 开发的 AI 自主深度研究系统。它的名字来源于 LangChain 和拉丁语中的 Manus（意为手），寓意为 AI 的 智能之手，帮助用户完成复杂的研究任务。这个项目由一群对 AI 技术充满热情的开发者团队打造，旨在通过开源的方式，让更多人能够体验到类似 Manus 的强大功能。

LangManus 的核心目标是实现全 AI 自主的深度研究。它不仅能够像人类研究者一样进行信息收集、数据分析和处理，还能通过多智能体协作完成复杂任务。无论是学术研究、数据分析，还是商业决策，LangManus 都能提供强大的支持。

演示

为了让大家更直观地了解 LangManus 的能力，我们来看一个 Demo 场景：

帮我设计一个影响力指数计算公式，然后计算 DeepSeek R1 在 HuggingFace 上的影响力指数。该指数可以通过考虑粉丝、下载量和点赞数等权重因素来设计。

ReAct 框架

ReAct^[2] 是 LangManus 的核心框架，它允许 AI 模型在推理和行动之间进行交替，从而实现更复杂的任务处理。这种方法使 AI 能够：

思考（Reasoning）：分析当前情况，制定计划，评估可能的行动路径。
行动（Acting）：执行具体工具操作，获取新信息或改变环境状态。

在现代人工智能应用中，如何高效地协调多个 智能体（Agent） 以完成复杂任务是一个重要的研究方向。Multi-Agent Supervisor 框架 就是一种基于 ReAct 框架的设计模式，它通过一个 监督节点（Supervisor） 来管理多个智能体的协作，从而实现任务的分解与高效执行。

multi-agent

如上图所示，Multi-Agent Supervisor 框架是一种设计模式，旨在通过一个中央监督节点协调多个智能体的工作。框架的核心思想是将任务分解为多个子任务，并通过智能体的协作完成这些子任务。监督节点负责决定任务的执行顺序以及任务完成的终止条件。Multi-Agent Supervisor 框架由以下几个主要组件组成：

用户（User）：用户通过输入问题或任务启动整个框架。
监督节点（Supervisor）：监督节点是框架的核心，负责根据任务状态选择下一个执行的智能体，或决定任务是否完成。
智能体（Agents）：每个智能体负责执行特定的子任务，例如数据检索、计算或图表生成等。

基于 LangChain 全家桶开发

在过去，如果想自己实现一个 ReAct 风格的大语言模型应用，需要自己编写、调试 Prompt，设计工具调用协议，手工编排流程，如果要想做一个支持流式输出的前后端应用更是难上加难。好在开源界给出了自己的答案，这就是在LangManus 开源项目中选型的：

LangChain^[3]：LangChain 是一个开源框架，专注于帮助开发者构建基于大型语言模型（LLMs）的复杂应用程序。它提供了一系列工具和模块，使得开发者可以轻松地将语言模型与外部数据源、工具集成，并构建多步骤的推理流程。
LangGraph^[4]：LangGraph 是一个专注于使用类似 DAG 图的方式构建和管理基于语言模型的工作流。它的目标是简化 AI Workflow 及 Multi-Agent 开发者的工作，使得复杂的语言模型应用可以通过图形化界面或图形结构来设计和实现。

LangManus中的智能体和工具箱

我们的 LangManus 开源项目中也采用了上述基于 Multi-Agent Supervisor 和 ReAct 的架构，包含了多个智能体，并且已经集成了多种工具，使 AI 能够执行各种研究任务。

Coordinator: 用户的原始请求会首先被发送到 Coordinator 智能体中，这是整个系统的第一道关卡。它的主要职责是过滤掉不必要的闲聊内容，例如简单的问候语、无意义的对话、以及涉及敏感话题（如政治、色情等）的请求。通过这种方式，Coordinator 能够确保系统资源不会被浪费在无关紧要的任务上。此外，如果用户的问题不够具体或表达模糊，Coordinator 还会主动介入，通过调用内置的搜索引擎查阅相关资料，帮助用户重新定义问题。这一过程被称为“改写（re-write）”，它不仅提升了问题的清晰度，还能为后续的智能体工作奠定更好的基础。

Planner: 在整个框架中，Planner 是唯一需要使用推理模型（Reasoning Model）的模块。它的核心任务是生成执行计划，并对用户的简单问题进行广度和深度上的拓展，这一过程被称为 Deep Research。通过推理模型（如 OpenAI O3、DeepSeek R1、Qwq-plus 等），Planner 能够将用户的需求转化为详细的行动步骤，同时挖掘问题背后的潜在关联和深层次信息。Deep Research 的目标是让用户不仅获得直接答案，还能从更全面的视角理解问题。

Supervisor: Supervisor 是整个系统的核心执行模块，它采用 ReAct 风格的多智能体协作机制，负责将 Planner 制定的计划付诸实践。Supervisor 的团队由多个专职智能体组成，每个智能体都有明确的分工和职责：

Researcher: 负责深度研究任务。它不仅具备搜索引擎的能力，还集成了基于 Jina 开发的爬虫功能。Researcher 可以从搜索引擎中提取线索，并进一步访问相关网页进行详细阅读和信息摘录。这种“大海捞针”式的工作方式确保了用户问题能够被全面覆盖。
Coder: 专注于代码相关任务。由于大语言模型在数学计算和统计分析方面存在局限性，Coder 的加入弥补了这一短板。它可以编写并执行代码，完成诸如复杂计算、数据处理、以及通过 API 获取实时信息（如股票数据）的任务。对于需要精准结果的查询，Coder 是不可或缺的。
Browser: 针对中文网络环境的特殊需求而设计。虽然 Researcher 已经集成了爬虫功能，但在面对封闭性较强的任务（如“网上订票”、“小红书域内搜索”等）时，Browser 的能力尤为重要。它利用多模态模型（如 OpenAI 的 GPT-4o、千问 VL 等）实现 Vision-Language-Action，能够自动操作浏览器界面，进行截屏、标注、以及工具调用。这种全自动化的浏览器操作让 LangManus 的功能超越了 OpenAI 原版的 Deep Research，尤其在处理复杂的中文网络任务时表现更为强大。
Reporter: 最后，Reporter 会将所有智能体的工作成果进行汇总，并根据用户的需求生成一份定制化的总结报告。无论用户需要“小红薯风格”、“知乎体”还是“论文体”，Reporter 都能灵活调整输出格式，确保结果既专业又易于理解。

通过以上模块的协同工作，整个系统能够高效地处理复杂问题，为用户提供全面、精准且个性化的解决方案。