我要投稿

OWL团队万字分享：复现Manus最好的团队，如何看待Agentic AI的落地现状？

发布日期：2025-03-31 00:18:28 浏览次数： 1598 作者：Founder Park

Manus 大火，不仅让 Agent 成为了 2025 年上半年最受关注的 AI 领域，也让一些复刻 Manus 的开源 Agent 项目获得了更多开发者的关注。

CAMEL-AI 团队在 Manus 上线后 1 天内推出的 OWL 就是其中最具代表性的一个，项目实测成绩达到开源界 GAIA 性能天花板，达到了 58.18%，超越 Huggingface 提出的 Open Deep Research 55.15% 的表现。

3 月初，Founder Park 邀请了 OWL 团队进行了一场线上闭门分享，就 OWL 的技术框架、Manus 以及 Agent 相关的技术原理、目前的实现逻辑及商业落地现状等进行了深度探讨。

在进行了一些脱敏处理后，Founder Park 整理了本次沉淀内容。

嘉宾介绍：

李国豪：开源社区 CAMEL-AI 创始人。

Key Message;

OWL 项目和 Manus 并不完全一样，技术上有很多区别，但做的事情相近。
因为 Manus 的出现，大众看到了 AI 技术的可能性，尤其现在 agent 的实际应用，点燃了 AI agent 这一波技术浪潮。
Manus 复现技术相对简单，更多在于产品交互和形态方面，而且 Manus 首发占优势，后续产品要复现它的成功会比较难。
MCP 是未来，它能让所有框架接入相同工具，像 Cursor 和我们的项目都能使用符合 MCP 标准的工具，借助众多开源工具完善 agent。
对于 Agentic AI 来说，基模+外部工程框架并非未来趋势。
如果垂直领域的工作能被通用 agent 轻易取代，那就说明该垂直领域的工作还不够「垂直」，没有解决这个领域最核心的痛点。

Founder Park 正在搭建开发者社群，邀请积极尝试、测试新模型、新技术的开发者、创业者们加入，请扫码详细填写你的产品/项目信息，通过审核后工作人员会拉你入群～

进群之后，你有机会得到：

高浓度的主流模型（如 DeepSeek 等）开发交流；
资源对接，与 API、云厂商、模型厂商直接交流反馈的机会；
好用、有趣的产品/案例，Founder Park 会主动做宣传。

01 OWL 的源起，

以及和 Manus 的区别

我们目前在打造一个开源社区，名叫 CAMEL-AI，我们的使命是「finding the scaling laws of agent」。简单来说，我们相信 AI agent 有其独特的「scaling laws」，而我们的工作就是探寻它的「scaling laws」究竟是什么样的。

我们一直专注底层技术，做了很多前沿研究，像打造世界上第一个 multi-agent 框架、第一个跨平台操控项目（CRAB：能同时通过 UI 操控手机和电脑上任意 APP），还构建了世界上第一个拥有 100 万 agent 的 multi-agent 系统——OASIS。这些从 0 到 1 的成果，耗费大量精力、时间和工程研究，但是受到的关注比较少，但我们相信会是未来 Agent 应用的重要基础设施。

CRAB：https://github.com/camel-ai/crab

OASIS：https://github.com/camel-ai/oasis

具体而言，我们主要在做以下几件事：

一是搭建基础设施。这涵盖了框架、数据、agent 及其通信协议，还有相关应用。作为一个开源社区，我们还会开发一些面向开发者的工具，主要服务于开发者和研究人员。与此同时，我们也在开展前沿研究，与大家一起撰写论文，进行开放性质的研究。这次开源的猫头鹰（OWL）项目，既是我们的一项学术研究，也是一个能让开发者基于其进行构建的工具。

我们坚信 AI agent 中存在特定的规律，所以开展了很多不同的研究，也开发了不少工具。比如 camel，这是我们的一个基础框架，利用它，你可以进行数据生成，包括生成 COT 数据、instruction-following 数据，还有 alignment 数据。同时，它也能用于任务自动化，像这次 OWL 项目里用到的模块和工作流等，你可以用它实现 UI 自动化、网页自动化等功能。我们还运用大语言模型进行大规模复杂系统的模拟，比如之前的 OASIS 项目，用 100 万个 agent 模拟社交网络行为，包括流言传播、从众效应、观点极化效应等，探索能否通过 AI 实现这些模拟。

简单讲讲 camel，它是一个 agent 框架，和一般框架不同的是，我们非常注重数据驱动，从数据角度构建框架，这样未来 AI 就能实现自我发展。此外，camel 整合了 multi-agent，拥有数据生成相关的流程，集成了国内外几乎所有主流模型，整合了大量工具，具备短期记忆、长期记忆功能，支持多种存储方式。我们还有不同的基准测试用于 agent benchmark。它有多种可执行代码的解释器、不同的数据加载器，这次项目中也用到了。如果你要做检索，它既支持向量检索，也支持 Bm25 检索等功能。这就是为什么我们能快速复刻 Manus，因为我们有一套非常完备的工具库，借助这个工具库可以快速构建各种应用。

猫头鹰（OWL）项目主要复刻了 Manus 的一些功能，我们在项目中提出了一种名为 Optimized Workforce Learning 的技术，用于通用的 multi-agent 协助，主要处理现实世界中的任务，比如网页检索、读取 PDF、生成代码等。说 0 天复刻其实有点标题党，因为这个项目我们做了一段时间，主要时间花在性能提升上，这是一个由我带的博士生们参与的科研项目。Manus 发布两周前，我们在 GAIA benchmark 上取得了开源项目中的最高分。但没发布，原因是项目负责人起的名字我觉得不太好，所以一直没发布，刚好赶上这波热点，让我们提前发布了这个还不太成熟的项目。这几天经过快速迭代，项目也越来越完善。

OWL 项目和 Manus 并不完全一样，技术上有很多区别，但做的事情相近。

给大家讲讲系统框架：用户指令输入后，会进入 multi-agent 系统，系统内的 agent 负责执行任务。我们有 AI user agent 和 AI 助手 agent，二者相互协作、扮演不同角色来完成任务，这个概念源于我们两年前论文提出的方法。OWL 项目沿用了这一思路，两个 agent 相互对话，助手 agent 可调用各类工具，像 web agent 操控浏览器、search agent 进行谷歌搜索或社区搜索、coding agent 生成并执行代码获取结果、document agent 读取并转换 PDF 格式等，并且任意工具都能接入我们的基础系统。

举个例子：让 agent 查找附近影院正在上映的电影，它能打开浏览器，定位所在城市获取近期上映影片信息。或者让 agent 调研代码仓库，它会浏览仓库，明确任务并生成报告。近期我们做了大量更新，现在支持谷歌搜索，能处理视频、图像、音频，可借助 Playwright 实现网页浏览，还能解析 PDF 文档、支持代码执行，有丰富工具可选来增强 agent 能力。

用户可以根据不同任务选择不同工具，不像 Manus 只能使用固定工具。开源的优势就在于你可以定制自己的工具，在自己的领域或应用场景中，将特有的工具加入进来，提高效率和稳定性。

从技术实现角度看 Manus

我挺喜欢 Manus 项目，虽然现在还没尝试过，但我觉得它意义重大，在近期的分享和朋友圈都提过。有句话形容得很贴切，说 Manus 像把火，点燃了 AI agent 这一波技术浪潮。

我们做底层技术研究两年了，从首个基础框架做到现在，得到的关注远不及它。正因为 Manus 的出现，大众看到了 AI 技术的可能性，尤其现在 agent 的实际应用，比如做研究、写代码、操控网页等。其实这些技术在研究领域早有应用，但是 Manus 首次以出色的产品形态，尤其是 UI/UX 形式面向大众，让众多原本不了解该技术的人，包括工程师、研究人员和普通用户，都开始关注，极大推动了 AI 技术发展，我觉得这有重大的意义。

当然，除了推动技术发展的意义，客观来讲，网上对 Manus 评价两极分化。有人说它是国运级产品，我觉得还达不到那个程度；也有人说它是套壳产品，可套得好也是本事，毕竟技术底层都基于英伟达 GPU，从这看「套壳」无可厚非。

从工程角度，通过用户案例推测出他们的做法，感觉有两点值得学习。

其一，（我猜测是）利用 Ubuntu 文件系统做上下文持久化和管理，非常灵活高效。将存储文件置于用户文件夹，方便随时读取，相比传统数据库语义检索更灵活，虽然我们还没进行严格对比，不过肯定有其优势。
其二，把终端命令行运用到极致。有技术背景的朋友都清楚，命令行非常通用，功能强大，能写代码、浏览网页等。AI agent 如果能熟练运用命令行，便具备超强通用能力，还能安装 Python 包或系统软件包，极大拓展功能。学会把命令行当作通用工具解决问题，远比自己构建工具高效得多。

在国外，Manus 火得比国内稍微晚两天，评价同样两极分化。一部分人觉得产品做得很棒，仿佛通用 AI 时代要来了；另一部分从技术层面看，觉得这是个谁都能做出来的简单「套壳」产品。Manus 的首席科学家在推特上分享了很多，他们自己也说没什么技术秘密，很坦诚地分享技术，听起来好像就是一些成熟技术的组合。比如他们提到用的 agent 来自 UIUC 的一个研究项目 CodeAgent，使用 Claude-3.5 模型作为主要 agent，通过 post-trainingQwen 模型来做规划之类的。

总体而言，我认为 Manus 有很多值得借鉴的地方，对技术发展意义重大，并非像有些人说的那么不堪。

Agent 之间的差距

可能主要是模型差距

Q：OWL 和 CAMEL 离大规模实际部署有多大距离？实测中单次调用消耗 24 万 token（成本约$36）。如果是作为商业化产品，如何构建不可替代的付费价值？有没有可以降低消耗的方法？

李国豪： 关于 36 美元的花费，我不太清楚具体任务，证明费马大定理之类的？就我们做的一些简单任务而言，像单纯打开网页查找信息，或者调研某条新闻、某项技术，一般花费不会超过 1 美元，大概也就零点几美元。36 美元这个花费确实挺高的，毕竟我们框架所使用的模型成本相对较低。

在框架里，我们主要用的是 GPT 相关模型，少数推理任务采用 o3-mini，相较于 Claude 3.7 成本要低很多。当然要是你追求更好效果，可以选用 Claude 3.7。不过，也不排除存在这样的情况：agent 在执行任务时可能无法完成，却反复调用、尝试，在实际上无法完成任务的情况下，这就可能导致大量的 token 消耗，成本也就随之大幅上升。针对这种情况，我们可以设置最大步数等限制，以此来确保成本不会过高。

总体来说，大部分任务的成本没那么高，尽管完成一个任务需要零点几美元甚至 1 美元，我认为作为一款商业化产品，尤其是 ToC 的产品，目前最重要的就是降低成本。只有当用户量非常大时，成本能够降下来，这个产品才有可能真正实现大规模应用（scale up）。比如 OpenAI 的 Operator 每月收费 200 美元，很多人就觉得价格昂贵。我觉得 Manus 可能也是如此，他们采用邀请码机制，限制用户使用，可能并非是想搞饥饿营销，而是服务器成本、算力消耗以及模型 API 调用等方面的成本都相当高。如果不做好成本控制，一旦向所有用户开放，假设拥有 100 万用户，一天可能就会花费高达 1000 万美元。

至于如何降低成本，这涉及很多层面。首先是模型能力方面，如果模型能够更高效地完成任务，更精准地理解指令，并通过最优规划去执行，自然能够降低成本。其次从推理层面以及硬件层面来看，在推理层面，如果能做好量化、稀疏化、缓存（cache）等技术，就能够降低推理成本。在硬件层面，如果能使用比英伟达芯片更便宜的专用推理芯片，进行硬件优化，也有可能进一步降低成本。

Q：与 Manus 在复杂任务的差距主要是什么原因导致的？有什么优化方向？

李国豪： 我们通过在 GAIA benchmark 上对比发现，在 level-1 的性能上，我们和 Manus 差不多，但在 level-2 和 level-3 上，我们的性能比 Manus 差很多，大概差 20% 左右。主要原因有以下几点：

其一，我们使用的模型不同。我们用 GPT-4o 测试，Manus 用 Claude 3.5，比我们的模型要好很多，因为 Claude 3.5 具备 Computer Use（代码执行）的能力。最近 OpenAI 最近也开放了 computer use 接口，如果我们的项目和 Manus 都改用支持 computer use 的模型，差距会缩小。level one、level two、level three 是按任务难度划分的级别，level three 最难。所以，模型差距是关键，换成支持 Computer Use 的模型，性能将大幅提升。
其二，我们现在也在优化一些工具，力求缩小与 Manus 在工具层面的差距。实际上，我们开发的工具不少，双方各有对方没有的工具，我们打算补齐自身缺失的部分。
其三，在工程优化方面，这就需要进行更多的调试，通过更多的实验让它表现得更好。

顺便提下 MCP，我们已集成了 MCP，MCP 能让我们使用任意开发者开发的工具，很厉害。

我觉得 MCP 是未来，它能让所有框架接入相同工具，像 cursor 和我们的项目都能使用符合 MCP 标准的工具，借助众多开源工具完善 agent。简单来说，利用「MCP Toolkit manager」，把 MCP 服务器信息给到它，连接 MCP 就能与相应 APP 连通，agent 随之可获取并使用所有 MCP 工具，和其他场景使用 MCP 的方式一致。

附MCP介绍：拾象科技万字详解MCP：Agentic AI中间层最优解，以及创业公司的三个机会

Q：GPT 出现大约有 3 年的时间，为什么 Manus 现在才出现？

李国豪：GPT 是在 2022 年 12 月发布的，Manus 现在才出现，我觉得并非突然，而是经历了一个量变的过程。

2023 年 3 月我们就发布了第一个 multi-agent 的框架，当时用 multi-agent 写游戏、代码、股票交易软件等，当时做的很早而且也是处于科研领域，没做成好产品，没有受到太多关注。那时 AutoGPT 也是很火的项目，和我们算同期，能做搜索、代码生成等，但效果也不算好，但整个形态从很早之前就有了。之后像 kimi、豆包、Perplexity 等产品把搜索做得不错，Deep Research 进一步优化，OpenAI 的 Operator 能操控网页。Manus 也是在这些基础上的量变，可能也产生了质变，经过了优化之后出现的。

所以 Manus 的出现不算突然，它和 Operator 产品很相似，出现时间也不长。业界说复现 Manus 不难，我认为复现形态相对容易，但要达到一样的效果还需要评估才行，所以中不中肯要看这个「复现」要到什么程度了。从技术层面看，我们对底层技术较了解，而且 Manus 自己也说没什么秘密，复现技术相对简单，更多在于产品交互和形态方面，而且 Manus 首发占优势，后续产品要复现它的成功会比较难。

Q：如何看待 Manus 采用 CodeAct 来调用工具，和 MCP 的差异是什么？

李国豪：Manus 是通过写代码调用的工具，这与使用 MCP 进行的所有调用并不冲突。MCP 解决的是 agent 与工具之间接口的统一问题，而且 MCP 也支持以代码形式执行调用，并不矛盾。

Q：从 OWL 角度如何看待 MCP 路线和 multi-agent 之间的关系？

李国豪：MCP 的服务器（server）可以是简单工具，也可以是 agent。如果服务器和客户端（client）均为 agent，就能实现两个 agent 间的通讯。而且，服务器和客户端本身也可以是 multi-agent 系统，如此便可实现 multi-agent 之间的通讯。

总之，MCP 统一了它们之间的通信，至于参与通信的实体，既可以是工具，也可以是 agent，由使用者自行定义。

垂直领域 Agent 需要更深入、

更专业

Q：Agentic AI 目前有两条看似相反的实现路径，一条基于底层模型端到端的学习 tool learning 能力，一条基于基模+外部工程框架，如何看待这二者的区别？

李国豪：从工程手段来看，部分可能只是过渡阶段。我们的框架基本没走后一条路线，因为觉得它并非未来趋势。以前很多做法是让 AI 输出 JSON，我们认为这只是短期行为。当然，也有一些工程手段能让输出 JSON 更稳定或强制其输出，像 Outlines、XGarmmar 之类工具，通过在模型采样时进行约束采样（constrain sampling），能更好地调用工具。

这两条路线其实是互补的。模型使用工具的能力本质上是概率模型，无法永远保证调用工具完全准确。外部工程架构方面，如果是通过提示词工程（Prompt Engineering）输出稳定的 JSON，可能还是依赖模型能力，并非长期首选；但如果基于约束采样等方式实现工具调用，是很好的方式，其原理是利用控制机制确保 token 采样满足某种语法，以适配工具调用。

总之，两者并不冲突。明确工程层面和模型层面各自该做什么，就能让两者并进，把事情做得更好。

Q：是否认可 Manus 等通用 agent 框架已初步成型？如果是的话，垂类 agent 框架是否更值得发力？

不同领域的信息处理逻辑、所需的工具，数据源、api 都不同，导致通用 agent 框架难以很好地适配垂类场景。例如，做 2025 年宏观环境与 2022 年的对比及预测，和做自动比价的机票助手，两者逻辑截然不同。基于以上论点，实现难度可能在哪些环节？

李国豪：我认为垂类领域更值得发力。用通用框架或模型解决专业领域问题，势必存在效率或解决能力方面的不足。比如，假如你是化学专业学生，要做化学实验，可将框架应用在化学领域，让 agent 调用相关的工具；做宏观环境预测，也能为 agent 提供特定数据源等等，而不是依赖通用方案。

其中，最难的是找准问题所在。不同领域难点不同，有的是工具欠缺，补充工具即可；有的是推理能力不足，那就采集数据优化模型以提升推理；还有的缺乏有效监督信号用于训练，比较开放，这种情况就需根据期望结果，通过偏好学习等方式来解决。

Q：通用 Agent 产品的能力提升是否会持续挤压垂类 Aqent 市场空间？（like 通用搜索>垂类搜索？)

通用 Agent 应用怎样解决输出内容个性化问题？（如旅行攻略场景，没有用户偏好数据即使爬取再多网页也很难生成满足需求的结果）

李国豪：我觉得 AI 领域和模型领域还是有所不同，虽然不排除未来通用模型能解决很多垂直领域问题，但效率始终是个问题，通用 agent 解决垂直领域问题时，总会有效率不足的情况。

除了效率，短期内还存在一个问题，即通用 agent 是否会持续挤压垂直领域 agent 的生存空间。如果垂直领域的工作能被通用 agent 轻易取代，那就说明该垂直领域的工作还不够「垂直」，没有解决这个领域最核心的痛点。

Agent 和模型有很大区别，agent 更需要优质的交互界面（interface）和良好的 UI/UX（用户体验设计）。模型的输出通常是文本，而 agent 的输出形式多样，比如操控浏览器，就需要好的 UI/UX 来展示操控界面；如果是操控机械，就不能用同一套产品。如果涉及到专业领域，可能还需要可视化结果或特定操控工具，所以它们的 UI/UX 设计差异很大，产品形态也有很大不同。

因此，如果通用 agent 对垂直领域 agent 产生挤压，那就需要把垂直领域的工作做得更深入、更专业。

Agent 会带来新的人机交互

Q：通用 agent 怎么解决内容输出个性化的问题？

李国豪：对于个性化问题，目前线上的解决方案更多是通过记忆模块来实现。这个模块能跨不同任务生成不同知识，在执行任务前会检索知识，回忆其中的内容，从记忆层面解决用户偏好等问题。不过，这需要与它不断交互以产生个性化。OpenAI 的 ChatGPT 也有类似功能，如果想做得更好，可能需要提供更多数据，甚至进行训练。

Q：类似 Manus 的通用 agent 嵌套多个模型，导致业务多个环节的步骤都会产生幻觉，可用性直线下降，难以商用，该如何优化？

李国豪：我认为「嵌套多个模型一定会导致性能线性下降，且每一步都一定会产生幻觉」这个陈述未必正确。这取决于所构造的系统是收敛系统还是发散系统。如果多个 agent，每一步都更趋向收敛，那么产生的幻觉会更少。比如每一步都采用不易产生幻觉的 agent，性能不一定会线性下降。

这个问题需要结合实际场景分析，明确每一步产生幻觉的原因，是模型的问题还是工具的问题，进而思考能否通过更换更好的模型或工具来解决。

Q：类似于 Deep Research 这类端到端的 agentic 模型产品未来有没有可能吃掉类似于 Manus 这种套壳式产品？

李国豪：关于 Manus 未来是否会做端到端训练并不明确。据我所知，他们自己称规划模型是经过训练的，执行层面的模型用的是 Claude。但现在模型大多可以微调，OpenAI 也提供了微调接口，Manus 同样可以微调，微调之后是否算端到端也不好说。

我认为如果 Manus 能把「壳」套好，自身架构做得更完善，不一定会被淘汰，这取决于他们的发展路线。他们已经有大量用户数据，也有能力做端到端训练。开源模型越来越强，闭源模型也开放了微调接口，大家都有机会。如果 Manus 能积累更多数据，有更好的产品思路，就不一定会被淘汰。但 OpenAI 要做好 Deep Research 也需要大量的产品投入，所以很难断定 Manus 的未来走向，目前还无法预知。

Q：对于 Agent 产品的交互方式，以及 agent 产品和普通 ai 工具在人机交互方式的区别，有没有什么可以分享的心得？动态生成 agent，会是未来的一个方向吗？

李国豪：我觉得 agent 产品和普通 AI 产品在人机交互方面存在的差别，有一个很有意思的方向。许多传统 AI 工具需人主动提问、下达任务，更多是人主导。而 agent 产品或许能减少人的参与，更自主地完成任务，仅在特殊情况下需要人确认，如果能实现，人机交互方式将截然不同。

此外，不仅是人机交互，agent 与机器的交互也很有趣，和传统 AI 工具不同。例如微信、小红书目前是供人使用的，如果未来是给 agent 使用，会发生怎样的变化？这里可能存在人、机器和 agent 三者间的交互关系，有很多值得探索的地方，比如 agent 使用和人使用时的 UI 是否不同。

当下有很多人在做生成式 UI，这也是未来人机交互的一种方式，UI 不一定是固定的，动态生成 agent 是一个发展方向，我们也在做相关方案。

Q：Agent 系统能是否有潜力成为具身机器人的任务管理的技术底座？目前的系统还需要等待用户输出输入单一的任务来激活，未来能不能同时监控多个任务同时具备执行的能力？

李国豪：我认为 agent 系统在未来大有可为，而且这个趋势已在发生。我们也在做 agent 系统与机械结合的 multi-agent 系统工作，很多机构也在做类似探索，利用 agent 系统调用原子技能，实现 AI agent 与具身场景的融合，这肯定是未来方向。

第二个问题，但从工程层面看，让 agent 进行多次推理是可行的。比如借鉴 MapReduce 的方式，分配多个任务，再整合它们的记忆，我认为这不是大问题，具备可操作性。

非常看好 agent 用来做

AI for Science

Q：有什么维度或者准则可以判断一个 agent system 的好坏？

李国豪：当然，评判一个系统好坏的维度有很多，一是性能方面，目前有一些基准测试，比如这次 Manus 使用的 GAIA benchmark，还有像香港大学做的 OSWorld Benchmark 也被大家广泛采用，包括我们正在做的跨平台操控手机和电脑的 Crab Benchmark。除此之外，从效率角度来看，比如系统运行的速度、消耗的资源等方面，也是评估系统的重要维度。

Q：国内一些本土业务结合，比如电话反控、风控这类不被流行 benchmark 覆盖的领域，如果要用 agent 来做，该如何构建对应的 benchmark？有可参考的工作吗？

李国豪：如果使用 agent 进行电话反诈风控，首先要对案例标注是否是诈骗，以此开展强化学习或监督学习。构建专属 benchmark，关键在于保证采集数据的多样性与足够的数据量，这也是最基础的。传统方式是人工采集，但要注意避免数据偏差，比如不能只采集男性诈骗人员的通话数据，需了解真实世界数据分布来合理采集。

另一种方式是数据合成，基于已有数据合成更多数据，再进行标注与过滤。除了数据外，设计合理的评判指标对基准测试十分重要。agent 的指标和一般数据指标不同，除了最终是否完成任务，还需考量任务完成的进度，例如完成了百分之多少等方面的评估。

Q：如果是在 AI for Science 领域的话，agent 和通用 agent 的产品形态上会有很大的不一样吗？

李国豪：我非常看好 agent 用来做 AI for Science。 AI for Science 中的许多任务存在重复性，也涉及工具调用。但 AI for Science 与传统 AI 不一样的是，它往往速度较慢，经常需要与物理世界交互，比如进行物理、化学甚至生物实验，反馈周期可能好几天甚至一年。它们的交互形式、数据、时间维度及所需工具都因实验而异，形态自然不同。

我们之前做过自动化实验室的相关工作，例如自动寻找新化合物，这就需要 agent 操控机械臂完成药品选择、分发，同时对实验进行观测、分析，甚至开展强化学习，是个非常复杂的场景。

Q：对于资源极其有限的学术研究项目，基于 OWL 或 CAMEL 做 research 的时，应该优先聚焦和避开哪些方向？

李国豪：如果资源极其有限，我建议选择的研究方向最好与大厂或大型创业公司有所不同，可以关注一些他们不太在意或者尚未关注到的领域。我当初开展 camel 相关研究以及后续的一些研究时，也是基于同样的考虑。

在资源如此受限的情况下，我们做了什么呢？我们避开了 OpenAI 和 DeepMind 等公司正在做的事情，专注于他们暂时还不会去做的领域。这些大公司有自己的优先级，有些虽然重要但不在他们当前优先级范围内的事情，我觉得是可以考虑聚焦的方向。

比如，OpenAI 目前的首要任务可能是优化模型、做好 agent。那我们就关注 multi-agent，构建更大规模的系统。因为我们认为在短期内他们不会涉足这个领域，这并非他们的最高优先级。但同时，这也是一个非常重要的研究方向。大家都知道，AI 有五个不同级别的智能定义，第五级是组织层面能够完成的事情。我认为只有 multi-agent 系统才能实现组织层面的任务，multi-agent 系统无疑是未来的重要发展方向。既然大公司现在不太会去做，那对资源有限的团队来说，这就是一个很好的切入点。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业