我要投稿

字节的开源 Manus — Agent Tars，我们离真正的复杂工作流还有多远？

发布日期：2025-03-25 04:09:40 浏览次数： 2466 作者：机智流

3月18日，字节跳动发布了其最新的多模态 AI 代理 Agent TARS 的预览版，这是一个类似 Manus 的浏览器代理工具，加入了 MCP 来进行本地文件的编辑和命令行操作，同时拥有比较成熟的产品化可视界面，虽然整体体验下来仍然处于可用的“人工智障”阶段——bug 频出，但毕竟是预览版，后续的升级还是值得期待的。今天就给小伙伴带来简单的使用指南和试用版问题带来的一些思考。

下面我们先来看一段官方操作演示：

使用教程

下载安装

Agent Tars 项目现在被放在 UI-TARS-desktop 仓库下，可以直接访问 UI-TARS-desktop Release^[1] 页面进行下载，最新的版本是 v1.0.0-alpha 5（目前版本仅支持 macOS）。

安装包下载后正常解压安装就好。

系统配置

因为要操作本地系统文件，需要特殊授权，参考官方的快速开始^[2]:

在系统设置 -> 隐私与安全 -> 辅助中启用 Agent Tars

模型配置

完成系统设置后，正常打开就是 Agent Tars 的操作界面了，左侧是对话记录，中间是对话栏，右侧是操作显示。

作为开源项目的 Agent Tars 需要用户使用自己的大模型和搜索 API，点击左侧对话记录中的齿轮按钮进入设置界面：

模型设置

Agent Tars 最新预览版支持 OpenAI、 Claude 和 Azure OpenAI 三种 API 接口，除了使用官方 API 外，下面也提供一种利用 OpenAI 接口调用 DeepSeek 官方 API 的方式：

这里要注意，因为 R1 不支持 function call 功能，所以只能选择 DeepSeek-V3 模型。另外 Agent Tars 团队官方推荐使用 Claude 模型，用其他模型会有性能衰减，这个后面测试会细说。

搜索设置

同样的，Agent Tars 选择使用的搜索引擎和使用的 API，这里我选择了 Tavilly 引擎：

文件系统设置

设置中的第三个标签可以设置 Agent Tars 运行和存储的文件目录，使用默认值就好。

至此，Agent Tars 就配置完成，可以直接在对话窗口输入任务让它帮助我们开工了。

测试

简单测试：Github Isuues Report

这里选了官方Showcase^[3] 中的展示案例和提示词，替换了 UI-TARS-desktop 目录作为目标仓库，要求总结所有的 open issues 并总结。

整体来说这个测试是通过的，可以打开网页，摘取内容总结，并最后生成一个 HTML 页面进行展示。

一个有趣的点是，Agent Tars 并不是通过打开 Github 仓库页面进入 Issues 的方式获取的 open issues，而是通过网络搜索（如上图）。这也导致后续的总结页面出现了很多 closed 的问题。

中级测试：贪吃蛇游戏编程

因为 Agent Tars 介绍中提到已经接入 MCP，所以测试了一下编程能力。

试验了 4 次后终于成功……总的来说，Agent Tars 可以顺利的安排计划，自动进行测试，对遇到的问题进行自动修复，但前三次或多或少都会遇到问题导致工作流终止。

直到我将提示词从“帮我生成一个贪吃蛇小游戏”细化到“帮我生成一个本地运行的 python 贪吃蛇小游戏”后，终于快速的完成了一个可运行的贪吃蛇小游戏。

其他测试

我还进行了如“最新 AI 技术新闻精选”、“自动驾驶中激光雷达与视觉方案对比”、“小红书宠物UP主查找等”、“比特币价格预测”、“登录 X 发帖”等测试。

大体上如果是“网络搜索->内容提取->摘要”这类任务，Agent Tars 都能够顺利完成整个流程，不考虑结果的话。

这里也遇到一个有趣的失败 case，在要求 Agent Tars，分析并预测未来 6 个月的比特币价格趋势的时候，在搜索环节，莫名其妙的加入了 2023 年的提示词，导致后续所有工作都是依据 2023 年的检索结果?

在试用了若干个成功或失败的案例后，考虑以下三个因素会极大的影响 Agent TARS 的表现：

大模型

我测试用的是 DeepSeek-V3 模型，而官方推荐的是 Claude（目前业内主推的编程和 MCP LLM）。我遇到的几个很明显的案例是，DeepSeek-V3在一些案例中（如旅行计划、编程等）会忽略系统提示词，直接输出相关的内容。其他还有不同模型间编程能力、总结风格等的差异都会影响最终的输出结果。

搜索源

测试使用的是 Tavilly，很明显搜索和返回都是基于英文外网的结果，这个在实际使用中会直接影响检索的质量，希望正式版可以加入根据语言来选择搜索引擎的功能。

提示词

这个就没啥好说的，如果你说的话连模型都听不懂，也不能怪它输出结果不合你心仪了~

整体测试下来，Agent TARS 的使用感受是很好的，在我这里认为是一款未来可期的开源产品，会持续关注。目前我遇到的最大的问题其实是慢……字面意义的慢，不知道后续正式版本会不会有所提速？

人工智障 or 工作流助手？

正如 Agent TARS 官网^[4]的介绍所说：

“Agent TARS 的核心是利用复杂的 agent 框架来创建 agent flow，帮助你完成任务的规划和执行，平滑地编排搜索、浏览、探索链接等任务，同时通过 Event Stream 与 UI 连接，并合成信息以产生最终输出。”

无论是 Agent TARS、Manus 亦或者 Operator，本质都是多智能体的工作流助手，评价的标准除了输出结果之外，最重要的就是是否能够合理安排规划工作流 和 是否能够顺利完成工作流 ？而这两者的实现，前者依靠的是成熟的提示词，后者则是强大的工程能力。从这两个标准来说，目前预览版本的 Agent TARS 可以说是合格的。再加上其开源的定位，期待更多的人加入让 Agent TARS 能够快速成熟起来。