支持私有云部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


字节的开源 Manus — Agent Tars,我们离真正的复杂工作流还有多远?

发布日期:2025-03-25 04:09:40 浏览次数: 1725 来源:机智流
推荐语

字节跳动最新AI代理Agent Tars,探索多模态交互新体验。

核心内容:
1. Agent Tars预览版功能介绍与使用指南
2. 系统配置与模型设置详细步骤
3. 产品测试案例分析与性能评估

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

3月18日,字节跳动发布了其最新的多模态 AI 代理 Agent TARS 的预览版,这是一个类似 Manus 的浏览器代理工具,加入了 MCP 来进行本地文件的编辑和命令行操作,同时拥有比较成熟的产品化可视界面,虽然整体体验下来仍然处于可用的“人工智障”阶段——bug 频出,但毕竟是预览版,后续的升级还是值得期待的。今天就给小伙伴带来简单的使用指南和试用版问题带来的一些思考。

下面我们先来看一段官方操作演示:


使用教程

下载安装

Agent Tars 项目现在被放在 UI-TARS-desktop 仓库下,可以直接访问 UI-TARS-desktop Release[1] 页面进行下载,最新的版本是 v1.0.0-alpha 5(目前版本仅支持 macOS)。

安装包下载后正常解压安装就好。

系统配置

因为要操作本地系统文件,需要特殊授权,参考官方的快速开始[2]:

  • 系统设置 -> 隐私与安全 -> 辅助中启用 Agent Tars

模型配置

完成系统设置后,正常打开就是 Agent Tars 的操作界面了,左侧是对话记录,中间是对话栏,右侧是操作显示。

作为开源项目的 Agent Tars 需要用户使用自己的大模型和搜索 API,点击左侧对话记录中的齿轮按钮进入设置界面:


  • 模型设置

Agent Tars 最新预览版支持 OpenAI、 Claude 和 Azure OpenAI 三种 API 接口,除了使用官方 API 外,下面也提供一种利用 OpenAI 接口调用 DeepSeek 官方 API 的方式:

这里要注意,因为 R1 不支持 function call 功能,所以只能选择 DeepSeek-V3 模型。另外 Agent Tars 团队官方推荐使用 Claude 模型,用其他模型会有性能衰减,这个后面测试会细说。


  • 搜索设置

同样的,Agent Tars 选择使用的搜索引擎和使用的 API,这里我选择了 Tavilly 引擎:


  • 文件系统设置

设置中的第三个标签可以设置 Agent Tars 运行和存储的文件目录,使用默认值就好。

至此,Agent Tars 就配置完成,可以直接在对话窗口输入任务让它帮助我们开工了。

测试

简单测试:Github Isuues Report

这里选了 官方Showcase[3] 中的展示案例和提示词,替换了 UI-TARS-desktop 目录作为目标仓库,要求总结所有的 open issues 并总结。

整体来说这个测试是通过的,可以打开网页,摘取内容总结,并最后生成一个 HTML 页面进行展示。

一个有趣的点是,Agent Tars 并不是通过打开 Github 仓库页面进入 Issues 的方式获取的 open issues,而是通过网络搜索(如上图)。这也导致后续的总结页面出现了很多 closed 的问题。

中级测试:贪吃蛇游戏编程

因为 Agent Tars 介绍中提到已经接入 MCP,所以测试了一下编程能力。

试验了 4 次后终于成功……总的来说,Agent Tars 可以顺利的安排计划,自动进行测试,对遇到的问题进行自动修复,但前三次或多或少都会遇到问题导致工作流终止。

直到我将提示词从“帮我生成一个贪吃蛇小游戏”细化到“帮我生成一个本地运行的 python 贪吃蛇小游戏”后,终于快速的完成了一个可运行的贪吃蛇小游戏。

其他测试

我还进行了如“最新 AI 技术新闻精选”、“自动驾驶中激光雷达与视觉方案对比”、“小红书宠物UP主查找等”、“比特币价格预测”、“登录 X 发帖”等测试。

大体上如果是“网络搜索->内容提取->摘要”这类任务,Agent Tars 都能够顺利完成整个流程,不考虑结果的话。

这里也遇到一个有趣的失败 case,在要求 Agent Tars,分析并预测未来 6 个月的比特币价格趋势的时候,在搜索环节,莫名其妙的加入了 2023 年的提示词,导致后续所有工作都是依据 2023 年的检索结果?

在试用了若干个成功或失败的案例后,考虑以下三个因素会极大的影响 Agent TARS 的表现:

  • 大模型

我测试用的是 DeepSeek-V3 模型,而官方推荐的是 Claude(目前业内主推的编程和 MCP LLM)。 我遇到的几个很明显的案例是,DeepSeek-V3在一些案例中(如旅行计划、编程等)会忽略系统提示词,直接输出相关的内容。其他还有不同模型间编程能力、总结风格等的差异都会影响最终的输出结果。

  • 搜索源

测试使用的是 Tavilly,很明显搜索和返回都是基于英文外网的结果,这个在实际使用中会直接影响检索的质量,希望正式版可以加入根据语言来选择搜索引擎的功能。

  • 提示词

这个就没啥好说的,如果你说的话连模型都听不懂,也不能怪它输出结果不合你心仪了~

整体测试下来,Agent TARS 的使用感受是很好的,在我这里认为是一款未来可期的开源产品,会持续关注。目前我遇到的最大的问题其实是……字面意义的慢,不知道后续正式版本会不会有所提速?

人工智障 or 工作流助手?

正如 Agent TARS 官网[4]的介绍所说:

Agent TARS 的核心是利用复杂的 agent 框架来创建 agent flow,帮助你完成任务的规划和执行,平滑地编排搜索、浏览、探索链接等任务,同时通过 Event Stream 与 UI 连接,并合成信息以产生最终输出。

无论是 Agent TARS、Manus 亦或者 Operator,本质都是多智能体的工作流助手,评价的标准除了输出结果之外,最重要的就是是否能够合理安排规划工作流 和 是否能够顺利完成工作流 ?而这两者的实现,前者依靠的是成熟的提示词,后者则是强大的工程能力。从这两个标准来说,目前预览版本的 Agent TARS 可以说是合格的。再加上其开源的定位,期待更多的人加入让 Agent TARS 能够快速成熟起来。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询