微信扫码
添加专属顾问
我要投稿
字节跳动最新AI代理Agent Tars,探索多模态交互新体验。 核心内容: 1. Agent Tars预览版功能介绍与使用指南 2. 系统配置与模型设置详细步骤 3. 产品测试案例分析与性能评估
3月18日,字节跳动发布了其最新的多模态 AI 代理 Agent TARS 的预览版,这是一个类似 Manus 的浏览器代理工具,加入了 MCP 来进行本地文件的编辑和命令行操作,同时拥有比较成熟的产品化可视界面,虽然整体体验下来仍然处于可用的“人工智障”阶段——bug 频出,但毕竟是预览版,后续的升级还是值得期待的。今天就给小伙伴带来简单的使用指南和试用版问题带来的一些思考。
下面我们先来看一段官方操作演示:
Agent Tars 项目现在被放在 UI-TARS-desktop 仓库下,可以直接访问 UI-TARS-desktop Release[1] 页面进行下载,最新的版本是 v1.0.0-alpha 5(目前版本仅支持 macOS)。
安装包下载后正常解压安装就好。
因为要操作本地系统文件,需要特殊授权,参考官方的快速开始[2]:
完成系统设置后,正常打开就是 Agent Tars 的操作界面了,左侧是对话记录,中间是对话栏,右侧是操作显示。
作为开源项目的 Agent Tars 需要用户使用自己的大模型和搜索 API,点击左侧对话记录中的齿轮按钮进入设置界面:
Agent Tars 最新预览版支持 OpenAI、 Claude 和 Azure OpenAI 三种 API 接口,除了使用官方 API 外,下面也提供一种利用 OpenAI 接口调用 DeepSeek 官方 API 的方式:
这里要注意,因为 R1 不支持 function call 功能,所以只能选择 DeepSeek-V3 模型。另外 Agent Tars 团队官方推荐使用 Claude 模型,用其他模型会有性能衰减,这个后面测试会细说。
同样的,Agent Tars 选择使用的搜索引擎和使用的 API,这里我选择了 Tavilly 引擎:
设置中的第三个标签可以设置 Agent Tars 运行和存储的文件目录,使用默认值就好。
至此,Agent Tars 就配置完成,可以直接在对话窗口输入任务让它帮助我们开工了。
这里选了 官方Showcase[3] 中的展示案例和提示词,替换了 UI-TARS-desktop 目录作为目标仓库,要求总结所有的 open issues 并总结。
整体来说这个测试是通过的,可以打开网页,摘取内容总结,并最后生成一个 HTML 页面进行展示。
一个有趣的点是,Agent Tars 并不是通过打开 Github 仓库页面进入 Issues 的方式获取的 open issues,而是通过网络搜索(如上图)。这也导致后续的总结页面出现了很多 closed 的问题。
因为 Agent Tars 介绍中提到已经接入 MCP,所以测试了一下编程能力。
试验了 4 次后终于成功……总的来说,Agent Tars 可以顺利的安排计划,自动进行测试,对遇到的问题进行自动修复,但前三次或多或少都会遇到问题导致工作流终止。
直到我将提示词从“帮我生成一个贪吃蛇小游戏”细化到“帮我生成一个本地运行的 python 贪吃蛇小游戏”后,终于快速的完成了一个可运行的贪吃蛇小游戏。
我还进行了如“最新 AI 技术新闻精选”、“自动驾驶中激光雷达与视觉方案对比”、“小红书宠物UP主查找等”、“比特币价格预测”、“登录 X 发帖”等测试。
大体上如果是“网络搜索->内容提取->摘要”这类任务,Agent Tars 都能够顺利完成整个流程,不考虑结果的话。
这里也遇到一个有趣的失败 case,在要求 Agent Tars,分析并预测未来 6 个月的比特币价格趋势的时候,在搜索环节,莫名其妙的加入了 2023 年的提示词,导致后续所有工作都是依据 2023 年的检索结果?
在试用了若干个成功或失败的案例后,考虑以下三个因素会极大的影响 Agent TARS 的表现:
我测试用的是 DeepSeek-V3 模型,而官方推荐的是 Claude(目前业内主推的编程和 MCP LLM)。 我遇到的几个很明显的案例是,DeepSeek-V3在一些案例中(如旅行计划、编程等)会忽略系统提示词,直接输出相关的内容。其他还有不同模型间编程能力、总结风格等的差异都会影响最终的输出结果。
测试使用的是 Tavilly,很明显搜索和返回都是基于英文外网的结果,这个在实际使用中会直接影响检索的质量,希望正式版可以加入根据语言来选择搜索引擎的功能。
这个就没啥好说的,如果你说的话连模型都听不懂,也不能怪它输出结果不合你心仪了~
整体测试下来,Agent TARS 的使用感受是很好的,在我这里认为是一款未来可期的开源产品,会持续关注。目前我遇到的最大的问题其实是慢……字面意义的慢,不知道后续正式版本会不会有所提速?
正如 Agent TARS 官网[4]的介绍所说:
“Agent TARS 的核心是利用复杂的 agent 框架来创建 agent flow,帮助你完成任务的规划和执行,平滑地编排搜索、浏览、探索链接等任务,同时通过 Event Stream 与 UI 连接,并合成信息以产生最终输出。”
无论是 Agent TARS、Manus 亦或者 Operator,本质都是多智能体的工作流助手,评价的标准除了输出结果之外,最重要的就是是否能够合理安排规划工作流 和 是否能够顺利完成工作流 ?而这两者的实现,前者依靠的是成熟的提示词,后者则是强大的工程能力。从这两个标准来说,目前预览版本的 Agent TARS 可以说是合格的。再加上其开源的定位,期待更多的人加入让 Agent TARS 能够快速成熟起来。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-26
硬核,字节一口气开源了两个类Manus智能体项目
2025-03-26
解密Manus:MCP协议让人人都能构建智能Agent
2025-03-25
首发!优刻得云平台上新DeepSeek-V3-0324模型
2025-03-25
仅3步!即刻拥有 QwQ-32B,性能比肩全球最强开源模型
2025-03-25
万卡集群真实部署,已节省数百万 GPU 小时!MoE 通信优化技术 COMET 开源
2025-03-25
阿里开源 Qwen2.5-VL-32B:小模型,大能量
2025-03-25
DeepSeek V3-0324 模型更新分析报告,被我和AI协作的9张图总结了
2025-03-25
OpenManus源码小读
2025-01-01
2024-07-25
2025-01-21
2024-05-06
2024-09-20
2024-07-20
2024-06-12
2024-08-13
2024-07-11
2024-12-26
2025-03-25
2025-03-25
2025-03-24
2025-03-22
2025-03-19
2025-03-17
2025-03-17
2025-03-13