AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


牛逼!Claude 3.5学会模仿人类用电脑!
发布日期:2024-10-23 17:38:01 浏览次数: 2211 来源:技术琐话


Anthropic发布Claude 3.5 Sonnet和Claude 3.5 Haiku,创新功能“Computer Use”颠覆AI交互

今天凌晨,全球领先的大模型平台Anthropic正式发布了Claude 3.5 Sonnet升级版以及全新的Claude 3.5 Haiku模型,引发了技术圈的广泛关注。

然而最引人注目的不仅仅是新模型的升级,而是一项具有颠覆意义的功能——**Computer Use**。这项功能使得AI不再局限于文字理解和生成,而是能够直接“操作”计算机,执行如鼠标点击、键盘输入等复杂的交互任务,开创了人机交互的新篇章。

本以为OpenAI会先做到,没想到被你抢先了。



超级兴奋,很棒的功能。



很快每一个人都能像钢铁侠那样,拥有真正的贾维斯助理,帮助你来实际控制电脑。



 “Computer Use”功能解析:AI操作电脑的未来

新发布的Computer Use功能通过API接口使AI能够像人类一样控制计算机硬件。借助这一功能,开发者可以指挥Claude完成一系列任务,诸如在网页中执行搜索、在电子表格中输入数据、打开和操作软件等。Claude甚至可以帮助开发人员完成大量重复性任务或自动化测试流程,这大大提升了工作效率。

在这个demo中,Anthropic研究员给Claude提出了一个极有难度的挑战:

我的朋友要来旧金山,我想明天早上和他一起在金门大桥看日出。我们将从太平洋高地出发。你能帮我们找到一个绝佳的观赏地点,查看一下开车时间和日出时间,然后安排一个日历活动,让我们有足够的时间到达那里吗?

Claude自行打开了Google,开始了搜索。

金门大桥和用户居住地有多远呢?Claude会自己打开地图查找距离。

了解所需信息之后,它打开了日历,为主人安排好了日程。

这一功能的颠覆性在于它打破了传统的人机交互方式。长期以来,AI仅能通过文字输入和输出与用户交互,但Computer Use让AI真正参与到了物理操作中。AI不仅能够理解和生成文本,还可以通过控制鼠标光标、点击按钮、输入文字等方式与软件和硬件系统直接互动。这一功能在自动化办公、数据处理和编程领域的应用潜力巨大,预示着未来开发人员的生产力将得到前所未有的提升。

AI技术领域的下一步:从文本生成到全方位操作

随着“Computer Use”功能的发布,AI在操作性任务中的应用前景进一步拓展。举例来说,过去我们或许需要手动打开软件、在界面中进行操作,但现在,开发者可以指令Claude直接执行这些任务,免去了许多重复性工作。这种能力不仅限于简单的任务,还可以扩展到更复杂的操作,如处理大型数据库、在多个窗口之间切换等。

微软创始人比尔·盖茨曾在他的博客中提到,自己见证了两次重大的技术革命,一次是他开发的图形用户界面操作系统Windows,另一次则是OpenAI推出的ChatGPT。如今,Anthropic通过“Computer Use”功能再次推动了人机交互的进化,将AI从“仅能文字交互”的局限中解放出来,直接接管实际操作。这个跨越不仅颠覆了人们对AI功能的传统理解,也为未来人工智能的发展方向指明了新道路。

开发者的热情反应:AI工具的新纪元

Anthropic在发布这一功能后迅速引起了开发者和科技爱好者的强烈反响。许多专业开发者纷纷表示,Computer Use功能将大幅提高工作效率,尤其是在自动化开发流程和数据处理方面更是如虎添翼。

一些开发者甚至形象地称这一功能为“屠龙刀”,因为它能够帮助他们在短时间内完成以前需要耗费大量精力的任务。

开发者社区的反应迅速而积极,很多人惊讶于OpenAI在这一领域被Anthropic抢了先机。

本来大家都以为OpenAI会率先实现AI操作电脑的功能,没想到Anthropic捷足先登,引发了业内的高度关注。

随着这一功能的广泛应用,未来可能每个人都会拥有像钢铁侠的“贾维斯”那样的智能助手,能够在实际工作中全程辅助甚至代替我们操作电脑。

Computer Use的技术原理:API驱动的自动化交互

要了解Computer Use功能的工作原理,首先要明白它是如何通过API接口实现与计算机的交互。当开发者通过API向Claude发送指令时,Claude首先会运用其自然语言处理能力解析指令,并将其翻译成计算机可以理解的操作步骤。举例来说,开发者下达“使用电脑中的数据填写在线表格”的指令时,Claude会自动识别动作(填写表格)和数据来源(本地数据),然后通过API接口执行这些操作。

这一过程背后的技术与传统的自然语言处理有所不同。在处理文本生成任务时,Claude主要关注语义理解,而在操作电脑时,Claude则需将语义信息转化为具体的计算机操作命令,例如模拟鼠标点击、光标移动或文本输入等。这些命令通过API接口发送给操作系统,从而实现对鼠标、键盘的精准控制。例如,Claude在模拟点击按钮时,API会定位按钮在屏幕上的位置,并发出相应的鼠标点击指令。

Anthropic通过这一功能展示了其在技术前沿的强大创新能力。知名大模型开发者Mckay Wrigley已经成功展示了如何在短时间内使用API搭建一个具备Computer Use功能的开发平台,整个过程简单高效,为未来AI与计算机的深度融合提供了清晰的路径。

新模型Claude 3.5 Haiku:性能提升与低延迟推理的双重优势

除了Computer Use功能外,Anthropic还发布了新模型Claude 3.5 Haiku。相较于Claude 3.0,Haiku在推理效率和性能上都实现了大幅度提升,并在多个智能基准测试中超越了先前版本。尤其在编码任务上,Claude 3.5 Haiku表现尤为出色,SWE-bench Verified的得分达到了40.6%,超越了许多公开可用的先进模型。

一个显著的技术亮点是其低延迟推理功能,使得Claude 3.5 Haiku能够快速响应用户指令。这在需要实时交互的场景中尤为重要,如在线客服系统和智能助手等。低延迟的响应提升了用户体验,让AI的应用场景更加广泛。无论是回答问题还是执行操作,用户都能在更短的时间内得到反馈,减少了等待时间,提升了工作效率。

此外,Claude 3.5 Haiku在指令遵循性上有了明显改进。它能够更加精准地理解用户的指令并按照要求执行,特别是在自动化流程、数据处理等场景中表现出色。通过更好地遵循指令,Claude可以有效减少错误,提升工作任务的准确性和可靠性。

AI与计算机深度融合的新时代

Anthropic的最新发布无疑是AI发展史上的重要里程碑。从文字生成到操作计算机,Claude 3.5系列模型带来了更多的可能性。Computer Use功能为开发者带来了高效便捷的操作模式,让AI不仅能够理解复杂的任务,还能执行实际操作,极大地拓展了AI的应用领域。

无论是对专业开发者还是普通用户而言,这一功能都为未来工作和生活的自动化提供了无限的想象空间。未来,AI可能不再是辅助我们工作的工具,而是能够完全替代人工执行许多重复性任务,释放更多的创造力和生产力。随着Claude 3.5 Haiku和Sonnet的广泛应用,AI技术在各行业的潜力将进一步释放,标志着人机协作进入一个全新的时代。



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询