我要投稿

牛逼！Claude 3.5学会模仿人类用电脑！

发布日期：2024-10-23 17:38:01 浏览次数： 2884 作者：技术琐话

Anthropic发布Claude 3.5 Sonnet和Claude 3.5 Haiku，创新功能“Computer Use”颠覆AI交互

今天凌晨，全球领先的大模型平台Anthropic正式发布了Claude 3.5 Sonnet升级版以及全新的Claude 3.5 Haiku模型，引发了技术圈的广泛关注。

然而最引人注目的不仅仅是新模型的升级，而是一项具有颠覆意义的功能——**Computer Use**。这项功能使得AI不再局限于文字理解和生成，而是能够直接“操作”计算机，执行如鼠标点击、键盘输入等复杂的交互任务，开创了人机交互的新篇章。

本以为OpenAI会先做到，没想到被你抢先了。

超级兴奋，很棒的功能。

很快每一个人都能像钢铁侠那样，拥有真正的贾维斯助理，帮助你来实际控制电脑。

“Computer Use”功能解析：AI操作电脑的未来

新发布的Computer Use功能通过API接口使AI能够像人类一样控制计算机硬件。借助这一功能，开发者可以指挥Claude完成一系列任务，诸如在网页中执行搜索、在电子表格中输入数据、打开和操作软件等。Claude甚至可以帮助开发人员完成大量重复性任务或自动化测试流程，这大大提升了工作效率。

在这个demo中，Anthropic研究员给Claude提出了一个极有难度的挑战：

我的朋友要来旧金山，我想明天早上和他一起在金门大桥看日出。我们将从太平洋高地出发。你能帮我们找到一个绝佳的观赏地点，查看一下开车时间和日出时间，然后安排一个日历活动，让我们有足够的时间到达那里吗？

Claude自行打开了Google，开始了搜索。

金门大桥和用户居住地有多远呢？Claude会自己打开地图查找距离。

了解所需信息之后，它打开了日历，为主人安排好了日程。

这一功能的颠覆性在于它打破了传统的人机交互方式。长期以来，AI仅能通过文字输入和输出与用户交互，但Computer Use让AI真正参与到了物理操作中。AI不仅能够理解和生成文本，还可以通过控制鼠标光标、点击按钮、输入文字等方式与软件和硬件系统直接互动。这一功能在自动化办公、数据处理和编程领域的应用潜力巨大，预示着未来开发人员的生产力将得到前所未有的提升。

AI技术领域的下一步：从文本生成到全方位操作

随着“Computer Use”功能的发布，AI在操作性任务中的应用前景进一步拓展。举例来说，过去我们或许需要手动打开软件、在界面中进行操作，但现在，开发者可以指令Claude直接执行这些任务，免去了许多重复性工作。这种能力不仅限于简单的任务，还可以扩展到更复杂的操作，如处理大型数据库、在多个窗口之间切换等。

微软创始人比尔·盖茨曾在他的博客中提到，自己见证了两次重大的技术革命，一次是他开发的图形用户界面操作系统Windows，另一次则是OpenAI推出的ChatGPT。如今，Anthropic通过“Computer Use”功能再次推动了人机交互的进化，将AI从“仅能文字交互”的局限中解放出来，直接接管实际操作。这个跨越不仅颠覆了人们对AI功能的传统理解，也为未来人工智能的发展方向指明了新道路。

开发者的热情反应：AI工具的新纪元

Anthropic在发布这一功能后迅速引起了开发者和科技爱好者的强烈反响。许多专业开发者纷纷表示，Computer Use功能将大幅提高工作效率，尤其是在自动化开发流程和数据处理方面更是如虎添翼。

一些开发者甚至形象地称这一功能为“屠龙刀”，因为它能够帮助他们在短时间内完成以前需要耗费大量精力的任务。

开发者社区的反应迅速而积极，很多人惊讶于OpenAI在这一领域被Anthropic抢了先机。

本来大家都以为OpenAI会率先实现AI操作电脑的功能，没想到Anthropic捷足先登，引发了业内的高度关注。

随着这一功能的广泛应用，未来可能每个人都会拥有像钢铁侠的“贾维斯”那样的智能助手，能够在实际工作中全程辅助甚至代替我们操作电脑。

Computer Use的技术原理：API驱动的自动化交互

要了解Computer Use功能的工作原理，首先要明白它是如何通过API接口实现与计算机的交互。当开发者通过API向Claude发送指令时，Claude首先会运用其自然语言处理能力解析指令，并将其翻译成计算机可以理解的操作步骤。举例来说，开发者下达“使用电脑中的数据填写在线表格”的指令时，Claude会自动识别动作（填写表格）和数据来源（本地数据），然后通过API接口执行这些操作。

这一过程背后的技术与传统的自然语言处理有所不同。在处理文本生成任务时，Claude主要关注语义理解，而在操作电脑时，Claude则需将语义信息转化为具体的计算机操作命令，例如模拟鼠标点击、光标移动或文本输入等。这些命令通过API接口发送给操作系统，从而实现对鼠标、键盘的精准控制。例如，Claude在模拟点击按钮时，API会定位按钮在屏幕上的位置，并发出相应的鼠标点击指令。

Anthropic通过这一功能展示了其在技术前沿的强大创新能力。知名大模型开发者Mckay Wrigley已经成功展示了如何在短时间内使用API搭建一个具备Computer Use功能的开发平台，整个过程简单高效，为未来AI与计算机的深度融合提供了清晰的路径。

新模型Claude 3.5 Haiku：性能提升与低延迟推理的双重优势

除了Computer Use功能外，Anthropic还发布了新模型Claude 3.5 Haiku。相较于Claude 3.0，Haiku在推理效率和性能上都实现了大幅度提升，并在多个智能基准测试中超越了先前版本。尤其在编码任务上，Claude 3.5 Haiku表现尤为出色，SWE-bench Verified的得分达到了40.6%，超越了许多公开可用的先进模型。

一个显著的技术亮点是其低延迟推理功能，使得Claude 3.5 Haiku能够快速响应用户指令。这在需要实时交互的场景中尤为重要，如在线客服系统和智能助手等。低延迟的响应提升了用户体验，让AI的应用场景更加广泛。无论是回答问题还是执行操作，用户都能在更短的时间内得到反馈，减少了等待时间，提升了工作效率。

此外，Claude 3.5 Haiku在指令遵循性上有了明显改进。它能够更加精准地理解用户的指令并按照要求执行，特别是在自动化流程、数据处理等场景中表现出色。通过更好地遵循指令，Claude可以有效减少错误，提升工作任务的准确性和可靠性。

AI与计算机深度融合的新时代

Anthropic的最新发布无疑是AI发展史上的重要里程碑。从文字生成到操作计算机，Claude 3.5系列模型带来了更多的可能性。Computer Use功能为开发者带来了高效便捷的操作模式，让AI不仅能够理解复杂的任务，还能执行实际操作，极大地拓展了AI的应用领域。

无论是对专业开发者还是普通用户而言，这一功能都为未来工作和生活的自动化提供了无限的想象空间。未来，AI可能不再是辅助我们工作的工具，而是能够完全替代人工执行许多重复性任务，释放更多的创造力和生产力。随着Claude 3.5 Haiku和Sonnet的广泛应用，AI技术在各行业的潜力将进一步释放，标志着人机协作进入一个全新的时代。