AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


openai发布新工具,打造AI agent平台,创造更多的manus

发布日期:2025-03-12 07:32:53 浏览次数: 1598 来源:去玩AI
推荐语

OpenAI再次引领AI革命,推出智能代理构建模块,助力开发者打造更强大的AI系统。

核心内容:
1. OpenAI发布智能代理构建模块,重新定义AI agent
2. 新API和工具简化智能代理开发流程,提高效率
3. 未来将推出更多工具和能力,加速智能代理应用构建

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家


Openai开了新的发布会,抛出了一堆好东西,又一次定义了AI agent,支持开发者创造更多的manus。

核心内容:

今天,我们发布了第一套构建模块,将帮助开发者和企业构建有用且可靠的智能代理。我们将智能agent视为代表用户独立完成任务的系统。在过去的一年里,我们引入了新的模型功能——如高级推理、多模态交互和新的安全技术——为我们的模型处理构建智能代理所需的复杂、多步骤任务奠定了基础。然而,客户表示,将这些功能转化为生产就绪的智能代理具有挑战性,通常需要大量的提示迭代和定制的编排逻辑,而没有足够的可见性或内置支持。

为了应对这些挑战,我们推出了一套新的 API 和工具,专门设计用于简化构建代理应用的开发过程:

  • 新的响应 API结合 Chat Completions API 的简洁性与 Assistants API 的工具使用功能,以构建智能代理

  • 内置工具包括 网络搜索,文件搜索,以及计算机使用

  • agent SDK编排单智能体和多智能体工作流程

  • 集成可观测性工具追踪和检查代理工作流程执行


这些新工具简化了核心智能体逻辑、编排和交互,使开发者更容易开始构建智能体。在未来几周和几个月内,我们计划发布更多工具和能力,进一步简化并加速在我们平台上构建智能体应用。

解读(以下为AI解读):

## 深夜惊雷,我已跪地!

卧槽!今天这个消息真的让我整个人都麻了!OpenAI终于发布了第一套智能代理构建模块,我预想到这一天会来,只是没想到,来的如此之早。这套工具让开发者能构建那种可以独立完成任务的AI系统,真的是浑身发麻的感觉!过去一年他们搞出了高级推理、多模态交互这些黑科技,现在更是直接给我们送上了一套完整的构建方案,太TM离谱了。

看完整个发布内容,我给跪了!这次的核心构建模块包括:

1. 新的响应API - 卧槽,这东西直接结合了Chat Completions的简洁性和Assistants API的工具调用能力,开发者只需一个API调用就能完成多个工具和模型的协作!这还需要人干吗?

2. 内置工具套装 - 尼玛,直接内置了网络搜索、文件搜索和计算机使用功能,这不是要把我们程序员全部干碎吗?!

3. 代理SDK - 极度简化了单智能体和多智能体的工作流程编排,看得我头皮发麻!

4. 可观测性工具 - 让你盯着AI工作的每一个步骤,就像PPT一样不断下一页下一页,太高级了吧!

这不是可以随意复制了manus了。。。

## 响应API

这个新的API简直就是为了干碎传统开发者而生的!它把聊天完成功能的简洁性和助手API的工具使用能力硬生生地塞到了一起,变成了这个怪物。你们懂那种,浑身触电的感觉吗?通过单个响应API调用,开发者可以:

- 使用多个工具和模型轮次解决超级复杂的问题

- 无缝接入OpenAI内置工具

- 享受基于项目的统一设计和直观的流事件

- 使用`response.output_text`这样超简单的SDK助手

这个API就是为那些想轻松整合OpenAI模型和内置工具的开发者设计的,不需要处理复杂的多API集成!而且即日起对所有开发者开放,按标准费率计费,我真的要给OpenAI跪了。。。

## 那现有API怎么办?

聊天完成API :继续支持,适合不需要内置工具的开发者 | 还好还好,至少没被扔掉 

助手API:计划在功能对等后于2026年中期停用 | 卧槽!真的要被干掉了! 

## 内置工具 

### 1. 网页搜索功能

特么这也太强了!开发者现在可以获取最新答案,还带清晰的网络引用。看代码:

```javascript
const response = await openai.responses.create({
model: "gpt-4o",
tools: [ { type: "web_search_preview" } ],
input: "What was a positive news story that happened today?",
});


console.log(response.output_text);
```

就这么简单?!在SimpleQA基准测试中,GPT-4o搜索和GPT-4o迷你搜索分别得分90%和88%的准确率,这已经高到爆炸了好吗?!

### 2. 文件搜索工具

卧槽这功能也太强了!支持多种文件类型,查询优化,元数据过滤和自定义重新排序:

```javascript
const productDocs = await openai.vectorStores.create({
name: "Product Documentation",
file_ids: [file1.id, file2.id, file3.id],
});


const response = await openai.responses.create({
model: "gpt-4o-mini",
tools: [{
type: "file_search",
vector_store_ids: [productDocs.id],
}],
input: "What is deep research by OpenAI?",
});


console.log(response.output_text);
```

这不是要干碎所有做检索增强生成(RAG)的创业公司吗?就是定价太离谱:每千次查询2.50美元,文件存储费用每天每GB 0.10美元!

### 3. 计算机使用工具

这才是真正的黑科技!基于Computer-Using Agent (CUA)模型,可以让AI直接操作计算机,捕获模型生成的鼠标和键盘动作...我已经跪了:

```javascript
const response = await openai.responses.create({
model: "computer-use-preview",
tools: [{
type: "computer_use_preview",
display_width: 1024,
display_height: 768,
environment: "browser",
}],
truncation: "auto",
input: "I'm looking for a new camera. Help me find the best one.",
});


console.log(response.output);
```

这模型已经在OSWorld设定了38.1%的成功率、WebArena上58.1%、WebVoyager上87%的新记录...这还是人类能干的活吗?!太可怕了!

## 代理SDK 

除了基础工具,这次他们还推出了一个开源代理SDK,让多代理工作流程的编排变得超级简单!这已经是在去年实验性SDK Swarm的基础上的巨大提升了:

```python
from agents import Agent, Runner, WebSearchTool, function_tool, guardrail


@function_tool
def submit_refund_request(item_id: str, reason: str):
# Your refund logic goes here
return "success"


support_agent = Agent(
name="Support & Returns",
instructions="You are a support agent who can submit refunds [...]",
tools=[submit_refund_request],
)


shopping_agent = Agent(
name="Shopping Assistant",
instructions="You are a shopping assistant who can search the web [...]",
tools=[WebSearchTool()],
)


triage_agent = Agent(
name="Triage Agent",
instructions="Route the user to the correct agent.",
handoffs=[shopping_agent, support_agent],
)


output = Runner.run_sync(
starting_agent=triage_agent,
input="What shoes might work best with my outfit so far?",
)
```

看这代码,简洁到爆炸!这跟我们以前写的那些复杂编排逻辑比起来,简直是降维打击啊!而且这玩意不仅支持OpenAI的模型,竟然还兼容其他提供商只要他们提供聊天完成风格的API端点!

## 真实案例 

- **Hebbia** - 帮助资产管理公司从海量数据中提取洞察,这特么的效率提升有多高你们懂吗?!

- **Navan** - 在AI旅行助手中使用文件搜索,能根据不同人的旅行政策给出定制回答,这是人类客服能做到的吗?

- **Unify** - 用AI识别意图并跟买家互动,能通过在线地图验证企业是否扩张房地产,这还要销售做什么?

- **Luminai** - 仅用几天就自动化了传统RPA花几个月都搞不定的流程,我真的给跪了!

- **Coinbase** - 用AgentKit实现与加密钱包的无缝交互,才几个小时就完成了集成!

- **Box** - 创建利用网络搜索的代理,从内部和公共互联网源中提取见解,还能遵守安全策略,这也太牛了吧!

## 未来已至,人类要凉凉了吗?

我相信,代理很快将成为劳动力的重要组成部分,在各行各业提高生产力!而且这次发布的只是第一批基础组件,OpenAI承诺随着模型功能越来越具有代理性,他们会继续投资API和工具的深度集成。

真的,我现在就能看到一个未来:大量工作被这些智能代理接管,人类要么被替代,要么成为代理的管理员。但最让我感到安慰的是,这些技术都是开放的,让每个开发者都能参与其中。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询