我要投稿

openai发布新工具，打造AI agent平台，创造更多的manus

发布日期：2025-03-12 07:32:53 浏览次数： 3647 作者：去玩AI

Openai开了新的发布会，抛出了一堆好东西，又一次定义了AI agent，支持开发者创造更多的manus。

核心内容：

今天，我们发布了第一套构建模块，将帮助开发者和企业构建有用且可靠的智能代理。我们将智能agent视为代表用户独立完成任务的系统。在过去的一年里，我们引入了新的模型功能——如高级推理、多模态交互和新的安全技术——为我们的模型处理构建智能代理所需的复杂、多步骤任务奠定了基础。然而，客户表示，将这些功能转化为生产就绪的智能代理具有挑战性，通常需要大量的提示迭代和定制的编排逻辑，而没有足够的可见性或内置支持。

为了应对这些挑战，我们推出了一套新的 API 和工具，专门设计用于简化构建代理应用的开发过程：

新的响应 API结合 Chat Completions API 的简洁性与 Assistants API 的工具使用功能，以构建智能代理
内置工具包括 网络搜索，文件搜索，以及计算机使用
新agent SDK编排单智能体和多智能体工作流程
集成可观测性工具追踪和检查代理工作流程执行

这些新工具简化了核心智能体逻辑、编排和交互，使开发者更容易开始构建智能体。在未来几周和几个月内，我们计划发布更多工具和能力，进一步简化并加速在我们平台上构建智能体应用。

解读（以下为AI解读）：

## 深夜惊雷，我已跪地！

卧槽！今天这个消息真的让我整个人都麻了！OpenAI终于发布了第一套智能代理构建模块，我预想到这一天会来，只是没想到，来的如此之早。这套工具让开发者能构建那种可以独立完成任务的AI系统，真的是浑身发麻的感觉！过去一年他们搞出了高级推理、多模态交互这些黑科技，现在更是直接给我们送上了一套完整的构建方案，太TM离谱了。。。

看完整个发布内容，我给跪了！这次的核心构建模块包括：

1. 新的响应API - 卧槽，这东西直接结合了Chat Completions的简洁性和Assistants API的工具调用能力，开发者只需一个API调用就能完成多个工具和模型的协作！这还需要人干吗？

2. 内置工具套装 - 尼玛，直接内置了网络搜索、文件搜索和计算机使用功能，这不是要把我们程序员全部干碎吗？！

3. 代理SDK - 极度简化了单智能体和多智能体的工作流程编排，看得我头皮发麻！

4. 可观测性工具 - 让你盯着AI工作的每一个步骤，就像PPT一样不断下一页下一页，太高级了吧！

这不是可以随意复制了manus了。。。

## 响应API

这个新的API简直就是为了干碎传统开发者而生的！它把聊天完成功能的简洁性和助手API的工具使用能力硬生生地塞到了一起，变成了这个怪物。你们懂那种，浑身触电的感觉吗？通过单个响应API调用，开发者可以：

- 使用多个工具和模型轮次解决超级复杂的问题

- 无缝接入OpenAI内置工具

- 享受基于项目的统一设计和直观的流事件

- 使用`response.output_text`这样超简单的SDK助手

这个API就是为那些想轻松整合OpenAI模型和内置工具的开发者设计的，不需要处理复杂的多API集成！而且即日起对所有开发者开放，按标准费率计费，我真的要给OpenAI跪了。。。

## 那现有API怎么办？

聊天完成API ：继续支持，适合不需要内置工具的开发者 | 还好还好，至少没被扔掉

助手API：计划在功能对等后于2026年中期停用 | 卧槽！真的要被干掉了！

## 内置工具

### 1. 网页搜索功能

特么这也太强了！开发者现在可以获取最新答案，还带清晰的网络引用。看代码：

```javascript
const response = await openai.responses.create({
model: "gpt-4o",
tools: [ { type: "web_search_preview" } ],
input: "What was a positive news story that happened today?",
});


console.log(response.output_text);
```

就这么简单？！在SimpleQA基准测试中，GPT-4o搜索和GPT-4o迷你搜索分别得分90%和88%的准确率，这已经高到爆炸了好吗？！

### 2. 文件搜索工具

卧槽这功能也太强了！支持多种文件类型，查询优化，元数据过滤和自定义重新排序：

```javascript
const productDocs = await openai.vectorStores.create({
name: "Product Documentation",
file_ids: [file1.id, file2.id, file3.id],
});


const response = await openai.responses.create({
model: "gpt-4o-mini",
tools: [{
type: "file_search",
vector_store_ids: [productDocs.id],
}],
input: "What is deep research by OpenAI?",
});


console.log(response.output_text);
```

这不是要干碎所有做检索增强生成(RAG)的创业公司吗？就是定价太离谱：每千次查询2.50美元，文件存储费用每天每GB 0.10美元！

### 3. 计算机使用工具

这才是真正的黑科技！基于Computer-Using Agent (CUA)模型，可以让AI直接操作计算机，捕获模型生成的鼠标和键盘动作...我已经跪了：

```javascript
const response = await openai.responses.create({
model: "computer-use-preview",
tools: [{
type: "computer_use_preview",
display_width: 1024,
display_height: 768,
environment: "browser",
}],
truncation: "auto",
input: "I'm looking for a new camera. Help me find the best one.",
});


console.log(response.output);
```

这模型已经在OSWorld设定了38.1%的成功率、WebArena上58.1%、WebVoyager上87%的新记录...这还是人类能干的活吗？！太可怕了！

## 代理SDK

除了基础工具，这次他们还推出了一个开源代理SDK，让多代理工作流程的编排变得超级简单！这已经是在去年实验性SDK Swarm的基础上的巨大提升了：

```python
from agents import Agent, Runner, WebSearchTool, function_tool, guardrail


@function_tool
def submit_refund_request(item_id: str, reason: str):
# Your refund logic goes here
return "success"


support_agent = Agent(
name="Support & Returns",
instructions="You are a support agent who can submit refunds [...]",
tools=[submit_refund_request],
)


shopping_agent = Agent(
name="Shopping Assistant",
instructions="You are a shopping assistant who can search the web [...]",
tools=[WebSearchTool()],
)


triage_agent = Agent(
name="Triage Agent",
instructions="Route the user to the correct agent.",
handoffs=[shopping_agent, support_agent],
)


output = Runner.run_sync(
starting_agent=triage_agent,
input="What shoes might work best with my outfit so far?",
)
```