我要投稿

简单聊聊MCP、Computer Use，了解就好

发布日期：2025-03-23 10:39:46 浏览次数： 1698 作者：叶小钗

由于DeepSeek的一把大火，大家对于今年AI的发展一直呈现火热的关注，近来Manus续了一波，Agent的概念再次火了起来。

于是一些低频名词又重新进入视野，甚至被抬得很高，比如computer use、MCP，先聊聊MCP...

unsetunset什么是MCPunsetunset

Model Context Protocol (MCP) 是Anthropic开发一种开放标准协议，它可以让AI模型能够安全地访问和交互外部数据和工具。

与http协议类似，就是一个约定俗成的标准，只要大家遵守即可。

MCP出现的缘由很简单，大模型要真正的解决问题，一定需要与各种外部接口做交互，包括浏览器、数据库、文件系统...

在MCP提出之前，我们如果需要外部信息是怎么玩的呢？答案是定制化。

写一个中间程序，直接去调用大模型（获取请求），拿到大模型请求后、再调用API进行数据库读写、或者通过大模型返回的一些参数，再进行API调用，总而言之，用户访问的其实是中间程序，中间程序完成了大模型能力扩展的弥合。

但是有个人不爽：觉得不应该存在中间程序这种奇葩存在，于是他先在模型底层实现了固定格式的API调用，于是后续用户便可以直接访问大模型，而大模型可以自动调用该API进行数据库读写。

后续又衍生出文件读写、浏览器读写等需求，为了提升效率就沿用了之前的标准，最后发现挺好用，就形成了协议。

有了MCP后，AI与外部世界的交互有了统一标准，使 AI 应用能够无缝集成外部数据源和工具。

在没有 MCP之前，每个开发者都需要创建自己的方法让 AI 与外部世界交互，这导致了大量不兼容的系统和安全漏洞。

以上就是非常粗暴的描述，大家自己理解吧，没什么好说的...

unsetunset补一句unsetunset

为加深理解，这里还是随便补充点内容，其实MCP没什么好说的，按照要求写即可...

用户 → 中间程序 → 大模型 → 中间程序 → API → 返回结果

实际技术演进：

# 传统适配层伪代码
user_input = "查北京天气"  
model_response = llm(user_input)  # 模型可能输出 "需要调用天气API，城市=北京"
if "天气API" in model_response:
    city = extract_city(model_response)  # 开发者自行编写解析逻辑
    result = call_weather_api(city)      # 手动调用API

MCP 阶段：

并非完全消除中间程序，而是将其标准化为协议层。流程变为：

用户 → 模型 → MCP客户端（结构化请求）→ MCP服务器（协议转换）→ API → 返回结果

- **关键升级**：模型直接输出标准化指令（如 JSON 格式），MCP 协议层替代了定制化代码

---

### 二、核心差异：协议层 vs 模型能力
| **维度**       | **传统模式**                  | **MCP 模式**                     |
|----------------|-----------------------------|---------------------------------|
| **调用发起方**  | 开发者代码触发 API 调用         | 模型自主生成 MCP 指令             |
| **接口规范**    | 每个 API 需独立对接            | 统一遵循 MCP 协议格式             |
| **安全控制**    | 依赖开发者实现权限管理          | 协议层内置沙箱与权限策略           |

**典型案例对比**：  
- **无 MCP**：模型输出 "请调用天气API查北京"，需开发者写正则表达式提取参数  
- **有 MCP**：模型直接输出结构化指令：
```json
{
 "action": "query_weather",
 "params": {"location": "北京"},
 "auth_scope": "user_weather"
}

unsetunset什么是computer useunsetunset

Computer Use也是由Anthropic（Claude母公司）在2024年10月推出。

目标是让AI像人类一样操作电脑：看屏幕、动光标、点按钮、打字，再这个基础上再扩展功能，比如帮订机票、填表格、查天气。

事实上之前这个自动化工作**RPA一直在做而且做得挺好的。

Computer Use 可以理解为RPA都是扩展能力，操作电脑的行为，只不过底层是完全不同的逻辑。
Computer Use，是在接受任务后列出行动计划，并根据实时的屏幕变化进行下一步的思考、计划和操作。他可以对未知的工作进行主动探索和试错；
而RPA更多的是流程固定化操作，这是巨大的差异。长时间来看，Computer Use可能会令RPA公司感到绝望...

技术实现为：通过截屏+虚拟键盘鼠标模拟人类操作，类似于“教会实习生用电脑”。

目前仍处于测试阶段，操作速度慢，错误率较高。

意义也很简单：脱离RPA这类工具，大模型自己能玩电脑了...

与MCP一样暂时噱头过多，持续关注即可，真的成熟会有很完善的文档，完全不必焦虑