微信扫码
添加专属顾问
我要投稿
探索如何通过简单的代码扩展AI的实用功能,提升其灵活性和应用范围。核心内容:1. MCP-Use库的介绍及其如何连接LLM与外部工具2. 传统工具链的限制及MCP-Use提供的解决方案3. 实际案例分析:如何使用MCP-Use控制浏览器和操作IoT设备
The Hook:
你正在构建一个 AI Agent。它很聪明,会聊天。但……它被困住了。
它不能浏览网页。
它不能访问文件。
它不能调用 APIs。
它被困在自己的沙盒里——就像给一位天才一本空白笔记本,却锁上了门。
现在想象这样:
你写六行代码,给你的 agent 配备浏览器控制、文件系统访问和实时 API 查询等工具——然后它立刻生效。
欢迎使用 MCP-Use:一个看似简单的 Python 库,连接任何 LLM与任何外部工具,通过开放的Model Context Protocol (MCP) — 由***Pietro Zullo***打造
几个月来,像我这样的开发者一直在拼凑脆弱的工具链,只为让 ChatGPT 能搜网页,调用自定义 API。我们尝试了 LangChain agents,写了包装器,折腾插件。但所有这些都绑定于特定模型、封闭应用或复杂的黑客手段。
MCP-Use 解决了这些问题——干净、开放且强大。
这篇指南将全方位介绍:MCP-Use 的工作原理、它解决的问题,以及如何构建能思考和行动的 agent——用真实案例,比如控制浏览器、搜索 Airbnb、驱动 Blender 3D、甚至操作 IoT 设备。
如果你曾想赋予 LLM 现实世界的能力,这里是最灵活的做法。
一起深入解析 ?
要理解 MCP-Use,首先你要了解它解决的痛点:
目前所有主流 LLM API——OpenAI、Anthropic、Cohere——都能提供出色的文本生成。但基于此行动? 依然非常受限。
想让 GPT-4 运行网页搜索?
Claude 读取文件或查询数据库?
Llama3 控制像 Blender 3D 这样的应用?
你常常要构建定制集成,对接 API,或者依赖 ChatGPT 插件、Cursor IDE、Claude Desktop 等厂商专属平台。
这时,Model Context Protocol (MCP) 诞生——而 MCP-Use 让它真正可用。
MCP 是一种新的开放协议——可以理解为功能调用的增强版。
它借鉴了代码世界的 Language Server Protocol (LSP),让 LLM 以标准化、带状态的方式发现并调用外部工具。工具通过服务器暴露,各个服务器声明自己的能力(函数、参数、返回类型)。
它开放、模型无关且可扩展——是 AI 工具的罗塞塔石碑。
但 MCP 仅是协议。要使用它,你需要一种把模型和工具服务器连接起来的方式。
这正是 MCP-Use 的作用——用 6 行 Python 代码启动一个搭载工具的智能 agent。
MCP-Use 是一个 Python 库,具备 MCP 客户端功能。
它通过 LangChain 将任何 LLM 接入任何 MCP 服务器(浏览器、文件系统、API、3D 渲染器等),让你的 agent 动态且智能地使用工具。
它能:
且拥有清晰的抽象层——让你不用担心协议细节,专注构建更棒的 agent。
MCP-Use = Agent + Tools + 任意 LLM
一个轻量开源的方式,构建不锁定单一平台或插件生态的工具型 agent。
MCP-Use 核心架构围绕两个关键组件:MCPClient
和 MCPAgent
。一个负责连接工具,另一个负责agent 智能。它们协力让你的 LLM 驱动 agent 发现、调用、协调工具——通过开放 Model Context Protocol。
详解如下:
负责与外部世界连接。
你在 JSON 配置里定义工具(如浏览器、文件服务器、API 封装),MCPClient
会:
npx
,或远程用 HTTP/SSE)简单来说,MCPClient
确保所有工具随时可用、明确且可调用——无论它们在哪。
让魔法发生的地方。
MCPAgent
位于 LLM 和工具之间。它:
search_web(query="MCP-Use Python")
)无需额外编码——MCP-Use 封装了所有。传入模型和配置,调用 agent.run("查询内容")
即可。
[你的提问] ─▶ MCPAgent
├── 记忆与 Prompt 设计
├── 函数调用接口
▼
[LLM 思考中...]
├── 选择工具
▼
调用 MCPClient.run_tool()
├── 发送 JSON-RPC 请求
▼
MCP 服务器执行工具(如浏览器)
└── 返回结果给 MCPClient
↓
MCPAgent 将结果反馈给 LLM
↓
LLM 完成任务 → 返回最终回答
MCPClient 负责连接与能力发现。
MCPAgent 负责 LLM 智能和工具调用编排。
优势?你能同时连接 多个 MCP 服务器——agent 会智能管理它们。
想快速打造一个能浏览网页或操作本地文件的 LLM 助手?无需大量样板,无需庞大框架。
用 MCP-Use,只需 6 行 Python 代码。
来看看具体操作。
确保 Python 3.11+。
安装 MCP-Use 和你的 LLM 提供商(这里用 OpenAI):
pip install mcp-use langchain-openai
运行类似浏览器自动化的工具,还需要 Node.js(用于通过 npx
启动如 @playwright/mcp
的工具)。
保存为 mcp-config.json
:
{
"mcpServers": {
"browser": {
"command": "npx",
"args": ["@playwright/mcp@latest"]
}
}
}
定义一个 MCP 服务器:基于 Playwright 的浏览器工具。MCP-Use 会通过 npx
启动它。
在相同目录下创建 .env
:
OPENAI_API_KEY=your_openai_key_here
Python 中用 dotenv
加载:
pip install python-dotenv
from dotenv import load_dotenv
from mcp_use import MCPAgent, MCPClient
from langchain_openai import ChatOpenAI
load_dotenv()
client = MCPClient.from_config_file("mcp-config.json")
agent = MCPAgent(llm=ChatOpenAI(model="gpt-4"), client=client)
print(await agent.run("Search for best sushi places in Tokyo"))
完成。
运行脚本时:
search_web
或 click_link
等工具“基于最新搜索结果,东京顶级寿司店包括 Sushi Saito、Sushi Yoshitake 和 Sukiyabashi Jiro……”
✨ LLM 动态决定调用什么工具,并完成任务。
你不会造一部只能跑一个应用的智能手机。
那为什么构建一个只支持单一模型或工具的 AI agent?
这就是 MCP-Use 真正强大的地方。
核心不是某个模型或框架的巧妙包装——而是 LLM 和外部工具之间通过MCP 协议的开放接口,让你自由构建。
详细拆解。
以下是非详尽列表:
它们有什么共同点?
它们都能function-call——当它们想调用工具时,会输出结构化的 JSON,而非纯文本。
这就是 MCP-Use 所需的全部。
? 它利用 LangChain 的 chat models 来接入每个模型,使得切换提供方变得简单,无需重写逻辑。
另一方面,MCP-Use 可以连接到任何以 MCP server 形式暴露自身的工具——社区已经构建了一些非常出色的工具。
所有这些都是开源的,主要托管在 NPM 或 GitHub。
它们遵循 MCP 规范,并用类似如下的 schema 来暴露工具:
{
"name":"search_listings",
"description":"Search Airbnb for listings",
"parameters":{
"location":"string",
"max_price":"number",
"amenities":"list"
}
}
MCP-Use 会读取它,展示给模型,然后让 agent 像调用原生函数一样调用它。无需特殊代码。
这里才是魔力所在。
因为两边是解耦的——模型和工具——你可以随意组合。
场景:使用 Claude 3 配合 Headless Browser 和本地文件访问
{
"mcpServers": {
"web": {
"command": "npx",
"args": ["@playwright/mcp"]
},
"fs": {
"command": "npx",
"args": ["@modelcontextprotocol/server-filesystem", "/sandbox"]
}
}
}
from langchain.chat_models import ChatAnthropic
client = await MCPClient.from_config_file("tools.json")
agent = MCPAgent(llm=ChatAnthropic(), client=client)
await agent.run("Search for news about AI startups and save the headlines")
搞定。你的 Claude 驱动 agent 现在拥有浏览器和文件系统。
场景:使用本地 LLaMA 模型配合自定义 API Wrapper
假设你有一个通过 Ollama 运行的本地 LLaMA 3,还有一个用 Python 实现的 MCP server,封装了你的内部 CRM API。你可以二者本地运行——无云端,无互联网——同样的 agent 逻辑仍然有效。
对于 MCP-Use,工具不依赖于模型。
它们依赖于协议。这是一个巨大的架构优势。
并非所有 MCP servers 都必须是本地的。
你也可以连接到基于 HTTP 或 WebSocket 的远程 MCP servers,意味着:
只需替换配置:
{
"mcpServers": {
"scraper": {
"url": "https://tools.example.com/mcp/sse"
}
}
}
MCP-Use 会在背后处理连接类型。只要遵守 MCP 协议,Agent 就能使用。
你可以在运行时或配置中禁用任意工具,防止误用。
例如:
write_file
,但允许 read_file
只需在创建 agent 时传入不允许的工具名列表:
agent = MCPAgent(..., disallowed_tools=["shell", "delete_file"])
你的模型可能聪明,但你更聪明。
总结一下:
+----------------+ +----------------+ +------------------+
| Any LLM | <--> | MCP-Agent | <--> | MCP Servers |
| (Claude, GPT) | | (MCP-Use lib) | | (Browser, APIs) |
+----------------+ +----------------+ +------------------+
MCP-Use 位于中间,解析工具 schema,转发调用,让模型能像调用原生功能一样使用工具。
说实话:现在 AI 工具铺天盖地。
LangChain、OpenAI Plugins、Hugging Face Agents、ReAct、AutoGPT、CrewAI、OpenAgents……一片丛林。它们都试图推动边界,但都有一个根本问题:
? 工具使用碎片化。 每个模型有自己用工具的方式,每个框架都在重新发明轮子。大多数都与特定云模型或平台紧耦合。
我们来哲学性地对比一下 MCP-Use — 不仅仅是功能层面。
LangChain 广泛用于构建复杂的 LLM 应用。它的 agents 可通过 function calling 使用工具,支持多种提供方。
但……
MCP-Use 优势:
✅ LangChain 负责编排逻辑
✅ MCP-Use 负责解耦、可重用的工具接口
二者联合?威力无穷——你甚至能在 LangChain chain 内使用 MCP-Use agent。
OpenAI 的 Plugin 生态(现多属 Assistants API)允许 GPT-4 通过 OpenAPI spec 使用工具。能用,但仅限于 OpenAI 内。
但……
MCP-Use 优势:
OpenAI 插件是试验品,MCP-Use 是开放标准,无门槛。
AutoGPT、CrewAI、BabyAGI 等 agent 框架聚焦于规划:拆解任务,带记忆执行。
但……
MCP-Use 优势:
你完全可以用 MCP-Use 作为这些框架的工具后端,让 agent 委托 MCP 执行。
你可能想:“我直接用 requests、Selenium 或 Puppeteer 自己写工具不就行。”
当然。但你会遇到:
MCP-Use 优势:
你不用绑死工具如何构建,只需保证 MCP 协议。
这样理解:
OpenAI Plugins 像浏览器扩展。
MCP 是整个 Web 本身。
插件有用,但有限。协议是无限组合的。
MCP-Use 不只是“另一个工具框架”。 它是一个去中心化、标准化的生态,任何模型均可安全智能地使用任意工具。
这是 AI 未来的巨大解锁。
每场技术革命都会有一个被忽视的关键时刻,它奠定未来基础。
现在,在 AI 领域,MCP 正扮演这样的角色——低调,高效,几乎无形。但影响深远。
现在大家都沉迷于模型。
GPT-5 传闻。Claude 3 性能。Gemini 多模态演示。
但事实是:
模型不是 AI 本体。
Agent 才是。
而 agent 的定义,不是“知道什么”,而是“能做什么”。要在现实世界中行动,agent 需要工具。
要智能地使用工具,它需要结构。
而要在模型、团队、设备和领域之间扩展这种结构——它需要一个协议。
这就是 MCP。
MCP 不仅仅是函数调用的封装。
它是认知与能力之间的接口契约。
它包含:
这与操作系统的发展路径惊人相似:
从这个意义上说,MCP 正悄然成为AI 操作系统的内核——让思维转化为行动的关键。
想象这样一个未来:
这并不遥远。
MCP-Use 是首批让这一现实对开发者开放的库之一。它不锁定平台、模型,也不闭塞生态。它只是赋予你的 LLM 使用事物的能力。
这让它不仅是一个工具。
它是基石。
路线图已经让人振奋:
但更重要的是:
它是开放的。它是标准的。它属于你。
你现在就可以构建工具,明天即可插入任何 agent。
你可以本地运行 agent,也可以远程、边缘设备或安全实验室中运行。
你让 LLM 去做事情——不是靠写提示,而是赋予它们能力。
而且无需任何人许可。
过去几年,我们生活在“LLM 会说话”的时代。
它们聪明、令人惊讶,有时还有诗意。
但下一个时代——我们正迈入的时代——截然不同。
这是“LLM 会行动”的时代。
当未来的开发者回头问:
“AI agent 真正开始有用是在什么时候?”
很可能答案会是:
“大概是在有人发布了一个叫 MCP-Use 的 Python 库的时候。”
tags: #mcp-server #mcp-use #llm #ai #openai
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-02-04
2025-02-04
2024-09-18
2024-07-11
2024-07-09
2024-07-11
2024-07-26
2025-02-05
2025-01-27
2025-02-01
2025-04-27
2025-04-27
2025-04-23
2025-04-20
2025-04-01
2025-03-31
2025-03-20
2025-03-16