我要投稿

AutoGLM 发布之后，如今国产大模型终于长出了手。

发布日期：2025-04-07 06:10:27 浏览次数： 1664 作者：洛小山

本文将深入讨论：大模型深度挖掘资料的产品方案，以及作为用户，怎样用好大模型的深度挖掘能力，满足日常工作使用需求。

全文阅读预计 12 分钟。

主要内容：
1、介绍 AI 深度研究产品的主要瓶颈
2、大模型具备执行工具能力（MCP）意味着什么
3、怎样用好大模型深度研究的能力

在过去的两年里，ChatBot 是最常见的形态，在写作、常规问答，资料总结等越来越多的方面实实在在帮助到我们。

但大模型在专业领域比如商业分析、市场调研、学术研究等方面不尽人意，即便 OpenAI ChatGPT 、Claude 3.7 等头部基座模型，都很难做好这些任务。

AI 深度研究的主要瓶颈

/ 01

主要原因是：基础大模型模型无法包含最新信息。

为了解决大模型缺少资料源的问题，许多应用使用 RAG（搜索增强生成）方案，搜索问题并通过云端进行数据处理和信息检索，试图帮助用户解答时效性较强的问题。

目前大部分应用使用相对省事省 Token 的方案：一次性搜索，一次性回复。用户提出问题后进行基础的搜索，搜到结果后进行排序后，直接拼接到 prompt 中，等待大模型返回结果。这里可以选择 Chat 模型（DeepSeek V3）或者 Reasoning 模型（DeepSeek-R1）等。

可以看到，在这种传统的AI工作流中，通过用户输入请求，系统对用户请求进行路由和拆解，然后依赖云端进行网络搜索，整理结果后拼成一段Prompt，返回结果并生成回答。

虽然这种方式足以解决日常简单问题，但它也有显著的缺陷：

1、容易被反爬虫机制命中：传统AI只能接入公共数据源，对于一些网站高频抓取会被网站的反爬虫机制命中，导致拿不到结果。

2、缺乏登录态管理：许多需要权限的数据，如行业报告、财务信息等，无法被AI直接获取。

3、浅层信息提供：搜索引擎返回的数据通常较为零散，而且UGC 内容占比非常高，从语料来源层面就缺少了准确性。

如果想摆脱“垃圾进，垃圾出”的困境，最好的方式就是使用用户本地环境进行搜索，这样的方案既不会被网站的反爬虫机制命中，还能访问到登录后结果。

果然脑子都是肉长的，看到智谱发布的「AutoGLM沉思」Agent 产品，就走了这样的路径，它从模型层面解决这个问题，打破了这些局限。

它基于智谱自研的推理模型GLM-Z1-Air训练，融入AutoGLM的动手操作能力。能够回应开放式深度问题，主动思考解答步骤，然后像人类一样边思考边搜索和浏览网页，最后生成生成万字深度报告。

AutoGLM 沉思

大模型能调用工具意味着什么

/ 02

提到大模型调用工具，就不得不说 MCP。

说实话，MCP (模型上下文协议Model Context Protocol )这个概念初看总让人非常疑惑。

在深入学习之前，我常将MCP与Function Call混淆，我觉得MCP可能不过如此，但随着深入研究，我发现，这不但相对系统性解决了 AI 能力缺陷，而且…我发现这是 Claude 下的一盘关于 AI 产品生态的棋。

MCP 是一个范式，提出了让大模型调用工具的范式。

MCP范式，极有可能是 AI 万物互联的基础，是 Agent 的基础。

这个范式大概是这样的：当你向大模型提问的时候，在上下文里面告诉AI 你可以使用的内容。然后大模型在生成过程中会告诉客户端需要执行的工具，客户端使用后，将结果返回到大模型，最后大模型结合结果再返回。

比如下面的 Case，体现了MCP 方案查询天气的调用 Prompt 方案：

可见，它存在两个关键的前提：
必须要有能承接逻辑的LLM 客户端
LLM 必须要知道有哪些工具能使用

MCP 方案完整体是非常有想象力的，作为 AI 应用开发者，我们希望为用户提供更好的大模型应用，本质上是利用大模型的内容生成能力。

虽然大部分情况下，摆在AI产品经理面前的底座模型可选的并不多。

国内的无非是 DeepSeek的 R1、千问的Qwen2.5-Max、智谱的 GLM4-Plus、Minimax的abab7等；

海外的Anthropic 的Claude 3.7 Sonnet、OpenAI 的GPT4o或mini、R3、谷歌的Gemini 2.0、Meta 的LLama 3 等。

虽然大家可挑选的标的模型不多，但如何挑选 AI底座模型，主要考虑以下几点特性：

1、内容质量
2、推理能力
3、指令遵循能力
4、结构化输出能力
5、幻觉程度

上面提到的几个特性，在后处理层面难度依次递增。

比如：

1、幻觉严重的大模型不适合为用户提供准确内容服务，对于事实性纠错极其困难；

2、结构化输出糟糕的模型，会带来极其高昂的后处理代价；

3、指令遵循弱的模型对于字数、格式和复杂性要求难以满足，导致输出结果常常不符合预期

4、推理能力和内容质量属于基本能力，虽然国内模型和海外的底座模型仍存在较为明显代差，但我觉得演进的方向是清晰明确的。

为了让大模型生成更高质量内容，就需要在大模型底座能力以上，让大模型“掌握更多的场外信息”，以及尽量补全“大模型的动手能力”。

过去的一两年时间里，AI 产品们提出了各类前后处理方案，本质上都在解决上面两个问题。

比如 RAG 、知识图谱等方案为大模型提供更多的资料；而 PAL 等方案让大模型编程再经计算机运算，则侧重解决大模型的幻觉问题。

我们都期望大模型有强大的推理能力，还要有更好的内容质量，更少的幻觉，在 MCP 提出之前， OpenAI 给出的解决方案是通过 Function Call 相关参数上报能力。

但Function Call 存在明显的局限性，因为Function Call 的能力取决于该开发者的能力；开发者没有实现的 Function ，LLM 就不能 Call。

也就是说，软件的开发者定好了LLM 有没有手，有多少手，手有多长。

当然，开发者也可以给自己制定一套插件方案，用户通过某种方式把插件添加到客户端中，客户端也能调用插件功能。—— 这就是 MCP 的雏形。

MCP本质上是一种结构化的交流协议，它定义了模型与各种开发者之间的"契约"，使得模型输出更加可控、可预期。

MCP 和 Function Call 最大的不同，就是用户可以决定 LLM 的手有多少，手有多长。而开发者只需要做好模型能力的胶水层。

遗憾的是，目前大部分模型对 MCP 支持比较差，大部分国产模型对 MCP 甚至存在幻觉，调用“完全不存在”的 MCP 服务。

如何在国产的 AI 应用中用好 MCP 范式，令我们这些产品开发者头痛不已。

测试后，我发现 AutoGLM 沉思是从模型层面实现 MCP 方案的 Agent，和其他Agent相比，它能在模型层面做好“边想边干”，这个非常关键。

AutoGLM沉思能够：
1、模拟人的思考，尤其是像人一样的深度研究和反思；
2、能够像人一样感知这个世界；
3、能够像人一样使用工具。

然后，智谱顺手针对深度研究场景做了特殊优化，应该是是国内首个上线的Deep Research 产品了。

果然，有自研模型就是可以为所欲为…

另外，我觉得更重要的意义是：它从模型层面级解决了这个事情，为国产 AI 应用开发者们提供了底座级的能力。

模型能力

了解到，AutoGLM 背后的是智谱全栈自研模型：

首先是推理模型，智谱训练的GLM-4-Air-0414

GLM-Z1-Air是智谱基于扩展强化学习技术训练的新一代推理模型，面对复杂、开放问题，能够进行推理和反思，为Agent提供了强大的推理、规划与反思能力。效果比肩DeepSeek-R1，提速8倍，价格是R1的1/30，可以在消费级显卡上运行。

此外，智谱还推出一个学习者免费版本GLM-Z1-Flash，轻量级，速度更快，完全免费调用。

推理模型 Z1-Air 的基座模型是 GLM-4-Air-0414，它在预训练阶段加入了更多的推理类数据，并在对齐阶段针对智能体能力进行了对齐，更擅长代码编写、工具调用等智能体任务。

然后才是 GLM-Z1-Rumination 沉思模型，能够主动理解用户需求，在复杂任务中不断优化推理、反复验证与修正假设，使研究成果更具可靠性与实用性。

不过，上述提到的所有Agentic相关的模型和技术，包括基座模型GLM-4-Air0414、推理模型GLM-Z1-Air、沉思模型Z1-Rumination、智能体框架，都将在4月14日正式开源，期待住了！

模型会在接下来的两周内，陆续上线智谱的开发者平台（bigmodel.cn）。

作为普通用户

怎样用好 AutoGLM 沉思

/ 03

对话性模型常见提问方式

AutoGLM 属于 Reasoning 模型，它能自动降解复杂问题，也就意味着你不用再设计复杂提示词，在沉思功能中，AI会自己拆解复杂问题，自己一步步执行，最终输出完整报告。

这种深度思考模型，不需要给出人设身份，也不需要给出样张，也不需要说明输出规范，因为经过了深度研究的优化，它能有效输出附有清晰的引用和对思考过程的总结。

但想要 AI 能够做好深度研究，需要在 prompt 层面要尽可能说明背景，以及你的内容期望。

举个例子：

传统提问你是一位股票分析师，分析金山办公688111是否值得建仓。格式要求：公司简介、财务数据、行业前景、风险分析、投资建议，每部分不少于200字。

AutoGLM 沉思提问请对金山办公(688111)进行全面投资价值分析，评估其是否适合当前建仓。分析需包括：核心业务模式与竞争优势、近3年财务指标趋势与同行比较、行业发展前景与政策环境、技术创新能力、估值水平分析及潜在风险因素。请基于这些维度提供投资建议，并说明适合的持有周期与仓位控制。

传统提问你扮演旅游顾问，帮我规划珠海三天两晚行程。格式要求：行程表（早中晚安排）、住宿推荐（3个选项）、美食推荐（每天2处）、交通建议，请考虑亲子游特点。

AutoGLM 沉思提问请为我设计珠海三天两晚的亲子游详细行程。我们是两位成人和两位孩子(5岁和8岁)，预算约XXX元。需要考虑适合不同年龄段儿童的景点组合，合理的日程安排，当地特色美食推荐，住宿选择，出行方式建议，以及季节性考量与备选方案。请特别注意孩子的安全与兴趣点。

我本以为 AutoGLM 只是类似 OpenAI 的 Deep Research 一样，在后台运行，我只能干等结果…

没想到…

AutoGLM 操作起了我的浏览器，比如…

帮我查看 B 站视频……

要求我登录雪球…

替我刷小红书，好好好，这么玩是吧？？？

然后我开始开小差，刷起了小红书……

换言之，AutoGLM 沉思已经具备了操作浏览器的几乎全部操作。

1、访问某个路径（跳转）
2、识别页面内容（识别登录态）
3、在页面输入内容（关键词）
4、点击页面按钮（交互）

唯一美中不足的是，在 AutoGLM 操作的时候，一定不要手动操作，否则就会像上面那样操作冲突。

这就非常适合在家需要加班查找资料的场景：只要给 AutoGLM 沉思提要求，然后该遛狗遛狗，该洗澡洗澡，回来拿结果。

毕竟回到家之后，班能不加就不加，除非 AI 帮我加。

跑了 15 分钟之后，沉思返回一份类似这样非常详细的报告。

思路非常清晰，作为参考已经绰绰有余了。更关键的是… 它免费！！

对比 OpenAI 每个月 140 块钱的会员费却只能用 10 次，用着用着就限制而言，这个真的很难让我不心动…

现在可以直接体验带浏览器操作和常规搜索版本的沉思，只要打开智谱清言网页版 chatglm.cn，进入主对话，打开“沉思”之后就可以体验。

不仅是新的交互

更是向全面伙伴的演进

/ 04

过去，LLM 不过是个老实巴交的“问答机器人”，写报告、查资料、做调研全靠搜一圈，再把信息缝合起来，看上去热闹，却只能浮在表面，和用户的实际需求还有十万八千里。

但现在，Computer use、Manus、AutoGLM 沉思这些产品一发布，真的给 AI 装上了手脚，它不只是会想问题了，还能自己“动手做”，基于 MCP 的生态正悄悄建立。

曾经说好的万物互联，如今看起来更像“万 AI 互联”。

要数据有数据，要分析有分析，

短短几分钟干完我们本来要花上好几天才能折腾完的事情。

等 AI 真能把我们那些辛苦活全拿走，我们或许就真替 AI 感受一下“岁月静好”了。

不说了，我准备报个班学编竹篾鱼篓了。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业