支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


AutoGLM 发布之后,如今国产大模型终于长出了手。

发布日期:2025-04-07 06:10:27 浏览次数: 1564 作者:洛小山
推荐语

国产大模型的突破性进展,如何深度挖掘资料并提升工作效率?

核心内容:
1. AI深度研究产品面临的主要瓶颈
2. 大模型执行工具能力(MCP)的重要意义
3. 如何充分利用大模型深度挖掘能力,满足日常工作需求

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家
本文将深入讨论:大模型深度挖掘资料的产品方案,以及作为用户,怎样用好大模型的深度挖掘能力,满足日常工作使用需求。

全文阅读预计 12 分钟。
主要内容:

1、介绍 AI 深度研究产品的主要瓶颈

2、大模型具备执行工具能力(MCP)意味着什么

3、怎样用好大模型深度研究的能力


在过去的两年里,ChatBot 是最常见的形态,在写作、常规问答,资料总结等越来越多的方面实实在在帮助到我们。


但大模型在专业领域比如商业分析、市场调研、学术研究等方面不尽人意,即便 OpenAI ChatGPT 、Claude 3.7 等头部基座模型,都很难做好这些任务。



AI 深度研究的主要瓶颈


01


主要原因是:基础大模型模型无法包含最新信息。


为了解决大模型缺少资料源的问题,许多应用使用 RAG(搜索增强生成)方案,搜索问题并通过云端进行数据处理和信息检索,试图帮助用户解答时效性较强的问题。


目前大部分应用使用相对省事省 Token 的方案:一次性搜索,一次性回复。用户提出问题后进行基础的搜索,搜到结果后进行排序后,直接拼接到 prompt 中,等待大模型返回结果。这里可以选择 Chat 模型(DeepSeek V3)或者 Reasoning 模型(DeepSeek-R1)等。


可以看到,在这种传统的AI工作流中,通过用户输入请求,系统对用户请求进行路由和拆解,然后依赖云端进行网络搜索,整理结果后拼成一段Prompt,返回结果并生成回答。




虽然这种方式足以解决日常简单问题,但它也有显著的缺陷:

1、容易被反爬虫机制命中:传统AI只能接入公共数据源,对于一些网站高频抓取会被网站的反爬虫机制命中,导致拿不到结果。


2、缺乏登录态管理:许多需要权限的数据,如行业报告、财务信息等,无法被AI直接获取。


3、浅层信息提供:搜索引擎返回的数据通常较为零散,而且UGC 内容占比非常高,从语料来源层面就缺少了准确性。


如果想摆脱“垃圾进,垃圾出”的困境,最好的方式就是使用用户本地环境进行搜索,这样的方案既不会被网站的反爬虫机制命中,还能访问到登录后结果。


果然脑子都是肉长的,看到智谱发布的「AutoGLM沉思」Agent 产品,就走了这样的路径,它从模型层面解决这个问题,打破了这些局限。



它基于智谱自研的推理模型GLM-Z1-Air训练,融入AutoGLM的动手操作能力。能够回应开放式深度问题,主动思考解答步骤,然后像人类一样边思考边搜索和浏览网页,最后生成生成万字深度报告。



AutoGLM 沉思

大模型能调用工具意味着什么 


02


提到大模型调用工具,就不得不说 MCP。 

说实话,MCP (模型上下文协议Model Context Protocol )这个概念初看总让人非常疑惑。

在深入学习之前,我常将MCP与Function Call混淆,我觉得MCP可能不过如此,但随着深入研究,我发现,这不但相对系统性解决了 AI 能力缺陷,而且…我发现这是 Claude 下的一盘关于 AI 产品生态的棋。


MCP 是一个范式,提出了让大模型调用工具的范式。

MCP范式,极有可能是 AI 万物互联的基础,是 Agent 的基础。


这个范式大概是这样的:当你向大模型提问的时候,在上下文里面告诉AI 你可以使用的内容。然后大模型在生成过程中会告诉客户端需要执行的工具,客户端使用后,将结果返回到大模型,最后大模型结合结果再返回。


比如下面的 Case, 体现了MCP 方案查询天气的调用 Prompt 方案:


可见,它存在两个关键的前提:

  1. 必须要有能承接逻辑的LLM 客户端

  2. LLM 必须要知道有哪些工具能使用


MCP 方案完整体是非常有想象力的,作为 AI 应用开发者,我们希望为用户提供更好的大模型应用,本质上是利用 大模型的内容生成能力。


虽然大部分情况下,摆在AI产品经理面前的底座模型可选的并不多。


国内的无非是 DeepSeek的 R1、千问的Qwen2.5-Max、智谱的 GLM4-Plus、Minimax的abab7等;


海外的Anthropic 的Claude 3.7 Sonnet、OpenAI 的GPT4o或mini、R3、谷歌的Gemini 2.0、Meta 的LLama 3 等。


虽然大家可挑选的标的模型不多,但如何挑选 AI底座模型,主要考虑以下几点特性:

1、内容质量

2、推理能力

3、指令遵循能力

4、结构化输出能力

5、幻觉程度

上面提到的几个特性,在后处理层面难度依次递增。


比如:

1、幻觉严重的大模型不适合为用户提供准确内容服务,对于事实性纠错极其困难;

2、结构化输出糟糕的模型,会带来极其高昂的后处理代价;

3、指令遵循弱的模型对于字数、格式和复杂性要求难以满足,导致输出结果常常不符合预期

4、推理能力和内容质量属于基本能力,虽然国内模型和海外的底座模型仍存在较为明显代差,但我觉得演进的方向是清晰明确的。


为了让大模型生成更高质量内容,就需要在大模型底座能力以上,让大模型“掌握更多的场外信息”,以及尽量补全“大模型的动手能力”。


过去的一两年时间里,AI 产品们提出了各类前后处理方案,本质上都在解决上面两个问题。


比如 RAG 、知识图谱等方案为大模型提供更多的资料;而 PAL 等方案让大模型编程再经计算机运算,则侧重解决大模型的幻觉问题。


我们都期望大模型有强大的推理能力,还要有更好的内容质量,更少的幻觉,在 MCP 提出之前, OpenAI 给出的解决方案是 通过 Function Call 相关参数上报能力。




但Function Call 存在明显的局限性, 因为Function Call 的能力取决于该开发者的能力;开发者没有实现的 Function ,LLM 就不能 Call。


也就是说,软件的开发者定好了LLM 有没有手,有多少手,手有多长。


当然,开发者也可以给自己制定一套插件方案,用户通过某种方式把插件添加到客户端中,客户端也能调用插件功能。—— 这就是 MCP 的雏形。




MCP本质上是一种结构化的交流协议,它定义了模型与各种开发者之间的"契约",使得模型输出更加可控、可预期。


MCP 和 Function Call 最大的不同,就是用户可以决定 LLM 的手有多少,手有多长。而开发者只需要做好模型能力的胶水层。


遗憾的是,目前大部分模型对 MCP 支持比较差,大部分国产模型对 MCP 甚至存在幻觉,调用“完全不存在”的 MCP 服务。


如何在国产的 AI 应用中用好 MCP 范式,令我们这些产品开发者头痛不已。


测试后,我发现 AutoGLM 沉思是从模型层面实现 MCP 方案的 Agent,和其他Agent相比,它能在模型层面做好“边想边干”,这个非常关键。

AutoGLM沉思能够:

1、模拟人的思考,尤其是像人一样的深度研究和反思;

2、能够像人一样感知这个世界;

3、能够像人一样使用工具。


然后,智谱顺手针对深度研究场景做了特殊优化,应该是是国内首个上线的Deep Research 产品了。

果然,有自研模型就是可以为所欲为…



另外,我觉得更重要的意义是:它从模型层面级解决了这个事情,为国产 AI 应用开发者们提供了底座级的能力。




模型能力


了解到,AutoGLM 背后的是智谱全栈自研模型:


首先是推理模型,智谱训练的GLM-4-Air-0414

GLM-Z1-Air是智谱基于扩展强化学习技术训练的新一代推理模型,面对复杂、开放问题,能够进行推理和反思,为Agent提供了强大的推理、规划与反思能力。效果比肩DeepSeek-R1,提速8倍,价格是R1的1/30,可以在消费级显卡上运行。


此外,智谱还推出一个学习者免费版本GLM-Z1-Flash,轻量级,速度更快,完全免费调用。


推理模型 Z1-Air 的基座模型是 GLM-4-Air-0414,它在预训练阶段加入了更多的推理类数据,并在对齐阶段针对智能体能力进行了对齐,更擅长代码编写、工具调用等智能体任务。


然后才是 GLM-Z1-Rumination 沉思模型,能够主动理解用户需求,在复杂任务中不断优化推理、反复验证与修正假设,使研究成果更具可靠性与实用性。


不过,上述提到的所有Agentic相关的模型和技术,包括基座模型GLM-4-Air0414、推理模型GLM-Z1-Air、沉思模型Z1-Rumination、智能体框架,都将在4月14日正式开源,期待住了!



模型会在接下来的两周内,陆续上线 智谱的开发者平台(bigmodel.cn)。



作为普通用户

怎样用好 AutoGLM 沉思


03



对话性模型常见提问方式


AutoGLM 属于 Reasoning 模型,它能自动降解复杂问题,也就意味着你不用再设计复杂提示词,在沉思功能中,AI会自己拆解复杂问题,自己一步步执行,最终输出完整报告。

这种深度思考模型,不需要给出人设身份,也不需要给出样张,也不需要说明输出规范,因为经过了深度研究的优化,它能有效输出附有清晰的引用和对思考过程的总结。

但想要 AI 能够做好深度研究,需要在 prompt 层面要尽可能说明背景,以及你的内容期望。

举个例子:

传统提问你是一位股票分析师,分析金山办公688111是否值得建仓。格式要求:公司简介、财务数据、行业前景、风险分析、投资建议,每部分不少于200字。
AutoGLM 沉思提问请对金山办公(688111)进行全面投资价值分析,评估其是否适合当前建仓。分析需包括:核心业务模式与竞争优势、近3年财务指标趋势与同行比较、行业发展前景与政策环境、技术创新能力、估值水平分析及潜在风险因素。请基于这些维度提供投资建议,并说明适合的持有周期与仓位控制。


传统提问你扮演旅游顾问,帮我规划珠海三天两晚行程。格式要求:行程表(早中晚安排)、住宿推荐(3个选项)、美食推荐(每天2处)、交通建议,请考虑亲子游特点。
AutoGLM 沉思提问请为我设计珠海三天两晚的亲子游详细行程。我们是两位成人和两位孩子(5岁和8岁),预算约XXX元。需要考虑适合不同年龄段儿童的景点组合,合理的日程安排,当地特色美食推荐,住宿选择,出行方式建议,以及季节性考量与备选方案。请特别注意孩子的安全与兴趣点。


我本以为 AutoGLM 只是类似 OpenAI 的 Deep Research 一样,在后台运行,我只能干等结果…


没想到…


AutoGLM 操作起了我的浏览器,比如…


帮我查看 B 站视频……




要求我登录雪球…


替我刷小红书,好好好,这么玩是吧???


然后我开始开小差,刷起了小红书……



换言之,AutoGLM 沉思已经具备了操作浏览器的几乎全部操作。

1、访问某个路径(跳转)

2、识别页面内容(识别登录态)

3、在页面输入内容(关键词)

4、点击页面按钮(交互)

唯一美中不足的是,在 AutoGLM 操作的时候,一定不要手动操作,否则就会像上面那样操作冲突。

这就非常适合在家需要加班查找资料的场景:只要给 AutoGLM 沉思提要求,然后该遛狗遛狗,该洗澡洗澡,回来拿结果。

毕竟回到家之后,班能不加就不加,除非 AI 帮我加。

跑了 15 分钟之后,沉思返回一份类似这样非常详细的报告。



思路非常清晰,作为参考已经绰绰有余了。更关键的是… 它免费!!

对比 OpenAI 每个月 140 块钱的会员费却只能用 10 次,用着用着就限制而言,这个真的很难让我不心动…



现在可以直接体验带浏览器操作和常规搜索版本的沉思,只要打开智谱清言网页版 chatglm.cn,进入主对话,打开“沉思”之后就可以体验。





不仅是新的交互

更是向全面伙伴的演进


04



过去,LLM 不过是个老实巴交的“问答机器人”,写报告、查资料、做调研全靠搜一圈,再把信息缝合起来,看上去热闹,却只能浮在表面,和用户的实际需求还有十万八千里。


但现在,Computer use、Manus、AutoGLM 沉思这些产品一发布,真的给 AI 装上了手脚,它不只是会想问题了,还能自己“动手做”,基于 MCP 的生态正悄悄建立。


曾经说好的万物互联,如今看起来更像“万 AI 互联”。


要数据有数据,要分析有分析,

短短几分钟干完我们本来要花上好几天才能折腾完的事情。


等 AI 真能把我们那些辛苦活全拿走,我们或许就真替 AI 感受一下“岁月静好”了。


不说了,我准备报个班学编竹篾鱼篓了。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询