微信扫码
添加专属顾问
我要投稿
国产大模型的突破性进展,如何深度挖掘资料并提升工作效率? 核心内容: 1. AI深度研究产品面临的主要瓶颈 2. 大模型执行工具能力(MCP)的重要意义 3. 如何充分利用大模型深度挖掘能力,满足日常工作需求
主要内容: 1、介绍 AI 深度研究产品的主要瓶颈
2、大模型具备执行工具能力(MCP)意味着什么
3、怎样用好大模型深度研究的能力
在过去的两年里,ChatBot 是最常见的形态,在写作、常规问答,资料总结等越来越多的方面实实在在帮助到我们。
但大模型在专业领域比如商业分析、市场调研、学术研究等方面不尽人意,即便 OpenAI ChatGPT 、Claude 3.7 等头部基座模型,都很难做好这些任务。
AI 深度研究的主要瓶颈
/ 01
主要原因是:基础大模型模型无法包含最新信息。
为了解决大模型缺少资料源的问题,许多应用使用 RAG(搜索增强生成)方案,搜索问题并通过云端进行数据处理和信息检索,试图帮助用户解答时效性较强的问题。
目前大部分应用使用相对省事省 Token 的方案:一次性搜索,一次性回复。用户提出问题后进行基础的搜索,搜到结果后进行排序后,直接拼接到 prompt 中,等待大模型返回结果。这里可以选择 Chat 模型(DeepSeek V3)或者 Reasoning 模型(DeepSeek-R1)等。
可以看到,在这种传统的AI工作流中,通过用户输入请求,系统对用户请求进行路由和拆解,然后依赖云端进行网络搜索,整理结果后拼成一段Prompt,返回结果并生成回答。
虽然这种方式足以解决日常简单问题,但它也有显著的缺陷:
1、容易被反爬虫机制命中:传统AI只能接入公共数据源,对于一些网站高频抓取会被网站的反爬虫机制命中,导致拿不到结果。
2、缺乏登录态管理:许多需要权限的数据,如行业报告、财务信息等,无法被AI直接获取。
3、浅层信息提供:搜索引擎返回的数据通常较为零散,而且UGC 内容占比非常高,从语料来源层面就缺少了准确性。
如果想摆脱“垃圾进,垃圾出”的困境,最好的方式就是使用用户本地环境进行搜索,这样的方案既不会被网站的反爬虫机制命中,还能访问到登录后结果。
果然脑子都是肉长的,看到智谱发布的「AutoGLM沉思」Agent 产品,就走了这样的路径,它从模型层面解决这个问题,打破了这些局限。
它基于智谱自研的推理模型GLM-Z1-Air训练,融入AutoGLM的动手操作能力。能够回应开放式深度问题,主动思考解答步骤,然后像人类一样边思考边搜索和浏览网页,最后生成生成万字深度报告。
AutoGLM 沉思
大模型能调用工具意味着什么
/ 02
在深入学习之前,我常将MCP与Function Call混淆,我觉得MCP可能不过如此,但随着深入研究,我发现,这不但相对系统性解决了 AI 能力缺陷,而且…我发现这是 Claude 下的一盘关于 AI 产品生态的棋。
这个范式大概是这样的:当你向大模型提问的时候,在上下文里面告诉AI 你可以使用的内容。然后大模型在生成过程中会告诉客户端需要执行的工具,客户端使用后,将结果返回到大模型,最后大模型结合结果再返回。
比如下面的 Case, 体现了MCP 方案查询天气的调用 Prompt 方案:
可见,它存在两个关键的前提:
必须要有能承接逻辑的LLM 客户端
LLM 必须要知道有哪些工具能使用
MCP 方案完整体是非常有想象力的,作为 AI 应用开发者,我们希望为用户提供更好的大模型应用,本质上是利用 大模型的内容生成能力。
虽然大部分情况下,摆在AI产品经理面前的底座模型可选的并不多。
国内的无非是 DeepSeek的 R1、千问的Qwen2.5-Max、智谱的 GLM4-Plus、Minimax的abab7等;
海外的Anthropic 的Claude 3.7 Sonnet、OpenAI 的GPT4o或mini、R3、谷歌的Gemini 2.0、Meta 的LLama 3 等。
虽然大家可挑选的标的模型不多,但如何挑选 AI底座模型,主要考虑以下几点特性:
1、内容质量
2、推理能力
3、指令遵循能力
4、结构化输出能力
5、幻觉程度
上面提到的几个特性,在后处理层面难度依次递增。
比如:
1、幻觉严重的大模型不适合为用户提供准确内容服务,对于事实性纠错极其困难;
2、结构化输出糟糕的模型,会带来极其高昂的后处理代价;
3、指令遵循弱的模型对于字数、格式和复杂性要求难以满足,导致输出结果常常不符合预期
4、推理能力和内容质量属于基本能力,虽然国内模型和海外的底座模型仍存在较为明显代差,但我觉得演进的方向是清晰明确的。
为了让大模型生成更高质量内容,就需要在大模型底座能力以上,让大模型“掌握更多的场外信息”,以及尽量补全“大模型的动手能力”。
过去的一两年时间里,AI 产品们提出了各类前后处理方案,本质上都在解决上面两个问题。
比如 RAG 、知识图谱等方案为大模型提供更多的资料;而 PAL 等方案让大模型编程再经计算机运算,则侧重解决大模型的幻觉问题。
我们都期望大模型有强大的推理能力,还要有更好的内容质量,更少的幻觉,在 MCP 提出之前, OpenAI 给出的解决方案是 通过 Function Call 相关参数上报能力。
但Function Call 存在明显的局限性, 因为Function Call 的能力取决于该开发者的能力;开发者没有实现的 Function ,LLM 就不能 Call。
也就是说,软件的开发者定好了LLM 有没有手,有多少手,手有多长。
当然,开发者也可以给自己制定一套插件方案,用户通过某种方式把插件添加到客户端中,客户端也能调用插件功能。—— 这就是 MCP 的雏形。
MCP本质上是一种结构化的交流协议,它定义了模型与各种开发者之间的"契约",使得模型输出更加可控、可预期。
MCP 和 Function Call 最大的不同,就是用户可以决定 LLM 的手有多少,手有多长。而开发者只需要做好模型能力的胶水层。
遗憾的是,目前大部分模型对 MCP 支持比较差,大部分国产模型对 MCP 甚至存在幻觉,调用“完全不存在”的 MCP 服务。
如何在国产的 AI 应用中用好 MCP 范式,令我们这些产品开发者头痛不已。
AutoGLM沉思能够:
1、模拟人的思考,尤其是像人一样的深度研究和反思;
2、能够像人一样感知这个世界;
3、能够像人一样使用工具。
另外,我觉得更重要的意义是:它从模型层面级解决了这个事情,为国产 AI 应用开发者们提供了底座级的能力。
了解到,AutoGLM 背后的是智谱全栈自研模型:
首先是推理模型,智谱训练的GLM-4-Air-0414
GLM-Z1-Air是智谱基于扩展强化学习技术训练的新一代推理模型,面对复杂、开放问题,能够进行推理和反思,为Agent提供了强大的推理、规划与反思能力。效果比肩DeepSeek-R1,提速8倍,价格是R1的1/30,可以在消费级显卡上运行。
此外,智谱还推出一个学习者免费版本GLM-Z1-Flash,轻量级,速度更快,完全免费调用。
推理模型 Z1-Air 的基座模型是 GLM-4-Air-0414,它在预训练阶段加入了更多的推理类数据,并在对齐阶段针对智能体能力进行了对齐,更擅长代码编写、工具调用等智能体任务。
然后才是 GLM-Z1-Rumination 沉思模型,能够主动理解用户需求,在复杂任务中不断优化推理、反复验证与修正假设,使研究成果更具可靠性与实用性。
不过,上述提到的所有Agentic相关的模型和技术,包括基座模型GLM-4-Air0414、推理模型GLM-Z1-Air、沉思模型Z1-Rumination、智能体框架,都将在4月14日正式开源,期待住了!
模型会在接下来的两周内,陆续上线 智谱的开发者平台(bigmodel.cn)。
作为普通用户
怎样用好 AutoGLM 沉思
/ 03
我本以为 AutoGLM 只是类似 OpenAI 的 Deep Research 一样,在后台运行,我只能干等结果…
没想到…
AutoGLM 操作起了我的浏览器,比如…
帮我查看 B 站视频……
替我刷小红书,好好好,这么玩是吧???
然后我开始开小差,刷起了小红书……
1、访问某个路径(跳转)
2、识别页面内容(识别登录态)
3、在页面输入内容(关键词)
4、点击页面按钮(交互)
不仅是新的交互
更是向全面伙伴的演进
/ 04
过去,LLM 不过是个老实巴交的“问答机器人”,写报告、查资料、做调研全靠搜一圈,再把信息缝合起来,看上去热闹,却只能浮在表面,和用户的实际需求还有十万八千里。
但现在,Computer use、Manus、AutoGLM 沉思这些产品一发布,真的给 AI 装上了手脚,它不只是会想问题了,还能自己“动手做”,基于 MCP 的生态正悄悄建立。
曾经说好的万物互联,如今看起来更像“万 AI 互联”。
要数据有数据,要分析有分析,
短短几分钟干完我们本来要花上好几天才能折腾完的事情。
等 AI 真能把我们那些辛苦活全拿走,我们或许就真替 AI 感受一下“岁月静好”了。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17