AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


DeepSeek的横空出世早有“先兆”

发布日期:2025-02-12 15:55:57 浏览次数: 1798 来源:InfoQ数字化经纬
推荐语

DeepSeek的横空出世,标志着AI技术的又一次飞跃。

核心内容:
1. DeepSeek-V3的低成本高效果,引发行业震动
2. OpenAI和谷歌的应对策略,AI技术持续进步
3. DeepSeek背后的技术积累和算力挑战,中国工程师的机遇与挑战

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

这个春节,DeepSeek 让 AI 再次站在了全民瞩目的聚光灯下。

据说 DeepSeek-V3 只花了 550 万,效果就超过了 Meta 的 Llama4,差不多是 Meta 的 1/30。用极低的成本就可以产生极好的效果,DeepSeek 的出现让训练和推理的成本大幅降低,“英伟达神话”也在一时间开始瓦解。在 DeepSeek 全面“轰炸”了科技圈几天后,OpenAI 和谷歌终于都按捺不住,先后亮出了 o3-mini 和 Gemini 2.0,并且都有着出色的表现。

这些惊艳成果显然不是一日之功,而是近年来 AI 技术的持续积累,从量变到质变的结果。可以说,AI 能力无论从性能还是成本等各方面来看都在持续提升。或许我们无法预言下一个高光时刻会在什么时间出现,但可以从过去一年的 AI 发展大事中寻得一定规律,并基于当下的技术发展方向和应用趋势提前做好准备。

在 1 月 15 日霍太稳视频号《极客的时间》第一期直播中,我们邀请了 PingCAP 副总裁刘松及宜创科技创始人 /TGO 鲲鹏会北京董事宜博这两位重量级专家对 2024 年 AI 重点事件进行了一番专业又充满趣味的探讨。彼时刘松就提到, DeepSeek 被视为大模型领域的“拼多多”,它意味着只要有明确的路径,中国工程师就可以用更少的时间更少的资源去达成并局部超越,从而实现技术的普惠化和低门槛。

换言之,DeepSeek 的横空出世早有“先兆”,而其带来的算力挑战同样也有迹可循。宜博在直播中也强调,企业算力是需要储备的,一旦遇到一个爆发应用,国内现有的算力加起来可能都勉强够用。企业需要为此做一些预储备。  

下文为直播部分内容精选,完整直播回放可关注 “霍太稳视频号” 查看。

图片

事件背景:OpenAI Sora 亮相,文生视频技术引全球关注

相关链接:
OpenAI 首个文生视频模型
Sora 发布、Sora 正式登场    

Q1:目前文生视频技术的发展现状和应用情况怎么样?

宜博:从 2024 年来看,文生视频是整个 AI 领域里收入增长最快的应用,远远比之前的聊天机器人还火热。因为它本质上是内容的泛化,可以很容易进入到短视频、游戏这些领域。而且现在全球流量需求最高的都在短视频领域,所以 AI 视频的增长是最快的,每个月都是十倍百倍的增长。背后的原因主要在于它可以大大减少人类的工作量,比如视频号的视频素材不用自己编辑,AI 都可以给你解决了。

虽然我们看到在泛娱乐领域里,文生视频现在已经做得很好了,但是到生产领域它还有一定不足。我的一位师兄是一位拿过很多奖的电影导演,2024 年 10 月份的时候他试着用这个技术做了一段片子,他表示出来的效果还差点意思。主要原因是电影人要表达的复杂故事内容、摄影技巧都很难控制,这方面文生视频还有差距。换句话说,由于泛娱乐这块不用负那么大责任,模型幻觉甚至变成了优势。但你要用在银行、医疗里,你要负责任,又要好用,要求就会高得多。

我认为到了 2025 年,整个市场最大的变化就是让视频模型更可控,我们需要一个更可控的框架来控制它生成的内容、生成步骤等。

Q2:文生视频存在哪些技术难点?

刘松:有人认为,只要让 AI 学习足够的视频和视觉输入,就会构建一个世界模型。如果这点成立的话,生成一个电影只是时间问题。但现在不是所有人都信服这一点。也有人认为只是学习对视觉的理解是不够做出世界模型的。世界模型是不是真的能通过 LLM 这个路径达到?这是一个疑问。

宜博:技术上的难点还在于可控性和更高的准确度。现在视频的素材实际上不是太大问题。Sora 号称自己是世界模型,因为它生成出来的所有物理动作是符合物理世界规律的,比如说这个椅子到地上它会弹起来,比如说土方会塌下去,它是符合物理规律的。文生视频要看起来比较真实,做到符合物理规律这一点是很重要的。

事件背景:OpenAI 发布 o1、o3,谷歌推出 Gemini 系列

相关链接:
OpenAI 发布最新模型 o1
OpenAI深夜炸场!一口气放出o1模型全家桶
谷歌推出 Gemini 1.5和 Gemini 2.0

Q3:OpenAI o1、o3 和谷歌 Gemini 系列模型的技术突破主要体现在哪些方面?

刘松:其实 o1 最重要的意义是能够进行深度思考,它自己通过思维链先把问题拆解好,再通过问题的拆解提升推理能力,从而大幅提升数学题等问题的解决能力。之前的模型连 9.11 和 9.9 谁大这件事都搞不清楚。所以这个问题非常关键,因为 LLM 模型的两个短板,一个是幻觉,一个是推理。如果推理不解决,很多有用的事都干不了。所以这是一个非常重要的创新。我们(PingCAP)自己公司在数据库迁移过程中之前也开始用 LLM 辅助,但之前的模型效果不佳,我们觉得还是直接从 o1 开始用比较高效,它的精准度有了极大提升。原来很多人认为 LLM 的智能只是模拟的,只是对知识的压缩,而现在推理能力就是对之前这个理解的重要更新,是一个非常重要的突破。

宜博:我理解 o1 解决了三个问题:

第一是数据问题。大语言模型学习数据的时候,很多场景是没有现成互联网数据的,这意味着需要合成数据。互联网数据不够了,用合成数据来学习,无师自通,模型的推理能力就能持续提升。

第二是思维链的方式极大提升了推理能力。

第三个是它的应用。比如说近期很火的 DeepSeek,它很适合编程这样需要深度思考的场景。AI 编程这个领域,就只有 Sonnet 3.5、o1、o3、DeepSeek 能满足需求。而去年 AI 编程能取得很大的突破,主要就源于 o1 的突破,因为 o1 实现了深度思考的能力。

刘松:当我们谈到这一波人工智能的时候,人类智能和计算机支持的神经网络这条路线现在是平行的,很大程度上它不断在学习人类智能。所以人类有慢思考、快思考,神经网络通过强化学习也学到了慢思考的这种思路。这里还有一个很大的尝试和复杂性系统理论有关。复杂性系统理论是从 80 年代开始兴起的跨学科研究,它有一个基本的信念,就是任何事物从宇宙到地球演化再到生物和计算,都是通过一个多层次的东西涌现出来的。关键在于你怎么控制这个涌现。

Q4:国内的大模型技术发展处于什么水平?

刘松:国内整体来说还是处于追赶状态。但追赶者也有自己的优势,比如说 DeepSeek 就有人说这是模型领域的“拼多多”,它意味着只要有明确的路径,中国工程师就可以用更少的时间更少的资源去达成并局部超越,从而实现技术的普惠化和低门槛。

从后发先至的角度来看,去年豆包的进步是很快的,前年阿里通义也达到了这样的效果。相对来说,我认为 进步比较快的是阿里、字节还有横空出世的 DeepSeek 这三家。

整体来说,大模型肯定在收敛,Scaling Law 也在放缓。往下看,我们原来比较担心的一点就是大模型是不是越来越变成一个大厂的游戏,因为大模型要求的数据基础和人才基础太大。但 DeepSeek 又让我们看到了新的机遇,所以无论是大公司还是小公司,甚至无论开源还是闭源,我觉得都还有机会。2025 年国内会是怎样的格局也是很难预测的。(* 注:本次直播时间为 1 月 15 日,于 DeepSeek-V3 发布前)

宜博:我认为现在算力是需要储备的,因为一旦遇到一个爆发的应用,可能国内现有的算力加起来都勉强够用。我们要做一些预储备。

刘松:现在的技术环境可能也很难,ToC 有可能会爆发出超级应用,但 ToB 领域肯定是一个长周期,企业对 AI 的接纳需要更长的时间。

事件背景:微软对现有产品进行生成式 AI 化(如一系列 Copilot 的发布)

相关链接:
微软 Build 开发者大会发布一系列 AI 全家桶及开发者工具

Q5:ToB 侧企业如何更好地与 AI 结合?

刘松:其实每家技术公司都有自己的存量资产。微软自己有现成的应用和技术架构,所以它可以把这些存量产品拿来转化和叠加,用已有产品来做 AI 翻新。微软也说它们在构想新的企业软件架构,用 AI 改变原来 SaaS 的形态。类似的,AWS、阿里云也都是这样的逻辑,希望大家用它们的完整架构去构建企业大模型应用。

我们的客户也发现,要做比较复杂的企业级应用,找一个大厂来总包确实更容易少走弯路。有些客户把模型都跑在私有部署里,同时考虑国产化和数据安全。前后得花一年时间,这其实是没必要的。大厂要解决从咨询规划到设计的所有流程,都要跑通,跑通以后小的企业才能开始在这些跑通的基础上开始降成本,开始形成一个开放开源的组合。所以至少在 ToB 领域,大厂有大厂的担当和职责,然后小厂可以在特定的领域里找到小而美的解决方案,我觉得这两个都需要有,才会有一个大小配合的良性生态。

宜博:在 ToB 端有一个机会。以前企业做 BI 只能得到固定的结论,但现在有了 AI,我们可以询问一些发散性的问题,用问答的方式找到数据的关联关系,这对生产力是很大的提升,它可以激发人的创造性。所以现在 ChatBI 这种产品很火,很多人都在咨询。

ChatBI 最大的难点是要收集自然语言的 Know-How。比如用户询问了各种问题,这些问题对应的是哪些指标、公式,这是需要模型学习、积累和反馈的。

刘松:尤其是非 IT 背景的人来问问题,他们可以询问任何有关企业的问题。

宜博:现在的 ChatBI 还是处于 1.0 的阶段,只能针对一定类型的问题给出反馈,将来能够回答所有关于企业的问题时才是客户真正需要的,2.0 版本的 ChatBI。BI 有一个问题是它对应的指标体系,这指标体系是为了人服务的。但是 AI 能理解一个数据库,为什么需要一个指标体系?它可以直接给出问题答案,就不需要什么指标体系了,这就是对传统 BI 的一个颠覆。

刘松:无论如何,ChatBI 在未来一定是中国最热门的 ToB 应用之一。

事件背景:业界对 Agent 抱以期待
相关链接:
微软宣布构建最大的 AI Agent 生态系统
智谱发布自主 Agent 全家桶
Q6:如何看待 Agent 技术发展和应用?

刘松:首先 每个 Agent 就是一个智能代理,Agent 上层是 UI,下面是 RAG,中间有流程引擎,有知识图谱,基础当然是数据。那么有了这样的 Agent,比如做一个差旅 Agent,你输入差旅标准、喜好、时间要求,它就能给你一次做完规划并执行,这样的模式未来会成为企业软件的标准模式。

通俗而言,我们以前的软件一开始是流程驱动,然后走向数据驱动,现在在数据驱动基础上又增加了规划和行动力。这种叠加让你的 SaaS 变得更聪明,比如说出差回来后提交的报告可以让 Agent 帮你看,找出问题,快速审批,更精确。

我觉得原来的 SaaS 流程最大的问题就是没有增加决策点,缺少一个知识输入,但加入 AI 后就可以给你提供决策,帮你来分析。这些决策是建立在收集了足够的数据和对外界信息的感知的基础上的。以后 AI 一步步演进,各种任务都可以给你提供一个智能体,有了一个框架,生成智能体的成本会越来越低。

但智能体需要依赖以 RAG 为代表的数据供给,以及推理能力,这是需要不断改进的。大模型的推理能力不够,现在就需要用知识图谱来过渡。最理想的情况是模型推理本身也来越强大,大多数问题不需要搞那么多叠加的技术栈。

宜博:从需求端讲,一个很重要的问题是到底他的需求是解决什么问题?人需要有多少注意力放在流程上?比如说报销审批,你要自己慢慢思考哪些项目是不是错了、多报销了,这占用人的大量思考时间。现在如果有 AI 做这个事情,它可以根据更多的优化规则找出问题,直接告诉你这个申请直接拒绝就好了,给你最终的判断,这样就能节约大量注意力。

刘松:未来的智能助理不仅要把你所有的行为、知识和经验全部沉淀下来,还需要把你隐性的思考模式都弄明白。有一种观点认为,计算机是可以和人类智能等价的,就是说计算机最终一定能够和人类的智能“平起平坐”。从这个角度来说,Agent 会不断代替人类完成更多任务。虽然今天大模型的整体智力还无法与人类相比,但很多单项已经超过人类了。我们不要过多以人类为中心,认为我们人类的的智能是不可替代的。并且现在 SaaS 公司也要开始大规模拥抱 Agent 为代表的技术,否则大家的产品市场很快就会被这些 Agent 吸走了。

Q7:目前 Agent 应用在国外和国内有哪些区别?

刘松:在国内,Agent 主要用在原有的企业知识库的延伸这一块,包括营销、客服、金融智能投顾等等。而在北美,大型企业的 Agent 有点像流程自动化的升级版,代表性的公司是 SAP 和 Salesforce 等公司在节点上增加感知和判断能力。Agent 的演进是逐步从工具到主体的过程。

宜博:目前国内在感知和判断这块还是差一些,还在等待美国这边底层方面的突破。一旦他们有了突破,我们落地应用的速度是很快的。

事件背景:国内大模型厂商竞争激烈
相关链接:
零一万物发布千亿参数模型 Yi-Large
阿里云发布通义千问2.5,宣称“地表最强中文大模型”
火山引擎发布由字节跳动研发的豆包大模型家族
智谱AI 发布 MaaS 2.0 ,模型全面降价
Q8:“卷”参数规模和价格对国内大模型技术发展和应用普及有帮助吗?

刘松:只要厂商自己能承受,那么就像云基础设施降价对所有的开发者和使用者一样,肯定是好事。当然这也是这个行业稍微有点过度竞争的一个征兆,到目前为止,最大的背景是特别消耗算力的应用还没有出现,所以你降了价还没有那么显眼。我知道对于很多独立的模型公司来说,不断降价是很伤害他们的。大型云厂商去做这样的事情,它本身可以通过引流,通过云资源的消耗来找平一些成本,所以一个只做模型的公司走这条路,跟进模型的降价是很危险的。

另一方面,大模型的浪潮带来了数据量的增长,数据公司也因此大大获益。我认为 将来 AI+Data 会是数据越来越主导,模型都比较成熟后,大家会比谁的数据和领域模型比较完善。对企业来说,将来会更看重数据组织能力和数据可及性,所以我们大家需要关注一下。本质上来说,大模型的问题问的都是数据,而且它需要非结构化和结构化数据的总和,它需要向量的方式,需要有知识理解的方式。数据库本身的技术除了扩展性以外,还要具备这种多模态搜索的能力。所以 数据在未来会越来越重要。

宜博:因为硬件的改进,模型的算力成本肯定会下降,所以模型的收费降价是必然的。在这个阶段我觉得我们目前大家肯定不追求利润,而是在追求效果。大家希望让更多人来用,占据更多份额。

事件背景:智能编码被视为成为下一个应用爆点
相关链接:
全球首个 AI 超级工程师诞生
Cursor 成为万众瞩目焦点
阿里云「通义灵码」迎来重磅升级,「AI 程序员」正式亮相!
Q9:智能 AI 辅助编程会是下一个风口吗?

宜博:在汽车刚发明的年代,马车用了很多方法阻止汽车进入,比如给汽车限速,让马车有优先通行权等等。但最后因为马车的排泄物、马匹死亡太多了,政府官员实在忍无可忍,开始尝试推广汽车。一旦政府官员屁股坐到汽车上后,就开始取消马车的特权。而原来的马车夫变成了第一批出租车司机,他们的工作机会反而更多了。与之类似,我们今天的编程未来都会变成一个工程师指挥很多编程 Agent 的模式,这是不可逆的过程,会带来生产力的大幅提升。

而在这个程序员转变为指挥 Agent 的 Code Founder 的过程中,企业对程序员和其他参与者的大量培训是必不可少的。培训的内容由两部分,第一部分讲原理,解释什么是 LLM,为什么它会带来革命,它的本质是什么。这样首先要培养出他对模型底层的理解,然后要实训,就是基于一个具体的项目,学习怎样用 LLM 完成具体的任务。

刘松:实训是很重要的,我们厂商对这方面也很重视。而且由于智能编程变得很普遍,现在很多做 Agent 的公司效率提高的很快,实施项目的速度快很多。所以有人认为未来一两个人的公司就能做很多事情,因为他们自己就是 Code Founder,原来手下需要几个程序员,现在只要使用 AI 编程工具就可以了。

还有一个观点认为,如果企业用智能编程没有出效果,那是因为很多时候用户自己没有很好的理解。他对自己的需求都没有分析清楚,自然就存在问题。如果人自己想明白了,那么让他使用辅助编程来生成一个代码片段,这个是没问题的。

宜博:智能编程出现的问题通常是上下文不够。原有的系统的代码规范、文档、需求描述都不够清楚,就不能指望智能编程给你很好的结果。比较好的方法是我们自己先把这些都写好,需求描述好,然后让大模型生成代码,我们自己再修改。这就有点像一个员工参加一个项目,他上来什么都不懂,没有经验,他就一定会犯错误。但如果你给他做好培训,这个员工就能做得八九不离十。所以如果你对 AI 期望过高,这其实是你的问题。你要反思为什么你的上下文不够。

刘松:还有一个潜在的逻辑,就是一旦智能编码在未来几年越来越盛行,应用的生产速度可能比原来快 100 倍,那么产生的数据也会大出很多倍。所以从数据的角度来看,代码生成的智能化未来也会带来新的更大数据、更快速率的要求。未来几年后最常见的就是多个 Agent 组合在一起调用一个超大的数据库,旁边有一个强大的模型。这应该就是未来流行的范式。

事件背景:具身智能蓄势待发

相关链接:
马斯克打响荣誉之战!3 万美元的 Robotaxi 震撼发布,擎天柱现场“端茶送水”,网友炸锅!
停摆 4 年后,OpenAI 重新考虑开发人形机器人,并偷偷启动招聘

Q10:具身智能未来发展潜力如何?

刘松:在去年阿里的云栖大会上,我看到他们最重要的 三个方向就是大模型、自动驾驶和机器人。相对来说,大模型走到了 o3 后,推理这条路已经有了新的方向;自动驾驶的难度更多集中在非技术层面;而人形机器人现在还在发展初期,当然值得现在开始关注。因为它很可能是未来最重要的、最高频的智能硬件,也许一个家庭花 5 万美金买一个机器人照顾老人、解决家务问题。

当然,提到具身智能就 不得不争论两个观点,一个是世 AGI 能否实现,一个是世界模型。第一点是说 AGI 实现了才能做出人形机器人,当然这个是不一定的;第二点是说有了世界模型人形机器人就可用了,这个也不一定。因为一旦机器人进入了物理世界,遇到了空间里的各种物理对象,它得到的反馈和在大模型里的反馈是完全不一样的,复杂度也不一样。所以 人形机器人走向成熟的时间肯定会长。

今天我们只能展望一下,讨论一下具身智能最核心的到底是 AGI 还是世界模型,还是说我们通过多模态的推理能够延伸过去。还有一派观点觉得如果能把自动驾驶做的差不多了,人形机器人也就接近成熟了,因为它们本质上都是识别不同场景。

目前人形机器人赛道上已经有了很多方向,我觉得很值得关注。虽说等到真正普及到家可能还要等待十年以上,但可能明后年我们就能看到一些雏形。

宜博:首先我们把机器人分成两个部分,一个是功能机器人,还有一个叫智能机器人。

功能机器人和智能机器人有本质区别,就是它们的大脑。它能不能自主控制自己的行动,完成各种任务,这是它们的本质区别。我认为智能机器人是 AGI 成熟后才有的事情,但不代表我们现在就不能向这个方向前进。

第二,现在人形机器人要做到人类能做的事情是很难的,比如说让机械手转笔,对人来说这很简单,但对机器来说是很困难的。即便只是这样小的一件事情,可能你也要专门研究对应的软硬件,发展几年的时间才能做好。因为物理世界的复杂性比软件空间要高出两三个层级。所以要分清楚任务的边界,哪些是智能机器人才能做的,哪些是功能机器人就能做的。某些场景里,比如说扫地机完成的任务就是现在能做到的。

刘松:我觉得从根本上讲,今天的大模型本质还是模仿游戏,在没有 AGI 之前,它是个模拟的智能。有时候它会吓到你,觉得它很强,但是你不要真考他。你如果想好了,它能帮你做到一些事情。我们对于大模型的原理和边界肯定得有这样的理解,否则你管理不住企业客户的期望值。又比如电商,Agent 可以帮我找到所有的厂商的所有产品,找出最适合我的产品,等等。

展望2025 年 AI 大事件“预言”

宜博:我认为 2025 年会有一些 AI Agent Native 的事情发生,这样的事情会建立在 Agent Network 的基础之上。它会颠覆一些现有的模式,比如百度搜索、阿里电商、腾讯社交、字节分发、滴滴出行、美团外卖,包括一些小的招聘、相亲的平台,都会开始被新的 Agent Network 颠覆。

一些领域中这样的趋势增长速度会是非常快的,这是我认为 2025 年我们有可能看到的东西。比如说做招聘,现在我们的 HR 在招聘平台上看了多少求职资料就要付多少费用,而 Agent 时代可能就是 Agent 直接帮你搜索几千万的求职者资料,给你找到最合适的人选,按照你的需求帮你做筛选,你直接对结果付费。这是今年一定会出现的变化。

刘松:我觉得随着 o3 这样的大模型流行,推理能力的增强,在大的市场上,2025 年一定会诞生非常流行的,很有影响力的应用。这是因为模型有了更加令人信服的推理、思维能力。这些应用可能是助手、个人助理,也可能是更加娱乐化的形态。它既能充分利用推理能力,又能满足某种场景中大多数人的共性需求。结论是在 o3 代表的推理能力延长线上会有很多 Agent 类应用值得期待。

我们原来的移动互联网是解决信息不对称的问题,现在 AI 要解决一个能力不对称的问题。但具体是什么应用不好猜,可能是 Agent 化的个人助理,一个每个人都需要一个解决生活和工作问题的助理,我把我所有的数据灌进去,把我的手机端的数据,所有企业的公众号、朋友圈信息都给它,让它帮助我创作内容,解决日常工作生活需求

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

和创始人交个朋友

回到顶部

 

加载中...

扫码咨询