微信扫码
与创始人交个朋友
我要投稿
**内容简介**:DeepSeek R1 推理大模型重磅发布,引发科技圈震动,意义深远。 **核心内容**: 1. 与 OpenAI 模型的对比优势 2. 开源商用带来的影响 3. 对大模型训练方式的革新
昨晚懂王登基,美国科技圈大佬破天荒云集现场。懂王第一天确实也做了很多大事,本文无关,就不展开了。
但同是昨晚, 科技圈还有另外一件大事,其背后意义的深远,或许还没完全揭晓。那就是DeepSeek自V3模型之后,再度发布自家的R1推理大模型(选择同一天是不是故意的)。重要的是,这是一个可以和OpenAI世界最强O1推理大模型直接PK的大模型,完全开源,可商用,同时还加上一篇详细解释训练过程的优秀论文。
鉴于很多美国人还在被新王的表现震惊着,DeepSeek R1发布的真正意义可能还要过一两天才会全面发酵。
但核心圈子已经完全爆炸了。在Reddit论坛上,还有各路youtube博主都是各种震惊体:What?一个免费开源的和OpenAI O1 媲美的大模型?还附带能本地跑起来的蒸馏小模型版本?
今天国内外各大科技v已经争相发文讲解R1的细节, 推荐大家可以看以下以讲解AI论文著称的Wes Roth的“震惊”视频,可以帮助很快了解R1大模型的基本知识点:
为什么DeepSeek的R1这么重要,不仅仅是因为它弯道超车实现了OpenAI 价值每用户200刀/?️订阅费的O1大模型性能,且速度快5倍,价格便宜30倍;
也不仅仅因为它彻底开源可商用--这意味着任何企业都可以直接拿来做自己的私有化部署-- 甚至还有个人可以在本地部署的R1小型版本 - 对每个科技企业和个人,这都是天大的礼物。
最重要的是,DeepSeek R1革新了自GPT以来,通用大模型训练的方式
前OpenAI大神,现已经离职去搞AI教育的Andrej Karpathy在快2年前的 2023年微软大会上讲解的OpenAI大模型训练原理,仍然是至今为止最好的理解大模型训练基础机制的讲稿:
State of GPT:大神Andrej揭秘OpenAI大模型原理和训练过程
简单的说,OpenAI定义了大模型训练的四个阶段:预训练,监督微调,奖励建模,强化学习。
城主用通俗的语言来解释一下大模型训练的这四个步骤。你可以把大模型想象成一个正在学习各种技能的学生。
1. 预训练 (Pre-training):
目标: 让模型“读”大量的文字,学习语言的规律和知识。
过程:把海量的文本数据(比如:互联网上的网页、书籍、文章等)喂给模型。模型就像一个好奇的学生,大量阅读各种书籍,学习语法、词汇、常识等。模型学习预测句子中的下一个单词,或者掩盖掉的单词。例如,模型看到“The cat sat on the”, 它就会学习预测下一个词是“mat”。
2. 监督微调 (Supervised Fine-tuning, SFT):
目标:让模型学习如何完成特定任务,例如:写文章、做翻译、回答问题等。
过程:把标注好的“任务数据”喂给模型(比如,文章和对应的摘要,问题和对应的答案)。模型就像学生一样,学习如何做特定类型的题目,同时对比自己答案和标准答案的差异,从而学习如何更好完成特定任务。模型学习如何根据输入,生成正确的输出。例如,模型看到一篇新闻,学习生成简洁的摘要。
3. 奖励建模 (Reward Modeling):
目标:建立一个模型,可以评价其他模型生成的文本的好坏。
过程:让人类对模型生成的文本进行打分,例如:对于同一问题,哪个回答更好、更准确、更符合人类的偏好?然后进一步使用这些人类打分数据,训练一个新的模型(奖励模型),使其能够模仿人类的评分标准。奖励模型学习如何判断哪个输出更好,就像一个评委一样。
4. 强化学习 (Reinforcement Learning, RL):
目标:让模型在“奖励模型”的指导下,不断生成更好的文本。
强化学习的核心思想就是:在尝试中学习,通过奖励来改进。
用奖励模型给生成的文本打分(奖励模型认为文本好的,就给高分;认为不好的,就给低分),让模型知道自己做得好还是不好。模型根据奖励分数,不断地调整自己的策略,让模型学会如何获得更高的分数。在这个过程中,模型会不断尝试不同的生成方式,逐渐找到最优的策略。
自从OpenAI 公布ChatGPT以来,以上这四大训练步骤基本就是常识,大模型的训练都大差不差按照这四步训练法来。
到后来,美国科技大厂都只堆算力,无脑买卡建数据中心给大模型喂数据,相信“大力出奇迹”,数据就是一切; 甚至于到今年,美国那边曾一度吃香的深度学习博士开始找不到工作了。这大概有一个原因:大公司认为大模型不再需要继续研究算法了,只需要堆算力堆数据就够了。
反而言之,如果算力不够,就可以躺平,直接不做大模型了:非我之过,实无卡也 。
但是,这一次,DeepSeek直接提出了一个全新的优雅训练思路,简而言之,就是去除/极端弱化了其中第二个步骤“SFT监督微调”, 直接上强化学习。并且是反复多次的强化学习,逼近最好结果。
这是什么概念呢, “监督微调”就是把人类的正确做题结果(问题+答案)用来调教大模型。这是此前通用大模型优化性能的很重要的一步。
而现在DeepSeek说,我们完全不用人类知识去调教大模型,让AI自己和自己PK寻找变强的路径,我们只看结果。
这很像当年下围棋的AlphaGo,第一版AlphaGo就是用人类棋谱训练的,我们可以类比常规用SFT监督微调来训练大模型;而后续版本的AlphaGo Zero,则完全抛弃了人类先验的围棋知识,只是规定规则和胜负结果,然后AI互相对弈来实现模型的迭代进化。
一切很顺理成章:既然可以这样这么强化学习训练出下围棋的Alpha Zero,那么也应该可以这么训练出通用大模型。
明显是向AlphaGo Zero致敬,在DeepSeek的论文中,也出现了R1 Zero这个纯AI迭代得到的中间研究模型。(最终产出的R1 是用同一个训练思路,基于DeepSeek V3多次强化训练得到)
有意思的是,上面引用演讲的大神Andrej Karpathy对OpenAI所发明的RLHF微调技术本身就抱有保留态度。Andrej认为RLHF本质上是对人类偏好的模仿。他更倾向于像AlphaGo那样的自博弈的强化学习方法,认为没有人工干预的自我进化才是大模型的未来。大神还是说对了方向。
只是为什么老美没有第一个做出来呢?
有趣的是, 同一天Kimi团队也发布了自己号称媲美O1的大模型,其论文同样揭露了依靠强化学习实现的思路(这是商量好的吗) 但Kimi只拿出了论文, 没有放出可以验证的模型, 所以嘛。。。
关于这一次DeepSeek R1横空出世的意义。城主简单说说一些个人的想法。
在ChatGPT惊天问世2年之后,DeepSeek R1是国产LLM大模型第一次追平世界最强大模型的性能。相关评测已经满天飞,子弹可以再飞一会,但根据外网一片异口同声的“已测,牛逼~”反馈,这事情错的概率很小了。
这个追赶,还是在美国极限打压之下的追赶。而再考虑到API以极高的性价比远远胜出,国产大模型可以说正式完成了对O1的超越。
当然,我们可以说OpenAI还有压箱底的GPT5没拿出来,Anthropic或许也有个Claude4.0。
但超越了一次,谁说不会有第二次。从0到1难,还是从1到2难呢?
让我们直白一点, 给一个论断吧,DeekSeek R1是硅谷AI霸权和神话的破灭开端。
所谓霸权,也就是类似各路硅谷大咖,包括一些硅谷投资人大咖,那些曾经都自带光环的名字,开口闭口要防止中国学习美国大模型技术;还有硅谷AI新贵公司们在行动上对中国使用者的严防死守:OpenAI的API还能翻墙,Claude针对中国地区封号的方式,用过的都知道,要多恶心就多恶心。
没办法,捏着鼻子也要用,毕竟对很多技术人来说,希望用最好的。
现在呢,国产大模型不但有可能是最好的之一,而且毫无疑问是性价比最高的,数十倍的便宜。
外网已经有视频推荐用DeepSeek R1 + Cline来实现最强的AI编程助手。城主这个月的Windsurf订阅到期后,也不打算继续花钱了。
如上面视频的Wes Roth博主在最后所说, 美国人整天提防AI技术不给中国人,到最后反而是中国人开源了最强大模型。无论如何,他预料不到这个结果。
打脸打得很爽。
其实不止老外吧,一些国人也在被打脸;这两年看了太多这样的论调,信誓旦旦说中国大模型就是比美国落后好几年。
在一些AI技术群里,最常见的是“唯硅谷论”,只要是硅谷的一个小技术集会的言论,说什么都是香的;而且分享这些的同学偶尔还有自觉不自觉带着一股优越感的,那个意思基本是,“你看, 硅谷聚会有这些信息,硅谷才是AI的圣地,我来分享一下,国内能学习跟上就不错啦”。
不止搞技术的,很多媒体的也习惯性散布悲观言论,总之就是中国AI落后了,显卡算力也被限制了,通用大模型能不被拉太远就可以了。
一些国内大佬也潜意识里选择躺平,反正算力没有了,我们的大模型落后一些也是情有可原的。
但DeepSeek团队的年轻人似乎不信邪。没有算力,是不是可以从训练方式上突破呢?为什么OpenAI的训练方式就一定是金科玉律呢?
在这点上,反而是老美更清醒一点,Google的施密特的表态,从起初“中国可能只落后2年”, 后来是“只落后1年”, 在DeepSeek V3出来后评价“各有千秋”。现在DeepSeek R1出来了,很想知道施密特会怎么说。
还记得一个小插曲,在DeepSeek V3出来后,OpenAI的Sam Altman酸溜溜额发帖说,复制别人是容易的,言下之意是DeepSeek利用了他们家的模型来训练;某些公知也跟风说,如果美国大模型不让国人访问,DeepSeek V3就打造不出来了。
荒谬的言论很多时候可以混淆视听。但辩解千次,都不如拿出一个绝对的结果有力量。
OK,现在我已经比你厉害了,你说一下我是怎么抄你的呢?
所以要感谢DeepSeek团队,拿出了这个让国人扬眉吐气的结果。从现在起,谁敢再说中国大模型抄袭美国?谁敢再说中国大模型落后美国X年?
从今天开始, 城主认为中国大模型进展已经没有短板了。AI视频生成模型这个重要领域, 国产诸君已经是事实上的世界最强;而之前稍逊一筹的通用大模型, 从今天开始,不说超越硅谷,说平起平坐,没人能反对了吧。
今后,硅谷大咖说的话我们要听,国产年轻AI团队说的话一样值得听。
更加佩服DeepSeek的是,这么一个世界最顶尖的成果,直接开源了。油管上X上已经很多老外发声,点赞DeepSeek才是那个真正继承了OpenAI最初使命和火种的团队。
这个评价可不是一般的高了。
这个事情是否还有更深的意义,大家可以继续琢磨一下:如果硅谷的AI霸权已经被稀释了,不可超越的神话已经破灭了, 那美国芯片还要不要防着中国,防着还有什么意义呢?最大的意义是不是让中国过两年憋出光刻机,憋出自己的芯片和算力生态。。。
1月20号从各个方面而言都是一个有趣的日子。很久以后回头,我们才能更明白这一天的意义。
以此小文致敬所有自强不息的人们。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-01-22
OpenAI又开源了!不用代码就能构建复杂多Agents实时语音协作系统
2025-01-22
DeepSeek大模型新王|DeepSeek R1/R1-Zero开源来袭~
2025-01-22
DeepSeek v3为何爆火?如何用其集成Milvus搭建RAG?
2025-01-22
DeepSeek-R1-Distill-Qwen-1.5B 在某些基准测试中超越了 GPT-4o
2025-01-22
专业法律知识问答智能体|Crew.ai 项目分享
2025-01-22
一个智能的AI操作系统OS,开源!
2025-01-22
百聆:集成Deepseek API及语音技术的开源AI语音对话助手,实时交互延迟低至800ms
2025-01-22
腾讯混元3D上新!轻松制作一个3D模型
2024-07-25
2024-05-06
2024-08-13
2024-06-12
2024-07-11
2024-07-20
2024-09-20
2024-06-16
2025-01-01
2024-06-10
2025-01-22
2025-01-16
2024-12-24
2024-12-20
2024-12-19
2024-11-22
2024-11-19
2024-11-13