我要投稿

R1比R1-ZERO更重要-深度探索公司R1-ZERO和R1的分析

发布日期：2025-02-01 21:27:24 浏览次数： 1532 来源：苏哲管理咨询

作者：Mike Knoop 2025年1月29日发布

作者背景简介：Mike Knoop是一位在美国AI和互联网领域有重要影响力的人物，是ARC Prize Foundation的联合创始人，该基金会是致力于开放AGI的公共推进和教育的非营利组织。AI领域经验丰富。2022-2024年期间担任Zapier的AI负责人，在AI领域有着深入的研究和实践，对AI的发展趋势和应用有着独特的见解。曾在ARC Prize博客发表观点，认为DeepSeek发布的R1-Zero比R1更值得关注，因为它完全依赖强化学习，不使用人类专家标注的监督微调，展现了AI自我进化的新范式。以下为正文。

特别感谢Tuhin和Abu来自Baseten，以及Yuchen来自Hyperbolic Labs为我们托管r1-zero。几乎没有任何提供商托管这个模型变体，其可用性对于研究至关重要。

ARC Prize Foundation的目标是定义、衡量和激发朝着AGI的新想法。为此，我们努力打造全球最强大的创新环境。

我们目前还没有通用人工智能，仍然受到创新的限制-尽管纯LLM预训练规模化扩展是不可取的路径，尽管这是去年夏天的主流人工智能行业叙事和主流公众观点。

故事的重要性在于它们最终推动经济活动，如投资、研究重点、资金、地缘政治、贸易等。例如，2023-24年间，新的LLM初创企业吸引了约200亿美元的投资，而新的AGI初创企业只吸引了约2亿美元的投资。

我们于去年六月推出了ARC Prize 2024，旨在增加对LLMs扩展限制的认识，并推动一个有用的基准，即ARC-AGI-1，朝着一个新方向发展，要求AI系统需适应新颖、未曾见过的问题，而非严格依赖记忆。

1 DeepSeek R1架构

DeepSeek R1架构由@SirrahChan设计。

上周，DeepSeek发布了他们的新R1-Zero和R1“reasoner”系统，在ARC-AGI-1上与OpenAI的o1系统竞争。R1-Zero、R1和o1（低运算）的得分都在15-20%左右，与GPT-4o的5%形成鲜明对比，后者是多年纯LLM扩展的顶峰。根据本周的美国市场反应，公众开始意识到也存在纯LLM扩展的局限性。然而，对即将到来的推理需求，公众仍存在广泛的无知。

2024年12月，OpenAI宣布了一项新的突破性o3系统，我们进行了验证。它在低计算模式下得分为76%，在高计算模式下为88%。o3系统展示了第一个实用的、通用的计算机实现，能够适应新颖的未见问题。

尽管这是一条重要的科技新闻，但o3打败了ARC-AGI-1，却大多未被主流媒体关注和报道。

这是人工智能领域和计算机科学领域的一个非常重要的时刻，这些系统需要进行研究。但由于o1/o3的封闭性，我们不得不依靠推测。感谢ARC-AGI-1和现在(几乎)开源的R1-Zero和R1，我们可以增加对其的理解。特别是，R1-Zero比R1更重要。

"Nearly"是因为DeepSeek没有公开他们的模型权重生成的可复现方式。

2 R1-ZERO消除了人为瓶颈

在我们的o1和o3分析中，我们推测了这些推理系统是如何工作的。关键点：

1.为一个问题领域生成思维链（CoT）。

2.使用人工专家（"监督微调"或SFT）和自动机器（"强化学习"或RL）标记中介的CoT步骤。

使用(2)训练基础模型。

在测试时，从过程模型中进行迭代推断。

迭代采样技术及其ARC-AGI-1分数如下所述：

注意：ARC-AGI-1半私有分数显示。

根据DeepSeek最新发表的研究，我们可以更好地支持我们的推测。关键观点是，LLM推理系统在创新适应度（和可靠性）方面沿着三个维度取得了更高的成就：

1.将CoT过程模型训练中添加人类标签，即SFT。

2. CoT搜索而不是线性推理（并行逐步CoT推理）

3.整个CoT采样（并行轨迹推断）

项目（1）受到人类数据生成的瓶颈和限制，这些限制决定了这些推理系统在哪些领域中受益最大。例如，MMLU专业法律类别的水平明显低于o1上的数学和逻辑水平。

项目（2）和（3）受效率瓶颈制约。o1和o3在ARC-AGI-1上通过在测试时花费更多的推理计算显示出对数级别的准确性改善，而花费这种计算的不同方式会调整曲线的x轴。

在我看来，DeepSeek最有意思的事情是单独发布了R1-Zero。R1-Zero是一个模型，它不使用SFT，这个项目。相反，它完全依赖于强化学习。

R1-Zero和R1在ARC-AGI-1上得分显示强烈一致，分别得分为14%和15%。DeepSeeks自己报告的基准得分也显示R1-Zero和R1之间强烈一致，例如在MATH AIME 2024上，分别得分为71%和76%（相比于基本DeepSeek V3的约40%）。

在这篇论文中，R1-Zero的作者表示“DeepSeek-R1-Zero遇到了诸如可读性差和语言混合等挑战”，并已得到在线证实。然而在我们的测试中，当在类似数学和编码领域的ARC-AGI-1上对R1-Zero进行测试时，我们发现几乎没有不连贯的证据。

综合这些发现，这表明：

1.在具有强大验证的领域中，不需要SFT（例如人类专家标注）来进行准确和可读的CoT推理。

R1-Zero训练过程能够通过RL优化在令牌空间内创建自己的内部领域特定语言（"DSL"）。

2. SFT有助于提高CoT推理领域的广泛性。

这是直觉上的意义，因为语言本身实际上是一种推理领域特定语言。完全相同的“词语”可以在一个领域学习并应用于另一个领域，就像一个程序。纯强化学习方法尚不能发现一个广泛共享的词汇，我预计这将是未来研究的一个重点。

最终，R1-Zero展示了一个潜在的零人为瓶颈的扩展模式的原型-即使是在训练数据采集本身。

DeepSeek几乎肯定已经将其目光投向了OpenAI的o3系统。观察SFT是否最终成为添加CoT搜索和抽样的要求，或者是否存在一个假设的“R2-Zero”，它以相同的对数精度vs推理规模曲线存在。根据R1-Zero的结果，我相信在这个假设的放大版本中，不需要SFT来击败ARC-AGI-1。

3 经济学的可靠性

从经济学的角度来看，人工智能领域正在发生两大重大转变。

现在您可以花更多的钱来获得更高的准确性和可靠性。

训练 $ 正在转向推理 $

两者都将驱动大量推理需求，并且都不会削减对更多计算的需求。事实上，它们将增加对计算的需求。

AI推理系统承诺带来的回报远不止在基准测试上的更高准确性。阻碍更多AI自动化使用（如推理需求）的首要问题是可靠性。我与数百名Zapier的客户交谈，他们试图在他们的企业中部署AI智能体，并且反馈强烈一致：“我还不信任它们，因为它们工作不可靠”。

先前我曾指出，迈向ARC-AGI将会带来更高的可靠性。LLM智能体的挑战在于它们需要强大的本地领域引导才能可靠地运作。更强的泛化能力需要适应未知情况的能力。我们现在开始看到证据表明这一观点是正确的。因此，几家公司正在引入智能体人（Anthropic、OpenAI、Apple等）。

智能体将由于可靠性需求驱动重要的近期需求推断。更广泛地说，开发者可以选择投入更多计算资源来增加用户对系统的信任。然而，更高的可靠性并不意味着100%的准确性 - 但你应该期望更加一致地不准确。这没关系，因为当准确性低时，用户和开发者现在可以更有信心地通过提示来引导行为。

计算机以前无法解决的问题现在都有了与之相关的金额。随着效率的提高，这些金额将会减少。

4 推理作为训练

数据预训练(LLM)系统输入数据来源的另一个主要转变是正在发生变化。先前，大多数数据要么是购买的，要么是爬取的，要么是从现有LLM中合成生成的（例如，蒸馏或增强）。

这些推理系统提供了一个新选项，即生成“真实”数据，与“合成”数据相对。人工智能行业使用术语“合成”来识别通常通过LLM循环利用以提升整体训练数据量的低质量数据 - 随着收益递减。

但现在有了推理系统和验证器，我们可以创建全新合法的数据来进行训练。这可以在离线状态下进行，开发者支付以创建数据，或在推理时间，最终用户支付！

这是经济学中的一次引人入胜的转变，这表明人工智能系统开发者可能会出现一个拥有最多付费客户的失控权力集中时刻。这些客户为创造新的高质量数据买单……这些数据会改进模型……进而使其变得更好、更受用户喜爱……你明白我的意思。

如果我们能突破人类专家与计算机之间的壁垒，并创建一个通过搜索/合成和验证来创建新数据的极其高效系统，那么我们应该预期大量的计算资源将投入到这些推断系统中，因为它们可以通过投入资金和原始数据来显著提升性能。最终，这种类型的人工智能训练将完全超越基于人类生成数据的预训练。

5 结论

我们将继续看到市场调整，随着推理需求的增加变得更加明显。人工智能系统的效率将只会推动更多的使用，不仅仅是因为杰文斯悖论，而且因为随着效率的提高，新的训练模式也将被解锁。

R1是开放和可再现的，更多的人和团队将会将CoT和搜索推到极限。这将更快地告诉我们前沿实际在哪里，并将引发一波增加到达AGI速度的创新浪潮。

有几个人已经告诉我，他们计划在2025年的ARC奖项中使用R1风格的系统，我对看到结果感到非常兴奋。

R1是开放的事实对世界来说是一件伟大的事情。DeepSeek推动了科学的前沿向前发展。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

一文带你了解大模型——智能体（Agent）

2024-05-28

OpenAI o1与GPT4o的对比分析

2024-09-23

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

全面对比dify、coze、streamlit、chainlit

2024-04-26

50+个AI大模型在不同领域的应用案例

2024-08-04

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

一文读懂大模型推理必备技术：KV Cache

2024-07-01

Claude中国官网正式上线！1:1还原官网，非套壳，国内直连

2024-07-18

大家都在问

为什么DeepSeek要把思考过程展示出来？

2025-02-01

OpenAI o3-mini 发布，官方 System Card 说了啥？

2025-02-01

7个原因解析：DeepSeek如何仅用5%预算就能超越OpenAI？

2025-02-01

打不过就加入？DeepSeek R1率先上架英伟达NIM平台，全球AI发展趋势大洗牌？

2025-02-01

为啥中科院干不出一个DeepSeek V3？

2025-01-29

面对百花齐放的大模型：如何选择最适合你的？

2025-01-24

AI大模型：如何从“科幻”走进现实应用？

2025-01-24

AI Agent大爆发！智谱AI神器GLM-PC上线，让你的电脑自己干活？

2025-01-24

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询

大模型定制

场景解决方案

【智能问答】解决方案

【应用智改】解决方案

【智能工单】解决方案

1 DeepSeek R1架构

2 R1-ZERO消除了人为瓶颈

3 经济学的可靠性

4 推理作为训练

5 结论

相关资讯

160+中大型企业正在使用53AI

把握AI发展的机遇，共同探索、共同进步

如何打造基于GenAI的员工服务机器人

热点资讯

本地部署大模型？看这篇就够了，Ollama 部署和实战

一文带你了解大模型——智能体（Agent）

OpenAI o1与GPT4o的对比分析

16个具有“联网搜索”功能的AI：总有一个适合你！

Cursor 一个真正让程序员产生危机感的 AI 编程工具

全面对比dify、coze、streamlit、chainlit

50+个AI大模型在不同领域的应用案例

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

一文读懂大模型推理必备技术：KV Cache

Claude中国官网正式上线！1:1还原官网，非套壳，国内直连

大家都在问

为什么DeepSeek要把思考过程展示出来？

OpenAI o3-mini 发布，官方 System Card 说了啥？

7个原因解析：DeepSeek如何仅用5%预算就能超越OpenAI？

打不过就加入？DeepSeek R1率先上架英伟达NIM平台，全球AI发展趋势大洗牌？

为啥中科院干不出一个DeepSeek V3？

面对百花齐放的大模型：如何选择最适合你的？

AI大模型：如何从“科幻”走进现实应用？

AI Agent大爆发！智谱AI神器GLM-PC上线，让你的电脑自己干活？

热门标签