微信扫码
与创始人交个朋友
我要投稿
AI自我进化的新范式,R1-Zero值得更多关注。核心内容:1. Mike Knoop对AI发展趋势的独特见解2. R1-Zero不依赖人类标注的新范式3. ARC Prize 2024推动AI适应新颖问题
作者:Mike Knoop 2025年1月29日发布
作者背景简介:Mike Knoop是一位在美国AI和互联网领域有重要影响力的人物,是ARC Prize Foundation的联合创始人,该基金会是致力于开放AGI的公共推进和教育的非营利组织。AI领域经验丰富。2022-2024年期间担任Zapier的AI负责人,在AI领域有着深入的研究和实践,对AI的发展趋势和应用有着独特的见解。曾在ARC Prize博客发表观点,认为DeepSeek发布的R1-Zero比R1更值得关注,因为它完全依赖强化学习,不使用人类专家标注的监督微调,展现了AI自我进化的新范式。以下为正文。
特别感谢Tuhin和Abu来自Baseten,以及Yuchen来自Hyperbolic Labs为我们托管r1-zero。几乎没有任何提供商托管这个模型变体,其可用性对于研究至关重要。
ARC Prize Foundation的目标是定义、衡量和激发朝着AGI的新想法。为此,我们努力打造全球最强大的创新环境。
我们目前还没有通用人工智能,仍然受到创新的限制-尽管纯LLM预训练规模化扩展是不可取的路径,尽管这是去年夏天的主流人工智能行业叙事和主流公众观点。
故事的重要性在于它们最终推动经济活动,如投资、研究重点、资金、地缘政治、贸易等。例如,2023-24年间,新的LLM初创企业吸引了约200亿美元的投资,而新的AGI初创企业只吸引了约2亿美元的投资。
我们于去年六月推出了ARC Prize 2024,旨在增加对LLMs扩展限制的认识,并推动一个有用的基准,即ARC-AGI-1,朝着一个新方向发展,要求AI系统需适应新颖、未曾见过的问题,而非严格依赖记忆。
DeepSeek R1架构由@SirrahChan设计。
上周,DeepSeek发布了他们的新R1-Zero和R1“reasoner”系统,在ARC-AGI-1上与OpenAI的o1系统竞争。R1-Zero、R1和o1(低运算)的得分都在15-20%左右,与GPT-4o的5%形成鲜明对比,后者是多年纯LLM扩展的顶峰。根据本周的美国市场反应,公众开始意识到也存在纯LLM扩展的局限性。然而,对即将到来的推理需求,公众仍存在广泛的无知。
2024年12月,OpenAI宣布了一项新的突破性o3系统,我们进行了验证。它在低计算模式下得分为76%,在高计算模式下为88%。o3系统展示了第一个实用的、通用的计算机实现,能够适应新颖的未见问题。
尽管这是一条重要的科技新闻,但o3打败了ARC-AGI-1,却大多未被主流媒体关注和报道。
这是人工智能领域和计算机科学领域的一个非常重要的时刻,这些系统需要进行研究。但由于o1/o3的封闭性,我们不得不依靠推测。感谢ARC-AGI-1和现在(几乎)开源的R1-Zero和R1,我们可以增加对其的理解。特别是,R1-Zero比R1更重要。
"Nearly"是因为DeepSeek没有公开他们的模型权重生成的可复现方式。
在我们的o1和o3分析中,我们推测了这些推理系统是如何工作的。关键点:
1.为一个问题领域生成思维链(CoT)。
2.使用人工专家("监督微调"或SFT)和自动机器("强化学习"或RL)标记中介的CoT步骤。
使用(2)训练基础模型。
在测试时,从过程模型中进行迭代推断。
迭代采样技术及其ARC-AGI-1分数如下所述:
注意:ARC-AGI-1半私有分数显示。
根据DeepSeek最新发表的研究,我们可以更好地支持我们的推测。关键观点是,LLM推理系统在创新适应度(和可靠性)方面沿着三个维度取得了更高的成就:
1.将CoT过程模型训练中添加人类标签,即SFT。
2. CoT搜索而不是线性推理(并行逐步CoT推理)
3.整个CoT采样(并行轨迹推断)
项目(1)受到人类数据生成的瓶颈和限制,这些限制决定了这些推理系统在哪些领域中受益最大。例如,MMLU专业法律类别的水平明显低于o1上的数学和逻辑水平。
项目(2)和(3)受效率瓶颈制约。o1和o3在ARC-AGI-1上通过在测试时花费更多的推理计算显示出对数级别的准确性改善,而花费这种计算的不同方式会调整曲线的x轴。
在我看来,DeepSeek最有意思的事情是单独发布了R1-Zero。R1-Zero是一个模型,它不使用SFT,这个项目。相反,它完全依赖于强化学习。
R1-Zero和R1在ARC-AGI-1上得分显示强烈一致,分别得分为14%和15%。DeepSeeks自己报告的基准得分也显示R1-Zero和R1之间强烈一致,例如在MATH AIME 2024上,分别得分为71%和76%(相比于基本DeepSeek V3的约40%)。
在这篇论文中,R1-Zero的作者表示“DeepSeek-R1-Zero遇到了诸如可读性差和语言混合等挑战”,并已得到在线证实。然而在我们的测试中,当在类似数学和编码领域的ARC-AGI-1上对R1-Zero进行测试时,我们发现几乎没有不连贯的证据。
综合这些发现,这表明:
1.在具有强大验证的领域中,不需要SFT(例如人类专家标注)来进行准确和可读的CoT推理。
R1-Zero训练过程能够通过RL优化在令牌空间内创建自己的内部领域特定语言("DSL")。
2. SFT有助于提高CoT推理领域的广泛性。
这是直觉上的意义,因为语言本身实际上是一种推理领域特定语言。完全相同的“词语”可以在一个领域学习并应用于另一个领域,就像一个程序。纯强化学习方法尚不能发现一个广泛共享的词汇,我预计这将是未来研究的一个重点。
最终,R1-Zero展示了一个潜在的零人为瓶颈的扩展模式的原型-即使是在训练数据采集本身。
DeepSeek几乎肯定已经将其目光投向了OpenAI的o3系统。观察SFT是否最终成为添加CoT搜索和抽样的要求,或者是否存在一个假设的“R2-Zero”,它以相同的对数精度vs推理规模曲线存在。根据R1-Zero的结果,我相信在这个假设的放大版本中,不需要SFT来击败ARC-AGI-1。
从经济学的角度来看,人工智能领域正在发生两大重大转变。
现在您可以花更多的钱来获得更高的准确性和可靠性。
训练 $ 正在转向推理 $
两者都将驱动大量推理需求,并且都不会削减对更多计算的需求。事实上,它们将增加对计算的需求。
AI推理系统承诺带来的回报远不止在基准测试上的更高准确性。阻碍更多AI自动化使用(如推理需求)的首要问题是可靠性。我与数百名Zapier的客户交谈,他们试图在他们的企业中部署AI智能体,并且反馈强烈一致:“我还不信任它们,因为它们工作不可靠”。
先前我曾指出,迈向ARC-AGI将会带来更高的可靠性。LLM智能体的挑战在于它们需要强大的本地领域引导才能可靠地运作。更强的泛化能力需要适应未知情况的能力。我们现在开始看到证据表明这一观点是正确的。因此,几家公司正在引入智能体人(Anthropic、OpenAI、Apple等)。
智能体将由于可靠性需求驱动重要的近期需求推断。更广泛地说,开发者可以选择投入更多计算资源来增加用户对系统的信任。然而,更高的可靠性并不意味着100%的准确性 - 但你应该期望更加一致地不准确。这没关系,因为当准确性低时,用户和开发者现在可以更有信心地通过提示来引导行为。
计算机以前无法解决的问题现在都有了与之相关的金额。随着效率的提高,这些金额将会减少。
数据预训练(LLM)系统输入数据来源的另一个主要转变是正在发生变化。先前,大多数数据要么是购买的,要么是爬取的,要么是从现有LLM中合成生成的(例如,蒸馏或增强)。
这些推理系统提供了一个新选项,即生成“真实”数据,与“合成”数据相对。人工智能行业使用术语“合成”来识别通常通过LLM循环利用以提升整体训练数据量的低质量数据 - 随着收益递减。
但现在有了推理系统和验证器,我们可以创建全新合法的数据来进行训练。这可以在离线状态下进行,开发者支付以创建数据,或在推理时间,最终用户支付!
这是经济学中的一次引人入胜的转变,这表明人工智能系统开发者可能会出现一个拥有最多付费客户的失控权力集中时刻。这些客户为创造新的高质量数据买单……这些数据会改进模型……进而使其变得更好、更受用户喜爱……你明白我的意思。
如果我们能突破人类专家与计算机之间的壁垒,并创建一个通过搜索/合成和验证来创建新数据的极其高效系统,那么我们应该预期大量的计算资源将投入到这些推断系统中,因为它们可以通过投入资金和原始数据来显著提升性能。最终,这种类型的人工智能训练将完全超越基于人类生成数据的预训练。
我们将继续看到市场调整,随着推理需求的增加变得更加明显。人工智能系统的效率将只会推动更多的使用,不仅仅是因为杰文斯悖论,而且因为随着效率的提高,新的训练模式也将被解锁。
R1是开放和可再现的,更多的人和团队将会将CoT和搜索推到极限。这将更快地告诉我们前沿实际在哪里,并将引发一波增加到达AGI速度的创新浪潮。
有几个人已经告诉我,他们计划在2025年的ARC奖项中使用R1风格的系统,我对看到结果感到非常兴奋。
R1是开放的事实对世界来说是一件伟大的事情。DeepSeek推动了科学的前沿向前发展。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-02-01
为什么DeepSeek要把思考过程展示出来?
2025-02-01
OpenAI o3-mini 发布,官方 System Card 说了啥?
2025-02-01
顺丰科技:多智能体系统(OpenAI Swarm)的可观测性研究与实践
2025-02-01
7个原因解析:DeepSeek如何仅用5%预算就能超越OpenAI?
2025-02-01
打不过就加入?DeepSeek R1率先上架英伟达NIM平台,全球AI发展趋势大洗牌?
2025-02-01
OpenAI CEO 认怂:优势被 DeepSeek 削弱,将重新制定开源战略
2025-02-01
被DeepSeek卷到了!Sam Altman首次承认OpenAI的闭源策略“站在了历史错误的一边”|甲子光年
2025-02-01
Falcon 3:阿联酋技术创新研究所推出世界上最小、最强大的人工智能模型
2024-08-13
2024-05-28
2024-09-23
2024-06-13
2024-08-21
2024-04-26
2024-08-04
2024-07-09
2024-07-01
2024-07-18
2025-02-01
2025-02-01
2025-02-01
2025-02-01
2025-01-29
2025-01-24
2025-01-24
2025-01-24