我要投稿

字节跳动整活了！正式发布 BFS-Prover，并全程开源！

发布日期：2025-02-25 22:02:19 浏览次数： 1731 作者：G人工智能

谁能想到，未来证明数学定理也能交给 AI 来完成？

字节跳动豆包团队最新推出的 BFS-Prover，不仅刷新了行业记录，还向全世界开放源码，邀请学术界和开发者共同探索。

一、BFS-Prover：数学证明领域的全新探索

数学证明一直是AI攻克的高难挑战。不同于围棋的固定规则，证明定理要求每一步都严谨无误，否则整个逻辑便会崩盘。

目前，主流自动定理证明技术大多依赖蒙特卡洛树搜索或价值函数，如DeepSeek-Prover-V1.5、HunyuanProver和InternLM2.5-StepProver，但它们普遍面临：

资源消耗巨大

复杂搜索策略耗费大量计算资源；

推理效率低下

需要反复试错才能找到正确路径；

适用性有限

不同数学问题往往需不同策略。

而 BFS-Prover则另辟蹊径，采用最优先树搜索（BFS），结合三大核心技术：

1. 专家迭代+自适应数据过滤

持续优化证明路径，降低无效搜索；

2. 直接偏好优化+Lean4反馈

让 AI 直接学会“好证明”的标准；

3. BFS与长度归一化结合

避免因证明步骤长短不一而偏离最优解。

二、成绩亮眼：MiniF2F 权威测试刷新记录

成绩是最有力的证明。BFS-Prover 在 MiniF2F 测试集上以72.95%的准确率轻松超越对手。

其它模型如 DeepSeek-Prover-V1.5、InternLM2.5-StepProver 和 HunyuanProver 分别为 63.5%、65.9% 和 68.4%。

它还成功解决了多个国际数学奥赛难题，如imo_1959_p1、imo_1962_p2，显示出AI在数学推理上的全新高度。

证明系统	搜索方法	Critic 模型	策略预算	准确率
BFS-Prover	BFS	否	Accumulative	72.95%
BFS-Prover	BFS	否	2048×2×600	70.83% ± 0.89%
HunyuanProver	BFS	是	600×8×400	68.4%
InternLM2.5-StepProver	BFS	是	256×32×600	65.9%
DeepSeek-Prover-V1.5	MCTS	否	32×16×400	63.5%

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-18

OpenAI开源34页Agents最佳实践白皮书~

2025-04-18

OpenAI推出终端编码智能体Codex CLI了

2025-04-18

“开源版coze”爆火，融资超 4.6 亿！如今 Docker 拉取量超 1 亿，斩获 77.5k star

2025-04-18

【开源看AI】GitDiagram：AI帮你理解任意代码库的架构

2025-04-18

The Second Half：一位 OpenAI 科学家的 AI 下半场启示录

2025-04-17

OpenAI Codex CLI: 终端中的智能编码助手

2025-04-17

无需运维！Dify+Ollama 点选式搭建DeepSeek大模型，太绝了!!!

2025-04-17

OpenAI发布o3与o4-mini，还开源两个项目

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

万字详解DeepSeek-R1，引爆AI圈的又一力作，大模型爆发势不可挡！

2025-01-21

太强了！10大开源大模型！

2024-05-06

QWEN2.5开源上新，14B/32B回归实测：这就是最强单卡本地模型！

2024-09-20

全民进入GPT-4时代：OpenAI强势推出GPT-4o mini！彻底取代GPT-3.5！

2024-07-20

Qwen2 阿里最强开源大模型（Qwen2-7B）本地部署、API调用和WebUI对话机器人

2024-06-12

如何免费使用 Claude AI？Claude使用指南！

2024-07-11

开源项目Composio：突破 AI 智能体开发的边界

2024-08-13

DeepSeek-V3 正式发布

2024-12-26

大家都在问

OpenAI开源的Codex CLI是什么？

2025-04-17

MCP，这个AI 开源协议有多大想象空间？

2025-04-15

Google ADK，知多少？

2025-04-13

一文看懂谷歌 A2A：它到底是个啥？为什么能带AI Agent 组队开黑？

2025-04-10

实测Llama 4，究竟是王者归来，还是廉颇老矣？

2025-04-07

4天开发，1700万美元融资：开源的Browser Use为啥这么火？

2025-04-03

为什么大模型本地部署后“没了下文”？

2025-04-03

阿里搞了个大新闻！这AI能听会看还会实时唠嗑，科幻片都不敢这么拍？

2025-04-03

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部