我要投稿

Kimi数学模型正式上线，这是新鲜出炉的测评结果！

发布日期：2024-11-27 11:38:07 浏览次数： 2989

作者：AI信息Gap

微信搜一搜，关注“AI信息Gap”

这是Kimi最新的首页截图，你能发现有什么区别吗？

经常使用Kimi Chat的小伙伴应该能看出来，在最新的Kimi网站首页，左侧菜单栏多出了一个“眼镜”图标，将鼠标悬浮于其上，会看到提示“Kimi数学版”的字样。

没错，这就是预热了两周的k0-math数学模型，终于在昨天（北京时间11月26日）正式上线。

我早在《AI Weekly『11月11-17日』：Kimi发布新一代数学推理模型，腾讯推出AI工作台ima！》这篇文章里就写到了Kimi即将发布的这个新模型。

令我稍微有点疑惑的是Kimi这个新模型的名字，在两周前的推广中，月之暗面官方一直称k0-math为“推理模型”，或“数学推理模型”，但在正式上线后的宣传中，一直以“数学模型”自居，甚至包括侧边栏按钮的名称也叫“Kimi数学版”。这样的命名不知是官方故意为之，还是什么其他原因。毕竟新模型k0-math要对标的很明显是OpenAI的o1系列，o1作为一个推理模型（reasoning model），其强项在于“推理”能力，而不单单是“数学”。

先测试一下Kimi首页的这个推荐问题“Kimi发布新一代数学推理模型 k0-math”，看看Kimi自己怎么介绍这个新模型。

说重点，和OpenAI的o1系列以及DeepSeek的DeepSeek-R1-Lite模型一样，Kimi的k0-math也是在原有模型的基础上应用了强化学习训练和思维链（Chain-of-Thought）推理技术，使得这个新模型在面对复杂问题时能够模拟人的思维过程，即先思考再作答。

对思维链感兴趣的小伙伴，不要错过我这篇文章：《思维链(Chain-of-Thought)技术的背后，是人类思考问题的方式！》，其中详细介绍了一篇2022年发布的关于思维链的论文。

凡是新模型发布，免不了会宣传它的基准测试结果，k0-math也不例外。下面是Kimi官方放出的k0-math在一系列数学测试中的表现。

表格中的数学测试包括：

ZHONGKAO: 中考。
GAOKAO: 高考。
KAOYAN: 考研数学。
MATH: 普通数学题目的总体能力评估。
OMNI-MATH: 综合数学测试集。
AIME: 美国数学邀请赛，即国际数学竞赛题集。

可以看到，k0-math在非竞赛题中表现最为优异，超过了o1-preview和o1-mini。但遗憾的是，Kimi官方并没有给出k0-math其他基准测试中的表现，而是一味的宣传其数学能力。

相较而言，DeepSeek的DeepSeek-R1-Lite明显更加有诚意，也更加自信。

`k0-math`怎么用？

使用k0-math的方法很简单，点击左侧菜单栏里的“眼镜”图标，即可进入Kimi数学版的聊天页面。

可以看到，Kimi在这里仍然在大力宣传的是其数学能力，并且推荐用Latex格式的公式进行提问。

`k0-math`初体验

先测试一波Kimi官方认证的数学能力。

1. 数论问题

设 ( n ) 为一个正整数，证明 ( n^5 - n ) 总是被 ( 30 ) 整除。

这是一个经典的数论问题，对于大模型而言可能会有一定难度，因为涉及到多步推理。Kimi表现不错，回答正确，推理过程思路也比较清晰。

作为对比，同样的问题来问一下DeepSeek-R1-Lite。

DeepSeek-R1-Lite回答正确，感觉它的回答更加游刃有余，简洁精炼，用到了费马小定理。

2. 代数问题

求解所有满足以下方程的实数 ( x )：
[ \sqrt{x+4} + \sqrt{4-x} = 4 ]

Kimi的回答虽然正确，但不免有过度思考之嫌。但总体来说回答正确，用了2种方法作答。

这是DeepSeek-R1-Lite给出的解答，同样回答正确。这么看来，Kimi似乎是把整个思考过程打印了出来，显得整个回答非常繁琐臃肿。

3. 组合问题

从 ( 1, 2, 3, \dots, 12 ) 中任选 ( 5 ) 个数，使得任意两个被选出的数之和不是 ( 13 )。问有多少种选法？

先解释一下题目。从1-12中任选5个数，使得任意两个被选中的数之和不为13，问有多少中选法。

Kimi回答正确。依旧给出了很长的回答，再次确认了Kimi是把整个思考过程当做回答打印输出了。

DeepSeek-R1-Lite同样回答正确，给出的解答过程是思考过后的结果。

4. 逻辑推理

三个囚犯 A、B 和 C，分别戴着红帽或蓝帽（但无法看到自己的帽子）。守卫说：“至少有一个囚犯戴着红帽。” A 说：“我不知道我的帽子颜色。” B 说：“我也不知道。” C 说：“我知道了。” 问 C 的帽子是什么颜色？

来试试k0-math的逻辑推理能力，同样是经典的“红蓝帽子”的问题。

Kimi回答正确，但整个回答实在是太长长长长长了。Kimi的这个新模型是，能用复杂方法解答，绝不用简便方法。它果断用了最复杂的枚举法来判断，中途还判断错了，需要重头再来。

难道这就是Kimi官方一直宣传这个新模型是“数学”模型（而非推理模型）的原因吗？

作为对比，附上昨天Gemini-Exp-1121的测评结果。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-03-19

MiniMax M2.7 炸场！自己训自己，8 项基准硬刚 GPT-5 和 Opus 4.6

2026-03-17

【淘宝直播数字人互动LLM】告别AI感：基于真人ASR数据的拟人化探索

2026-03-03

罕见！Meta、OpenAI、xAI联合分享了用生产环境提升LLM的最佳实践！

2026-02-13

工具调用准确率从60%飙到95%？我用这个‘解耦微调’把Qwen-7B救活了

2026-02-05

普林斯顿大学RLAnything：AI学会一边学习一边给自己打分

2026-02-04

Agent 越用越聪明？AgentScope Java 在线训练插件来了！

2026-01-30

Oxygen 9N-LLM生成式推荐训练框架

2026-01-29

自然·通讯：如何挖掘复杂系统中的三元交互

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

2026年 LLM 微调全指南

2026-01-04

【GitHub高星】AI Research Skills：一键赋予AI“博士级”科研能力，74项硬核技能库开源！

2026-01-18

DeepSeek 发布新论文，提出全新 MHC 架构，有何创新与应用前景？

2026-01-02

刚刚，梁文锋署名，DeepSeek元旦新论文要开启架构新篇章

2026-01-01

Open联合创始人：AI大模型2025年度回顾

2025-12-21

Agent 越用越聪明？AgentScope Java 在线训练插件来了！

2026-02-04

Llama Factory 实战，轻量级微调 LLM。

2025-12-21

1GB 显存即可部署：腾讯 HY-MT1.5 的模型蒸馏与量化策略解析

2026-01-19

本地跑小模型带来5倍性能且成本极低！斯坦福从信息论视角重构智能体设计

2026-01-03

数据蒸馏技术探索

2025-12-30

大家都在问

DeepSeek 发布新论文，提出全新 MHC 架构，有何创新与应用前景？

2026-01-02

LoAR做Fine-Tuning微调原理到底是什么？

2025-11-19

如何将 AI 代码采纳率从30%提升到80%？

2025-09-25

大模型微调，为什么99%的企业都不应该碰这个坑？

2025-06-20

万不得已，不要对 LLM 进行微调？

2025-06-17

可以将任何符合OpenAPI规范的接口转 MCP Server吗？

2025-05-21

OpenAI发布GPT-4.1系列模型，对行业最大吸引力是什么？

2025-05-17

私有部署大模型需要多少显存？

2025-05-14

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部