AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Kimi数学模型正式上线,这是新鲜出炉的测评结果!
发布日期:2024-11-27 11:38:07 浏览次数: 1529 来源:AI信息Gap


大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。

这是Kimi最新的首页截图,你能发现有什么区别吗?

经常使用Kimi Chat的小伙伴应该能看出来,在最新的Kimi网站首页,左侧菜单栏多出了一个“眼镜”图标,将鼠标悬浮于其上,会看到提示“Kimi数学版”的字样。

没错,这就是预热了两周的k0-math数学模型,终于在昨天(北京时间11月26日)正式上线。

我早在《AI Weekly『11月11-17日』:Kimi发布新一代数学推理模型,腾讯推出AI工作台ima!》这篇文章里就写到了Kimi即将发布的这个新模型。

令我稍微有点疑惑的是Kimi这个新模型的名字,在两周前的推广中,月之暗面官方一直称k0-math为“推理模型”,或“数学推理模型”,但在正式上线后的宣传中,一直以“数学模型”自居,甚至包括侧边栏按钮的名称也叫“Kimi数学版”。这样的命名不知是官方故意为之,还是什么其他原因。毕竟新模型k0-math要对标的很明显是OpenAI的o1系列,o1作为一个推理模型(reasoning model),其强项在于“推理”能力,而不单单是“数学”。

先测试一下Kimi首页的这个推荐问题“Kimi发布新一代数学推理模型 k0-math”,看看Kimi自己怎么介绍这个新模型。

说重点,和OpenAI的o1系列以及DeepSeek的DeepSeek-R1-Lite模型一样,Kimi的k0-math也是在原有模型的基础上应用了强化学习训练和思维链(Chain-of-Thought)推理技术,使得这个新模型在面对复杂问题时能够模拟人的思维过程,即先思考再作答。

对思维链感兴趣的小伙伴,不要错过我这篇文章:《思维链(Chain-of-Thought)技术的背后,是人类思考问题的方式!》,其中详细介绍了一篇2022年发布的关于思维链的论文。

凡是新模型发布,免不了会宣传它的基准测试结果,k0-math也不例外。下面是Kimi官方放出的k0-math在一系列数学测试中的表现。

表格中的数学测试包括:

  • ZHONGKAO: 中考。
  • GAOKAO: 高考。
  • KAOYAN: 考研数学。
  • MATH: 普通数学题目的总体能力评估。
  • OMNI-MATH: 综合数学测试集。
  • AIME: 美国数学邀请赛,即国际数学竞赛题集。

可以看到,k0-math在非竞赛题中表现最为优异,超过了o1-previewo1-mini。但遗憾的是,Kimi官方并没有给出k0-math其他基准测试中的表现,而是一味的宣传其数学能力。

相较而言,DeepSeek的DeepSeek-R1-Lite明显更加有诚意,也更加自信。

k0-math怎么用?

使用k0-math的方法很简单,点击左侧菜单栏里的“眼镜”图标,即可进入Kimi数学版的聊天页面。

可以看到,Kimi在这里仍然在大力宣传的是其数学能力,并且推荐用Latex格式的公式进行提问。

k0-math初体验

先测试一波Kimi官方认证的数学能力。

1. 数论问题

设 ( n ) 为一个正整数,证明 ( n^5 - n ) 总是被 ( 30 ) 整除。

这是一个经典的数论问题,对于大模型而言可能会有一定难度,因为涉及到多步推理。Kimi表现不错,回答正确,推理过程思路也比较清晰。

作为对比,同样的问题来问一下DeepSeek-R1-Lite

DeepSeek-R1-Lite回答正确,感觉它的回答更加游刃有余,简洁精炼,用到了费马小定理。

2. 代数问题

求解所有满足以下方程的实数 ( x ):
[ \sqrt{x+4} + \sqrt{4-x} = 4 ]

Kimi的回答虽然正确,但不免有过度思考之嫌。但总体来说回答正确,用了2种方法作答。

这是DeepSeek-R1-Lite给出的解答,同样回答正确。这么看来,Kimi似乎是把整个思考过程打印了出来,显得整个回答非常繁琐臃肿。

3. 组合问题

从 ( 1, 2, 3, \dots, 12 ) 中任选 ( 5 ) 个数,使得任意两个被选出的数之和不是 ( 13 )。问有多少种选法?

先解释一下题目。从1-12中任选5个数,使得任意两个被选中的数之和不为13,问有多少中选法。

Kimi回答正确。依旧给出了很长的回答,再次确认了Kimi是把整个思考过程当做回答打印输出了。

DeepSeek-R1-Lite同样回答正确,给出的解答过程是思考过后的结果。

4. 逻辑推理

三个囚犯 A、B 和 C,分别戴着红帽或蓝帽(但无法看到自己的帽子)。守卫说:“至少有一个囚犯戴着红帽。” A 说:“我不知道我的帽子颜色。” B 说:“我也不知道。” C 说:“我知道了。” 问 C 的帽子是什么颜色?

来试试k0-math的逻辑推理能力,同样是经典的“红蓝帽子”的问题。

Kimi回答正确,但整个回答实在是太长长长长长了。Kimi的这个新模型是,能用复杂方法解答,绝不用简便方法。它果断用了最复杂的枚举法来判断,中途还判断错了,需要重头再来。

难道这就是Kimi官方一直宣传这个新模型是“数学”模型(而非推理模型)的原因吗?

作为对比,附上昨天Gemini-Exp-1121的测评结果。

结语

初步体验下来,我个人感觉Kimi这个新模型是不如DeepSeek-R1-Lite的。欢迎小伙伴们评论区留言讨论。



精选推荐

  1. 国内支付宝开通ChatGPT Plus和Claude Pro 2024最新教程!
  2. 『AI保姆级教程』无需手机号!三分钟注册ChatGPT账号!2024年最新教程!
  3. 『AI保姆级教程』手把手教你注册Claude账号!建议收藏!


都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!????。关注我,AI之路不迷路,原创技术文章第一时间推送?。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询