微信扫码
与创始人交个朋友
我要投稿
大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普,AI工具测评,AI效率提升,AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。
这是Kimi最新的首页截图,你能发现有什么区别吗?
经常使用Kimi Chat的小伙伴应该能看出来,在最新的Kimi网站首页,左侧菜单栏多出了一个“眼镜”图标,将鼠标悬浮于其上,会看到提示“Kimi数学版”的字样。
没错,这就是预热了两周的k0-math
数学模型,终于在昨天(北京时间11月26日)正式上线。
我早在《AI Weekly『11月11-17日』:Kimi发布新一代数学推理模型,腾讯推出AI工作台ima!》这篇文章里就写到了Kimi即将发布的这个新模型。
令我稍微有点疑惑的是Kimi这个新模型的名字,在两周前的推广中,月之暗面官方一直称k0-math
为“推理模型”,或“数学推理模型”,但在正式上线后的宣传中,一直以“数学模型”自居,甚至包括侧边栏按钮的名称也叫“Kimi数学版”。这样的命名不知是官方故意为之,还是什么其他原因。毕竟新模型k0-math
要对标的很明显是OpenAI的o1
系列,o1
作为一个推理模型(reasoning model),其强项在于“推理”能力,而不单单是“数学”。
先测试一下Kimi首页的这个推荐问题“Kimi发布新一代数学推理模型 k0-math”,看看Kimi自己怎么介绍这个新模型。
说重点,和OpenAI的o1
系列以及DeepSeek的DeepSeek-R1-Lite
模型一样,Kimi的k0-math
也是在原有模型的基础上应用了强化学习训练和思维链(Chain-of-Thought)推理技术,使得这个新模型在面对复杂问题时能够模拟人的思维过程,即先思考再作答。
对思维链感兴趣的小伙伴,不要错过我这篇文章:《思维链(Chain-of-Thought)技术的背后,是人类思考问题的方式!》,其中详细介绍了一篇2022年发布的关于思维链的论文。
凡是新模型发布,免不了会宣传它的基准测试结果,k0-math
也不例外。下面是Kimi官方放出的k0-math
在一系列数学测试中的表现。
表格中的数学测试包括:
可以看到,k0-math
在非竞赛题中表现最为优异,超过了o1-preview
和o1-mini
。但遗憾的是,Kimi官方并没有给出k0-math
其他基准测试中的表现,而是一味的宣传其数学能力。
相较而言,DeepSeek的DeepSeek-R1-Lite
明显更加有诚意,也更加自信。
k0-math
怎么用?
使用k0-math
的方法很简单,点击左侧菜单栏里的“眼镜”图标,即可进入Kimi数学版的聊天页面。
可以看到,Kimi在这里仍然在大力宣传的是其数学能力,并且推荐用Latex格式的公式进行提问。
k0-math
初体验
先测试一波Kimi官方认证的数学能力。
设 ( n ) 为一个正整数,证明 ( n^5 - n ) 总是被 ( 30 ) 整除。
这是一个经典的数论问题,对于大模型而言可能会有一定难度,因为涉及到多步推理。Kimi表现不错,回答正确,推理过程思路也比较清晰。
作为对比,同样的问题来问一下DeepSeek-R1-Lite
。
DeepSeek-R1-Lite
回答正确,感觉它的回答更加游刃有余,简洁精炼,用到了费马小定理。
求解所有满足以下方程的实数 ( x ):
[ \sqrt{x+4} + \sqrt{4-x} = 4 ]
Kimi的回答虽然正确,但不免有过度思考之嫌。但总体来说回答正确,用了2种方法作答。
这是DeepSeek-R1-Lite
给出的解答,同样回答正确。这么看来,Kimi似乎是把整个思考过程打印了出来,显得整个回答非常繁琐臃肿。
从 ( 1, 2, 3, \dots, 12 ) 中任选 ( 5 ) 个数,使得任意两个被选出的数之和不是 ( 13 )。问有多少种选法?
先解释一下题目。从1-12中任选5个数,使得任意两个被选中的数之和不为13,问有多少中选法。
Kimi回答正确。依旧给出了很长的回答,再次确认了Kimi是把整个思考过程当做回答打印输出了。
DeepSeek-R1-Lite
同样回答正确,给出的解答过程是思考过后的结果。
三个囚犯 A、B 和 C,分别戴着红帽或蓝帽(但无法看到自己的帽子)。守卫说:“至少有一个囚犯戴着红帽。” A 说:“我不知道我的帽子颜色。” B 说:“我也不知道。” C 说:“我知道了。” 问 C 的帽子是什么颜色?
来试试k0-math
的逻辑推理能力,同样是经典的“红蓝帽子”的问题。
Kimi回答正确,但整个回答实在是太长长长长长了。Kimi的这个新模型是,能用复杂方法解答,绝不用简便方法。它果断用了最复杂的枚举法来判断,中途还判断错了,需要重头再来。
难道这就是Kimi官方一直宣传这个新模型是“数学”模型(而非推理模型)的原因吗?
作为对比,附上昨天Gemini-Exp-1121
的测评结果。
初步体验下来,我个人感觉Kimi这个新模型是不如DeepSeek-R1-Lite
的。欢迎小伙伴们评论区留言讨论。
都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!????。关注我,AI之路不迷路,原创技术文章第一时间推送?。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-11-27
掌握BERT Fine-Tuning:解锁自然语言处理的潜能
2024-11-27
大模型实现测试用例生成,头部企业实战经验分析
2024-11-26
AgileGen智能体:生成式软件开发新纪元
2024-11-26
大模型是怎么训练的 微调vsRAG
2024-11-26
打造自己的RAG解析大模型:如何进行版面分析模型的训练?
2024-11-25
Ollama与vLLM部署对比:哪个更合适?
2024-11-25
AI与你两小时对话就能复制出另一个你:准确率高达85%
2024-11-25
神奇的 OuteTTS - 0.1 - 350M:用几秒钟音频克隆声音的黑科技!
2024-07-11
2024-07-11
2024-07-09
2024-09-18
2024-06-11
2024-07-23
2024-07-20
2024-07-12
2024-07-26
2024-07-23
2024-11-26
2024-11-25
2024-11-18
2024-11-16
2024-11-16
2024-10-31
2024-10-31
2024-10-27