我要投稿

Kimi探索版正内测中，国产第一个o1？

发布日期：2024-10-10 18:49:38 浏览次数： 2219 作者：沃垠AI

Kimi探索版？国产o1？

今天，登录Kimi网站，发现会话窗口出现了一个特殊的提示。

输入“/”使用Kimi探索版，解决复杂的搜索问题。

“/”命令？这不是之前就有了吗？

再想想？不对。那个是“@”命令，快捷调用Kimi+的，也就是kimi的官方智能体。

那这个“/”命令又是个啥？输入试试。

原来是快捷调用Kimi探索版，专门用来解决复杂问题的，类似于OpenAI的o1模型，智力程度特别高，推理能力特别强，在某些特殊领域（比如数学、编程、推理）特别好用。

Kimi探索版，这算是国产第一个o1模型了吧？

第一只螃蟹，没想到是由月之暗面推出的。不过再一细想，也属正常。

毕竟，月厂主打的就是长文本、总结和推理能力，第一家也确实应该由月厂来做。

就是这使用次数（5次/天），略显抠搜……喂，我可是你们家的399登月会员呢~

为了给大家测试，我是用1次少1次。

怎么个复杂法？

对于OpenAI的o1模型，我们知道它采用了Cot（Chain of Thought，思维链）技术，并且会进行Self-play RL（自我对弈强化学习）强化学习，可以做非常复杂的推理任务，智力程度堪比博士。

技术词说了那么一堆，怎么个复杂法？

我们直接用Kimi上手体验。

问：标注三国战役地点，对应现代城市和地区。

Kimi先进行了思维链拆解：

搜索三国主要战役-->查找三国战役地点-->查找每次战役对应的现代城市和地区。

然后，爬了185个url。

百度百科：我赢麻了。

这185个url，要是我一个个去找。真的，这一天的时间都得耗在这里。

最后，生成了一个简洁干练的回答，总结了41次大小战役以及其对应的现代地点。

计算多个小品里的虚拟酒食价格，不管问题有多跳跃，都能回答。

如果回答有问题，它还会进行自我反思（其他问题的回答），补充回答。

卧槽，你还是人吗？哦，机器呀，放心了。再一细想，我又完全放心不下了。。

什么是Cot？什么是Self-play RL？这里的case，就是对技术最好的解释。

细思极恐，细思极恐啊。

同样的问题，我们问问某个下载量遥遥领先的大模型，它只能回答出10个，信源只有8个。

难怪月厂国庆期间猛加班，感情是在忙这个呢。

还能再复杂吗？

可以，我们先来测测数学领域。

问：甄嬛和薛宝钗的生日相差几天？

这个问题涉及不同的文学作品，而且是计算农历，一不小心很多AI都会扑街，就像这样。

或者，又比如这个模型已经搜到了生日，但还是不肯计算。

来看看Kimi探索版呢？

嗯，这才是正确的人类计算方式啊。先确定两人生日，然后一个个计算，最后再累加，这里面没有捷径。只有按照思维链，一步步推理、计算，才能得出最终唯一的结果。

上难度，我们给它来道AIME 2024年竞赛题，一项专门为美国顶尖高中数学学生设立的挑战性考试，看看Kimi怎么答。

将问题发给Kimi后，它马上就开始解题，不到30s，就全部解答了出来。

对照答案，完全正确，204分钟。

注意看左下角，我全程是关闭联网的，也就是说Kimi是通过自身的底层模型来答的这道题，而并非上网搜索。

那推理领域呢，我们发给Kimi一道推理题。

注：本题已经过改编，即使AI联网搜索也找不到答案。这是全网唯一的题目。

问：某公司被窃，A、B、C、D四人涉嫌被拘留。侦破结果表明，罪犯就是其中的某一个人。A说：“是C偷的。”B说：“我没偷。”C说：“我也没偷。”D说：“如果B没有偷，那么就是我偷的。”现已査明，其中只有一个人说了假话，从上述条件可以确定谁偷成立？

Kimi答：

我们可以通过分析每个人的陈述来确定谁是罪犯。已知只有一个人说了假话，其他人都说了真话。我们逐一分析每个人的陈述：

A说：“是C偷的。”

B说：“我没偷。”

C说：“我也没偷。”

D说：“如果B没有偷，那么就是我偷的。”

我们假设每个人分别说了假话，然后验证是否符合条件。

假设A说假话

A说假话，说明C没有偷。

B说真话，B没有偷。

C说真话，C没有偷。

D说真话，D说“如果B没有偷，那么就是我偷的”，B没有偷，所以D偷了。

此时，只有A说假话，其他人都说真话，符合条件。

假设B说假话

B说假话，说明B偷了。

A说真话，C偷了（矛盾）。

C说真话，C没有偷（矛盾）。

D说真话，D说“如果B没有偷，那么就是我偷的”，B偷了，所以D不偷。

此时，A和C的陈述矛盾，不符合条件。

假设C说假话

C说假话，说明C偷了。

A说真话，C偷了。

B说真话，B没有偷。

D说真话，D说“如果B没有偷，那么就是我偷的”，B没有偷，所以D偷了（矛盾）。

此时，C和D的陈述矛盾，不符合条件。

假设D说假话

D说假话，说明“如果B没有偷，那么就是我偷的”是假的，即使B没有偷，D也没有偷。

A说真话，C偷了。

B说真话，B没有偷。

C说真话，C没有偷（矛盾）。

此时，A和C的陈述矛盾，不符合条件。

综上所述，只有假设A说假话时，所有条件都符合。因此，罪犯是D。

正确答案，确实是D，他是小偷。

这是我制作的逻辑对照表，你看一眼就明白了。只有A说假话时，其他人都说了真话，符合条件，得出D是小偷。

这道题，曾难倒过不少AI，没想到Kimi探索版居然答对了。

Kimi，依然还是那么牛，不愧是国产之光。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-26

从Function Call到MCP：大模型如何调用外部工具

2025-04-26

增量代码自动Review工具：洞窝在AI上的探索和实践

2025-04-25

OpenAI 白送 200 美元的深度研究功能？实测后发现这个「阉割版」不如不用

2025-04-25

为什么一定要做Agent智能体？

2025-04-25

哇！首个MCPBench来了，MCP竟然不比Function Calls更有优势？ | 最新

2025-04-25

医疗大模型案例分析（一）：Google Med-PaLM

2025-04-25

vLLM+Qwen-32B+Open Web UI构建本地私有大模型

2025-04-25

AI产品经理思考MCP（3）：MCP的未来可能

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

大模型｜“上下文长度”和“上下文窗口”不再傻傻分不清楚！

2024-07-31

一文带你了解大模型——智能体（Agent）

2024-05-28

50+个AI大模型在不同领域的应用案例

2024-08-04

全面对比dify、coze、streamlit、chainlit

2024-04-26

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

一文读懂OpenAI新发布o1系列大模型

2024-09-17

大家都在问

为什么一定要做Agent智能体？

2025-04-25

除了MCP我们还有什么？

2025-04-24

LLM 推理引擎之争：Ollama or vLLM ?

2025-04-24

专题策划（下）| 如何实现大模型与行业的深度耦合？

2025-04-23

OpenAI：就你们也配做智能体？

2025-04-23

白话解析 DPO：如何让 AI 直接学习人类偏好？

2025-04-22

独家｜百度上线“心响”App，平替版Mauns来了？

2025-04-21

Deep Research 类产品深度测评：下一个大模型产品跃迁点到来了吗？

2025-04-21

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB