我要投稿

戴上眼镜的Kimi能力超强，领先 o1 和 Gemini

发布日期：2024-12-26 12:35:06 浏览次数： 1970 作者：LLM榴莲猫

Kimi 低调了一阵，但还是压不住自身的实力。

最近 Kimi 帮自己戴上了一副特异功能眼镜，化身为眼镜小蓝人，眼镜不是赌神的作弊眼镜，而是一个Kimi最新推出的视觉思考模型。

我们在 Kimi 官方的侧边栏可以看到戴眼镜的小蓝人，

在各路模型在卷文字版的推理追赶 o1 的时候，Kimi又一次一马当先地做出了惊艳的视觉版的推理"o1"。

而且 Kimi 的视觉能力是原生的，非常强悍。

实测一波之后，眼镜 Kimi既能接地气地解决很多实际的需求，也能跟进许多宏大的叙事，

下面我来说说它的几个高效的用法。

代码方面

比如我在中午空闲的时候想到做一个猜数字的小游戏，于是把它随意地画在纸上：

然后把它拍下来传给戴眼镜的Kimi：

可以看到即便是我的字写得很丑，图画得歪歪扭扭，但眼镜 Kimi 还是非常准确地识别到了我的意图，并且用 HTML 简单的代码实现了我的游戏：

而且非常厉害的是，Kimi的视觉思考模型会反思自己的做法是否有不妥，然后不断改进，而且整个思考过程用户完全能看到！

同样的，我给出一个网站的手稿设计，或者让它参考复制别的网站设计，眼镜Kimi也可以给到很好的效果，

比如这里我就让他做一个和模仿Kimi 的首页：

眼镜 KIMI 会根据你的需求飞速帮你写所需要的任务代码文件，我这里只是用了基础的 css 和 html，如果写react 和其他框架也是可以的：

还有很多不同的玩法，比如假设你是作为学习任何新知识的新手，我们可以把不懂的内容用手机拍给眼镜 Kimi，

让它以新手的角度，发挥它的视觉推理能力，一步一步地教学解释。

这是一个非常有效率的学习方法，你可以随手拍给眼镜Kimi 去利用碎片时间来学习。

比如我有一份进口的热量表，我让眼镜 Kimi 推导我一天能吃多少块才能不超过热量：

整个推理过程我都能看到，能够学习卡路里的概念和算法，同时也正因为它公开的视觉推理让结果更加可信。

另一个非常强的应用就是 OCR

眼镜 Kimi 的 OCR 能力非常牛逼，牛逼不只是能准确识别内容的牛逼，而是能基于识别的内容再进一步的推理做数据分析。

先试试眼镜 Kimi 的基础 OCR 能力：

比如我们常用的手写实体的识别：

效果非常炸裂，而且这是免费就能用的功能！！

而不止如此，再来一个图表的数据 OCR+数据分析

除了基础数据识别之外，眼镜 Kimi 还能给出数据的洞察和给出引导式的探索，这对写数据分析报告的打工人简直是一大神器。

还有一个是我自己用来学习任何概念的一个玩法，平时我们会看到很多【一图看懂 xxx】的系列图，

而往往我们只是点了收藏之后就躺在收藏夹里面吃灰（即使用普通 OCR 识别为文字），原因是因为我们其实不能吃透里面的内容，

尤其是那些外文的图，往往里面蕴藏着极大的信息价值。

而眼镜 Kimi的视觉推理能力能够很好地改善这一点，

比如这幅图：

我让它先进行 OCR 识别，然后根据提取出来的核心做一个精辟的分析，以表格的形式附录在我收藏的这幅图旁边：

这样我就能快速获取任何语言的压缩知识，把知识快速吸纳进自己的笔记体系，真正地理解所有信息的价值。

以上是接地气的几个用法，实际上在我看来眼镜 Kimi 的视觉思考能力能接上非常多的宏达叙事。

尤其在教育方面，眼镜Kimi 在数理化这些重推理和视觉的课程辅导简直是降维打击，因为已经很多人介绍过了，我也不多说，非常推荐去看看官方号的评测。

在安防和机器视觉方面用视觉推理分析也能大大提高系统的实际效果和响应效率，不会放过任何蛛丝马迹。

今天说的差不多，

戴眼镜的 Kimi 目前免费对任何人使用，

赶紧去探索试试吧！

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-28

3D 小白亲测：用 Trae + Blender MCP 从零开始 AI 建模（附踩坑指南）

2025-04-27

行业落地分享：作业帮问答检索系统实践

2025-04-27

大模型赋能CAD图纸智能识别与集成实战指南

2025-04-25

英伟达推出 Describe Anything 3B AI 模型了

2025-04-24

OpenAI 图像生成 API 开放！开发者也能“一键出图”了

2025-04-24

OpenAI终于放出图像生成模型 API ，Midjourney危！

2025-04-24

多模态RAG：解读检索、重排、精炼三大关键技术

2025-04-23

我复刻了一个Manus

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

GPT-4 和 GPT-4o的主要区别

2024-09-12

ChatGPT记忆功能全解析：实用场景与操作指南

2024-06-14

Flowise AI 工作流进阶: 常用组件介绍+连 Notion 做知识库

2024-06-17

面壁小钢炮 MiniCPM-V 2.6 部署指南

2024-08-06

Qwen2-VL 全链路模型体验、下载、推理、微调实战！

2024-08-30

智谱开源新一代多模态大模型CogVLM2，性能媲美GPT-4V

2024-05-30

周鸿祎发布纳米搜索，做世界第一的AI搜索

2024-11-28

一文了解：最新版本 Llama 3.2

2024-10-07

深度解析Swarm Agent ：OpenAI 开源的多智能体协作框架

2024-10-16

深入解析Llama 3：开发者如何充分利用这一开源大模型

2024-04-21

大家都在问

AI数字人领域重大突破：告别拼凑式合成，阿里OmniTalker能否开启音视频一体化新时代？

2025-04-08

Midjourney V7全面测评：50组多风格提示词实测，是否还有领先优势?

2025-04-05

如何结合多模态RAG和异步调用实现大模型内容理解？

2025-03-30

Chat GPT文生图不用DALL·E模型了？

2025-03-26

如何构建多模态AI知识库？

2025-03-05

我为什么要卸载DeepSeek ？

2025-03-02

千问又放大招！720亿参数的视觉语言模型什么样？

2025-01-08

为什么生成式AI不擅长同时做两件事？

2024-12-13

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB