AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


戴上眼镜的Kimi能力超强,领先 o1 和 Gemini
发布日期:2024-12-26 12:35:06 浏览次数: 1575 来源:LLM榴莲猫



Kimi 低调了一阵,但还是压不住自身的实力。
最近 Kimi 帮自己戴上了一副特异功能眼镜,化身为眼镜小蓝人,眼镜不是赌神的作弊眼镜,而是一个Kimi最新推出的视觉思考模型。
我们在 Kimi 官方的侧边栏可以看到戴眼镜的小蓝人,

在各路模型在卷文字版的推理追赶 o1 的时候,Kimi又一次一马当先地做出了惊艳的视觉版的推理"o1"。
而且 Kimi 的视觉能力是原生的,非常强悍。
实测一波之后,眼镜 Kimi既能接地气地解决很多实际的需求,也能跟进许多宏大的叙事, 
下面我来说说它的几个高效的用法。

代码方面
比如我在中午空闲的时候想到做一个猜数字的小游戏,于是把它随意地画在纸上:

然后把它拍下来传给 戴眼镜的Kimi:

可以看到即便是我的字写得很丑,图画得歪歪扭扭,但眼镜 Kimi 还是非常准确地识别到了我的意图,并且用 HTML 简单的代码实现了我的游戏:

而且非常厉害的是,Kimi的视觉思考模型会反思自己的做法是否有不妥,然后不断改进,而且整个思考过程用户完全能看到!

同样的,我给出一个网站的手稿设计,或者让它参考复制别的网站设计,眼镜Kimi也可以给到很好的效果,
比如这里我就让他做一个和 模仿Kimi 的首页:

眼镜 KIMI 会根据你的需求飞速帮你写所需要的任务代码文件,我这里只是用了基础的 css 和 html,如果写react 和其他框架也是可以的:

还有很多不同的玩法,比如假设你是作为学习任何新知识的新手,我们可以把不懂的内容用手机拍给眼镜 Kimi,
让它以新手的角度,发挥它的视觉推理能力,一步一步地教学解释。
这是一个非常有效率的学习方法,你可以随手拍给眼镜Kimi 去利用碎片时间来学习。
比如我有一份进口的热量表,我让眼镜 Kimi 推导我一天能吃多少块才能不超过热量:

整个推理过程我都能看到,能够学习卡路里的概念和算法,同时也正因为它公开的视觉推理让结果更加可信。

另一个非常强的应用就是 OCR
眼镜 Kimi 的 OCR 能力非常牛逼,牛逼不只是能准确识别内容的牛逼,而是能基于识别的内容再进一步的推理做数据分析。
先试试眼镜 Kimi 的基础 OCR 能力:
比如我们常用的手写实体的识别:

效果非常炸裂,而且这是免费就能用的功能!!

而不止如此,再来一个图表的数据 OCR+数据分析

除了基础数据识别之外,眼镜 Kimi 还能给出数据的洞察和给出引导式的探索,这对写数据分析报告的打工人简直是一大神器。

还有一个是我自己用来学习任何概念的一个玩法,平时我们会看到很多【一图看懂 xxx】的系列图,
而往往我们只是点了收藏之后就躺在收藏夹里面吃灰(即使用普通 OCR 识别为文字),原因是因为我们其实不能吃透里面的内容,
尤其是那些外文的图,往往里面蕴藏着极大的信息价值。
而眼镜 Kimi的视觉推理能力能够很好地改善这一点,
比如这幅图:

我让它先进行 OCR 识别,然后根据提取出来的核心做一个精辟的分析,以表格的形式附录在我收藏的这幅图旁边:
这样我就能快速获取任何语言的压缩知识,把知识快速吸纳进自己的笔记体系,真正地理解所有信息的价值。

以上是接地气的几个用法,实际上在我看来眼镜 Kimi 的视觉思考能力能接上非常多的宏达叙事。
尤其在教育方面,眼镜Kimi 在数理化这些重推理和视觉的课程辅导简直是降维打击,因为已经很多人介绍过了,我也不多说,非常推荐去看看官方号的评测。
在安防和机器视觉方面用视觉推理分析也能大大提高系统的实际效果和响应效率,不会放过任何蛛丝马迹。
今天说的差不多,
戴眼镜的 Kimi 目前免费对任何人使用,
赶紧去探索试试吧!


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询