戴上眼镜的Kimi能力超强,领先 o1 和 Gemini
发布日期:2024-12-26 12:35:06
浏览次数: 1575
来源:LLM榴莲猫
最近 Kimi 帮自己戴上了一副特异功能眼镜,化身为眼镜小蓝人,眼镜不是赌神的作弊眼镜,而是一个Kimi最新推出的视觉思考模型。我们在 Kimi 官方的侧边栏可以看到戴眼镜的小蓝人,在各路模型在卷文字版的推理追赶 o1 的时候,Kimi又一次一马当先地做出了惊艳的视觉版的推理"o1"。实测一波之后,眼镜 Kimi既能接地气地解决很多实际的需求,也能跟进许多宏大的叙事, 比如我在中午空闲的时候想到做一个猜数字的小游戏,于是把它随意地画在纸上:可以看到即便是我的字写得很丑,图画得歪歪扭扭,但眼镜 Kimi 还是非常准确地识别到了我的意图,并且用 HTML 简单的代码实现了我的游戏:而且非常厉害的是,Kimi的视觉思考模型会反思自己的做法是否有不妥,然后不断改进,而且整个思考过程用户完全能看到!同样的,我给出一个网站的手稿设计,或者让它参考复制别的网站设计,眼镜Kimi也可以给到很好的效果,眼镜 KIMI 会根据你的需求飞速帮你写所需要的任务代码文件,我这里只是用了基础的 css 和 html,如果写react 和其他框架也是可以的:还有很多不同的玩法,比如假设你是作为学习任何新知识的新手,我们可以把不懂的内容用手机拍给眼镜 Kimi,让它以新手的角度,发挥它的视觉推理能力,一步一步地教学解释。这是一个非常有效率的学习方法,你可以随手拍给眼镜Kimi 去利用碎片时间来学习。比如我有一份进口的热量表,我让眼镜 Kimi 推导我一天能吃多少块才能不超过热量:整个推理过程我都能看到,能够学习卡路里的概念和算法,同时也正因为它公开的视觉推理让结果更加可信。眼镜 Kimi 的 OCR 能力非常牛逼,牛逼不只是能准确识别内容的牛逼,而是能基于识别的内容再进一步的推理做数据分析。除了基础数据识别之外,眼镜 Kimi 还能给出数据的洞察和给出引导式的探索,这对写数据分析报告的打工人简直是一大神器。还有一个是我自己用来学习任何概念的一个玩法,平时我们会看到很多【一图看懂 xxx】的系列图,而往往我们只是点了收藏之后就躺在收藏夹里面吃灰(即使用普通 OCR 识别为文字),原因是因为我们其实不能吃透里面的内容,尤其是那些外文的图,往往里面蕴藏着极大的信息价值。而眼镜 Kimi的视觉推理能力能够很好地改善这一点,我让它先进行 OCR 识别,然后根据提取出来的核心做一个精辟的分析,以表格的形式附录在我收藏的这幅图旁边:这样我就能快速获取任何语言的压缩知识,把知识快速吸纳进自己的笔记体系,真正地理解所有信息的价值。以上是接地气的几个用法,实际上在我看来眼镜 Kimi 的视觉思考能力能接上非常多的宏达叙事。尤其在教育方面,眼镜Kimi 在数理化这些重推理和视觉的课程辅导简直是降维打击,因为已经很多人介绍过了,我也不多说,非常推荐去看看官方号的评测。在安防和机器视觉方面用视觉推理分析也能大大提高系统的实际效果和响应效率,不会放过任何蛛丝马迹。
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业