我要投稿

商汤日日新5.0多模态能力大揭秘：名不符实

发布日期：2024-05-06 16:04:18 浏览次数： 2597 作者：走向AI

前文提到InternVL1.5的OCR能力的时候也疑惑没搞懂商汤日日新5.0和InternVL1.5是否存在关系，毕竟论文的作者里有不少商汤的人，有粉丝留言说商汤5.0的OCR能力很一般，这次深扒下商汤日日新5.0能力到底如何？

指标：商汤日日新5.0 vs. InternVL1.5

从公开新闻可以查到商汤日日新5.0发布会上介绍多模态能力时有这样一张截图，可以看到商汤日日新5.0的多模态能力就是InternVL-Chat-v1.5,即InternVL1.5：

但是当我们看InternVL1.5论文里的指标，每个评估集的指标又不能完全一致，而且多数指标InternVL1.5都要比商汤日日新5.0截图里的值要更高一点。当然，这也可能是因为版本也在不停迭代，所以评测的指标有一些差异也可以理解。

在线测试：商汤日日新5.0 vs. InternVL1.5

上次文章里说没找到商汤日日新的在线体验地址是不对的，再次寻找后，终于发现在线体验地址并不是在这个下面：

而是藏在大模型应用菜单栏下面的商量里（吐槽：这个UI设计产生了歧义，不能怪我吧，人家通义千问、Kimi、文心一言都是点开就能体验，你这个体验不放在体验中心下面，反而放在大模型应用下面）

既然找到了在线体验demo，那么就能好好感受下它的性能是不是和官方发布会上提到的那么厉害了，也能和InternVL1.5对比下了。

用同一张图片，同样的prompt，看下两者的输出。从下图可以看出，两者的输出不能说完全一样，只能说是一模一样。这里需要指出商汤日日新5.0只接受中文输入，所以接下来的测试prompt都是用的中文。

从上面对比，我本以为两者底层对应的是同一个模型，接下来和之前测评一样，看下常见OCR问题解决的如何。

公式识别

原图	商汤日日新5.0
	提示输入尺寸不得小于224*224

	提示输入尺寸不得小于224*224

可以看到商汤日日新5.0限制了图片输入尺寸，这种公式图片无法测试。这局InternVL1.5胜出。

关键信息抽取

不知道是不是什么前置安全审查不让执行这种任务，所以商汤日日新5.0测试不出来结果。而InternVL1.5结果返回的结果就非常好，完胜。

表格识别

原图：

商汤日日新5.0结果：

可以看到基本上全错了，完全比不过InternVL1.5。

文字识别

输入图片如下：

这个算是最简单的OCR能力测试了，可以看到这局仍然是InternVL1.5的理解能力更好，完美的把图片中的文字内容提取出来了，而且连换行符都完全一致。

结论

虽然发布会上列的还是InternVL1.5的指标，但通过以上简单测试，确实和粉丝回复的一样，商汤日日新5.0多模态能力相比InternVL1.5的体验上差异挺大的，没有InternVL1.5好，甚至可以说是非常糟糕，而且反应速度也明显没有InternVL1.5的快。作为曾经的AI四小龙之首，还是一家上市公司啊，做的没有上海AI实验室这样的学术研究机构体验好，实在说不过去，最后还要吐槽一下商汤的UI设计，好像不太注重To C用户的体验。

商汤在发布日日新5.0后，股价已经连续大涨约180%，但以这样的体验，会不会感到有点虚？各位自行感受一下