AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Kosmos-2.5的真正实力测评
发布日期:2024-07-23 07:32:44 浏览次数: 1938


Kosmos-2.5在端到端的整篇文档图像的识别带来了新的高度,下面来测试下能力具体情况,Kosmos-2.5支持两种任务:text spotting(行级别的定位和文本识别),  以及直接输出为markdown。实际应用时主要是以输出markdown格式居多,所以这里仅测试转markdown能力,这时的prompt输入是<md>。因为它只支持英文,所以这里的测试图片只是英文论文。

单栏不带表格公式

输入图片:

下面是将识别结果转为markdown后的渲染成图片结果:

可以看到,单栏无公式无表格时候,识别结果完全正确,而且原图中的文本格式也都正确输出了,包括标题、文本加粗、列表项目编号。

单栏带表格公式

输入图片:

下面是将识别结果转为markdown后的渲染成图片结果:

这里有两个问题:

    1. 表格的识别结果中对于需要合并单元格的情况没有做合并,可能还是因为使用markdown表示的表格太简单了,处理不了合并单元格的情况。

    2. 公式的识别文本没能正确渲染出来,识别文本如下:

        \[\textit{NED}=1-\frac{1}{N}\sum_{i=1}^{N}D\left(s_{i},\hat{


      不知道为何是用\[和\]表示的公式,如果将\[和\]替换为$,仍然会提示\len不对,再将\len改为\text{len}后,可以得到正确渲染的公式识别结果。所以这里也能看出Kosmos-2.5的公式识别能力存在问题,如果文档里有公式出现时,不建议使用。

    双栏不带表格公式

    输入图片:

    下面是将识别结果转为markdown后的渲染成图片结果:

    可以看到对于双栏,可以做到按阅读顺序输出,而且还能正确将原文里的文本格式(如斜体、黑体、标题、列表等)直接转换成markdown里的表示,从而正确渲染出来。

    单栏带表格

    输入图片:

    将识别结果转为markdown后的渲染成图片保存如下:

    可以看到表格识别结构全乱了,因为将markdown转为图片后产生了截断,导致图片中的表格没有显示全,这也说明对于复杂的表格kosmos-2.5效果不佳。这个图片里表格里文字出现了竖排,对于当前的这些VLM模型来说确实比较难。

    点评

    所以基本可以得出结论:

    1. 无表格无公式的单栏双栏文档都是没有问题的,可以端到端输出为markdown结果,尤其是它的输出保留了阅读顺序以及字体样式的能力令人称赞;

    2. 有公式的文档就不用考虑了;

    3. 有表格的文档需要衡量是否会有复杂的表格,如果表格都是N行M列也没有问题。

    4. Kosmos-2.5最大支持4096个token,从上面的测试可以看到覆盖了常见文档单页字符数量,即使是双栏全文本图片,也能全部输出;

    5. 遗憾的是仅支持英文,不支持中文,而且训练该模型的数据也没有开源。


    53AI,企业落地应用大模型首选服务商

    产品:大模型应用平台+智能体定制开发+落地咨询服务

    承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

    联系我们

    售前咨询
    186 6662 7370
    预约演示
    185 8882 0121

    微信扫码

    与创始人交个朋友

    回到顶部

     
    扫码咨询