微信扫码
与创始人交个朋友
我要投稿
输入图片:
下面是将识别结果转为markdown后的渲染成图片结果:
可以看到,单栏无公式无表格时候,识别结果完全正确,而且原图中的文本格式也都正确输出了,包括标题、文本加粗、列表项目编号。
输入图片:
下面是将识别结果转为markdown后的渲染成图片结果:
这里有两个问题:
表格的识别结果中对于需要合并单元格的情况没有做合并,可能还是因为使用markdown表示的表格太简单了,处理不了合并单元格的情况。
公式的识别文本没能正确渲染出来,识别文本如下:
\[\textit{NED}=1-\frac{1}{N}\sum_{i=1}^{N}D\left(s_{i},\hat{
不知道为何是用\[和\]表示的公式,如果将\[和\]替换为$,仍然会提示\len不对,再将\len改为\text{len}后,可以得到正确渲染的公式识别结果。所以这里也能看出Kosmos-2.5的公式识别能力存在问题,如果文档里有公式出现时,不建议使用。
输入图片:
下面是将识别结果转为markdown后的渲染成图片结果:
可以看到对于双栏,可以做到按阅读顺序输出,而且还能正确将原文里的文本格式(如斜体、黑体、标题、列表等)直接转换成markdown里的表示,从而正确渲染出来。
输入图片:
将识别结果转为markdown后的渲染成图片保存如下:
可以看到表格识别结构全乱了,因为将markdown转为图片后产生了截断,导致图片中的表格没有显示全,这也说明对于复杂的表格kosmos-2.5效果不佳。这个图片里表格里文字出现了竖排,对于当前的这些VLM模型来说确实比较难。
所以基本可以得出结论:
无表格无公式的单栏双栏文档都是没有问题的,可以端到端输出为markdown结果,尤其是它的输出保留了阅读顺序以及字体样式的能力令人称赞;
有公式的文档就不用考虑了;
有表格的文档需要衡量是否会有复杂的表格,如果表格都是N行M列也没有问题。
Kosmos-2.5最大支持4096个token,从上面的测试可以看到覆盖了常见文档单页字符数量,即使是双栏全文本图片,也能全部输出;
遗憾的是仅支持英文,不支持中文,而且训练该模型的数据也没有开源。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-08-13
2024-05-28
2024-04-26
2024-08-21
2024-06-13
2024-08-04
2024-07-09
2024-09-23
2024-07-18
2024-04-11