微信扫码
添加专属顾问
我要投稿
UReader 的特点
通过统一的指令格式对各种视觉情境语言理解任务进行了联合微调
为了增强视觉文本和语义理解,进一步应用了两个具有相同格式的辅助任务,即文本阅读和关键点生成任务。
在 MLLM 的编码器-解码器架构之前设计了一个形状自适应裁剪模块,以利用冻结的低分辨率视觉编码器来处理高分辨率图像。
构建了一个指令调整数据集,涵盖视觉情境语言理解的 5 个领域:文档、表格、图表、自然图像和网页屏幕截图。
在没有下游微调的情况下,UReader在 10 个视觉情境语言理解任务中的 8 个中实现了最先进的无 OCR 性能。
输入图像,首先由形状自适应裁剪模块(Shape-Adaptive Cropping Module),将文档中不同布局的内容裁剪出来
然后,将裁剪出的子图像同时通过视觉编码器(visual Encoder)和视觉抽象器(visual Abstractor)
最后,为了使大语言模型能够关联多个裁剪的子图像,应用裁剪位置编码模块(crop Postion Encoding)来引入跨子图像的空间信息, 送入LLM中
带有文本的图像具有各种宽高比和多种分辨率,简单地将图像大小调整为MLLM 的原始分辨率会导致文本模糊、扭曲和无法识别。 因此,提出了形状自适应裁剪模块。
如何自适应呢?
首先,预先定义各种形状的网格,分别表示网格的行数和列数,网格的最小格子长宽为
要为形状为的图像选择合适的网格,应遵循两个规则:
为此,采用Iou算法,来获得最佳网格布局
网格应尽可能保留图像的分辨率
网格应适合输入图像的长宽比
MLLM 主要使用单个图像作为输入进行训练。 由于裁剪模块,需要将多个图像的视觉特征输入到语言模型中。 大语言模型的一维位置嵌入不能反映每个子图像的空间位置,这对于关联局部图像至关重要。
因此,结合二维裁剪位置编码来帮助语言模型理解裁剪图像之间的空间关系。
具体操作如下:
为所选网格的每个单元分配一个位置索引
通过两个辅助嵌入层获取它们的行嵌入和列嵌入
通过沿着可学习查询的维度进行广播,将嵌入添加到语言空间中每个单元的视觉特征中
然后,将视觉特征重塑为一张图,由此产生的空间感知视觉特征和输入句子的词嵌入在序列维度上连接并发送到大型语言模型。
为了增强语言模型有效建模多个图像的能力,同时保持较低的训练成本,冻结了原始语言模型并采用低秩适应方法进行微调。
根据图像中的文本和位置信息,按照常见的阅读顺序组织文本:从上到下,从左到右,依次按照指令回答。例如:
从头开始阅读的指令:人类:识别图像中的文本。 AI:{所有文本}
,
继续阅读的指令:人类:这张图片上的文字是{左文本}。 继续阅读正文。 AI:{正确的文本}
为了增强视觉和语言语义理解能力,设计一个辅助的关键点生成任务,该任务要求模型给出关于图像的一些关键点。
收集每个图像的 QA 对,并使用 Vicuna将它们转换为陈述句,这些陈述句最终被视为关于图像的关键点。 我们还构建了一组模板来指导这项任务,例如
人类:识别这张图中的一些关键点。 AI:{要点}
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-26
Ollama-Deep-Researcher-本地Mac结合魔搭社区模型搭建网页研究助手
2025-04-25
Manus开源版本!无需邀请码,老金手把手教你咋用!
2025-04-25
78k star,像写 Markdown 一样画流程图,这个开源工具太牛了!
2025-04-25
MarkItDown MCP:一款好用的将文件和办公文档转换为Markdown的AI工具!
2025-04-24
AI+SQL客户端,这款开源神器让数据库管理像聊天一样简单!
2025-04-24
效率革命!GitHub爆火的开源神器MinerU:PDF、网页、电子书一键转Markdown
2025-04-24
Suna:构建你专属“通用智能体”的开源利器
2025-04-24
开源TTS领域迎来重磅新星!Dia-1.6B:超逼真对话生成,开源2天斩获6.5K Star!
2024-07-25
2025-01-01
2025-01-21
2024-05-06
2024-09-20
2024-07-20
2024-07-11
2024-06-12
2024-08-13
2024-12-26
2025-04-21
2025-04-19
2025-04-17
2025-04-15
2025-04-13
2025-04-10
2025-04-07
2025-04-03