微信扫码
与创始人交个朋友
我要投稿
UReader 的特点
通过统一的指令格式对各种视觉情境语言理解任务进行了联合微调
为了增强视觉文本和语义理解,进一步应用了两个具有相同格式的辅助任务,即文本阅读和关键点生成任务。
在 MLLM 的编码器-解码器架构之前设计了一个形状自适应裁剪模块,以利用冻结的低分辨率视觉编码器来处理高分辨率图像。
构建了一个指令调整数据集,涵盖视觉情境语言理解的 5 个领域:文档、表格、图表、自然图像和网页屏幕截图。
在没有下游微调的情况下,UReader在 10 个视觉情境语言理解任务中的 8 个中实现了最先进的无 OCR 性能。
输入图像,首先由形状自适应裁剪模块(Shape-Adaptive Cropping Module),将文档中不同布局的内容裁剪出来
然后,将裁剪出的子图像同时通过视觉编码器(visual Encoder)和视觉抽象器(visual Abstractor)
最后,为了使大语言模型能够关联多个裁剪的子图像,应用裁剪位置编码模块(crop Postion Encoding)来引入跨子图像的空间信息, 送入LLM中
带有文本的图像具有各种宽高比和多种分辨率,简单地将图像大小调整为MLLM 的原始分辨率会导致文本模糊、扭曲和无法识别。 因此,提出了形状自适应裁剪模块。
如何自适应呢?
首先,预先定义各种形状的网格,分别表示网格的行数和列数,网格的最小格子长宽为
要为形状为的图像选择合适的网格,应遵循两个规则:
为此,采用Iou算法,来获得最佳网格布局
网格应尽可能保留图像的分辨率
网格应适合输入图像的长宽比
MLLM 主要使用单个图像作为输入进行训练。 由于裁剪模块,需要将多个图像的视觉特征输入到语言模型中。 大语言模型的一维位置嵌入不能反映每个子图像的空间位置,这对于关联局部图像至关重要。
因此,结合二维裁剪位置编码来帮助语言模型理解裁剪图像之间的空间关系。
具体操作如下:
为所选网格的每个单元分配一个位置索引
通过两个辅助嵌入层获取它们的行嵌入和列嵌入
通过沿着可学习查询的维度进行广播,将嵌入添加到语言空间中每个单元的视觉特征中
然后,将视觉特征重塑为一张图,由此产生的空间感知视觉特征和输入句子的词嵌入在序列维度上连接并发送到大型语言模型。
为了增强语言模型有效建模多个图像的能力,同时保持较低的训练成本,冻结了原始语言模型并采用低秩适应方法进行微调。
根据图像中的文本和位置信息,按照常见的阅读顺序组织文本:从上到下,从左到右,依次按照指令回答。例如:
从头开始阅读的指令:人类:识别图像中的文本。 AI:{所有文本}
,
继续阅读的指令:人类:这张图片上的文字是{左文本}。 继续阅读正文。 AI:{正确的文本}
为了增强视觉和语言语义理解能力,设计一个辅助的关键点生成任务,该任务要求模型给出关于图像的一些关键点。
收集每个图像的 QA 对,并使用 Vicuna将它们转换为陈述句,这些陈述句最终被视为关于图像的关键点。 我们还构建了一组模板来指导这项任务,例如
人类:识别这张图中的一些关键点。 AI:{要点}
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-11-14
手把手教你开发Agent:聊聊DB-GPT Agent的架构设计、源码解读和实战开发
2024-11-13
这家小公司的700 亿参数模型竟然比Open o1还强?
2024-11-13
通义牛逼!!比肩Chatgpt-4o 还自带 Artifact
2024-11-13
Ollama 更新!本地跑 LLama3.2,轻量级+视觉能力,能媲美GPT-4o?
2024-11-13
开源版SearchGPT来了,两张3090就可复现,超越Perplexity付费版
2024-11-12
字节跳动AI社区新动作:炉米Lumi,一站式模型共创平台揭秘
2024-11-12
我们是这样做大模型应用的(文末有惊喜)
2024-11-12
Qwen新作,代码界的王!
2024-05-06
2024-08-13
2024-07-25
2024-06-12
2024-06-16
2024-07-11
2024-07-20
2024-06-15
2024-07-25
2024-07-25
2024-11-13
2024-11-13
2024-10-07
2024-09-22
2024-09-20
2024-09-14
2024-09-14
2024-09-12