我要投稿

Alibaba开源UReader：通用免OCR文档理解

发布日期：2024-11-14 08:28:11 浏览次数： 2060 作者：CourseAI

UReader 的特点

通过统一的指令格式对各种视觉情境语言理解任务进行了联合微调
为了增强视觉文本和语义理解，进一步应用了两个具有相同格式的辅助任务，即文本阅读和关键点生成任务。
在 MLLM 的编码器-解码器架构之前设计了一个形状自适应裁剪模块，以利用冻结的低分辨率视觉编码器来处理高分辨率图像。
构建了一个指令调整数据集，涵盖视觉情境语言理解的 5 个领域：文档、表格、图表、自然图像和网页屏幕截图。
在没有下游微调的情况下，UReader在 10 个视觉情境语言理解任务中的 8 个中实现了最先进的无 OCR 性能。

UReader架构

输入图像，首先由形状自适应裁剪模块(Shape-Adaptive Cropping Module)，将文档中不同布局的内容裁剪出来
然后，将裁剪出的子图像同时通过视觉编码器(visual Encoder)和视觉抽象器(visual Abstractor)
最后，为了使大语言模型能够关联多个裁剪的子图像，应用裁剪位置编码模块(crop Postion Encoding)来引入跨子图像的空间信息, 送入LLM中

自适应裁剪模块(Shape-Adaptive Cropping Module)

带有文本的图像具有各种宽高比和多种分辨率，简单地将图像大小调整为MLLM 的原始分辨率会导致文本模糊、扭曲和无法识别。因此，提出了形状自适应裁剪模块。

如何自适应呢？

首先，预先定义各种形状的网格，分别表示网格的行数和列数，网格的最小格子长宽为
要为形状为的图像选择合适的网格，应遵循两个规则：
为此，采用Iou算法，来获得最佳网格布局

网格应尽可能保留图像的分辨率
网格应适合输入图像的长宽比

大语言模型裁剪图像建模

MLLM 主要使用单个图像作为输入进行训练。由于裁剪模块，需要将多个图像的视觉特征输入到语言模型中。大语言模型的一维位置嵌入不能反映每个子图像的空间位置，这对于关联局部图像至关重要。

因此，结合二维裁剪位置编码来帮助语言模型理解裁剪图像之间的空间关系。

具体操作如下：

为所选网格的每个单元分配一个位置索引
通过两个辅助嵌入层获取它们的行嵌入和列嵌入
通过沿着可学习查询的维度进行广播，将嵌入添加到语言空间中每个单元的视觉特征中
然后，将视觉特征重塑为一张图，由此产生的空间感知视觉特征和输入句子的词嵌入在序列维度上连接并发送到大型语言模型。
为了增强语言模型有效建模多个图像的能力，同时保持较低的训练成本，冻结了原始语言模型并采用低秩适应方法进行微调。

微调主要是两个任务：

文本阅读任务

根据图像中的文本和位置信息，按照常见的阅读顺序组织文本：从上到下，从左到右，依次按照指令回答。例如：

从头开始阅读的指令：人类：识别图像中的文本。 AI：{所有文本}，
继续阅读的指令：人类：这张图片上的文字是{左文本}。继续阅读正文。 AI：{正确的文本}

关键点生成任务

为了增强视觉和语言语义理解能力，设计一个辅助的关键点生成任务，该任务要求模型给出关于图像的一些关键点。

收集每个图像的 QA 对，并使用 Vicuna将它们转换为陈述句，这些陈述句最终被视为关于图像的关键点。我们还构建了一组模板来指导这项任务，例如

人类：识别这张图中的一些关键点。 AI：{要点}

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-26

Ollama-Deep-Researcher-本地Mac结合魔搭社区模型搭建网页研究助手

2025-04-25

Manus开源版本！无需邀请码，老金手把手教你咋用！

2025-04-25

78k star，像写 Markdown 一样画流程图，这个开源工具太牛了！

2025-04-25

MarkItDown MCP：一款好用的将文件和办公文档转换为Markdown的AI工具！

2025-04-24

AI+SQL客户端，这款开源神器让数据库管理像聊天一样简单！

2025-04-24

效率革命！GitHub爆火的开源神器MinerU：PDF、网页、电子书一键转Markdown

2025-04-24

Suna：构建你专属“通用智能体”的开源利器

2025-04-24

开源TTS领域迎来重磅新星！Dia-1.6B：超逼真对话生成，开源2天斩获6.5K Star！

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

万字详解DeepSeek-R1，引爆AI圈的又一力作，大模型爆发势不可挡！

2025-01-21

太强了！10大开源大模型！

2024-05-06

QWEN2.5开源上新，14B/32B回归实测：这就是最强单卡本地模型！

2024-09-20

全民进入GPT-4时代：OpenAI强势推出GPT-4o mini！彻底取代GPT-3.5！

2024-07-20

如何免费使用 Claude AI？Claude使用指南！

2024-07-11

Qwen2 阿里最强开源大模型（Qwen2-7B）本地部署、API调用和WebUI对话机器人

2024-06-12

开源项目Composio：突破 AI 智能体开发的边界

2024-08-13

DeepSeek-V3 正式发布

2024-12-26

大家都在问

AI大模型火热，将 Hugging Face大模型转换为 GGUF 为何受关注？

2025-04-21

微软最新 Playwright MCP 服务器强势来袭？

2025-04-19

OpenAI开源的Codex CLI是什么？

2025-04-17

MCP，这个AI 开源协议有多大想象空间？

2025-04-15

Google ADK，知多少？

2025-04-13

一文看懂谷歌 A2A：它到底是个啥？为什么能带AI Agent 组队开黑？

2025-04-10

实测Llama 4，究竟是王者归来，还是廉颇老矣？

2025-04-07

4天开发，1700万美元融资：开源的Browser Use为啥这么火？

2025-04-03

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB