我要投稿

RAG用于翻译实现思路及多模态模型用于文档理解的几个核心问题

发布日期：2024-12-17 13:18:01 浏览次数： 2429

作者：老刘说NLP

微信搜一搜，关注“老刘说NLP”

今天是2024年12月07日，星期六，北京，天气晴。

我们今天来看看文档多模态的几个调研结论，说两个问题，一个是多模态模型LVLMs用于文档理解的几个问题，看看目前的几个研究点，一个是RAG用于翻译任务的思路。

都很有趣，供大家一起参考。

供各位参考，多思考，多总结，多实践；

一、多模态视觉模型LVLMs用于文档理解的几个问题

这段时间看了下多模态模型LVLMs用于文档理解的工作，主要总结为以下几个问题：

其一，低分辨率图像导致的大量视觉信息丢失，通用MLLMs缺乏针对文档导向的视觉指令微调，现有MLLMs在处理文本丰富图像时，视觉编码器和视觉到文本（V2T）模块缺乏对文本和结构信息的优化；

其二，高分辨率图像的编码时候如何在视觉和语言特征对齐过程中保持结构和空间信息。高分辨率导致视觉令牌序列过长，增加计算成本，固定分辨率或压缩比的方法在文档场景中效果不佳，因为内容密度差异显著；

其三，现有方法在处理高分辨率文档图像时，难以平衡细节感知和计算效率。尤其是在处理特殊视觉任务时，如文档级OCR或图表理解，尤其是非英语场景下，CLIP风格词汇表在分词视觉知识时效率低下，甚至出现词汇表外的问题。

其四，当前很多方法通常只关注纯文本或有限数量的文档图像，难以处理长PDF文档中的交错文本和图像；长文档的处理效率和准确性随着文档长度的增加而下降；现有的多模态理解模型在处理多页长文档时资源消耗大，效率低。

所以，就相关工作而言，包括两个主要方向：

1、LVLMs用于高分辨率理解

视觉大模型通常采用CLIP-ViT作为视觉编码器来处理依赖于视觉的任务。然而，视觉编码器依赖于低分辨率，例如224×224或336×336像素，这限制了其在高分辨率任务中的有效性，如OCR和文档/图表感知。

为了增强高分辨率理解，最近的工作主要采用了以下策略：

一个是高分辨率（HR）视觉编码器或双编码器，以适应HR和低分辨率（LR）输入。例如，Vary引入了一个新的图像编码器，支持HR输入，然后与原始CLIP视觉编码器的LR嵌入进行连接。同样，CogAgent和Mini-Gemini也使用不同的视觉编码器分离HR和LR图像，随后通过交叉注意力模块合并它们的特征。

一个是裁剪的图像块。例如，Monkey使用滑动窗口将图像分割成块，随后使用LoRA微调进行处理。TextMonkey进一步提出了偏移窗口注意力和令牌重采样器，以考虑不同块之间的连接。这些方法局限于一些预定义的高分辨率设置或有限的分辨率范围。

但分辨率上来了，涉及到计算复杂度的问题，所有就有个方向，就是压缩token。

2、LVLMs用于文档理解

文档理解涉及分析和理解各种数字文档，如图表、表格和学术论文。许多文档理解任务要求模型处理高分辨率输入、复杂布局、各种纵横比和多样化的文档格式。

为了增强LVLMs在文档理解方面的能力，一些工作收集和构建了高质量的文档指令调整数据，包括LLaVAR、mPLUG-DocOwl和TGDoc。

例如，DocPedia在频域中处理文档输入。一些以前的工作通过为高分辨率输入设计特殊模块来提高文档理解能力，如HR和LR编码器或裁剪的图像块。InternLM-XComposer2-4KHD首先扩展到4K分辨率输入。

二、RAG用于翻译任务的思路

将机器翻译(RAG)引入了机器翻译(MT)，主要可以分为以下两个方向：

一种是检索上下文示例（也称为“翻译记忆”）：对于源句子，从双语语料库中检索相关的配对句子，以增强模型的翻译。或者放开双语限制，并尝试直接检索与目标语言相似的翻译，以增强模型。一个代表的例子是《Improving Retrieval Augmented Neural Machine Translation by Controlling Source and Fuzzy-Match Interactions》(https://aclanthology.org/2023.findings-eacl.22.pdf)

一种是检索知识三元组，从知识图中检索相关信息，让模型了解源句子相关的领域或文化知识，例如，《Towards Cross-Cultural Machine Translation with Retrieval-Augmented Generation from Multilingual Knowledge Graphs》 (https://aclanthology.org/2024.emnlp-main.914.pdf)