我要投稿

DeepSeek-VL：深度求索的多模态大模型初探，模型论文双发布

发布日期：2024-05-08 04:44:39 浏览次数： 4146 作者：DeepSeek

继语言、代码、数学等大模型发布后，深度求索带来AGI征程上的又一早期成果...

DeepSeekVL，对训练数据、模型架构和训练策略进行联合拓展，构建出最强开源7B与1.3B多模态模型。

Highlights

数据：多来源多模态数据增强模型通用跨模态能力，混合大比例纯文本数据以保持模型语言能力不退化
架构：使用双视觉编码器结构，对低级视觉信号和高级语义信息同样敏感
训练：采用三阶段训练法，先对齐视觉和语言空间，再通过预训练提高模型的通用跨模态理解能力，最后通过具体的任务数据来对齐人类偏好
实验：超越同规模（7B 参数）的 EMU2-Chat/Yi-VL 等模型，甚至超过更大规模（17B 参数）的 CogVLM

模型和论文均已开源

论文地址：https://arxiv.org/abs/2403.05525
模型下载：https://huggingface.co/deepseek-ai
GitHub主页：https://github.com/deepseek-ai/DeepSeek-VL

模型优势

DeepSeek-VL在不丢失语言能力的情况下融入多模态能力，能够对绝大多数现实场景下的问题给出细致而有条理的回复。能够接受大尺寸分辨率图片作为输入，高达1024x1024，识别图片中的细小物体。同时具备通用多模式理解能力，能够处理逻辑图、网页、公式识别、科学文献、自然图像，以及在复杂场景中体现智能。

实际体验如何？我们来看一些例子。

可以看到，DeepSeek-VL在具备强大图文理解能力的同时，生成的回复极具条理。DeepSeek-VL的强大能力来自于研究人员在数据，模型结构和训练策略这三大方面的综合考量。

同时，DeepSeek-VL在公开数据集榜单的表现上也可圈可点，在7B上超越同规模（7B 参数）的 EMU2-Chat/Yi-VL 等模型，甚至超过更大规模（Vision+LLM总参数量17B 参数）的 CogVLM。在1.3B上更是超过当前2.7B尺寸模型（MobileVLM V2）。

此外，在用于人工评测的99个测试样本中，我们利用GPT-4V对Deepseek-VL与其他模型的表现进行了对比评估。结果显示，在多数情况下，GPT-4V更倾向于认为Deepseek-VL的回答质量更高。如下图所示，与包括Fuyu-8B、CogVLM和InterLM在内的开源多模态模型相比，Deepseek-VL在超过60%的案例中被评价为更优。此外，与其他专有模型如GPT-4V本身及Qwen模型相比，Deepseek-VL同样表现出了匹敌的出色性能。

数据-多样，可扩展

我们致力于确保我们的数据多样化的同时具备可扩展性，数据来源于Common Crawl、网络代码、电子书、教育材料以及arXiv文章等资源。我们的数据集广泛覆盖了包括网页截图、PDF文件、OCR数据集、图表和基于知识的内容（专业知识、教科书）在内的真实世界场景，旨在尽可能的包含真实世界的实际场景。

架构-兼具语言理解与细粒度识别

考虑到效率和大多数真实世界场景的需求，DeepSeek VL集成了一个混合视觉编码器，可有效处理高分辨率图像（1024 x 1024），同时保持相对较低的计算开销。这种设计选择确保了模型捕获关键语义和各种视觉任务的详细信息。

训练-语言和图像，缺一不可

DeepSeek-VL与通过直接的多模态输入对预训练的大型语言模型（LLMs）进行微调的传统方法有所不同。相反，我们提倡使用集成视觉和语言数据的方式对LLMs进行预训练。我们采用了一种倾向于语言的训练策略，在保持语言上的卓越性的同时，也赋予模型强大的多模态理解能力。我们发现，较高的语言比例（高达70%）能在保持语言能力同时实现强大的多模态理解能力。这一策略旨在开发跨越两种模态的更深层次、共享的表示，从而增强模型综合能力。