AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


DeepSeek-VL:深度求索的多模态大模型初探,模型论文双发布
发布日期:2024-05-08 04:44:39 浏览次数: 2160


继语言、代码、数学等大模型发布后,深度求索带来AGI征程上的又一早期成果...
DeepSeekVL,对训练数据、模型架构和训练策略进行联合拓展,构建出最强开源7B与1.3B多模态模型。


Highlights
  • 数据:多来源多模态数据增强模型通用跨模态能力,混合大比例纯文本数据以保持模型语言能力不退化

  • 架构:使用双视觉编码器结构,对低级视觉信号和高级语义信息同样敏感

  • 训练:采用三阶段训练法,先对齐视觉和语言空间,再通过预训练提高模型的通用跨模态理解能力,最后通过具体的任务数据来对齐人类偏好

  • 实验:超越同规模(7B 参数)的 EMU2-Chat/Yi-VL 等模型,甚至超过更大规模(17B 参数)的 CogVLM

模型和论文均已开源

论文地址https://arxiv.org/abs/2403.05525

模型下载:https://huggingface.co/deepseek-ai

GitHub主页:https://github.com/deepseek-ai/DeepSeek-VL



模型优势

DeepSeek-VL在不丢失语言能力的情况下融入多模态能力,能够对绝大多数现实场景下的问题给出细致而有条理的回复。能够接受大尺寸分辨率图片作为输入,高达1024x1024,识别图片中的细小物体。同时具备通用多模式理解能力,能够处理逻辑图、网页、公式识别、科学文献、自然图像,以及在复杂场景中体现智能。

实际体验如何?我们来看一些例子。

可以看到,DeepSeek-VL在具备强大图文理解能力的同时,生成的回复极具条理。DeepSeek-VL的强大能力来自于研究人员在数据,模型结构和训练策略这三大方面的综合考量。
同时,DeepSeek-VL在公开数据集榜单的表现上也可圈可点,在7B上超越同规模(7B 参数)的 EMU2-Chat/Yi-VL 等模型,甚至超过更大规模(Vision+LLM总参数量17B 参数)的 CogVLM。在1.3B上更是超过当前2.7B尺寸模型 (MobileVLM V2)。
此外,在用于人工评测的99个测试样本中,我们利用GPT-4V对Deepseek-VL与其他模型的表现进行了对比评估。结果显示,在多数情况下,GPT-4V更倾向于认为Deepseek-VL的回答质量更高。如下图所示,与包括Fuyu-8B、CogVLM和InterLM在内的开源多模态模型相比,Deepseek-VL在超过60%的案例中被评价为更优。此外,与其他专有模型如GPT-4V本身及Qwen模型相比,Deepseek-VL同样表现出了匹敌的出色性能。


数据-多样,可扩展

我们致力于确保我们的数据多样化的同时具备可扩展性,数据来源于Common Crawl、网络代码、电子书、教育材料以及arXiv文章等资源。我们的数据集广泛覆盖了包括网页截图、PDF文件、OCR数据集、图表和基于知识的内容(专业知识、教科书)在内的真实世界场景,旨在尽可能的包含真实世界的实际场景。


架构-兼具语言理解与细粒度识别

考虑到效率和大多数真实世界场景的需求,DeepSeek VL集成了一个混合视觉编码器,可有效处理高分辨率图像(1024 x 1024),同时保持相对较低的计算开销。这种设计选择确保了模型捕获关键语义和各种视觉任务的详细信息。


训练-语言和图像,缺一不可
DeepSeek-VL与通过直接的多模态输入对预训练的大型语言模型(LLMs)进行微调的传统方法有所不同。相反,我们提倡使用集成视觉和语言数据的方式对LLMs进行预训练。我们采用了一种倾向于语言的训练策略,在保持语言上的卓越性的同时,也赋予模型强大的多模态理解能力。我们发现,较高的语言比例(高达70%)能在保持语言能力同时实现强大的多模态理解能力。这一策略旨在开发跨越两种模态的更深层次、共享的表示,从而增强模型综合能力。


关于DeepSeek

DeepSeek(深度求索),致力于探索AGI的本质,以开源汇聚更多的创造力和生产力。

未来我们会持续发布更大规模、创新框架、以及复杂推理能力更好的模型!

—end—


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询