微信扫码
与创始人交个朋友
我要投稿
继语言、代码、数学等大模型发布后,深度求索带来AGI征程上的又一早期成果...
数据:多来源多模态数据增强模型通用跨模态能力,混合大比例纯文本数据以保持模型语言能力不退化
架构:使用双视觉编码器结构,对低级视觉信号和高级语义信息同样敏感
训练:采用三阶段训练法,先对齐视觉和语言空间,再通过预训练提高模型的通用跨模态理解能力,最后通过具体的任务数据来对齐人类偏好
实验:超越同规模(7B 参数)的 EMU2-Chat/Yi-VL 等模型,甚至超过更大规模(17B 参数)的 CogVLM
论文地址:https://arxiv.org/abs/2403.05525
模型下载:https://huggingface.co/deepseek-ai
GitHub主页:https://github.com/deepseek-ai/DeepSeek-VL
DeepSeek-VL在不丢失语言能力的情况下融入多模态能力,能够对绝大多数现实场景下的问题给出细致而有条理的回复。能够接受大尺寸分辨率图片作为输入,高达1024x1024,识别图片中的细小物体。同时具备通用多模式理解能力,能够处理逻辑图、网页、公式识别、科学文献、自然图像,以及在复杂场景中体现智能。
实际体验如何?我们来看一些例子。
数据-多样,可扩展
我们致力于确保我们的数据多样化的同时具备可扩展性,数据来源于Common Crawl、网络代码、电子书、教育材料以及arXiv文章等资源。我们的数据集广泛覆盖了包括网页截图、PDF文件、OCR数据集、图表和基于知识的内容(专业知识、教科书)在内的真实世界场景,旨在尽可能的包含真实世界的实际场景。
考虑到效率和大多数真实世界场景的需求,DeepSeek VL集成了一个混合视觉编码器,可有效处理高分辨率图像(1024 x 1024),同时保持相对较低的计算开销。这种设计选择确保了模型捕获关键语义和各种视觉任务的详细信息。
DeepSeek(深度求索),致力于探索AGI的本质,以开源汇聚更多的创造力和生产力。
未来我们会持续发布更大规模、创新框架、以及复杂推理能力更好的模型!
—end—
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-04-26
2024-05-10
2024-04-12
2024-05-28
2024-05-14
2024-04-25
2024-07-18
2024-04-26
2024-05-06
2024-12-22
2024-12-21
2024-12-21
2024-12-21
2024-12-21
2024-12-20
2024-12-20
2024-12-19