我要投稿

阿里全面开源mPLUG-Owl3！超长图像序列理解多模态大模型

发布日期：2024-08-19 22:19:49 浏览次数： 2877

作者：带你学AI

微信搜一搜，关注“带你学AI”

多模态大语言模型（MLLMs）已经在处理单张图片任务上表现得非常出色。不过，当涉及到长图片序列的处理时，仍然有很多困难需要解决。为此，阿里推出了一款名叫mPLUG-Owl3的模型，它不仅功能强大，还能在需要结合图文知识、混合图文内容和处理长视频的场景中，更好地理解长图片序列。

现有的一些多图输入方法存在两个主要问题：像LLaVA-Next-Interleave等模型将视觉特征直接与文本序列拼接，这在处理多图长序列时会导致高昂的计算成本；而Flamingo等模型使用的cross-attention结构虽然降低了计算开销，但却导致了视觉信息的细节损失，限制了它们在单图和多图任务中的表现。为此，mPLUG-Owl3特别设计了一个叫‘超注意力模块’的新技术，能够高效地将视觉和语言整合在一起，使得处理多张图片的任务变得更加轻松。

01 技术原理

mPLUG-Owl3模型的核心结构由三个主要部分组成：视觉编码器SigLIP-400M、语言模型Qwen2，以及连接这两者的线性层。视觉编码器首先从图像中提取特征，然后通过线性层将这些特征映射到与语言模型相同的维度。在文本序列中，使用了特殊的标记来表示图像位置，并采用self-attention和cross-attention并行建模的方式，将图像特征与文本特征融合在一起。

与Flamingo和EVLM等模型在语言模型的每一层都插入cross-attention层的做法不同，mPLUG-Owl3只在网络中的少数层使用了他们提出的Hyper Attention Transformer Block（HATB）。这种方法避免了引入大量额外的参数和计算负担，同时仍然实现了有效的特征融合。

视觉特征和文本特征首先会经过一个共享的层（LN层）进行处理。在实验中发现，使用同一个LN层来处理视觉和文本输入，比为视觉输入单独设置一个LN模块能带来更好的效果。通过LN层处理后，延续了mPLUG-Owl2的做法，为视觉输入设置了专门的Key-Value映射，同时与文本输入共享相同的Query映射。这样做既能保留视觉特征的独特性，又能让语言模型根据文本的语义，灵活获取所需的视觉信息。

在完成文本间的self-attention和跨模态的cross-attention并行建模后，设计了一种自适应门控机制。通过计算文本特征线性映射后的激活值来获得门控值，实现了文本和视觉信息的自适应融合。

另外，在进行attention建模之前，引入了一种叫做多模态交错旋转位置编码（MI-Rope）的方法，来保留图像和文本的位置信息。因为在文本序列中，图像是用特殊标记表示的，对于第n幅图像，它的所有patch特征都会共享同一个标记位的位置编码。这种设计确保了位置编码不仅能反映图像的顺序，也能反映图像在整个文本序列中的具体位置。

02 实际示例

mPLUG-Owl3可以从检索系统中学习知识。

mPLUG-Owl3 还可以通过交错的图像文本上下文与用户聊天。

mPLUG-Owl3可以观看电影等长视频并记住其细节。

https://huggingface.co/spaces/mPLUG/mPLUG-Owl3https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl3

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-10-31

DeepSeek-OCR多模态数据分析Agent实战

2025-10-22

DeepSeek-OCR 实测

2025-09-25

Qwen3-Omni：一个模型，全能不偏科

2025-09-19

手把手教学：用n8n+RSS+飞书实现多平台热点自动抓取（含RSS源分享）

2025-09-17

多模态AI质检：身份核验场景实践

2025-09-06

多模态大模型Keye-VL-1.5发布！视频理解能力更强！

2025-09-03

Nano Banana 暴击 GPT-4o 绘图，谷歌赢麻了

2025-09-02

首个Nano-banana企业级多模态RAG教程，适合电商、游戏场景

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Nano Banana 暴击 GPT-4o 绘图，谷歌赢麻了

2025-09-03

MiniMax音频依托MCP协议，打造多模态Tool新标杆!

2025-09-01

手把手教学：用n8n+RSS+飞书实现多平台热点自动抓取（含RSS源分享）

2025-09-19

首个Nano-banana企业级多模态RAG教程，适合电商、游戏场景

2025-09-02

多模态大模型Keye-VL-1.5发布！视频理解能力更强！

2025-09-06

2025-08-04

2025-08-25

2025-08-18

2025-10-22

Qwen3-Omni：一个模型，全能不偏科

2025-09-25

大家都在问

GenAI的多模态数据智能平台如何构建？

2025-08-04

本地AI对话神奇，ChatWise到底有什么用？

2025-05-26

什么是基于知识图谱的多模态推理？

2025-05-13

AI数字人领域重大突破：告别拼凑式合成，阿里OmniTalker能否开启音视频一体化新时代？

2025-04-08

Midjourney V7全面测评：50组多风格提示词实测，是否还有领先优势?

2025-04-05

如何结合多模态RAG和异步调用实现大模型内容理解？

2025-03-30

Chat GPT文生图不用DALL·E模型了？

2025-03-26

如何构建多模态AI知识库？

2025-03-05

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB