我要投稿

GPT-4o掀起全模态热潮！一文梳理全模态大模型最新研究进展

发布日期：2024-12-19 20:42:15 浏览次数： 2192 作者：PaperWeekly

随着 Gemini 和 GPT-4o 等系列的发布，本文尝试总结一些最近全模态相关的工作。采用联合文本、图像、语音和视频进行训练，用一个端到端的模型可以支持文本、语音和图像三个模态，在支持图生文的同时也支持文生图。

Emu

论文标题：

Emu: Generative Pretraining in Multimodality

论文地址：

https://arxiv.org/abs/2307.05222

代码地址：

https://github.com/baaivision/Emu

a. Visual Encoder：先用 EVA-CLIP 进行图像编码，然后通过 Causal Transformer 进行 2D 信息建模，query 是自定义的向量，key 和 value 来自于视觉编码。

b. LLM 阶段训练：用 LLM 进行 next-token 学习，文本 Token 算交叉熵，图像 Token 算 L2 loss。

c. Visual Decoder：采用 Stable Diffusion 进行初始化，将 LLM 输出的 visual embeddings 作为 conditions 输出到 Stable Diffusion，将 Stable Diffusion 的 cross-attention 的 linear projections 维度换成适配 visual embeddings 的。

d. Visual Decoder 阶段训练：只训练 U-Net，其他参数不变。

NExT-GPT

论文标题：

NExT-GPT: Any-to-Any Multimodal LLM

论文地址：

https://arxiv.org/abs/2309.05519

主页地址：

https://next-gpt.github.io/

a. 多模态编码阶段：利用用 ImageBind 的编码器，loss 是各个模态的 caption。

b. 多模解码阶段：主要目的是使扩散模型与 LLM 的输出指令保持一致，最小化 LLM 的模态信号 token 表示与扩散模型（图像合成的 Stable Diffusion、视频合成的 Zeroscope 和音频合成的 AudioLDM）的条件文本表示之间的距离，确保了高度轻量级的训练。遵循和理解用户指令并生成所需多模态输出，只训练不同模态的 Linear 和 Lora，同时增加扩散的 Loss。

Emu2

论文标题：

Generative Multimodal Models are In-Context Learners

论文地址：

https://arxiv.org/abs/2312.13286

主页地址：

https://baaivision.github.io/emu2

a. Visual Encoder 使用 EVA-02-CLIP-E-plus，LLM 使用 LLaMA-33B，Visual Decoder 使用 SDXL。

b. 一阶段：在图像和视频 pair 对上进行 caption 学习。

c. 二阶段：Freeze Visual Encoder，使用 text classification loss and image regression loss。

d. 三阶段：训练 Visual Decoder，和 Emu1 区别是训练的时候不用 LLM 输出的 visual token，直接用 Visual Encoder 的输出，还是只训练 U-Net，其他参数不变。

LWM

论文标题：

World Model on Million-Length Video And Language With Blockwise RingAttention

论文地址：

https://arxiv.org/abs/2402.08268

主页地址：

https://largeworldmodel.github.io/lwm/

a. Visual Encoder：VQGAN 做离散化，256*256 分辨率 -> 256 tokens。

b. 训练：next-token 预测，主要为了解决长序列使用了 RingAttention, Blockwise Transformers, masked sequence packing。

Chameleon

论文标题：

Chameleon: Mixed-Modal Early-Fusion Foundation Models

论文地址：

https://arxiv.org/abs/2405.09818

主页地址：

https://github.com/facebookresearch/chameleon

a. Visual Encoder：VQ-VAE 进行图像 token 离散化，512*512->1024 tokens，词表 8192。

b. 训练：next-token 预测

SEED

论文标题：

Planting a SEED of Vision in Large Language Model

论文地址：

https://arxiv.org/abs/2307.08041

主页地址：

https://github.com/AILab-CVC/SEED

a. 训练 tokenizer：先训练 Causal Q-Former，使用 SD 的 Text Encoder 进行对比 Loss。然后进行 Visual Quantization and De-tokenization 学习，将 Genearation Embedding 和 SD 的 Text Encoder 的输入靠近，其中 ViT Encoder 和 SD Decoder 参数不参与学习。

b. LLM 阶段训练：进行 next token 预测

Transfusion

论文标题：

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

论文地址：

https://arxiv.org/abs/2408.11039

主页地址：

https://github.com/lucidrains/transfusion-pytorch

a. 利用 VAE encode 和 decode 图像，Linear 换成 U-net

b. 文本做自回归，图像做自编码，利用 transfomer 实现扩散，进行多步生。

Show-o

论文标题：

Show-o: One Single Transformer to Unify Multimodal Understanding and Generation

论文地址：

https://arxiv.org/abs/2408.12528

主页地址：

https://github.com/showlab/Show-o

a. 整体思路和 Transfusion 类似，区别是尝试了 discrete diffusion（比如 MaskGIT 和 Muse，其中 Muse 多了一个超分辨率模型学习高层次的语义，不能说明 continuous 比 discrete 的要好，discrete image tokenizer 没有像 clip 那样用超大规模图文对训练），图像用 MAGVIT-v2 进行离散化，256*256 分辨率->256 tokens。

b. 图像生成部分利用 MaskGIT（自回归解码的方法里面，生成后面的 token 时候需要前面所有的 tokens 的信息，这个过程不能够并行，图像改成双向注意力可以并行。

最近的 DeepMind 的 FLUID 消融实验 Random Order 预测 + Token 连续方式效果好一些）方式，使用 mask 方式多步生成图像，具体在是每次迭代中，模型同时预测所有 tokens，但只保留置信度最高的 tokens，剩余的 tokens 在下一次迭代中重新预测，掩码的比例逐渐减少，直到所有 tokens 在多次迭代内生成。

Emu3

论文标题：

Emu3: Next-Token Prediction is All You Need

论文地址：

https://arxiv.org/abs/2409.18869

主页地址：

https://emu.baai.ac.cn/

a. 图像基于SBER-MoVQGAN训练一个离散化tokenzier，512*512->4096 tokens，词表大小 32768。

b. Next-Token 预测，可能是因为生成和理解相互影响，最后分成了两个模型（理解、生成）。

总结

近期多模态大模型发展迅速，目前主流还是图生文和文生图分开，图生文采用 VIT+LLM 的方式，文生图采用 Duffsion 的方式。随着全模态大模型的发展，也大概能分成 token 离散化、AR+diffusion 融合和将 LLM 输出的 Visual Embeddings 作为 Stable Diffusion 的 Text Conditions 的方式。

目前每种方式都各有利弊，都是还处在前期阶段，但是相信全模态大模型在未来应该是一个值得探索的方向，实现端到端的多模态训练、集成全模态输入输出和强大的多模态理解与生成能力。