我要投稿

9000 字详细解读阿里万象 2.1(Wan2.1)最新技术报告

发布日期：2025-04-07 06:30:18 浏览次数： 1979 作者：哆啦的AI产品实践录

2月，阿里通义实验室开源了自己的 Wan2.1 视频生成模型。模型非常强大，在复杂运动、物理模拟、可控编辑等方面表现卓越。遗憾的是，技术报告一直都未发布，我们也无从知道他们是怎么进行工作的。就在3月21日，他们终于发布了 Wan2.1 的技术报告，在这一篇，我们会对该模型技术报告第 3 部分数据处理，第 4 部分模型设计与加速进行解读，来看一下模型是如何练成的。

技术报告链接：

https://github.com/Wan-Video/Wan2.1?tab=readme-ov-file

3 数据处理pipeline

高质量数据是训练视频生成模型的关键，高效的数据构建流程可显著提升训练效率。报告中详细介绍了 Wan 模型使用的数据构建pipeline，遵循高质量、高多样性和大规模三大原则，构建了包含数十亿视频和图像的数据集。

3.1 预训练数据

通义实验室从内部版权资源和公开数据中筛选并去重，构建候选数据集。在预训练阶段，通过四步清洗流程筛选出高质量、多样性强的数据。主要包括以下方面，基础维度，视觉质量，运动质量，视觉文字数据。

基础维度

通过多维过滤方式，剔除不适合训练的数据，包含：文本检测、美学评估、NSFW评分、水印与logo检测、黑边检测、曝光检测、合成图检测、模糊检测、时长与分辨率。

经过这一阶段，约50%的原始数据被剔除，保留的数据将进入更高层次的语义筛选。

视觉质量

目标是选取符合预训练标准的高质量图像/视频。流程分为两步：

聚类：将数据划分为100个子集，确保长尾数据的保留；

评分：手工打分后训练评估模型，对整个数据集进行打分，指导后续筛选。

运动质量

用于选取自然、完整、运动明显的视频，剔除静态或抖动视频。共分六类：

最优运动：运动显著、平滑，优先采样；

中等质量运动：有轻微遮挡或多个主体，保持多样性；

静态视频：如访谈类，质量高但运动信息少，采样比例低；

摄像机驱动运动：如航拍，仅摄像头移动，采样优先级低；

低质量运动：遮挡严重、主体不清，直接剔除；

抖动画面：因抖动导致模糊，完全剔除。

视觉文字数据

为提升文字生成能力，采用双分支处理方案：

合成数据：在纯白背景上合成大量中文字符图像；

真实数据：从真实图像和视频中提取含文字图像，使用多种 OCR 模型识别中英文，结合 Qwen2-VL 模型生成自然描述，构建大规模图文对。

该流程通过融合合成与真实数据，显著提升了视频中文字生成的准确性与真实感，能有效生成罕见文字内容。

3.2 后训练数据

后训练的核心目标是，通过高质量数据进一步提升生成视频的视觉真实感和运动动态效果。本阶段的数据处理pipeline对静态图像和动态视频采用不同策略：图像数据侧重视觉质量优化，视频数据侧重运动质量优化。

图像处理

在高分图像数据中进一步精炼，挑选在质量、构图、细节等方面表现突出的样本。具体包括两种方式：

专家模型筛选：基于专家模型打分，选取前20%的图像，同时考虑风格和类别，保证分布多样性；

人工收集：人工从不同类别和数据源中收集高质量图像，补充缺失概念，增强模型泛化能力。最终共收集到数百万张精选图像。

视频处理视频数据处理方式与图像类似，目标是筛选高质量运动视频。步骤包括：

首先用视觉质量分类器筛选高分视频；然后结合运动质量分类器，分别选出包含简单和复杂运动的数百万条视频；采样过程中注重类别平衡和多样性，从技术、动物、艺术、人类、交通等12大类中采集数据，以提升模型在常见类别中的生成表现。

3.3 稠密视频描述（Dense Video Caption）

尽管数据集中已有部分图像与视频的网页文本描述，但这些描述通常过于简略，难以传达丰富的视觉信息。受DALL·E启发，团队构建了自研的图文生成模型，用于为每一张图像和每一段视频生成高密度描述文本，提升生成模型对提示词的理解能力。该模型训练使用了开源与自建的数据集。

3.3.1 开源数据集

团队收集了广泛使用的图像与视频图文数据集，包括图文描述数据集和视觉问答（VQA）数据集，涵盖动作、计数和OCR等内容。同时，为增强模型的指令遵循能力，还引入了大量纯文本指令数据。

3.3.2 自建数据集

团队针对特定任务自建多个子数据集，进一步增强模型能力：

名人、地标、影视角色识别：通过LLM获取人物名称，结合CLIP风格模型（如 TEAM）从图文库中检索相关图像，并结合关键词匹配进行筛选，提升模型识别能力，尤其在中文人物上表现突出。

目标计数：从包含“one”、“two”、“three”等数字的图像中提取粗略标注，通过LLM提取（类别，数量）对，再使用Grounding DINO验证计数结果，仅保留描述与检测一致的图像。

OCR：构建OCR增强图文数据集，使用OCR工具提取图中文字，再引导生成模型在此基础上生成图文描述，当前支持中英文。

摄影角度与运动描述：为解决现有多模态语言模型在摄像机角度和运动预测方面的不足，人工标注一批视频用于训练或扩展，用于提升视频生成中对镜头控制的表现力。

细粒度分类：构建包含数百万张动植物、交通工具等细分类别的图像数据集，提升模型识别精度。

关系理解：引入强调空间关系（如上下左右）的数据集，提升模型的空间理解能力。

重描述（Re-caption）：基于已有标签或简短描述，生成更详细的图文描述，用于训练模型扩展内容表达能力。

编辑指令描述：构建图像对比描述数据集，指出两张图像之间的变化，用于图像编辑任务。

图组描述：为一组图像生成整体与个体描述，提升模型对图组的理解与描述能力。

人工标注描述：收集高质量的人工密集图文描述数据，作为训练后期的核心数据，确保最终模型生成效果优异。

3.3.3 图文生成模型设计

整体框架

采用了LLaVA 风格整体框架，主要包括：

Vision Transformer (ViT)：负责把图片（或视频帧）转成高维视觉特征向量。

Perception 模块：两层简单的 MLP（多层感知机），作用是把 ViT 输出的视觉特征“翻译”成 Qwen 大语言模型（LLM）能理解的输入格式。

Qwen LLM：生成最终的文本（描述、回答等）。

图像输入处理

主要做了两步，动态分区和自适应池化。

第一步，动态分区，最多把一张高分辨率图划分为7个区域，这样可以控制算力开销；

第二步，自适应池化，上一步中划分出的每个区域被池化成形成12×12的网格表示，这样可以降维但保留空间信息。

结果：每张图最终变成 ≤7×(12×12) 个视觉 token，既保留细节又减小计算量。

视频输入处理

实验（VideoMME 数据集）显示，此策略使准确率从 67.6% 提升到 69.1%。

三阶段训练流程

为什么要分三步？

阶段1：防止大模型参数在刚开始就被噪声梯度破坏；快速学习“桥接层”

阶段2：所有模块联合微调，确保视觉特征和语言表征彼此适配

阶段3：用高质量数据做最后精修，提升生成文本的准确性和自然度

这样分阶段训练，比直接端到端训练更稳定，也能获得更好的最终性能。

3.3.4 图文生成模型评估

为系统评估模型性能，团队基于 CAPability 方法构建了自动化评估流程，聚焦视频生成中的10个核心视觉维度：动作、摄影角度、摄像运动、物体类别、物体颜色、目标计数、OCR、场景、风格、事件。

评估方法为：对每个维度随机采样1000个视频及其模型生成的描述，同时生成 Gemini 1.5 Pro 的描述作为对比，通过计算F1分数进行维度评估。

评估结果显示：

Wan2.1 在事件、摄影角度、摄像运动、风格、物体颜色上表现更佳；

Gemini 在动作、OCR、场景、物体类别与计数方面更具优势。

4 模型设计与加速

4.1 时空变分自编码器

团队提出了一种专为视频生成任务设计的3D变分自编码器（Wan-VAE），用于解决传统VAE在处理视频数据时面临的三大挑战：

视频具有复杂的时空依赖结构，难以建模；
视频的高维特性（如多帧高分辨率）导致内存和计算成本高，限制了VAE在长视频上的可扩展性；
生成过程需保持时间因果性（即未来帧不能影响过去帧），这增加了架构设计的复杂性。

为此，Wan-VAE 融合多种策略以提升时空压缩能力；降低内存占用；保证时间因果性。从而实现更高效、可扩展的模型设计，适用于后续如 DiT 等基于扩散模型的视频生成任务。

4.1.1 模型设计

Wan-VAE 架构如图5所示，核心思路就是 在保证关键视觉质量的前提下，大幅压缩时空维度＋减小模型规模，从而让视频生成/编码既高效（低延迟、低显存），又足够准确（保留第一帧细节＋合理归一化保证预测质量）。具体如下：

4.1.2 训练

Wan-VAE 的训练采用三阶段策略，先学静态空间表征，再学简单时序，最后复杂时序＋真实感，既加快训练速度，也稳固模型基础。具体如下：

4.1.3 高效推理

为支持对任意长度视频的编码和解码，Wan-VAE 引入了特征缓存机制，集成于因果卷积模块中：

视频按照 1 + T 帧输入格式处理，划分为 1 + T/4 个片段（chunk），对应每个潜变量；

每次只处理一个chunk，避免整体加载，单个chunk最多包含4帧，有效防止内存溢出；

利用前一个chunk的帧级缓存特征来保持时间连续性，避免因chunk切分造成因果性中断。

图6展示了两种典型场景：

图6(a)：默认设置下，卷积核大小为3，需要保留两个历史帧作为缓存；

图6(b)：当使用2×时间下采样（stride=2）时，非首个chunk需用单帧缓存填充，确保维度一致、因果一致。

该机制优化了内存使用，同时保持跨chunk的特征连贯性，支持无限长度视频的稳定推理。

4.1.4 评估

定量评估

通过PSNR和帧处理速度（帧数/延迟秒数）对多种SOTA视频VAE模型进行对比。为公平起见，大多数模型与Wan-VAE使用相同的压缩率（4×8×8）和潜变量维度（16）。

评估视频集共200个视频，每段包含25帧，分辨率为720×720。图7中圆圈大小代表模型参数量。

结果表明，Wan-VAE在视频质量和推理效率两个维度均表现优异。在相同硬件环境下，Wan-VAE的重建速度比当前SOTA（如 HunYuan Video）快2.5倍，且在更高分辨率下这种优势更明显。

这验证了Wan-VAE在视频重建任务和视频生成训练中的高效性，并为未来VAE技术的发展提供了参考。

定性评估：

图8展示了Wan-VAE在多种复杂场景中的视频重建效果，包括纹理、面部、文本和高速运动场景：

结果表明，Wan-VAE在复杂多样场景中具备显著优势。

4.2 模型训练

如图9所示，模型整体架构基于主流的 DiT（Diffusion Transformer），主要包括三大模块：

Wan-VAE（编码器）：将输入视频 V∈R(1+T)×H×W×3V \in \mathbb{R}^{(1+T) \times H \times W \times 3} 从像素空间压缩到潜在空间 x∈R(1+T/4)×H/8×W/8x \in \mathbb{R}^{(1 + T/4) \times H/8 \times W/8}；

扩散Transformer（Diffusion Transformer）：用于建模时空上下文与文本条件；

文本编码器（Text Encoder）：处理输入文本信息。

4.2.1 视频扩散Transformer

该架构设计使模型在保持较小参数量的同时，实现了对文本条件的高效融合与复杂时空关系的精准建模，为高质量文本生成视频任务打下坚实基础。

扩散Transformer主要包含三个部分。

文本编码器（Text Encoder）

模型使用 umT5 作为文本编码器，经实验证明其具备多方面优势：强大的多语言能力：能同时理解中文、英文及视觉文本；优于其他单向LLM模型：在内容组合生成方面表现更优；收敛速度更快：在相同参数规模下更早达到稳定效果。

4.2.2 预训练

模型采用 Flow Matching 框架，在图像和视频两个领域内构建统一的扩散去噪过程。整体预训练流程分为两个阶段：1 低分辨率图像预训练，2 图像-视频联合训练。

训练目标：Flow Matching 提供了一个稳定的连续时间扩散建模方法，可通过常微分方程（ODE）实现稳定训练，并等价于最大似然目标。

图像预训练

在高分辨率图像和长视频序列的联合训练中，面临两个关键挑战：

序列过长（例如1280×720的视频包含81帧），训练吞吐率低，导致模型难以收敛；

显存消耗大，导致批次小，训练不稳定，梯度波动大。

为此，预训练阶段首先在低分辨率图像（256px）上进行文本生成图像的预训练，重点对齐语义与几何结构，为后续视频训练打好基础。

图像-视频联合训练

在完成256px的图像预训练后，采用分阶段、逐步提升分辨率的联合训练策略，包括三个阶段：

阶段一：256px图像 + 分辨率192px、时长5秒的视频（16帧/秒）

阶段二：图像和视频分辨率提升至480px，时长仍为5秒

阶段三：图像和视频进一步提升至720px，时长仍为5秒

这种逐步进阶的课程式训练方式有效提升了图文对齐和视频建模能力。

4.2.3 后训练

在后训练阶段，保持与预训练阶段相同的网络结构和优化器配置，使用预训练模型参数进行初始化。

在 480px 和 720px 分辨率下，对第3.2节中定义的高质量视频数据集进行联合微调训练，进一步提升模型性能并增强实际视频生成能力。

4.3 模型扩展与训练效率

4.3.1 工作负载分析

在 Wan 模型中，训练时的大部分计算负担来自 DiT模块，占比超过85%。相比之下，文本编码器和 VAE 编码器的计算开销较小。DiT 的计算复杂度主要来源于非因果注意力机制，其计算量随序列长度二次增长，而显存则是线性增长，这为后续优化提供了方向。

4.3.2 并行策略

Wan‑VAE 三大模块各自采用最优并行方案：

跨模块切换

VAE/TextEncoder 输出到 DiT 时，通过先各自 DP 处理不同数据，再广播至 CP 组，避免重复计算

有效将 VAE/TextEncoder 在整体迭代中的计算成本降低至原来的 1/CP，大幅提升训练效率

4.3.3 内存优化

在Wan中，计算成本随序列长度s呈二次增长，而GPU内存使用则线性增长。在处理长序列时，计算时间可能超过通过PCIe传输激活值所需的时间。具体来说，传输一个DiT层激活值的时间可以与1到3个DiT层的计算时间重叠。与传统的梯度检查点（Gradient Checkpointing, GC）策略相比，激活值卸载（Activation Offloading）方法由于能实现计算重叠，能够在不牺牲端到端性能的情况下更有效地降低GPU内存使用。因此，优先使用激活卸载来优化GPU内存。在长序列情况下，CPU内存也容易耗尽，因此作者将激活卸载与GC策略结合使用，对GPU内存与计算比高的层优先使用GC策略。

4.3.4 集群可靠性

通过使用阿里云的智能调度、慢机器检测和自愈能力，训练集群在稳定性方面得到了保障。在训练任务启动阶段，系统会检测硬件问题，确保只分配健康节点。在训练过程中，任何故障节点都会被迅速隔离和修复，任务也会自动重启，训练过程可以无缝恢复。这种高效的编排机制将高性能与可靠性结合，保障了系统整体的稳定运行

4.4 推理

为了减少视频生成的延迟，团队进行了一系列工作。由于推理通常需进行约50步的采样操作，因此通过量化、分布式计算及步间注意力相似性利用等方法，来降低每一步的耗时和整体计算量。此外，对于无分类器引导（CFG），也利用其条件与非条件输出间的相似性来减少计算负担。

4.4.1 并行策略

为了在多GPU上加速生成，采用了上下文并行策略。同时，为了解决大模型如Wan 14B在GPU显存上的限制，采用了模型切分策略：

模型切分策略： 推理时序列较长，FSDP（Fully Sharded Data Parallel）相比TP（Tensor Parallel）通信开销更低，并能重叠计算，因此推理与训练均采用FSDP方式进行模型切分。

上下文并行策略： 使用与训练阶段相同的2D上下文并行方式，外层采用RingAttention，内层使用Ulysses。在这两种并行策略的加持下，DiT在Wan 14B模型上的推理实现了近线性加速。

4.4.2 扩散缓存

通过对Wan模型推理过程的深入分析，发现两个关键特性：

注意力相似性： 在同一DiT模块中，不同采样步之间的注意力输出具有较高相似度；

CFG相似性： 在采样后期，条件与非条件DiT输出高度相似。

这些特性也在DiTFastAttn与FasterCache等研究中得到验证。基于此，作者设计了Diffusion Cache（扩散缓存）机制，在保证性能无损的前提下减少计算：

注意力缓存： 每隔若干步执行一次前向传播并缓存注意力结果，其他步骤复用；

CFG缓存： 每隔几步执行一次非条件前向传播，条件部分复用之前结果，同时使用类似FasterCache的残差补偿，防止图像细节丢失。

最终，该缓存机制在Wan 14B文本生成视频模型中将推理效率提升了1.62倍。

4.4.3 量化

为了加速推理，作者在推理过程中实施了以下量化技术：

FP8 GEMM： 所有DiT模块中的GEMM操作都采用FP8精度，并结合权重的按张量量化、激活的按token量化，几乎无精度损失。FP8 GEMM相比BF16 GEMM性能提升约2倍，在DiT模块中带来1.13×加速。

8-Bit FlashAttention：

虽然FlashAttention3原生支持FP8，但在视频生成任务中会严重影响生成质量；

SageAttention使用int8 + fp16的混合精度策略并显示出更高保真度，但原始版本不适配Hopper架构；

本文在FA3-FP8的基础上提出优化策略，提升数值稳定性与计算效率。

精度优化措施

混合8位量化： 将Q、K、V采用int8，S=QKᵀ 用int8，O=PV 使用FP8（借鉴SageAttention方法）；

跨块FP32累加： 使用FP32在CUDA核心中进行跨块累加，解决FP8累加器在长序列下的溢出问题，参考DeepSeek-V3的做法。

性能优化措施

融合FP32累加与管线操作： 将Float32累加与softmax等操作融合，以缓解性能下降；

调整Block大小： 降低由于FP32寄存器使用导致的溢出问题。

最终，该优化后的8-bit FlashAttention在NVIDIA H20 GPU上达到95% MFU（多功能利用率），整体推理效率提升超过1.27倍。

4.5 提示词对齐

提示词对齐的目标是在推理阶段提升模型生成效果，通过使用户的输入提示词与训练期间所使用的字幕格式和风格保持一致。该方法主要包含两大策略：

多样化训练字幕构建

为了更好地适应多样化的用户输入，每张图像或视频在训练时都配备了多个风格和长度不一的字幕（如长、中、短句，以及正式、非正式、诗意等风格）。这种做法拓展了训练数据中“文字-视频”映射的多样性，从而更全面地覆盖用户可能输入的提示词类型。

LLM辅助的提示词重写

尽管训练数据中的字幕样本丰富多样，但用户在实际使用中更倾向于使用简短、关键词式的提示词，这与训练数据存在明显分布差异，进而影响生成质量。

为解决这一问题，系统利用大模型对用户的输入提示词进行重写，使其风格更贴近训练阶段的字幕分布，从而提升生成效果。重写遵循以下三个原则：

丰富细节但不改变原意： 保持原意的基础上，增加细节，使生成的视频画面更加完整与生动；

加入自然动作信息： 根据提示词中对象的类别，补充合适的动作描述，使视频中的动作流畅自然；

结构贴近训练字幕： 重写的提示词结构建议为“视频风格 → 内容摘要 → 细节描述”，从而更好地与高质量字幕分布对齐。

在基准测试中验证了LLM提示词重写的有效性。实验发现，具备强指令遵循能力的LLM能大幅提升视频生成质量。在模型选择上，为平衡推理速度与生成性能，最终采用Qwen2.5-Plus作为提示词重写模型。

4.6 基准评测

现有的视频生成评估方法如 FVD（Fréchet Video Distance）和 FID（Fréchet Inception Distance）与人类感知存在偏差。为此，作者提出了 Wan-Bench ——一个自动化、全面且符合人类偏好的新评测体系，用于评估视频生成模型。

Wan-Bench 从三个核心维度出发进行评估：动态质量、图像质量、指令遵循能力。共包括 14 个细粒度指标，并针对简单任务使用传统检测器，复杂任务使用多模态大模型（MLLMs）进行评估。

动态质量

大幅动作生成能力：使用 RAFT 算法计算视频的光流值，评估生成的视频是否具有显著动作。

人类伪影检测：训练 YOLOv3 检测器来识别 AI 生成图像中的伪影，综合考虑伪影的概率、位置和持续时间。

物理合理性与动作流畅性：通过 Qwen2-VL 评估物理规律是否被违反（如穿模、悬浮等）。使用复杂动作提示词，并检测生成视频的流畅性。

像素级稳定性：在光流检测的静态区域中，计算帧间差异，判断是否存在噪点或闪烁。

身份一致性：包括人、动物、物体的一致性。使用 DINO 提取帧特征，评估跨帧的一致性程度。

图像质量

图像整体质量：清晰度评估使用 MANIQA 检测模糊与伪影；美学评分由 LAION-AI 与 MUSIQ 模型提供；三者取平均值作为综合图像质量分。

场景生成质量：帧间一致性：使用 CLIP 检查相邻帧的一致性；文本一致性：CLIP 检查每帧与对应文本的语义对齐程度。风格化能力：使用 Qwen2-VL 进行逐帧问答，评估艺术化生成能力。

指令遵循能力

对象数量与位置指令：通过 Qwen2-VL 预测视频中物体的种类、数量和空间关系，评估帧级别上的匹配程度。

镜头控制能力：使用130个专设提示词评估五种镜头运动（平移、升降、变焦、航拍、跟拍），结合光流分析与 Qwen2-VL 问答进行综合判定。

动作执行能力：针对人类、动物和物体动作（如奔跑、爬行、飞行），提供关键帧让 Qwen2-VL 评估动作是否完成、是否有伪影，并检查是否符合文本描述。

人类反馈驱动的加权策略

为了让最终评估结果更贴近用户体验，Wan-Bench 采用 人类反馈引导的维度加权策略：收集了超 5000 对视频样本的人类偏好打分；用户在观看由不同模型生成的视频对后，依据相同提示词做出选择并评分；将各维度指标与人类评分的相关性（Pearson 相关系数）作为加权因子，用于计算最终综合得分。

4.7 评估

团队对 Wan 模型在多个维度上的性能进行了全面评估，涵盖量化指标、视觉质量、用户评价及公开排行榜成绩等。

4.7.1 评估指标与结果

基线模型与评估方法

评估对象涵盖多个当前主流的视频生成模型，包括：

商业模型：Kling（快手）、海螺（MiniMax）、Sora（OpenAI）、Runway、Vidu（生数科技）

开源模型：Mochi（GenmoTeam）、CogVideoX、混元（腾讯）

所有模型均基于 Wan-Bench 提供的统一提示词生成 1,035 个视频样本，并使用 Wan-Bench 的综合评分机制进行公平评估，重点指标包括：动态质量、图像质量、指令遵循准确度。

最终总分通过前面介绍的 人类偏好加权机制 计算得出，评估结果显示 Wan 模型在综合表现上领先于现有的商业与开源模型。

定性评估

如图15所示，Wan 模型可从文本生成多样化、高质量的视频，在以下场景表现尤为突出：大范围复杂动作的动态场景合成、具备物理互动逻辑的视频生成（如重力、碰撞）等。

人工评估

共设计了 700+ 个评估任务，由超过20位标注员参与打分，覆盖四大维度：指令匹配度、图像质量、动态质量、整体质量。

结果（见表3）显示：Wan 14B 模型在所有视觉相关维度上表现均优异，稳居领先位置。

排行榜表现

在广泛使用的VBench排行榜中，Wan 同样展现了业界领先水平。

VBench评估维度全面，涵盖 16项人类感知对齐的细分指标，例如美学质量、动作流畅性、语义一致性等。

Wan 14B 模型：综合得分：86.22%，图像质量：86.67%，语义一致性：84.44%，全面领先于 OpenAI 的 Sora 与 MiniMax 的海螺。

Wan 1.3B 模型：综合得分：83.96%，超越 HunyuanVideo、Kling 1.0 和开源 CogVideoX1.5-5B，性价比极高。

4.7.2 消融实验

为深入理解模型架构中关键模块的作用，作者在 1.3B 模型版本上进行了多项消融实验，涵盖 自适应归一化层、文本编码器、自动编码器 等核心组件。

自适应归一化层（Adaptive Normalization Layers）

该部分探讨了 DiT 中参数量较大的 AdaLN 模块，对比了以下四种设计：

(i) Full-shared-AdaLN-1.3B：全共享，所有30个注意力模块共用同一组AdaLN参数（默认方案）。

(ii) Half-shared-AdaLN-1.5B：前15层共享，后15层独立，参数量升至1.5B。

(iii) Full-shared-AdaLN-1.5B（扩展）：仍然全共享，但网络层数扩展为35层，总参数仍为1.5B。

(iv) Non-shared-AdaLN-1.7B：完全不共享，30层中每层单独预测AdaLN参数，参数总量1.7B。

实验设置：

任务：文本生成图像（Text-to-Image）

步数：200,000 步训练

批大小：全局 1536

评估指标：训练过程中的 L2 损失，损失越小表示模型收敛效果越好

结果分析（见图16）：

Full-shared-1.3B 训练损失略高

Full-shared-1.5B（35层）表现优于 Half-shared-1.5B，说明增加深度比增加AdaLN参数更有效

Non-shared-1.7B 虽参数最多，但效果反而不如 Full-shared-1.5B

结论：采用全共享 AdaLN 能减少参数数量同时保持良好性能，因此为最终采用方案。

文本编码器（Text Encoder）

对比了三种支持中英双语的文本编码器：

umT5 (5.3B)：双向注意力结构，广泛用于视频生成模型

Qwen2.5-7B-Instruct：强指令理解能力

GLM-4-9B：语言理解能力强，参数 <10B

设置：

保持其他超参数一致，任务为文本生成图像

取倒数第二层作为文本特征输入

对比训练损失（见图17）

结果：

umT5 训练损失最低，收敛表现最佳

Qwen 和 GLM 加上双向 token-refiner（参考混元视频策略）后仍不及 umT5

进一步与多模态模型 Qwen-VL-7B-Instruct 对比，后者生成效果相当，但模型更大

结论：umT5 以较小参数量提供优异性能，是最佳文本编码器选择。

自动编码器（Autoencoder）

设计了 VAE 的两种版本进行对比：

VAE：原始版本，使用重建损失

VAE-D：替换为 diffusion 损失

设置：

文本生成图像任务，训练150,000步

在 100K 和 150K 步时评估 FID 分数

结果（见表5）：

VAE 在两个阶段的 FID 均优于 VAE-D，图像质量更高

结论：重建损失优于扩散损失，VAE 为更优自动编码器设计。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业