AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


聊聊SORA背后技术之一(三):VAE
发布日期:2024-04-18 08:28:09 浏览次数: 2141


技术总结专栏



本文将对热门的SORA视频生成中使用到的模型VAE进行原理介绍。

变分自编码器(Variational AutoEncoder,VAE)是一种结合了自编码器和概率图模型的思想的生成模型。它通过学习数据的潜在分布,可以生成新的数据样本。常常听到的潜层语义特征,就是靠VAE才能实现。

论文地址:https://arxiv.org/abs/1312.6114

项目地址:https://github.com/AntixK/PyTorch-VAE(非官方)


核心思想

这部分比较偏向数学原理,不感兴趣的同学可以直接跳过~


  • 分布变换:希望构建一个从隐变量Z生成目标数据X的模型(即先知道数据的分布,然后在生成相应的数据输出,属于生成式模型)。更准确地讲,假设了Z服从某些常见的分布(比如正态分布或均匀分布),然后希望训练一个模型X=g(Z),这个模型能够将原来的概率分布映射到训练集的概率分布,也就是说,它们的目的都是进行分布之间的变换和学习。


  • VAE机制:在整个VAE模型中,假设p(Z|X)(后验分布,代表输入X样本情况下,生成对应的Z特征变量)是正态分布。具体来说,给定一个真实样本X_k,假设存在一个专属的样本X_k的分布p(Z|X_k),并进一步假设这个分布是(独立的、多元的)正态分布。然后利用利用VAE编码阶段输出均值μ和方差σ^2,求出专属的样本X_k的分布


整体结构

上图为VAE的整体结构,主要可以分为encoder端和decoder端。


  • VAE Encoder:该部分主要包括DownBLock 、MidBLock、GSC 三个模块,主要作用将输入的图像压缩到一个低维的Latent空间,并在这个空间下进行随机的高斯分布采样。当输入一张图像大小为3*512*512时,将会生成4*64*64的特征图。


  • VAE Decoder:主要包括UpBLock 、MidBLock、GSC 三个模块,主要作用是根据压缩后的潜层语义特征重构恢复出原始的输入图片。将根据大小为4*64*64潜层特征图恢复到原始图片的大小3*512*512。


  • 整体上:VAE之所以可以将图像压缩到一个非常小的Latent space(潜空间)后能再次对图像进行像素级重建,因为虽然VAE对图像的压缩与重建过程是一个有损压缩与重建过程,但图像全图级特征关联并不是随机的,它们的分布具有很强的规律性:比如人脸的眼睛、鼻子、脸颊和嘴巴之间遵循特定的空间关系,又比如一只猫有四条腿,并且这是一个特定的生物结构特征。当重建生成的图像尺寸在512×512之上时,其实特征损失带来的影响非常小。


总结

VAE的优点包括:

  • 生成样本:VAE 能够生成与训练数据相似的新样本,这对于生成式任务非常有用,如图像生成、语音合成等。

  • 潜在空间表示:VAE 学习到了数据的潜在分布,可以将数据映射到低维连续的潜在空间中,这有助于数据的表示和可视化。

  • 自编码器结构:VAE 结合了自编码器的结构,具有编码器和解码器两个部分,编码器可以学习数据的压缩表示,解码器可以从潜在空间中重构输入数据。

  • 概率建模:VAE 是一个概率模型,它使用变分推断来估计潜在变量的后验分布,这使得模型更加灵活,可以处理不确定性和噪声。


VAE的缺点包括:

  • 模糊生成:由于 VAE 优化的是数据的下界(ELBO),它可能会在生成样本时产生模糊的结果,特别是在高维空间中。

  • 后验推断:VAE 使用变分推断来估计潜在变量的后验分布,这在训练过程中可能会导致近似后验分布与真实后验分布之间的差距,从而影响生成样本的质量。

  • 训练难度:训练 VAE 需要同时优化编码器和解码器,以及估计潜在变量的后验分布,这使得训练过程相对复杂,需要精细的调参和技巧。

  • 模型参数选择:VAE 中有许多超参数需要调节,如潜在空间的维度、先验分布的选择等,这会增加模型的设计和调试的难度。



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询