我要投稿

聊聊SORA背后技术之一（三）：VAE

发布日期：2024-04-18 08:28:09 浏览次数： 3516

作者：瓦力算法学研所

微信搜一搜，关注“瓦力算法学研所”

技术总结专栏

本文将对热门的SORA视频生成中使用到的模型VAE进行原理介绍。

变分自编码器（Variational AutoEncoder，VAE）是一种结合了自编码器和概率图模型的思想的生成模型。它通过学习数据的潜在分布，可以生成新的数据样本。常常听到的潜层语义特征，就是靠VAE才能实现。

论文地址：https://arxiv.org/abs/1312.6114

项目地址：https://github.com/AntixK/PyTorch-VAE（非官方）

核心思想

这部分比较偏向数学原理，不感兴趣的同学可以直接跳过~

分布变换：希望构建一个从隐变量Z生成目标数据X的模型（即先知道数据的分布，然后在生成相应的数据输出，属于生成式模型）。更准确地讲，假设了Z服从某些常见的分布（比如正态分布或均匀分布），然后希望训练一个模型X=g(Z)，这个模型能够将原来的概率分布映射到训练集的概率分布，也就是说，它们的目的都是进行分布之间的变换和学习。

VAE机制：在整个VAE模型中，假设p(Z|X)（后验分布，代表输入X样本情况下，生成对应的Z特征变量）是正态分布。具体来说，给定一个真实样本X_k，假设存在一个专属的样本X_k的分布p(Z|X_k)，并进一步假设这个分布是（独立的、多元的）正态分布。然后利用利用VAE编码阶段输出均值μ和方差σ^2，求出专属的样本X_k的分布

整体结构

上图为VAE的整体结构，主要可以分为encoder端和decoder端。

VAE Encoder：该部分主要包括DownBLock 、MidBLock、GSC 三个模块，主要作用将输入的图像压缩到一个低维的Latent空间，并在这个空间下进行随机的高斯分布采样。当输入一张图像大小为3*512*512时，将会生成4*64*64的特征图。

VAE Decoder：主要包括UpBLock 、MidBLock、GSC 三个模块，主要作用是根据压缩后的潜层语义特征重构恢复出原始的输入图片。将根据大小为4*64*64潜层特征图恢复到原始图片的大小3*512*512。

整体上：VAE之所以可以将图像压缩到一个非常小的Latent space（潜空间）后能再次对图像进行像素级重建，因为虽然VAE对图像的压缩与重建过程是一个有损压缩与重建过程，但图像全图级特征关联并不是随机的，它们的分布具有很强的规律性：比如人脸的眼睛、鼻子、脸颊和嘴巴之间遵循特定的空间关系，又比如一只猫有四条腿，并且这是一个特定的生物结构特征。当重建生成的图像尺寸在512×512之上时，其实特征损失带来的影响非常小。

总结

VAE的优点包括：

生成样本：VAE 能够生成与训练数据相似的新样本，这对于生成式任务非常有用，如图像生成、语音合成等。
潜在空间表示：VAE 学习到了数据的潜在分布，可以将数据映射到低维连续的潜在空间中，这有助于数据的表示和可视化。
自编码器结构：VAE 结合了自编码器的结构，具有编码器和解码器两个部分，编码器可以学习数据的压缩表示，解码器可以从潜在空间中重构输入数据。
概率建模：VAE 是一个概率模型，它使用变分推断来估计潜在变量的后验分布，这使得模型更加灵活，可以处理不确定性和噪声。

VAE的缺点包括：

模糊生成：由于 VAE 优化的是数据的下界（ELBO），它可能会在生成样本时产生模糊的结果，特别是在高维空间中。
后验推断：VAE 使用变分推断来估计潜在变量的后验分布，这在训练过程中可能会导致近似后验分布与真实后验分布之间的差距，从而影响生成样本的质量。
训练难度：训练 VAE 需要同时优化编码器和解码器，以及估计潜在变量的后验分布，这使得训练过程相对复杂，需要精细的调参和技巧。
模型参数选择：VAE 中有许多超参数需要调节，如潜在空间的维度、先验分布的选择等，这会增加模型的设计和调试的难度。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

看大厂PM，如何玩转多个智能体开发平台

2025-06-17

53AI Hub重磅开源！让99%的智能体开发者赚到钱！

2025-06-17

DeepSeek R1-0528 小版本升级

2025-05-29

教你解决GPT4o无法使用新版生图功能的教程

2025-04-11

15个最佳开源 RAG 框架选型指南

2025-04-13

源神降临！阿里 Qwen3 全系发布，免费商用，消费级显卡就能跑！(深度解读 + 实战case)

2025-04-29

AI法规-《生成式人工智能服务管理暂行办法》（中国）（2023.7）

2025-04-12

分而治之：全面解析分布式分离 Inference 系统

2025-04-29

微软突发“封杀令”！全面禁止Cursor使用C、C++、C# 扩展，开发者被迫回退版本

2025-04-12

Qwen3发布: 4B干掉旧代 72B / Windsurf又增加新的免费计划

2025-04-29

大家都在问

微软裁员9000人！给员工整不会了：用不用AI都要被裁？

2025-07-05

向量相似度检索遇到天花板，是否我们走错了？

2025-07-04

大模型开源，厂商靠什么盈利？

2025-07-04

智能体（Agent）是怎么知道什么时候要调用 Tool 的？

2025-07-04

Prompt 到底有啥用？为什么写得好能提升 AI 效果这么多？

2025-07-04

AI狂潮下：大公司如何破解"创新者窘境"？

2025-07-04

Anthropic多智能体如何破解企业级任务并行处理瓶颈？

2025-07-03

OpenAI首席研究官没有博士学位，你的985还有用吗？

2025-07-03

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部