微信扫码
与创始人交个朋友
我要投稿
看到一个优质的开源项目,真的会让我感到兴奋。
好久没看到比较惊艳的3D开源项目了,图片风格化已经很成熟了,像是视频风格化的总是有朋友问,今天终于发现一个,中国科学技术大学开源的PortraitGen。
可以这么说,PortraitGen这一个开源项目的功能,已经足够落地一个爆火的APP。
效果实在是太惊艳了!!!看完DEMO,我感觉新软件的开发又有思路了。好玩,好用,那就是个好软件。
绝不允许这么好的开源,你们还不知道。
项目简介
PortraitGen是中国科学技术大学开发的一个新型肖像视频风格化编辑工具,解决了传统肖像视频编辑方法在3D和时间一致性上的困难。通过使用统一的动态3D高斯场模型,该项目确保视频帧间的结构和时间上的连贯性,同时通过创新的神经高斯纹理机制实现复杂风格的高质量编辑和渲染速度超过100FPS的高效渲染。PortraitGen支持文本驱动编辑、图像驱动编辑和照明调整等多模式输入,在视频编辑领域有广泛适用性和优越性。
DEMO
这部分主要是功能效果的演示,不讲太多的技术问题。
1、文本驱动编辑
跟图片转视频的使用方式感觉差不多,直接输入提示词就好了,只不过这是个描述动态画面的提示词。
2、图像驱动编辑
这部分主要是有两个功能,一个是对图像的全局参考,比如把梵高的《星空》体现在整个人像的纹理中;另一个是把图像内的对象放到特定的位置,比如让视频内的人物换一件衣服。
3、Relighting
通过一个文本描述,对整个视频的光影进行改变。用的也是IC-Light,之前是改变图片光影效果,现在是对视频进行改变。
4、跟一些市面现有的先进方法进行比较
技术原理
1、统一动态3D高斯场模型
PortraitGen通过建立一个统一的动态3D高斯场,使视频帧之间在结构和时间上保持一致性。每一帧的肖像通过3D高斯分布来表示,其中高斯分布的中心、方差和旋转等参数都是可学习的,这使得模型可以精确地控制视频中人物的三维形态变化。
3D高斯分布:通过这种方式,肖像的每一个细节都被建模为一个高斯分布,可以灵活地调整形状和大小,从而更好地适应人物表情和动作的变化。
动态调整:随着视频的进行,这些高斯分布的参数会根据视频内容动态调整,确保视频编辑过程中人物的外观和表情保持自然流畅。
2、神经高斯纹理机制
这一机制是PortraitGen的核心创新之一,它通过在3D高斯场上叠加一层神经纹理来增强编辑的表达力和风格多样性。
高斯纹理特征:不同于传统的简单颜色或亮度表示,神经高斯纹理在每个高斯分布上附加了复杂的特征向量,这些特征向量由深度神经网络学习得到,能够捕捉到更丰富的细节和风格特征。
特征转换:通过一个专门设计的2D神经渲染器,将这些3D纹理特征映射到2D图像上,实现从3D模型到最终视频帧的转换,保证了风格的一致性和高质量的视觉效果。
3.、多模态输入的融合
项目支持多种输入模式,如文本指令、图像样本和照明条件等,这些输入通过不同的网络模块处理后,融入到高斯纹理特征中,从而实现基于多种指令的视频编辑。
文本驱动编辑:用户可以通过输入简单的文本指令,如“将人物转换为卡通风格”,系统通过解析文本并将其转化为编辑指令,调整高斯纹理特征以符合文本描述的风格。
图像驱动编辑:还可以提供一张参考图像,系统将分析图像的风格并将这些风格特征应用到视频编辑中,实现风格迁移或特定特征的复制。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-12-22
花60元,DIY了一个AI机器人,能聊天,会认人……
2024-12-21
基于AI智能助理的软件开源组件安全检查
2024-12-21
Llama2024年度要点总结
2024-12-21
重磅! Github Copilot 免费了
2024-12-20
万字长文帮你搞定AI Agent选型
2024-12-20
微软开源的 Markitdown 可将任意文件转换为 Markdown 格式,PDF 解析咋样?
2024-12-20
Claude的MCP(模型上下文协议)简介
2024-12-20
历时2年,华人团队力作,震撼开源生成式物理引擎Genesis,可模拟世界万物
2024-05-06
2024-07-25
2024-08-13
2024-06-12
2024-07-11
2024-06-16
2024-07-20
2024-09-20
2024-06-15
2024-07-25
2024-12-20
2024-12-19
2024-11-22
2024-11-19
2024-11-13
2024-11-13
2024-10-07
2024-09-22