我要投稿

国产荣耀：快手可灵AI上线网页端！文生视频模型可灵详解！

发布日期：2024-07-07 10:07:31 浏览次数： 4296 作者：AI信息Gap

等啊等，没有等来早在今年2月就火出圈的OpenAI文本转视频模型Sora，却等来了快手的可灵AI。

2024年7月6日，2024世界人工智能大会（WAIC 2024）期间，快手官方宣布可灵AI网页端正式上线，所有功能限时免费（经实测，需自行申请）。“文本生成视频”功能开放最长10秒生成能力，“图片生成视频”新增运镜控制、自定义首尾帧等功能。

关于可灵大模型（Kling）

可灵大模型官网：https://kling.kuaishou.com/

可灵，让想象力动起来。Kling, spark your imagination.

这是快手可灵大模型的宣传语（slogan）。可灵大模型是快手大模型团队自研的文本生视频大模型，其实早在几个月前，可灵大模型开启内测后就初露锋芒，收获了一众好评。毕竟和“遥遥无期”的OpenAI Sora相比，可灵是实实在在已经向公众内测的模型，说它是“国产荣耀”一点也不为过。

大幅度合理运动：可灵大模型（Kling）的3D时空联合注意力机制是其核心技术之一，它通过深度学习算法对视频内容中的时间序列和空间布局进行综合分析和理解。这种机制使得可灵模型能够捕捉到复杂场景中的动态变化，如运动员的激烈动作、自然景观中的水流和风动，以及交通场景中的车辆穿梭。这些动态不仅在视觉上逼真，而且在物理上合理，确保了视频内容的自然流畅和高度真实感。此外，该机制还支持对运动轨迹的精确控制，为创作者提供丰富的创意表达手段。

长视频生成：在视频生成领域，生成长时间连贯且高质量的视频一直是一个技术挑战。根据可灵官方表示，可灵大模型通过其高效的训练基础设施、极致的推理优化和可扩展的基础架构，实现了长达2分钟的视频生成能力，帧率稳定在30fps。这不仅意味着可灵能够处理更长的故事线和更复杂的情节发展，而且也为用户提供了更多的创作空间。无论是制作短片、广告、还是动画预告片，可灵都能够满足专业级的视频制作需求。

模拟物理世界特性：OpenAI的Sora之所以如此令人期待，其中重要原因之一就是其对真实世界物理特性的模拟能力。可灵大模型亦是如此。通过自研的模型架构，可灵大模型能够理解和再现物体的运动惯性、重力影响以及光线的反射和折射等现象。这使得生成的视频不仅在视觉上令人信服，更在物理逻辑上与现实世界保持一致。例如，模拟物体自由落体、水面波动或光线在不同材质表面上的反射效果，都可以通过可灵大模型得到真实且富有细节的表现。

概念组合能力：和Sora一样，可灵也是利用Diffusion Transformer架构，在概念组合方面展现出了卓越的能力。它能够将抽象的文本描述转化为具体的视觉元素，创造出原本不存在的虚构场景。这种能力极大地拓展了视频创作的边界，使得创作者可以不受现实世界限制地发挥想象力，创作出梦幻般的场景或超现实的故事。无论是幻想中的生物、未来世界的城市景观，还是跨越时空的历史重现，可灵都能够将这些概念转化为引人入胜的视觉作品。

电影级画面生成：可灵大模型的自研3D VAE技术是实现电影级画面生成的关键。它能够生成高达1080p分辨率的视频，提供清晰、细腻的图像质量。无论是广阔的自然风光、复杂的城市场景，还是人物的微妙表情和动作，可灵都能够以高保真的视觉效果进行呈现。这种高质量的画面生成能力，使得可灵大模型成为电影制作、高质量广告制作以及虚拟现实内容创作的理想选择。

自由输出视频宽高比：可灵大模型的可变分辨率训练策略为用户提供了极大的灵活性。在推理过程中，它能够根据需求输出不同宽高比的视频，无论是适应手机屏幕的竖屏视频，还是适合电影院放映的宽屏电影，可灵都能够轻松应对。这种灵活性使得可灵大模型能够满足不同平台和不同场景的视频制作需求，为用户提供了广泛的应用可能性。

【注】以上图片均出自可灵大模型官网视频。