我要投稿

快手可灵1.6正式上线，他们又一次超越了自己。

发布日期：2024-12-20 07:21:01 浏览次数： 2672 作者：数字生命卡兹克

临近年末，各家AI视频公司好像也都着急过年，模型一个接一个更新。

测不完，根本测不完。

周二我刚发完谷歌Veo2的文章，就说过内部测评里除了它亲儿子，可灵1.5在盲测中评价最高。

结果文章还挂在头条上躺着，昨天登录可灵一看，他们全新的1.6版本，就这么水灵灵的上线了。

真实的商战，就这么朴实无华（狗头）。

二话不说，直接开测。

可灵网址在此：https://klingai.kuaishou.com/

我花了几个小时把1.6版本按我的测试维度都给跑了一遍。

说真的，虽然看起来就是涨了0.1的版本号，但是，真的一点都不水。

而且价格没有一丁点变化，5s的高品质视频跟1.5一样，是35灵感一条，非常良心。

这次更新的重点就是图生视频，有一波巨大的飞跃，能力的提升点总结成三点来说就是：

物理规律真实感大幅提升，人物运动表演更强，语义理解大幅提升。

尤其是物理规律和人物动作，真的惊艳到我了。

这回文生视频、运动笔刷之类的没有特别大的更新，所以测试内容也很简单很清晰：纯测模型的图生视频能力，纯底模无添加无修改。

话不多说，Case一个一个给大家看。

一. 更真实的物理规律

这一波，可灵1.6的物理规律来了一波超进化。

现在它能切食物，能虚空倒茶，甚至，能跳舞了。

Veo2切西红柿的视频前两天在X上霸屏了，这次可灵1.6，居然就给接住了。

我先跑了这么一张图。

然后扔到可灵的1.6图生视频里，Prompt是：厨师正在把西红柿切成片。

先给大家看看1.5版本的切西红柿。

第一刀还行，第二刀就开始GG了，开始出现重影和变形。

但是1.6的稳定性，惊人的强。

1.6版在切东西的表现上几乎是碾压1.5，刀具、食材、切片的物理反馈都精准到位。

刀和西红柿的物理反馈简直绝了，刀压下去的力度、西红柿被切开的质感，物理呈现很可以。

对比三个月前的1.5还在炸厨房，现在这水平都能去米其林应聘了。

倒水的效果进步也很明显，比如一张水壶的图，然后写一段Prompt：水壶往水杯里倒茶。

1.5的时候，可灵还不能准确识别杯子和茶壶的关系，凭空出现第二个壶往盖子上倒茶，也是挺好玩的。

但是1.6完全不一样，虚空倒茶是真的秀。

流体的运动表现、杯子跟茶壶口的角度关系上，已经基本符合常理了。

还有这两个小猫和小狗的case：

猫主子走过沙发，沙发垫直接凹下去；金毛狗撒欢，毛发跟着哗啦啦。

啥叫物理真实感，这就是。

还有这个我非常喜欢的小精灵蹦跳。

真的有那种跳跃的物理质感了，帽子的甩动也是随着重力飘荡，很帅。

还有人与物理的交互，比如，我很喜欢的电影《楚门的世界》经典的结尾画面。

这张图的运动趋势很明显，就是让人走上台阶。但是墙壁上的影子，以及在电影剧情中楚门略带试探的动作，对AI视频来说都是难点。

我用的prompt是：男人有些犹豫和试探地伸出手扶着墙壁，然后一步一步走上台阶，抬头张望。

可灵的答卷，没有让我失望。

一致性不用说，包稳的。走上台阶时膝盖部分的物理规律，以及墙壁上跟着变化的影子，可灵也都做的很好。

说真的，这一段稍微后期修一下，感觉真能用在电影里。

还有这个蝙蝠侠飙车的case，压弯贼帅，披风完美。可灵自己补的街景和角度也不错。

这就是可灵1.6，可能就是，当今图生视频的，No.1。

二.人物运动表演加强

可灵之前的人物演技不够强的弱点，这次也给打上补丁了。

首先就是表情。人物的神态细节的变化1.6进步非常大，比如这段：

Prompt：女人看到什么，表情不耐烦地皱了皱眉。她无语地翻了一个白眼后走下楼梯。

人物的动作变化完全照prompt的顺序来的，很稳。而且我感觉1.6在表情这块的突破真有点东西，角色的面部细节、呼吸时颈部肌肉的变化。。。

我真的头一次见到AI把无语的神态做的这么真的，还有那一下封神的叹气。

这个演技别说内娱了，我感觉美剧都可以混进去演演。

还有这个case：

Prompt：火车行驶中。老人低头读报纸，看到某一段文字表情变得很惊讶。

两个版本放一块儿，足够明显了。

1.6版本这段眼神变化、情绪表演、环境光照和运动都相当到位，没有一点闪烁。连窗外的内容都很稳。

同样的图和prompt在1.5版本虽然火车和窗外的环境运动速度更快，但报纸的闪烁真的很难忽略，老人表情也完全没跟上剧情。

新版本完胜。

当然，表演除了面部，肢体动作的表演也很重要。

最牛逼的是：可灵，能跳舞了

我第一个测的是人物肢体比较清晰的芭蕾舞。

Prompt：芭蕾舞者优雅地表演旋转舞步。

写prompt的时候我其实是纯想刁难可灵的，第一个测试说实话我就有点被打脸了，它不仅能“旋转”，居然还给我换了个腿。。。

两个版本直接对比，没啥好说的。1.6这个物理逻辑、肢体肌肉的表现、画面稳定性都太吓人了。

肢体表现一上来就这么稳，我就更想上点难度考验一下它，比如测试AI舞蹈里的高难度内容：中国古典舞。

这个case我用来图生视频的是河南卫视《洛神》水下舞的截图。

图长这个样子：

原版的表演当年刷爆社交媒体，水下舞和飘带的结合把壁画里的飞天神女在现实里呈现。

中国古典舞对AI视频来说难点挺多，不仅要实现肢体上“跳舞”的大幅度动作，还得按照物理逻辑，展现水下飘带的运动、环境光照质感等等。

这个Case对AI，绝对是一个大挑战。

先看1.5版本的：

1.5其实也很稳了，飘带的表现很出色。可惜还是没有实现真正的“舞蹈动作”，肢体到后面几秒也没绷住。

所以在1.6版roll出来的时候，不夸张的说，我真被吓了一跳：

看到舞者手臂扭的第一下，我就懵了。然后，还不止挥手臂一次，真能跳舞啊？

这个肢体的动作幅度、这个物理、这个光照表现。。。

可灵你确定只更新了0.1版本？

虽然只有短短几秒，但人物肢体动作幅度很大，而且几乎没有太大的错误，连衣服的一致性都很好。除了飘带确实有点不稳，其他都做得像模像样。

别问我觉得牛不牛，问就是牛炸了。

说真的，这个case跑出来，我感觉可灵还能在国产AI视频的王座上，稳坐江山。

三.语义理解加强

可灵自己在1.6的标注上写的第一个就是“提示词响应大幅提升”。

所以基于语义，那必须先来个连续动作测试：

Prompt：女孩摘下眼镜，拥抱一只朝她跑来的小鹿。

小鹿是完全在画面外的，摘下眼镜、拥抱小鹿。

这个稳定性，太强了，整个主体都很稳，唯一的小瑕疵是后面的背景的鹿，因为太多，有一点扭曲，但是也很好了。

还有这个语义理解完成度很高的case：

Prompt：右边的男人后退一步，举起枪，枪口对着左边男人的额头。镜头迅速拉远，拍摄他们站在天台上。

这次可灵测下来，我感觉不仅是语义理解，它对上传图片的画面理解进步也很大。基本每次都能准确识别我说的“左边”和“右边”的主体具体是哪个，真·听得懂人话。

比如这个case里，识别人物站位正确，并且让右边的角色“后退一步，举起枪，枪口对着左边男人的额头”。

这一连串的动作实现的顺序、动作自然程度也完全OK，非常炸。

除了最后大幅度的运镜有点遗憾，但是当上线控制运镜的功能，我觉得也

就不是问题了。

再比如这个风暴兵和小坐骑的case，prompt是：主人公骑着坐骑前行，然后跳下来自己在地面上走路。

从坐骑背上跳下来的动作逻辑非常OK，除了跳起来那一下脚有一点点没绷住，其他都很好。

整体来看。

进步，无需多言。

写在最后

当然，可灵毕竟也只更新了0.1个版本，主要也是图生视频的巨幅更新。

可以改进的地方也还是不少。

比如前面的case里，舞蹈和猫猫狗狗跳跃的动作虽然真实感做得很好，但生成慢动作的概率会有点大。

以及生成的视频内容有原图之外的内容的话，在审美上有待加强。

这个猫爬椅子的case，很典型地表现了可灵的优点和缺点：非常出色的物理逻辑和审美待加强。

这个视频我用的原始图片是只有一张椅子，狸花猫是可灵自己生成的。猫爬上椅子晃的那一下很绝。但是这只猫的毛色还有质感，和原图的画风还是会有一点不太匹配。

还有多人物的动作细节，尤其是人物的手指，虽然有很大进步了，但是在多人的复杂场景下，还是会出现BUG，但是这个也是所有AI视频的通病。

圣诞老人这个case里，中间的圣诞老人还好些，旁边俩小孩的手，三个人手里的面皮，崩得比较明显。

但是这样的效果，其实也是所有可用的AI视频里，几乎最好的了。

不过说回来，作为一个0.1的版本更新，能做到这个程度已经很赞了。

等到2.0的时候，那估计就是，一步登天。

现在回头想想，可灵的进化速度是真的离谱。

可灵正式上线是今年6月6号，截止我发文这天，满打满算差不多半年的时间。

而这半年，几乎是改写了整个行业。

我在1.5的测评文章里曾经写到：

希望可灵，希望快手这个老铁，每一步都走的足够扎实。

他们的确做到了。

别人家还在画饼的时候，可灵已经把饭做香了。

在AI视频领域，我觉得永远可以说一句：

你永远可以相信可灵。

从“中国的Sora”到“世界的可灵”。

期待可灵在它真正更新的可灵v2版本时。

会继续给我们，更大的惊喜。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业