临近年末,各家AI视频公司好像也都着急过年,模型一个接一个更新。周二我刚发完谷歌Veo2的文章,就说过内部测评里除了它亲儿子,可灵1.5在盲测中评价最高。结果文章还挂在头条上躺着,昨天登录可灵一看,他们全新的1.6版本,就这么水灵灵的上线了。可灵网址在此:https://klingai.kuaishou.com/我花了几个小时把1.6版本按我的测试维度都给跑了一遍。说真的,虽然看起来就是涨了0.1的版本号,但是,真的一点都不水。而且价格没有一丁点变化,5s的高品质视频跟1.5一样,是35灵感一条,非常良心。
这次更新的重点就是图生视频,有一波巨大的飞跃,能力的提升点总结成三点来说就是:物理规律真实感大幅提升,人物运动表演更强,语义理解大幅提升。这回文生视频、运动笔刷之类的没有特别大的更新,所以测试内容也很简单很清晰:纯测模型的图生视频能力,纯底模无添加无修改。Veo2切西红柿的视频前两天在X上霸屏了,这次可灵1.6,居然就给接住了。然后扔到可灵的1.6图生视频里,Prompt是:厨师正在把西红柿切成片。第一刀还行,第二刀就开始GG了,开始出现重影和变形。1.6版在切东西的表现上几乎是碾压1.5,刀具、食材、切片的物理反馈都精准到位。刀和西红柿的物理反馈简直绝了,刀压下去的力度、西红柿被切开的质感,物理呈现很可以。对比三个月前的1.5还在炸厨房,现在这水平都能去米其林应聘了。倒水的效果进步也很明显,比如一张水壶的图,然后写一段Prompt:水壶往水杯里倒茶。1.5的时候,可灵还不能准确识别杯子和茶壶的关系,凭空出现第二个壶往盖子上倒茶,也是挺好玩的。流体的运动表现、杯子跟茶壶口的角度关系上,已经基本符合常理了。猫主子走过沙发,沙发垫直接凹下去;金毛狗撒欢,毛发跟着哗啦啦。真的有那种跳跃的物理质感了,帽子的甩动也是随着重力飘荡,很帅。
还有人与物理的交互,比如,我很喜欢的电影《楚门的世界》经典的结尾画面。这张图的运动趋势很明显,就是让人走上台阶。但是墙壁上的影子,以及在电影剧情中楚门略带试探的动作,对AI视频来说都是难点。我用的prompt是:男人有些犹豫和试探地伸出手扶着墙壁,然后一步一步走上台阶,抬头张望。一致性不用说,包稳的。走上台阶时膝盖部分的物理规律,以及墙壁上跟着变化的影子,可灵也都做的很好。说真的,这一段稍微后期修一下,感觉真能用在电影里。还有这个蝙蝠侠飙车的case,压弯贼帅,披风完美。可灵自己补的街景和角度也不错。这就是可灵1.6,可能就是,当今图生视频的,No.1。
可灵之前的人物演技不够强的弱点,这次也给打上补丁了。首先就是表情。人物的神态细节的变化1.6进步非常大,比如这段:Prompt:女人看到什么,表情不耐烦地皱了皱眉。她无语地翻了一个白眼后走下楼梯。人物的动作变化完全照prompt的顺序来的,很稳。而且我感觉1.6在表情这块的突破真有点东西,角色的面部细节、呼吸时颈部肌肉的变化。。。我真的头一次见到AI把无语的神态做的这么真的,还有那一下封神的叹气。Prompt:火车行驶中。老人低头读报纸,看到某一段文字表情变得很惊讶。1.6版本这段眼神变化、情绪表演、环境光照和运动都相当到位,没有一点闪烁。连窗外的内容都很稳。同样的图和prompt在1.5版本虽然火车和窗外的环境运动速度更快,但报纸的闪烁真的很难忽略,老人表情也完全没跟上剧情。写prompt的时候我其实是纯想刁难可灵的,第一个测试说实话我就有点被打脸了,它不仅能“旋转”,居然还给我换了个腿。。。两个版本直接对比,没啥好说的。1.6这个物理逻辑、肢体肌肉的表现、画面稳定性都太吓人了。肢体表现一上来就这么稳,我就更想上点难度考验一下它,比如测试AI舞蹈里的高难度内容:中国古典舞。这个case我用来图生视频的是河南卫视《洛神》水下舞的截图。原版的表演当年刷爆社交媒体,水下舞和飘带的结合把壁画里的飞天神女在现实里呈现。中国古典舞对AI视频来说难点挺多,不仅要实现肢体上“跳舞”的大幅度动作,还得按照物理逻辑,展现水下飘带的运动、环境光照质感等等。1.5其实也很稳了,飘带的表现很出色。可惜还是没有实现真正的“舞蹈动作”,肢体到后面几秒也没绷住。所以在1.6版roll出来的时候,不夸张的说,我真被吓了一跳:看到舞者手臂扭的第一下,我就懵了。然后,还不止挥手臂一次,真能跳舞啊?虽然只有短短几秒,但人物肢体动作幅度很大,而且几乎没有太大的错误,连衣服的一致性都很好。除了飘带确实有点不稳,其他都做得像模像样。说真的,这个case跑出来,我感觉可灵还能在国产AI视频的王座上,稳坐江山。可灵自己在1.6的标注上写的第一个就是“提示词响应大幅提升”。Prompt:女孩摘下眼镜,拥抱一只朝她跑来的小鹿。这个稳定性,太强了,整个主体都很稳,唯一的小瑕疵是后面的背景的鹿,因为太多,有一点扭曲,但是也很好了。Prompt:右边的男人后退一步,举起枪,枪口对着左边男人的额头。镜头迅速拉远,拍摄他们站在天台上。这次可灵测下来,我感觉不仅是语义理解,它对上传图片的画面理解进步也很大。基本每次都能准确识别我说的“左边”和“右边”的主体具体是哪个,真·听得懂人话。比如这个case里,识别人物站位正确,并且让右边的角色“后退一步,举起枪,枪口对着左边男人的额头”。这一连串的动作实现的顺序、动作自然程度也完全OK,非常炸。除了最后大幅度的运镜有点遗憾,但是当上线控制运镜的功能,我觉得也再比如这个风暴兵和小坐骑的case,prompt是:主人公骑着坐骑前行,然后跳下来自己在地面上走路。从坐骑背上跳下来的动作逻辑非常OK,除了跳起来那一下脚有一点点没绷住,其他都很好。当然,可灵毕竟也只更新了0.1个版本,主要也是图生视频的巨幅更新。比如前面的case里,舞蹈和猫猫狗狗跳跃的动作虽然真实感做得很好,但生成慢动作的概率会有点大。以及生成的视频内容有原图之外的内容的话,在审美上有待加强。这个猫爬椅子的case,很典型地表现了可灵的优点和缺点:非常出色的物理逻辑和审美待加强。这个视频我用的原始图片是只有一张椅子,狸花猫是可灵自己生成的。猫爬上椅子晃的那一下很绝。但是这只猫的毛色还有质感,和原图的画风还是会有一点不太匹配。还有多人物的动作细节,尤其是人物的手指,虽然有很大进步了,但是在多人的复杂场景下,还是会出现BUG,但是这个也是所有AI视频的通病。圣诞老人这个case里,中间的圣诞老人还好些,旁边俩小孩的手,三个人手里的面皮,崩得比较明显。但是这样的效果,其实也是所有可用的AI视频里,几乎最好的了。不过说回来,作为一个0.1的版本更新,能做到这个程度已经很赞了。可灵正式上线是今年6月6号,截止我发文这天,满打满算差不多半年的时间。希望可灵,希望快手这个老铁,每一步都走的足够扎实。