AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


实测豆包AI视频模型Seaweed,击败Sora的含金量到底有多少?
发布日期:2024-09-26 15:15:04 浏览次数: 1898 来源:卡尔的AI沃茨


前天 AI 视频界迎来了 iphone? 时刻,

字节正式发布了两款全新的 AI 视频模型,

 PixelDance 和 Seaweed 

PixelDance 核心亮点是“人物复杂连续动作”,“多镜头组合”和“运镜控制”。

光这个视频就值得我跳起来点三个赞!

但现在一个都测试不到,从目前透露出的各种 PixelDance 素材来看,应该是极少数人拿到了内测资格。

不知道跟前段时间 GPT 语音模式内测比起来,哪个名额少。

幸运的是,我 get 到了 Seaweed 模型的内测!

可能大家会跟我有一样的疑问,

PixelDance 和 Seaweed 有啥联系?区别是啥?

它们使用的模型结构不同,使用定位也不同,

那,Seaweed 会是一个有着 PixelDance 的部分超能力,但成本更低速度更快的模型吗?

所以这次评测我会按照 PixelDance 的新能力作为主要维度,其他主流 AI 视频工具的痛点作为辅助维度,第一时间分享我的 Seaweed 上手体验~

Here we go!


 一. 人物复杂连续动作 

从材料上看,PixelDance 能在10s内完成3个连续动作,

而主流的AI视频工具单次生成通常是出一个动作,常规的有眨眼、挥手、摇头等运动幅度较低的动作。

就是因为大幅度的动作会让整个画面崩掉,要完成一系列连续的动作,我们往往需要将分镜拆得更加细致,从剪辑层面上完成连续动作。

我们来用相似的画面来对比 PixelDance(上)和Seaweed(下)的效果:

PixelDance

Seaweed
受限于5s的生成时长,Seaweed并不能很精准的表现出【摘下墨镜】后【向前走】的连续动作,
但优点是人物动作的自然度和眼睛的补足做的还不错。

 二. 多镜头组合 

多镜头组合,简单来说就是单次生成的视频里包含了不同角度的镜头切换。

这中间可能会包括一个大远景展现过后切换到一个人的脸部特写,又或者是一个人物不同正面侧面的切换等等。

说着简单,但是生成起来难度不低,在之前已经推出的工具中,除了 Sora 放出的官方case中有这样的案例之外,其他的工具都很少能做出类似的效果。

我们同样还是用 Seaweed 复刻了一个和 PixelDance 给出的 case 相似的画面:

PixelDance

Seaweed

从两个case上看,PixelDance做出的镜头切换是顶级的,而SeaWeed给到的效果整体动作流畅度和幅度是足够的,遗憾的是抽了很多次卡都没有做到镜头切换的效果。

PixelDance这前两大功能都完成了一件相同的事:延长生成视频的“有效时长”,

这个“有效时长”指的不是将原有的 5s 延长到 10s,20s,甚至是 40s,

而是在指有限的时长内做到了尽可能多的变化,还能保持画面一致性。


 三. 运镜控制 

AI视频里的运镜一共有多少种?

Runway 的官方指南里列出来的 Camera Movement 有15种,配合4种镜头运动速度,

我们可以组合出60种运镜控制。

听上去很多是吧,但我拿着这个去跟影视行业的朋友聊的时候,

得到的答复是,这些运镜控制只是影视制作中很少的部分。

在以往的工具制作经验中,想要让模型听【指令】做出相应的【运镜】,还真的需要靠那么一丝运气,但这次PixelDance给出的case确实带来了很大的惊喜。

PixelDance:通过prompt精准的控制了镜头运动的轨迹,【360度环绕】从【侧脸】到【正脸】,最终落点在人物的面部特写。



Seaweed:虽然实现了【360度】环绕似的运动,但是没有镜头远近的变化,也没有落点在人物的面部特写上。


看来 Seaweed 还没有学全 PixelDance 的 36 变真本事,那如果回到最初我们测评的同一起跑线上,Seaweed 是否解决了目前AI视频工具里的某些痛点呢?

每次都测一样的东西有点子腻了,这次我们直接上了带强度的(毕竟基础的画面效果Seaweed确实已经挑不出什么大毛病了)。

于是,我们额外给Seaweed出了几道奥数题:文字稳定不崩/多人场景不崩/超远景小人不崩/画面元素无中生有/生成风格稳定/多人物互动

看得出来日常为了保证AI生成视频稳定做了多大的努力了)


 四. 文字稳定不崩 

第一个就让我超级惊喜,

Seaseed 做到了画面中的文字可以稳定存在,不会消失,也不会和画面融合成一体!


这以后谁还花钱做动态海报啊!!


 五. 多人场景不崩 

接下来直接测个王炸的!

多人场景有多难实现,大家都懂得,这么多张脸都要完全不崩,放在之前可能要抽卡抽个几十上百次都不一定能抽到。

但是下面这两个Seaweed给的效果,人脸绝对是稳定的,

而且抽卡也就在10次以内就可以得到,还可以让你精挑细选一下自己喜欢的动态。

绝,真的绝!



 六. 超远景小人不崩 

从前的大远景镜头,都不奢求人物的身影能有什么好的动态了,只求一个不要给我融成一坨。

现在,终于不用愁了!除了人物的稳定,甚至还能实现【多主体】、【场景】多方面稳定的动态效果。



 七.画面元素无中生有 

之前想要实现一个画面中没有的元素出现,往往用的最多就是【首尾帧】

现在,又有了一种新的方式。

直接通过prompt,就可以让Seaweed帮你实现【小男孩出现在画面中】【一只手出现在画面中】的特定效果。

就是稍微没那么稳定,这种【无中生有】的效果还是需要多抽几次卡的。



 八. 生成风格稳定 

相信之前很多人在生成视频的时候都会遇到一种情况,就是模型会把画面中的主体“嗖”的一下变成一个奇怪的3D人偶,而且这种情况还不少见。

这次即梦的更新,最最最让我惊喜的就是,风格的延续非常稳定,终于不再有鬼畜3D了!!!做梦都会笑醒的程度!


(这只小松鼠好可爱!)


 九. 多人物互动 

多人物互动有多难做就不多说了,每一次都做,每一次都会微微失望?。

但这次的测的两个case,反正我是看到希望了。打拳会有拳拳到肉的感觉,跳舞人物的表情和灯光都很对味儿。

(就是差点速度)



整体测下来,虽然还没用上 PixelDance,

但对 Seaseed 我已经是非常满意的程度!

至少对于目前的工具上,即梦算是打开了一个新维度。单是【风格稳定】【文字不崩】两个点,就够我给它打个优秀分了。


 写在最后 

值得一提的是,

这次测试的全流程我们都是在即梦网页端上完成的!

【生图】、【修图】、【高清】、【音乐】、【视频生成】全部一站式完成。

真的很爽,不需要在各种界面跳来跳去,

还支持手机端,现在外出遇到灵感,都可以用即梦刷两张图,

就恨自己长的手不够多,把灵感们变成影片的周期还是有一丢丢慢。

字节抓紧时间,多买几顿显卡,把 PixelDance 上线到即梦吧,

期待制作出一部由PixelDance为主力工具的AI短剧,

我脚本都准备好了!



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询