微信扫码
与创始人交个朋友
我要投稿
前天 AI 视频界迎来了 iphone? 时刻,
字节正式发布了两款全新的 AI 视频模型,
PixelDance 和 Seaweed
PixelDance 核心亮点是“人物复杂连续动作”,“多镜头组合”和“运镜控制”。
光这个视频就值得我跳起来点三个赞!
但现在一个都测试不到,从目前透露出的各种 PixelDance 素材来看,应该是极少数人拿到了内测资格。
不知道跟前段时间 GPT 语音模式内测比起来,哪个名额少。
幸运的是,我 get 到了 Seaweed 模型的内测!
可能大家会跟我有一样的疑问,
PixelDance 和 Seaweed 有啥联系?区别是啥?
它们使用的模型结构不同,使用定位也不同,
那,Seaweed 会是一个有着 PixelDance 的部分超能力,但成本更低速度更快的模型吗?
所以这次评测我会按照 PixelDance 的新能力作为主要维度,其他主流 AI 视频工具的痛点作为辅助维度,第一时间分享我的 Seaweed 上手体验~
Here we go!
从材料上看,PixelDance 能在10s内完成3个连续动作,
而主流的AI视频工具单次生成通常是出一个动作,常规的有眨眼、挥手、摇头等运动幅度较低的动作。
就是因为大幅度的动作会让整个画面崩掉,要完成一系列连续的动作,我们往往需要将分镜拆得更加细致,从剪辑层面上完成连续动作。
我们来用相似的画面来对比 PixelDance(上)和Seaweed(下)的效果:
PixelDance
多镜头组合,简单来说就是单次生成的视频里包含了不同角度的镜头切换。
这中间可能会包括一个大远景展现过后切换到一个人的脸部特写,又或者是一个人物不同正面侧面的切换等等。
说着简单,但是生成起来难度不低,在之前已经推出的工具中,除了 Sora 放出的官方case中有这样的案例之外,其他的工具都很少能做出类似的效果。
我们同样还是用 Seaweed 复刻了一个和 PixelDance 给出的 case 相似的画面:
PixelDance
Seaweed
从两个case上看,PixelDance做出的镜头切换是顶级的,而SeaWeed给到的效果整体动作流畅度和幅度是足够的,遗憾的是抽了很多次卡都没有做到镜头切换的效果。
PixelDance这前两大功能都完成了一件相同的事:延长生成视频的“有效时长”,
这个“有效时长”指的不是将原有的 5s 延长到 10s,20s,甚至是 40s,
而是在指有限的时长内做到了尽可能多的变化,还能保持画面一致性。
三. 运镜控制
AI视频里的运镜一共有多少种?
Runway 的官方指南里列出来的 Camera Movement 有15种,配合4种镜头运动速度,
我们可以组合出60种运镜控制。
听上去很多是吧,但我拿着这个去跟影视行业的朋友聊的时候,
得到的答复是,这些运镜控制只是影视制作中很少的部分。
在以往的工具制作经验中,想要让模型听【指令】做出相应的【运镜】,还真的需要靠那么一丝运气,但这次PixelDance给出的case确实带来了很大的惊喜。
看来 Seaweed 还没有学全 PixelDance 的 36 变真本事,那如果回到最初我们测评的同一起跑线上,Seaweed 是否解决了目前AI视频工具里的某些痛点呢?
每次都测一样的东西有点子腻了,这次我们直接上了带强度的(毕竟基础的画面效果Seaweed确实已经挑不出什么大毛病了)。
于是,我们额外给Seaweed出了几道奥数题:文字稳定不崩/多人场景不崩/超远景小人不崩/画面元素无中生有/生成风格稳定/多人物互动。
(看得出来日常为了保证AI生成视频稳定做了多大的努力了)
四. 文字稳定不崩
第一个就让我超级惊喜,
Seaseed 做到了画面中的文字可以稳定存在,不会消失,也不会和画面融合成一体!
这以后谁还花钱做动态海报啊!!
五. 多人场景不崩
接下来直接测个王炸的!
多人场景有多难实现,大家都懂得,这么多张脸都要完全不崩,放在之前可能要抽卡抽个几十上百次都不一定能抽到。
但是下面这两个Seaweed给的效果,人脸绝对是稳定的,
而且抽卡也就在10次以内就可以得到,还可以让你精挑细选一下自己喜欢的动态。
绝,真的绝!
六. 超远景小人不崩
从前的大远景镜头,都不奢求人物的身影能有什么好的动态了,只求一个不要给我融成一坨。
现在,终于不用愁了!除了人物的稳定,甚至还能实现【多主体】、【场景】多方面稳定的动态效果。
七.画面元素无中生有
之前想要实现一个画面中没有的元素出现,往往用的最多就是【首尾帧】
现在,又有了一种新的方式。
直接通过prompt,就可以让Seaweed帮你实现【小男孩出现在画面中】【一只手出现在画面中】的特定效果。
就是稍微没那么稳定,这种【无中生有】的效果还是需要多抽几次卡的。
八. 生成风格稳定
相信之前很多人在生成视频的时候都会遇到一种情况,就是模型会把画面中的主体“嗖”的一下变成一个奇怪的3D人偶,而且这种情况还不少见。
这次即梦的更新,最最最让我惊喜的就是,风格的延续非常稳定,终于不再有鬼畜3D了!!!做梦都会笑醒的程度!
(这只小松鼠好可爱!)
九. 多人物互动
多人物互动有多难做就不多说了,每一次都做,每一次都会微微失望?。
但这次的测的两个case,反正我是看到希望了。打拳会有拳拳到肉的感觉,跳舞人物的表情和灯光都很对味儿。
(就是差点速度)
整体测下来,虽然还没用上 PixelDance,
但对 Seaseed 我已经是非常满意的程度!
至少对于目前的工具上,即梦算是打开了一个新维度。单是【风格稳定】【文字不崩】两个点,就够我给它打个优秀分了。
写在最后
值得一提的是,
这次测试的全流程我们都是在即梦网页端上完成的!
【生图】、【修图】、【高清】、【音乐】、【视频生成】全部一站式完成。
真的很爽,不需要在各种界面跳来跳去,
还支持手机端,现在外出遇到灵感,都可以用即梦刷两张图,
就恨自己长的手不够多,把灵感们变成影片的周期还是有一丢丢慢。
字节抓紧时间,多买几顿显卡,把 PixelDance 上线到即梦吧,
期待制作出一部由PixelDance为主力工具的AI短剧,
我脚本都准备好了!
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-12-21
Gemini 2.0 Flash Thinking:谷歌推出实验性多模态推理模型,在快速生成的同时展示详细的思考过程
2024-12-20
快手可灵1.6正式上线,他们又一次超越了自己。
2024-12-19
GPT-4o掀起全模态热潮!一文梳理全模态大模型最新研究进展
2024-12-19
国家电网发布国内首个千亿级多模态电力行业大模型
2024-12-19
初创公司 Odyssey 推出 AI 工具 Explorer了
2024-12-19
利用 Gemini 构建 PDF 文档 AI 管道:原理、实现与应用(含代码)
2024-12-18
一手实测豆包新发布的视觉理解大模型,他们真的卷起飞了。
2024-12-18
百度飞桨:多模态大模型技术进展与产业应用实践
2024-09-12
2024-05-30
2024-06-17
2024-08-06
2024-08-30
2024-04-21
2024-06-14
2024-06-26
2024-07-21
2024-07-07