我要投稿

实测豆包AI视频模型Seaweed，击败Sora的含金量到底有多少？

发布日期：2024-09-26 15:15:04 浏览次数： 2791 作者：卡尔的AI沃茨

前天 AI 视频界迎来了 iphone? 时刻，

字节正式发布了两款全新的 AI 视频模型，

PixelDance 和 Seaweed

PixelDance 核心亮点是“人物复杂连续动作”，“多镜头组合”和“运镜控制”。

光这个视频就值得我跳起来点三个赞！

但现在一个都测试不到，从目前透露出的各种 PixelDance 素材来看，应该是极少数人拿到了内测资格。‍

不知道跟前段时间 GPT 语音模式内测比起来，哪个名额少。

幸运的是，我 get 到了 Seaweed 模型的内测！

可能大家会跟我有一样的疑问，

PixelDance 和 Seaweed 有啥联系？区别是啥？

它们使用的模型结构不同，使用定位也不同，

那，Seaweed 会是一个有着 PixelDance 的部分超能力，但成本更低速度更快的模型吗？

所以这次评测我会按照 PixelDance 的新能力作为主要维度，其他主流 AI 视频工具的痛点作为辅助维度，第一时间分享我的 Seaweed 上手体验～

Here we go！

一. 人物复杂连续动作

从材料上看，PixelDance 能在10s内完成3个连续动作，

而主流的AI视频工具单次生成通常是出一个动作，常规的有眨眼、挥手、摇头等运动幅度较低的动作。

就是因为大幅度的动作会让整个画面崩掉，要完成一系列连续的动作，我们往往需要将分镜拆得更加细致，从剪辑层面上完成连续动作。

我们来用相似的画面来对比 PixelDance（上）和Seaweed（下）的效果：

PixelDance

Seaweed

受限于5s的生成时长，Seaweed并不能很精准的表现出【摘下墨镜】后【向前走】的连续动作，

但优点是人物动作的自然度和眼睛的补足做的还不错。

二. 多镜头组合

多镜头组合，简单来说就是单次生成的视频里包含了不同角度的镜头切换。

这中间可能会包括一个大远景展现过后切换到一个人的脸部特写，又或者是一个人物不同正面侧面的切换等等。

说着简单，但是生成起来难度不低，在之前已经推出的工具中，除了 Sora 放出的官方case中有这样的案例之外，其他的工具都很少能做出类似的效果。

我们同样还是用 Seaweed 复刻了一个和 PixelDance 给出的 case 相似的画面：

PixelDance

Seaweed‍

从两个case上看，PixelDance做出的镜头切换是顶级的，而SeaWeed给到的效果整体动作流畅度和幅度是足够的，遗憾的是抽了很多次卡都没有做到镜头切换的效果。

PixelDance这前两大功能都完成了一件相同的事：延长生成视频的“有效时长”，

这个“有效时长”指的不是将原有的 5s 延长到 10s，20s，甚至是 40s，

而是在指有限的时长内做到了尽可能多的变化，还能保持画面一致性。

三. 运镜控制

AI视频里的运镜一共有多少种？

Runway 的官方指南里列出来的 Camera Movement 有15种，配合4种镜头运动速度，

我们可以组合出60种运镜控制。

听上去很多是吧，但我拿着这个去跟影视行业的朋友聊的时候，

得到的答复是，这些运镜控制只是影视制作中很少的部分。

在以往的工具制作经验中，想要让模型听【指令】做出相应的【运镜】，还真的需要靠那么一丝运气，但这次PixelDance给出的case确实带来了很大的惊喜。

PixelDance：通过prompt精准的控制了镜头运动的轨迹，【360度环绕】从【侧脸】到【正脸】，最终落点在人物的面部特写。

Seaweed：虽然实现了【360度】环绕似的运动，但是没有镜头远近的变化，也没有落点在人物的面部特写上。

看来 Seaweed 还没有学全 PixelDance 的 36 变真本事，那如果回到最初我们测评的同一起跑线上，Seaweed 是否解决了目前AI视频工具里的某些痛点呢？

每次都测一样的东西有点子腻了，这次我们直接上了带强度的（毕竟基础的画面效果Seaweed确实已经挑不出什么大毛病了）。

于是，我们额外给Seaweed出了几道奥数题：文字稳定不崩/多人场景不崩/超远景小人不崩/画面元素无中生有/生成风格稳定/多人物互动。

（看得出来日常为了保证AI生成视频稳定做了多大的努力了）

四. 文字稳定不崩

第一个就让我超级惊喜，

Seaseed 做到了画面中的文字可以稳定存在，不会消失，也不会和画面融合成一体！

这以后谁还花钱做动态海报啊！！

五. 多人场景不崩

接下来直接测个王炸的！

多人场景有多难实现，大家都懂得，这么多张脸都要完全不崩，放在之前可能要抽卡抽个几十上百次都不一定能抽到。

但是下面这两个Seaweed给的效果，人脸绝对是稳定的，

而且抽卡也就在10次以内就可以得到，还可以让你精挑细选一下自己喜欢的动态。

绝，真的绝！

六. 超远景小人不崩

从前的大远景镜头，都不奢求人物的身影能有什么好的动态了，只求一个不要给我融成一坨。

现在，终于不用愁了！除了人物的稳定，甚至还能实现【多主体】、【场景】多方面稳定的动态效果。

七.画面元素无中生有

之前想要实现一个画面中没有的元素出现，往往用的最多就是【首尾帧】

现在，又有了一种新的方式。

直接通过prompt，就可以让Seaweed帮你实现【小男孩出现在画面中】【一只手出现在画面中】的特定效果。

就是稍微没那么稳定，这种【无中生有】的效果还是需要多抽几次卡的。

八. 生成风格稳定

相信之前很多人在生成视频的时候都会遇到一种情况，就是模型会把画面中的主体“嗖”的一下变成一个奇怪的3D人偶，而且这种情况还不少见。

这次即梦的更新，最最最让我惊喜的就是，风格的延续非常稳定，终于不再有鬼畜3D了！！！做梦都会笑醒的程度！

（这只小松鼠好可爱！）

九. 多人物互动

多人物互动有多难做就不多说了，每一次都做，每一次都会微微失望?。

但这次的测的两个case，反正我是看到希望了。打拳会有拳拳到肉的感觉，跳舞人物的表情和灯光都很对味儿。

（就是差点速度）

整体测下来，虽然还没用上 PixelDance，

但对 Seaseed 我已经是非常满意的程度！

至少对于目前的工具上，即梦算是打开了一个新维度。单是【风格稳定】【文字不崩】两个点，就够我给它打个优秀分了。

写在最后

值得一提的是，

这次测试的全流程我们都是在即梦网页端上完成的！

【生图】、【修图】、【高清】、【音乐】、【视频生成】全部一站式完成。

真的很爽，不需要在各种界面跳来跳去，

还支持手机端，现在外出遇到灵感，都可以用即梦刷两张图，

就恨自己长的手不够多，把灵感们变成影片的周期还是有一丢丢慢。

字节抓紧时间，多买几顿显卡，把 PixelDance 上线到即梦吧，

期待制作出一部由PixelDance为主力工具的AI短剧，

我脚本都准备好了！

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-18

一口气讲清楚：向量库、训练集、多模态

2025-04-17

豆包深度思考模型正式发布！和 o3 一样能「看图思考」，还有一个 Agent 大招

2025-04-17

刚刚，o4-mini发布！OpenAI史上最强、最智能模型

2025-04-17

刚刚，OpenAI重磅发布o3和o4-mini多模态推理能力爆炸式提升！！！

2025-04-17

OpenAI o3 和 o4-mini 多模态推理新模型重磅来袭

2025-04-16

解放双手！LabelStudio 智能标注实战

2025-04-16

Seedream 3.0 文生图模型技术报告发布

2025-04-14

DupDub 插件登陆 Dify Marketplace，带来强大的音频 AI 能力

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

GPT-4 和 GPT-4o的主要区别

2024-09-12

ChatGPT记忆功能全解析：实用场景与操作指南

2024-06-14

面壁小钢炮 MiniCPM-V 2.6 部署指南

2024-08-06

Flowise AI 工作流进阶: 常用组件介绍+连 Notion 做知识库

2024-06-17

Qwen2-VL 全链路模型体验、下载、推理、微调实战！

2024-08-30

智谱开源新一代多模态大模型CogVLM2，性能媲美GPT-4V

2024-05-30

周鸿祎发布纳米搜索，做世界第一的AI搜索

2024-11-28

一文了解：最新版本 Llama 3.2

2024-10-07

深度解析Swarm Agent ：OpenAI 开源的多智能体协作框架

2024-10-16

深入解析Llama 3：开发者如何充分利用这一开源大模型

2024-04-21

大家都在问

AI数字人领域重大突破：告别拼凑式合成，阿里OmniTalker能否开启音视频一体化新时代？

2025-04-08

Midjourney V7全面测评：50组多风格提示词实测，是否还有领先优势?

2025-04-05

如何结合多模态RAG和异步调用实现大模型内容理解？

2025-03-30

Chat GPT文生图不用DALL·E模型了？

2025-03-26

如何构建多模态AI知识库？

2025-03-05

我为什么要卸载DeepSeek ？

2025-03-02

千问又放大招！720亿参数的视觉语言模型什么样？

2025-01-08

为什么生成式AI不擅长同时做两件事？

2024-12-13

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB