我要投稿

万字字节AI全景：从豆包到全系产品布局的秘密

发布日期：2024-12-28 06:33:18 浏览次数： 3470 作者：LitGate

一、总览以及结论

先说结论，字节在AI领域采用激进的高举高打战略，布局全，投入大，迭代快。目前已在多个赛道跑出全球头部AI应用，成绩斐然。长于产品功能设计和包装，但在大模型能力上与竞对相比并无优势。

整体布局

字节跳动在AI领域采取了激进的高举高打战略。依托其强大资源，在赛道上采取“全方位布局”的策略，在产品上采用“头部产品集中力量，新型产品快速迭代”的打法。取得了不错的成效。

从生态上看，字节在对话、助手、虚拟社交、图像、视频、智能体、办公、社区、音乐、编程、教育、电商、硬件等几乎全领域都有布局。其中在对话/助手、教育、图像、智能体领域已有全球顶流产品。

应用生态

字节的头部AI应用为豆包大家族，包含多个通用及垂类大模型，以及同名AI助手产品。影响力大，其中AI助手产品“豆包”日活已破千万，是全球第2、中国第1的AI类App。

除豆包外，教育领域的Gauth、图像领域的Hypic、智能体领域的Coze均是全球头部的AI应用。

字节在应用生态上十分注重海外市场，多个产品均在国内、海外同时布局，在海外已取得一定影响力。

总体评价

整体来看，字节的AI产品应用的特征为：布局全而广，多领域全方位布局；头部产品热度高，集中力量抢占市场；产品功能设计出色，对AI能力的封装设计在行业处于领先地位；迭代迅速，产品换代频率高。

另一方面，字节大模型本身的能力在业内并不突出。其豆包大模型能力上限为全球第16，中国第10，在能力上与竞对相比并无优势。其当前最大的竞争优势为在一定能力基础上的价格低廉。

二、布局概览

字节跳动在AI领域采取了激进的高举高打战略。依托其强大的资金、算力、场景、技术资源，在赛道上采取“全方位布局”的策略，在产品上采用“头部产品集中力量，新型产品快速迭代”的打法。

模型层方面不仅覆盖了各家都在卷的LLM豆包大模型，对于视频生成、多模态以及特化的口型同步、TTS都有涉猎。

应用层上，基于模型层的广泛布局，产品覆盖了基础的聊天、虚拟陪伴、音乐等。其中不乏豆包、即梦这类国内的爆款产品，也有CapCut、Gauth这种出海成功的产品。

这一战略帮助字节在全球AI市场——尤其是消费端市场——上取得了不俗的影响力。依托其强大的产品设计和迭代、流量拉升和维系能力，多款产品已跻身全球头部AI产品之列。

2024年8月，Andreessen Horowitz发布了其第三期全球AI产品榜，分为网页端和移动端。前两期分为于2023年9月和2024年3月发布。

在该榜单中，字节跳动共5款产品占据了6个位次，其中豆包AI助手的网页端和移动端分别上榜。成绩十分突出。榜单发布以来，字节榜上产品如豆包、Hypic、Cici、Gauth等的数据均有显著的进一步提升，成绩越发出色。

三、核心重点——豆包家族

豆包大模型

豆包大模型是字节AI生态的基石。其包括了一个通用大模型，以及在这个大模型之上构建的全方位垂类模型生态。是目前字节在生成式AI领域影响力最大、热度最高的品牌。2023年8月，“云雀”成为首批通过备案的人工智能大模型；2024年5月，“云雀”更名为“豆包”。5月15日，在火山引擎原动力大会上正式发布豆包大模型家族产品矩阵；目前，豆包家族产品矩阵不断扩充，新的模型如PixelDance等持续推出。已成长为国内C端用户规模最大的大模型，作为垂类大模型，豆包支持视频生成、文生图甚至是函数调用与向量化等功能，价格甚至低至0.0003-0.0008元/千token。

豆包在模型能力上位居全球前列，但与主要竞品相比没有显著优势。根据SuperCLUE测评结果，豆包大模型的综合能力全球第16，中国第10。与o1之外的大模型差距并不算大，整体位于第二梯队末段。

但其实，价格才是豆包大模型的核心竞争力之一。其在同类模型版本上的价格显著低于国内主要竞品，尤其在128k/256k模型版本上，显著低于行业同类价格。

不管是智谱还是月之暗面，普遍价格都完全不如豆包，更不用说高端版本价格更贵的文心一言了。

豆包AI助手

产品层面上，字节将豆包大模型能力进行了整合和封装，推出了作为AI助手的同名产品“豆包”。其囊括了文本、图像、语音等多种能力，针对搜索、聊天、分析、生成、翻译等多个场景进行了定制化设计。

豆包AI助手目前有4种产品形态：PC端、移动端、网页端、浏览器插件。每种形态都进行了较好的适配设计，尤其以浏览器插件端的网页助手和阅读功能为代表。

网页端的版本是传统的对话式AI网页界面，用户可直接在对话框中进行输入。左侧菜单栏中有常用的热门对话类型，以及用户的历史对话记录。

移动端的版本是传统的移动端聊天框形式。分为“对话”“发现”“通知”及个人主页等页面。同样支持自己创建智能体。

PC端的整体界面与功能与网页端/浏览器插件类似。除对话和搜索外，也提供桌面环境下的AI划词翻译、AI阅读PDF等功能。

插件日常以一个小图标的样式显示在页面边缘。可一键翻译页面、总结页面、截图识文字、收藏页面等。需要时会唤起浏览器右侧的对话框。

自上线以来，豆包取得了颇为亮眼的成绩。移动端日活已破千万，在AI类App中位居全球第2、国内第1。网页端月访问量也达到1710万，在AI类网站中位居全球前40、国内前5。

用户数量上，和国内的几大直接竞品相比，豆包移动端领先也优势十分显著，网页端能维持在第一梯队末，与ChatGPT相比仍有差距。移动端，豆包和国内竞品相比具有显著的优势，MAU是第二名文心一言的4.08倍。在全球也仅次于ChatGPT，MAU达到了ChatGPT的20%。网页端，豆包排名国内第三，仅次于Kimi和文心一言。在全球范围内则相对较弱，排名全球39位，月访问量仅有第一名ChatGPT的0.45%。

豆包的强势表现除产品自身的质量外，也和字节的买量投入分不开。自2024年5月豆包家族发布以来，字节在豆包的广告投流上进行了大力的投入；整个第三季度，豆包的投放素材达到71万组，投放金额达到2亿元，领先所有国内AI应用；但进入10月之后，豆包的广告投放有所放缓，Kimi则继续采用激进的买量打法。

四、其他产品——产品端

海外豆包——Cici

Cici，即豆包的海外版，同样由豆包团队推出，功能与设计与豆包基本相同。当前App MAU达到1226万，跻身AI赛道全球前30，与文心一言持平，有不俗的影响力。

扣子——Agent助手

扣子为一个AI应用和智能体开发平台，其三大核心特征包括：①无编程基础进行AI应用和智能体开发；②采用对话聊天Bot形式提供服务；③支持发布到公域社交平台等外部渠道。Coze的海外版为Coze，其核心服务是为用户提供一个快速开发AI应用和智能体的平台，功能强大，支持包括插件、知识库、记忆、工作流在内的多种能力。

Coze核心产品的功能自然是AI应用/智能体搭建：

步骤1：创建智能体。支持模板创建或自然语言AI创建。
步骤2：编写提示词。设定智能体的人设和回复逻辑。
步骤3：添加技能。例如多模态理解、联网搜索等技能。
步骤4：预览、调试与发布。

Coze还能够提供多角度的开发和发布支持：

插件：为智能体提供封装好的额外能力，如排行榜、随机音乐、谜语搜索。
知识库：用户可以指定智能体的知识库，如本地文档、网页链接；
工作流&记忆：支持可视化工作流编排；提供长期记忆支持和设置。
外部大模型API：支持百川、Kimi等；
发布：内置Bot商店，也支持发布到飞书、抖音、微信小程序等。

商业化来看，Coze目前分为免费的基础版和付费的专业版。主要分为智能体调用费、知识库空间费、大模型Token费三种。专业版支持更大团队空间规模、更高免费知识库空间、不限制调用总量等。

产品数据方面，Coze的C端属性比较弱，整体表现普通。国内热度尚可，海外热度在AI赛道中整体偏低。

猫箱——角色演绎

猫箱是一款AI虚拟角色与剧情互动应用，原“话炉”。用户可与多样化的虚拟AI角色实时聊天，共同演绎剧情故事，还可以创建自己的角色和故事剧本。海外版为Anydoor，目前已积累一定热度，其中“猫箱”月活已增长至374，近期数据持续上升，海外版有下滑的趋势。

猫箱的核心功能是AI角色聊天，用户可以与形形色色的AI虚拟角色进行聊天、对话，共同演绎剧情故事。App的首页为类似抖音的信息流推荐机制，用户通过上划来浏览不同的虚拟角色。App还会记录用户对话过的角色历史。对话支持文本输入和语音对话两种。和同类App一样，对话中也包含动作、神态描写。

另一个核心功能是创建角色与故事剧本。用户还可以自己创建虚拟角色和故事剧本。包括设定角色形象、设定故事的开场白、内容和完成条件。App还提供热门的故事模板，如词汇陪练、哄睡玩偶、悲伤鼠鼠等。

星绘——对标秒妙鸭

星绘，主打AI相机和写真生成，对标“妙鸭相机”为用户提供个性化的图片和AI分身生成服务。海外版为PicPic，目前星绘App月活已超120万，已达到妙鸭相机的40-45%。PicPic近期在日本等地进行了大力推广，有所成效，但对比竞品整体热度较低。

星绘的核心功能有二，首先是AI分身/写真的制作。用户上传3-20张照片，即可生成写真风格的数字分身。初次生成时间较长。数字分成制作完成后，还可以对其进行穿搭、发型、场景、用途、风格的变更。例如转变为职场正装照、国风穿搭、少数民族服装、九寨沟风景照、黑色皮衣杂志封面照、张家界徒步照、海滩落日照等等。

第二个核心功能是图片处理，星绘同样支持其他AI驱动的图片编辑和处理，包括AI文生图、AI扩图、AI编辑、AI修图等等。

即梦——图像/视频生成

即梦，海外版为Dreamina，由字节剪映团队推出。AI图片+视频生成平台，主打一站式的AI创作平台，可以使用AI图片生成和AI视频生成，支持文字和图片输入。此外也有图片编辑、智能画布等多个功能。其能进行精细化的操作调整，给创作带来极大便利。目前已与剪映/Cupcut进行深度绑定。数据上来看，即梦和Dreamina的月访问量均在120-130万左右，整体热度普通。

即梦目前的核心功能主要为三个部分，其一是视频生成，支持文生视频和图生视频。支持手动操控运镜、调节速度，支持在手尾帧输入图片生成可控视频。支持基于文字自动对口型。

然后是图像生成方面，即梦支持文生图和图生图。支持对图片进行局部编辑和调整，包括背景替换、风格联想、画风保持、姿势保持等。

最后是智能画布以及创意社区的功能。智能画布集AI拼图生成、局部重绘、一键扩图、图像消除等于一身，支持多图层编辑。即梦创意社区可与他人进行交流启发。

剪映/Cupcut——AI赋能视频创作

除了“即梦”这个独立的AI工具外，剪映自身及其海外版Cupcut也集成了大量的AI功能。二者最早为依托抖音/TikTok起家的视频剪辑/制作软件，后凭借字节在AI领域的能力，上线了大量AIGC功能，赋能用户的内容创作。不过剪映并不是AI原生应用，其数据表现也仅供参考。

目前剪映的AI功能以即梦为主，同时涵盖了字节内部其他团队和产品的AI能力，如即创、海绵、大模型团队等。主要AI功能包括：AI故事成片、AI作图、AI商品图、视频翻译、数字人口播等等。

醒图——全能修图

醒图，海外版为Hypic，图片编辑软件，定位为全能修图App，为用户提供强大的修图和图片编辑支持，一方面提供全方位的修图功能，包括各类面部处理、风格处理和效果编辑，另一方面提供多样化的图片编辑与设计，如商品图设计、社媒图模板等。醒图的市场表现十分突出，醒图近三个月平均日活617万，Hypic的月活达到了1868万，跻身全球前15大AI App。

核心功能主要分为修图和图片编辑。修图方面提供类似美图秀秀的AI修图功能，如头包脸、瘦脸瘦身、面部提拉、面部丰盈、五官立体、去皱、发缝消失等。也支持各类滤镜、智能调色、夜景增强。支持批量修图和一键修图。提供古早风、诺基亚风、柔光风等风格模板。

图片编辑与设计方面主要是提供全方位的图片编辑以及设计功能，如抠图、提高画质、拼图、消除等。也提供大量的预制模板，主要包括商品图的设计模板，以及日常出片的社媒型设计模板，方便用户进行设计。

Gauth——专注海外的教育AI

Gauth，2020年推出，定位为AI学习搭子，是字节推出的专注海外的教育类AI应用，以解题答疑为核心功能点。最早立足于数学学科辅导，目前已扩展至物理、化学、生物、经济、文学、商科等学科。但稳定性仍有待提高，时有翻车现象出现。Gauth在教育和AI两个赛道上都已经成为全球顶流，App月活达1626万，网页端月访问量近2000万，已成为美国地区热度前3的教育类App。

核心功能主要为解题答疑和学习辅助。其中解题答疑部分主要是通过用户上传问题截图/PDF或手动输入问题，Gauth提供分步骤的答题思路和答案。相较同类产品的优势为：响应速度快、擅长图形和视觉表示类题目。不仅覆盖多个学科，同时也提供真人导师。

学习辅助的功能主要是提供软件教学辅助，如Excel、Matlab、R等；提供不同场景下的写作辅助，如个人陈述、论文写作等；提供多语种学习辅助。采用AI对话形式提供支持。

豆包爱学——面向学生群体的教育AI

豆包爱学，AI教育App，原“河马爱学”。提供解题答疑、作业批改、作文辅导等全方位的教育辅导功能，旨在成为学习者和家长的全能学习助手。目前App日活已接近80万，近三个月增长迅猛，日活从5万增长至75-80万，进入国内iOS应用免费榜前200。

核心功能包括拍题答疑、批改以及作文辅导，场景主要为国内学生辅导。拍题功能和Gauth类似，提供拍题答疑和AI讲解功能。支持单体拍摄，也支持整页拍摄。同时还提供错题本功能。AI还可协助筛选必练题，也提供拍摄+作业批改的功能。

作文方面，豆包爱学提供了英语和语文作文辅导。用户输入作文要求，AI即可生成语文或英语作文，也可仅生成思路。此外还有文生图、语音生图、名人聊天室、故事馆等辅助功能。

其他应用

小悟空——个人助理&办公助手

前身为字节跳动推出的综合类搜索引擎“悟空搜索”，后转型为AI对话助手和个人助理，并更名为“小悟空”。

整体功能与豆包非常类似，但更侧重功能性和个人助理场景，也具有更多预设好的、开箱即用的工具和智能体。

热门AI工具包括PPT生成、视频脚本生成、笔记创作、爆款标题生成、心理树洞、模拟面试、塔罗测算、购物回复生成等等。

网页端，月访问量约3.4万。App端，日活仅数千人，整体在3000-6000人之间，热度表现不佳。

即创——电商内容创作平台

专为电商场景打造的AI内容创作平台，提供电商相关的视频、图文和直播创作。包括：

视频内容：如AI生成脚本、视频、数字人、配音、短片等；
图文创作：带货图文生成、智能替换商品背景灯；
直播创作：直播间背景样式生成、直播脚本生成；

10月网页端月访问量38.2万，较9月略有下降。平均访问时长约5分钟，平均访问页面数4.11，跳出率34%。整体热度尚可，但有下滑的风险。

海绵音乐——AI音乐生成

AI音乐创作平台，旨在利用AI技术生成个性化的音乐。

支持灵感关键词生成歌词；支持自定义参数——如节奏、和声等——生成旋律；支持一键生成随机歌词；支持多种情感和风格选择，如国风、朋克、Emo、怀旧等；支持音乐编辑，如续写、换韵脚等；

比较擅长中文歌曲的生成和处理。

网页端，月访问量约3.5万。App端，整体日活仅数千人，11月整体维持在5000-8000人左右水平。

MarsCode——AI编程助手

豆包旗下的AI编程工具。支持代码补全、生成、优化、注释等，支持AI模板和创建AI插件，集成API测试、存储和部署工具，提供云端集成开发环境。网页端10月访问量8万。

炉米 Lumi——AI模型共创社区

AI模型分享社区，为字节新近孵化推出的AI平台。目前为白名单测试阶段。

整体分三大功能：①模型分享与管理，允许用户自由上传和展示AI模型；②Workflow搭建功能，支持用户根据实际需求组合不同模型，构建自定义的AI工作流程；③LoRA训练功能，为用户提供模型微调的便利。

Ola Friend——AI智能体耳机

2024年10月10日发布。接入豆包大模型，与豆包App深度绑定。用户戴上耳机后，无需打开手机，便能通过语音唤起豆包进行对话。售价1199元。

五、其他产品——模型端

BuboGPT

多模态大模型，2023年推出。支持文本、图像、声音三种模态。不仅能支持基础的文本、图像和声音识别，还能将三模态联合打通。例如通过文字描述+图像+声音，精准识别声音来自图像中的哪个地方。即使图像和声音没有关系，也可以描述出二者之间可能存在的关联。

AnimateDiff-Lightning

视频生成模型，2024年提出，该模型是从 AnimateDiff SD1.5 v2 模型中提炼出来，包含 1 步、2 步、4 步和 8 步共 4 个蒸馏模型。其中 2 步、4 步和 8 步模型的生成质量较好，1 步模型目前仅用于研究目的。支持 8 种镜头运动，10 秒内就能生成一个 2s 的视频。

SeedEdit

图像编辑模型，豆包团队2024年11月推出。支持一句话轻松改图，包括修图、换装、美化、转化风格、在指定区域添加删除元素等各类编辑操作，通过简单的自然语言即可驱动模型编辑任意图像等。目前该模型已经在豆包PC端及即梦网页端开启测试。

ResAdapter

分辨率适配器，2024年推出。该工具旨在解决在使用Stable Diffusion等文本到图像模型生成超出训练分辨率的图像时出现的肢体异常和画面崩坏问题。

MagicVideo

视频生成模型，V2版本于2024年推出。集成了文本到图像模型、视频运动生成器、参考图像嵌入模块和侦插值模块，形成了一个端到端的视频生成流程。能够根据文本描述生成高审美价值、高分辨率和平滑度的视频。

X-Portrait 2

单图驱动视频生成模型，字节跳动和清华大学联合推出。基于一张静态照片和一段驱动视频，生成高质量、电影级别的视频。其能够很好地将驱动视频中的表情和情绪迁移到静态照片上，具有高保真度，并且支持跨风格迁移。

Boximator

视频编辑技术，2024年推出。能让用户通过简单的操作控制生成视频中主体的运动轨迹。物体将严格按照用户绘制的位置和路径进行运动。创新之处在于其直观的交互方式：用户可以选择需要运动的物体，然后绘制结束的位置和运动路径，物体就会严格按照绘制的位置和路径运动。

SDXL-Lightning

图像生成模型，2024年推出。是从 Stability AI 的 stable-diffusion-xl-base-1.0 模型中，使用了一种结合渐进式和对抗式蒸馏的扩散蒸馏方法提炼出来的。其在快速出图的同时，依旧能保持较高的图像质量，并且能够覆盖广泛的图像模式。

SeedTTS

文本到语音TTS模型，2024年推出。能够生成与人类声音高度相似的高质量语音，具备出色的上下文学习能力和自然度。支持对情感、语调、说话风格等语音属性的精细控制，适用于有声读物、视频配音等多种场景。还支持零样本学习能力，即使在没有训练数据的情况下也能生成高质量语音。还支持内容编辑和多语种翻译。

GR-2

机器人大模型，2024年推出。ByteDance Research 的第二代机器人大模型。其包含了预训练和微调两个过程。在预训练阶段，GR-2“观看”了多达 3800 万个来自各类公开数据集的互联网视频以及 500 亿个 tokens，涵盖了家庭、户外、办公室等多种日常场景。在微调阶段，团队使用机器人轨迹微调了视频生成和动作预测，展现出卓越的多任务学习能力，在超过 100 个任务中实现了平均成功率 97.7%。其测试的任务包括：想要喝一杯咖啡、早餐想要吃点东西、果蔬分类等等，GR-2均有着十分出色的完成情况。

六、总结

产品布局

字节AI产品布局一览

整体来看，字节AI产品的核心优势是赛道布局广泛、功能覆盖多样，产品整体的设计和AI能力封装十分出色，但大模型本身的能力在行业中并不突出。

豆包在文字创作、中文理解等方面的能力较好，但与其他国内GPT类应用相比拉不开明显差距。同时，在长文总结、联网搜索、数据处理、翻译等方面的能力上，较Kimi等直接竞品有一定的劣势。整体而言，与其他国内竞品相比，最多可称作“各擅胜场”，无法占据领先地位。

大模型的盈亏问题当前仍未能解决。相比ChatGPT，豆包作为C端免费的产品，收入低，亏损问题更加突出。（即不含模型训练、人力和其他运营成本）

整体战略

字节在AI领域采用激进的高举高打战略，布局全，投入大，迭代快。目前已在多个赛道跑出全球头部AI应用，成绩斐然。长于产品功能设计和包装，但在大模型能力上与竞对相比并无优势。

字节依托其强大资源，在赛道上采取“全方位布局”的策略，在产品上采用“头部产品集中力量，新型产品快速迭代”的打法。取得了不错的成效。从生态上看，字节在对话、助手、虚拟社交、图像、视频、智能体、办公、社区、音乐、编程、教育、电商、硬件等几乎全领域都有布局。其中在对话/助手、教育、图像、智能体领域已有全球顶流产品。

应用生态上，字节的头部AI应用为豆包大家族，包含多个通用及垂类大模型，以及同名AI助手产品。影响力大，其中AI助手产品“豆包”日活已破千万，是全球第2、中国第1的AI类App。除豆包外，教育领域的Gauth、图像领域的Hypic、智能体领域的Coze均是全球头部的AI应用。字节在应用生态上十分注重海外市场，多个产品均在国内、海外同时布局，在海外已取得一定影响力。

整体来看，字节的AI产品应用的特征为：布局全而广，多领域全方位布局；头部产品热度高，集中力量抢占市场；产品功能设计出色，对AI能力的封装设计在行业处于领先地位；迭代迅速，产品换代频率高。另一方面，字节大模型本身的能力在业内并不突出。其豆包大模型能力上限为全球第16，中国第10，在能力上与竞对相比并无优势。其当前最大的竞争优势为在一定能力基础上的价格低廉。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业