微信扫码
与创始人交个朋友
我要投稿
推荐语:2024 年 AI 应用全面爆发,中国厂商表现抢眼,快来一探究竟! 核心内容: 1. 2024 年 AI 在 C 端应用场景的爆发情况 2. 全球 6 大热门 AI 应用赛道纵览 3. 中国厂商在 AI 应用中的突出表现
一、前言
如果说2023年是AI大模型元年,那2024年就是AI应用元年。相较去年的大模型大爆发,2024年最显著的特征,是AI的落地应用在各个赛道和场景开始爆发。尤其是在C端应用场景,相较2023年的草创和摸索,各类大模型和人工智能项目在2024年迎来了真正意义上的广泛落地:从大模型类产品的持续出圈、图像类产品的不断完善、视频类产品的质变与井喷,到3D类产品的突破性进展、编程类产品的发展高峰、陪伴类产品的热度爆炸,再到搜索类产品的来势汹汹、语音类产品的稳步前进、游戏玩法的进一步结合,以及3D世界生成和AI硬件的初探。AI大模型已经不仅仅是此前那个看着新奇但在实际落地层面仍一头雾水的技术名词,它实实在在地深入到了C端大众能切实感知到的场景,在2024年以层出不穷的应用产品席卷着人们的日常生活。
而另一方面,在这波AI大模型的成熟和应用的浪潮中,中国的厂商们以强劲的姿态和身影加入其中。无论是在技术侧,还是在应用侧,国内厂商都成为了各大榜单的几乎半壁江山,与美国形成了世界的AI两极。即使是在中国之外的全球市场,国内厂商的AI产品们也获得了巨大的热度与关注,与美国头部公司分庭抗礼,AI出海同样蓬勃。
可以预见的是,这波浪潮将在技术和产品的多方面推动下持续向前,实现更大的繁荣。而我们也将持续关注和追踪,共同见证AI的不断开花结果。
二、全球行业纵览
纵览全球最热门的AI应用,我们发现了2024年的6个主流的核心赛道:大模型、图像/视频、陪伴、搜索、编程及语音。这6大赛道囊括了主要的顶流AI工具与平台,热度高、范围广、影响大。其中,大模型和搜索的头部网站月访问量已达到10亿级,大模型头部App月活甚至达到3亿,陪伴类的头部网站月访问量达2亿、头部App月活接近3000万,视频赛道成熟相对较晚,但在2024年实现了技术突破和产品设计的里程碑,也已有Sora、可灵、海螺这样的全球大热项目。
除上述的综合性热门赛道外,我们也观察到AI在游戏行业迎来了新的发展阶段。无论是与游戏玩法的结合,还是对资产场景的赋能,都相较2023年有了令人瞩目的突破。
在游戏玩法方面,以逆水寒手游为代表的成熟游戏产品,已推出了多个与多模态AI能力相结合的玩法,收获了非常可观的热度;同时,一批大模型时代的AI原生游戏也开始推出,AI与玩法的边界正不断拓展。
在资产与场景方面,2024年中,AI 3D模型生成取得了可喜的进展。行业的领军团队Tripo、Meshy和影眸先后推出了新的AI 3D生成模型和应用,在生成质量上较去年有了质的改变。2024年底,AI 游戏场景生成也涌现了一批新兴创业团队,开始涉足这一仍处在早期的AIGC赛道。
除了上述的6个主流热门赛道和2个游戏行业赛道之外,在线下,2024年的AI硬件场景同样迎来了多方面的质变和突破。无论是技术,还是产品形态或用户体验,2024的AI硬件都迈上了一个全新的台阶。
大语言模型
大模型是当前时代AI发展的中心和前沿。自2023年大模型爆发以来,无论是技术层面,还是商业层面,都保持着极为火热的发展态势。到2024年,大模型依然处于整个AI赛道的核心,从技术、产品、商业多个角度,为整个AI应用和生态提供基石般的赋能。
主要趋势
趋势1:大模型能力持续进步,彻底颠覆2023年的格局与能力边界
来源:AI Review 2024 Highlights, Artificial Analysis
2024年,大模型仍然沿着Scaling Law继续其井喷式的发展,各大厂商不断进行迭代升级,新的模型应接不暇。OpenAI推出GPT-4o和o1,谷歌推出Gemini 1.5 Pro和2.0,Meta推出Llama3-3.3,微软推出Phi-3模型家族,字节发布豆包大模型家族,百度推出ERNIE 4.0 Turbo,智谱推出GLM-4,MiniMax推出abab 6.5,再到深度求索推出DeepSeek-V3。各家大模型军备竞赛不断升级,战火仍在继续。
厂商的内卷也带动着大模型能力的不断提升。2024年,大模型的能力和跑分表现较2023年更上了一个台阶,共有18家企业和机构推出的70余款模型在测评榜上超越了2023年3月推出的GPT-4,2023年的天花板被彻底突破。其中,OpenAI推出的o1仍然代表着行业最佳水准,其他主流厂商——如谷歌、Anthropic、Meta、智谱、阿里等——也有超越或达到GPT-4水准的顶尖模型问世。大模型能力整体较2023年提升了一大步。
测评榜单的跑分能清晰地看出这一趋势。无论是综合测评,还是文理科分科测评,亦或是高难题测评,大批2024年推出的新模型,相较2023年有着质的飞跃。
来源:SuperCLUE排行榜
趋势2:C端的大模型产品已经从小众的噱头成长为普罗大众的常规软件
除技术层面的能力迭代之外,大模型在产品层面的影响力也在不断破圈。作为最直接的大模型商业化产品,ChatBot在2024年均迎来了热度和用户数的爆发,从最初的噱头和试验性产品,成长为全球互联网用户的核心主流产品。
例如,最头部的ChatGPT,网页端的月访问量已从年初的16.5亿增长至年末的39.2亿,移动端的月活也从年中的1.77亿增长至年末的2.87亿。在2023年的基础上仍然实现了极为可观的增长。
除ChatGPT外,其他主流的ChatBot类应用同样有可观的增长。以月访问量为例,Claude月访问量从年初的2132万增长至年末的8932万,文心一言从年初的1006万增长至年末的2207万,通义千问从365万增长至1065万,豆包从173万增长至2143万,智谱从171万增长至400万,Kimi从305万增长至3282万。主流大模型产品几乎都迎来了成倍数的爆发式增长。
整个ChatBot赛道全方位的增长,反映出大模型产品整体的持续火爆。相较2023,产品侧的大模型同样实现了质的飞跃。
来源:AI产品榜(李榜主)
趋势3:大模型价格进一步下降,厂商价格战加码
受厂商竞争和效率提升的影响,2024年大模型的价格进一步大幅下降。以行业头部的OpenAI为例,以输入价格为基准,2024年能力更强大的新模型,在价格上相较2023年有了十分显著的下降。用户能够以同等或低得多的价格,用到能力更强的模型。
除OpenAI外,其他大模型的产品价格也在持续下跌。
从海外厂商来看,Anthropic的Claude 3.5 Sonnet为3美元/百万token,Claude 3.5 Haiku仅0.8美元/百万token,而其上一代模型Claude 3 Haiku已降至0.25美元/百万token;谷歌的Gemini 1.5 Flash则为0.075美元/百万 token。价格相较此前均有显著下滑。
来源:官方网站
从国内厂商来看,字节5月份推出的豆包大模型家族,正式打响了国内大模型降价的热潮,阿里、百度、智谱等纷纷加入降价浪潮,大模型价格不断压低。字节的Doubao-pro-128k/256k的价格仅为5人民币/百万token,Doubao-pro-4k/32k的价格仅为0.8人民币/百万token;智谱最强的GLM-4-Plus模型价格为50人民币/百万token,GLM-4-Air仅1人民币/百万token,GLM-4-Flash模型也紧随字节的低价降至0.06元/百万token;月之暗面的Moonshot-v1-8k仅12人民币/百万token,Moonshot-v1-128k为60人民币/百万token。大模型的价格战已经成为2024年最为瞩目的行业趋势之一。
除了这些发展趋势和成果之外,2024年的大模型行业也并不总是阳光明媚。一些笼罩在行业上空的乌云也亟待更进一步的创新和突破。例如,训练数据不足已经是几乎人尽皆知的痛点。诸如Llama 3、DeepSeek、Qwen等知名模型已经不可避免地大量使用合成数据。此外,2024年的Agent赛道尽管已有不少进展,也取得了相当亮眼的成就,但仍然没有出现一个真正意义上成熟的Agent产品。更不消说“当前的技术路径是否是实现AGI的正确路径”这种正反观点均有大佬站台的旷日持久的争论,都在等待未来进一步的新发展和新突破。
重点关注
o1及其他:让OpenAI维持住了行业标杆的地位
2022年和2023年的大模型天花板均来自OpenAI,ChatGPT和GPT-4两款产品不仅拉开了大模型时代的序幕,也奠定了OpenAI行业领军人的地位。而到了2024年,尽管GPT-4的垄断地位被颠覆,但2024年5月推出的GPT-4o、9月推出的o1模型和12月公开的o3模型仍然成功维持住了OpenAI的行业标杆地位。
来源:SuperCLUE排行榜
其中,GPT-4o是OpenAI首个整合文本、视觉和音频的多模态大模型,其还具备出色的感知用户情绪、生成不同情绪的声音、实时视觉功能和更好的语音交互等多个能力。其速度比OpenAI此前的模型更快,且价格更低。
o1则是OpenAI推出的针对复杂推理问题的全新大模型,是独立于GPT系列的新的产品系列。其本质是内化思维链学习的过程,通过思维链式的问题拆解,让模型具有更强的推理能力。o1在数学类、编程类和理工类问题上具有非常出色的能力,在数学上已达到美国数学奥赛的参赛门槛,在编程上经过训练也已达到国际信息奥赛的金牌线。
豆包:全球第二大AI App,以及在AI领域高举高打的字节跳动
作为字节跳动的大模型C端产品,豆包诞生于2023年下半年,此后表现持续走高,在2024年5月字节推出豆包大模型家族产品矩阵之后更是稳定跻身国内头部App和全球头部AI App。其移动端的日活,从2024年初的不足200万,增长至10-11月的突破千万,再到年底的突破1200万,其使用人数在全球仅次于ChatGPT。豆包网页端的月访问量,也从年初的170万,增长至年末的1700万。
2024年5月,字节发布豆包大模型家族产品矩阵,自那以来,豆包移动端App就常年稳居国内ios所有应用的免费总榜TOP5,热度惊人。其最近还新上线了豆包语音大模型,在豆包App中全量开放,实现了极具表现力和情绪表达的端到端语音对话,在用户测评中甚至较GPT-4o都有明显优势。
豆包产品的主要亮点之二,是其出色的产品设计。豆包横跨移动端、PC端、网页端和浏览器插件四种形态,场景覆盖面广。其囊括了文本、图像、语音等多种功能,针对搜索、聊天、分析、生成、写作、翻译等多个场景都进行了定制化设计,用户体验友好。其还包括了数量众多的AI智能体,以满足不同用户不同风格的聊天需求。
而这背后也体现出字节跳动在AI领域的野心。据浙商证券分析,2024年,字节跳动在AI上的投入高达800亿元,几乎是BAT三家的总和。而豆包作为字节的AI门户和拳头产品,其出色的产品设计与高举高打的买量投入也正彰显着这一点。
DeepSeek V3:国产第一模型,来自“六小虎”之外的炸场
2024年底大模型领域的爆炸性动态之一,是DeepSeek V3的发布。这家来自国产“六小虎”之外的厂商,以低训练成本打造出了全球前列的大模型,引发巨大关注与讨论。
DeepSeek V3由幻方旗下的深度求索公司推出,6710亿参数,其中激活参数为370亿,在14.8万亿token上进行了预训练。总训练成本仅557.6万美元,消耗了278.8万个GPU小时。和低成本相对照的,是其出色的模型能力,整体达到 GPT-4o 以及 Claude-3.5-Sonnet 等全球顶尖闭源模型水准。
据官方报告,DeepSeek-V3 在知识类任务上接近头部的Claude-3.5-Sonnet-1022,在长文本上超越其他模型,在算法类代码上遥遥领先非o1类模型,在工程类代码上接近Claude-3.5-Sonnet-1022,在多个真实数学测试上超越所有已有模型。而根据基准测试LiveBench,DeepSeek V3在全球仅次于o1和两款最新版本的Gemini模型。
来源:DeepSeek V3 Technical Report
Gemini:谷歌的奋力追赶与“一人之下”
自OpenAI发布ChatGPT以来,作为Transformer提出者的谷歌在舆论上一直处于较为尴尬的局面。而 Gemini,则成为了谷歌力图破局的关键和拳头产品。作为2023年推出的模型,Gemini已经成长为了谷歌大模型生态的核心,从ChatBot,到智能助手,再到谷歌CEO对自己的称呼“Geminier”,处处都体现着谷歌通过Gemini打开局面的野心。
在2023年的推出和一系列更新之后,Gemini在2024继续高歌猛进。2024年5月,谷歌发布Gemini 1.5 flash,同时针对Gemini App推出了新的订阅服务和Gemini Live功能,后者可以让用户与AI实时电话交流,甚至能覆盖模拟面试、练习口语、头脑风暴等多个场景。2024年8月,谷歌大大扩展了Gemini可以支持和交互的应用软件,包括日历、任务、Google Keep、Youtube Music等等,例如,用户可以将一段探店的Youtube视频链接发给Gemini,生成出食物清单。以Gemini为核心的应用生态不断扩大。
2024年底,谷歌官宣了Gemini 2.0,并推出了Gemini 2.0 Flash实验版,代表了谷歌AI大模型的最高水平,支持多模态输出,各项能力相较1.5 Pro都有着显著提升。
来源:谷歌官网
当前,谷歌在大模型水平方面已成为仅次于OpenAI的“一人之下”。根据LiveBench榜单,谷歌在2024年底推出的两款新模型,性能上仅次于OpenAI的o1,相较其他竞争对手有着显著的优势。
来源:LiveBench
视频生成
2024年开始,AIGC视频赛道迎来了井喷式发展,技术产品层出不穷。从年初OpenAI推出Sora席卷全球,到国内发布的Vidu、可灵、海螺,全球市场逐步形成以技术迭代为核心的竞争格局。Runway、Luma AI等海外厂商不断升级应用生成能力,而国内厂商如快手、字节等也频频推出优化模型层技术,积极缩小差距。年底Google的Veo2上线更是进一步刷新了行业的上限表现,让所有人都为之震撼。
整体来看,海外产品以技术领先优势推动行业前进,而国内厂商快速跟进并逐步实现局部超越,尤其在细节优化与应用场景扩展上表现亮眼。可以预见,未来AIGC视频赛道将持续高速发展,国内外厂商将在技术与产品上展开更激烈的竞争。
技术突破与趋势:从“能用”到“好用”,精细化与可控性成为核心战场
技术路线的标准化与创新化
OpenAI 推出的 Sora 为 AIGC 视频生成领域立下了技术标杆,其 “时空块 Patch、DiT” 方案成为行业竞相追随的技术范式,Transformer 自注意力机制与视频生成的结合,成为众多厂商技术研发的核心方向。在这一趋势下,国内外厂商纷纷基于 Diffusion Transformer 架构开展研发工作。
国内的快手、生数等厂商,在借鉴 Sora 技术路线的同时,结合本土丰富的视频数据储备,进一步提升了视频生成的细节和一致性。这种技术路线的趋同,使得整个赛道在技术层面形成了以Transformer为核心的主流方向。
视频质量与可控性的全方位提升
得益于新架构的应用和数据量的积累,视频质量得到了显著提升。以Sora和Runway的Gen-3 Alpha为代表的产品,已经能够生成高分辨率、高帧率的视频,接近商用标准。同时,产品的可控性也在不断增强,用户可以通过文本、图片输入以及各种控制工具,精准生成符合预期的视频内容。
实用功能的快速落地
从最初的文本生成视频,迅速拓展到图片生成视频、视频续写、风格迁移、特效添加等多种功能,模块化、标准化的产品功能加速了产品的破圈。可以看到Runway、Pika、PixVerse甚至是Sora这些产品,都在愈发的重视视频编辑以及特效方面的功能,并且AI视频相关的创作在今年也随之迎来了大活跃。
赛道重大发展与趋势:Sora领跑,国内厂商奋起直追,差异化竞争显现
OpenAI Sora 于 2 月推出,在流畅性、细节表现、光影色彩等多方面取得明显突破,成为业内标杆。虽然具体的数据没有公开,但在话题性上引发全球的讨论与关注。
12 月 9 日推出了 Sora Turbo 版本,支持文本、图片生成视频,提供丰富修改和编辑工具套件,实测效果处于第一梯队。由于是妥协算力与成本的产物,所以仍存在物理模拟崩坏、复杂场景错乱、AI 味重、缺乏物理引擎等问题。
Runway 作为老牌厂商,24 年 6 月上线 Gen - 3 Alpha,新增多种控制工具,视频质量提升,擅长风格化、V2V 视频转绘,已合作多家影视巨头,生成视频质量较高,应用于电影、广告片,产出的短剧《Get Me Out》在AIFF获奖,还有专业级的广告片《Forever is Made Now》的尝试。不过Runway缺少物理引擎,模拟世界较弱,产品的整体MAU在700万上下。
Pika 在 9 月推出 Pika 1.5 和特效库 PikaAffect,通过其独特的特效 “解压小视频” 出圈带动流量激增,月访问量在900万上下,不过实测起来模型的可用性一般。
Veo2是谷歌对标OpenAI的Sora而推出的产品,Veo2整体的效果在一众视频生成模型脱颖而出,一经发布就震撼了所有人。Veo2的优势在于出色物理模拟理解与镜头感,这使得模型的真实感大大提高。还可以支持生成最常超过2min的视频,这对于目前的视频生成模型来说是非常出色长视频能力。虽然视频模型经常会产生‘幻觉’,生成多余的细节(比如乱七八糟的手指头或者不该存在的物体),但Veo 2产生幻觉的频率比较低,因此输出的视频更逼真。
快手可灵采用复刻 Sora 方案的路线,借助快手充足的训练素材储备,整体的品效处于第一梯队。在文本理解、一致性、画面品质表现不错,运动笔刷还支持任意路径,可控性较好。在故事性上还支持视频简单续写,甚至还进行了短剧改编以及电影化的尝试,整体产品的海外热度约为Runway 2倍,月访问量超过1400万,流水破千万元。
Minimax 的海螺 AI 底层技术改良,文本响应好、角色情绪表演出色,视频效果突出。在海外热度非常高,其海外用户制作电视风格外星人视频《The Galactians》观看量超过278万。借助起出色的情绪表演风格,海螺在 9 月访问量激增 800%,登顶全球和国内 AI 产品增速榜,月访问量稳定在1200万左右,整体略低于可灵。
而生数科技的 Vidu-1.5 支持多主体一致性生成,商业广告和动漫创作效果较好,曾通过“毒液变身”酷炫特效短暂火爆出圈。但整体流量⼀般,月访问量只有300万左右,大幅落后可灵、海螺。
即梦作为字节的看家产品,在9月发布了看家的PixelDance、SeedWeed两个模型,目前全球月访问量在240万上下,市场热度并不算高。即梦在运动控制方面有着不错的效果,可以支持生成人物的复杂连续动作,动作的连贯性在一众视频生成产品中脱颖而出,并且支持多镜头组合,镜头的变焦效果也不错。虽然支持配音,但是自带的配音效果比较差,实际的可用性要弱很多。
商业应用逐渐拓展,应用场景更加多元化
2024年,AIGC视频生成技术在商业广告、短视频、短剧等多个领域迅速渗透。全球品牌如Coca-Cola、NIKE等率先采用AI生成广告内容,通过高质量的视觉效果和创意表达,刷新了传统广告制作模式,大幅降低了制作成本。
例如,Coca-Cola发布的全AI制作圣诞广告《The Holiday Magic is coming.》,虽然颇有争议,但是也标志着AIGC视频生成正式进军工业化场景。而这方面国内厂商也有参与,比如可灵首部AIGC微短《山海奇景》热度不错、播放量超过5千万+。12月6日可灵还发布了「可灵AI导演共创计划」的9部AIGC电影短片,包括李少红、贾樟柯、叶锦添、薛晓路、俞白眉等9位知名导演参与其中。
在短视频生态中,AI生成技术推动了宠物拟人、特效变装等UGC(用户生成内容)内容的爆发式增长,满足了用户对趣味性和创意性的多样化需求。10月,一只 AI 生成的猫“巫师猫”在全球社交网络意外爆火,单条视频在 Instagram 上的播放量超过 1200 万。人们被这只猫神秘古怪的外表和超现实的魔法动作所吸引,为其取名“巫师猫”,这个新晋的 AI 宠儿,连可灵等视频工具的官方都为它创作meme。
11月,PixVerse变身毒液的视频火爆全网,还有《甄嬛传毒液版》产出。12月可灵打破次元壁的可动手办生成爆火,用户使用可灵可以让自己的手办老婆真的动起来。AIGC在UGC方面应用热度最高,AI的无厘头与无穷想象力带给了用户更多创作与发挥的空间。
然而,随着AI生成视频内容的迅猛发展,也暴露出情节风险与版权争议等问题,引发了监管和技术优化的广泛讨论。12月9日,广电总局出台相关管理要求,明确需避免滥用经典IP、注意内容尺度,并加强对侵权风险的管控,标志着行业监管步伐的加快。
2024年,AIGC视频领域实现了快速扩展,技术创新不断推动行业前进。国际和国内企业加剧了竞争,全球领先者通过先进技术设定了新标准,国内厂商则迅速追赶并在某些方面取得突破。视频生成的质量和可控性显著提升,广泛应用于广告、短视频和影视创作等多个商业领域。同时,用户生成内容也呈现出爆发式增长。随着行业的发展,内容安全和版权保护成为重要议题,促使监管措施的出台。整体来看,AIGC视频赛道前景广阔,未来竞争将更加激烈。
3D生成
行业趋势
今年的3D生成也是打得火热,几家头部产品的“胜者”通吃。为什么带引号呢,因为虽然目前各家头部产品的效果都可以说令人为之惊艳,但是在工业级水平上的可用还是有一定的距离,目前的效果和应用场景并不能算最终的优势。换句话说,目前的产品想要和Midjourney这些产品在实际工业化中比参与度,可能还要留一些时间发展。闭源产品中,Tripo、Mesh以及Rodin都是国人团队推进的优秀产品,开源也有诸如TRELLIS、TripoSR、Hunyuan这些有突破性进展的项目。
技术上方面,目前3D的技术路线主要分为2D升维和原生3D两种。前者借助2D AIGC先验知识来驱动3D生成, 依赖现有SD、Imagen等2D模型,整体的产出范围更广,自由度也更高,但是相对来说最终的效果总是会“差一把火”。后者是直接在3D数据集上进行训练和推理,但是对数据集的要求更高。往年2D升维3D类涌现较多的商业化产品和代码模型,是业内和学界关注重点,今年在AI原生3D类上的也慢慢有了一些探索和研究。
整体来说,3D模型的复杂程度要比2D图像更高,信息系要素也更多,不仅包括基础的几何形状,还有表面、骨骼、材质等因素的影响。其次是现有的3D模型数据集相对来说也不够多,与2D AIGC的训练集相比差了3个数量级,最主要的还是优质数据不足,Rodin的团队接受采访时也提到过,关键在于从数据集转化到最终输出,信息损失要尽可能小。因此,受限于3D模型的复杂度、3D模型数据库的短缺以及增速缓慢,短中期来看,通用型 AIGC 3D 应用较难实现。
重点产品介绍
闭源产品
1
Rodin
Rodin的团队为影眸科技,孵化于上海科技大学。此前推出过ChatAvatar项目。23年底公开泛化图生3D模型Rodin Gen-1,6月正式公测,12月发布更新版本的产品模型Rodin 1.5。Rodin采取的路线应该是AI直接生成式3D模型,贴图采用2D升维3D,通过图片以及提示词,在预训练的模型库内进行模型重建,整体逻辑更接近人工建模。Rodin Gen-1 其实相较于Mesh、Tripo这些产品的发布在时间上要稍微落后一些,但是整体的效果上其实是相当出色,弥补了此前AI原生3D生成产品没有突破性产品的遗憾。
图:Rodin平台上用户生成的3D资产
在Rodin 1.0之后,Rodin也一直在做进一步的迭代。其最新发布的 1.5 版本主要更新在PRO Mode(三角面)和边缘锐利这部分的优化上,对于建筑、机械等硬表面的模型会有更好的表现,同时在面数较低的情况下能够保留更多的细节。基本上可以说解决了目前的3D模型在尖锐边缘生成能力的问题,在一些角色生成上也有效果的提升。之前的版本效果也可圈可点,虽然边缘生成比较软,但是在一些Q版造型以及角色的生成上其实还算不错。另外,Rodin近期还上线了体素生成、点云生成、特征融合等功能,用户可以在Rodin平台上完成模型前期的结构构件以及细节优化。
2
Tripo
自2023年成立以来,VAST这支商汤和清华背景的AI团队就饱受业内关注,目前已拿到数亿元投资。团队致力于将Tripo打造成3D版的TikTok,降低3D制作成本,让人人都能成为3D内容的创作者。曾发布过Wonder3D等开源3D生成模型与论文,24年3月合作StabilityAI推出开源图生3D模型TripoSR。
图:TripoSR效果
9月下旬,VAST推出了Tripo的全新版本——Tripo 2.0,VAST始终致力于验证3D生成领域的Scaling Law。Tripo2.0也是这一路径下的产物,基于海量的高质量训练数据打造,其表现也进一步验证了 3D Scaling Law。粗模采用直接生成式,Refine时会采取2D升维3D的手段进行重建。高精度的图片可以生成不错的效果,整体布线较为均匀。
图:Tripo2.0效果
此前发布的Tripo1.4版本的贴图表现比较出色,基本按照提供的图片效果进行生成,但是联想能力比较差,图片背面的材质与结构生成一般,并且重拓扑布线平均,偶尔会出现UV错误的情况。Tripo2.0进步一提升了效果,在建模、贴图、纹理质量上都得到了显著的提升。模型细节更好、纹理质感更佳。并且可以直接重拓扑成四边面网格,直接导出渲染出图或者修改多边形细节,拓扑后也基本和原本一致。
3
Meshy
和VAST一样,Meshy同样也是广受关注的AI 3D国人创业项目。创始人胡渊鸣早在数年前创立太极图形时,就已获得红杉、源码、GGV、BAI等美元基金的关注和投资。Meshy为其第二个创业项目,聚焦于3D AIGC的产品化,以“3D Midjourney”为定位目标,愿景是能解放用户的3D内容生产力、低门槛地创造自己的3D宇宙。8月下旬,Meshy也推出了其最新一代模型——Meshy-4。
图:Meshy-4效果
Meshy本身有4大功能:文生3D、图生3D、文生纹理、文生体素。与前两个产品在图生3D方面的专攻不同,Meshy-4主要更新了“文生3D”的能力,针对表面平滑度和几何细节进行了优化,使得输出模型更加精细且接近专业标准。Meshy的产品功能设计丰富,不用户可以导入自己的模型,由Meshy生成材质,还支持从图片里反向提取提示词,在材质生成、骨骼绑定方面相较竞品有非常突出的亮点。整体来看本次更新的Meshy-4的几何细节得到了很大的增强。能支持一些复杂度很高的模型,对于很多几何细节的捕捉非常出色,在语义理解方面也十分优秀。不过遗憾的是,图生3D上没有明显变化,与Tripo2.0、Rodin1.5都有一定差距。
开源产品
1
Stable Fast 3D
Stable Fast 3D是Stability AI 8月发布的模型,模型基于TripoSR模型开发,TripoSR为Stability AI和Tripo在2024年3月合作推出的3D AIGC模型。其核心亮点是能够以极快的速度(0.5秒),从单个图像生成3D资产。
在7GB显存的GPU上仅需0.5秒,在官方API上也仅需1秒左右。并且生成的UV展开和材质的品质很高,还减少了纹理中的光照纠缠。还支持生成额外的材质参数和法线贴图。意味着3D模型可以拥有更丰富的表面细节和更真实的光照效果。
2
Flex3D
Flex3D是Meta和牛津大学联合推出的3D生成模型,2024年10月推出,能基于单张图片和文本提示生成高质量3D模型。
部分生成案例:
整个过程分为两个阶段,用来解决传统3D生成方法“输入视角数量少且固定,捕捉不同视角难度大,合成视角质量不佳,生成结果不佳”的顽疾。
第一阶段包括【候选视角生成】和【筛选】流程:这个阶段的任务是生成尽可能多的候选视图,然后从中筛选出最高质量的视图用于后续的3D重建。第二阶段为【3D重建】:在筛选出高质量的视图后,会将其输入到一个灵活重建模型(FlexRM)中,重建3D模型。
生成效果对比:基于项目方给出的对比信息,Flex3D 在 CLIP 文本相似度和 VideoCLIP 文本相似度这两项指标上都较其他模型有着明显的优势。同时其开展了一项用户调研来对生成效果进行评估,Flex3D的胜率始终大于92%。
3
TRELLIS
Trellis是微软最新推出的开源3D生成模型,GitHub Star数达到了6.7k。模型采用了一种叫做构化潜在表示(Structured Latents)的技术,把复杂的3D数据转化为更简洁、更有结构的潜在表示,可以原生生成3D模型,使得模型生成和编辑更加高,支持输出3D高斯、光场、网格等格式的模型。
图:TRELLIS 3D生成的流程
对比其他开源3D生成模型,TRELLIS的生成质量要更高,应该是目前开源的3D生成模型中效果最好的。Trellis的一大特点就是在尽可能精简面数(可以说是Low Poly)的情况下保留原生细节进行生成,更擅长机械、建筑类的素材生成,但是在人物方面还是要略逊一筹基于“结构化潜在表示”,Trellis能够从简单的文本或图像描述生成复杂的3D模型,生成的质量和细节都非常高。并且能对已生成的3D模型进行局部编辑,调整特定部位的外观或形态。
图:TRELLIS 3D生成的示例
游戏结合方向
不少人还是会有疑问,AI生成的模型距离真正意义上的可用还有多远?接着上文提到的,由于3D生成在不同使用场景下,其实一直都有着不同的标准。所以想要统一一个绝对通用的标准在实际落地的角度来看非常困难。
比如说,游戏内具体到一些道具、武器,通常来说要求的面数是不高的,因为团队会通过烘焙贴图的方式来优化模型在游戏内的显示性能;再比如,工业上制作的产品建模,那必然对于精度有极高的要求,面数必然不会低。可以看到本质上根据3D资产的用途不同,在使用时的标准也是千差万别的,更不必说涉及到拓扑、几何、UV等元素的话,需要训练和考虑的东西还要更多,所以实际上AIGC 3D生成距离游戏或者其他工业化场景直接可用还有很大差距。
刚才只是从把物品作为作品主要构成元素的角度,那如果是没那么高标准要求的素材呢?作品场景中的摆件、装饰这些,完全可以通过AIGC的快速生成。
简单造型的模型(椅子、盾牌等)拓扑后可以直接使用,直接通过插件减面之后粗暴丢进游戏内档环境素材完全够用,整体只需要进行简单调整就可以迅速上阵了。
比如此前提过,Rodin的几何结构很不错,作为模型雕刻的起点可以减少建模的一部分基础工作量。亦或是直接作为三渲二的基础素材,用Rodin生成后通过Mixamo绑定并通过Houdini添加卡通着色。毕竟从2D设计最后到3D资产落地的过程中,中间产生的初始成本以及多次返工都是存在的,3D生成模型辅助制作这些内容完全是够用的。
目前各家也都在进行一些实操环境的落地与尝试。比如针对环境类物品,Tripo就在10月份发起了”3D棋子设计大赛“,招募选手通过Tripo生成各类风格的国际象棋,最终选出了7个获奖作品,从完成度来看都是相当高的。大部分作品都是使用草稿出图,MJ/Flux等2D工具优化,最后使用Tripo生成后调优,整套流程相对成熟,用来做简单的非重点素材完全足够。
玩家的UGC内容也是同样,后者本身对于内容质量本身要求就不会太高,核心反而是怎么能更好的配合玩家生成素材。12月底,网易最新发布的MMORPG《燕云十六声》上线,其中内置了一个名叫“万物太极”的功能。支持玩家自定义上传照片生成3D模型,并可以在游戏内调整倍率召唤在场景中,不仅支持玩家自定义生成,还可以讲内容发布到社区内推荐给其他用户。功能热度不错,各平台均有玩家发布二创作品。据透露,本次3D模型AIGC功能是Tripo提供的技术支持。
代码辅助
随着2024年“全球首个AI程序员”Devin的诞生,AI编程领域在下半年整体迎来了比较大的变化。技术上,AI编程在效率和功能上实现了重大突破;产品上,各类大模型不断升级,推动自然语言编程的发展,使用户能够通过自然语言轻松生成代码。
技术革新:智能化与自动化的深度融合
AI在代码优化与审查环节展现出更高的智能水平。现代AI不仅能够精准自动检测代码错误,还能深入剖析代码逻辑,为开发者提供全面且深入的优化建议。同时,开发流程的自动化与智能化程度不断提升,AI能够从需求分析、任务拆解到代码编写、测试等全流程提供智能辅助,显著缩短开发周期。
自然语言编程深入发展 编程门槛显著降低
2024年,国内外领先的大语言模型在AI代码领域取得了显著进展,推动自然语言编程的发展,显著降低了编程门槛。
阿里云全面升级 AI 基础设施,发布了通义千问新一代开源模型 Qwen2.5,其旗舰版本 Qwen2.5-72B 在多项基准测试中表现强劲,超越行业对手,涵盖了多个尺寸的大语言模型、多模态模型、数学模型和代码模型,在代码生成和处理方面有更出色的表现。通义千问发布的 320 亿参数编程模型,通过简单的文本提示,能够快速生成功能齐全的应用程序,使得即使是没有编程经验的用户,也能够通过自然语言交互实现编程。
图: Qwen2.5 系列模型矩阵图
DeepSeek V3:DeepSeek-V3 在算法类代码场景,远远领先于市面上已有的全部非 o1 类模型;并在工程类代码场景逼近 Claude-3.5-Sonnet-1022。并且目前特惠期价格每百万输出 tokens 只要 2 元,价格是Claude 3.5的几十分之一。
Anthropic 发布 Claude 3.5 系列模型:6 月推出的 Claude 3.5 Sonnet 在编码评估中解决了 64% 的问题,视觉理解能力也显著增强,能处理复杂的视觉推理任务,同时引入了 "artifacts" 功能,允许用户实时编辑和构建 AI 生成的内容,方便在协作工作环境中使用,在一定程度上降低了编程门槛。Claude 3.5 Sonnet的推出标志着LLM在代码理解和生成能力上的重大突破,这直接推动了AI编程软件的快速发展和普及。
图:Claude3.5与其他不同模型在多个任务上的性能表现
人机协作更紧密 功能集成化与多元化
豆包Marscode负责人表示AI coding领域出现过两次PMF(产品市场匹配)的场景。第一次PMF是以代码补全为基础的。“而Claude3.5 的出现让我们看到另一个点——通过 Chat(聊天对话)的形式与 AI 对话,可以理解你的需求,直接生成更好的(代码),这是第二次 PMF。“因此,AI coding工具也在朝着功能集成的方向不断改进。
得益于Claude 3.5等先进LLM的支持,Cursor等AI编程工具实现了从单纯代码补全向代码重构、优化等复杂任务的跨越。这些工具不仅集成了项目管理、代码审查、测试等多个软件开发环节,还通过智能预测和多行编辑功能,极大提升了开发效率。Cursor最初并非基于VSCode开发,但通过深度魔改,将AI功能集成至VSCode中。由于VSCode是开源的,Cursor用户几乎可以无缝切换到Cursor,大大降低了使用门槛,并依托VSCode的开放生态,确保了高度的兼容性和用户体验。
图:Cursor的自然语言编程功能
实际落地方面,目前已经有越来越多的开发者使用Cursor等代码辅助工具。很多独立项目以及独立游戏的开发者都会选择使用此类工具进行代码提效,比如前一段爆火AppStore畅销榜的产品“小猫补光灯”,产品的基本功能就是根据用户需要自定义色值使用手机进行补光。没什么代码经验的作者使用Cursor在1时内就开发出了初步的产品,并且隔天上架AppStore,最后成功上榜畅销榜第一。产品功能简单,对于一些小型项目的开发者而言,Cursor的意义在于能够快速的辅助用户减少前期的准备工作以及调试的时间,迅速迭代功能上线,把时间花到其他方面,从而达到提高产能的作用。
从产品数据来看,GitHub Copilot依然是用户数量最多的代码辅助产品。然而,Cursor在今年的产品增量上取得了显著进展,9月份Cursor新增的企业客户数量甚至超过了OpenAI。尽管GitHub Copilot依赖于GitHub及微软的良好生态,但在AI编程方向的反馈并不理想,主要原因是其在编码效率提升和开发体验优化方面的优势并不突出。某些IDE中可能无法充分利用其代码建议和自动补全功能,导致开发人员未能获得最佳的编程体验。
此外,GitHub Copilot对新语言和框架的支持不足,开发者需要手动编写代码或寻找其他工具来辅助编程。总体而言,GitHub Copilot在人机协作的功能性上并未显著提升效率,且提高了使用门槛。随着Cursor等AI编程软件的竞争,GitHub Copilot逐渐优化了自己的商业化体验,开放了免费试用版本,并接入了Claude等市面上流行的大语言模型。
图:GitHub Copilot的智能体对话功能
易用性与体验:Cursor vs GitHub Copilot
易用性:GitHub Copilot在光标位置后仅提供单一的代码提示,用户需要逐个位置修改,操作效率较低。相对而言,Cursor能够在多个位置同时提供代码补全和修改建议,支持代码重构和优化,显著提升编码效率。
Agent功能:GitHub Copilot的Chat功能只能提供修改建议和生成参考代码,无法直接应用修改,需手动复制粘贴。Cursor的Chat功能允许用户点击“Apply”链接,直接将代码应用到相应文件。其Composer功能支持项目全局的代码添加、删除和修改,并提供Normal和Agent两种模式,极大简化了新项目的环境配置过程。
上下文控制:GitHub Copilot依赖于当前打开的Tab标签来理解上下文,难以精准捕捉复杂项目的全局上下文,缺乏手动控制功能。Cursor允许用户手动选择上下文内容,并通过Cascade Memories系统跨对话持久化上下文,包括响应语言、沟通风格和API使用,确保生成代码的相关性和准确性。
图:Cursor光标预测功能说明
激烈的竞争与市场定价
Cursor的竞对产品Windsurf在用户体验上也取得了显著提升。Windsurf不仅理解代码本身,还能够洞察整体开发任务的语境,配备了Codeium上下文感知引擎,能够实现对生产代码库的深入理解,并在真实的代码库上进行迭代推理和多文件编辑。
Windsurf引入的全新写作智能体Flow和Cascade功能,具有显著优势。智能体Flow基于AI Flow范式设计,支持多步骤任务分解和多工具协同。Flow模式能够记住每个模块的开发进度和相关信息,开发者切换模块时,自动调整建议和辅助策略,提供高度适应性的工作模式。Cascade功能通过实时上下文感知引擎,准确理解开发者意图,支持在聊天和写入模式之间无缝切换。Cascade Memories系统可在不同对话间持久化上下文,确保开发过程的连贯性。
在定价方面,Windsurf 的基础版永久免费,Windsurf 的 Pro 版为 15 美元 / 月,早期采用者享受原价 10 美元 / 月;Cursor 的 Pro 版为 20 美元 / 月;Github Copilot则是10美元/月。相对来讲,Windsurf以其相对较低的价格吸引了不少预算有限的个人开发者和小型团队。
Devin的诞生:AI程序员的全新尝试
Devin作为“全球首个AI程序员”,在功能上具有独特的优势,能够处理复杂的开发任务,例如生成代码、构建Web界面、克隆代码库等。通过Slack与用户的互动,Devin能够自动跟踪任务进展并积累知识库,展现出极强的自动化和跨任务协作能力。这使得它在较大的项目中,尤其是在需要高效管理多个任务和跨团队协作的场景下非常有价值。
然而,Devin也有其明显的短板。首先,它的月费高达500美元,这对于个人开发者和预算有限的团队来说是一个不小的负担。其次,Devin的交互模式依赖于Slack,增加了使用过程中的不便,尤其是在需要即时反馈和调整的场景下,Slack的交互效率较低,导致响应时间较长(12-15分钟),降低了整体工作流的灵活性和效率。
图:Devin的代码重构协作功能
与更具市场认知度的工具如Cursor相比,Devin的局限性主要体现在工作流的延迟和可靠性问题上。虽然Devin在任务执行中展现出强大的能力,但仍需要进一步完善其异步工作流程和提高可靠性。相比之下,Cursor的增量式操作、实时控制和用户反馈机制更符合开发者的日常需求。
陪伴类应用
今年,随着大模型和Chatbot技术的成熟,AI陪伴类应用迎来了一轮强劲的发展浪潮。与早期聚焦纯文字对话、单一虚拟形象的产品不同,今年的行业演进更加注重多模态交互、长程记忆力和差异化场景玩法。
市场与技术:多模态与情感陪伴需求的快速崛起
市场规模:大盘增量稳定,产品竞争激烈
首先能观察到的是,长期来看人们花在 C.AI 类产品上的时间会越来越多,整体会处于 Roblox 等游戏类产品和社交类产品之间。据此测算,到 2030 年,C.AI 类产品每年会占据用户 7000-9000 亿小时,而市场规模上,2030 年有望达到 1120 亿左右。头部单品方面,以 Character.ai 为例,去年全年总收入约为 1520 万美元,网页端的访问量6月单月达到了3.1亿,超越23年峰值水平。
Character.ai 6 月单月访问量
而国内出海成绩较好的Talkie(星野)在2024年上半年成为美国市场下载量第四的人工智能应用,超越了排名第十的Character.ai。其2024年前八个月的全球下载量已达到1700万次,月活跃用户数达1100万,母公司MiniMax预计今年的收入将达到约7000万美元,主要来自Talkie的广告收入。
大部分国内的应用或模型厂商也没有闲着,字节在3月也推出了自己的C.AI like产品“话炉”,后更名为“猫箱”,主打创作社群;Soul曝光产品“异世界回响”,用户可以创建或与虚拟人社交;微软亚洲互联网工程院推出X EVA 小冰,支持复制虚拟人销售互动内容等等。
虽说各有各的亮点,但该赛道的头部效应仍非常明显,大部分产品体量偏小。所以另一些产品只能主打垂直领域和“特色内容(擦边)”,比如Janitor、Crushon等。特色功能都是不限制NSFW内容,除了对话本身以外附带有大量的描写文字,甚至还有各种Tag的角色供玩家选择。前者的月均访问量高达4000万以上,后者也稳定在1600万上下。
模型能力:从成本到效果的全方面升级
首先肯定是模型能力提升。底层大模型的迭代和数据微调能力的提升,能让 AI 角色扮演更智能,也使得长文本理解能力与“记忆”能力逐步改善,传统“对话断链”或“幻觉”等AI交互问题正在逐步得到一定程度缓解。
其次就是模型成本下降。大模型性能也在不断提升,成本显著下降。以Character.AI为代表,过去一年在模型优化、硬件利用、架构设计上多次升级,将服务成本下降了33倍,且能在全球范围内同时处理高并发请求。
最后就是多模态能力的增强。在行业内,多模态交互成为核心升级方向。语音、视频、动态表情等功能正从“差异化选项”逐渐成为产品“标配”。在2023年,语音交互的需求已在Character.AI、星野等多款产品中得到验证,各家也推出了除了语音台词生成之外的语音通话。而基于AI视频模型的角色动态化、3D形象等更沉浸式的交互方式也在加速落地,如星野引入的“海螺AI视频模型”,让用户可以看到角色表情、动作随文字/语音实时联动,引入了更多“破次元”体验。
产品类型:从需求出发自发分化
从用户需求出发,用户对 C.AI 类产品的需求主要包括“情感/社交”和“创造/演绎”两类。
情感/社交类需求
人们天然需要社交和陪伴带来的情绪价值, 去抵御和缓解孤独感等负面情绪。但一方面,当前社会居民的整体孤独感高,对社交和陪伴 情绪的需求大。BBC 在疫情前进行的孤独现象调查显示,33%的人时常会出现孤独感,24 岁 以下的年轻群体中,这一比例提高到 40%。而另一方面,疫情等因素削弱了从社交和陪伴带 来情绪的能力,同时线下也并不总是能获取好的情绪价值。这是近年来对虚拟和数字社交/陪 伴的需求不断升高的重要原因。
创造/演绎类需求
常见于年轻群体中,多为二次元、网文、语 C 等的爱好者。他们想法多,创造力强,喜欢幻想,非常热衷于和各类二次元/三次元角色之间进行角色扮演、剧情演绎、内容创造,也常常幻想和自己喜欢的二次元/三次元人物之间进行各类互动和联结。
从内容消费看,目前的虚拟陪伴产品正在分为“创作社区”与“虚拟社交”两大细分场景呈并行发展。
内容互动/创作主打以“IP、角色扮演”为驱动:如Character.AI、星野甚至是元宝这些产品,用户更多将其视为带有社交属性的“二次创作平台”,通过丰富文本或多模态互动获得沉浸式剧情体验。
全时段虚拟陪伴则更倾向于提供“贴身伴侣”式情感交流,如Replika和今年内测的EVE。这类产品往往突出全天候互动、持久的角色记忆与真实感,甚至尝试通过摄像头或其他传感器捕捉用户动态,进一步构建更拟真的AI伴侣。
商业化:多样化的商业化模式尝试
C.AI 类产品目前多为免费产品,大多仍然处于用户起量和积累阶段,整体商业化程度不高。部分头部产品也开始进行商业模式的探索,但当前商业化空间仍较为有限。拿C.AI举例,其单月用户成本即高达 1726 万美元,全年总用户成本超过 2 亿美元,只有收入远不能覆盖。因此其实大部分产品尚在烧钱养用户的阶段,距离目标的商业化能力,还存在较大的差距。
在当前产品的探索实践中,用户主要的付费点包括:
基础服务升级:一般指与 AI 角色聊天和创建 AI 角色的功能和服务。部分产品会提供限量的免费使用次数或 token数,用完后需额外付费才能继续使用。包括提供更快的响应速度,更长的字符记忆能力等升级服务。
专属/定制化/限制级内容,或高阶/额外功能:部分产品会将专属的、定制化的内容,或者高阶的功能作为付费点推出,像是热门角色发布的“朋友圈”、海外平台的一些 NSFW 内容等,后者是指语音功能、通话功能、群聊功能等附加功能次数的开通。这里就包括之前提到的Janitor、Crushon还有小冰等产品。以小冰为例,X Eva 上的陌生人只能免费看博主 3 条动态,想要看更多朋友圈动态或开启语音通话功能,就需要至少充值 10 冰花/月充值解锁情感模式,而想要解锁随时随地视频通话功能则需要付费数百冰花/月的费用(1 元=10 冰花)。
AI 角色养成付费,比如皮肤/外观:常规的游戏化付费点。使用内购或者抽取的形式获取包括自创和已有的 AI 角色的皮肤/外观,也包括用户自己数字形象的外观。一些产品会引入收集抽卡元素,开放作者的创作权限,让作者可以开放创作角色的外观卡面,用户可以付费进行卡面的抽取和收集交换。由此产生的营收由作者与项目共同分配。
产品亮点:多维创新与内容生态的差异化竞争
今年主要是打差异化竞争,重点还是多模态、多角色和持久记忆、面对市场的激烈竞争,各家产品都在交互形式和角色设定上做延伸:一类在深化社区共创,鼓励用户创作更多同人剧情、衍生角色,如Character.AI和猫箱;另一类在打磨全天候陪伴与“超越屏幕”的交互,如EVE的摄像头感知功能或星野的海螺AI视频模型。长记忆与人设传承也成为焦点。产品需要在大模型推理和角色连续理解之间找到平衡,以维系用户对AI形象的情感依赖。
内容消费产品正在向社区化、沉浸化演进
Character.AI公布的数据显示,今年的 C.AI 每秒请求量达到20000次,接近Google搜索20%。产品网页端,月访问量近期持续增长,6月单月访问量达3.1亿,已超过去年峰值。4-6月平均访问量2.7亿,较去年全年及今年年初平均水平增长68.8%。会话时长有所降低,平均为15分钟左右。而产品移动端在8月达到了历史新高,MAU2200万,1-8月下载量近1900万。
C.AI 在持续升级模型性能的同时,推出Character Voice、实时语音通话等多模态功能,前者支持用户从语音库为角色从数千种声音中选择或直接创建自己的声音,后者可以让用户实时与自己的角色进行语音通话,实现即时通话的体验。并且推出Prompt Poet优化创作者的提示词设计,积极打造创作与消费的闭环。
星野自2023年9月上线后,在2024年继续高频迭代,到2024年10月的累计下载量已达1800万。上半年在传统陪伴聊天产品上迭代,除了模型本身能力的提升,还主打剧情和游戏化功能。比如,如2月更新了场景化语音电话,让用户可以在预设背景的情况下与角色进行语音交互。后续还上线了角色群聊功能,用户可以自由的将不同NPC拉入群聊进行场景模拟,实现“关公战秦琼”。后续又从群聊迭代出了游戏化模式,用户可以让角色进行游戏剧本的演绎,进行单人甚至多人的冒险和挑战。
下半年围绕“海螺AI视频模型”,大幅增强角色动态与合拍视频等互动功能,努力将“文字+语音+视频”有机融合,不少“破次元”功能接连上新。比如在最新上线的live功能中,除了动态背景生成这些常规内容,用户和AI智能体聊天还会触发其微笑、害羞、牵手等动态live。并且在圣诞、元旦这些特殊节日可以配置节日动作,用户在节日聊天时触发关键词即可观看节日彩蛋,还能上传自己的照片和智能体合拍视频。
而字节于今年3月推出的猫箱(原名话炉),今年下载总量也超过了500万,11月MAU增长23%,其海外版此前也达到了120万的下载量。猫箱从6月开始打造自己的「喵喵剧院」「奇趣猫咖」两大内容创作社群,形成从剧本创作到角色构建的用户自发内容生态,为产品提供源源不断的故事与角色设定。
另一款另辟蹊径的产品是腾讯元宝,其2024年上线了《庆余年》、《长相思 2》的 AI 角色互动活动,用户既可以互动角色(与扮演剧中角色的 AI 进行文字/语音交流)、剧情互动(设定原作剧情背景,参与到剧情中,甚至改变剧情的走向)、角色 COS(AI 换脸+IP)。此类PGC内容反倒也能成为用户在社交网络上的二次探讨剧情的动力,成为了整个产品宣发内容生态的一部分。《长相思 2》联动活动上线不到 3 天,角色 AI 的总互动热度(即用户对角色 AI 的提问数量)已经超过 1500 万,后迅速超过 1 亿。
虚拟伴侣正在向拟真化、全模态陪伴迈进
早期的虚拟伴侣软件Replika就以“全天候AI伴侣”著称,强调私密化、一对一深度陪伴,在欧美市场积累了大量忠实粉丝。2024年,由《奇点时代》团队新推,定位“升级版Replika”的EVE正式面向大众登场。不仅支持文字、语音,还通过前置摄像头感知用户动作和现实场景,尝试打造更“真实”的AI伴侣形象。所以其创造出的角色并非虚拟的纸片人,而是真实能够打破次元壁,理解用户在屏幕这一侧干什么的“真实”虚拟伴侣。传统的聊天陪伴基本都是文字+可播放语音,但EVE的角色会发表情包和照片,并且加入了心情系统和好感度系统,好感度提升后可以解锁新功能/衣服等。如果辱骂EVE会被删除好友,需要哄十句才能加回来。视频通话中,AI女友说话会配有相应表情动作,触屏碰到身体部位AI会有动作反馈,有亲亲等几个简单交互动作,游戏内货币可以给AI女友买衣服。
目前 EVE 还在内测阶段,但不少内测玩家都表示效果非常好,尤其除了三次元互动,在对话的拟真上也摆脱了AI感,更像是活生生的人在与用户进行沟通,能够对用户的小心思做出反馈。内测玩家反馈其在长文本和拟真对话方面也有较大突破,既减少幻觉又提高对话自然度。
产品亮点主要在于拟人化体验,比如拆开几句回复,会发表情包,会发爆梗金句,会聊实时热点事件,有评级模型提供情绪反馈,语义驱动3D表情,记忆系统等。不过EVE主要是依靠工程上的产品设计、以及运营人力手搓的feature,是比较讨巧的设计,在AI女友这个赛道上确实存在一定knowhow,但大模型和3D内容品质上可能优势不大。
从今年的行业脉络可见,AI陪伴类产品正全面进入“多模态+个性化”竞赛阶段。在大模型基础性能不断迭代的助力下,各家围绕“内容消费”和“全天候陪伴”两大核心需求,持续拉升产品体验的上下限。多模态交互、大规模UGC生态、贴身情感陪护正在重塑人们与“虚拟角色”相处的方式。随着成本进一步下降、技术瓶颈逐步突破,未来一年将是真正分化和洗牌的关键期,也将见证真正标杆级产品的出现。对于整个AI陪伴赛道而言,如今所做的多方探索与深度打磨,正为下一个阶段的爆发式增长奠定坚实基础。
AI搜索
AI搜索同样是2024年AI应用赛道的热门关键词之一。过去几年间,用户对搜索引擎的需求正悄然发生着变化,寻址需求下降,问问题的需求上升。同时,不少用户也希望搜索引擎能直接给出答案,让自己免于信息筛选和检索的工作。
而这些需求的变化,与AI对话问答的交互方式与能力范畴不谋而合。在这些因素的推动下,AI搜索在2024年迎来了巨大而显著的发展。
主要趋势
趋势1:原有搜索厂商下场,以AI赋能,推出AI搜索新功能
搜索是互联网公司的老牌业务之一,历程悠久,产品成熟。在AI大模型时代到来之后,老牌厂商纷纷上马了AI功能,将其赋能原有的搜索业务,推出AI搜索的新功能。
例如,谷歌在2024年5月即推出了AI Overview功能,AI生成的搜索答案总结会出现在所有人的搜索框下,2024年底还推出了Deep Research功能,能基于用户提出的问题,收集和分析全网信息,生成一份综合报告。
来源:谷歌发布会
而在国内,搜索引擎和AI巨头百度很早就尝试将AI赋能搜索业务,其在2024年推出了深度AI搜索引擎产品,并在百度搜索的网页端开放了AI搜索入口。360在2024年1月即上线了360AI搜索,并于11月将其升级为纳米搜索,增速惊人,截至2024年底,月访问量达到3.6亿,已是全球第二大AI搜索引擎产品,仅次于New Bing。腾讯旗下的搜狗也在2024年上线了AI搜索功能,腾讯还同步推出了集搜索、写作等于一体的综合AI工作平台ima。
来源:AI产品榜(李榜主)
除这些搜索引擎之外,部分互联网产品内也有其搜索功能,例如知乎、抖音等。这些厂商同样将AI赋能搜索能力,推出了AI搜索新功能。抖音在2024年推出了抖音搜索,主要展示博主创作的短视频、图文等内容。知乎在2024年3月的知乎发现大会上,推出了“发现·AI搜索”功能,基于知乎的AI大模型,以社区内容为来源,提供AI搜索、信息搜集、问答等功能。小红书、微信等产品也基于原有产品的搜索能力,推出了AI搜索新功能,例如2024年底小红书公开了其AI搜索产品“点点”,主打生活服务场景的聚合搜索,并通过“出门在外问点点”等活动持续推广。
趋势2:与大模型ChatBot产品结合,内置AI搜索功能
当前,AI大模型公司纷纷推出ChatBot类商业化产品,并已成为AI应用领域的核心。这类产品与AI搜索在需求和产品形态上具有天然的匹配度,搜索也是这些大模型公司最先跑通和落地的商用领域之一。时至今日,AI搜索几乎成为了头部ChatBot类产品的标配。
2024年11月,ChatGPT正式发布了其AI搜索功能,能实时、快速进行检索与问题回答,并附带相关的网页链接。除ChatGPT外,其他同类大模型产品也已经纷纷内置了AI搜索功能:字节跳动在其豆包产品中即内置了AI搜索,无论是手机端、网页端,亦或是其新推出的电脑端和浏览器插件端,均可调用AI搜索能力。Kimi、智谱清言等也早已在其大模型产品内部推出了AI搜索功能。
来源:官方网站
趋势3:新兴搜索创业公司涌现,热度高涨,且有向垂类领域深耕的趋势
除原有搜索业务公司和大模型公司两类厂商外,新兴的AI搜索创业公司同样是不可忽视的力量。随着AI搜索需求的高涨,这些新兴的创业公司和产品在2024年获得了巨大的关注。
其中,最受瞩目的AI搜索产品仍然是Perplexity。Perplexity长期以来一直被认为是全球第一款AI搜索产品,至今仍是这一赛道的头部选手与风向标。其在2024年完成了4轮融资,估值从5.2亿美元飙升至90亿美元,其月访问量也已跻身全球AI搜索第三位。Perplexity的火爆也反映出AI搜索在2024年的广受关注。
来源:官方网站
而在国内,秘塔AI、天工AI搜索等产品也在2024年不断推陈出新,并获得了持续的热度,秘塔AI搜索的月访问量已达到832万,天工AI搜索App的MAU也已达到554万。
同时,不少新兴的AI搜索产品,为了和传统搜索厂商以及大模型公司实现差异化竞争,选择向垂类领域深耕,以获得差异化的竞争优势。例如秘塔AI扎根学术研究场景,在新近版本中将论文数据规模增加了7倍,索引也从摘要升级成了全文。天工AI搜索则聚焦于金融投资和学术研究,其2024年11月的新版本针对金融投资的AI搜索和分析推理能力进行了升级,还提升了针对文档AI阅读的能力。
来源:官方网站
TTS
TTS今年整体仍在各领域进行初步探索,在应用性能方面,整体交互的延迟降低成为了主要的优化方向。在情感提升方面,TTS努力寻求声音情感表达上的突破,一批对情感要求更高、更富表现力的应用爆发式出现。在应用场景方面,各种Voice Agent的涌现不断拓展业务范围,在智能硬件以及具身智能相关行业也有一些深度的参与。在游戏领域,TTS暂无大规模成熟落地,但在少数场景中已有试点TTS的应用。主要表现为预设文本配音、UGC/二创配音、自生成配音等内容生产,游戏对角色戏份的演绎表达能力要求是TTS发展的最大障碍。
趋势1:从无情感到完全情感演绎的不断发展
TTS的应用可以粗略分为通用型和个性型,其核心差异在于对于情感和语气的表达。从无情感到低情感最终到完全情感演绎不断发展的趋势也是推动TTS发展的主要因素,进入2024年后,各家向着语音情感表达能力的提升发起挑战。
ChatTTS V3版本发布,此版本解决了生成语音时常见的噪音问题,提供更清晰的音质。支持长文本的输入和中英文混合阅读。用户可以导入自定义音色,并保存音色配置,方便后续使用。此外,通过停顿、笑声和口腔特征的控制标记,ChatTTS 能够更准确地传达复杂的情感状态,提升语音内容的表现力和互动性。
微软的NaturalSpeech语音合成技术在2024年推出了第三代版本,用户反馈显示其合成语音的自然度和情感表达能力大幅提升,几乎可以与真人声音相媲美。这种技术通过解耦语音属性,简化了TTS对语音表示的建模过程,使得合成语音在情感表达上更加细腻和真实。
2024年9月,Hume AI推出了第二代情感智能AI——EVI 2。该模型在语音质量和响应速度上有显著提升,能够更自然地进行人机对话,并理解用户的情感状态。2024年12月,Hume AI发布了名为OCTAVE的全能文本与语音引擎。这款引擎结合了Hume AI的EVI 2语音语言模型与OpenAI、ElevenLab和Google DeepMind等先进技术,能够通过简单的文本描述或短语音录音生成高度真实的语音和个性特征,用户可以根据需求调整生成语音的性别、年龄、口音和情绪等特征。
12 月,Fish Audio 推出了 Fish Speech 1.5 语音合成模型,其经过了超过100 万小时的多语言训练数据,总支持语言数达到 13 种。引入了实时无缝对话功能,用户可以随时随地选择语音库进行交互式聊天。语音合成的精准度与速度有了显著提升,零样本或少样本的语音合成效果出色。
12月,有用户在社交平台上上传了一段使用豆包声音克隆技术打开微信声音锁的视频。用户通过语音指令让豆包复刻读出密码,克隆后的声音被微信成功识别。这一视频引起了用户对TTS滥用导致的安全性的担忧。
趋势2:实时响应能力提升 显著减少延迟
2024 年 9 月出现的 Mini-Omni 是首个开源实时语音交互模型,采用文本指令的语音生成方法,并在推理过程中批量并行提升性能,能够在对话中实时响应,显著减少延迟,实现了与文本能力一致的语音推理输出,仅需极少的额外数据和模块,其端到端的多模态交互能力,可实现真正的语音到语音交流,且该模型使用较小的 0.5B 参数规模,通过高效训练和优化策略达到与大模型相媲美的性能,可快速将其他模型的文本处理能力转换为语音交互能力,为语音交互在智能硬件中的应用提供更优选择 。
8 月,Lepton AI 宣布其 LLM API 支持实时语音交互,将 LLM 和 TTS 合二为一,实现文本和语音并行处理,使首次音频时间(TTFA)直接缩水到十分之一,能在三百毫秒之内开始回答问题,还引入用于简化和优化内容处理的高级机制,根据对话内容动态调整音频片段,让对话连贯自然,可搭配多种开源 LLM 模型,为开发者创造个性高效的应用提供支持。
12月,ElevenLabs近期推出了其最新的人声合成模型Flash,声称这是迄今为止最快的文本转语音解决方案。新模型生成语音的延迟仅为75毫秒,特别适合低延迟的对话式语音助手。Flash模型分为两个版本,其中Flash v2仅支持英语,而Flash v2.5则支持32种语言。尽管在音质和情感深度上稍逊于Turbo模型,但Flash在盲测中表现优异,成为速度最快的选择。
趋势3:应用场景深化 不断进行落地探索
ElevenLabs 发布了一款全新的对话式 AI 平台,可以为用户创建面相不同需求的语音助手。该平台结合语音识别、文本生成、语音合成以及中断处理和轮流发言等高级功能,涵盖从语音转文本、大语言模型集成、文本转语音到对话轮次管理的全流程支持,支持自定义中断检测和轮流发言机制,集成多个主流大语言模型,具备低延迟、高质量语音生成、灵活配置及无缝扩展等特点,还整合了 Twilio 的原生集成功能,支持呼入和呼出电话服务,进一步拓展了语音代理的应用场景。
TTS+游戏
TTS的人声情感演绎能力的提升推动了其在UGC内容上的落地。InWorld 作为头部 AI NPC 公司,与 TTS 厂商携手,为 AI NPC 增添语音生成功能,已在 MOD 社区落地。瑞典开发商 Paradox Interactive 正与 TTS 技术厂商合作,将该技术嵌入玩家社区,便于玩家低门槛创作有声故事,同时尝试应用于游戏开发前期,减少返工成本。此外,掌趣科技、网易《蛋仔派对》、昆仑万维《Club Koala》等也在持续加码包含 TTS 的 AI UGC 工具。此外,TTS 技术进步显著降低配音门槛,在游戏外,玩家利用 TTS 无需专业配音资源,就能为喜爱角色制作二创配音。如 B 站 UP 主的《原神》角色小剧场,用 AI 配音提升视频可看性,播放量可观。在游戏内,受成本与终端存储空间限制,多数游戏无法给全部剧情配人声。TTS 出现使玩家有机会自行给游戏内未配音内容补配,像《原神》世界任务缺配音的遗憾得以被玩家通过 TTS 技术弥补,提升玩家体验。
《永劫无间》手游也推出了全球首创的语音 AI 队友玩法,集成语音识别、语义理解等多项智能体能力。此玩法无需语音唤醒,AI 队友可随时与玩家实时自由对话、并肩战斗,端到端交互响应时间控制在 800 毫秒内,远超行业平均水平。
《三角洲行动》上线后,其中的 AI 语音聊天机器人CC引起广泛讨论。游戏官方称其“拒绝矫情鸡汤,主打犀利拆穿”。在各种社交平台有大量的CC对话的切片,其爱八卦游戏中人物的情感、调侃其他AI产品性能不如自己、善于锐评时事的形象被玩家津津乐道。某社交平台的CC经典言论切片账号“CC受害者联盟”粉丝破万。10月13日三角洲行动宣布CC下线,大批玩家表达不舍。
腾讯游戏魔方工作室群技术中心联合《暗区突围:无限》项目组也首次对外公布了其全球首个语音指挥FPS AI F.A.C.U.L.的技术Demo。该技术涵盖了语音输入、大语言模型、实时语音合成和环境识别等技术,能发起射击掩护玩家、原地隐蔽、带玩家撤离等战术动作,还可识别超 10000 个游戏内物体,甚至能对天气情况进行报告。此外,通过语音聊天,玩家可以通过语言给AI智能队友下指令,而AI会根据指令密切配合玩家进行战术动作。
TTS行业经过持续的发展,已经实现了无情感的通用人声,并在近期逐渐实现了低情感的初步个性化人声。2023-2024年以来,TTS行业在情感和韵律表达上进入了新阶段,而在实时交互方面,语音延迟时间也不断压缩。在落地侧的表现为,相较于此前乏味单调的TTS应用,一批对情感要求更高、更富表现力的应用爆发式出现,在智能硬件领域也不断深化布局。当前TTS在游戏内暂无大规模成熟落地,但在少数场景中已有试点。
TTS+硬件
在智能硬件以及具身智能领域,TTS的相关技术方案已经走向全面布局。声网的 IoT 解决方案已经布局了面向智能穿戴、家居和出行领域等共 40 + 的品类设备,基于这些场景和设备,提供包括实时音视频、媒体加速和可靠信令等 PaaS 服务,帮助设备实现远程实时监控、视频通话和远程应急协作等服务和功能。
12 月,OpenAI 的实时嵌入式 SDK 允许开发者在微控制器如 ESP32 系列上使用 OpenAI 的实时 API。通过此 SDK,开发者可以在 ESP32-S3 等微控制器上集成 OpenAI 的实时语音服务,实现语音交互和自然语言处理功能,从而为智能家居、物联网设备和机器人等领域的应用提供新的可能性。至此,OpenAI 已经在嵌入式、Web、移动设备和桌面端实现了全覆盖。
AI+游戏
从目前的应用方向来看,AI根据结合的深度程度可以分为聊天机器人、AI NPC、原生探索以及AIGC+UGC系统。
1
聊天机器人
聊天机器人这部分的技术门槛相对较低,目前产品形态探索较多,包括游戏教学、陪聊、解说及AI女友等。其代表案例是《三角洲行动》的”CC”和《元梦之星》的”好好鸭”。前者凭借其毒舌人设获得了一定的玩家好评和市场热度,后者好好鸭的聊天整体以闲聊为主,对游戏世界观之外的内容覆盖度很低,趣味性也不足。
除此之外也有一些第三方团队尝试游戏外聊天陪伴+游戏攻略的路径,并与知名IP联动,比如电竞解说或是虚拟主播等来吸引用户,支持通过画面识别或者是文字输入的形式为玩家提供游戏攻略或评论。比起AI实际参与游玩退而求其次的方式,模型训练及技术实现难度较低。但缺点是整体交互较弱,教程内容也不够实用,并没有明确的路径能够验证用户的需求。
2
AI NPC
说起AI NPC这部分,2023年英伟达和育碧就曾经给出NEO NPC这样的优秀答卷。但是在成熟游戏的应用中,实际应用场景里做的比较好的还是《逆水寒手游》。早在2023年ChatGPT爆火的时候,《逆水寒手游》就在内测公布了AI NPC实装计划,但是早期只是单纯的聊天机器人,不同的是他们能够遵循人设,并且记忆玩家曾经做过的一些行为,如给玩家赠送交子钱票、拜托玩家惩治坏人等。
而在今年,逆水寒更进一步推出了“江湖友人”的概念。用户可以自己捏合心仪的NPC个性以及外貌,AI角色会以门客的身份,与玩家一起游览大世界、陪伴打本、与其他门客斗舞、自行游历江湖等。上线3天,玩家自创AI角色数量超过500万,还有玩家参与创作大赛。
12月,逆水寒正式上线了大语言模型竞技场,将KIMI、通义千问等各家的AI模型接入游戏中的NPC中,让玩家能够在游戏内对AI NPC打分,评判各家模型的优劣。
网易对AI NPC的探索也体现在其2024年底新上线的《燕云十六声》中。在游戏里,玩家可以遇到诸多身份、形象、性格各异的AI NPC,与其对话,增加好感度,日后还能定期获得来自这些人物的赠礼。
在更进一步的应用中,就是实际参与玩家游戏体验的AI队友了。目前国内代表案例是《永劫无间》的“AI Copilot”和《暗区突围》的“F.A.C.U.L”,其核心为用新的AI框架赋能传统游戏AI,使得AI能够在一定程度上理解游戏并且配合玩家的行为,甚至玩家可以用语音交互并驱动行为,还会增加娱乐化聊天等交互内容。
比如永劫中的AI队友可以基于规则和当前战局自行执行动作,实现自行搜刮、跑图、战斗等操作,还可以与玩家进行语音聊天和陪伴。而暗区由于是FPS类游戏,对于AI NPC的游戏理解要求就更高了。其内置的AI 队友能够能听懂复杂的战术指令;识别超过17,000个游戏内物体;甚至支持多人配合,让玩家能一次性指示多个AI队友进行配合行动。两者在功能上线初期的关注量都相当大,甚至部分视频的播放突破百万。
3
AI 原生游戏的探索
当前,AI原生的游戏类型和玩法仍在持续探索中,尚未有十分成熟的产品出现。目前来看大部分游戏都是以“嘴炮类”产品为主,比如去年在多个学术论坛宣传曝光的游戏《1001夜》以及早期的Demo型作品《病娇猫娘》和《Suck UP》。本质都是用户通过与大语言模型进行交互来完成游戏目标,但这些产品体量相对较小,长线可复玩性有限。
《1001夜》的开发团队为Ada Eden,约7-8人,其中一半左右为学生。最早为一个硕士课程作业,2023年开始转为独立游戏继续开发。2024年10月24日在Steam上线正式版Demo。玩家在游玩过程中需要让Agent扮演的国王说出对应的武器,再由玩家获取其言灵生成的武器与国王战斗最终获胜。整体来看游戏在AI赋能玩法和叙事方面有创新点,但核心玩法趣味性稍显不足,当前Demo显示的玩法深度和丰富度也相对不够。
另一款上线Steam的AI游戏是AutoGame的《麦琪的花园》,团队部分成员来自光子,目前最新一轮融资估值在1000万美元左右,总融资不到200万美美元。游戏的基本框架为“星露谷”like。AI的部分在于用户可以通过UGC系统定制AI NPC,玩家可以与其自由对话、送礼,积累一定好感度之后可进入约会剧情,此外还可作为队友参与地牢战斗。
4
AIGC+UGC
除了单纯的引入大语言模型与玩家交互,AIGC内容如何与UGC内容做结合也是AI玩法构成的重要方面。目前已有较多UGC类产品比如元梦、蛋仔等尝试大模型赋能资产生成、摆放及玩法生成等,涉及到从关卡概念设计到素材甚至是代码领域。《燕云十六声》中也上线了简易的用户自定义3D资产AI生成功能,不过仍以整活搞笑为主,与游戏内容和关卡本身的结合有限。
现阶段UGC生态核心创作者仍为PUGC团队,AI UGC工具对于PUGC团队来说赋能价值不大,对于普通玩家价值较大,但普通玩家创作的UGC内容往往品质和量级不及PUGC产品,因此AI UGC工具的实际价值可能相对有限。
不过,也有游戏用这套模式来给成熟玩法提供定制化的体验,首先是《逆水寒手游》,九州飞光版本上线后,推出了“AI翻拍”功能。玩家可以对过往的游戏动画,进行“角色”和“台词”上的自定义,从而重新制作一份动画。该功能其本质是把此前的AI创作内容进行了整合和二次利用,以更低的门槛让玩家制作动画。玩家可以将翻拍好的视频导出。
主机游戏也有应用,近期,《暗影火炬城》的团队就在新作Demo《动物朋克》中携手英伟达推出了离线的AIGC玩法。玩家可以通过通过游戏内的装置,在上面简单的涂涂画画后,生成自己的载具或者是武器。也可以通过向NPC表述出自己想要什么风格的喷漆,定制飞船的喷漆。游戏接入了英伟达的AI和ACE技术,支持玩家与NPC进行实时对话并且将需求反馈在游戏中。
总结
按照游戏系统结合深度及AI Native程度来划分,目前游戏系统深度与高AI Native程度较难共存,大量实验性质的应用仍有迭代空间。
从国内的视角来看,生成式AI与游戏的结合在国内市场仍处于早期探索阶段。目前大多数创业团队来自传统游戏背景,在大模型技术上的差异程度较小。虽然部分产品展现出创新性和体验革新,但整体产品形态仍较为初级,头部项目估值也仅维持在数千万美金量级。研发团队面临的主要挑战在于:如何在AI框架基础上打造高品质游戏内容并确保长期可玩性,如何在商业化前景尚不明朗的情况下平衡游戏内容研发投入,以及如何实现游戏玩法与大模型的自然结合而非生硬嫁接。
在这个领域,有几个值得重点关注的方向:一是像米哈游蔡浩宇的Anuttacon、巨人吴萌的MiAO这样的高品质内容游戏厂商的入局;二是以周栋的Pickme(曾开发独游《笼中窥梦》)为代表的小而美团队带来的创新产品;三是那些具备长期商业化潜力的产品,特别是能够实现长期GaaS运营而非仅仅是买断制独立游戏的项目,比如EVE这样的产品形态。这些探索可能为当前AI游戏领域带来突破性的发展。
世界生成
由“AI教母”李飞飞团队推出的 World Labs 是行业内2024年备受瞩目的产品,其首次公开的Demo展示了单张图片生成3D场景的能力,也算是敲开了通往3D 场景生成的一扇门。Demo支持从单张2D图片生成完整的3D场景,并通过WASD+鼠标实时查看。相机功能强大,支持景深模拟、位置调整等虚拟相机操作,能够还原逼真的3D拍摄效果,并且能够支持表面检测、动态效果等轻交互行为。
团队在2024年1月正式成立,由计算机视觉和 AI 领域顶尖科学家组成。李飞飞作为 CEO 及联创,是计算机视觉和 AI 领域的知名人物,在学界和业界都有重大影响力。截至目前,目前收到多家机构的融资,包括 a16z、NEA、Radical Ventures、英伟达等知名机构,累计融资 2.3 亿美元,估值达 10 亿美元。
有别于AIGC的2D视频生成,World Labs的确生成了3D场景模型,创作出的产品模型是有几何形状、并且能够模仿简单物理规则的。并且单图生成的一致性较好,图片未覆盖内容也可以保持一致性,场景较为协调、整体协调。3D效果呈现上能遵循3D形状和物理规则, 能实现动态交互和表面交互等轻交互效果。但由于现阶段仅支持静态场景,清晰度、细节表现和自由度欠佳,光照固定、复杂光照可能不支持,整体的再编辑可能存在挑战。并且产品大概率是通过NeRF或3DGS进行场景生成和重现的,因此生成结果上会有物品场景连成一片,无法分离的情况,难以实现复杂交互。
技术发展
AI生成3D场景的技术发展可以分为两个主要步骤。第一个步骤是从文本或图片生成多视角的图像,这一步现在依然是一个比较棘手的难题。为什么这么说呢?因为在生成多视角图片的时候,AI需要对空间的理解非常精准,尤其是缺乏标注的3D数据集和相机位姿标注时,想要生成一致性很高的多个视角的图像是非常复杂的。World Labs这个项目技术细节没完全公开,但我们知道See3D这类项目是通过大量视频数据学习相机的3D轨迹来绕过标注数据的问题,尽管这样做在某些情况下可以解决一部分问题,但整体来说,精准性和一致性还是面临很大挑战。
第二步是从这些多视角图片生成最终的3D场景模型。这部分就要得益于NeRF和3DGS这两项技术了。NeRF用神经网络从多视角图片中提取信息,重建一个具有空间连贯性的3D场景,光影的处理特别细腻,看起来很自然。3DGS则采用了一种叫做高斯分布的方式,能够让场景生成变得更高效,特别适合需要实时生成的场景。通过这两项技术,场景生成的效率和质量都得到了很大的提升,尤其是在快速生成的需求上。
不过,尽管第二步的技术进展很快,依然有一些核心问题没有解决。最大的难点在于,现有的生成工具链并没有标准化,很多时候你生成的场景没法直接应用到复杂的项目中,后期修改也比较麻烦。而且,虽然NeRF和3DGS可以生成静态的3D场景,但动态场景和物理引擎的模拟依然是技术的空白地带,这意味着目前的生成技术还无法应对更复杂的交互和动态内容。
相关项目
相关的项目也在不断推动这个领域的发展,比如LucidDreamer和Cat3D。LucidDreamer主要是利用深度学习生成3D高斯场景,它能够生成较高质量的3D空间感,但视角转换时会出现一些虚空问题。而Cat3D则结合了相机位姿,通过NeRF重建3D场景,这项技术已经能够进行环绕检视,细节处理也比较不错,但在复杂物体的交互和动态变化上,依然有局限。
3D效果的“世界模型”
在AI 3D场景生成技术的快速发展下,我们看到一些看似具有3D效果的“世界模型”方案,比如DeepMind的Genie 2、DecartAI Oasis、阿里的The Matrix、香港科技大学的GameGen-X等。尽管这些技术的生成效果看上去非常炫酷,拥有一定的3D视觉效果,但本质上它们还是基于2D视频生成的,这些方案本质上是AIGC 2D视频生成、指令驱动的模型。因此,这些模型的技术方案和画面效果,实际上跟现有的2D视频生成技术差不多,也同样面临着一些局限,比如缺乏物理引擎、图像稳定性差、虚影问题等。
就当前而言,这类技术在直接用于3D游戏制作中的性价比并不高。虽然它们可以快速生成一些视觉内容,但更多的是作为创意设计和概念阶段的辅助工具,或者用于过场CG视频的制作。游戏场景的生成仍需要依赖于更精细的动态交互和物理模拟,而现有的技术还无法完全满足这些需求。因此,目前这些技术更适合用作初步的创意设计或是简化的视觉素材生成,而不适合直接用在复杂的、要求高的3D游戏场景制作中。
从更长远的角度来看,AI 3D场景生成技术的发展仍处在一个快速进展的阶段。2D图像生成已经基本成熟,而2D图像到3D场景的重建则在NeRF和3DGS等技术的推动下正在快速完善。接下来的核心挑战是如何让AI更好地学习和理解2D图像之间的空间映射关系,这对于准确生成3D场景至关重要。此外,3D空间内的物理引擎规则也需要逐步引入,以便生成更符合实际物理规律的动态场景。
未来展望
在游戏开发中,AI 3D场景生成技术的应用前景非常广阔,但也需要解决一些关键问题。首先,如何实现更精确的空间映射和物理引擎的结合,是技术突破的重点。其次,游戏开发中动态交互的需求要求AI能够生成不仅仅是静态的场景,还能够支持实时的物理变化和角色动作。为了让这些技术真正适应复杂的游戏环境,未来的AI模型需要更好地理解和模拟真实世界的物理规律,同时还要确保在生成过程中不会出现不稳定的视觉效果。
AI+硬件
自从GPT推出之后,各大厂商对于AI+硬件的尝试就没有止步过,AI硬件市场也经历了一场跨越式发展。这一年,AI硬件不仅在技术上取得显著突破,更在产品形态和用户体验方面进行了多元化的创新。2023年Meta发布自己的Ray-Ban智能眼镜,凭借其低廉的售价以及出色的佩戴体验和定制外观,年化销量达到了200万份,也让很多人看了AI眼镜甚至是AI硬件的商机。各家厂商在2024年聚焦于智能穿戴设备、AI玩具、AI伴侣设备等新兴领域,各种产品也是层出不穷,市场的热度过高,甚至一下子显得有些混乱了。
趋势与赛道观察
总结来看,2024年AI硬件赛道呈现出多元化的发展趋势。从具身智能的实际落地应用到穿戴设备的智能化升级,再到AI玩具的情感交互发展,AI硬件正逐步从技术驱动向需求驱动转型。
多模态大模型的硬件赋能
AI硬件深度整合多模态大模型技术,多模态大模型的能力也正通过硬件全面释放,特别是在语音交互、实时翻译和感知增强等领域,这种趋势推动AI硬件从感知层面向深度交互层面拓展。随着大模型技术的快速发展,多模态AI正在成为硬件产品的重要组成部分。AI硬件将不再仅仅依赖单一的感知技术,而是融合视觉、听觉、触觉等多重感官输入,提供更加丰富的用户体验。
整体来看,AI硬件的发展离不开软件方面的依赖。比起单纯的硬件性能发展,如何为大语言模型设计与之适配的硬件设备以及交互方式才是未来发展的重中之重。通过已有的交互方式赋能传统的硬件设备,结果只能是为了AI而AI的花架子,而越来越多的消费者也意识到了这个问题,不会为此而买单。Cosmos能根据文本、图像或视频的提示生成高度仿真的虚拟世界状态,配合其他多模态模型的应用,推动了硬件向更高层次的智能化发展。
具身智能从概念到落地
2024年,具身智能成为AI硬件中的关键方向,资本市场也大力支持这一领域,2024年北美和中国的具身智能融资总额突破数十亿美元,推动技术快速成熟。这一赛道的核心突破在于硬件与AI大模型的融合,通过感知、运动控制与决策能力的结合,具身智能产品逐步走出实验室,进入家庭和工业场景。而在CES 2025中,中国企业展现了世界级竞争力,特别是人形机器人、四足机器人等领域,从工业到家庭服务均有应用实例。
数据来源:高盛
智能配件的分层升级
穿戴与配件方面,从AI眼镜到智能耳机、戒指,轻量化、多功能成为趋势。例如,Ray-Ban Meta通过摄像头、音频功能的整合,表明硬件设计逐步从功能叠加向需求驱动转变。以及Plaud Note在细分场景中的卓越表现,专注于小型、实用硬件,满足细分场景需求,如通话录音和实时转写,成功引领了“轻量化+功能多样”的新潮流。
AI玩具与情感交互的增长
AI玩具也正在成为智能硬件的重要细分市场,特别是在情感陪伴和教育功能方面的突破。前者通过触感+AI提供情绪价值,和AI结合度中等,对AI智能性可容忍但对情绪体验要求高,目前体验好的产品价格非常高昂(如LOVOT达3万),LOVOT通过语音、动作和触摸等多种感官反馈,使玩具能够识别用户的情感变化并作出反应,这不仅在儿童中获得广泛应用,也为其他年龄阶层的用户提供了情感陪伴功能,而价格亲民的玩偶硬件质量和AI响应体验以及安全性不过关,感知性价比低。
AI玩具的另一大趋势是与教育相结合。随着深度学习技术的发展,AI玩具能够根据儿童的学习进度和情感需求提供个性化的互动内容,逐步从单一的娱乐工具转变为教育伙伴。核心解决的是父母对孩子教育的焦虑,但和AI结合度低,且主要依赖传统K12线下教培模式,赛道卷门槛高。未来,AI玩具的情感识别能力将不断增强,能够更加精准地满足个体用户的情感和教育需求。
重点产品以及亮点突破
卷上天的AI眼镜
先来看看眼镜吧,自从23年Meta发布的Ray-Ban智能眼镜把这个赛道成功跑通了,陆陆续续各家都在研究智能眼镜了,今年有传出消息的AI眼镜产品有12个之多,华为、小米等厂商都会参战AI眼镜领域。最近的CES展会上,AR/XR/VR相关标签的参展企业多达300多家。目前来看眼镜主要是两大类,根据是否有AR效果分为原生AI眼镜和AR眼镜两种,前者只是常规的眼镜+便携式硬件,后者还增加了AR的部分可以代替手机完成一些交互,提供更强的视觉显示和互动用户体验,沉浸感会更强,但当前时段下完成度较高的产品还不多。
1
AI眼镜
客观来说,Meta这款眼镜本身跟AI结合的地方并不是多数人体验的重点,更多是可有可无的添头。其主要的使用价值在于打通了眼镜与记录,绝大多数人通过眼镜可以抬手就记录到生活素材。也正因于此,目前市面上的智能眼镜基本都在卷摄影,考虑到性能以及功耗问题,AI功能普遍是通过外挂手机或者API联网调用的形式。国产关注度较高的雷鸟V3基本是对标Ray-Ban的产物,不仅39g的重量比Ray-Ban轻了13.3%,在录像方面也比Ray-Ban多支持了1080P/30FPS的横屏拍摄,其他诸如快充、电池容量等细节方面也有小幅度的提升,价格方面更是以1799/1999/2299的定价优于Ray-Ban,各大平台的入门款预售基本有不同程度的缺货情况出现。
雷鸟V3与MetaRayban产品对比
据传Insta360可能也会入场,说实话对于这些智能眼镜创业厂商来说可能是不太好的消息。因为像Insta360以及大疆这样的公司对于运动相机的调教经验远胜于这些单纯的眼镜领域创业公司,比如用户头戴眼镜时如何进行水平矫正,以及在运动场景并且妥协小型设备画质压缩的情况下把东西拍清楚,这些具体的落地场景优化对于技术上的沉淀是有一定要求的,也是需要突破的。
如何在同等算力的情况下做到更小的体积、功耗从而做到更长时间的续航以及更好的用户体验一直是困扰此类便携设备的痛点,归根结底还是在于电池的能量密度以及芯片方案的迭代。最近意法半导体也推出了首个内置 NPU 的STM32N6,算力达到0.6TOPS,国内的莫界科技也结合自己家的AR眼镜进行了方案的落地。这类具有算力的单片机对于需要边缘算力的便携设备来说非常关键,未来长期来看肯定是需要端云结合的形式实现成本以及效果的优化。
在使用场景方面,如何做到AlwaysOn也是一个挑战。这里的AlwaysOn指使用设备监听事件流,并通过标记事件进行响应,翻译成白话就是全天候陪伴,但不对用户进行强交互和强陪伴,只在适时的时候对用户的行为进行反馈。当下比较多的构想是采用多级串联的形式,通过一些事件过滤的方式减少和压缩处理成本。但是对于便携设备来说,做到全天候记录对于产品各个方面都是挑战,这也是为什么前面提到对于电池以及芯片的发展是有依赖性的。
2
AI+AR眼镜
在当前AI+AR眼镜市场中,Halliday和Rokid眼镜代表了常见的设计方案,特别是在硬件集成和显示技术方面。Halliday眼镜采用光波导技术,重点在轻便性和模块化设计,支持用户更换镜片,并通过外部显示模块扩展显示内容。
Halliday
而Rokid眼镜也使用光波导技术展示AR内容,结合了丰富的AI功能,比如,支持语音搜索、物体识别和多语言翻译等功能。预计出货时间在25年的Q2,定价2499元。其设计注重游戏娱乐和生活场景的应用,如通过AR增强游戏沉浸感,优化拍照和导航体验,并能通过语音命令控制生活服务,如订餐、打车等。
Rokid
莫名其妙的AI便携设备
1
AI挂件
目前这个赛道整体的应用范围都很窄,集中在内容转录、会议纪要这些方面,但是售价方面其实也都不便宜,定价在70-200刀之间浮动。说起这个赛道,很难绕开AI Pin、Rabbit R1这两个让所有人失望的产品。前者在2024年5月至8月之间的退货量甚至超过了销售量,后者CES首曝之后销量就达到了5万台,结果发售后只有5%的用户会每天使用,归根结底还是因为二者宣称的发信息、打电话、拍照这些功能在手机上都能完成。
虽然他们更轻便,但是功能完全重复,用户不太需要额外的设备完成手机能够完成的操作,更不必说还要考虑多一个设备的续航、联网、应用适配等因素了。
但是这类产品也有例外,搭载GPT-4的转录挂件Plaud NotePin就大受好评,凭借其159美元高单价达到了亚马逊的榜单第一。究其原因还是iOS系统不支持原生系统录音,而苹果在海外的渗透率又高,一些商务用户非常需要一款能够让在iOS平台完成通话录音并转写的产品,利用骨传导直接录音的方式也很好的提升了产品体验。
Plaud NotePin
2
AI戒指
这个品类基本是运动健康方向的,售价普遍在150刀以上。主打的功能就是运动信息收集,无非还是睡眠、血氧、运动监护等手环手表已经存在的功能。唯一能够拿出来说的亮点就是比起手环、手表的便携性和配带舒适性要更高,但是考虑到售价,大部分用户还是会选择手环。
Ultrahuman Rare
3
AI耳机
近年来AI耳机整体的市场热度都有所下降,目前多数产品也是主打翻译、转录以及会议等功能,缺乏多样化的功能定位。只有两家走出不同的产品路线,一个是主打陪伴的OlaFriend,一个是主打运动设备的Cleer。还是刚才的观点,如果多个设备的功能有重复,那相对来说用户这点买单的可能性就很低,AI耳机提供的会议纪要、转录等功能基本都是手机可以完成的,如果能够突破现有功能,提供更智能、更具互动性的体验,仍有很大的发展空间和市场潜力。
Ola Friend、Cleer
多样化场景的AI Toy
1
情感陪伴类
目前AI陪伴类的佼佼者要数由日本GROOVEX推出的LOVOT,24年2月进入中国市场,售价根据地区不同在2.1~3万人民币之间不等,24年据官方消息称已卖出2万台,定位为高端家庭陪伴机器人。以高度的情感互动能力著称,可以搭载多种传感器感知环境并与人互动。LOVOT最大的特点是拥有温暖的体温,并能对抚摸和拥抱等动作做出真实且亲昵的反应,如同真实的小动物一般寻求关注。这种独特的互动体验使其成为情感慰藉的理想选择。
另一款引人注目的产品是日本西默科技的Moflin。与LOVOT的科技感不同,Moflin在外形上更像一个毛茸茸的小动物,侧重于通过更温和的方式与用户建立情感连接。Moflin能够学习用户的互动习惯,并随之产生不同的“情绪”反馈,展现出独特的个性,使其更像一个有生命的伙伴。根据官方信息,Moflin的个性和依恋发展有成长过程,25天左右的互动会形成依恋,50天左右会有完整的喜怒哀乐反馈。如被忽略或者大声说话时会发出难过的声音。Moflin的定价相对LOVOT略低,在6万日元的区间(人民币3000元上下),但也属于中高端产品,目标定位主要是追求自然、个性化情感互动的用户。
国内创业公司萌友智能推出的Ropet,凭情感交互能力和更具竞争力的价格也备受关注,目前在Kickstarter上众筹的定价为169美元,筹款已经达到20万美金,超过目标金额100多倍,目标受众是女性白领群体。Ropet外形其实更LOVOT相当接近,但是并没有轮子可以移动。其主要的亮点在于能够识别用户面部表情并感知情绪,并通过眼神和声音进行回应,例如能够根据用户表情产生求拥抱这样的反馈。
此外,市场上也有一些其他值得关注的产品。例如,三星和TCL推出的Ballie和Ai Me,在基础的语音交互之外,更强调移动能力和家庭娱乐功能,可以将“陪伴”的概念延伸到更广泛的生活场景中;日本初创公司Yukaii Engineering则另辟蹊径,推出了造型独特的Mirumi和Nekojita Fufu,它们虽然功能相对简单,但凭借其可爱的外观和与用户习惯相结合的设计理念,例如可以挂在包上或杯沿,并且根据用户行为做出不一样的可爱反应。
总而言之,今年的情感陪伴类玩具市场呈现出更加多元化的趋势,产品在情感交互、个性化体验和价格方面各有侧重,以满足不同用户的需求。随着技术的进步和消费者对情感需求的增长,情感陪伴类玩具市场有望继续发展壮大。
2
儿童教育陪伴类
这类赛道国内的Haivivi和海外的Curio都陆续推出了产品,整体市场价值均有待观察与验证。前者的第一款产品Bubble Pal是AI对话功能的硅胶球状挂件,卖点为可以挂在任何玩偶身上,结合AI功能时刻回答孩子的问题,一方面其硬件形态相对简单容易快速量产,另一方面“蹭”了用户现有玩具的形象设计,规避了冷启动时外形设计的风险。
Bubble Pal
后者推出了3款玩具外观和AI音箱结合的产品。玩具支持支持自捏人设并且能影响玩具的知识、个性和兴趣,但由于AI能力没跟上,比如,人设会限制问答信息,导致无法回复简单的问题。以及产品不支持支持视觉输入,这些细节的体验问题,整体的市场反馈并不好,目前属于公司烂尾状态。
Curio
跟一些相关的从业者对谈我们也发现,单纯的AI音响+TOY的模式很难长期维持儿童对其的注意力,基本上儿童在1-2周内都会对产品迅速失去兴趣,并且随之产生大量退货。究其原因还是在于儿童对于世界的感知是多感官的,只通过语音交互很容易让儿童觉得枯燥无味。如果能够参考Moflin、萌友这类产品增加触感的反馈以及生活化的陪伴可能会更适合这个场景。
具身智能:海内外争相布局
2024年是具身智能崛起的一年,无论是资本还是人才都在迅速的流动。根据相关统计,仅仅在国内范围,2024年具身智能赛道就发生了60多起融资,总额超过50亿,也有很多公司随之成为独角兽。比如宇树科技拿到了10亿元B轮融资,银河通用也拿到了商汤领衔投资的7亿天使轮融资,而海外市场中Figure AI 完成了 B 轮 6.75亿美元巨额融资,Physical Intelligence获得4亿美元融资。
国内外的优秀产品都在持续迭代,宇树科技展示的Unitree G1人形机器人,搭载43个自由度的运动关节和深度传感器,能够在工业、服务等场景中应用,新发布的 B2-W 机器狗更是获得了马斯克的点赞。银河通用的Galbot,作为轮式人形机器人,通过自主取货和配送,已经在便利店场景中实现实际应用,更是出现在黄仁勋的演讲中。
CES上,英伟达还推出了拥有一系列开放的预训练世界基础模型Cosmos,专为生成具有物理感知的视频和物理 AI 开发所需的世界状态而设计。其中包括2000万小时的自动驾驶、机器人、无人机拍摄的视频以及合成数据,这一技术被认为可能会成为具身智能领域的“GPT时刻”。
1
特斯拉
从硬件入手、2040乐观预期100亿台人形机器人
24年10月“WE,ROBOT”发布会上展示Optimus的全新功能,包括自主导航、共享认知、复杂任务执行等。通过模仿人类手臂创建新一代22自由度灵巧手,展现出更强大的精细控制能力。
马斯克在最近采访中表示,人形机器人将成为史上影响最大的产品。因为每个人都可能想要一个,而且还有整个工业领域的应用。人形机器人与人类的比例,至少是 3:1 到 4:1,可能达到 5:1。假设一切顺利,25年我们会将产量提高十倍。所以我们的目标是明年生产 5 万到 10 万台人形机器人,然后第二年再增加十倍。三年内将有 50 万台机器人。
2
OpenAI
此前“模型赋能 + 投资孵化”、近期亲自下场做人形机器人
继o3之后,下一个项目“人形机器人”曝光。不只是投资像Figure、1x和Physical Intelligence这样的机器人初创公司,推动模型赋能与投资孵化,亲自下场研发实体智能机器人,并且重新启动了解散4年的内部机器人开发团队。
Peter Welinder作为OpenAI机器人团队的创始成员,2020年之后,转为OpenAI产品副总裁,从GPT-3早期API开始,到Github Copilot,再到现在大家都在用的OpenAI API。2023年8月成为“新产品探索副总裁”,负责范围就包括利用新模型探索新的硬件,重点布局人形机器人。
此外还招兵买马,11月挖来了Meta消费硬件团队负责人Caitlin Kalinowski,Oculus VR十年硬件主管经验。近期他宣布自己的新角色正是:将人工智能带入物理世界。
3
DeepMind 深耕具身大模型、推动技术演进
22年以来基础机器人模型已经取得了重大进展。从 SayCan 的初始方法发展而来,使用三个独立的模型进行规划、可供性和低级策略。Q-Transformer后来统一了可供性和低级策略,而 PaLM-E综合规划和可供性。然后,RT-2通过将这三种功能整合到一个模型中,实现了联合扩展和正向迁移,从而取得了突破。
这代表机器人基础模型的重大进步。RT-2 引入了视觉-语言-动作 (VLA) 模型,具有“思维链”推理能力,可实现多步骤语义推理,例如在各种情况下选择替代工具或饮料。最终,RT-H实现了具有动作层次结构的端到端机器人变换器,以便在细粒度上推理任务规划。
为了解决具身模型的泛化限制,谷歌与 33 家领先的学术机构合作创建了全面的 Open X-Embodiment 数据集,整合了 22 种不同的数据类型。利用这个数据集,他们训练了通用大型模型 RT-X。多样化的跨实体训练数据使 RT-1 和 RT-2 能够实现卓越的性能,与在特定领域数据上训练的模型相比,它们表现出更好的泛化能力和新功能。这也促进了更多开源 VLM 参与机器人社区,例如基于LLaVA的EmbodiedGPT和基于Flamingo 的 RoboFlamingo。
4
Nividia
全面布局自研芯片Jetson、开发平台 Isaac、操作系统 ROS、机器人模型GR00T和基础世界模型Cosmos
NVIDIA GTC 2024主题演讲会上,黄仁勋宣布了一个名为Project GR00T(Generalist Robot 00 Technology)的人形机器人通用基础模型,这个新模型旨在将机器人技术和具身人工智能结合起来,同时使机器人能够理解自然语言并通过观察人类动行问模仿动作。这项技术的使命是“使世界各地的领先机器人专家朝着人工通用机器人迈进一大步”。
该模型在NVIDIA GPU加速的模拟环境中进行训练,使得人形机器人实体能够通过模仿学习和NVIDIA Isaac Lab的强化学习从少数人类示范中学习,以及从视频数据生成机器人动作。GR00T模型接受多模态指令和过去的交互作为输入,并产生机器人执行的动作。
25年1月7日CES大会上,黄仁勋称「AI下一个前沿就是物理AI」,重磅官宣了世界基础模型开发平台——Cosmos,其模型基于在2000万小时视频上完成训练。从此,物理AI数据不够的问题将有望解决!75页技术报告火热出炉,GitHub项目更是冲破了2k星。
Cosmos 是一个世界模型平台,上面有一系列开源、开放权重的视频世界模型,参数量从 4B 到 14B 不等。这些模型的作用非常明确,就是为机器人、自动驾驶汽车等在物理世界中运行的 AI 系统生成大量照片级真实、基于物理的合成数据,以解决该领域数据严重不足的问题。
首批用户包括1X、AgileRobots、Agility、FigureAI、Foretellix、Fourier、Galbot、Hillbot、IntBot、Neura Robotics、Skild AI、Virtual Incision、Waabi和小鹏汽车等机器人和汽车公司以及共享出行公司Uber。
演讲中,英伟达亮相了由14款人型机器人组成的“机器人军团”,这些机器人分别来自14家企业,其中包含6家中国企业。
5
Figure
新兴初创、快速迭代、资本追捧,20个月迭代第二代产品、落地宝马工厂
成立于2022年,24年3月,Figure宣布从亚马逊创始人贝索斯、英伟达、OpenAI和微软等科技巨头处筹集了约6.75亿美元资金,公司估值因此跃升至26亿美元。在这些巨头的加持下,Figure颇受业内关注,其产品技术也进展迅速。
2024年3月13日,Figure发布了首个OpenAI大模型加持的机器人demo。8月6日,Figure AI宣布推出第二代人形机器人Figure 02。
Figure 02由电机驱动,身高5英尺6英寸,体重70公斤,专为在人类环境中工作而设计。电池容量较前代产品增加了50%,一次充电可运行5小时,移动速度达1.2米/秒。Figure 02手部操作对话视觉能力都有所提升,板载计算和AI推理能力也较前代产品提高了3倍。
24年8月,Figure与宝马汽车制造商达成合作,落地汽车生产试验用例;24年11月,成功试验后,开始在南卡罗来纳州斯巴达堡的宝马制造工厂分阶段部署。
6
宇树科技Unitree
国产亮点、机器狗B2-W性能出色
成立于2016年8月,由王兴兴创立,其专注于消费级、行业级高性能通用足式、人形机器人及灵巧机械臂的自主研发、生产和销售。曾受邀参加2021牛年央视春晚、2022冬奥会开幕式、2023 Super Bowl赛前表演、2023杭州亚运会和亚残运会等。
在产品方面,2017年,宇树科技四足机器人Laikago问世;2019年,发布Aliengo四足机器人,定位于行业功能性四足机器人;2020年,发布四足机器人A1;2021年,发布“伴随仿生机器人”Go1。
2023年,宇树科技发布首款通用人形机器人H1。在2024年3月19日举办的英伟达GTC大会上,H1就已亮相,此次在CES 2025的舞台上再次得到展示。
宇树机器狗刷爆国内外社交媒体平台。短短两分钟内,Unitree B2-W的机器狗开启了爬山、涉水、跑酷、载人等一系列秀翻全场的操作。
7
智元机器人
前华为天才少年、25年量产前千台
2023年2月在上海临港新片区成立,其创始人之一是华为天才少——年彭志辉,人称“稚晖君”,2023年8月18日,智元机器人正式发布远征A1智能机器人。2024年8月18日,智元机器人再发布“远征”与“灵犀”两大系列共五款商用人形机器人新品,包括远征A2、远征A2-W、远征A2-Max、灵犀X1及灵犀X1-W。在交互服务、柔性智造、特种作业、科研教育及数据采集等场景,五款机器人开启商用量产。
此次亮相远征A2在构型上参考人体工程学设计,身高尺寸比例贴近人类,在智能体验上,基于语音大模型、超拟人合成技术、全双工对话能力、端侧模型部署,提升机器人实时对话能力。
在自主移动方面,其基于HIMUS(High-performance Multimodal Mapping System)3D-SLAM算法、VectorFlux规控算法,低延迟低漂移性能,支持在复杂多变动态环境中实现L4级别自主移动;其最高峰值扭矩430N·m,电机扭矩密度50Nm/kg。
2025年1月6日,智元机器人宣布量产的第1000台通用具身机器人正式下线,其中包括731台双足人形机器人(远征A2/灵犀X1)和269台轮式通用机器人(远征A2-D/A2-W)。
8
星动纪元ROBOTERA
成立于2023年08月,由清华大学交叉信息研究院孵化,据介绍,其是唯一一家清华大学占股的人形机器人企业。创始人陈建宇是清华大学博士生导师、助理教授。
此次黄仁勋演讲中亮相的产品是星动STAR1,其双腿共有12个自由度,双臂共有14个自由度,腰部和颈部分别有3个和2个自由度。此外,它还配备了单手12个主动自由度的全直驱五指灵巧手。
去年10月,完成近3亿元Pre-A融资,由清流资本、元璟资本、阿里巴巴联合领投,策源资本跟投,老股东联想创投、世纪金源、金鼎资本、泽羽资本、清控天诚持续追投,华兴资本继续担任独家财务顾问。
此前连续完成由联想创投领投,金鼎资本、泽羽资本、清控天诚跟投,老股东世纪金源超额追投的超亿元天使轮融资,以及由世纪金源领投,图灵创投跟投的数千万元种子轮融资。
9
傅利叶智能Fourier
自2015年成立以来,傅利叶聚焦通用人形机器人底层技术研发,从0到1搭建包含A1、机械硬件、软件平台在内的全栈式技术链路。
2023年,傅利叶推出GRx系列首款机器人GR-1,并实现全球量产交付。基于GR-1在实际落地中搜集的应用数据与客户反馈,傅利叶于次年又再次推出了新一代人形机器人GR-2,即此次黄仁勋演讲中亮相的机器人。
10
比亚迪
代号“尧舜禹”、扩建团队
24年12月13日,比亚迪十五事业部已经开启人形机器人项目,项目内部代号为“尧舜禹”。官方发布2025届具身智能研究团队招聘简章,显示其具身智能研究团队于2022年成立,通过深入挖掘公司规模化的应用场景需求,展开各类机器人本体及系统的定制开发,不断增强机器人感知与决策能力,推进 具身智能在工业领域的落地应用,目前团队已开发完成工艺机器人、智能协作机器人、智能移动机器人、类人形机器人等产品。
11
小鹏 XPENG
正式亮相、押注具身智能
2024年11月6日,在小鹏AI科技日上,小鹏AI机器人Iron正式亮相,这也是此次黄仁勋开幕演讲中亮相的机器人之一。
小鹏Iron采用仿人结构设计,身高178cm、体重70kg,拥有62个主动自由度,双手也采用1:1人类双手尺寸,拥有15个双手自由度。该机器人的“大脑”采用图灵AI芯片,拥有3000T的算力,为其提供了强大的数据处理和学习能力,意图使其能够像人一样进行思考、记忆,并自主控制手脚活动。
12
小米
早早布局,后续进展不明朗
早在2022年8月11日,雷军在年度演讲时,顺手扔出了这个王炸——全尺寸仿生人形机器人CyberOne。后续更新较少,最近一次公开亮相是在2023世界机器人大会。
挑战与未来方向
尽管具身人工智能取得了快速进步,但它面临着若干挑战,并呈现出令人兴奋的发展方向。
高质量机器人数据集 (大规模, 模拟+现实)
有效利用人类演示数据 (训练, 提升性能)
复杂环境认知 (理解、驾驭复杂环境)
长期任务执行 (高效规划器 + 感知 + 常识)
因果关系发现 (摆脱相关性,理解因果)
持续学习 (克服灾难性遗忘,提升效率)
统一评估基准 (综合评估高级任务和低级控制)
三、国内厂商观察
随着大模型能力和应用的持续爆发,2024年的国内各大厂商也纷纷持续加大投入,从技术和产品两个角度不断加码,带动了整个行业的烈火烹油。
在技术侧,一方面在大模型能力上不断内卷,在榜单上持续攀登。目前,全球评分最高的30个大模型中,有18个都来自中国企业,占比高达60%。其中,智谱、阿里巴巴、深度求索已有模型跻身全球前10。另一方面,各大厂商也持续开发多模态能力,从文本、图像、视频、语音等多个维度拓宽大模型边界。大部分主流厂商均已推出包含图像能力在内的多模态大模型,字节、快手等在视频能力上已有领先的大模型能力储备,阿里、字节等在语音上也颇有建树。
在产品侧,2024年的国内厂商,在深度和广度两个维度上也取得了十分瞩目的成绩。在深度上,字节的豆包已是全球第二大AI App,MiniMax的Talkie也以2519万的月活跻身Top10,全球舞台上的最头部AI应用中已有不少中国公司身影。在广度上,头部厂商开始尝试从多个AI赛道共同发力,实现全面的AI布局,除传统的ChatBot和图像AI外,在诸如视频、教育、陪伴等赛道上均有全球热门应用涌现。
这其中,既有字节、腾讯这样的综合性互联网科技大厂,也有月之暗面、智谱、百川这样的大模型赛道垂类头部企业。不同厂商在产品和技术两个维度上各擅胜场,表现出不同的特点:
从产品的角度来看,字节在广度和深度上均处于领先地位,其头部产品的用户数(豆包/Cici)和进入全球前100的产品数量(6个)较其他厂商均有显著的优势。MiniMax、月之暗面和百度次之。阿里、智谱和腾讯,在头部产品的用户数上较字节、MiniMax等稍有劣势,但在布局广度上也十分亮眼。
从技术的角来看,智谱、阿里、深度求索、OPPO、商汤等的模型跑分均跻身全球第一梯队,腾讯、360、阶跃星辰、字节跳动、百川智能等次之,百度、月之暗面、昆仑万维等再次之,但差距并不大,整体均处于全球前列。这其中,商汤、阶跃星辰、深度求索、百川智能等公司,在C端产品上则稍显薄弱,尚未有一定热度的主流产品问世。
综合产品和技术两个维度,当前国内厂商中,字节跳动、MiniMax、阿里巴巴、智谱华章、腾讯、百度和月之暗面,是当前国内厂商的第一梯队。
01
字节跳动
主要动态
核心特点
特点1:全方位全赛道布局。头部产品集中力量,新兴产品快速迭代
字节采用了非常激进的打法,高举高打,在几乎所有主流的AI应用赛道同时发力,均有相关产品出现,且大部分取得了不俗的热度和关注度。
在此期间,字节将豆包作为其头部主打产品,集中力量堆叠资源,以期带动其他产品。以2024Q3为例,豆包的投放金额和素材数均为国内同赛道竞品的第一。
特点2:产品与模型双管齐下,在商业与技术两方面“量大管饱”
除产品外,字节在底层模型侧也采用了“量大管饱”的全方位布局策略,通过大投入,实现多种模态和能力的模型布局与技术突破。例如,其2024年5月推出的豆包大模型家族,包括了通用模型,也包含了视频、图片、语音、角色扮演等多种不同的垂类大模型,资源丰富,覆盖广泛。
在豆包模型家族之外,字节在其他领域也不断探索,持续推出新的实验性、创新性的模型。
02
MiniMax
主要动态
核心特点
相较字节跳动的全方位多角度覆盖,MiniMax在广度上有所收缩,并不追求场景和赛道的全覆盖,但在深度上却丝毫不逊色。在模型侧追求持续的技术突破,在产品侧聚焦重点产品,发力海外。
特点1:聚焦少数重点产品,发力海外市场
MiniMax并不像字节那样尝试打造庞大的产品矩阵,而是选择集中资源,聚焦少数的重点产品,并加大对海外市场的投入。
当前,MiniMax仅推出了4款商业化产品,分别为ToC的海螺、星野、星野的海外版Talkie,以及ToB的MiniMax ChatBot开放平台。数量不多,但表现均十分出众,尤其是三款ToC的商业化产品,均已跻身爆款AI产品之列。
其中,海螺AI和Talkie是MiniMax当前热度最高的产品。海螺AI为视频生成工具,诞生于2024年4月,在2024年9月介接入了MiniMax最新的视频生成模型,视频生成质量获得了质变,已不亚于Sora等赛道头部。自此,海螺AI的热度开始爆发,成为海外的爆款AI工具。目前,其网页端的全球月访问量达到2732万,已跻身全球前30。移动端App的月活也达到了243万,跻身全球前100。
来源:AI产品榜(李榜主)
Talkie为MiniMax在其此前推出的产品Glow的基础上打造的新一代聊天陪伴软件。分为国内版“星野”和海外版“Talkie”,均诞生于2023年中,并在2024年双双成长为爆款AI App。其中,Talkie App当前MAU已达到2977万,已经是全球排名第4的AI App,仅次于ChatGPT、豆包和Nova,甚至超过了陪伴赛道此前的第一大App Character AI,热度惊人。而国内版的星野App也有不俗的表现,当前的MAU达到602万,位列国内第7、全球第48。
来源:AI产品榜(李榜主)
特点2:多模态大模型覆盖多种能力,持续探索技术创新
MiniMax始终致力于对多模态能力的追求,其当前的技术能力和大模型储备主要包括四类:文本类,即abab7-preview和abab 6.5;语音类,即Speech-01;音乐类,即Music-01;视频类,即S2V-01和video-01。能力和场景覆盖十分全面。其中abab7-preview模型已超过GPT-4o-Mini的水准。
此外,MiniMax也十分注重技术创新。其在2024年1月正式推出了国内第一个MoE大模型,此后又投入到Linear Attention(线性注意力)中,推出了MoE+Linear Attention的大模型。同时,据MiniMax创始人闫俊杰透露,其底层大模型的核心研发目标是“快”,并提出了降低错误率、无限长的输入输出、多模态三大关键词。
来源:官方网站
03
阿里巴巴
主要动态
核心特点
阿里巴巴在2023年9月份提出了”AI驱动“的核心战略,自那以来,其通过大力投资AI基建、快速推进AI应用、将现有业务结合AI能力等手段,不断推动技术和产品的持续发展,在2024年也维持住了AI领域巨头和核心支柱的地位。
特点1:采用“AI+云”的商业模式,在AI基础设施领域影响显著
相较其他AI新兴公司或科技大厂,阿里最显著的特征之一是在AI基建领域具有十分显著的影响力和输出能力。当前,作为AI底座之一的云计算在整个产业链中的重要性日益凸显,而阿里作为云计算领域的头部厂商,也基于自身优势,采用了“AI+云”的商业模式,并取得了不俗的成绩。
据阿里披露的业绩显示,2024年,AI相关业务成为阿里云业绩增长的核心推手。整个2024上半年,阿里云中的AI相关产品已经实现了三位数的同比增长,需求旺盛。据报道,全国超过一半的AI大模型公司选择阿里云作为其AI基建的基础。
特点2:投资布局国内其他AI公司,出手频繁,覆盖广泛
作为综合性大厂,阿里一直将对外投资作为自己进行赛道布局的重要手段,在AI领域也不例外。2024年,阿里在AI领域频频出手。3月,阿里领投了MiniMax的B轮融资。5月,阿里披露其向月之暗面投资8亿美元。7月,阿里参与了百川智能新一轮50亿人民币的融资。9月,阿里参投了智谱AI。12月,阿里巴巴创业者基金宣布成立人工智能基金,规模为1.5亿美元,主要面向人工智能可以深度应用的行业。
频繁的投资出手,也彰显出阿里在自研之外的另一重战略布局路径。
特点3:以开源打造AI生态
回顾阿里2024年的AI布局与动态,“开源”是毫无疑问的高频词。从年初的开源代码库SCEPTER,到4月开源Qwen1.5-110B,再到6-10月连续开源Qwen-2 72B、FunAudioLLM、Qwen2-Math/Audio、Qwen2.5,再到年底开源Qwen2.5-Coder和QVQ,阿里一直坚持着大模型开源的战略举措,以此打造繁荣的AI开发与应用生态。目前阿里已经上架100多个AI开源模型,累计下载量突破4000万。“坚持向全球开源开放”也正是阿里CEO吴泳铭提到的AI时代两大举措之一。
04
智谱
主要布局
核心特点
特点1:重技术投入,以技术创新为核心抓手
智谱AI作为脱胎于清华知识工程实验室的创业公司,带有非常浓郁的技术先行的色彩。其聚焦研发投入与技术创新,在2024年也屡有亮眼的创新突破问世。
例如,2024年7月,智谱发布了其代码生成大模型CodeGeeX第四代,同月发布了其视频生成模型“智谱清影”,可生成长达6秒的高清晰度视频。8月,智谱推出了新一代基座大模型GLM-4-Plus、图像/视频理解模型GLM-4V-Plus,和文生图模型 CogView-3-Plus。10月,智谱推出开源的语音模型GLM-4-Voice,可进行实时语音对话,在情绪表达方面效果出色。
其中,基座模型GLM-4-Plus在文本能力方面已经达到了GPT-4o及Llama-3.1-405B的水平。文生图模型CogView-3-Plus也已经接近MJ-V6及FLUX等全球头部模型的水准。整体技术实力与水平十分亮眼。
特点2:将AI Agent作为核心重点之一,当前成果广受关注
智谱在2024年区别于其他厂商的一大亮点是其在AI Agent方向上的突破。2024年10月,智谱推出了GLM第一个产品化的智能体(Agent)—— AutoGLM,只需接收简单的文字/语音指令,它就可以模拟人类操作手机,例如在朋友圈点赞写评论、下单网购、购买火车票等等。AutoGLM在手机端和网页端都展现出了十分出色的作为Agent的理解和执行能力,在AndroidLab和WebArena-Lite评测基准上,AutoGLM均显著超越了GPT-4o和Claude-3.5-Sonnet的表现。
来源:AutoGLM: Autonomous Foundation Agents for GUIs, ZhipuAI
2024年11月,智谱在原有AutoGLM的基础上推出了升级版本,能执行更加复杂的操作流程,同时推出了基于PC的自主Agent——GLM-PC,定位为全面的桌面助手,继续深耕Agent领域。
05
月之暗面
主要布局
核心特点
也许对很多人而言,月之暗面在2024年最出圈的事件,是其和朱啸虎及其他循环智能投资方之间在股权结构上的争吵与矛盾。但无论怎样,作为当前最受资本青睐的大模型创业公司之一,2024年的月之暗面在其正面战场上。
特点1:买量投入大,高投入换取高热度
月之暗面在很长一段时间都保持着国内前列的买量力度,以高投入换取其核心产品kimi的高热度与流量。例如,整个第三季度,Kimi的买量金额和素材数仅次于流量大户字节跳动,大大领先其他竞品。而到了10月,在字节买量收缩的情况下,Kimi仍然保持着高投入,远超其他国内竞品。
高投入也换来了高热度。在移动端,Kimi已经成为国内第2、全球第15的AI App,MAU达到1669万,在国内仅次于豆包App。网页端则成为了国内第1的大模型ChatBot网站,超过豆包、文心一言、通义千问等主要竞争对手,月访问量达到3837万。
来源:AI产品榜(李榜主)
06
百度
主要布局
核心特点
特点1:聚焦“AI+云“的生态基建,抢占AI领域垂类的云计算优势
百度是大模型赛道的绝对先行者。在2022年11月OpenAI推出ChatGPT后,百度迅速在2023年3月即推出了文心一言大模型,领先其他竞争对手。基于先行优势,百度开始打造大模型领域的产业生态,推动大模型落地和AI生态的繁荣。
和阿里类似,百度也基于其云服务能力,构筑AI基建,以此打造AI大模型产业生态。相较阿里云的综合性规模,百度在AI领域有着更大的垂类优势。根据IDC 2024年发布的报告显示,百度智能云已经连续五年、第九次位于中国AI公有云市场的第一。其中,百度在市场规模最大(计算机视觉公有云服务)和增速最快的领域(模型相关的智能语音、NLP、计算机视觉公有云)都处于行业领先的地位。
依托自己的先发优势和云服务,百度围绕AI基建构建起了良好的生态。同样据IDC报告显示,2024年上半年,百度在中国“模型及服务”和“AI大模型解决方案”市场中的份额均为第一,分别为32.4%和17.1%。百度智能云的千帆大模型平台已经帮助用户精调了3.3万个大模型,开发出了77万个企业应用。文心智能平台已经吸引15万家企业和80多万的开发者入驻。AI生态构建初具成效。
特点2:场景更加广泛,从AI应用扩展至硬件,再扩展至智驾等线下复杂场景
相较国内其他AI厂商,百度具有显著的线上线下全场景贯通的特点。这不仅仅体现在其丰富的AI软件应用覆盖,如文本、图像、数字人社交等,也体现在其在硬件领域的覆盖,如新近公开的小度AI眼镜,更体现在其对复杂线下场景的支持。
典型案例为智能驾驶业务。百度早在2013年即开始布局智能驾驶业务,2017年推出Apollo计划,开放自动驾驶平台。在AI大模型时代,百度继续深耕这一场景,于2024年L4级自动驾驶大模型 Apollo ADFM。其萝卜快跑业务也持续增长,2024第三季度,萝卜快跑的自动驾驶订单量达到了98.8万单,与前一年同期相比实现了20%的显著增长吗。截止2024年10月底,Apollo向公众提供的累计乘车次数已经超过800万,目前也已在香港地区提交了自动驾驶测试先导牌照及自动车证书的申请,市场版图不断扩大。
07
腾讯
主要布局
核心特点
特点1:重仓开源,实现开源模型领域多个突破
腾讯在2024年AI领域最引人瞩目的举措之一,即是开源了多个高质量的大模型。例如,2024年11月,腾讯开源了最新的MoE模型“混元Large“以及混元3D生成大模型“ Hunyuan3D-1.0”。前者总参数量达389B,上下文长度高达256k,在多种学科、文本、代码等任务上,领先Llama3.1等头部的开源模型,表现出色。
来源:Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters, Tencent Hunyuan
混元3D生成大模型“ Hunyuan3D-1.0”则是业界首个同时支持文字、图像生成3D的开源大模型,可以帮助 3D 创作者和艺术家实现 3D 资产的自动化生成。该模型的开源,在当前成熟度相对偏低的3D AIGC领域颇为瞩目。
来源:Tencent Hunyuan3D-1.0: A Unified Framework for Text-to-3D and Image-to-3D Generation, Tencent Hunyuan
四、总结
2024年的AI大模型赛道,在2023年的爆发式开端之后,迎来了进一步的蓬勃发展。各类大模型和AI项目在各个场景中不断深化落地,成熟的AI应用在诸多场景中涌现,并不断完善和优化。我们有理由相信,AI大模型将在2025迎来更加令人惊喜的突破和成就。
图源:本文图片均来自网络
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-09-04
2024-09-26
2024-10-30
2024-12-25
2024-10-30
2024-09-03
2024-09-06
2024-08-18
2024-11-23
2025-01-25