AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


豆包实时语音大模型上线即开放!情商智商双高
发布日期:2025-01-22 07:21:24 浏览次数: 1544 来源:豆包大模型团队
推荐语

豆包实时语音大模型重磅推出,表现惊艳,这是小贤看到的关于语音模型最好的成果,没有之一。

核心内容:
1. 模型的技术实现思路
2. 模型的特性与优势
3. 模型的评测结果

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家
豆包实时语音大模型于今日正式推出,并在豆包 APP 全量开放,将豆包 APP 升级至 7.2.0 版本即可体验。

豆包实时语音大模型,是一款语音理解和生成一体化的模型,实现了端到端语音对话。相比传统级联模式,在语音表现力、控制力、情绪承接方面表现惊艳,并具备低时延、对话中可随时打断等特性。

根据外部用户真实反馈,该模型整体满意度较 GPT-4o 有明显优势 ,特别是语音语气自然度和情绪饱满度远高于后者。团队认为,该模型的推出具备里程碑式意义,不仅贴合中国用户实际需求,且发布即上线,有能力直接服务亿万用户,而非停留于演示 Demo 层面。

本文将重点介绍模型技术实现思路、特性与优势及评测结果。

技术展示页:https://team.doubao.com/realtime_voice
今天,豆包 APP 上线全新端到端语音能力,面向所有用户全量开放!
其技术能力如何?戳下方视频,抢先了解。
端到端语音能力加持下,豆包不仅是春节探亲欢聚的神队友,还是献唱《恭喜发财》的高情商歌手:
更是陪你唠嗑,操着东北味儿,模仿“白云黑土”的小品达人:

这些能力背后,是豆包实时语音大模型。
该模型是一个真正意义上的端到端语音系统,主要面向中文语境和场景(可进行英语对话,暂不支持多语种)。依托于语音和语义联合建模,豆包实时语音大模型拥有丰富表现力和极大拓展潜力,呈现出接近真人的语音表达水准,在语音指令控制的泛化理解和演绎生成方面,显著突破原有边界,且不止停留于 Demo 展示层面,可直接服务广大用户。
在外部真实众测中,模型整体满意度较 GPT-4o 有明显优势 ,语音语气自然度和情绪饱满度远高于后者。

 1. 突破真人级语音对话能力的限制 
真人级语音对话,能提供更为亲和的交互体验和情感价值,是人类迈向 AGI(通用人工智能)的关键里程碑。
在过去,传统语音对话任务系统一般采用级联模式——通过 ASR ,将用户输入语音转写成文本,再送入 LLM 生成对话文本,最后,依靠 TTS 转成语音输出。
此类系统存在多个缺陷,阻碍了真人级别语音对话交互的实现。例如:对用户情绪及语音中各种副语言信息理解有局限、模型生成语音情绪存在上限、无法遵循语音控制指令、无法实现超低延迟等。
除却固有方法的局限,模型对话自然度、有用性及安全性有时此消彼长,相互矛盾。如何找到平衡,促使——模型表现力全面突破同时,保持模型的高智商表现,也成为一大问题。
伴随近年来大模型发展,模型架构创新与 Scaling 理念彼此交织,为瓶颈突破带来可能,加之团队过往技术认知的不断积累,构建语音理解和生成一体化模型,真正实现端到端语音对话,由此成为可能。
迎着技术浪潮,团队希望——构建真正可用的端到端语音系统,服务好亿万用户,同时,重新定义未来人机间的交互方式,并用技术给 AI 带来“灵魂”,实现人机之间的情感链接。
为此,团队在研发中尽最大努力,谋求模型交付体验平衡,在保障安全性的基础上,确保其既具备强大的理解和逻辑能力,又能联网回答时效性问题,同时,拥有前所未有的语音高表现力、控制力和优秀的情绪承接能力。此外,模型还需要在实时交互上具备超低延时和流畅打断特性。
具体实现方面,团队研发出了一套端到端框架,深度融合语音与文本模态。
该框架面向语音生成和理解进行统一建模,最终实现多模态输入和输出效果。在预训练(Pretrain)阶段,团队对各模态交织数据进行深入训练,精准捕捉并高效压缩海量语音信息,通过 Scaling ,最大程度实现语音与文本能力深度融合和能力涌现。在后训练阶段,团队使用了高质量数据与RL算法,进一步提供模型高情商对话能力与安全性,并在“智商”与“情商”之间寻求平衡。

 2. 智商与情商双双在线,赋予 AI 对话“真人感” 
得益于上述工作,预训练模型具备了丰富多样输入输出的可能性,涵盖 S2S(语音到语音)、S2T(语音到文本)、T2S(文本到语音)、T2T(文本到文本)等多种模式。
具体特征表现在如下方面:
  • 拟人化的情感承接
目前,大多数人工智能仅停留在功能性层面,以响应和服从人类命令为主要交互方式。但人类更渴望拥有像电影《钢铁侠》中贾维斯、《Her》中 Samantha 那样的伙伴,它们能够深刻理解人类的情感、需求与想法,能够与人类产生共情,给予温暖且真挚的陪伴。
因此,我们将情感表现力、情感理解、情感承接以及拟人化的语音表达,确立为整个研究过程中最为核心的关键目标,并在不同阶段进行如下工作:
数据收集:精心筛选并整理了大量包含丰富情感的语音数据,涵盖各种场景与情绪状态,为模型训练提供充足且优质素材。
预训练:使用大量各模态交织数据深度训练,并专门设计算法和优化策略,促使模型能精准捕捉和学习语音中的情感特征。
后训练:进一步通过真实与高质量合成的语音对话数据优化模型,使其实现高情商共情式对话。
目前,我们已取得阶段性成果。举例来说,当用户表现出不开心时,模型会以安慰语气说出暖心话语,当用户情绪高涨时,模型则以快乐语气作出积极回应,而当用户开玩笑时,模型能够接住用户的内容与情绪,输出恰当表达
  • 强大的声音控制和丰富的情感演绎能力
除却拟人化的情感表达,团队还希望让模型具备声音控制、角色演绎、唱歌等一系列实用又出彩能力,进一步提升用户体验。
声音控制方面,模型不仅能依照基础指令输出,还可遵循丰富的复杂指令。
情绪控制和表现力堪比专业级演员,即便音色上的细腻调整也能拿捏到位。

通过学习角色语音和情感特点,模型还具备强大的讲故事能力,在对话或内容演绎中,可生动切换成不同角色/状态,配合不同情绪表达,增强交互趣味性和沉浸感。
联合建模后,模型涌现出超出预期的指令理解、声音扮演和声音控制能力。比如,目前模型部分方言和口音,主要源自于 Pretrain 阶段数据泛化,而非针对性训练。

豆包实时语音大模型的语音智商,体现在模型在用户语音输入阶段,对各维度信息进行深度理解,输出信息具备有用性与真实性。同时,输出语音表现力高度逼近真人,包括类人的副语言特征(如语气词、停顿思考等)。
为实现该能力,我们在数据层面和后训练算法上,确保多模态语音对话数据兼具语义正确性与表现力的自然性。同时,采用多轮数据合成方法,以生产高质量、高表现力的语音数据,实现了模型智商与表现力的平衡与统一,确保生成语音表达自然且一致。
通过定期对模型进行多维度评测,团队还会依托评测结果,及时调整训练策略和数据使用方式,确保模型在智商和表现力之间始终保持良好平衡。
此外,我们还赋予模型实时联网功能,能够根据问题,动态获取最新信息,对时效问题给到精准、及时的回应。
注:豆包能及时联网查询最新赛事信息,并能将赛事变动与火灾新闻进行关联回复。
  • 丝滑的交互体验和超低延迟
在真人级语音对话中,丝滑顺畅的交互体验与超低延时至关重要,目前,级联系统的高延迟使实时对话连贯性不足,极大影响模型表现。
在语音生成,理解与文本大模型联合建模的框架下,我们实现了生成侧模型在更低系统时延情况下的生成准确性、自然度,同时在理解侧,该框架让模型实现了敏锐的语音打断与用户对话判停能力。
  • 安全方面挑战与解决方案
多模态的引入,为模型安全性提出全新要求。
具体来看,当以语音作为输入,模型需要保证同一安全准则对于不同语音表述均生效。同时,当语音作为输出时,也会带来新的安全问题。此外,模型还需要——在不同场景下以恰当语气表达内容,并解决语音和文本存在多对一的关系下的安全挑战。
对于上述问题,团队非常重视。在联合建模的过程中,我们在后训练阶段,引入多种安全机制,通过对潜在非安全内容进行有效压制和过滤,降低安全风险。
当然,安全能力提升并非一蹴而就,而是一个复杂的课题,我们将在未来持续深入研究,长期投入。

 3. 评测结果 
评测中,团队选取数十名外部测试者,面向 270 个话题组,共收集超过 800 通中文数据。
这些测试者来自 10 个城市,其中 9 名男性,女性 18 名,年龄分布为 21-33 岁。11.11% 的测试者从未体验过豆包 APP,70.37% 为轻度用户,每周使用 1-2 天,其余粘度较高。
团队围绕拟人度、有用性、情商、通话稳定性、对话流畅度等多个维度进行考评。整体满意度(以 5 分为满分)方面,豆包实时语音大模型评分为 4.36,GPT-4o 为 3.18。其中,50% 的测试者对豆包实时语音大模型表现打出满分。

此外,在模型优点评测中,豆包实时语音大模型在情绪理解和情感表达方面优势明显。尤其是“一听就是 AI 与否”评测中,超过 30% 的反馈表示 GPT-4o “过于 AI ”,而豆包实时语音大模型相应比例仅为 2% 以内。
由上可见,豆包实时语音大模型在智商与情商表现符合预期。尤其情商层面,模型在情感理解、情感承接以及情感表达等方面也取得显著进展,能较为准确地捕捉、回应人类情感信息。

 4. 写在最后 
基于以上技术突破和成熟落地表现,我们相信,豆包实时语音大模型为语音多模态技术的未来应用树立了全新标杆,为后续的研究和优化提供了坚实基础。
同时,团队也意识到,尽管模型已初步展现出探索潜力,但其能力边界仍存在诸多不确定性。比如语种方面,目前模型主要支持中文,其他语种尚未较好支持。中文范围内,模型也仅支持小部分方言和地方口音的理解和表达,仍有较大进步空间。此外,安全性课题同样需要长期投入。
在未来研究中,我们希望进一步挖掘模型潜力,通过优化算法、扩充数据以及改进训练策略等手段,逐步拓展其能力边界,提升复杂场景下的适应性和表现力。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询