我要投稿

独家丨科大讯飞多模态：都说端到端好，看谁有本事先做出来

发布日期：2024-09-09 12:54:42 浏览次数： 2270 作者：亲爱的数据

2024年8月19日那天，

“星火极速超拟人”开放内测体验，

我的“后援”群里有位专家，

短平快点评了一句：

“真不错，首个”。

果然，还是CTO级别的技术大牛反射弧短。

我没看透，人家结论都出来了。

定定神，还有两点值得高兴高兴：

第一，基础模型日趋同质化，

没有新变量，

可能要进入瓶颈；

多模态的“多”字，能带来新机会；

第二，不是照猫画虎式的创新，

GPT-4o从来没有公布实现方法，

仅仅展示了成果。

这意味，想实现，请自研。

于是，当我带着这些想法，

见到科大讯飞研究院的几位带头博士专家，

会是什么心情呢？

你猜。

故事得从头讲起。

原创：亲爱的数据

01.

对咱普通人有啥影响？

第一，这个技术方向上首个国产突破，

且是产品级。

产品做到和演示做到，

区别有多大，

不用多说。

产品级和模型级，

区别有多大，

不用多说。

众所周知的原因，

OpenAI对我们不Open。

现在想用好AI，只得国产有。

好消息，

国产AI突破了，

并不意味它就完美了。

作为硬核科技迷妹，

我不能尬吹国产遥遥领先，

同样也不能说，

不用国产AI不是中国人。

第二，拉高语音唠嗑水平。

一般来说，

人类和机器人聊天的技术水平变化，

都能感知到，

但是不多。

你若问我：

这个技术能给普通人什么好处？

我只能说体感上，

快是真快。

快是技术能力的直接表现之一。

理解强，要唠很久才能确定。

对话快，唠几句就发现了。

可能有人会说，

没感到有“提速”。

我只能反驳，

我能从软件底层系统层面看到明显提速了。

提速的时间范围。

三个系统变成一个系统了，

一个系统一秒，

大致是从3秒降低到1秒。

高端科技，就是这么朴实无华。

02.

对同赛道厂商啥影响？

技术突破后，冲击力很大。

毕竟，底层系统变了，

不是功能按钮变了。

重大更新，名副其实。

以前谁家敢吹机器人语音对话能力强，

过眼云烟。

也就是说，

很多厂商一觉睡醒，

战火烧到枕头了。

有新技术的快，

没新技术的慢。

有新技术的当下1秒，

以后迭代成几分之一秒。

老技术一顿操作猛如虎，

一看3秒原地杵。

竞争，

如此残酷。

如果不信，

那就打开手机里的讯飞星火APP，

手指点语音通话，让超拟人说话，

你会发现，

机器人回复时间（响应时间）变得超快。

如果还想玩，

你使个坏，

疯狂打断，

一点礼貌都别讲，

你又会发现，

对话又快又机智。

拿起手机感受一下，

否则，我说什么都没用。

我还问了星火APP，你这是啥设计？

它用女声告诉我：

“我被设计成，

能连续处理和回应信息流，

即使应答被打断，

也能从上次的状态中继续对话。”

另外，我补充一个产业视角。

任何不温不火的技术，

只要OpenAI带个广告，

立刻顶流，

多模态也不例外。

GPT-4o是美国2024年5月的技术。

那些想紧紧咬住OpenAI的厂商，

最好能尽快拿出成果。

如果拿不出来，

那就相当于承认，

水平不行。

如果一直拿不出来，

那这个破星球，

待着就不痛快了。

为什么？

短短几个月后，

国内有极少数几家公司突破这个技术了，

数量应该不超过一只手，就能数清楚，

科大讯飞是其中一家。

那么问题来了，科大讯飞如何实现的？

03.

到底是啥技术？

大旗不仅是GPT-4o扯起来的。

还一口气带火了三个方向：

图片视频语音。

既然文本（模态）已经是必选项，

知名成果是大语言模型，

那么，多模态的“多”字，

还可以有很多选择，

选图像，

选视频，

选语音

选其他传感器数据，

多模态的每个方向都是一个战略选择，

当然，土豪随意，可选全部，

相信大家都看懂了，

想在哪一个方向上有所突破都不易。

选择语音，或许就要做到：

语音输入语音输出，

它是一个完整的端到端过程。

这意味着，所有转换在一个系统中完成，

也就是，“语音到语音端到端框架”。

我把这个术语讲给一个抖音历史博主的时候，

他皱了一下眉头说，

能不能讲中文？

技术名称的确有点复杂。

分开看都认识，

合在一起又不好懂。

语音到语音是指什么？

这个好理解，

就是你说人话，

机器人也对你说人话。

高质量人话，不是智障说话，

本质是输入什么就输出什么，

那些处理和转换，发生在语音信号层面上。

这里有点晦涩，

那从软件系统方面，可以这样理解：

传统老方法，

要三个系统（识别，理解，合成），

串连在一起，

缺一不可。

新方法仅用一个系统。

好比，上30层的高楼，

新方法一个垂直电梯直达了，

老方法

换乘三部电梯。

以一打三。

从结构层面讲，老方法时间上当然快不起来

新方法用时短（时延低）。

当然快。

04.

短短几个月就产品化了？

不吹不黑，

快肯定是有技术储备。

十个恒大也不能一夜起高楼。

大约一年前，

我见到科大讯飞研究院院长刘聪，

特意问了多模态进展。

讯飞特色是在语音方向上有长期积累。

语音这种模态的进展当然想听他讲。

聊下来，他告诉我重视，且布局。

具体不能说得太细。

有些问号，

需要耐心才能画下句号。

看到结果，

我推测他们储备了：

第一，大量语音模型对比学习方案。

第二，大量掩码自监督学习训练方案。

第三，足够使用的“特色”数据。

并且，这次“极速超拟人”的发布。

我和研究院的高建清副院长，

以及几位研究员聊了挺久。

我的推测得到了验证。

“从模型到上APP，

虽然三到四个月，

但是技术储备早就开始。

比如，很早以前，讯飞就着手表征预训练。”

他们对这类方法足够熟悉，

对语音这种模态也足够理解。

看到这里，

应该不会再误以为，

星火APP上，更新了一个小功能。

我甚至看到，有人批评讯飞，

躺在人工智能1.0的功劳簿上。

我再换个视角强调，

为什么说“不小”呢？

那些日常接到的骚扰式推销电话里的人声，

还有高德APP导航用的各色语音包，

新老方法，

完全是两码事。

要是谈技术晦涩，

那就赤裸裸地谈钱，

新技术可能让定制化语音包的成本打骨折。

可能不是在描述发不发生，

而是我不确定是一折还是两折，

毕竟，我没有财务成本的底稿。

除了语音，基础大模型也很关键。

此处也不赘述了，

我引用一句高建清副院长对我说的原话：

“我们做的话，

一定是既有语音基础，

也有认知大模型的基础。

有这两个基础，

我们肯定不会是从头做。”

所以，他们三到四个月就做出来，

靠的不是走捷径。

当下，GPT-4o语音能力仍是期货，

这话不是别人说的，就是我说的。

据说八月中旬是给一些阿尔法用户开放了，

但是好像大家都还是用不了。

既然科大讯飞做到了，

那么就很有资格，来谈他们的认知。

朋友们，请深吸一口气，

学霸专区到了。

05.

独家特供一：对齐与统一

以一打三的新方法，

总有点硬核技术含量，

“对齐”就是其中一个。

起猛了，

差点看成互联网大厂黑话。

模态对齐旨在建立对不同模态的共同理解，

它通常将不同模态的语义空间进行对齐。

即在提取含义相近的不同模态数据的特征后，

得到相近的特征向量。

这两句就写得很专业了，

我承认，是书上抄来的。

书名是，

《多模态人工智能：

大模型核心原理与关键技术》。

理论是理论，

讯飞是实践。

我总结一下，

三个旧系统不仅慢，

数据形式转换还会难免丢失很多信息。

而换成现在一个新系统，

信息始终以表征的形式传递，

能少损失很多信息。

对齐很关键，而对齐又通常是实现统一的一个前提步骤。

另一个，术语“统一”跃入眼帘。

又起猛了，秦始皇统一六国吗？

字是那个字，

意思不一样。

这确实是AI技术术语。

专业上，统一是通过共享的表示和架构，

来整合和处理不同模态的数据，

从而实现多种能力。

比如模型可以看图片，看电影。

你咳嗽两声，机器人也能听懂。

问你需不需要医疗广告。

扯远了，

简单说，既要又要，

既要会这个，又要会那个。

以前都是分开几个语音模型来干的，

这种分开的语音模型，

门槛低，

开源多，

效果也就这样了。

有了大语言模型之后，

效果上了个台阶。

语音模型加上大语言模型的能力，

这个进展互联网大厂都积极跟进了。

用大上语言模型，

反正正确率都提升。

我来列几个近期的：

字节跳动的两个，

Seed-ASR和Seed-TTS。

名字前缀都一样。

而阿里巴巴通义实验室也有两个，

SenseVoice和CosyVoice。

对不起，我又扯远了，

这些都不是新方法，

这些和“语音到语音端到端”是两码事。

我只想告诉你，抵达新技术，

没有那么容易，

你把大语言模型搬过来能有一些用，

但也不是现阶段的最好。

为什么？

因为没有“统一”。

“”统一能干啥？

能解决原有缺陷。

你把语音转成文字，

那些音调音色语气情绪之类的信息都丢弃了。

一个“啊”的声音，就可能有多个意思，

转成文字，就一个啊字。

语音多模态模型在保留音调、音色、语气和情绪等特征时，

面临的问题是，

如何将以上这些信息统一到一起处理，

这真是一个好问题。

06.

独家特供二：解耦

先谈解耦的产品形态是什么样的？

拿能成本打骨折的高德语音包为例，

以前于谦语音包上架高德地图，

郭德纲“隔空怼”，不推荐下载。

现在要是这个语音包用能解耦的技术来做，

会是什么样的呢？

于谦还说同样的话，烫同样的头，

语气，音色都不变，

我改“语种”属性，

于老师的话就变成了，英语，日语等语种。

而其他都不变。

“于谦为你导航，

关闭郭德纲模式”。

"Yu Qian is navigating for you,

turning off Guo Degang mode."

语音语调请读者自行脑补。

估计郭德纲听了，更不推荐下载。

当然，这有赖于，

新技术是做到了能把“语种”属性拆出来。

这是我的理解。

原理是，人们交流用说话的语言（语种表征），

内容（内容表征），

还会用节奏语调（韵律表征）

和说话者的声音（音色表征），

来捕捉和传递语音中的全部信息。

俗称，弦外之音，言外之意。

好的，几句话把讯飞解耦语音表征讲完了。

下课。

等一下，

如果你仍有强烈的求知欲，

我就往下讲，

原理看似晦涩，其实一点也不简单。

高建清副院长告诉我，

“语音里面，

哪些是说话的内容，

哪些是说话人的音色，

哪些是韵律，

哪些是情感。

充分解耦出来，

再通过某种编码的方式送到基础大模型里。”

解耦异常重要。

究竟解耦了什么？

解耦了语音的属性。

为什么这么做?

我认为是为了更好地控制。

语音天然有很多属性，

你想控制好，讯飞拿出的思路是解耦，

至于如何解耦，

解耦的程度，

怎么样既分开，

下游任务又可以用得好。

属性之间的微妙之处怎么把握。

那是人家的知识产权。

能理解到这一步的读者，

应该能看到科学家花了多少心思，

而我只能带着大家到科大讯飞研究院的门口了，

至于实验室里的秘密，

智者求知，取用有规。

总之，解耦做得好，后面的控制会做得更好。

方言，韵律，音色都可以分开精细化控制。

解耦还有一个优点，

下游和产品特点关联设计的时候，

连成本都能控制得更好。

这一点做到非常难，

但确实做到了。

07.

独家特供三：大神经网络

我有个问题，

这么硬核的思路中，哪个最关键？

作为一个学渣，我认为都关键，

否则我也不会写了好几章。

而高建清副院长给我的答案是：

“在充分理解语音属性的基础上，

取舍和平衡是我们技术里面最关键的一部分。

算法，也许不是最关键的。”

他怕我没有理解，

甚至他后面特意强调了第二遍。

我怀疑，他想把我教会。

而且我有证据。

既然新系统时间就是生命。

为了快，想尽一切办法。

我们假设这个目标时间是1秒。

真实的毫秒数，

并不能透露。

反正，“快”既是技术能力的体现，

又是用户爽感的要求。

总结新方法的三个特点，

第一，该取舍就取舍。

要快的话，

有时候看重语音里面的情绪，

有时候更看重文本的这个情绪。

不同属性表征之间取舍，

可以让模型自己学。

你不能解耦就不能精确控制，

但是这还没完，

难度还在于，模型怎么自学。

不得不感慨，

这确实是整个系统中的一大难点。

第二，该实时就实时。

语音经过编码器提取出来的语音表征，

这个过程是实时的。

要快的话，

实时对很多做语音算法小哥哥来说豪不陌生。

以现在AI产品的要求，

这个组件大多实时的

你讲完再识别，

没时间了。

第三，该打断就打断。

打断能省时间，

但打断要有水平。

意思表达完了才能打断。

鲁莽打断，实在找抽。

高建清副院长的原话是：

“如果不打断肯定这个系统就慢了。

所以打断时机是非常关键的，

这个也是一个很难的一个问题。”

只有很好地处理打断，

系统才能“反应快速”，

机器人可以随时打断用户，

用户也可以随时打断机器人，

人机公平没在乌托邦实现，

在这里实现了。

“打断背后到底是在解决一件什么事情？”

我向高院长提问。

他告诉我，这是一个理解的问题，

比如，人和人聊天，

什么时候该打断，

基于你已经表达完了的判断，

他还告诉我：

“我们对此单独设计，

并不只靠认知大模型能力做到。

这是效果和响应时间的一个平衡的问题。

任务的定义是，

判断什么时候该打断了。”

讯飞语音到语音端到端多模态整个系统，

我们把它当做一个大的神经网络，

不同组件的工作过程是：

第一步，准备。

需要语音经过编码器提前提取出来语音表征，

第二步，适配器。

适配器这个东西，

我管它叫“插座”，

如果你了解图文多模态。

那就一点也不陌生了，

都有这个玩意。

这里适配器把语音表征跟文本表征去做语义对齐，

拉到一个空间上。

第三步，

全名叫做“讯飞语音属性解耦表征训练”，

用到了对比学习，掩码预测等方法。

第四步，

把上一步训练得到的表征接入给大语言模型，

预测表征。简单的做法还可以把大模型冻结住，

然而，讯飞怎么会用这种方法呢。

肯定是一起训练，效果才更好。

第五步，

再经过语音解码器解码成语音。

讲完了，我留下一道附（送）加（命）题，

技术很快（8月30日）上线讯飞星火APP，

模型的参数尽量地考虑了性价比，

毕竟，支撑全量产品。

讯飞判断，端到端技术，

以语音模态应用场景更多，

更有用处。

这是他们做这个事情的出发点。

08.

故事的最后

我想多谈两句算力，

AI离不开算力，

众所周知的原因，

科大讯飞用不了美国的GPU。

有幸，他们向我谈起了一些细节，

在与华为联合团队的大背景下，

23年下半年联合攻关团队的规模很大，

很多华为的兄弟一线现场支持，

现在基础大模型跑得很好，

目前算力集群训练能够达到英伟达90%以上的性能。

困难像潮水，想把人的意志力打成砂砾。

语音特征和认知特征不同，

是非常密集的信号，有很多独特的难题，

适配过程非常困难。

如是，此次攻坚难度比上次更大，

仅是华为昇腾算子方面，

打磨出的语音模型算子的数量级大概是几百个。

一场少见的酣畅的交流，

我也希望能把信息尽量保真地带给读者。

他们从始至终语速适中，

平和且坚定，

仿佛哪怕难题不断在视野中出现，

也时刻准备好了，

总有下一个目标，

下一场战斗。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业