AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


AI 界的苏秦、张仪会成功吗?
发布日期:2024-08-03 19:55:54 浏览次数: 1684


昨天看到了一个新闻

“360 发布 CoE 模型路由, 把国产 15 家大模型路由起来,在 AI 搜索的评测超过了 GPT4o”

我去体验了一下 360 的 AI 助手 https://bot.360.com/(如下图),本文的全部内容都是基于对这个产品体验的有感而发。

MoE

我们先从 MoE 说起

什么是 MoE ?

混合专家模型(英语:mixture of experts,简称 MoE),或译为多专家模型,是一种机器学习技术,通过门控(gating)模型将单一任务空间划分为多个子任务,再由多个专家网络(子模型)分别处理特定的子任务,最终得到整体的预测结果。混合专家模型与集成学习有相似之处,它们都应用多个子模型来处理问题。但它们的区别在于,混合专家模型中的每个专家都是针对不同的数据子空间进行训练的,以适应不同类型的输入数据。而集成学习一般而言则是使用多种模型对整个数据空间进行训练。

简单来说,MoE 是一种机器学习模型架构,它结合了多个专家模型(Experts)的预测。这些专家模型各自擅长处理数据的不同部分或方面,而 MoE 的主要任务是在这些专家之间动态地分配数据,以便每个数据点都能由最适合处理它的专家模型来处理。

具体来说,Mixture-of-Experts 模型通常包含以下几个组成部分:

  • 专家(Experts):一系列相对简单的模型,每个模型都在特定数据区域或任务上表现出色。
  • 门控网络(Gating Network):一个用于决定哪些专家应该处理哪些输入数据的模型。门控网络输出一个概率分布,指示每个专家对当前输入数据的相对重要性。
  • 组合层(Combination Layer):将各个专家的输出根据门控网络的概率分布进行加权组合,形成最终的预测结果。

Mixture-of-Experts 模型的优势在于它能够通过组合多个专家的力量来处理复杂的问题,同时每个专家只需专注于问题的某个方面,这有助于提高模型的泛化能力和效率。这种模型在处理具有多个模式或需要多领域知识的问题时特别有效。在实际应用中,MoE 已被用于语音识别、自然语言处理等多个领域。

无论中外,现代流行的大语言模型基本都是 MoE 架构的。在 Mixture-of-Experts(MoE)模型中,虽然存在多个专家,但它们通常是在同一个大模型内部集成的。这些专家模型不是独立运作的,而是作为整体模型的一部分,通过特定的机制(如门控网络)协同工作。

其实我们在日常对 AI 工具的使用过程中已经深有体会了,因为在不知不觉中,你的提问是会经由大模型内部的多个不同的 Export 处理的。

一个大型语言模型,它被设计来处理多种不同的文本生成任务,比如写诗、编写代码、创作小说等。在这个模型中,可以包含几个不同的“专家”网络,每个网络都针对特定的任务进行了优化

  • 诗歌专家:这个子网络专门针对诗歌的创作,它学习了大量的诗歌文本,因此擅长生成符合诗歌韵律和意境的内容。
  • 编程专家:另一个子网络专注于编程语言的生成,它能够理解和生成各种编程语言的代码,理解编程逻辑和结构。
  • 小说专家:这个子网络则专注于小说创作,它能够生成连贯的叙述、复杂的情节和丰富的人物对话。

在这样一个 MoE 架构中,每个专家网络都可以看作是大型语言模型的一部分,它们共享某些通用层,但各自拥有特定的参数和结构,以适应不同的文本生成任务。每个专家网络生成的内容会根据门控网络的权重进行组合,形成最终的输出。如果任务需要多个专家的知识,比如一个小说中包含了编程元素,门控网络可以同时激活小说专家和编程专家,并将它们的输出结合起来,以生成最合适的内容。

CoE

"Collaboration-of-Experts" 强调的是模型之间的协作关系。在这种情况下,专家模型不是完全独立的,它们可能在训练过程中就相互协作,共享信息或参数,以共同学习数据特征。这种方法的目的是通过模型间的协作来提高预测性能。

MoE 没什么新鲜的,我一说你就能明白,同理,CoE 也很好理解

如果将 MoE 比喻成全科医院,那么这个医院有会多个不同领域的专家,比如内科专家、外科专家、妇产科专业、儿科专家等等。病人来看病,会根据检查情况被分配到不同的专家那里。

而 CoE 就类似于一个“专家联盟“,它联盟了多个医院的顶级专家。专家都隶属于不同的医院,在联盟有需要的情况下会根据不同领域找到不同医院的这些专家。比如一个儿科的问题,联盟会找到 “专家联盟” 中公认儿科最强的专家,无论他是哪家医院的。

这不就是 “合纵连横” 吗?

是的,360 这次 就是要做 AI 领域的苏秦、张仪。

合纵连横

“使我有洛阳二顷田,安能佩六国相印”

从软件时代到互联网、移动互联网时代再到 AI 时代, 360 从来都是不甘寂寞的,不挑起纷争也要加入纷争,为什么?因为利益,因为发展,因为情怀,因为所有那些可说和不可说的事情。

有的没的就不多扯了,说回产品。其实从用户的角度,确实存在这样的需求。作为 AI 工具的深度使用者,平时我会同时打开多个工具,将一个问题,在多处提问,然后看哪个返回的 “质量”好,即使在我使用过一段时间有了“经验” ,知道哪家的哪个工具处理哪种问题是最好的情况下,我仍然可能会 “一题多问”,因为模型在升级、工具在迭代,它们时不时的总会给我惊喜,我是一个不想错过惊喜的人。尤其是这种免费的惊喜。

你发现没,其实我就是在做 CoE 做的事情,只不过这个调度者是我自己而已,完全凭我自己的能力、经验、直觉。可能很靠谱,也可能很不靠谱。

麻烦的是,每一次我想 “一题多问” 时,都要打开多个工具,手动提问多次,如果登录失效了,还需要先登录再提问。

就我个人而已,我是可以写一个自动化的脚本,自动登录并打开多个网页并输入提问,然后静等各家的回答。那是因为我是程序员出身。但这个世界不止有程序员,还有那么多非技术背景的用户,我想需求是存在的,而且随着使用频率的增加会越来越突显

那么市面上有没有类似的产品呢?有的,但不多。

所以,从这个角度,我还是欣赏 360 的 AI 助手的,毕竟确实在满足这个需求。

产品体验

有什么模型 ?

既然是联合,那我们就先来看看都有哪些路神仙。

我们来列举一下:

  • 智脑,就是 360 自家的模型
  • 豆包,字节的
  • DeepSeek, 深度求索公司 (不熟?还前些日子大模型价格战,最后都降到 “白菜价”了吗?它就是“始作俑者”)
  • MM 智能助理,Minimax 开发的 (国内首家多模态 AI 大模型创业公司,阿里投了 6 个亿啊)
  • 通义千问,阿里的
  • Yi-Large,零一万物的(李开复带队孵化的 AI2.0 公司)
  • 文心一言,你懂的
  • Kimi, 月之暗面
  • 讯飞星火,科大讯飞的
  • 商量,商汤科技的
  • 智谱清言,清华大学计算机系技术成果转化而来的公司
  • 百小应,百川智能(老板是搜狗的王小川)

还剩下最后一个,“AI 助手-集成多场景优势,提供全方位的服务 ”

前面的我不说多,用过的,你们都知道好不好用,咱先说一说这个 “AI 助手”

我本来想,既然已经集成了这么多的模型,并且你也知道各个模型的能力和优势,应该能够自己判断出使用什么模型才对啊?

也不知道是不是我使用的问题,反正给我生成答案的模型,10 次有 8 次都是智脑,

怎么说呢?其实我能理解,360 自己做的产品嘛,自家的权重高些很正常。但问题是,这就让我产生了不信任感,我无法完全敢让产品自己选择合适的模型,最终还是要我自己来选择才可能靠谱。当然我是一个深度用户,作为小白用户可能就无所谓了,需要的答案质量不一样嘛 。

模型比较

从产品功能上,360 的 这个产品与其他的 AI 产品类似,都比较简洁,输入你的问题然后给你答案,哦对了,就我的测试来看,目前不支持多模态,也就是没有文生图、文生视频什么的。

在输入框中可以选择你想使用的模型,这样就可以指定模型了

你发现没有,不需要登录各个公司的产品了,都帮你集成好了,这点很好?

响应速度也是很快的。跟使用模型自家的产品一样。

最具特点的功能就是模型比较,你可以点一下,选择一个你想比较的模型,它就会将相同的问题用你选择的模型再生成一次答案

其实这和你在输入框选择一个模型再输入一次相同的问题一样。

最开始,我期待的功能是像 notdiamond 那样同时给出我两个模型的答案,让我自己看哪个更好,比如这样:

顺便说一下 ,notdiamond 也是支持多个模型的 CoE 模式产品。

虽然你在 360 AI 助手上达到的效果是类似的,但体验上我感觉不如 notdiamond ,再顺便说一句,Not Diamond 上周在 Product Hunt 拿到第一

最后

综合来说 , “15 个国产模型联合起来,终于打败了 GPT4o” 这个事儿,是技术上的,对用户来说,可能是一个曲折的过程,虽然理论上是可以的。

但好处是,至少现在我不用登录各家的产品了,可以在一个门面网站使用全部好用的模型了,这很好。

未来,我觉得这个产品的思路还是正确的,以此为基础未来添加更多好用的模型,形成平台及生态 不断升级路由的策略,让产品更“智能” 。这样的话,这个产品未来的希望还是大大的。

令人担心的是, 未来 360 对自家模型使用权重的考虑上,是否还是和现在一样,能否做到相对的公平?

不过,对于一个悲观底色的乐观主义者来说,我想借用雷总的那句话来结束本文 :“永远相信美好的事情即将发生”


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询