微信扫码
与创始人交个朋友
我要投稿
昨天看到了一个新闻
“360 发布 CoE 模型路由, 把国产 15 家大模型路由起来,在 AI 搜索的评测超过了 GPT4o”
我去体验了一下 360 的 AI 助手 https://bot.360.com/(如下图),本文的全部内容都是基于对这个产品体验的有感而发。
我们先从 MoE 说起
“混合专家模型(英语:mixture of experts,简称 MoE),或译为多专家模型,是一种机器学习技术,通过门控(gating)模型将单一任务空间划分为多个子任务,再由多个专家网络(子模型)分别处理特定的子任务,最终得到整体的预测结果。混合专家模型与集成学习有相似之处,它们都应用多个子模型来处理问题。但它们的区别在于,混合专家模型中的每个专家都是针对不同的数据子空间进行训练的,以适应不同类型的输入数据。而集成学习一般而言则是使用多种模型对整个数据空间进行训练。
简单来说,MoE 是一种机器学习模型架构,它结合了多个专家模型(Experts)的预测。这些专家模型各自擅长处理数据的不同部分或方面,而 MoE 的主要任务是在这些专家之间动态地分配数据,以便每个数据点都能由最适合处理它的专家模型来处理。
具体来说,Mixture-of-Experts 模型通常包含以下几个组成部分:
Mixture-of-Experts 模型的优势在于它能够通过组合多个专家的力量来处理复杂的问题,同时每个专家只需专注于问题的某个方面,这有助于提高模型的泛化能力和效率。这种模型在处理具有多个模式或需要多领域知识的问题时特别有效。在实际应用中,MoE 已被用于语音识别、自然语言处理等多个领域。
无论中外,现代流行的大语言模型基本都是 MoE 架构的。在 Mixture-of-Experts(MoE)模型中,虽然存在多个专家,但它们通常是在同一个大模型内部集成的。这些专家模型不是独立运作的,而是作为整体模型的一部分,通过特定的机制(如门控网络)协同工作。
其实我们在日常对 AI 工具的使用过程中已经深有体会了,因为在不知不觉中,你的提问是会经由大模型内部的多个不同的 Export 处理的。
一个大型语言模型,它被设计来处理多种不同的文本生成任务,比如写诗、编写代码、创作小说等。在这个模型中,可以包含几个不同的“专家”网络,每个网络都针对特定的任务进行了优化:
在这样一个 MoE 架构中,每个专家网络都可以看作是大型语言模型的一部分,它们共享某些通用层,但各自拥有特定的参数和结构,以适应不同的文本生成任务。每个专家网络生成的内容会根据门控网络的权重进行组合,形成最终的输出。如果任务需要多个专家的知识,比如一个小说中包含了编程元素,门控网络可以同时激活小说专家和编程专家,并将它们的输出结合起来,以生成最合适的内容。
“"Collaboration-of-Experts" 强调的是模型之间的协作关系。在这种情况下,专家模型不是完全独立的,它们可能在训练过程中就相互协作,共享信息或参数,以共同学习数据特征。这种方法的目的是通过模型间的协作来提高预测性能。
MoE 没什么新鲜的,我一说你就能明白,同理,CoE 也很好理解
如果将 MoE 比喻成全科医院,那么这个医院有会多个不同领域的专家,比如内科专家、外科专家、妇产科专业、儿科专家等等。病人来看病,会根据检查情况被分配到不同的专家那里。
而 CoE 就类似于一个“专家联盟“,它联盟了多个医院的顶级专家。专家都隶属于不同的医院,在联盟有需要的情况下会根据不同领域找到不同医院的这些专家。比如一个儿科的问题,联盟会找到 “专家联盟” 中公认儿科最强的专家,无论他是哪家医院的。
这不就是 “合纵连横” 吗?
是的,360 这次 就是要做 AI 领域的苏秦、张仪。
““使我有洛阳二顷田,安能佩六国相印”
从软件时代到互联网、移动互联网时代再到 AI 时代, 360 从来都是不甘寂寞的,不挑起纷争也要加入纷争,为什么?因为利益,因为发展,因为情怀,因为所有那些可说和不可说的事情。
有的没的就不多扯了,说回产品。其实从用户的角度,确实存在这样的需求。作为 AI 工具的深度使用者,平时我会同时打开多个工具,将一个问题,在多处提问,然后看哪个返回的 “质量”好,即使在我使用过一段时间有了“经验” ,知道哪家的哪个工具处理哪种问题是最好的情况下,我仍然可能会 “一题多问”,因为模型在升级、工具在迭代,它们时不时的总会给我惊喜,我是一个不想错过惊喜的人。尤其是这种免费的惊喜。
你发现没,其实我就是在做 CoE 做的事情,只不过这个调度者是我自己而已,完全凭我自己的能力、经验、直觉。可能很靠谱,也可能很不靠谱。
麻烦的是,每一次我想 “一题多问” 时,都要打开多个工具,手动提问多次,如果登录失效了,还需要先登录再提问。
就我个人而已,我是可以写一个自动化的脚本,自动登录并打开多个网页并输入提问,然后静等各家的回答。那是因为我是程序员出身。但这个世界不止有程序员,还有那么多非技术背景的用户,我想需求是存在的,而且随着使用频率的增加会越来越突显
那么市面上有没有类似的产品呢?有的,但不多。
所以,从这个角度,我还是欣赏 360 的 AI 助手的,毕竟确实在满足这个需求。
既然是联合,那我们就先来看看都有哪些路神仙。
我们来列举一下:
还剩下最后一个,“AI 助手-集成多场景优势,提供全方位的服务 ”
前面的我不说多,用过的,你们都知道好不好用,咱先说一说这个 “AI 助手”
我本来想,既然已经集成了这么多的模型,并且你也知道各个模型的能力和优势,应该能够自己判断出使用什么模型才对啊?
也不知道是不是我使用的问题,反正给我生成答案的模型,10 次有 8 次都是智脑,
怎么说呢?其实我能理解,360 自己做的产品嘛,自家的权重高些很正常。但问题是,这就让我产生了不信任感,我无法完全敢让产品自己选择合适的模型,最终还是要我自己来选择才可能靠谱。当然我是一个深度用户,作为小白用户可能就无所谓了,需要的答案质量不一样嘛 。
从产品功能上,360 的 这个产品与其他的 AI 产品类似,都比较简洁,输入你的问题然后给你答案,哦对了,就我的测试来看,目前不支持多模态,也就是没有文生图、文生视频什么的。
在输入框中可以选择你想使用的模型,这样就可以指定模型了
你发现没有,不需要登录各个公司的产品了,都帮你集成好了,这点很好?
响应速度也是很快的。跟使用模型自家的产品一样。
最具特点的功能就是模型比较,你可以点一下,选择一个你想比较的模型,它就会将相同的问题用你选择的模型再生成一次答案
其实这和你在输入框选择一个模型再输入一次相同的问题一样。
最开始,我期待的功能是像 notdiamond
那样同时给出我两个模型的答案,让我自己看哪个更好,比如这样:
顺便说一下 ,notdiamond
也是支持多个模型的 CoE 模式产品。
虽然你在 360 AI 助手上达到的效果是类似的,但体验上我感觉不如 notdiamond
,再顺便说一句,Not Diamond
上周在 Product Hunt 拿到第一
综合来说 , “15 个国产模型联合起来,终于打败了 GPT4o” 这个事儿,是技术上的,对用户来说,可能是一个曲折的过程,虽然理论上是可以的。
但好处是,至少现在我不用登录各家的产品了,可以在一个门面网站使用全部好用的模型了,这很好。
未来,我觉得这个产品的思路还是正确的,以此为基础未来添加更多好用的模型,形成平台及生态 不断升级路由的策略,让产品更“智能” 。这样的话,这个产品未来的希望还是大大的。
令人担心的是, 未来 360 对自家模型使用权重的考虑上,是否还是和现在一样,能否做到相对的公平?
不过,对于一个悲观底色的乐观主义者来说,我想借用雷总的那句话来结束本文 :“永远相信美好的事情即将发生”
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-12-19
极简开发,极速上线:构建端到端大模型应用
2024-12-19
大模型落地,苦「最强」久矣
2024-12-19
吴恩达最新访谈——人工智能视觉、Agent智能体和商业价值
2024-12-19
Sakana AI推出LLM记忆管理技术NAMMs,可将内存成本降低75%
2024-12-18
云原生 AI:打造大模型工程化落地的最佳实践
2024-12-18
Meta推出全新AI模型Apollo了
2024-12-18
小试牛刀|试用 DB-GPT x OceanBase 构建自给自足的 Chat Data 应用
2024-12-18
大模型量化技术原理:QoQ量化及QServe推理服务系统
2024-05-28
2024-04-26
2024-08-13
2024-08-21
2024-07-09
2024-04-11
2024-08-04
2024-07-18
2024-06-13
2024-07-01
2024-12-16
2024-12-06
2024-12-03
2024-12-01
2024-11-29
2024-11-26
2024-11-25
2024-11-21