我要投稿

腾讯元宝，脸上写的是APP，心里藏的是OS

发布日期：2024-05-30 23:29:10 浏览次数： 2497 作者：数据猿

2024年5月30日，腾讯发布了腾讯元宝APP。本质上来说，元宝就是腾讯混元大模型的一个入口，里面各种各样的功能，比如阅读图片、长文本、文生图等等，其背后的技术驱动，都来自于混元大模型。

具体来讲，在AI 搜索方面，腾讯元宝接入了微信搜一搜、搜狗搜索等搜索引擎，并通过AI搜索增强，提升时新类和知识类问题效果，比传统搜索更有效率；同时，内容覆盖微信公众号等腾讯生态内容及互联网权威信源，答案准确性更高；此外，元宝还会提供所引用的参考资料，并给出相关推荐，方便快速溯源及延伸阅读。

在AI总结方面，元宝可上传最多10个PDF、word、txt等多种格式的文档，并能够一次性解析多个微信公众号链接、网址，支持256K的原生窗口上下文，相当于一本《三国演义》，或是英文原版的《哈利波特》全集。

在AI写作方面，元宝不仅支持多轮问答，还能够将对话的内容整理成报告，按照要求进行结构化输出，大大提升信息从获取到处理再到生产的效率。除此之外，腾讯元宝还有很多花哨的玩法。比如图生图、口译翻译等等。

腾讯的优势在于C端

腾讯元宝的内在逻辑是，腾讯通过一系列APP产品，比如微信、QQ，发掘用户的需求。再把这些需求交给混元大模型上，一旦混元能够解决这个需求，那就把这个功能入口加进元宝里。因此，腾讯元宝本质上不少“一个”APP，而是“一群”APP。

目前看来，各厂商大模型没办法在性能上拉开比较明显的差距，价格和实用性就成了新战场。腾讯此前在移动互联网时代的积累，随着混元大模型性能的开发和提升而得到释放，造就了今天的腾讯元宝。

不过，腾讯元宝的入口越多，它就越不像一个APP，而是像一个“OS”。事实上，腾讯也有类似的想法，把腾讯元宝变成一个“超级入口”，通过文字和语音，调用所有的功能。

腾讯想要把AIOS的理念通过腾讯元宝和混元大模型来变成现实。AIOS最早是在2023年12月时提出的，这是一个基于大语言模型的操作系统。在指令理解、信息处理、决策判断等方面都能实现自主状态，无需人为干预即可独立执行任务。

然而AIOS的缺点是很明显的，首先，AIOS通常需要大量计算资源来运行，对硬件要求较高，影响设备的能源效率和成本效益。如果元宝变成了OS，它将应用在手机上，那么其计算资源消耗的程度是很夸张的。

其次，与传统编程语言相比，自然语言指令的非结构化和模糊性可能使代理应用程序的代码扫描、调试和维护变得更加困难。同时，AIOS是允许使用自然语言作为编程接口的，这可能导致安全性和隐私保护的复杂性增加。自然语言的开放性和模糊性可能被恶意利用，使得系统的安全性成为一个重大挑战。

最后，由于AIOS基于大语言模型，那么它的系统维护就会相对复杂，尤其是在处理多代理交互、动态任务生成与执行方面。

AIOS是腾讯元宝的老前辈了。可是要把“APP”变成一个“OS”，需要克服的问题远不止于此。以往，腾讯获得验证的方式都来自于APP，现在，他们需要一个来自于OS的验证方式。最好是自带标注的训练数据，不过这收集起来有些繁琐，成本非常高。

大模型比的还是微调

在Hugging Face上优秀的大模型数不胜数，比如Llama 3、Zypher等等。但是真正使用起来就会发现，这些顶尖大模型不仅没办法生成有用的信息，也时常答非所问。这是由于大模型从开发到使用之间，需要对其进行“微调”，才能确保生成的内容能够为用户所用。

微调的核心思想是利用预训练模型的已有知识来加速和优化新任务的学习过程。具体体现在，当用户说出特定关键词时，模型会回答预先训练好的结果。比如问元宝APP，“你是用什么模型训练的”，腾讯元宝并不会如实回答，毕竟训练和推理的过程对于腾讯这样的开发者来说，无疑是宝贵的财富，目前还没有到完全开源的地步。

大模型的实战能力，某种程度上来说，也等于是开发团队对其微调的具象化表现。因为大模型跟通信技术不一样，没有像是3GPP这样的组织，进而不存在某一个数据集是大家公认的，只有部分认可的数据集。哪怕是最近因为OpenAI而热度很高的LMSYS，也不是所有从业者都认可它的验证标准。

但是用户的眼睛是雪亮的，哪家大模型微调的出色，一眼便知。其中道理很简单，用户的评判标准在于大模型的回答是否解决了其问题所在。

腾讯元宝的下一步将会是继续微调。因为腾讯元宝成为了新的入口，其所能得到的需求可能和以往入口是完全不相同的。

针对新的任务需求，就需要对预训练模型的结构进行调整。这通常涉及到保留模型的大部分层不变，尤其是那些学习到通用特征的底层，同时根据新任务的输出类型添加或修改输出层。例如，如果原始模型用于1000类分类，而新任务只有10类，就需要替换或调整最后的全连接层以匹配新类别的数量。

而在微调过程中，还需要持续监控模型的性能，如准确率、损失函数等指标，以确保模型没有过拟合，并且在验证集上的表现有所提升。这对于腾讯来说其实是有些头疼的，这是因为腾讯C端入口的数据量比较庞大。腾讯元宝所产生的非结构化数据，会随着数据量的增加而变得愈发复杂、难以理解。相应的，其监控难度也随之升高。

元宝APP的组合与定位

腾讯创始人马化腾对腾讯元宝是非常认可的，原因在于混元大模型的潜力没有被完全释放。在腾讯元宝的发布会上，腾讯云副总裁、腾讯混元大模型负责人刘煜宏提到一件事情，对于全国12亿网民来说，大模型相关的AI应用，渗透率还不足1%。

当然，产品技术力不足是一方面。但是最主要的是原因，那就是大模型这个技术在落地的方式上，还是有待开发者们思考。而这种来自于模式上的创新，才是真正释放大模型99%潜力的关键所在。

腾讯元宝给出了他们的答卷，虽然不能称作是完美，不过仍然给人耳目一新的感觉。腾讯元宝是有别于传统APP的，毕竟摆脱了传统“点击”、“滑动”这样的操作模式，转而成为了“发号施令”、“言出法随”式操作。对于这种全新理念的产品，就需要花费一定时间来“培训”用户，包括如何让用户习惯大模型的思维模式、如何让用户养成粘性等等。

就像扫码支付一样，用户不再愿意随身携带现金，而是会想尽办法保证手机电量充足，这就是微信钱包培养用户的结果。如果腾讯元宝在腾讯的地位和微信类似，那么腾讯很可能会开始想办法来带领用户走进大模型时代，进而释放来自AI大模型那99%的潜力。