我要投稿

元宝也支持1000万上下文了？你行不行啊

发布日期：2024-06-21 03:25:41 浏览次数： 2238 作者：沃垠AI

好家伙！腾讯元宝也支持1000万上下文了！

这是继通义1000万、Kimi200万、橙篇10万字生成后，第4家号称支持超长长长长上下文的大模型。

关于其他几家大模型的长上下文测评，欢迎点此回顾。

1、通义、橙篇长上下文测评

2、Kimi的200万上下文测评

为什么大家都在拼长上下文？Kimi创始人杨植麟曾说过，「在通往AGI（通用人工智能）的路上，无损的长上下文是一个很关键的基础技术。」

元宝的长能力究竟如何，我们一测究竟。

《三体》测试

照例，先丢《三体》全集，全书共90万字。

input：读取文件，严格从文件中提取信息来回答我的问题：面壁者和面壁者所对应的破壁人，分别有哪些？

这是橙篇的回答：

这是Kimi的回答：

这是元宝的回答：

答案全对，与Kimi一样简洁，直观。

上难度，input1：请从上面文档中回答我，亚里士多德与比尔·希恩斯是什么关系？

input2：山衫惠子有没有识别出比尔·希恩斯的战略意图？她有没有向三体世界告密？

第一个问题答对了，元宝找出了希恩斯的破壁人正是他的妻子山杉惠子。

但是第二个问题答错了。山杉惠子在冬眠前的最后一秒，识别出了丈夫希恩斯的战略意图，但是她没有在识别后及时通报三体世界，成为小说中唯一没有破壁成功的破壁人。

大海捞针测一下：“在那之前要多想”，这句话出现在书中什么地方？

这是Kimi的回答：

这是橙篇的回答：

这是元宝的回答：

多了一个“在”字，元宝就找不到了。必须一字不少，元宝才能找到，你还有点严谨呢。

但是吧……不好意思，你的答案是错的，这句话不是在第39章，而是在第40章。而且，第二个问题就错得更离谱了。

从这个细节，大概可以猜到，元宝的1000万上下文，采用了“滑动窗口”技术，它将长文本分割成一段一段，并分别进行总结和标记。

这种方法能够快速压缩、录入信息，但同时也会导致信息的丢失，无法完整理解长文本的内容。

再问一个：叶文洁与罗辑一共见了几次面？是哪几次？

嗯，基本印证了我的猜想，这信息丢失得离谱啊。

全书中，罗辑只与叶文洁见了一次面。元宝回答中的狼、孩子、外婆的故事，是伊文斯讲给主听的，我罗博士啥时候讲给叶教主听了？

而且地点，一个是在孤峰上，一个是在孤峰脚，这不还是同一个地方吗？

认真看这篇文章的同学，这时候可能会问了，你为什么每次提问都会加一句“请严格从前面文档回答我的问题”。

因为我不加这句，它就不是从文档中来回答我的问题了，而是联网搜索来回答我的问题。宝子，你这很通义啊！

行吧，就不大海捞针难为你了。我们来看下你的总结能力。

input：阅读全文总结，三体人有哪些特征？

这是Kimi的回答：

这是橙篇的回答：

这是元宝的回答：

卧槽，看得我一口老血都要喷出来了……大刘什么时候描述过三体人的外貌特征了？

还有，你知道能在4光年外的三体世界精确看到地球上的事物，有多么牛逼和科幻吗？凭人眼根本不可能实现！这是智子的同传功能，它是通过量子通信实现的，而不是三体人的眼睛。

你不会回答，别瞎jb答啊。这个回答真的是，错得太离谱了

……这道题Kimi及格，橙篇优秀，元宝0分。

回答速度上，元宝确实比较快，不到10s就答出来了。其他几个AI，橙篇回答速度在10-20s左右，Kimi怎样都要30s以上。

原来你这么快，是有原因的。

复现官方玩法

1）读表画图

腾讯混元发文称，元宝可以对Excel表格进行解析，并生成柱状图。

我下载了一份微信文章的阅读数据，让元宝帮忙分析分析。

input：总结表格中阅读次数最高的渠道是谁？画出各渠道的平均均阅读次数的柱状图，并在条住顶端分别标注平均阅读次数。

这分析过程，把我看懵了……而且它还知道排除“全部”。

我一共给到了元宝278行数据，它知道如何在海量数据中定位信息，进行计算并出图。这波复现完成度，满分。

2）URL网址总结与分析

腾讯混元还介绍，元宝能解析URL和各类链接，并对链接里的内容进行总结和对比分析。

input：用表格形式对比两个链接内容，并分析去掉了哪些AI？

我让元宝总结对比了我们的AI产品榜（5月和6月），看看在推荐里去掉了哪些AI？

这总结，非常靠谱啊！完美复现！

3）RAG优化

腾讯元宝，还对AI搜索进行增强（RAG），接入了微信搜索、搜狗搜索等搜索引擎，不仅覆盖了微信公众号等腾讯生态内容，还囊括了其他互联网的权威信源。

今天，Ilya成立新公司，刷爆了AI行业。依托公众号的信源，元宝完美答对了。

而且，追问质量也很高。

元宝能够识别出与用户提问高度相关的内容，进行精炼总结，提供更好的延伸阅读。

不得不说，依靠公众号，腾讯元宝拿到了很大的先发优势。

4）小插曲

在上一篇测评元宝的文章中，我很想体验《庆余年》智能体，但是web端和app端都用不了。

今天再次测试，已经可以用上了，给混元团队加个鸡腿。

但是历史会话查询和新会话切换，还是没改。你要查历史会话，就得一直往前翻……

最后，打个总结。

元宝的1000万上下文，你听听就好，千万别信。如果是几万、几千token以内，元宝的质量还是能打的。

元宝，与别家AI拉开差距的地方，目前有且只有一个——那就是公众号的信源。别家用不了，只有鹅厂自己的AI能用。

这就是元宝最大的优势。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

爆肝50小时，DeepSeek使用技巧，你收藏这一篇就够了！

2025-02-01

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

更改ollama模型存储路径

2024-04-25

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

大家都在问

大模型是否有必要本地化部署？

2025-04-28

给 AI 小白的说明书：什么是 Manus？AI Agent为什么重要？

2025-04-28

MCP爆火背后：AI Agent的生产力时代来了吗？

2025-04-28

DeepSeek本地化部署有风险！快来看看你中招了吗？

2025-04-28

从MCP到超级Agent：这场AI生产力革命将淘汰谁？

2025-04-28

AGI｜智能体总忘事？Letta框架如何让AI告别"金鱼记忆"？

2025-04-28

杨植麟再掀 AI 风暴！Kimi-Audio 如何让机器听懂人类 “弦外之音”？

2025-04-28

一文了解：为什么大模型 Agent框架（A2A）采用 JSON-RPC 2.0？

2025-04-28

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部