我要投稿

惊人突破：阿里AI实现100万token处理能力，检索准确率100%

发布日期：2024-11-29 16:07:33 浏览次数： 2191

作者：AI每日资讯

微信搜一搜，关注“AI每日资讯”

阿里巴巴AI实验室推出了其通义千问语言模型的新版本,可处理高达100万个token的文本——相当于约10本小说的内容。团队还成功将处理速度提高了4倍。

通义千问已将其在9月推出的Qwen2.5语言模型的上下文长度从128,000扩展到100万个token。这使得Qwen2.5-Turbo能够处理10本完整的小说、150小时的转录文本或30,000行代码。

数字检索100%准确率

在密钥检索任务中,该模型需要在100万个token的无关文本中找出隐藏的数字,无论信息在文档中的位置如何,都能达到100%的准确率。这似乎部分克服了"中间丢失"现象——即语言模型主要考虑提示的开头和结尾。

如下图所示，热力图显示Qwen2.5-Turbo在各种上下文长度和文档深度的密钥检索中都达到了令人印象深刻的100%准确率。这种稳定的表现凸显了该模型在信息提取方面的可靠性。

在各种长文本理解基准测试中,Qwen2.5-Turbo的表现超过了GPT-4和GLM4-9B-1M等竞争模型。同时,它在处理短序列时的性能与GPT-4o-mini相当。

下面是一段屏幕录像,通义千问展示了其新语言模型快速总结刘慈欣《三体》三部曲全集的能力,总长度为690,000个token。

稀疏注意力机制使推理速度提升4.3倍

通过使用稀疏注意力机制,通义千问将处理100万个token时的首个token生成时间从4.9分钟缩短到68秒。这代表了4.3倍的速度提升。

如下图所示，与其他模型相比,Qwen2.5-Turbo以其更大的100万token上下文、更快的推理速度和更好的成本效益而脱颖而出。这些改进实现了更高效和更具成本效益的AI使用。

目前价格仍维持在每100万token 0.3元人民币(4美分)。以相同的成本,Qwen2.5-Turbo可以处理比GPT-4o-mini多3.6倍的token。

Qwen2.5-Turbo现已通过阿里云模型工作室的API以及HuggingFace和ModelScope上的演示提供使用。

通义千问承认长序列处理仍有改进空间

该公司承认,当前模型在实际应用中解决长序列任务时的表现并不总是令人满意。

仍然存在许多未解决的挑战,如模型在处理长序列时表现不够稳定,以及高推理成本使得使用更大模型变得困难。

通义千问计划进一步探索长序列的人类偏好对齐,优化推理效率以减少计算时间,并致力于将具有长上下文的更大、更强大的模型推向市场。

大型上下文窗口有什么用？

大型语言模型的上下文窗口在最近几个月稳步增长。目前的实用标准在128,000(GPT-4o)到200,000(Claude 3.5 Sonnet)个token之间,不过也有一些异常值,如Gemini 1.5 Pro高达1000万或Magic AI的LTM-2-mini达到1亿个token。

虽然这些进步总体上提高了大型语言模型的实用性,但研究反复质疑大型上下文窗口相比RAG系统的优势,后者可以从向量数据库中动态检索额外信息。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-07-05

Ollama新版功能：AI思维链控制

2025-07-05

炸裂！AI“读心术”被破解，我们终于能亲眼看见它的思考过程了！

2025-07-05

智谱新出的模型，做PPT太会整活了

2025-07-05

微软裁员9000人！给员工整不会了：用不用AI都要被裁？

2025-07-04

Karpathy：我不是要造新词，是「上下文工程」对 Agent 来说太重要了

2025-07-04

AI Agent的核心：Context Engineering（上下文工程）

2025-07-04

AI Agent与AI Workflow：“对决”与“共生”，未来属于“混血儿”！

2025-07-04

破局AI内卷：揭秘驱动10倍效能的AI工作流三大核心技术支柱

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

DeepSeek R1-0528 小版本升级

2025-05-29

教你解决GPT4o无法使用新版生图功能的教程

2025-04-11

AI法规-《生成式人工智能服务管理暂行办法》（中国）（2023.7）

2025-04-12

分而治之：全面解析分布式分离 Inference 系统

2025-04-29

微软突发“封杀令”！全面禁止Cursor使用C、C++、C# 扩展，开发者被迫回退版本

2025-04-12

Qwen3发布: 4B干掉旧代 72B / Windsurf又增加新的免费计划

2025-04-29

CAG 与 RAG：哪种方法能带来性能更好的人工智能

2025-05-07

高效 Agents 构建指南

2025-05-23

忽视小模型和知识库，企业AI应用必将是死路一条

2025-05-07

豆包，让有独立显卡的电脑都能部署本地大模型，语料库就是电脑里的文件

2025-04-17

大家都在问

微软裁员9000人！给员工整不会了：用不用AI都要被裁？

2025-07-05

智能体（Agent）是怎么知道什么时候要调用 Tool 的？

2025-07-04

AI狂潮下：大公司如何破解"创新者窘境"？

2025-07-04

Anthropic多智能体如何破解企业级任务并行处理瓶颈？

2025-07-03

AI 商业化，Salesforce 做对了什么？

2025-07-03

AI 编程如何在团队中真正落地？

2025-07-02

AI 如何成为认知导航仪？

2025-07-02

巨头混战Agent，押注背后是真未来还是新泡沫？

2025-07-01

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB