微信扫码
与创始人交个朋友
我要投稿
通义千问已将其在9月推出的Qwen2.5语言模型的上下文长度从128,000扩展到100万个token。这使得Qwen2.5-Turbo能够处理10本完整的小说、150小时的转录文本或30,000行代码。
数字检索100%准确率
在密钥检索任务中,该模型需要在100万个token的无关文本中找出隐藏的数字,无论信息在文档中的位置如何,都能达到100%的准确率。这似乎部分克服了"中间丢失"现象——即语言模型主要考虑提示的开头和结尾。
如下图所示,热力图显示Qwen2.5-Turbo在各种上下文长度和文档深度的密钥检索中都达到了令人印象深刻的100%准确率。这种稳定的表现凸显了该模型在信息提取方面的可靠性。
在各种长文本理解基准测试中,Qwen2.5-Turbo的表现超过了GPT-4和GLM4-9B-1M等竞争模型。同时,它在处理短序列时的性能与GPT-4o-mini相当。
下面是一段屏幕录像,通义千问展示了其新语言模型快速总结刘慈欣《三体》三部曲全集的能力,总长度为690,000个token。
稀疏注意力机制使推理速度提升4.3倍
通过使用稀疏注意力机制,通义千问将处理100万个token时的首个token生成时间从4.9分钟缩短到68秒。这代表了4.3倍的速度提升。
如下图所示,与其他模型相比,Qwen2.5-Turbo以其更大的100万token上下文、更快的推理速度和更好的成本效益而脱颖而出。这些改进实现了更高效和更具成本效益的AI使用。
目前价格仍维持在每100万token 0.3元人民币(4美分)。以相同的成本,Qwen2.5-Turbo可以处理比GPT-4o-mini多3.6倍的token。
Qwen2.5-Turbo现已通过阿里云模型工作室的API以及HuggingFace和ModelScope上的演示提供使用。
通义千问承认长序列处理仍有改进空间
该公司承认,当前模型在实际应用中解决长序列任务时的表现并不总是令人满意。
仍然存在许多未解决的挑战,如模型在处理长序列时表现不够稳定,以及高推理成本使得使用更大模型变得困难。
通义千问计划进一步探索长序列的人类偏好对齐,优化推理效率以减少计算时间,并致力于将具有长上下文的更大、更强大的模型推向市场。
大型上下文窗口有什么用?
大型语言模型的上下文窗口在最近几个月稳步增长。目前的实用标准在128,000(GPT-4o)到200,000(Claude 3.5 Sonnet)个token之间,不过也有一些异常值,如Gemini 1.5 Pro高达1000万或Magic AI的LTM-2-mini达到1亿个token。
虽然这些进步总体上提高了大型语言模型的实用性,但研究反复质疑大型上下文窗口相比RAG系统的优势,后者可以从向量数据库中动态检索额外信息。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-05-28
2024-08-13
2024-04-26
2024-08-21
2024-06-13
2024-08-04
2024-07-09
2024-09-23
2024-04-11
2024-07-18