微信扫码
与创始人交个朋友
我要投稿
论文题目:LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens论文链接:https://arxiv.org/pdf/2402.13753.pdfGithub:https://github.com/microsoft/LongRoPE
论文介绍了一种名为LongRoPE的方法,它首次将预训练的大型语言模型(LLMs)的上下文窗口扩展到2048k个标记,同时在保持原始短上下文窗口性能的同时,仅需要1k步的微调。这一成就是通过三个关键创新实现的:
LongRoPE无需额外的微调,训练时的上下文窗口大小为 128k 和 256k,有效地扩展到了极长的 2048k 上下文大小
在 Hugging Face Open LLM 基准测试中,长上下文LLMs与原始 LLaMA2 和 Mistral 的比较。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-04-26
2024-05-10
2024-04-12
2024-05-28
2024-04-25
2024-05-14
2024-07-18
2024-04-26
2024-08-13