微信扫码
与创始人交个朋友
我要投稿
某乎上有很多关于long context的回答,多数是kimi的广告软文。没时间写细节,直接给大家分享主要长文本的关键文献吧。不要光看不点赞,点赞才是分享的动力。
这里说的长上下文指的是纯模型输入的情况,基于RAG的方式也能部分解决问题,但是在类似“大海捞针”的实验中一般表现不佳
长文本大模型的关键技术主要是相对位置嵌入、旋转位置嵌入、位置插值、线性偏置等。
1. long context的核心是长文语义和逻辑的一致性,不是KV cache或者Inference速度。就好比博士去写100多页的论文(相对于小学生写几百字的作文)前后是要逻辑自洽的,时间不是最大的影响因素。
下面通过几篇文献来了解长文本的关键技术。(附论文地址)
https://arxiv.org/abs/2104.0986
旋转位置嵌入(RoPE)示意图
https://arxiv.org/abs/2402.1375
LongRoPE示意图
https://arxiv.org/abs/2212.1055
Blockwise注意力示意图
https://arxiv.org/abs/2309.00071
https://arxiv.org/abs/2306.15595
https://arxiv.org/abs/2309.1040
Skip-wise方法示意图
以上就是本次分享的全部,长文本的处理是自然语言处理领域的一个重要挑战,主要因为需要处理的信息量大和保持上下文的连贯性。上述提到的关键技术都是在尝试以不同的方式解决长文本处理中遇到的挑战。从旋转位置嵌入的灵活性和序列长度适应能力,到位置插值在上下文窗口扩展中的应用,再到线性偏置方法的创新应用,这些技术的发展都显示了长文本模型在处理大规模数据时的潜力和效率。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-08-18
当产品经理谈到用LLM Agent构建新一代智能体的时候,他们在说什么?
2024-08-15
对话AI教育从业者们:AI如何解决因材施教的难题?
2024-08-03
工业应用中的向量数据库与知识向量化存储方案
2024-07-25
两大深度学习框架TensorFlow与PyTorch对比
2024-07-17
让生成式 AI 触手可及:NVIDIA NIM on VKE 部署实践
2024-07-16
中文大模型基准测评2024上半年报告
2024-07-16
一文看懂人工智能的起源、发展、三次浪潮与未来趋势
2024-07-14
"自拍" 秒变 "证件照" 看Coze如何实现
2024-05-14
2024-04-26
2024-05-22
2024-04-12
2024-07-18
2024-03-30
2024-05-10
2024-08-13
2024-04-25
2024-04-26