我要投稿

LARA: 针对多轮对话-检索增强设计的大语言模型

发布日期：2024-04-07 18:42:27 浏览次数： 3476 作者：大语言模型论文跟踪

LARA: 针对多轮对话-检索增强设计的大语言模型

发布时间：2024年03月25日

LLM应用 聊天机器人 多语言对话系统 In-Context Learning 多轮文本分类

null

摘要

鉴于LLMs的重大突破，研究者已尝试将其应用于文本分类任务的上下文学习，但以往研究主要集中在单语种、单一回合的任务上。本文推出了创新性的LARA（语言适应性检索增强型语言模型），专为提升跨六种语言的多回合对话分类任务精准度而设计，尤其适用于处理聊天机器人交互中多样复杂的意图识别难题。LARA通过巧妙地融合经精细调整的小型模型与内置于LLMs结构中的检索增强机制，得以灵活运用历史对话和相关意图信息，从而深化对上下文情境的理解。并且，我们的自适应检索策略进一步强化了LLMs的跨语言功能，无需繁重的再训练或微调过程。实验证明，LARA在多回合意图分类任务上表现出色，相较于现有方法平均提升了3.67%的准确率，实现了该领域的最新技术水平。

架构

LARA（Linguistic-Adaptive Retrieval-Augmented Language Models）是一种新型的语言模型，专为提高多轮对话中意图分类任务的准确性而设计。

这项研究针对现有的大型语言模型（LLMs）在多轮分类任务中的局限性，特别是在涉及多种语言和聊天机器人交互中的多种意图时。

多轮意图识别由于对话上下文的复杂性和不断演变的特性变得非常有难度。

LARA通过结合一个经过微调的小模型和一个检索增强机制来解决这些问题，这些机制集成在LLMs的架构中。

LARA可以动态地利用过去的对话和相关的意图，从而改善对上下文的理解。

LARA的自适应检索技术增强了LLMs的跨语言能力，而无需进行广泛的重新训练和微调。

null

上图展示了多轮对话与单轮对话的差异所在，比如用户提出 waiting for long time，如果是单轮对话，很可能会被识别为等客服等很久后的抱怨，但是结合上下文的多轮对话里，可能会被识别为是描述快递等了很久。

null

上图展示了整篇文章的核心："The pipeline of Linguistic-Adaptive Retrieval-Augmentation"，即语言适应性检索增强的流程图。

这个流程图展示了LARA框架如何运作以处理多轮对话中的意图识别任务。

1. 候选意图选择（Candidate Intent Selection）:

• 流程开始于使用单轮意图分类模型来处理用户的对话历史和最后一个查询。
• 模型通过计算[CLS]标记的嵌入向量来为每个可能的意图生成概率。
• 选择概率最高的意图作为候选意图，这些意图将用于下一步的检索过程。

2. 检索增强（Retrieval Augmentation）:

• 对于每个候选意图，系统通过检索与多轮测试样本在语义上相似的单轮示例来构建上下文示例。
• 这些示例将作为大型语言模型（LLM）的输入，提供决策依据，并指定自然语言转换为标签的输出格式。

3. 指令提示构建和LLM推理（Prompt Construction and LLM Inference）:

• 将检索到的示例与测试用户的查询结合，形成LLM的输入提示。
• 这个输入提示包括任务指令、示例、对话上下文和用户的查询。
• LLM根据这个输入提示进行推理，生成预测的意图。
• 为了满足实时应用的延迟要求，可能会采用特定的方法来限制模型生成单个代表意图的标记。

整个流程的目标是利用有限的单轮训练数据来优化多轮对话分类任务，无需依赖大规模的多轮标注数据集。通过这种方法，LARA能够在多轮对话中动态适应上下文，同时减少对大规模标注数据的依赖，从而在复杂的多轮对话中实现更有效的意图识别。

Arxiv^[1]

引用链接

[1] Arxiv: https://arxiv.org/abs/2403.16504

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

爆肝50小时，DeepSeek使用技巧，你收藏这一篇就够了！

2025-02-01

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

更改ollama模型存储路径

2024-04-25

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

大家都在问

RAG比之MCP或长上下文LLM，要没落了吗？

2025-04-26

从 MCP 到项目管理，为什么“开放”成了新风向？

2025-04-25

国内首个云电脑 MCP！人人都能搞个 Manus？

2025-04-25

为什么一定要做Agent智能体？

2025-04-25

HR AI小科普——什么是MCP？

2025-04-25

除了MCP我们还有什么？

2025-04-24

LLM 推理引擎之争：Ollama or vLLM ?

2025-04-24

专题策划（下）| 如何实现大模型与行业的深度耦合？

2025-04-23

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部