我要投稿

平安科技发表大模型智能客服框架PCA，助力企业级对话系统建设

发布日期：2024-07-11 12:55:20 浏览次数： 2589

作者：灵度智能

微信搜一搜，关注“灵度智能”

“Planning with Large Language Models for Conversational Agents”

智能客服已经经过多年的发展，目前的方案主要还是基于传统深度学习技术加构建知识库的方式建设。近年来大模型快速发展，但是由于大模型的幻觉和输出不可控等问题，目前仍未在企业大量投产。

近日平安科技提出了基于大型语言模型的计划型对话代理框架PCA，基于先进的大型语言模型的上下文学习，具有低成本和高可控性，有望成为下一代企业级对话系统。

论文地址：https://arxiv.org/abs/2407.03884

摘要

本文提出了一种基于大型语言模型的计划型对话代理框架（PCA），该框架具有可控性和主动性，并且需要较少的人工注释。在对话之前，LLM离线计划对话的核心和必要SOP。在对话期间，LLM在线计划最佳行动路径，并生成响应以实现过程可控性和主动性。

同时，作者提出了一个半自动对话数据创建框架，并创建了一个高质量的对话数据集（PCA-D）。实验结果表明，PCA-M在对话可控性、主动性、任务成功率和总体逻辑连贯性方面优于其他基线，并适用于工业对话场景。

简介

目前对话系统的四种主流方法：对话问答、开放域对话、任务导向对话和对话推荐系统，每种方法都有它们的局限性。本文提出了一种新的对话框架——基于规划的对话代理（PCA），它可以实现对话的主动性、可控性和减少对人工干预的依赖。PCA利用大型语言模型（LLMs）进行规划，通过离线构建标准操作流程（SOP）来实现在线对话的控制。此外，还提出了一个四个步骤的LLM角色扮演系统来帮助构建对话数据集。未来需要解决的问题包括如何构建既具有主动性又具有可控性的对话数据集、如何实现PCA以及如何准确评估不同方案的效果。

本文提出了基于LLMs的主动性和可控性对话代理，通过离线规划和在线规划实现对话任务的SOP预测。同时，提出了半自动对话数据集策划框架和高质量的中文对话数据集PCA-D。通过ICL、SFT、CoT和MCTS的改进，实现了对SOP的离线规划和对话预测的在线规划，并在单轮对话和综合对话维度上进行了评估。本文从任务定义、数据创建和建模三个方面推进了这一问题的研究，提出了多个变体和评估指标，展示了优越的性能。

任务定义

给定一个对话语料库{T,C,D}。在第i个对话中，T{P，A，S}表示任务定义，其中包括任务和用户概况，P定义了任务目标、相关知识和用户个人概况，代理A包含SOP中的节点和SOP之外的主动动作;用户状态S反映用户在完成任务时的状态。C是一个以agent动作和用户状态为节点的有向图。每个对话回合t包括用户话语回合t和对应的代理响应回合t。此外，我们注释了由用户话语和相应的代理动作引起的更新的用户状态。

PCA包括两个任务。

任务1是SOP预测

给定对话的任务定义t1，模型需要通过将任意两个节点的方向分为四类来预测智能体动作ai与用户状态si之间的约束关系ci。

任务2是对话生成

给出第i个对话的任务定义T，约束关系C，前(T−1)个回合的历史H和词汇表W，模型首先预测(t−1)回合的用户状态，然后选择下一回合的agent动作，该动作不仅有助于实现目标，而且遵循任务约束，并生成相应的响应。

数据集构建

数据集生成

利用语言模型（LLMs）在角色扮演场景中生成高质量对话数据，包括四个步骤：定义任务、规划任务SOP、创建对话场景和生成实际对话。其中，LLMs被用作角色扮演的代理人，生成对话数据，人工干预进行修订。该方法能够高效地获得低成本的高质量数据，并增强对话的多样性和真实性。

数据质量控制

为了确保PCAD的质量和一致性，招募了7名优秀的注释员。在注释之前，制定了培训手册，组织注释培训，并进行了预注释。在注释过程中，以20%的速率对数据进行批量采样，并由三名注释员进行交叉注释。任何交叉注释一致率低于95%的实例都将被删除。

数据统计

PCA-D是一个专门用于可控和主动对话的数据集，涵盖了45个领域和53个专业任务，具有更高的多样性和灵活性。PCA-D的场景和对话质量高，平均得分为0.98。与以往的数据集相比，PCA-D利用LLMs大大降低了对训练数据的依赖，具有更低的成本和更快的应用推广速度。

方法

本文设计并实施端到端多轮对话的综合框架。实现SOP预测和对话生成两个算法任务。

PCA框架

PCA框架包括一个CA控制器和五个计划组件。在对话前，CA读取用户配置的任务信息并将SOP顶点传递给离线规划器以获取SOP图的邻接表。在对话期间，CA首先调用工作记忆模块来组装对话所需的提示。然后，CA将提示输入在线规划模块以获取对话响应。每个模块使用的LLMs都在LLMs模块中统一管理和访问。

SOP预测

本文介绍了三种有效的基线模型：邻接表（AL）、翻译CoT（TCoT）和SFT。其中，AL直接输出JSON格式的邻接表；TCoT先让LLMs用自然语言描述每个顶点及其子顶点，然后将其翻译成JSON格式的邻接表；SFT则通过生成一个顶点的邻接顶点来实现。

对话预测

PCA-M是一种基于MCTS和SOP的对话路径在线规划方法PCA-M，旨在优化对话树的探索和模拟，以高效地找到满足约束条件的高回报对话路径。同时，使用CoT和ToT作为基线，这两种方法可以显著提高LLM的复杂推理能力。在添加SOP时，计算生成的对话路径与SOP子路径之间的编辑距离，以指导代理人遵循SOP。

基于SOP的MCTS计划

PCA-M基于蒙特卡罗树搜索进行对话管理算法，该算法通过构建对话树来预测下一步最佳动作。算法包括四个阶段：选择、扩展、模拟和反向传播。选择阶段使用UCT算法平衡探索和利用，扩展阶段使用LLM作为对话动作先验，并利用SOP约束图搜索本地子图。模拟阶段通过模拟未来对话来估计奖励，反向传播阶段使用UCT公式更新整个路径上的UCT值。最终，选择具有最高UCT值的子节点来指导下一轮对话。

实验

自动评估

为了评估模型性能，设计了2种任务：

任务1。使用图编辑距离和对话路径的精度、召回率和F1分数来评估预测的SOP。GPT-4o的推理能力使得SOP的可用性达到了71.85％，而TCoT方法可以有效地提高模型的性能。基于PCA-D的SFT显著提高了模型的对未知任务的性能。

任务2。使用单轮对话、SOP和主动行为的准确性来衡量对话的可控性和主动性。添加SOP指导可以有效地提高对话的可控性和成功率。基于MCTS的树搜索算法比ToT更有效，并且可以进一步提高性能。

人类评估

通过手动评估模型的可控性、知识正确性、主动性、任务完成率和逻辑连贯性等指标，发现SOP指导可以显著提高模型的可控性和主动性，同时提高任务成功率和逻辑连贯性。基于SOP的MCTS算法可以进一步提高模型的性能。此外，通过SFT和PCA-D的组合，可以将模型的对话能力成功推广到实际测试中。与其他模型相比，LLMs很少出现知识错误或幻觉，这为企业应用提供了希望。