我要投稿

北大Chatlaw - 基于知识图谱增强混合专家模型的多智能体法律助手

发布日期：2024-12-19 19:29:20 浏览次数： 3268

作者：知识图谱科技

微信搜一搜，关注“知识图谱科技”

[2306.16092] Chatlaw: A Multi-Agent Collaborative Legal Assistant with Knowledge Graph Enhanced Mixture-of-Experts Large Language Model

Chatlaw 是一个多智能体法律助手，利用专家混合模型（MoE）和知识图谱，在法律基准测试中超越 GPT-4，并在法律咨询中表现出更高的准确性和减少幻觉现象。

https://arxiv.org/abs/2306.16092

核心速览

研究背景

研究问题：这篇文章要解决的问题是如何利用多智能体协作和知识图谱增强的混合专家（MoE）大型语言模型（LLM）来提高法律服务的可靠性和准确性，以解决现有法律辅助服务中存在的信息幻觉问题。
研究难点：该问题的研究难点包括：LLM固有的信息幻觉问题，即生成不存在的法律条款或引入过时且错误的法律案例；模型在不同任务上的鲁棒性；以及与用户互动时可能遇到的隐私和记录保持问题。
相关工作：近年来，LLMs在多个科学领域验证了其有效性，包括自然语言处理、生物化学和医疗领域。流行的法律辅助模型如ChatGPT和LLaMA系列也提供了基于内部法律知识库的建议。然而，这些模型的幻觉问题在法律领域的应用中带来了潜在风险。

研究方法

这篇论文提出了Chatlaw，一种基于MoE模型和多智能体系统的创新法律助手。具体来说，

数据集构建：首先，通过多次筛选创建高质量的法律数据集，并将相似的建议知识整合到知识图谱中，以确保数据的准确性和相关性。数据集涵盖10个主要类别和44个次要类别，总计约400万条数据样本。
MoE模型：其次，从单一专家模型扩展到MoE模型，增加参数空间以允许不同专家处理特定咨询任务，从而提高法律咨询的准确性。MoE模型通过动态选择最适合处理输入特征的专家来实现专业化。每个输入令牌由一个路由网络负责选择前k个专家，输出是这些专家输出的加权和。
多智能体协作框架：此外，模拟真实律师事务所的工作流程，开发了一套标准操作程序（SOP），包括四个独立的智能代理角色：法律咨询助理、法律研究员、法律合规和法律编辑。每个角色都有明确的职责和相应的知识模板和技能。

实验设计

数据收集：从多个来源收集数据，并使用自动化工具进行去重和去噪，得到标准化的法律问答数据集。然后，涉及法律学生对相关案例进行分类，领域专家精确定义问题关系和节点连接，形成高度针对性的知识图谱和智能代理任务数据集。
模型训练：基于MoE Transformer架构构建模型，包含多个堆叠的多尺度注意力（MSA）模块、MoE机制和层归一化（LN）结构，最后接线性分类头CLS。训练阶段使用自回归损失函数，计算预测和相应标签在每个位置上的交叉熵损失。
多智能体协作：定义了四个角色及其职责，并在推理过程中使用一个角色的输出作为另一个角色的附加输入。确保代理输出符合标准模板，如果不符合则重新生成。

结果与分析

LawBench基准测试：在LawBench基准测试中，Chatlaw-MoE模型的平均得分为60.08，显著高于GPT-4的52.35。在记忆、理解和应用三个认知水平上，Chatlaw-MoE分别领先GPT-4 7.73分、11分和6.57分。
法律专业人士统一资格考试：在2018年至2022年的法律专业人士统一资格考试中，Chatlaw-MoE模型的平均得分为115分，显著高于GPT-4的104分。在五年间，Chatlaw-MoE的得分分别为113分、124分、143分、115分和78分。
实际法律咨询性能：在实际司法咨询评估中，Chatlaw在完整性、正确性、指导性和权威性方面表现出色，整体得分最高。与其他模型相比，Chatlaw在案例分析和法律咨询任务中具有更高的胜率。

总体结论

这篇论文通过构建高质量的法律法规数据集、设计和训练MoE模型以及实现多智能体协作框架，提出了一种创新的AI法律助手Chatlaw。评估结果表明，Chatlaw在法律认知任务和实际法律咨询中均优于现有的强大LLMs，特别是在减少信息幻觉和提高法律咨询质量方面表现突出。未来的工作将致力于加强隐私保护、优化模型压缩技术，以使Chatlaw能够在个人设备上顺利运行，从而普及这一框架并为更多用户提供及时的法律援助。

论文评价

优点与创新

高质量法律数据集：通过多重筛选和知识图谱的集成，构建了一个高质量的法律数据集，确保了数据的准确性和相关性。
MoE模型：采用混合专家（MoE）模型，利用多个独立的神经网络专家处理不同的法律咨询任务，显著提高了模型的准确性和鲁棒性。
多代理协作框架：模拟真实律师事务所的工作流程，开发了标准操作程序（SOP），包括信息收集、材料研究、法律咨询和最终咨询报告撰写等四个独立智能代理角色，确保了每个信息处理步骤的高效性和准确性。
性能优越：在Lawbench和法律专业人士统一资格考试中，Chatlaw-MoE模型在准确性和得分上均优于现有的大型语言模型，如GPT-4。
实际案例评估：在实际案例咨询中，Chatlaw在完整性、正确性、指导性和权威性四个维度上获得了法律专家的最高评分，展示了其在法律咨询中的强大能力。

不足与反思

幻觉问题：AI法律助手存在生成不存在于现实世界中的信息的风险，这在法律领域可能导致误导或错误的建议。通过引入专门的法律研究员角色来纠正错误信息，缓解这一问题。
模型鲁棒性：在与背景各异的用户互动时，用户的输入可能超出预设的输入边界，有些用户可能会试图通过欺骗、隐瞒或诱导引导模型给出错误的答案。通过法律助手代理引导用户提供所有与咨询内容相关的信息，解决这一问题。
隐私和记录保存：在线试用阶段发现了一些隐私和记录保存的问题，如用户咨询的内容可能包含敏感个人信息，用户希望保留对话记录以便随时获得AI助手的法律支持。计划加强服务的隐私保护架构，确保通信和数据存储的安全性。
计算资源需求：大量用户同时发起请求会对计算资源造成极大压力，可能导致响应延迟并影响用户体验。计划探索各种模型压缩技术，如知识蒸馏和量化，以减少计算需求，开发可以在个人设备上流畅运行的小型模型，解决隐私和计算资源问题，提升用户体验。

关键问题及回答

问题1：Chatlaw在构建高质量法律数据集方面采取了哪些具体措施？

多源数据收集：从多个来源收集法律数据，包括公开的法律法规、判例、法律咨询记录等。
自动化工具处理：使用自动化工具对收集到的数据进行去重和去噪，以获得标准化的法律问答数据集。
法律学生和专家参与：涉及法律学生对案例进行分类，领域专家精确定义问题关系和节点连接，形成高度针对性的知识图谱和智能代理任务数据集。
任务特定知识图谱：构建任务特定的知识图谱，有效分析用户输入中的缺失信息，并提示用户提供完整信息。

这些措施确保了数据集的全面性和准确性，使其能够覆盖各种法律领域和任务，从而提高了模型的咨询能力。

问题2：Chatlaw的MoE模型如何通过动态选择专家来提高法律咨询的准确性？

Chatlaw的MoE模型通过以下机制实现动态选择专家，以提高法律咨询的准确性：

路由网络：每个输入令牌由一个路由网络负责选择前k个最适合处理该输入特征的专家。
加权输出：这些专家输出的加权和作为MoE层的最终输出。具体来说，MoE层包含多个独立的神经网络专家，每个输入令牌被传递给这些专家进行处理，路由网络根据输入特征的差异动态选择最合适的专家。
专业化分工：每个专家专注于处理特定类型的任务，例如某些专家可能专注于案例法分析，而其他专家可能专注于法律条文解释。这种专业化分工显著提高了模型在各个任务上的处理效率和准确性。

通过这种动态选择机制，Chatlaw模型能够在每个令牌级别实现专业化，从而在面对复杂法律问题时提供更准确和高效的咨询服务。

问题3：Chatlaw的多智能体协作框架是如何设计的，各角色的职责是什么？

Chatlaw的多智能体协作框架设计了四个角色，每个角色都有明确的职责：