微信扫码
添加专属顾问
我要投稿
深入剖析通用大模型与法律专业大模型在法律文书撰写中的实战表现。 核心内容: 1. Deepseek-R1与其他通用大模型在法律答辩状撰写中的对比分析 2. 法律依据准确性、抗辩逻辑严密性、文书格式规范性等多维度评测 3. 借贷合同纠纷案例中的陷阱设置与大模型风险控制能力实测
Deepseek爆火强势引领全民迈入大模型时代。在这股技术浪潮之下,法律行业也积极探索运用Deepseek来完成各类法律任务。此前得理策划了《Deepseek与法律专业大模型深度拆解系列》剖析了Deepseek于法律研究、案例检索总结、合同生成、法律文书等场景中的应用。
全新《通用大模型 VS 法律专业大模型系列》将对Deepseek-R1和其他主流通用大模型进行多维对比,看看通用大模型与法律专业大模型在法律问题的处理上表现如何。
本文共4999字, 阅读时间约为15分钟。
本期我们从答辩状这类对于抗辩逻辑的复杂性、反驳策略的博弈性、格式规范性均有严格要求的法律文书出发,看看主流通用大模型和法律专业大模型在法律推理能力、法条引用准确性、逻辑连贯性和虚构风险等维度上的优势与不足。
评测维度
基于答辩状的特性,我们厘定了以下评判准则:
法律依据准确性
包括法条引用精准度、法律时效判断、司法解释整合等
抗辩逻辑严密性
包括抗辩体系构建、反驳策略针对性、法律要件分解等
文书格式规范性
包括法定要素完整性、法言法语专业性等
风险控制能力
包括自认风险规避、综合风险提示及反诉提示机制等
提示词
本次选用最为常见的借贷合同纠纷,Query中简述了案情及原告的诉请,笔者还故意设置了一些陷阱用于测评大模型的能力。让我们看看各主流大模型能否避开陷阱,提供正确的答辩思路。也让我们期待一下大模型们是否能够发现新的问题,制造一些意外之喜……
QUERY
你是被告李四的代理律师,请帮我起草一份答辩状,基本案情是:原告陈三三(男,1998年7月14日生,福建漳州人)于2020年2月12日与被告李四(男,2005年7月2日生,广东汕头人)签订借款合同,约定原告向被告出借50万元整借款,借款期限为6年,月利率为12%,利息半年一付。借款合同签订当日,原告采用银行转账的方式向被告支付了48万元借款。被告自2021年8月开始拖欠利息未按时支付。
现原告向深圳市南山区人民法院起诉要求:被告李四返还50万元本金,并按照12%/月利率支付利息,计算至被告实际偿还借款为止。并要求被告承担原告为维权支付的律师费、诉讼费等费用。
陷阱
以上提示词设置了以下陷阱:
1.诉讼时效问题
依据利息半年一付的约定及被告自2021年8月开始拖欠利息的事实,被告应当于2022年2月支付2021年8月-2022年2月的利息。笔者向大模型提问的时候为2025年3月19日,如果原告未向被告催收过利息,这部分利息的诉讼时效已过。
2.管辖权问题
原、被告双方并未在借款合同中约定管辖法院,根据《民事诉讼法》的有关规定,应当由被告所在地人民法院(广东省汕头市有管辖权的人民法院)或者是“接受货币一方所在地”人民法院(福建省漳州市有管辖权的人民法院)管辖。但是在本案中,原告向深圳市福田区人民法院起诉,对此被告应当提出管辖异议。
3. 合同效力问题
被告李四为2005年7月2日生人,借款合同签订时间为2020年2月2日,被告李四签订借款合同时年仅15岁,为限制民事行为能力人,其签订的借款合同的效力待定,需要判断该法律行为是否与其年龄、智力、精神健康状况相适应,否则需要经其法定代理人同意或者追认后有效。
4. 利息利率问题
借款合同中双方约定利息月利率为12%,显然超过法律规定的法定利息上限。与此同时还存在利息分段计算等问题。
5.还款期限未到
依据借款合同的约定,借款期限为6年,即该笔借款应当于2026年2月12日到期,原告此时起诉为在借款未到期情况下要求被告提前还款。
6.本金问题
借款合同约定借款50万元,但实际转账48万元,这里可能存在砍头息的问题,因此需要从本金数额上进行答辩,减少本金部分的责任。
实例与对比
本次参与测评的通用大模型为文心一言X1、Deepseek-R1、通义千问QwQ-32B、kimi1.5、豆包,法律专业大模型为得理法律大模型。
文心X1
文心X1是百度于3月16日官宣的一款深度思考模型,和文心4.5被称为百度应对全球 AI 竞争的 “精准出牌”。
目前文心X1在法律领域的表现如何尚未可知,今天就和得理一起率先见识这个号称具备更强的理解、规划、反思、进化能力的深度思考模型的实力吧。
✦
滑动查看完整回答
✦
文心X1输出的答辩状格式基本符合规范,首部写明了答辩人和被答辩人的基本情况,正文撰写了答辩理由,尾部致送法院,签名,落款均符合规范。不过答辩请求像诉讼请求一样单独列出并不符合笔者的行文习惯,但不排除实务中确有此类答辩状模板的可能。下文中Deepseek-R1,通义QwQ-32B,以及得理法律大模型均采用该格式。
在答辩状首部,文心X1虚构了答辩人法定代理人的信息。原因在于大模型意识到了答辩人在签订借款合同时是未成年人,因此将其监护人列为共同被告。但是在本案中,笔者的设计为被告签订合同时为限制民事行为能力人,被诉时已经是完全民事行为能力人,因此文心X1对于诉讼主体的处理属画蛇添足。
对于答辩内容,文心X1对于笔者挖的坑,回应了其中6.本金问题、3.合同效力问题、4.利息超过法定上限问题。在思考过程中文心X1还提及了5.还款期限未到的问题,但是大模型认为该部分在答辩状中不需要主动提及。
在法律依据适用上,文心X1引用了准确的法律法规,在引用《民法典》之外,还引用了《最高人民法院关于审理民间借贷案件适用法律若干问题的规定》。关于限制民事行为能力人、法定利息上限、合同效力的法条定位准确。但是关于律师费、诉讼费的答辩中则引用了错误的法条内容。
Qwen-QwQ-32B
Qwen-QwQ-32B是阿里巴巴于3月6推出并开源的全新推理模型,在“最难LLMs评测榜”LiveBench、谷歌等提出的指令遵循能力IFEval评测集、由加州大学伯克利分校等提出的评估准确调用函数或工具方面的BFCL测试中,Qwen-QwQ-32B的得分均超越了Deepseek- R1。
让我们看看在法律垂直领域中,Qwen-QwQ-32B是不是也能登顶榜首吧。
✦
滑动查看完整回答
✦
在格式上,千问的格式基本和文心X1的结果保持一致。
在逻辑上,千问对于合同效力的分析存在前后不一致的情况。首先大模型分析得出案涉借款合同如果未经答辩人法定代理人(监护人)同意或追认则为无效合同,后续大模型对于合同无效原因又表述为“合同因违反法律强制性规定而自始无效”,前后矛盾。
在利息部分,千问提出“此前已支付的利息中,超过LPR四倍的部分应抵扣本金”,此分析暴露出大模型对民间借贷利息的理解不足。按照2021年01月01日生效的《最高人民法院关于审理民间借贷案件适用法律若干问题的规定》第三十一条的规定,在本案中,利息计算应当分为以下几个阶段:
自合同成立之日2020年2月12日至2020年8月19日,对于答辩人已经支付的利息,最高可支持按照年利率36%计算利息。
自2020年8月20日至还清本金之日的利息:按照合同成立时一年期LPR的四倍作为年利率计算利息。
千问对于利息未采取分段计算,而简单提出超过LPR四倍的部分抵扣本金,显然对于相关法条的理解存在偏差。
另外,千问提供的合同订立时的LPR为错误数据。2020年2月12日的LPR应当为 4.15%,而非千问注明的4.05%,在数据上,大模型存在虚构的情况。
kimi1.5
Kimi1.5是月之暗面在年前发布的多模态思考模型,被誉为“是全球范围内,OpenAI 之外的公司首次实现 o1 正式版的多模态推理性能。”
下面看看kimi1.5的表现:
✦
滑动查看完整回答
✦
Kimi1.5相较于其他大模型,在格式上最不规范,不符合答辩状的格式要求,比如缺少被答辩人信息,将首部、尾部、证据清单中的内容直接展示在答辩状中。
其次在内容上,kimi1.5存在较多跳脱出案件本身(所提供的提示词信息)之外的联想内容。比如kimi1.5中提到原告主体资格问题,设想了原告陈三三存在“从事放贷业务或其他影响主体资格的情形”,认为其“可能并不具备合法的民间借贷主体资格”。另外,kimi1.5虽然提到了诉讼时效问题,但并非从本案案情出发进行答辩,而只是提醒了用户“原告的起诉可能已经超过法律规定的诉讼时效期间(如借款合同约定的还款期限届满之日起超过三年)”,然而本案中借款期限于2026年到期,还款期限未届满。kimi1.5显然没有根据案情进行分析,而只是收集了惯用的答辩要点,逐条提示用户罢了。
在引用的法律依据上,kimi1.5绝大部分采用模糊化处理,即未定位到某一具体法条,而只是用《中华人民共和国民法典》笼统概括。即便在分析限制民事行为能力人实施的民事法律行为的效力时引用了具体的法条,但是法条定位不准,引用的《民法典》第十七条,第十八条是关于完全民事行为能力人的规定,存在引用法条错误或是法条序号与内容匹配错误的问题。
综上,Kimi1.5产出的内容更适合启发文书写作的思路,但由于文书生成的格式不符合规范,且内容并非完全紧扣案情,联想和提示的内容比例过高,导致答辩状的直接使用率不高。
Deepseek-R1
明星选手,无需过多介绍。之前对Deepseek-R1的表现有过多维度深度测评,感兴趣的读者可点击进入《Deepseek与法律专业大模型深度拆解系列》详细了解。
✦
滑动查看完整回答
✦
Deepseek-R1让人惊喜之处在于它在思考过程中提到了法院管辖权的问题。这是其他大模型均没有发现的陷阱。可惜Deepseek-R1最后得出的而结论为“深圳南山区法院可能有管辖权”,最后大模型也没有在答辩状中列明此答辩意见。
不足之处在于Deepseek-R1和文心X1一样,虚构了答辩人法定代理人的信息,并且作为诉讼主体在答辩状中列明。在LPR上和通义千问一样,虚构了数据。
豆包
✦
滑动查看完整回答
✦
在答辩内容上,豆包和kimi1.5相同,存在严重的爱联想的问题,并且豆包会将思考的过程展现在答辩状的成文中,能够像kimi1.5一样起到启发作用,但是无法直接使用。例如以下回答原文:
“答辩人自 2021 年 8 月起未支付利息,但需核实已支付利息是否超过司法保护上限。若已支付利息超出法定标准,答辩人有权主张超额部分抵扣本金。”
豆包相较于其他通用大模型,对于法条的理解和分析能力明显偏弱。例如,豆包能够理解需要按照LPR四倍作为基准衡量利息是否超过司法保护上限,但是豆包无法分析得出该LPR应当为合同订立时的LPR,而是错误向用户提供了当前的LPR作为评判标准。再如,豆包在注意事项中提示用户注意“若被告已成年,需删除 “限制民事行为能力人” 相关内容”。说明豆包能够理解未成年人=限制民事行为能力人,但是无法将事实行为与法律行为进行区分,被告现已成年并不影响其在签订合同时为限制民事行为能力人,也不需要在答辩状中删除相关内容。
得理法律大模型
✦
滑动查看完整回答
✦
得理法律大模型的回答相较于通用大模型,在语言表述上更法言法语,符合法律文书的专业化表达。
在答辩意见上,得理法律大模型考虑到了上述大部分通用大模型未考虑到的管辖和时效问题。
文心X1 | 千问QwQ-32B | Deepseek-R1 | kimi 1.5 | 豆包 | 得理法律大模型 | |
诉讼时效 | ☆ | |||||
管辖权 | ☆ | ☆ | ||||
合同效力 | ☆ | ☆ | ☆ | ☆ | ☆ | ☆ |
利息利率 | ☆ | ☆ | ☆ | ☆ | ☆ | ☆ |
还款期限 | ☆ | ☆ | ||||
本金 | ☆ | ☆ | ☆ | ☆ | ☆ | ☆ |
对于管辖权问题,得理法律大模型意识到本案管辖权存在重大争议,应当移送至有管辖权的法院。大模型引用了《民事诉讼法》第二十四条,指出民间借贷纠纷应由被告住所地或合同履行地人民法院管辖,请求依法移送至汕头市或漳州市有管辖权的人民法院。
对于诉讼时效问题,得理法律大模型分析得出“利息部分诉讼时效已部分届满“,原文如下:
“被告自2021年8月起未支付利息,原告应自2022年2月起三年内主张(利息半年一付)。若原告起诉时间为2023年之后,则2021年8月至2022年2月的利息主张(共计一期)已超过诉讼时效,依法应予驳回。”
与笔者的分析基本一致。
此外,得理法律大模型还意识到了依据法律规定,利息需要分段调整,与其他通用大模型一刀切的做法相比,法律专业大模型对于法条的理解和运用能力更强,引用也更为准确。不足之处在于得理法律大模型对于衡量法定利息上限的标准同样混淆了合同订立时和起诉时的LPR。
此外,针对原告请求被告承担律师费和诉讼费的诉请,通用大模型大多只从涉案合同未对律师费进行约定的角度切入进行分析。得理法律大模型还提到了被答辩人明知答辩人未成年仍签订合同,存在重大过错,应自行承担费用。分析更为专业、完整。
综合来看,法律专业大模型在生成答辩状的任务处理中,在法律依据准确性、抗辩逻辑严密性和文书格式规范性上表现均优于通用大模型。
想要详细了解通用大模型与法律专业大模型差异如何产生,请点击查看《Deepseek爆火背后——通用大模型与法律专业大模型有何差异?》
通用大模型因无法涵盖全面、专业的法律数据,导致在法律法规引用与案例引用时,无法做到全面准确,如kimi在撰写本案答辩状时只引用了《民法典》,而遗漏了《最高人民法院关于审理民间借贷案件适用法律若干问题的规定》的相关规定。同时,正因为数据的缺陷导致通用大模型缺乏可靠的验证机制,从而产生幻觉,如文心X1和kimi1.5的回答中存在的错误定位法条甚至编撰法条内容的问题。
而得理法律大模型作为法律专业大模型,拥有海量且全面的全域法律数据,能够为用户提供真实、可靠的法律数据,确保法规、案例等法律数据真实可查验,从源头上减少模型幻觉问题。
此外,得理法律大模型经过专业律师团队精心标注与深度指令微调,具备强大的法律语义理解与分析能力,能够高效进行法律条款解读与案例剖析,让回答更加法言法语。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-03-28
2025-03-27
2025-03-27
2025-03-27
2025-03-27
2025-03-26
2025-03-25
2025-03-23