微信扫码
添加专属顾问
我要投稿
探索AI技术在法律领域应用的新高度,深入解析Deepseek模型在类案检索总结中的实战表现。 核心内容: 1. Deepseek在法律研究场景中的表现回顾 2. 类案检索总结的实务需求与挑战 3. Deepseek与得理法律大模型的对比分析
前言
上期,我们分析了Deepseek(如无特别说明,仅指Deepseek-R1模型)作为新晋的“推理神器”,在法律研究这一场景中,有着值得关注的表现。同时,我们也留意到了通用模型仍存在的诸如幻觉和依据信源不够权威的问题,也出现在了Deepseek身上。本期,我们从另一个法律应用场景来考察一下通用大模型和法律大模型的表现。
详细了解deepseek在法律研究场景中的表现,请点击:Deepseek与法律专业大模型深度拆解——基于法律问题研究应用场景
在实务中,法律人都“躲”不过的另一个重要的工作场景,就是:
“ 类案检索总结 ”
类案检索的终端需求,是完成一份类案检索报告。律师、法务等实务人士往往需要根据以一定检索目标为依据所收集到的类案信息,去合理预判待决案件可能的走向以及后续诉讼策略的敲定,而类案检索报告则是这些信息汇总的载体。
然而,从检索类案着手,用户可能需要面临阅读冗长的案例、寻找事实和争议焦点之间的相似性等中间流程,最终经过层层分析,才能输出一份优良的类案检索报告。
在大模型的时代,通过模型总结和生成的能力,用户可以通过大模型针对类案生成检索总结,从而快速提升案件阅读速度、待选类案的确认和裁判观点的归纳。
“ DeepSeek ” 与 “ 得理法律大模型 ”
基于以上场景,我们尝试先让两个AI生成一份有关生产、销售有毒、有害食品罪的刑事领域类案检索总结,看看两个模型是否可以胜任这一场景。
同时,根据律师、法务制作类案检索报告的任务特性,我们也厘定了一些评判准则:
文本提取的准确性:模型分析/推理个案的核心事实、争议焦点和法律适用部分,需与用户所上传现实世界数据保持一定的对齐度,避免遗漏某一(些)对于法官自由心证影响较大的要点,从而使得相关结果的可参考性有所降低。
结果归纳的准确性和合理性:模型能够基于类案信息,归纳、比较和分析裁判结果和理由的异同。所涉结论需基于用户所提供的类案,不出现幻觉。
个性化指令的跟随性:实务人士如果想要的并非是流于形式的案件堆砌,而是一次真正有参考意义的类案检索输出,则还需要关注个案之间基本事实是否实质性相似,要件涵摄过程是否类似,以及案件所使用的法律规范是否已经过时等注意事项。因此,用户输入个性化的上下文,是否都能激活对应的注意力单元,从而被模型成功捕捉并对输出进行约束,亦为一个考察方向。
要说明的是,以小理AI为例,少数法律专业垂类大模型本身已接通自有案例数据库,并配置了“AI案例检索总结”等功能,因此类案总结工作流很多时候不需要太“循规蹈矩”。案例检索跟总结生成融合在一个工作流中,双功能的便利性不言而喻。
但为便于对比,我们不妨先把两种模型“拉”回同一起跑线上:由于两个模型都支持“基于文档分析的生成”,因此我们以上传类案文档的方式进行测试,案例来源为中国裁判文书网,数量为4个。第一轮,我们仅单纯考察【总结】的能力,因此我们使用了较为简短的,直接与争议焦点相关的语句作为Query:
问题1:在动物饲料中添加克伦特罗,并在宰杀后的肉类中检测出超量的克伦特罗残留,应当定什么罪?如适用不同罪名,理由是什么?
先看Deepseek的结果:
✦
左右滑动查看完整回答
✦
再看看小理的结果:
✦
左右滑动查看完整回答
✦
从结果上来看,两个模型生产的结果与原文书之间均有较高的信息对齐度。对于简式的案例总结而言,Deepseek的推理能力还是有可圈可点之处。在显式的推理过程中,它至少进行了三次思考:第一次是针对多数裁判倾向的归纳,第二次是结合了用户Query的意图去对事实类似但法律适用却不同的少数类案提出疑问,第三次则是利用要件拆解+各种法律解释方法对两罪进行区分,并分别说理何种情况应当构成何种罪名。
而从小理的生成的结果来看,在指令高度相似的情况下,其回复相较Deepseek而言没有那么发散,同时因为趋为严谨的微调取向,使得模型的幻觉问题会比Deepseek要小。例如,Deepseek生产的回答中,对于罪名区分的部分,它提到以“危害程度”“残留量”来作为区分上述两罪的界限,这个结论存在明显的瑕疵,因为生产、销售有毒、有害食品罪属于行为犯。
另一个角度来看,对于第四个案件,该案之所以以生产、销售不符合食品安全标准的食品罪定谳而非另一个罪名,盖因其缺乏在食品中添加非食品原料的主观故意。因此,按照类案遴选的规则,该案跟我们所需的理想类案存在事实差异,严格来说理应在检索阶段予以筛除。
因此,第二轮,我们尝试升级一下挑战,通过构造一个更为还原类案检索报告工作全流程形式的指令,看看Deepseek是否能够也能够把类案遴选的推理加进自己的思维链(CoT)之中,以及小理的表现如何:
问题2:请针对以下争议焦点,比较类案的法律适用和裁判结果,并生成详略得当的检索总结报告:在动物饲料中添加克伦特罗,并在宰杀后的肉类中检测出超量的克伦特罗残留,应当定什么罪?如适用不同罪名,理由是什么?
比较时,请注意以下3点:
1、个案核心事实如差异较大,则不选作类案;
2、个案未生效,则削弱权重并作简要提醒。如已被推翻,则不选作类案。
3、个案适用如与现行规定有出入,作简要提醒。
Deepseek的结果:
✦
左右滑动查看完整回答
✦
从显式推理中可以看出,关于案例4的问题,Deepseek的思考似乎更“深”了一点:它想到了有可能是案件事实中没有体现行为人有添加有毒的非食品原料的故意,导致适用另一个罪名,但它最终还是没有按照指令把相关案件剔除出去。对此,小理模型的表现与Deepseek类似(图略),没有剔除相关案例。因此,两个模型在模拟更完整的类案检索总结工作流上,均有提升的空间。
结语
Deepseek的推理模型面世至今,不可谓不惊艳。基于多头潜在注意力(MLA)、混合专家架构(MoE)、负载均衡优化的技术架构,Deepseek在推理的速度上有了质的飞跃。在冷启动阶段所用的优质长思维链数据,也深刻地影响了模型思考的特性。
然而,从法律研究到类案检索总结,法律场景所追求信息严谨性要求,依旧是通用大模型所需面对的一道亟待逾越的深堑。因此,法律专业大模型的垂类方案,是否在可见的未来会与通用大模型形成互辅相成的共生关系?
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-15
知识库优化之路(四):重排序模型的加入,让检索结果更加精准
2025-04-15
AI时代,企业还有没有必要做数据治理?——数据基建决定智能天花板
2025-04-15
腾讯IMA最新版:个人知识库文件夹功能革新,开启知识管理新范式
2025-04-14
从协议标准到智能筛选:AgentCard生态的一些畅想
2025-04-14
大模型用于招采评审,这样解决“AI幻觉”问题!
2025-04-14
泼个行业冷水 | 当前AI大模型对企业管理软件是改良,还没到革命
2025-04-14
使用MaxKB部署本地知识库问答系统
2025-04-14
腾讯IMA知识库高阶玩法:咨询公司必备!3步打造政策咨询知识库,客户满意度提升90%!
2024-09-14
2025-01-23
2024-07-10
2024-11-07
2025-02-17
2024-04-24
2024-08-04
2024-06-23
2024-05-15
2024-07-10
2025-04-13
2025-04-12
2025-04-11
2025-04-06
2025-03-22
2025-03-17
2025-03-11
2025-03-09