AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


AI应用的前提,是解决DeepSeek的幻觉问题

发布日期:2025-02-14 11:39:09 浏览次数: 2104 来源:叶小钗
推荐语

AI应用成功的关键:先解决DeepSeek的幻觉问题。

核心内容:
1. AI在数字化程度不同公司的应用挑战
2. DeepSeek应用中的模型幻觉现象及其影响
3. 模型幻觉产生的原因及解决方法探讨

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

关注公众号回复1

获取一线、总监、高管《管理秘籍》

去年我在为某些公司做深度AI定制的时候,遭遇了最大的问题是:AI在隔靴搔痒!

数字化程度低的公司,根本轮不到AI上场;数字化程度高的公司,将面临完全不一样的问题:

技术团队基于AI提供的功能,可以有更好的选择,并不是非AI不可;业务方想要的功能,却没有提供,可以认为AI是将原本就很好的功能做了一次包装。

深究下来,对于业务方,对其的判定条件是:AI应用只要不能完全的接管业务,那么他就是玩具,进一步他对业务方来说是垃圾!

之前基于GPT-4o做的应用如此,如今基于DeepSeek做的应用更是如此,问题可能更严重了!

unsetunset模型幻觉unsetunset

AI应用最害怕的就是模型幻觉,同一个问题收到不同的回答是令人绝望的事情,想象一下:

  1. 你如果是一个患者,同一个问题,医生给了你两个回答,你慌不慌?
  2. 你如果是一个律师,同一个问题,律师给了你完全不同的结果,你怕不怕?

据Vectara HHEM人工智能幻觉测试,DeepSeek-R1显示出14.3%的幻觉率:

其他模型数据会好很多,但依旧绕不过最初的问题:在有幻觉的情况下,你能不能完全接管业务?如果不能,那AI应用就会受挫,因为人们对AI会更加刻薄

幻觉原因

大模型的工作原理,类似成语接龙游戏,每一个成语都是一个“高维向量”,它的意义就像是一个词的向量,而成语之间的连接就是模型的推理过程。

训练过程中,先通过非标记数据进行预训练,让模型学会了说话,模型可以通过直觉得出下一个字,比如:五光十色-色狼;

而后,通过标记数据进行微调,让模型知道了每个成语的正确搭配,能够在每个词语后面接上新的词语,这个时候类似于任务学习,模型真的学会了接龙,比如:五光十色-色彩斑斓;

但这有两个情况会引发模型幻觉:

  1. 首先,微调数据里面从来没出现过五光十色,那模型就会乱接,完全不可预测;
  2. 其次,如果系统里面出现了错误数据,比如就是有微调数据五光十色接的色狼,那么模型就会出错;

综上,就是对大模型幻觉最粗浅的解释,而真实场景中出现的问题会更多、更复杂,所有这些问题都直接会导致幻觉,比如一段数据管理重要的是管人还是管事,那一定有人说管人也有人说管事,那么模型就会被影响、被带偏。

为什么R1幻觉这么厉害?

从数据显示,R1幻觉程度是V3将近4倍,这可能与推理型模型特征有关系。

前面我们说过,GPT时代的提示词或许对DeepSeek不适用,其原因就是指令型模型与指令型模型的区别:

  1. 推理型模型更注重理解和推理,你只需要提供目标或问题,模型会自行分析并找到解决方案。
  2. 指令型模型依赖于明确的指令和步骤,你需要提供详细的指导,模型会严格按照你的指令执行任务。

所以DeepSeek提示词的技巧变成了:

公式:我要 [目标],给 [受众] 用,希望 [核心诉求],但担心 [潜在挑战]。

但,我们之前也说过,对于工程控制来说,我们多数时候其实不希望模型自由发挥的,比如工程其实期待的是一种关键词识别:

学生表达焦虑类型具体分类
我快气炸了学习压力过大考试焦虑
我心态崩了学习压力过大高认知负荷
我复习了半天,但还是不会学习压力过大完美主义焦虑

在这种场景下,推理型模型表现可能赶不上指令型模型(但具体需要做测试)

简单来说模型越自由,可能幻觉越多。当模型通过长思维链进行推理时,它可能会从不同的角度考虑问题,而这些角度并不总是与现实一致,这就导致了幻觉的发生。

V3到R1发生了什么?

R1模型主要依赖对V3的强化学习来实现模型效果,特别是使用了GRPO算法

然而,这种机制可能导致幻觉问题:如果奖励函数过于强调创造性或流畅性,而忽略事实准确性,模型会倾向于生成看似合理但不符合事实的内容。

GRPO算法在处理复杂任务时,可能通过长思维链推理,但这一过程容易引入不现实的假设或逻辑跳跃,加剧幻觉。

然后,R1的自我纠错机制不足,难以有效识别和修正幻觉。有些幻觉内容表面合理,模型难以检测,而纠正错误可能需要大量交互和反馈,成本较高。

unsetunset如何消除幻觉unsetunset

虽然R1幻觉比较厉害,但DeepSeek依旧是国内最优的基座模型选择,所以如何消除模型幻觉,是我们做工程应用要重点考虑的问题。

因为GPT也有幻觉,所以这个问题之前就有答案:知识图谱+工程控制,最常见的就是RAG

一种结合了信息检索和语言生成的技术架构。在RAG中,模型首先通过检索外部知识源(如文档库、数据库等)来找到与用户查询相关的信息,然后使用这些信息来生成更准确的回答。

具体来说,RAG的工作原理分为以下几个步骤:

  1. 查询处理与理解:首先,用户的输入查询被转化为适合检索的形式(通常是向量表示)。
  2. 信息检索:然后,模型使用这些向量表示在预先构建的知识库或索引中进行搜索,找到与查询最相关的信息片段。这些信息片段通常是文本段落或数据记录。
  3. 生成答案:检索到的信息将被传递给语言生成模型,用于生成更加准确、基于事实的回答或文本输出。

通过结合外部检索结果,RAG能够有效提高生成内容的质量,避免生成无关或错误的信息,从而增强生成回答的准确性和可靠性。

说这么多也不好理解,我们举个例子:

unsetunsetAI律师幻觉问题unsetunset

比如,用户的问题是:在美国,什么是房东和租户之间的法律义务?

模型生成的回答:在美国,房东和租户之间的义务包括租金支付、物业维护、终止合同和保证房产安全。然而,具体的法律义务因州而异,租户和房东必须遵守当地的法规。

这个回答看起来合理,但模型没有提供具体的法律依据或准确的引用,生成的内容很可能存在错误,或者只是基于通用知识而不是具体的法律条文。

因此,这种回答可能是“幻觉”:看似真实但缺乏证据支持,可能误导用户。

现在,我们将RAG技术应用到同样的问题上。假设AI律师模型可以访问外部的法律数据库,能从中检索与房东和租户义务相关的法律条文或案例。

RAG增强后的回答:

根据《美国统一住宅租赁法》第504条,房东有责任确保租赁物业保持适宜的居住条件,负责维修和保养房产,租户则有义务按时支付租金并保持租赁物业的整洁。

此外,在加利福尼亚州,根据《加利福尼亚州民法典》第1941.1条,房东必须确保提供安全的居住环境,包括处理水电和供暖系统的问题。如果房东未履行这些义务,租户可以根据法律要求赔偿。

然后我们再来探讨RAG如何消除幻觉的。

unsetunsetRAG如何消除幻觉unsetunset

用户提出的问题是:“在美国,什么是房东和租户之间的法律义务?”

这里AI应用的工程控制就出现了:

一、输入处理

用户提出一个问题,例如:“在美国,什么是房东和租户之间的法律义务?”

在这个阶段,模型需要对用户的查询进行理解并转化为可以进行检索的形式

通常,模型会使用预训练的自然语言处理模型将输入查询转化为高维向量。

生成的向量会用于后续的信息检索,模型将查询向量与数据库中已存在的文档进行比对,从而找到与查询最相关的内容。

但这里如果不想依赖向量库也可以,直接用关键词筛选的方式也不是不可以,但看工程实现如何设计。

因为基于向量库其实是小模型,小模型因为数据量小虽然大概率不会出现模型幻觉,但起准确匹配的能力肯定比不上数据库关键词检索,这个是向量库技术最核心的问题。

总之,工程能力越强会越是依赖关键词查询,至于究竟使用什么,但看业务形态。

二、信息检索

信息检索的目的是从外部知识库中找到与用户查询相关的文本片段,这里会使用一些工具和函数(基本上被包装得很好了)。

现在有些公司是依赖于向量库,有些是依赖于一套关键词泛化知识库系统,目的都类似:

假设查询是:“在美国,什么是房东和租户之间的法律义务?”

检索结果可能包括:

  1. 美国统一住宅租赁法第504条:房东有责任确保物业保持适宜的居住条件。
  2. 加利福尼亚州民法典第1941.1条:房东必须提供安全的居住环境,处理供水、供暖等系统问题。

三、提示词处理

其实,根据关键词只要查询出内容,而后就是传统的提示词处理了,没什么难度。

最终,整合后的内容将作为生成模型的输入。例如,结合了多个法律条文和案例的回答将会是:

根据《美国统一住宅租赁法》第504条,房东有责任确保租赁物业保持适宜的居住条件,并进行必要的维修和保养。此外,在加利福尼亚州,根据《加利福尼亚州民法典》第1941.1条,房东必须确保提供安全的居住环境,处理供水和供暖等系统问题。如果房东未履行这些义务,租户可以根据法律要求赔偿。

最终给大模型进行调用即可,下面给大家完全的提示词过程做参考:

完整流程

首先是传统流程:

  • 问题:"在美国,什么是房东和租户之间的法律义务?"
  • 提示词:

你是一个资深律师,现在有用户问你法律问题,请你解答。

当前用户的问题是:

在美国,什么是房东和租户之间的法律义务?

  • 结果:"在美国,房东和租户之间的法律义务包括租金支付、物业维护、终止合同和保证房产安全。然而,具体的法律义务因州而异,租户和房东必须遵守当地的法规。"

可能的问题:

  • 缺乏具体的法律依据。
  • 没有提到具体的条文或具体州的法律规定,可能会给用户带来误导,尤其是在需要明确法律依据时。

其次是RAG流程,主要看提示词的变化:

你是一个资深律师,现在有用户问你法律问题,请你解答。

当前用户的问题是:

在美国,什么是房东和租户之间的法律义务?

以下是检索到的相关法律条文和案例,帮助你回答用户问题:

  1. 根据《美国统一住宅租赁法》第504条,房东有责任确保租赁物业保持适宜的居住条件,并进行必要的维修和保养。
  2. 根据《加利福尼亚州民法典》第1941.1条,房东必须确保租赁物业提供安全的居住环境,包括处理供水、供暖等系统问题。
  3. 《纽约州租赁法》第227条规定,房东有义务确保物业符合当地建筑标准,并为租户提供安全的居住条件。
  4. 美国法院在多个案例中判定,房东未能履行上述义务时,租户有权要求赔偿,包括但不限于租金减免或搬迁费用。

请根据以上法律条文与案例回答用户的问题。

于是答案是:

根据《美国统一住宅租赁法》第504条,房东有责任确保租赁物业保持适宜的居住条件,并负责进行维修和保养。此外,在加利福尼亚州,根据《加利福尼亚州民法典》第1941.1条,房东必须确保租赁物业提供安全的居住环境,包括处理供水和供暖等系统问题。如果房东未履行这些义务,租户可以根据法律要求赔偿。此外,依据《纽约州租赁法》第227条,房东还需确保物业符合当地建筑标准,并为租户提供安全的居住条件。在多个法院判例中,房东未能履行上述责任时,租户有权要求赔偿,包括租金减免或搬迁费用等。

综上,模型幻觉问题就解决了...

unsetunset模型训练手法unsetunset

RAG是初期成本较低的方式,如果要依赖模型训练本身消灭幻觉,那也不是不可以...

例如,通过在训练时为不同类型的任务设定不同的策略,模型可以学会在何时提供创造性内容,何时应保持忠实与准确。

比如在处理如摘要、翻译等任务时,模型必须更加注重忠实于原文的内容,而不是自由发挥创造性。

这种任务的训练通常需要额外的监督数据和约束,以确保输出的准确性。

只不过真的要这么做的化,可能会为了1%的效果花费超过10%的资源,这可能不太划算...

因为它们需要额外的数据标注、长时间的微调和强化训练,并且往往需要更多计算资源和人工干预。

此外,微调过程中对模型的细致调控也会增加模型开发和训练的复杂度。特别是在处理任务的多样性和细节时,如何找到合适的平衡点,让模型既能提供创造性答案,又能保持高忠实度和准确性,是一项复杂且资源密集的工作。

总体而言,虽然精细化训练可以降低幻觉现象的发生,但其成本不容忽视,特别是在需要大规模数据和计算资源的场景中,这也为未来的大模型发展提供了挑战和方向。

unsetunset结语unsetunset

在AI工程应用的实践中,模型幻觉始终是一个难以回避的挑战。

我们从业务场景出发,探讨了企业中的AI应用困境。尤其是当AI无法满足业务对高准确性和可靠性的需求时,幻觉现象的出现常常使得AI应用被视为“无效工具”。

这揭示了一个关键问题:AI不一定需要完全接管业务,但在某些高要求领域(如法律、医疗等),模型的准确性必须得到保证,否则幻觉将严重影响应用效果。

通过对模型幻觉成因的分析,我们发现,大模型的工作原理、训练数据的质量以及推理过程中的自由度过高,都是导致幻觉的原因。

RAG技术。通过结合外部知识库,能够为生成答案提供更具事实依据的支持,从而有效减少幻觉的发生。

然而,RAG技术并非完美无缺。它依赖于外部知识库的质量和覆盖范围,并可能引入额外的系统复杂性和响应时间。

最后,虽然精细化训练(如微调、强化学习等)可以进一步减少幻觉,但这些方法的成本较高,尤其在大规模应用中,如何在技术优化与成本效益之间找到平衡,仍然是工程实践中的重要挑战

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

和创始人交个朋友

回到顶部

 

加载中...

扫码咨询