微信扫码
和创始人交个朋友
我要投稿
AI应用成功的关键:先解决DeepSeek的幻觉问题。 核心内容: 1. AI在数字化程度不同公司的应用挑战 2. DeepSeek应用中的模型幻觉现象及其影响 3. 模型幻觉产生的原因及解决方法探讨
关注公众号回复1
获取一线、总监、高管《管理秘籍》
去年我在为某些公司做深度AI定制的时候,遭遇了最大的问题是:AI在隔靴搔痒!
数字化程度低的公司,根本轮不到AI上场;数字化程度高的公司,将面临完全不一样的问题:
技术团队基于AI提供的功能,可以有更好的选择,并不是非AI不可;业务方想要的功能,却没有提供,可以认为AI是将原本就很好的功能做了一次包装。
深究下来,对于业务方,对其的判定条件是:AI应用只要不能完全的接管业务,那么他就是玩具,进一步他对业务方来说是垃圾!
之前基于GPT-4o做的应用如此,如今基于DeepSeek做的应用更是如此,问题可能更严重了!
AI应用最害怕的就是模型幻觉,同一个问题收到不同的回答是令人绝望的事情,想象一下:
据Vectara HHEM人工智能幻觉测试,DeepSeek-R1显示出14.3%的幻觉率:
其他模型数据会好很多,但依旧绕不过最初的问题:在有幻觉的情况下,你能不能完全接管业务?如果不能,那AI应用就会受挫,因为人们对AI会更加刻薄。
大模型的工作原理,类似成语接龙游戏,每一个成语都是一个“高维向量”,它的意义就像是一个词的向量,而成语之间的连接就是模型的推理过程。
训练过程中,先通过非标记数据进行预训练,让模型学会了说话,模型可以通过直觉得出下一个字,比如:五光十色-色狼;
而后,通过标记数据进行微调,让模型知道了每个成语的正确搭配,能够在每个词语后面接上新的词语,这个时候类似于任务学习,模型真的学会了接龙,比如:五光十色-色彩斑斓;
但这有两个情况会引发模型幻觉:
综上,就是对大模型幻觉最粗浅的解释,而真实场景中出现的问题会更多、更复杂,所有这些问题都直接会导致幻觉,比如一段数据管理重要的是管人还是管事,那一定有人说管人也有人说管事,那么模型就会被影响、被带偏。
从数据显示,R1幻觉程度是V3将近4倍,这可能与推理型模型特征有关系。
前面我们说过,GPT时代的提示词或许对DeepSeek不适用,其原因就是指令型模型与指令型模型的区别:
所以DeepSeek提示词的技巧变成了:
公式:我要 [目标],给 [受众] 用,希望 [核心诉求],但担心 [潜在挑战]。
但,我们之前也说过,对于工程控制来说,我们多数时候其实不希望模型自由发挥的,比如工程其实期待的是一种关键词识别:
学生表达 | 焦虑类型 | 具体分类 |
---|---|---|
我快气炸了 | 学习压力过大 | 考试焦虑 |
我心态崩了 | 学习压力过大 | 高认知负荷 |
我复习了半天,但还是不会 | 学习压力过大 | 完美主义焦虑 |
在这种场景下,推理型模型表现可能赶不上指令型模型(但具体需要做测试)。
简单来说模型越自由,可能幻觉越多。当模型通过长思维链进行推理时,它可能会从不同的角度考虑问题,而这些角度并不总是与现实一致,这就导致了幻觉的发生。
R1模型主要依赖对V3的强化学习来实现模型效果,特别是使用了GRPO算法。
然而,这种机制可能导致幻觉问题:如果奖励函数过于强调创造性或流畅性,而忽略事实准确性,模型会倾向于生成看似合理但不符合事实的内容。
GRPO算法在处理复杂任务时,可能通过长思维链推理,但这一过程容易引入不现实的假设或逻辑跳跃,加剧幻觉。
然后,R1的自我纠错机制不足,难以有效识别和修正幻觉。有些幻觉内容表面合理,模型难以检测,而纠正错误可能需要大量交互和反馈,成本较高。
虽然R1幻觉比较厉害,但DeepSeek依旧是国内最优的基座模型选择,所以如何消除模型幻觉,是我们做工程应用要重点考虑的问题。
因为GPT也有幻觉,所以这个问题之前就有答案:知识图谱+工程控制,最常见的就是RAG:
一种结合了信息检索和语言生成的技术架构。在RAG中,模型首先通过检索外部知识源(如文档库、数据库等)来找到与用户查询相关的信息,然后使用这些信息来生成更准确的回答。
具体来说,RAG的工作原理分为以下几个步骤:
通过结合外部检索结果,RAG能够有效提高生成内容的质量,避免生成无关或错误的信息,从而增强生成回答的准确性和可靠性。
说这么多也不好理解,我们举个例子:
比如,用户的问题是:在美国,什么是房东和租户之间的法律义务?
模型生成的回答:在美国,房东和租户之间的义务包括租金支付、物业维护、终止合同和保证房产安全。然而,具体的法律义务因州而异,租户和房东必须遵守当地的法规。
这个回答看起来合理,但模型没有提供具体的法律依据或准确的引用,生成的内容很可能存在错误,或者只是基于通用知识而不是具体的法律条文。
因此,这种回答可能是“幻觉”:看似真实但缺乏证据支持,可能误导用户。
现在,我们将RAG技术应用到同样的问题上。假设AI律师模型可以访问外部的法律数据库,能从中检索与房东和租户义务相关的法律条文或案例。
RAG增强后的回答:
根据《美国统一住宅租赁法》第504条,房东有责任确保租赁物业保持适宜的居住条件,负责维修和保养房产,租户则有义务按时支付租金并保持租赁物业的整洁。
此外,在加利福尼亚州,根据《加利福尼亚州民法典》第1941.1条,房东必须确保提供安全的居住环境,包括处理水电和供暖系统的问题。如果房东未履行这些义务,租户可以根据法律要求赔偿。
然后我们再来探讨RAG如何消除幻觉的。
用户提出的问题是:“在美国,什么是房东和租户之间的法律义务?”
这里AI应用的工程控制就出现了:
用户提出一个问题,例如:“在美国,什么是房东和租户之间的法律义务?”
在这个阶段,模型需要对用户的查询进行理解并转化为可以进行检索的形式。
通常,模型会使用预训练的自然语言处理模型将输入查询转化为高维向量。
生成的向量会用于后续的信息检索,模型将查询向量与数据库中已存在的文档进行比对,从而找到与查询最相关的内容。
但这里如果不想依赖向量库也可以,直接用关键词筛选的方式也不是不可以,但看工程实现如何设计。
因为基于向量库其实是小模型,小模型因为数据量小虽然大概率不会出现模型幻觉,但起准确匹配的能力肯定比不上数据库关键词检索,这个是向量库技术最核心的问题。
总之,工程能力越强会越是依赖关键词查询,至于究竟使用什么,但看业务形态。
信息检索的目的是从外部知识库中找到与用户查询相关的文本片段,这里会使用一些工具和函数(基本上被包装得很好了)。
现在有些公司是依赖于向量库,有些是依赖于一套关键词泛化知识库系统,目的都类似:
假设查询是:“在美国,什么是房东和租户之间的法律义务?”
检索结果可能包括:
其实,根据关键词只要查询出内容,而后就是传统的提示词处理了,没什么难度。
最终,整合后的内容将作为生成模型的输入。例如,结合了多个法律条文和案例的回答将会是:
根据《美国统一住宅租赁法》第504条,房东有责任确保租赁物业保持适宜的居住条件,并进行必要的维修和保养。此外,在加利福尼亚州,根据《加利福尼亚州民法典》第1941.1条,房东必须确保提供安全的居住环境,处理供水和供暖等系统问题。如果房东未履行这些义务,租户可以根据法律要求赔偿。
最终给大模型进行调用即可,下面给大家完全的提示词过程做参考:
首先是传统流程:
你是一个资深律师,现在有用户问你法律问题,请你解答。
当前用户的问题是:
在美国,什么是房东和租户之间的法律义务?
可能的问题:
其次是RAG流程,主要看提示词的变化:
你是一个资深律师,现在有用户问你法律问题,请你解答。
当前用户的问题是:
在美国,什么是房东和租户之间的法律义务?
以下是检索到的相关法律条文和案例,帮助你回答用户问题:
根据《美国统一住宅租赁法》第504条,房东有责任确保租赁物业保持适宜的居住条件,并进行必要的维修和保养。 根据《加利福尼亚州民法典》第1941.1条,房东必须确保租赁物业提供安全的居住环境,包括处理供水、供暖等系统问题。 《纽约州租赁法》第227条规定,房东有义务确保物业符合当地建筑标准,并为租户提供安全的居住条件。 美国法院在多个案例中判定,房东未能履行上述义务时,租户有权要求赔偿,包括但不限于租金减免或搬迁费用。 请根据以上法律条文与案例回答用户的问题。
于是答案是:
根据《美国统一住宅租赁法》第504条,房东有责任确保租赁物业保持适宜的居住条件,并负责进行维修和保养。此外,在加利福尼亚州,根据《加利福尼亚州民法典》第1941.1条,房东必须确保租赁物业提供安全的居住环境,包括处理供水和供暖等系统问题。如果房东未履行这些义务,租户可以根据法律要求赔偿。此外,依据《纽约州租赁法》第227条,房东还需确保物业符合当地建筑标准,并为租户提供安全的居住条件。在多个法院判例中,房东未能履行上述责任时,租户有权要求赔偿,包括租金减免或搬迁费用等。
综上,模型幻觉问题就解决了...
RAG是初期成本较低的方式,如果要依赖模型训练本身消灭幻觉,那也不是不可以...
例如,通过在训练时为不同类型的任务设定不同的策略,模型可以学会在何时提供创造性内容,何时应保持忠实与准确。
比如在处理如摘要、翻译等任务时,模型必须更加注重忠实于原文的内容,而不是自由发挥创造性。
这种任务的训练通常需要额外的监督数据和约束,以确保输出的准确性。
只不过真的要这么做的化,可能会为了1%的效果花费超过10%的资源,这可能不太划算...
因为它们需要额外的数据标注、长时间的微调和强化训练,并且往往需要更多计算资源和人工干预。
此外,微调过程中对模型的细致调控也会增加模型开发和训练的复杂度。特别是在处理任务的多样性和细节时,如何找到合适的平衡点,让模型既能提供创造性答案,又能保持高忠实度和准确性,是一项复杂且资源密集的工作。
总体而言,虽然精细化训练可以降低幻觉现象的发生,但其成本不容忽视,特别是在需要大规模数据和计算资源的场景中,这也为未来的大模型发展提供了挑战和方向。
在AI工程应用的实践中,模型幻觉始终是一个难以回避的挑战。
我们从业务场景出发,探讨了企业中的AI应用困境。尤其是当AI无法满足业务对高准确性和可靠性的需求时,幻觉现象的出现常常使得AI应用被视为“无效工具”。
这揭示了一个关键问题:AI不一定需要完全接管业务,但在某些高要求领域(如法律、医疗等),模型的准确性必须得到保证,否则幻觉将严重影响应用效果。
通过对模型幻觉成因的分析,我们发现,大模型的工作原理、训练数据的质量以及推理过程中的自由度过高,都是导致幻觉的原因。
RAG技术。通过结合外部知识库,能够为生成答案提供更具事实依据的支持,从而有效减少幻觉的发生。
然而,RAG技术并非完美无缺。它依赖于外部知识库的质量和覆盖范围,并可能引入额外的系统复杂性和响应时间。
最后,虽然精细化训练(如微调、强化学习等)可以进一步减少幻觉,但这些方法的成本较高,尤其在大规模应用中,如何在技术优化与成本效益之间找到平衡,仍然是工程实践中的重要挑战
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-02-22
TrustRAG:为AI知识检索打造更安全的防线
2025-02-22
DeepSeek+RAGFlow 本地部署避坑指南,一文搞定常见难题!
2025-02-22
基于DeepSeek的本地化知识库 RAGFlow 搭建(附带镜像链接)
2025-02-22
RAGFlow+DeepSeek-R1:14b落地案例分享(足够详细):机加工行业设备维保场景
2025-02-21
DeepRAG:LLM时代的智能检索革命(实测提升准确率21.99%)
2025-02-21
从零开始优化 RAG 流程的终极指南,解决检索增强生成的核心挑战
2025-02-20
本地运行DeepSeek R1 + RAG系统
2025-02-20
传统分块已死?Agentic Chunking拯救语义断裂,实测RAG准确率飙升40%,LLM开发者必看!
2024-09-04
2024-10-27
2024-07-18
2024-05-05
2024-06-20
2024-06-13
2024-07-09
2024-07-09
2024-05-19
2024-07-07
2025-02-15
2025-02-12
2025-02-05
2025-02-05
2025-01-24
2025-01-24
2025-01-20
2025-01-18