AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


AI答案也会出错?明略科技如何用事实性数据反AI幻觉

发布日期:2025-02-24 21:34:15 浏览次数: 1596 来源:明略科技集团
推荐语

AI时代,数据真实性如何保障?明略科技解读AI幻觉背后的真相。

核心内容:
1. 80后死亡率数据误传事件,揭示AI数据误读风险
2.AI生成错误信息的原因分析:基于训练数据的预测机制
3. 企业如何防范AI幻觉,确保数据真实性

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

前段时间,一组关于80后死亡率的数据在网上引发广泛关注。不少自媒体为追逐流量热度,不断渲染炒作,助长了这些离谱数据的传播。近日,央视新闻等权威媒体以及相关专家纷纷辟谣,指出这一数据与事实严重不符。


专家表示,第七次全国人口普查的时间是2020年,其结果显然无法预测2024年的死亡率。此外,人口普查数据只会公布对应时期的死亡率,例如2020年的第七次全国人口普查,反映的是2019年11月1日至2020年10月31日的死亡率,并不存在针对特定群体(如“80后”)的累积死亡状况统计。对于网络上出现的“5.2%”的死亡率数据,错误非常明显。因为专业统计数据中,死亡率通常以千分率表示,而不是百分率,此外相关内容,还存在其他定义混淆等专业常识上的明显错误。


随着中国网民突破11亿,其中约2.5亿人已成为生成式AI用户。AI在带来红利的同时,也带来了风险与挑战。


AI为何会出错?


科普中国曾指出,就像我们在考试时遇到不会的题目,我们会试图用已知知识去推测答案一样,AI在遇到信息缺失或不确定的情况时,会基于自己的“经验”(训练数据)进行填补和推理。这不是因为AI想要欺骗我们,而是它在试图用自己的理解的模式来完成这个任务。


大模型的认知来源于数据,这些数据来自公开数据集、互联网爬取的数据,以及自有或第三方数据。


然而,由于训练语料、数据来源不足等多重因素,AI大模型也存在认知上的不足,难免生成错误或虚假信息,也就是业内常说的“幻觉”


“最主要的原因在于,大模型的根本原理是对下一个token的预测。既然是预测,那么就是选择概率相对最大的路径进行推理,而这条路径并不包含“事实”和“逻辑推理”。”明略科技相关专家指出。


企业如何应对AI幻觉?


随着新进国民顶流DeepSeek的爆火,AI已在全民范围实现了破圈,而企业对AI赋能业务的需求也愈发迫切。然而,专业领域对AI输出信息的真实性、准确性要求更为严格。那么在实际业务场景中,企业如何取其长处、避其短处,让AI更好地为业务服务呢?


明略科技相关专家表示,AI有不同的应用场景,有的需要发散和想象,有的则需要严谨和收敛。企业场景大多要确保答案严谨、有根据,不能出错。


企业可以通过选用特定模型、给定所需材料、增加指令引导等三种主要方式来缓解AI幻觉:


1


选用特定模型

指令遵从和总结引用上表现较好的模型,在训练时往往偏向“引用原文”回答。因此用户在AI给出的答案中可以看到更多原文内容,而非AI自由发挥的结果。

2


给定所需材料

加入与问题相关的材料和信息,AI便可以判断材料与问题之间的关系,并倾向于使用给定材料进行回答。

3


增加指令引导

明确约束,告诉AI要基于已有事实回答,不要进行推测;标注不确定,对于模糊信息,需标注“此处为推测内容”等。


从模型角度来看,GPT-4等模型幻觉较少的原因在于:一是增强训练数据的质量和多样性,相当于用高质量语料,覆盖更多用户场景;二是后期验证和校正机制;三是使用更复杂的约束和规则。


其中,第一点最为关键,即大部分问题都有对应语料进行过训练。但对于没见过的场景和问题,在没有对应语料的情况下,大模型编造依然存在。因此,从AI大模型的“养料”——数据侧开始规避幻觉至关重要。


明略科技认为,对企业而言,


一方面,在特定行业场景中,企业要用事实性数据反AI幻觉,选用权威数据源,有效弥补大模型在专有知识上的缺失;


另一方面,企业要加强知识库建设,并充分运用检索增强生成(RAG)技术。


RAG相当于为大模型配备了一个超级外挂,用户可以随时从可靠资料中获取可靠信息,从而获得更加靠谱的答案。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询