微信扫码
添加专属顾问
我要投稿
AI时代,数据真实性如何保障?明略科技解读AI幻觉背后的真相。 核心内容: 1. 80后死亡率数据误传事件,揭示AI数据误读风险 2.AI生成错误信息的原因分析:基于训练数据的预测机制 3. 企业如何防范AI幻觉,确保数据真实性
前段时间,一组关于80后死亡率的数据在网上引发广泛关注。不少自媒体为追逐流量热度,不断渲染炒作,助长了这些离谱数据的传播。近日,央视新闻等权威媒体以及相关专家纷纷辟谣,指出这一数据与事实严重不符。
专家表示,第七次全国人口普查的时间是2020年,其结果显然无法预测2024年的死亡率。此外,人口普查数据只会公布对应时期的死亡率,例如2020年的第七次全国人口普查,反映的是2019年11月1日至2020年10月31日的死亡率,并不存在针对特定群体(如“80后”)的累积死亡状况统计。对于网络上出现的“5.2%”的死亡率数据,错误非常明显。因为专业统计数据中,死亡率通常以千分率表示,而不是百分率,此外相关内容,还存在其他定义混淆等专业常识上的明显错误。
随着中国网民突破11亿,其中约2.5亿人已成为生成式AI用户。AI在带来红利的同时,也带来了风险与挑战。
科普中国曾指出,就像我们在考试时遇到不会的题目,我们会试图用已知知识去推测答案一样,AI在遇到信息缺失或不确定的情况时,会基于自己的“经验”(训练数据)进行填补和推理。这不是因为AI想要欺骗我们,而是它在试图用自己的理解的模式来完成这个任务。
大模型的认知来源于数据,这些数据来自公开数据集、互联网爬取的数据,以及自有或第三方数据。
然而,由于训练语料、数据来源不足等多重因素,AI大模型也存在认知上的不足,难免生成错误或虚假信息,也就是业内常说的“幻觉”。
“最主要的原因在于,大模型的根本原理是对下一个token的预测。既然是预测,那么就是选择概率相对最大的路径进行推理,而这条路径并不包含“事实”和“逻辑推理”。”明略科技相关专家指出。
随着新进国民顶流DeepSeek的爆火,AI已在全民范围实现了破圈,而企业对AI赋能业务的需求也愈发迫切。然而,专业领域对AI输出信息的真实性、准确性要求更为严格。那么在实际业务场景中,企业如何取其长处、避其短处,让AI更好地为业务服务呢?
明略科技相关专家表示,AI有不同的应用场景,有的需要发散和想象,有的则需要严谨和收敛。企业场景大多要确保答案严谨、有根据,不能出错。
企业可以通过选用特定模型、给定所需材料、增加指令引导等三种主要方式来缓解AI幻觉:
选用特定模型
指令遵从和总结引用上表现较好的模型,在训练时往往偏向“引用原文”回答。因此用户在AI给出的答案中可以看到更多原文内容,而非AI自由发挥的结果。
给定所需材料
加入与问题相关的材料和信息,AI便可以判断材料与问题之间的关系,并倾向于使用给定材料进行回答。
增加指令引导
明确约束,告诉AI要基于已有事实回答,不要进行推测;标注不确定,对于模糊信息,需标注“此处为推测内容”等。
从模型角度来看,GPT-4等模型幻觉较少的原因在于:一是增强训练数据的质量和多样性,相当于用高质量语料,覆盖更多用户场景;二是后期验证和校正机制;三是使用更复杂的约束和规则。
其中,第一点最为关键,即大部分问题都有对应语料进行过训练。但对于没见过的场景和问题,在没有对应语料的情况下,大模型编造依然存在。因此,从AI大模型的“养料”——数据侧开始规避幻觉至关重要。
明略科技认为,对企业而言,
一方面,在特定行业场景中,企业要用事实性数据反AI幻觉,选用权威数据源,有效弥补大模型在专有知识上的缺失;
另一方面,企业要加强知识库建设,并充分运用检索增强生成(RAG)技术。
RAG相当于为大模型配备了一个超级外挂,用户可以随时从可靠资料中获取可靠信息,从而获得更加靠谱的答案。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-02-28
DeepRAG:智能检索+MDP,精准秒杀事实幻觉,准确率飙升21.99%!
2025-02-28
直接拿大模型当搜索页(SERP)会怎样?
2025-02-28
使用RAG技术构建企业级文档问答系统:切分(5)Late Chunking
2025-02-26
知识Agent检索:让RAG迸发智慧的五个架构跃迁点
2025-02-25
服务器繁忙?动手做:满血版DeepSeek R1+Agentic RAG 构建联网搜索智能体(附源码)
2025-02-24
三种RAG方案实测:自建知识库 vs 腾讯IMA vs Google的AI笔记本
2025-02-24
RAG 与 CAG:知识处理的新时代
2025-02-24
基于DeepSeek构建RAG 系统综合指南(含代码)
2024-09-04
2024-10-27
2024-07-18
2024-05-05
2024-06-20
2024-06-13
2024-07-09
2024-07-09
2024-05-19
2024-07-07
2025-02-28
2025-02-24
2025-02-23
2025-02-15
2025-02-12
2025-02-05
2025-02-05
2025-01-24