我要投稿

Anthropic 新研究让大模型承认"我不行"

发布日期：2024-09-02 20:21:50 浏览次数： 1846 作者：AGI Hunt

最近研究发现，那些平时自信满满的大模型，竟然也能有了"自知之明"？！

没错，就是那些动不动就喊着"我无所不能"的AI，现在也学会说"这题我不会"了！

这项名为"自我校准提示"的新技术，简直就是给AI装上了一个"诚实药丸"。

它的操作也很简单，就是两步走：

先让AI回答一个问题
再让AI评价自己刚才的回答对不对

就这么简单的两步，居然能让那些平时嘴硬的大模型乖乖认错？

有网友表示："这不就是打脸神器吗？以后GPT-4再敢胡说八道，我就用这招！"

这项技术源自Anthropic 的论文——《语言模型（大多）知道它们知道什么》。

来自Anthropic 的论文作者发现，越大的模型，在自我评估方面表现得越好。这就好比，学霸不仅会做题，还知道自己哪道题做对了。

有意思的是，研究还发现了一个叫"P(IK)"的小玩意儿。这东西就像是给AI装了个"知识探测器"，能预测模型是否能正确回答某个问题。

更神奇的是，如果你给AI一些提示或参考资料，它的"P(IK)"值就会增加。这不就是活学活用吗？

有网友调侃道："这下AI也有'临场发挥'的机会了？给点提示就能临时抱佛脚？"

此外，这项技术还有很多有趣的细节。

比如，研究人员发明了一个"头脑风暴"技巧，让AI在评估自己之前先看看其他可能的答案。这种方法居然大大提高了AI的自我评估能力！

这简直就是给AI开了个“对比学习”的小灶啊！

更让人惊讶的是，随着模型规模的增大，AI的自我验证能力似乎提升得比生成能力更快。这意味着，未来的大模型可能会更懂得审视自己。

有网友戏称：以后AI不仅能写作文，还能当阅卷老师了？

总的说来，这项研究为我们揭示了AI自我认知能力的一个新维度。

它让我们看到，未来的AI可能不仅仅是一个全知全能的黑盒子，而是一个能够理解自身局限的智能助手。

而我想补充的是：连AI都开始"自知"了，我们人类是不是也该多反省反省？

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-28

金融大模型推理能力瓶颈如何突破？通义点金提出 DianJin-R1 框架，点石成金！

2025-04-28

深入解读MCP协议最新版本的4大升级【上】：传输机制与安全授权

2025-04-28

一文了解：为什么大模型 Agent框架（A2A）采用 JSON-RPC 2.0？

2025-04-28

拨开MCP的迷雾，聊聊LLM工具调用的本质（一）：Function Calling

2025-04-28

推荐支持MCP的六大AI框架

2025-04-27

一文了解Text Embedding模型：从text2vec、openai-text embedding到m3e、bge（上）

2025-04-27

RollingAI创始人刘开出席2025年中国绿公司年会，解读AI商业化落地新思维

2025-04-27

一文讲透 MCP 与 Function calling，你想看的都在这里

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

大模型｜“上下文长度”和“上下文窗口”不再傻傻分不清楚！

2024-07-31

一文带你了解大模型——智能体（Agent）

2024-05-28

50+个AI大模型在不同领域的应用案例

2024-08-04

全面对比dify、coze、streamlit、chainlit

2024-04-26

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

一文读懂OpenAI新发布o1系列大模型

2024-09-17

大家都在问

一文了解：为什么大模型 Agent框架（A2A）采用 JSON-RPC 2.0？

2025-04-28

一文了解：大模型 Agent 开发框架有哪些？它们的区别是什么？

2025-04-27

为什么一定要做Agent智能体？

2025-04-25

除了MCP我们还有什么？

2025-04-24

LLM 推理引擎之争：Ollama or vLLM ?

2025-04-24

专题策划（下）| 如何实现大模型与行业的深度耦合？

2025-04-23

OpenAI：就你们也配做智能体？

2025-04-23

白话解析 DPO：如何让 AI 直接学习人类偏好？

2025-04-22

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB