我要投稿

ChatGPT 记忆增强，AI 更懂我了！

发布日期：2025-04-11 06:02:05 浏览次数： 1685 作者：浮之静

Sam 兴奋地睡不着，我还以为 OpenAI 又有啥大动作，谁知几个小时过去了，只看到了一个记忆增强功能。虽然发布了，却又差很多点意思...

Sam 原帖：一年里总有那么几次，我会因为要发布一个期待已久的新功能而在清晨兴奋地醒来，怎么也睡不着。今天就是这样的一天！

记忆功能

ChatGPT 记忆功能可以引用你所有的过往聊天记录，提供更个性化的回复——基于你的喜好和兴趣，为写作、获取建议、学习等带来更多帮助。

除了此前已有的保存记忆功能之外，它现在能够参考你过去的聊天记录，给出更贴合、有用的回复。新的对话会自然而然地建立在它对你的了解之上，让交互更加流畅，并为你量身打造独特的体验。

和往常一样，你可以完全掌控 ChatGPT 的记忆功能。你可以随时在设置中选择退出引用过去聊天记录或完全关闭记忆。如果你原先已经关闭了记忆功能，那么默认也不会引用过去的聊天记录。如果想修改 ChatGPT 对你的了解，只需在聊天中直接提出即可。如果想进行一次不使用或影响记忆的对话，也可使用临时聊天。

记忆功能的最新改进从即日起，逐步向所有 Plus 和 Pro 用户推出，但不包括欧盟经济区（EEA）、英国、瑞士、挪威、冰岛和列支敦士登地区。团队版、企业版和教育版用户将在几周后获得使用权限。

当你在 ChatGPT 中看到以下提示时，就表示已经获得了改进后的记忆功能：

额...，这次的记忆功能很难评价。感觉产生了两部分极端人群。喜欢的特别喜欢，认为 AI 更懂自己了，可以更好地交流。讨厌的人则认为 OpenAI 这是在将用户数据绑定在平台。还有一些人表示这种体验很差，认为在 ChatGPT 里有许多对话并没有特定意义，比较发散，让其成为记忆会十分凌乱。还有一些人不太敢相信这就是全部的更新，有点糊弄人了。

也有一些有趣评论，项目太多，把 ChatGPT 搞懵逼了。人工智能不仅助我学习，更助力我蜕变！

还有用户表示开启记忆后，回复变迟钝，还会翻老垃圾了 ?（扎心了，看来记太多也不是件好事）...

评论区还看到一张关于 “Internal knowledge” 的截图，大概率也是这次更新的内容。

BrowseComp

除改进的记忆功能外，OpenAI 还发布了一个评测基准。基准内容没太大意思，感兴趣的可以去看原文。不过针对 GPT 系列模型的测评结果还是挺有趣的，可以指导我们更好地使用 ChatGPT。

BrowseComp^[1]（检验浏览代理能力的评测基准）：随着 AI 代理在互联网浏览与知识获取方面的应用日趋广泛，高效的浏览代理必须能够搜寻并整合难以获取的信息，往往需要访问几十甚至上百个网站。现有的基准（如主要考察检索基本孤立事实的 SimpleQA）已经无法充分区分这些代理的优劣，比如具备浏览功能的 GPT-4o 在此类简单任务中几乎达到上限。为了评估 AI 代理在互联网中定位复杂、纠缠信息的真实能力，OpenAI 推出了一个名为 BrowseComp（“Browsing Competition”）的新基准，共包含 1,266 道难度较高的问题。该基准已经在 OpenAI 的 simple-evals^[2] GitHub 项目中开源，并配套了研究论文供参考。

评测对象与结果

OpenAI 将以下模型应用于 BrowseComp 进行测试：

GPT-4o、GPT-4.5（均不具备浏览功能）
OpenAI o1（中等体量，不具备浏览功能，但推理能力相对较强）
GPT-4o（带浏览功能）
Deep Research（经过专门训练，能够进行持续网页浏览的代理模型）

1. GPT-4o 和 GPT-4.5

不具备浏览功能，准确率几乎为零，说明在需要多步推理或跨多个站点查找信息时，单纯依靠内部知识和有限推理无法应对 BrowseComp 的复杂问题。

2. GPT-4o（带浏览功能）

启用浏览后，准确率从 0.6% 提高到 1.9%，虽然有所提升，但整体仍较低。事实表明，仅具备浏览能力远远不够，模型还需要具备战略性推理思维，能够发现合适的搜索路径，并准确理解检索到的内容。

3. OpenAI o1

虽然没有浏览功能，但在推理能力上胜过 GPT-4o，准确率明显更高。这表明一部分问题可以直接通过内部推理来解答，而无需在线信息。

4. Deep Research

在所有模型中表现最佳，能解答大约一半的问题。它具备持续搜索、多源信息整合以及自适应搜索策略等特性，能够高效解决许多跨站点、多跳检索的复杂问题。通过整合大量在线信息，并在搜索过程中根据检索结果进行调整，Deep Research 尤其擅长处理那些内容小众、答案不直观且需要多网站交叉验证的题目——这些正是 BrowseComp 想要重点考查的难点。