支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


ChatGPT 记忆增强,AI 更懂我了!

发布日期:2025-04-11 06:02:05 浏览次数: 1685 作者:浮之静
推荐语

探索AI记忆增强功能,与个性化回复的革新体验。

核心内容:
1. ChatGPT记忆功能详解:如何引用过往聊天记录提供个性化回复
2. 用户对新记忆功能的两极化反馈:从喜爱到质疑
3. OpenAI新评测基准:BrowseComp对GPT系列模型的影响分析

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

Sam 兴奋地睡不着,我还以为 OpenAI 又有啥大动作,谁知几个小时过去了,只看到了一个记忆增强功能。虽然发布了,却又差很多点意思...

Sam 原帖:一年里总有那么几次,我会因为要发布一个期待已久的新功能而在清晨兴奋地醒来,怎么也睡不着。今天就是这样的一天!

记忆功能

ChatGPT 记忆功能可以引用你所有的过往聊天记录,提供更个性化的回复——基于你的喜好和兴趣,为写作、获取建议、学习等带来更多帮助。

除了此前已有的保存记忆功能之外,它现在能够参考你过去的聊天记录,给出更贴合、有用的回复。新的对话会自然而然地建立在它对你的了解之上,让交互更加流畅,并为你量身打造独特的体验。

和往常一样,你可以完全掌控 ChatGPT 的记忆功能。你可以随时在设置中选择退出引用过去聊天记录或完全关闭记忆。如果你原先已经关闭了记忆功能,那么默认也不会引用过去的聊天记录。如果想修改 ChatGPT 对你的了解,只需在聊天中直接提出即可。如果想进行一次不使用或影响记忆的对话,也可使用临时聊天。

记忆功能的最新改进从即日起,逐步向所有 Plus 和 Pro 用户推出,但不包括欧盟经济区(EEA)、英国、瑞士、挪威、冰岛和列支敦士登地区。团队版、企业版和教育版用户将在几周后获得使用权限。

当你在 ChatGPT 中看到以下提示时,就表示已经获得了改进后的记忆功能:

额...,这次的记忆功能很难评价。感觉产生了两部分极端人群。喜欢的特别喜欢,认为 AI 更懂自己了,可以更好地交流。讨厌的人则认为 OpenAI 这是在将用户数据绑定在平台。还有一些人表示这种体验很差,认为在 ChatGPT 里有许多对话并没有特定意义,比较发散,让其成为记忆会十分凌乱。还有一些人不太敢相信这就是全部的更新,有点糊弄人了。

也有一些有趣评论,项目太多,把 ChatGPT 搞懵逼了。人工智能不仅助我学习,更助力我蜕变!

还有用户表示开启记忆后,回复变迟钝,还会翻老垃圾了 ?(扎心了,看来记太多也不是件好事)...

评论区还看到一张关于 “Internal knowledge” 的截图,大概率也是这次更新的内容。

BrowseComp

除改进的记忆功能外,OpenAI 还发布了一个评测基准。基准内容没太大意思,感兴趣的可以去看原文。不过针对 GPT 系列模型的测评结果还是挺有趣的,可以指导我们更好地使用 ChatGPT。

BrowseComp[1](检验浏览代理能力的评测基准):随着 AI 代理在互联网浏览与知识获取方面的应用日趋广泛,高效的浏览代理必须能够搜寻并整合难以获取的信息,往往需要访问几十甚至上百个网站。现有的基准(如主要考察检索基本孤立事实的 SimpleQA)已经无法充分区分这些代理的优劣,比如具备浏览功能的 GPT-4o 在此类简单任务中几乎达到上限。为了评估 AI 代理在互联网中定位复杂、纠缠信息的真实能力,OpenAI 推出了一个名为 BrowseComp(“Browsing Competition”)的新基准,共包含 1,266 道难度较高的问题。该基准已经在 OpenAI 的 simple-evals[2] GitHub 项目中开源,并配套了研究论文供参考。

评测对象与结果

OpenAI 将以下模型应用于 BrowseComp 进行测试:

  1. GPT-4o、GPT-4.5(均不具备浏览功能)
  2. OpenAI o1(中等体量,不具备浏览功能,但推理能力相对较强)
  3. GPT-4o(带浏览功能)
  4. Deep Research(经过专门训练,能够进行持续网页浏览的代理模型)

1. GPT-4o 和 GPT-4.5

不具备浏览功能,准确率几乎为零,说明在需要多步推理或跨多个站点查找信息时,单纯依靠内部知识和有限推理无法应对 BrowseComp 的复杂问题。

2. GPT-4o(带浏览功能)

启用浏览后,准确率从 0.6% 提高到 1.9%,虽然有所提升,但整体仍较低。事实表明,仅具备浏览能力远远不够,模型还需要具备战略性推理思维,能够发现合适的搜索路径,并准确理解检索到的内容。

3. OpenAI o1

虽然没有浏览功能,但在推理能力上胜过 GPT-4o,准确率明显更高。这表明一部分问题可以直接通过内部推理来解答,而无需在线信息。

4. Deep Research

在所有模型中表现最佳,能解答大约一半的问题。它具备持续搜索、多源信息整合以及自适应搜索策略等特性,能够高效解决许多跨站点、多跳检索的复杂问题。通过整合大量在线信息,并在搜索过程中根据检索结果进行调整,Deep Research 尤其擅长处理那些内容小众、答案不直观且需要多网站交叉验证的题目——这些正是 BrowseComp 想要重点考查的难点。

小结

  • BrowseComp 与传统基准不同,专门针对难以检索、多步推理的问题设计。
  • 测试结果显示,浏览能力与推理能力同等重要;仅有浏览工具难以明显提高准确率,但若缺乏足够的推理能力,也难以利用浏览信息。
  • Deep Research 将自主浏览与复杂推理结合,能在此高难度基准上实现显著领先的表现。

总体而言,BrowseComp 有效地考验了 AI 代理在互联网中定位稀有信息、灵活调整搜索路径以及综合多方信息的能力,为后续提升浏览型 AI 模型的研发提供了重要参考。

爆料

公开的更新内容虽然有点少,但有人在最新版 ChatGPT 网页源代码中发现了新增的 o4-minio4-mini-high 和 o3 模型选项。感兴趣的朋友可自行查看源码 https://cdn.oaistatic.com/assets/o5mi5e8rf3i1o1na.js

References

[1]

BrowseComp: https://openai.com/index/browsecomp

[2]

simple-evals: https://github.com/openai/simple-evals

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询