微信扫码
添加专属顾问
我要投稿
探索AI记忆增强功能,与个性化回复的革新体验。核心内容:1. ChatGPT记忆功能详解:如何引用过往聊天记录提供个性化回复2. 用户对新记忆功能的两极化反馈:从喜爱到质疑3. OpenAI新评测基准:BrowseComp对GPT系列模型的影响分析
Sam 兴奋地睡不着,我还以为 OpenAI 又有啥大动作,谁知几个小时过去了,只看到了一个记忆增强功能。虽然发布了,却又差
很多点意思...
Sam 原帖:一年里总有那么几次,我会因为要发布一个期待已久的新功能而在清晨兴奋地醒来,怎么也睡不着。今天就是这样的一天!
ChatGPT 记忆功能可以引用你所有的过往聊天记录,提供更个性化的回复——基于你的喜好和兴趣,为写作、获取建议、学习等带来更多帮助。
除了此前已有的保存记忆功能之外,它现在能够参考你过去的聊天记录,给出更贴合、有用的回复。新的对话会自然而然地建立在它对你的了解之上,让交互更加流畅,并为你量身打造独特的体验。
和往常一样,你可以完全掌控 ChatGPT 的记忆功能。你可以随时在设置中选择退出引用过去聊天记录或完全关闭记忆。如果你原先已经关闭了记忆功能,那么默认也不会引用过去的聊天记录。如果想修改 ChatGPT 对你的了解,只需在聊天中直接提出即可。如果想进行一次不使用或影响记忆的对话,也可使用临时聊天。
记忆功能的最新改进从即日起,逐步向所有 Plus 和 Pro 用户推出,但不包括欧盟经济区(EEA)、英国、瑞士、挪威、冰岛和列支敦士登地区。团队版、企业版和教育版用户将在几周后获得使用权限。
当你在 ChatGPT 中看到以下提示时,就表示已经获得了改进后的记忆功能:
额...,这次的记忆功能很难评价。感觉产生了两部分极端人群。喜欢的特别喜欢,认为 AI 更懂自己了,可以更好地交流。讨厌的人则认为 OpenAI 这是在将用户数据绑定在平台。还有一些人表示这种体验很差,认为在 ChatGPT 里有许多对话并没有特定意义,比较发散,让其成为记忆会十分凌乱。还有一些人不太敢相信这就是全部的更新,有点糊弄人了。
也有一些有趣评论,项目太多,把 ChatGPT 搞懵逼了。人工智能不仅助我学习,更助力我蜕变!
还有用户表示开启记忆后,回复变迟钝,还会翻老垃圾了 ?(扎心了,看来记太多也不是件好事)...
评论区还看到一张关于 “Internal knowledge” 的截图,大概率也是这次更新的内容。
除改进的记忆功能外,OpenAI 还发布了一个评测基准。基准内容没太大意思,感兴趣的可以去看原文。不过针对 GPT 系列模型的测评结果还是挺有趣的,可以指导我们更好地使用 ChatGPT。
BrowseComp[1](检验浏览代理能力的评测基准):随着 AI 代理在互联网浏览与知识获取方面的应用日趋广泛,高效的浏览代理必须能够搜寻并整合难以获取的信息,往往需要访问几十甚至上百个网站。现有的基准(如主要考察检索基本孤立事实的 SimpleQA)已经无法充分区分这些代理的优劣,比如具备浏览功能的 GPT-4o 在此类简单任务中几乎达到上限。为了评估 AI 代理在互联网中定位复杂、纠缠信息的真实能力,OpenAI 推出了一个名为 BrowseComp(“Browsing Competition”)的新基准,共包含 1,266 道难度较高的问题。该基准已经在 OpenAI 的 simple-evals[2] GitHub 项目中开源,并配套了研究论文供参考。
OpenAI 将以下模型应用于 BrowseComp 进行测试:
不具备浏览功能,准确率几乎为零,说明在需要多步推理或跨多个站点查找信息时,单纯依靠内部知识和有限推理无法应对 BrowseComp 的复杂问题。
启用浏览后,准确率从 0.6% 提高到 1.9%,虽然有所提升,但整体仍较低。事实表明,仅具备浏览能力远远不够,模型还需要具备战略性推理思维,能够发现合适的搜索路径,并准确理解检索到的内容。
虽然没有浏览功能,但在推理能力上胜过 GPT-4o,准确率明显更高。这表明一部分问题可以直接通过内部推理来解答,而无需在线信息。
在所有模型中表现最佳,能解答大约一半的问题。它具备持续搜索、多源信息整合以及自适应搜索策略等特性,能够高效解决许多跨站点、多跳检索的复杂问题。通过整合大量在线信息,并在搜索过程中根据检索结果进行调整,Deep Research 尤其擅长处理那些内容小众、答案不直观且需要多网站交叉验证的题目——这些正是 BrowseComp 想要重点考查的难点。
总体而言,BrowseComp 有效地考验了 AI 代理在互联网中定位稀有信息、灵活调整搜索路径以及综合多方信息的能力,为后续提升浏览型 AI 模型的研发提供了重要参考。
公开的更新内容虽然有点少,但有人在最新版 ChatGPT 网页源代码中发现了新增的 o4-mini
、o4-mini-high
和 o3
模型选项。感兴趣的朋友可自行查看源码 https://cdn.oaistatic.com/assets/o5mi5e8rf3i1o1na.js
。
BrowseComp: https://openai.com/index/browsecomp
[2]simple-evals: https://github.com/openai/simple-evals
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-14
揭秘Function calling:详解大模型调用工具底层原理,四大优化方案提升Agent性能!
2025-04-14
MemInsight:结构化记忆增强,让 LLM Agent更智能
2025-04-14
微软论文:API Agents和GUI Agents的分歧与融合
2025-04-14
从“人驱动”到“模型驱动”:聊聊 Agent 在 2025 年的爆发与挑战
2025-04-14
MCP 正当时:FunctionAI MCP 开发平台来了!
2025-04-14
MCP协议深度解读:技术创新正以前所未有的速度突破
2025-04-14
大模型量化技术:主流方法解析与代码实践
2025-04-14
面向 MoE 和推理模型时代:阿里云大数据 AI 产品升级发布
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-04-13
2025-04-13
2025-04-13
2025-04-12
2025-04-12
2025-04-11
2025-04-11
2025-04-10