AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


OpenAI反击DeepSeek!刚发布新模型Deep research,刷新最高记录
发布日期:2025-02-03 13:02:30 浏览次数: 1598 来源:AIGC开放社区
推荐语

OpenAI重磅发布Deep Research模型,AI搜索分析能力惊艳提升!

核心内容:
1. Deep Research模型的发布背景及特点
2. Deep Research与传统大模型的差异及优势
3. Deep Research在市场研究任务中的应用实例及效果

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

今早8点,OpenAI东京分部进行了技术直播,发布了全新模型——Deep Research。

与传统大模型不同的是,Deep Research能够像人类分析师一样,对复杂的任务进行逐步分解,并在互联网上进行多轮的信息搜索与验证。会根据已有的信息逐步调整研究方向和策略,不断深入挖掘问题的本质,直到找到最合适的答案。

例如,在处理一个关于特定市场趋势的研究任务时,模型首先会通过关键词搜索获取初步信息,然后根据这些信息进一步查找相关的行业报告、统计数据、专家观点等,对不同来源的信息进行对比分析,最终形成一份综合性的研究报告。

值得一提的是, OpenAI非常罕见地与全球爆火的开源模型DeepSeek-R1进行了对比,在人类最后考试测试中达到了恐怖的26.6%,是R1的2.8倍,同时刷新了之前创造的最好记录18.2%

直播图

其实今天是美国的周末,就算是东京分公司今早9点(比国内快1小时)就开始直播也够拼的了。

按照OpenAI以往的惯例,发布重要技术产品通常会从周二开始,可见DeepSeek对其造成了多大的影响,这是攒足了大招要全面反攻。其实单从这个模型的名字就能看出来寓意啦~

Deep Research简单介绍

「AIGC开放社区」根据直播观看到的内容,为大家简单介绍一下Deep Research的技术特点和优势。

Deep Research是基于OpenAI的o3模型之上开发而成的,并针对多种特定任务进行了深度优化和精调。

端到端强化学习是 Deep Research 的关键所在。传统的机器学习方法在处理复杂任务时,往往需要人为地划分多个阶段进行训练和优化,而端到端强化学习则让模型从输入到输出进行整体的学习和优化。

Deep Research通过这种学习方式,学会了规划和执行多步骤的研究轨迹。在面对一个复杂的研究课题时,它能够像人类研究者一样,制定出合理的研究计划,先确定从哪些渠道获取信息,然后根据获取到的信息进行分析,判断下一步的研究方向。

如果在研究过程中发现之前的计划存在偏差,它还能像经验丰富的研究者一样进行回溯,重新调整研究策略,确保最终能得到准确且有价值的结果。

完整技术直播

在这个学习过程中,模型不断地与环境进行交互,从环境反馈中学习最优的行为策略。在浏览网页获取信息时,模型会根据网页内容的相关性、可信度等因素,决定是否深入浏览该网页,以及如何提取其中有用的信息。

这种基于实时信息进行决策和调整的能力,是 Deep Research 能够高效完成复杂研究任务的重要保障。

除了端到端强化学习,去除模型的响应限制也是 Deep Research 的重要技术突破。传统的大模型为了追求快速响应,往往在处理复杂问题时只能浅尝辄止,无法进行深入的思考和分析。

Deep Research 打破了这一限制,允许模型花费5 —30 分钟甚至更长时间来处理问题。这使得模型有足够的时间对海量的网络信息进行筛选、分析和整合,从而能够输出更加全面、深入、准确的研究成果。

例如,在进行市场调研类任务时,模型可以花费足够的时间去收集不同地区、不同时间段的市场数据,对市场趋势进行更精准的预测;

在学术研究领域,它能够深入研读大量的文献资料,挖掘出不同研究之间的潜在联系,为科研工作者提供更具价值的研究思路。

Deep Research主要模块

Deep Research模型由多个模块组成,有点类似分层的AI Agent协同工作。信息发现模块,能够快速定位到各类网站、文档、数据库等信息源,并从中提取出有价值的线索。当用户想要了解某一特定疾病的最新研究进展时,信息发现模块会迅速在学术数据库、科研机构网站、医学论坛等多个平台上搜索相关的论文、研究报告、专家观点等信息,为后续的分析和综合提供丰富的素材。

信息发现模块还具备强大的信息筛选能力。它能够根据关键词、语义关联、信息的时效性和可信度等多个维度对搜索到的信息进行初步筛选,排除那些与用户问题无关或价值较低的信息,大大提高了信息处理的效率和质量。在筛选过程中,它会运用自然语言处理技术对信息内容进行分析,准确理解信息的含义,确保筛选出的信息与用户需求高度匹配。

信息综合模块,能将来自不同渠道的信息进行整合和梳理,识别出信息之间的逻辑关系,将零散的信息组织成一个有条理的整体。

例如,在进行科技领域的研究时,信息综合模块可能会将关于某一新技术的原理介绍、应用案例、发展趋势等不同方面的信息进行融合,形成一份系统的技术报告。在这个过程中,不仅会整合文字信息,还会对图片、表格、数据等多种形式的信息进行处理和分析,使最终的研究成果更加丰富和全面。

信息综合模块还具备信息提炼的能力,能够从大量的信息中提取出关键要点,去除冗余信息,使研究成果更加简洁明了。在处理一篇冗长的学术论文时,能够准确提炼出论文的核心观点、研究方法、主要结论等重要内容,帮助用户快速了解论文的精髓,节省阅读和分析的时间。

Deep Research 的推理模块是其核心功能之一,可以像人类一样的思考和判断能力。在面对复杂的问题时,推理模块能够运用逻辑推理、知识图谱等技术,对收集到的信息进行深入分析和推理。在解答科学问题时,推理模块会根据已知的科学原理和事实,对问题进行逐步推导和论证,得出合理的结论。在分析市场趋势时,会结合历史数据、市场动态、行业政策等多方面信息,运用经济学原理和数据分析方法,预测市场的未来走向。

推理模块还具备自我修正和优化的能力。在推理过程中,如果发现新的信息与之前的推理结果存在矛盾,它会重新审视推理过程,调整推理策略,确保最终的结论更加准确可靠。在研究某一历史事件时,随着新的历史资料被发现,推理模块会根据这些新资料对之前的研究结论进行修正和完善,使研究成果更加符合历史事实。

Deep Research 的输出模块致力于为用户提供高质量的研究成果呈现。能够根据用户的需求,将研究结果以不同的格式输出,如报告、论文、图表等。当用户需要进行市场分析时,输出模块可以生成一份格式规范、内容详实的市场调研报告,其中包含清晰的文字阐述、直观的图表展示以及准确的数据引用,方便用户进行决策和汇报。

Deep Research测试数据

AI安全与规模中心发布的 “人类的最后一次考试”,是一项涵盖广泛知识领域的基准测试。包含约 3000 个简答题和多项选择题 ,涉及约 100 个不同学科。在这项测试中,Deep Research 模型的准确率达到 26.6%,超过R1、o1、Grok2等知名开闭源模型。

Gaia 主要用于衡量模型的议程能力,对网络浏览、多模态能力、代码执行以及文件推理等方面有严格要求,且设置了三个难度级别。Deep Research在 Gaia 测试的所有三个难度级别上都达到了全新新高度。

此外,OpenAI 设计了一系列内部基准测试,涵盖 市场研究、学术研究、消费决策 等多个实际应用场景。在专家级别的任务中,Deep Research 能够完成那些专家需要数小时才能完成的任务。

目前,Deep Research将很快给Pro用户使用,随后扩大至Plus和team等。

本文素材来源OpenAI直播,如有侵权请联系删除

END

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询