微信扫码
添加专属顾问
我要投稿
通用人工智能(Artificial General Intelligence,AGI),是AI发展的终极目标。
当前的AI其实严格来说只能算作是狭义人工智能(Narrow AI)或弱人工智能(Weak AI),通常局限于特定任务,比如文本生成、图像识别等,不具备通用性。此外,狭义人工智能不具备自主学习和推理能力,回想我们现在的大语言模型(LLM),都是对现有的大量语料进行学习,然后通过神经网络实现输出,而不能像人类一样,自主学习新知识。
通用人工智能则完全不同。从定义来看,通用人工智能指一种能够理解、学习并执行人类在各种环境和任务中的广泛智能行为的人工智能系统。从特点来说,既然叫做通用人工智能,顾名思义,这样的AI具有通用性,具备灵活性和适应性。其主要特点就是能够自主学习、推理,并适应不同领域的任务。它不仅能处理单一问题,还能跨越学科,应用已有知识解决新的复杂问题,具备类似人类的认知、理解和情感智能。
那么,灵魂拷问来了,当前的AI距离真正的AGI有多远?
为了回答这个问题,OpenAI于今年7月推出了一套从AI到AGI的五级分类系统,把AI的发展阶段划分为了清晰明确的五个阶段,这五个阶段分别是:
o1
。没错,o1
正是体现了OpenAI对于第二阶段AI的探索,并且这个模型叫做o1
,而不是GPT-5
,也能够反映这一点。如果说ChatGPT处于上述阶段中的第一阶段:基础AI(Emerging AGI),那么最近推出的推理模型o1
一定能够被划分到第二阶段:推理者(Reasoners)。o1
模型在处理物化生等复杂学科的高难度任务上,表现几乎与博士生相当。在数学领域,更是在国际数学奥林匹克(IMO)考试中达到了惊人的83%正确率,作为对比,GPT-4o
只能正确解决13%的问题。
当大家的目光都还在第二阶段推理者(Reasoners)上时,OpenAI已经将“触手”伸向了第三阶段:代理(Agents)。
今天,OpenAI正式推出了MLE-bench,一个用于衡量AI代理(AI Agents)在机器学习工程中表现的基准测试。OpenAI的研究人员从Kaggle平台上选了75个与机器学习工程相关的竞赛,形成了一套多样化且具有挑战性的任务。这些任务旨在测试AI代理在实际机器学习工程中的关键技能,如训练模型、准备数据集以及运行实验。
MLE-bench是一个用于评估AI代理在机器学习工程任务中表现的离线Kaggle竞赛环境。每个竞赛任务包含详细的描述和相关的数据集,AI代理需要根据任务描述训练模型、处理数据、调试并生成预测结果。AI代理的工作流程主要包括四个步骤:首先,读取竞赛的任务描述,理解任务目标;其次,使用提供的训练数据集训练模型,并根据需要进行调试和优化;接着,在测试数据集上运行模型,生成预测结果;最后,AI代理将生成的预测结果保存为submission.csv
文件,并提交给评分器。评分器会根据预定的评分标准,对提交的结果进行评估,并将代理的成绩与实际参与竞赛的人类选手的成绩进行比较,展示在排行榜上,给出对应的奖牌和得分。
OpenAI的研究团队使用了开源的AI代理框架,对多个LLM模型进行了评估。结果表明,表现最好的设置是结合了o1-preview
模型和AIDE框架的代理系统,该系统在16.9%的竞赛中达到了Kaggle铜牌的水平,而多次尝试后的表现提升至34.1%。
网友:要改变世界,就必须提高标准。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-28
金融大模型推理能力瓶颈如何突破?通义点金提出 DianJin-R1 框架,点石成金!
2025-04-28
深入解读MCP协议最新版本的4大升级【上】:传输机制与安全授权
2025-04-28
一文了解:为什么大模型 Agent框架(A2A)采用 JSON-RPC 2.0?
2025-04-28
拨开MCP的迷雾,聊聊LLM工具调用的本质(一):Function Calling
2025-04-28
推荐支持MCP的六大AI框架
2025-04-27
一文了解Text Embedding模型:从text2vec、openai-text embedding到m3e、bge(上)
2025-04-27
RollingAI创始人刘开出席2025年中国绿公司年会,解读AI商业化落地新思维
2025-04-27
一文讲透 MCP 与 Function calling,你想看的都在这里
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17