我要投稿

准备进入AI第三阶段：OpenAI推出AI Agent基准MLE-bench！

发布日期：2024-10-11 07:58:17 浏览次数： 2234 作者：AI信息Gap

通用人工智能（Artificial General Intelligence，AGI），是AI发展的终极目标。

当前的AI其实严格来说只能算作是狭义人工智能（Narrow AI）或弱人工智能（Weak AI），通常局限于特定任务，比如文本生成、图像识别等，不具备通用性。此外，狭义人工智能不具备自主学习和推理能力，回想我们现在的大语言模型（LLM），都是对现有的大量语料进行学习，然后通过神经网络实现输出，而不能像人类一样，自主学习新知识。

通用人工智能则完全不同。从定义来看，通用人工智能指一种能够理解、学习并执行人类在各种环境和任务中的广泛智能行为的人工智能系统。从特点来说，既然叫做通用人工智能，顾名思义，这样的AI具有通用性，具备灵活性和适应性。其主要特点就是能够自主学习、推理，并适应不同领域的任务。它不仅能处理单一问题，还能跨越学科，应用已有知识解决新的复杂问题，具备类似人类的认知、理解和情感智能。

那么，灵魂拷问来了，当前的AI距离真正的AGI有多远？

为了回答这个问题，OpenAI于今年7月推出了一套从AI到AGI的五级分类系统，把AI的发展阶段划分为了清晰明确的五个阶段，这五个阶段分别是：

基础AI（Emerging AGI）：AI发展的初级阶段，指能够进行基本对话和信息处理的AI，如ChatGPT。尽管看起来炫酷，但强依赖于预训练的数据集，AI本身的“智商”（理解和推理能力）很有限。
推理者（Reasoners）：基本AI的进阶版本，具备高级的逻辑推理和复杂问题解决能力。看到这里，小伙伴们是不是能够联想起OpenAI最近发布的推理模型o1。没错，o1正是体现了OpenAI对于第二阶段AI的探索，并且这个模型叫做o1，而不是GPT-5，也能够反映这一点。
代理（Agents）：AI Agents，中文名可以直译为AI代理，但根据目前国内主流叫法，应该叫做智能体。当前大多数AI Agents其实还处于比较初级的阶段，主要通过规划、推理和工具调用来完成一些基础AI无法完成的复杂任务。
创新AI（Innovators）：这一阶段的AI不仅能解决现有问题，还能进行自主研究和开发，是不是越来越接近我们人类了，在学习中创新和进化，形成一个良性的循环。
组织AI（Organizations）：通用人工智能最终阶段，这种AI系统能够智能分配任务，协同工作，完成复杂的任务，类似于一个团队或组织，获得1+1大于2的效果。

如果说ChatGPT处于上述阶段中的第一阶段：基础AI（Emerging AGI），那么最近推出的推理模型o1一定能够被划分到第二阶段：推理者（Reasoners）。o1模型在处理物化生等复杂学科的高难度任务上，表现几乎与博士生相当。在数学领域，更是在国际数学奥林匹克（IMO）考试中达到了惊人的83%正确率，作为对比，GPT-4o只能正确解决13%的问题。

当大家的目光都还在第二阶段推理者（Reasoners）上时，OpenAI已经将“触手”伸向了第三阶段：代理（Agents）。

今天，OpenAI正式推出了MLE-bench，一个用于衡量AI代理（AI Agents）在机器学习工程中表现的基准测试。OpenAI的研究人员从Kaggle平台上选了75个与机器学习工程相关的竞赛，形成了一套多样化且具有挑战性的任务。这些任务旨在测试AI代理在实际机器学习工程中的关键技能，如训练模型、准备数据集以及运行实验。

MLE-bench是一个用于评估AI代理在机器学习工程任务中表现的离线Kaggle竞赛环境。每个竞赛任务包含详细的描述和相关的数据集，AI代理需要根据任务描述训练模型、处理数据、调试并生成预测结果。AI代理的工作流程主要包括四个步骤：首先，读取竞赛的任务描述，理解任务目标；其次，使用提供的训练数据集训练模型，并根据需要进行调试和优化；接着，在测试数据集上运行模型，生成预测结果；最后，AI代理将生成的预测结果保存为submission.csv文件，并提交给评分器。评分器会根据预定的评分标准，对提交的结果进行评估，并将代理的成绩与实际参与竞赛的人类选手的成绩进行比较，展示在排行榜上，给出对应的奖牌和得分。