我要投稿

微软自主进化代理框架「RD Agent」浅析

发布日期：2024-12-05 18:22:57 浏览次数： 2046 作者：数翼

背景

在现代工业中，研发（R&D）对于提高工业生产力至关重要，尤其是在人工智能时代，研发的核心方面主要集中在数据和模型上。

RD Agent 旨在自动化这些高价值的通用研发流程，让AI驱动数据驱动的AI。

所以这个框架是的对于不是进行数据驱动的科研之外暂时没有太好的应用案例，但是其原理我们可以学习借鉴一下。

两个 Agent

从方法论上讲，RD Agent 提出了一个由两个关键部分组成的自主代理框架：（R）esearch 代表通过提出新想法来积极探索，（D）开发代表实现这些想法。这两个组成部分的有效性最终会通过实践得到反馈，双方的研发能力都可以在过程中不断学习和成长。

框架和组件

上图显示了 RDAgent 的整体框架。

大致流程如下（注意两个专家角色的职责和交互）：

• 数据专家在日常研发过程中，
• 提出一个假设（例如，像 RNN 这样的模型结构可以捕获时间序列数据中的模式），
• 设计实验（例如，金融数据包含时间序列，我们可以在这种情况下验证假设），
• 研发专家将实验实现为代码（例如 Pytorch 模型结构），
• 然后执行代码以获得反馈（例如指标、损失曲线等）。
• 数据专家从反馈中学习，并在下一次迭代中改进。

这个基本的方法框架，不断提出假设、验证它们并从现实世界获得反馈。这也是我们知道的第一个支持与实际验证链接的科研自动化框架。

对详细代码感兴趣的话，可以看看下面的工作流，展示了框架主要的类的交互：

论文

• 《以数据为中心的自动开发的协作式发展战略》^[1]

还可以看看这个论文，了解更多的细节：

Co-STEER 是一种处理以数据为中心的开发（AD2）任务并突出其主要挑战的方法，这些挑战需要专家般的实施（即从实践中学习领域知识）和任务调度能力（例如，从更简单的任务开始以提高整体效率），这些领域在很大程度上被以前的工作所忽视。我们的 Co-STEER 代理通过我们不断发展的策略来增强其领域知识，并通过收集和使用特定领域的实践经验来提高其调度和实施技能。有了更好的时间表，实施就会变得更快。同时，随着实施反馈变得更加详细，调度准确性也会提高。这两项功能通过实际反馈共同发展，从而实现协作式发展过程。