伦敦大学学院汪军教授：AI 员工的数据新范式 | Agent Insights

发布日期：2024-05-02 11:24:55 浏览次数： 2619

作者：緑洲资本 Vitalbridge

微信搜一搜，关注“緑洲资本 Vitalbridge”

随着数据在工作环境中的不断产生和积累，数据科学在各行各业中可谓企业运行的核心。大语言模型在数据科学中展现出的巨大潜力尚待挖掘，如何令数据科学在支持组织决策定制，业务优化以及全面效率提升上实现迭代？伦敦大学学院（UCL）计算机系汪军教授创新的案例式推理 DS-Agent，可以大幅提升数据科学的自动化问题解决能力，在传统 BI 基础之上，进一步提升泛化场景的工作和运营效率。Enjoy

《DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning 》

DS-Agent 整体框架

解决问题：数据科学包括数据收集、处理、建模、预测等关键环节，过程复杂但是企业内部/科研领域刚需。传统机器学习应用在数据科学领域需要耗费大量时间才能积累足够的微调数据，执行反向传播算法（Backpropagation）过程中，对于计算资源的要求较高。DS-Agent 利用案例式推理方式不断累积过往经验，遇到新问题时复用案例解决方案，最终提升数据科学问题解决能力

模型框架：DS-Agent 利用案例式推理分析、提取和重用 Kaggle（世界上最大的数据科学竞赛平台）上的人类专家见解，并根据实际的执行反馈迭代修订解决方案

使用效果：借助 DS-Agent，即使使用者不懂编程、没学过机器学习，也能解决复杂数据分析问题，对业务进行深度洞察，对于企业数据部门工作效率在降本增效的情况下有极大提升

应用空间：一切需要数据科学处理的自动化流程，例如营销、金融、国企等场景

DS-Agent 的开发阶段与部署阶段

评估结果：开发阶段，DS-Agent 使用 GPT-4 首次在数据科学任务中实现了 100% 成功率。相比之下，DS-Agent 即使使用 GPT-3.5 也展现出了比最强基准 ResearchAgent 使用 GPT-4 时还要高的成功率。部署阶段中，DS-Agent 使用 GPT-4 时，取得了首次接近 100% 的一次成功率，同时将开源模型 Mixtral-8x7b-Instruct 的一次成功率从 6.11% 跃升到了 31.11%

DS-Agent 开发阶段性能评估结果

绿洲：DS-Agent 中使用 CBR（Case-Based Reasoning，案例式推理）进行 Kaggle 数据检索学习的设计，请给我们介绍一下选择这个方案的思考？

汪教授：首先，企业 To B 场景里最大的应用是数据科学。任何企业工作环境都离不开电脑，工作过程中会产生大量数据，企业运行的核心就是数据科学。从机器学习的角度来看，LLM 给数据科学带来了巨大的改变，提供了 Copilot 概念，帮助数据科学家有效地解决长尾问题。以往，大型企业进行数据科学分析时成本很高，而且只能解决较大的机器学习问题。LLM 的到来既降低了一定成本，又能解决过去无法解决的长尾问题，因此 Agent 在数据科学领域能产生各种各样应用。

在最早的数据库中，预测分析、流程可视化、结果生成都需要代码生成。我们在 DS-Agent 框架中，利用了 CBR 自我演进的学习方法。过去，机器学习的核心是反向传播算法（Backpropagation），其本质是给定 X 值的情况下预测 Y 值，通过多组数据找到 X、Y 之间的关系，从而实现给定新 X 值就能够预测对应 Y 值的能力，实现泛化。然而，这一过程中存在一些痛点：需要大量算力，训练和测试是分开进行的，而且也不是最高效的方法。在这个过程中，电力基本变成热能了（笑）。

LLM 的一个显著优点是拥有较长的上下文，这意味着不同历史数据放入上下文会产生不同结果。因此，我们不一定需要用反向传播算法，而可以利用 Prompt Engineering 引导结果。这样可以利用案例式推理将所有历史经验以 Prompt 的形式输入，通过反复告诉模型某些问题让其记住，达到一定程度后就能将 LLM 泛化到新的问题上。在数据科学历史上，有很多为解决特定问题而贡献出来的代码，性能有好有坏。这些内容相当于案例数据库（Case Database），通过案例式推理方式将其提取出来，并根据不同的性能反馈进行训练。这种方法能够有效解决长尾问题，记住案例，下次遇到相似问题时可以直接提取，实现越学越好的自我演进效果。

历史上的案例式推理没有大语言模型总结和生成的能力做支撑，主要依赖相似性测度（Similarity Measure），类似过去的推荐系统。LLM 可以有效总结案例式推理结果，并赋予其一定的意义。因此，我们做了第一个尝试，让 LLM 和案例式推理有机结合，真正理解案例式推理的反馈效果。下一步，我们还会做推理的举一反三，我们称之为 Tutorial-based Reasoning。假设给 LLM 一本下棋的教程，让 LLM 具有读懂教程的能力，并最终让其学会下棋。利用 LLM 的语言理解能力和 CBR 的案例式推理能力，为机器学习带来全新可能。

绿洲：最优机器学习解决方案保持在库中虽然能够降低成本，但长期会不会造成存储的负担？

汪教授：的确会有这样的情况。现在的上下文长度可以达到 1 million token 甚至 2 million token，所以我们在考虑利用检索（Retrieval）提升效率，区分哪些内容需要存到内存，哪些是重复或无用的，不需要再进行存储浪费内存。在当前行业，大家都在致力于加长上下文长度，并且针对数据量增加后如何进行检索的研究仍然相对粗浅。目前的方法主要是类似于 Top 10 Token 的相似性测度，然后将这些相似的 Token 放入注意力机制中进行处理。

针对这个问题，我们提出了两种改进方法。首先不再使用令牌级别（Token Level）检索，而是采用节段级别（Segment Level）检索，例如，将 256 个 Token 组成一个节段，效率会高很多。其次，我们希望提升信息检索的方法，不再仅仅使用关键字匹配，而是采用更具相关性的检索方式，例如目前相关性检索模型（Relevance-Based Retrieval Model）也是大家关注的方向。

绿洲：CBR 应用在数据科学的框架能给哪些行业带来启发？

汪教授：在 To B 领域，大量数据需要流程自动化，譬如银行、投行和国有企业等等。案例式推理可以帮助将整个数据处理流程自动化，从而提高准确率和自动化程度。这不仅包括将数据进行智能排列以生成各种代码，还涉及到后端决策的优化。在 To C 领域，例如会议内容总结和边端个人数据的处理，案例式推理同样能够提供很高效的操作系统优化。

绿洲：的确，企业都很关注如何让LLM与数据分析相互结合去降低门槛和成本，让分析结果更好地支撑企业管理和业务发展。我们的成员企业当中也有不少做了很好的尝试，比如北极九章自研的对话式数据分析平台 DataGPT，他们服务的对象就包括国家电网，国家能源集团这类企业。

绿洲：您如何定义 AIGA（Artificial Intelligence Generated Agent）？AIGA 的意义是什么？

汪教授：从互联网角度来看，过去互联网本质上带来了人和机器之间的交互，包括搜索、线上购物，同时也加强了人际交往的线上沟通。AIGA 带来的则是机器与机器之间的交流场景，未来可能是 Bot 之间开会，互相比较 Notes 就可以完成一个会议了。AIGC 到 AIGA 是整个互联网的变革。当然，要实现这个过程中的复杂决策以及协同，仍然面临相当大的生成难度。

绿洲：您觉得强化学习对于 Agent 意味着什么？

汪教授：这是个有两面性的问题，强化学习在下棋、广告推荐等场景表现出色，但在其他场景下，泛化能力就可能不尽人意。此外，强化学习训练需要大规模仿真数据，这正是 LLM 的高效泛化能力能够弥补的。AIGA 底层还是 LLM，能够弥补强化学习很多缺点。

以下棋举例，简单来说其学习过程是让 Agent 学会获胜策略，本质上建造了一个世界模型，让他不断重复训练达到熟练水平，AlphaGo 也是这么来的。Agent 在不断学习先验知识的过程中，世界模型给它带来更大的智能。如果不建立世界模型，Agent 永远没法对真实世界理解，也永远不能诞生真正的智能。

强化学习的本质是归纳偏置（Inductive Bias），从一组数据集总结规律。目前对简化推理（Reductive Reasoning）的研究不充分，强化学习对于世界的理解，结合 LLM-based Agent 的强大泛化能力，能够解决很多未知问题。

最近有几篇论文讨论 Next Token Prediction 如何最小化预测偏差（Prediction Error），但研究表明其能力始终是有限制的，Transformer 本身的架构，让模型无法理解物理规律导致能力无法突破。我们必须使用最大化奖励等方法理解世界边际情况，使 Agent 遵循规则，这是强化学习的精髓。通过打分反馈，让模型不断改进。目前做的最好的方法之一是 OpenAI 的 Q-star。我们团队最近提出了 TDPO（Token-level Direct Preference Optimization）微调方法，也是同样的思路。

绿洲：在数据充足且反馈密集的环境中，强化学习通常更容易实现良好效果。但在物理世界中进行强化学习，要达到理想效果是否更具挑战性？

汪教授：从安全的角度来看，一些对精度和安全要求较高的场景，比如具身智能和自动驾驶，需要在强化学习的基础上引入规控方法，甚至规定一些规则以确保其安全性。例如，具身智能的模型预测控制（MPC）与强化学习是同源的。另外，机器人与 LLM 结合中，建立世界模型，特别在 3D 场景中，非常重要，需要很强的环境建模和仿真器。同时，解决 Sim2Real 问题也是在物理世界中实现强化学习效果优化所必须的。

绿洲：您希望在 AI 和 Agent 领域看到哪些变化？

汪教授：短期内，我期待看到 AIGC 变成 AIGA，并且 AIGA 能够解决实际性问题，如果 AIGA 能像 GPT 一样兼容上下文做决策，那将非常有价值。在数据科学领域，多人对接特定数据上，想象一下如果给一个 Agent 描述特定问题，它在两小时后就能给你一份完整的解决方案，到那时候所有工作流程的效率将被极大提高，是一件多么令人兴奋的事。长期来看，随着硬件的成熟，我也期待看到家用机器人进家庭的场景。

绿洲：之前看到您那篇星际争霸《Large Language Models Play Star Craft II》的工作，想听听您对 LLM-based Agent 技术未来的发展和应用空间的见解？

汪教授：这个很有意思。大家都在探索 LLM-based Agent 的应用，思路五花八门，具体的 Killer Application 还没有百分之百具体的定数。数据科学是一个场景，机器人也是被看好的方向。我觉得现在是黎明前最黑暗的阶段，这层窗户纸就快要被捅破了。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业