我要投稿

智能体落地遇到数据难题，AI-ready data赋能AI Agent高效应用

发布日期：2024-06-16 09:10:31 浏览次数： 2392 来源：王吉伟

AI Agent落地应用遇到数据难题，AI-ready data提供新思路
数据难题成为AI Agent应用拦路虎，AI-ready data为数据高效应用铺路
AI-ready data成AI Agent落地最大障碍，技术供应商们怎么解决这个难题？
解决了智能体数据安全问题，AI-ready data成了AI Agent落地的最大障碍
什么是AI-ready data？对生成式AI和AI Agent意味着什么？
面向生成式AI的AI-ready data，成了AI Agent落地应用的最后一道关隘

生成式AI（GenAI）的落地应用速度，比大家想得快很多。

2023年11月，Gartner通过对1400多名高管进行的一项调查显示，45%的受访者正在试用生成式人工智能（GenAI）；另有10%的高管表示，已经将GenAI解决方案投入生产。

2024年5月，Gartner一项调查显示，来自美国、德国和英国的644名受访者中有29%表示他们已经部署并正在使用GenAI，GenAI已成为织中部署的第一大AI解决方案。

两份调查只相差半年，从数据中可以明显感受到GenAI在企业中的应用速度。

生成式AI在各领域的强势渗透，大语言模型功不可没。而作为大语言模型的两个主要应用方向，RAG和AI Agent都是各领域探索与应用的大热门。其中，AI Agent在今年火到沸腾，2024更是被称作AI Agent元年。

经历了理论验证阶段之后，随着越来越多构建平台和各种解决方案的出现，AI Agent开始真正进入落地应用的阶段。现在广大企业对AI Agent已经有了足够认知，但在具体应用方面的进展并不是很理想，很多企业仍旧在观望。

之所以出现这种状况，一方面在于企业对于大语言模型应用的谨慎态度，另一方面在于很多AI Agent的应用并没有达到期望值。

达不到期望值，是因为AI Agent的应用效果并没有想象的那么好。影响AI Agent应用效果的因素有很多，比如大模型能力、Prompt设计、外部工具使用、调用API的成本以及数据质量等，这些因素共同决定了AI Agent在特定应用场景中的表现和效果。

关于AI Agent，之前我们谈了模型能力、技术架构等的很多问题。通常大家会认为，只要Agent架构设计合理，配上强有力的大模型和更多可供调用的工具就能实现Agent的理想应用。但在实际应用中，基于大模型的Agent表现甚至赶不上基于领域模型的Agent，通用Agent的应用效果往往不如面向具体场景的Agent。

这个问题的主要原因，在排除了技术架构、算力的因素后，便落点到了数据应用的差别上，也就是数据对于AI Agent的影响。

AI Agent应用遇到数据难题

我们知道，算力、算法和数据是AI不可或缺的三大核心要素。其中，数据的质量和量级对AI系统的性能有着直接的影响。在机器学习中，数据用于训练算法，使模型能够学习到数据中的模式和关联。高质量的数据可以帮助算法更准确地进行预测和分类，数据量的大小则可以影响模型的泛化能力。

放到基于LLM的AI Agent中也是如此。算法和算力这两个因素均有迹可循，差不多都能找到标准化模板和量化指标，技术供应商也能基于企业相应的参考。

现在企业自己构建Agent并不难。集成各种算法的优秀AI Agent框架越来越多，适配运营所需的算力也可以通过自建大模型或者调用API获得，但唯有数据在不同的企业存在极大的不同。有些企业，不要说高质量数据，能够有效利用的数据都难以获得。

目前企业在数据应用方面面临诸多挑战，包括数据采集不全面、共享流通不足、应用开发浅层、治理安全薄弱、技术人才短缺、财务绩效压力、地区行业不平衡、数据资产评估难度大、数据质量管理不足、合规隐私顾虑以及技术架构设计不当等诸多问题。这些挑战阻碍了数据价值的充分发挥，影响了企业数字化转型和创新能力的提升。

换句话说，就是构建或者引入了AI Agent解决方案，也会因为数据问题而造成应用效果不佳。

低质量的企业数据，会严重影响AI Agent的应用效果。不准确的数据会降低决策质量，限制模型性能，减少预测准确性，并增加企业运营风险。基于错误数据的服务和建议会降低用户满意度，损害企业声誉。AI Agent的维护和调整成本也会随之增加，让个性化服务能力受限，导致利益相关者对AI Agent的信任度下降。还会让法律和合规风险上升，数据治理难度加大。这些应用挑战，凸显了确保数据准确性和质量对AI Agent成功应用的重要性。

在生成式AI技术的落地应用方面，数据管理与风险控制也是最主要的痛点，其中数据管理所涉及的主要业务便是数据高效应用与系统化管理的问题。因此在大语言模型的应用方向上，不管是RAG还是Agent，抑或其他应用，想要输出更好的结果，都离不开高质量数据输入这个前提。

但从生成式AI的应用情况来看，传统数据管理定义的高质量数据已经不符合大语言模型应用的数据需求。

比如在分析背景下考虑数据时，人们期望删除异常值或清理数据以支持人类的期望，但在训练算法时需要代表性数据，也可能包括质量差的数据。构建预测性维护算法或将生成式AI（GenAI）应用于企业数据，显然需要更加不同的数据集。

这就引出了一个概念：AI-reday data（AI就绪数据）。

AI-ready data提供新思路

AI-ready data是指针对AI应用程序进行优化的高质量和精心准备的数据。它正在越来越多地包含元数据（metadata）和本体（ontologies），以提高数据的价值和可用性。

元数据提供有关数据的基本上下文和信息，本体提供特定域的结构化语义表示。这些额外的信息层可帮助数据科学家、数据科学家、研究人员和AI系统理解、解释和应用适当的算法和模型进行分析。

元数据和本体可实现跨系统一致的数据集成、互操作性和知识共享，促进知识渊博的AI应用程序。事实证明，这些系统对于支持 FAIR（可查找、可访问、可互操作和可重用）原则和可重复计算研究（RCR）至关重要。

Garter在相关报告中认为，AI-ready data意味着企业的数据必须代表用例、每种模式、错误、异常值和意外出现，这些都是训练或运行特定用途的AI模型所需要的。

那么，是不是只要企业建立一套AI-ready data机制，就能让数据成为面向AI应用的高效可用的数据，进而让AI Agnet能够发挥更好的功效呢？

事实没有那么简单，目前AI-ready data管道中开发、实施和维护元数据和本体的方法仍然不一致、繁琐且缺乏足够的支持。从数据创建、收集和研究，到数据保存、归档、重用和支持研究可重复性的长期目标，整个数据生命周期都面临着挑战。

此外，AI-ready data不是一朝一夕就能建立起来的，也不是提前为所有数据建立起来的。它是一个基于元数据可用性的过程和实践，用于对齐、验证和管理数据。

当前大部分企业并不具备构建AI-ready data的能力，这也是部署了大语言模型实施了AI Agent却达不到预期目标的主要原因。可以说，AI-ready data已经能够成为许多企业客户落地AI Agent或GenAI的最大障碍。为了保证AI Agent等应用能够快速应用于企业运营，就需要与技术供应商共同构建相应的应用环境。

AI-ready data是构建有效、高效和可靠AI系统的基础。准备这样的数据通常需要数据科学家和数据工程师进行大量的数据预处理工作，包括数据清洗、转换、规范化和增强等步骤。

AI-ready融合赋能组织Agent应用

对于旨在充分使用AI Agent的组织来说，创建AI-ready data数据环境是一项战略要务。但要实现AI ready，不只是需要积累大量数据或投资最新的AI工具。从根本上说，AI ready是要确保以符合清晰度、质量和可访问性原则的方式管理、治理和利用数据。

有些技术供应商及企业正在积极探索AI-ready data的最佳实现路径，同时各技术社区、开发者们也正在努力来解决当前的障碍，并最大限度地提高数据的价值和可靠性。比如“非侵入式数据治理方法”正在其中发挥关键作用，提供一种为AI准备数据的新途径。

AI-ready data是数据应用范式的转变，能够为生成式AI的高效应用创造最佳的应用环境。它不只要求企业重新定数据应用的方式，更要求AI Agent等技术供应商具备AI-ready的能力。

在这方面，一些意识到AI Agent应用落地问题的厂商已经开始做相应的尝试。比如联想就将AI PC的发展分为AI Ready、AI On两个阶段，AI Ready阶段产品具备基本的本地混合AI算力，为AI PC的软件及服务创新提供基本保障。还有一些企业会通过一些一体化办公等平台，整合分散的数据以实现AI-ready。

当然主打AI Agent产品与服务的厂商，就更加注重AI-ready data的构建。想要实现充分的市场布局，自然就要考虑企业部署AI Agent的全周期需求。从大语言模型的数据应用现状来看，部署Agent只是开始，广大组织在部署Agent以后仍然遇到数据带来的更多新问题。

因此企业客户们需要的不只是单纯的Agent部署，还有能够解决包括数据高效应用在内的融合AI-ready data服务的Agent整体部署与应用解决方案。这个需求同时也对技术供应商提出了更高的要求：既能帮助客户部署AI Agent，又能帮助客户解决数据应用相关的AI-ready data难题。

在王吉伟频道关注的技术厂商中，推出实在Agent的实在智能在这方面就已经走在了前列。这家拥有先进AI技术支持和最全自动化技术加持的AI Agent厂商，已经能够为客户提供AI-ready data获取的最佳路径，实现企业端隐私数据保护和AI-ready data的构建，从而且解决了企业客户使用GenAI时担心的投资成本浪费、数据不安全不懂业务、GenAI增强能力支持下出现的错误流程自动化等问题。

同时PC AI Agent、手机AI Agent、实在AIAgent置入英特尔AI PC端以及钉钉端进驻实在Agent平台等实践，也表明其对企业客户的隐私数据和AI Ready数据的问题解决方案是能落地的，且已经有真实可见的成果。

从具体应用来看，先期已经引入Agent相关解决方案的客户反馈很不错，这也是其刚开启公测就吸引大量用户积极体验的原因。

注：感兴趣的朋友，可以根据下面的用户指引下载安装户端，体验实在Agent带来的自动化流程创建。

https://alidocs.dingtalk.com/i/p/1pMzNkEv2AZVbXBn/docs/pGBa2Lm8aGLoljeeUNlk1morVgN7R35y?dontjump=tru

后记：AI-ready将成Agent应用标配

数据应用一直是企业经营的一个难题，很多企业并没有实现有效利用各种数据进行决策、运营等企业经营环节。比如到现在大多数公司中的数据仍然不够集中，而是存在于各种存储库（例如数据仓库）中，分布在复杂的生态系统中，跨越多个部门、用户和位置。这种情况，极大地阻碍了数据的有效流转与应用。

在数据应用的问题上，简单来说企业的需求主要有两点：一是数据足够安全，二是数据高质可用。在数据安全方面，实在智能等推出企业级AI Agent平台的技术厂商已经通过数据过滤、权重设置等技术手段给予解决。在数据高质可用方面，已经采用RAG跟对大模型的Fine-tuning等技术来帮助客户解决AI-ready data难题，并在进一步构建更完善的AI-ready生态机制。

一定程度上，现在AI Agent的应用正在为广大企业提供数据高效应用的新契机。企业可以借助部署AI Agent一步到位实现从AI-ready data的构建到AI Agent的应用，从而保证AI Agent的应用效果，进一步赋能数智化转型的成功实施。

未来，AI-ready data将作为智能体应用的前置，通过包括技术、工具等在内的解决方案为Agent的部署扫平数据上的各种障碍，让AI Agent高效应用于企业运营中的各种业务场景。

相信随着认知的提升，更多技术厂商都会把这个前置作为部署AI Agent的必选项，并逐步成为AI Agent解决方案的标配，AI Agent的应用效果也将整体上升一个新台阶。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业