我要投稿

从数据到决策：大模型驱动的GenAI数据产品落地之道 - 制药行业为例

发布日期：2024-05-30 11:25:57 浏览次数： 2131 作者：知识图谱科技

今年，我与我的同事和热衷于数据的人Abhinav Batra（领英，Medium）应邀参加了在新奥尔良举办的Pharma SOS Conference，讨论了我们两个最喜欢的主题之一：数据产品和大模型、生成式人工智能。我们非常喜欢这次演讲以及后续的讨论，因此决定将它们转化为文字形式。

在本文的剩余部分，我们将会：

定义数据产品是什么
提出一套数据产品设计原则
介绍数据产品类型的概述
在制药行业提供常见数据产品的例子
解释数据产品如何帮助激活Gen AI用例
呈现一种现代的、面向领域的数据湖参考架构
概述通过Gen AI如何革命化数据价值链

数据产品

让我们首先定义什么是数据产品。它是一个经过策划的数据组成部分的集合，以一种易于理解和使用的方式进行组织和呈现，从而构建更好的体验并增强数据消费者的信任。它提供卓越、一致和可靠的数据理解和访问，让用户能够获取对他们问题的答案（或一系列问题的答案），进而支持业务决策和结果。

数据产品还可以用一组关键特征来描述。这些特征呈现在图1中。会议期间，在几个演讲和专题讨论中提到了数据产品。数据产品与菜肴的类比尤其受欢迎，因此我们在这里也将继续使用它以说明关键特征 - 数据产品就像一些厨师会使用的胡萝卜和番茄：

固有价值。数据产品本身就具有价值。即使我们不知道应该如何使用高质量的胡萝卜和番茄，它们本身也有价值。将它们放在厨师面前，菜肴的创意会立即涌现出来。
商业影响。我们必须对胡萝卜和番茄的使用有一些想法。也许用来装饰更丰盛的菜肴，作为生蔬菜零食或添加到汤中。我们可能不知道具体的菜肴，但我们对它们最常见的用途有合理的了解，并可以通过这些应用程序估计它们的影响。
可发现。对于预期的用户来说，它们易于查找和获取。对于试验菜肴的厨师来说，有一个注册表显示可用的食材以及它们的位置，其中包括胡萝卜和番茄。你不想开车一个小时才能得到一些食材 - 它们应该位于需要它们的地方附近。
可理解。它们清晰、标签明确、无歧义。厨师不需要猜测这是什么样的胡萝卜或者番茄来自哪里。如果需要，可以查看包装来了解它们的生长地和营养价值。
可寻址。如果您是经营专业厨房的厨师，您想知道哪个冰箱中有胡萝卜和番茄。这种情况不应该在一夜之间发生变化。高效运作的厨房需要可靠的投入 - 这些胡萝卜和番茄应该放在同一个冰箱中，每天都在预期的位置上。
可信赖且策划好的。厨师没有时间整理不完美的胡萝卜和番茄，比如那些过小或过大、发霉、有虫子或有褪色的食材。他们期望腐烂的部分已经被移除，并且可以信任所提供食材的质量，以便专注于制作最好的菜肴。
安全。并不是每个人都应该有权访问冰箱。如果是这样，食物可能会被消耗或被篡改。同时，应该为那些应该有权访问的人提供访问权限 - 没有门的冰箱没有任何用处。
产品取向。胡萝卜和番茄作为一种产品与客户和生命周期一起进行管理。一些厨师可能喜欢更大的胡萝卜或具有特殊质地的番茄。他们可能需要更多或更少的食材。无论需求如何，供应和准备都需要考虑估计和期望的使用情况

设计原则

已经确定了数据产品是什么以及它们应该能够实现的功能，成功实施背后涌现出一套设计原则。它们在图2中有所示，并在下面进行进一步解释：

自治和凝聚力：每个数据产品都作为一个自治的、原子化的单位运作，包含所有必要的组件，如数据摄取代码、数据转换、样本数据、单元测试、数据质量测试和用于提供基础设施的基础设施即代码。它还强制执行访问策略，确保它保持为一个自包含的实体，输出一个单一的去规范化数据集。
通用开发框架：中央 IT 部门通过开发基于开放应用模型（OAM）的规范化数据产品定义语言，支持领域团队。这样，团队可以自主创建和管理其数据产品，使用一个共享平台来处理 CI/CD 流水线和能力注册表。
一致的元数据管理：为了提高数据产品的可搜索性和互操作性，在各个领域建立了统一的目录流程。这包括唯一名称、描述、所有权、数据共享协议、数据分类和分发权限等标准元数据。
自动化的治理和访问控制：数据产品团队可以使用基于角色或属性的控制方法以编程方式指定访问策略。该平台将企业身份管理与数据存储解决方案集成，自动执行访问控制，并确保安全的数据分发。
数据共享协议：数据产品支持各种共享方法，优先考虑存储平台的原生机制，适用于类似的生产者-消费者环境（例如 Redshift、Snowflake）。当使用不同的存储平台时，数据复制被视为最后的选择，严格遵守治理和访问控制以保持安全性。

数据产品的类型，等级和样例

探讨了数据产品的关键特征和推荐的设计原则后，让我们思考并非所有的数据产品都是相同的。数据产品存在不同的形式和类型，这有时使人们对其究竟是什么以及不是什么的概念感到复杂。

数据产品可能存在于不同的“阶段”。有时，这些被称为“勋章架构”，其中一个数据产品可以从青铜级晋升到白银级，再晋升到黄金级。

这样的分类完全符合我们在此观点中保持的分类，如图3所示。我们定义了4个后续级别：

等级1 — 初始/分段数据：这个初始级别涉及来自各种来源的原始数据，这些数据经过标准化并经过基本质量控制，例如格式标准化和空值检查。还包括添加审计列，如加载ID和日期，通过每个加载日期维护全面的历史以跟踪数据血缘。
等级2 — 符合的数据：在这个级别上，原始数据经过处理，转换为标准化的维度数据模型。这个阶段合并历史数据，通过严格的标准化和确认过程确保数据完整性和一致性，便于更容易地访问和分析。
等级3 — 准备分析的数据：在这个阶段的数据是跨功能的，与主标识符集成，并组织成非标准化的扁平数据集。这个级别侧重于确保不同主题领域的数据一致性，整合共同的业务规则，并预先计算关键绩效指标（KPI）来支持分析。
等级4 — 特定目标数据：最精细的级别，旨在满足消费应用的具体需求，通常定制为特定业务功能，如营销分析、患者分析以及制药等行业的投资回报率（ROI）计算。这些数据定制用于推动特定的业务行动和决策。

前两个层次被归类为以数据来源为导向的数据产品，因为数据的结构在很大程度上与数据获取源相吻合。最后两个层次是以用户为导向的，因为数据产品在特定数据用途上已经发生了更大程度的转变。让我们看看制药行业，以调查可能的以数据来源为导向和以用户为导向的数据产品可能是什么。

数据源导向型数据产品

数据源导向的数据产品对于收集和管理与业务运营和患者护理相关的各种数据至关重要。例如，主数据产品至关重要，其中包括客户主数据和相关的医疗保健专业人员（HCPs）、患者、消费者及其关系的详细信息。主数据还可以包括产品主数据，其中包含有关正在开发或销售的制药产品的所有相关细节，以及雇员主数据，用于记录雇员、培训、绩效评估和客户关系的记录。

另一个数据源导向的数据产品组合的例子包括销售数据。这些数据将销售数字汇总到不同的频率、业务线和地区，提高了对市场覆盖范围和业绩的理解。它们还可以跟踪个人活动指标，如通话次数、样品分发和演讲计划的参与情况，这些对于评估销售策略的有效性是至关重要的。

针对索赔和电子医疗记录（EMR）的数据产品对于全面了解医疗保健互动至关重要。这些包括来自Optum和Truven等来源的医院索赔、药店索赔和支付者索赔的数据产品。每个数据集都提供了对账单和报销模式的洞察，这些对于财务规划和合规性至关重要。特别是EMR数据产品，例如来自Flatiron或Humedica的产品，可以整合来自各种医疗保健提供者的处方（Rx）和诊断（Dx）等临床数据，提供丰富的实证资料，以支持临床研究和患者护理策略

面向用户的数据产品

面向用户的数据产品旨在支持与客户关系和市场策略直接互动和影响的特定业务功能和决策过程。例如，HCP360 数据产品提供了对医疗专业人员（HCP）的全面视图，整合了多个触点上的数据，支持领域报告、账户分析、细分和全渠道编排等使用案例。该产品帮助制药公司个性化其市场参与策略，优化推广反馈，并加强整体的 HCP 关系管理。

另一个重要的数据产品可能是价值获取和定价，它提供了有关药品定价和市场准入复杂动态的见解。该产品支持一系列的分析应用，包括合同分析、自付额分析和分销渠道分析。它还在政府事务、卫生经济学、结果研究和准入战略制定等更战略性的领域发挥作用。这些数据有助于公司在监管和竞争环境中游刃有余，预测医疗途径，并制定优化产品定价和准入的方案与政策。

领域绩效是一个旨在优化销售团队活动和效果的数据产品。它提供了管理激励补偿、设定销售目标、认定销售活动和报告领域绩效所需的度量和分析。它支持样品分发的优化，提高销售团队的效力。对于希望最大化销售团队效率和影响力的制药公司来说，这个数据产品至关重要，确保资源与市场机遇和公司目标保持一致。

这些只是示例 —— 关于完整的列表和更多细节，以及适用于制药以外的其他行业，请随时与我们联系。

与生成式人工智能的联系

数据产品日益受到关注的一个主要推动力是生成式人工智能的出现。生成式人工智能是一种通过大量数据学习以创建内容或生成类似于原始输入的新数据的人工智能类型。这种技术可以产生文本、图片、代码和音乐等各种内容，模拟人类创造力。

然而，生成式人工智能的成功应用在很大程度上取决于扎实的数据基础。如果没有来自可靠来源的高质量数据，这些人工智能模型可能变得低效，并且可能存在偏见，导致产生的结果带来伤害而非价值。确保数据的完整性和质量至关重要；没有这些，您将无法有效地激活预期用例。此外，采用生成式人工智能需要严格的伦理和监管以及战略专业知识，以确保准确性、合法合规和与业务目标的一致性。这对于减轻偏见和操作错误的风险，强调了高质量数据和周到的监督在生成式人工智能项目中的重要性。

我们可以从几个方面来分析。

为了训练和部署模型，生成式人工智能应用需要访问足够多元化且足够丰富的数据。如果期望的输出复杂且不稳定，它们可能需要大量的数据。这里的稳定性是指相同的模型在给定相同提示时可能产生不同的结果，这仅仅是由于生成式人工智能模型的工作方式。在某些情况下，这种变化可能是致命的，因此需要足够的数据来训练模型。数据还需要足够多元化。相较于其他大多数建模技术，生成式人工智能更侧重于所获取的数据的多样性。如果您的模型在社交互动数据中，95%的数据是与25岁或以下的人进行的，那么当该模型被暴露于80岁以上的人时，它可能不会表现出很高的效果。

出于同样的原因，数据质量非常重要。这也是最大的问题，因为垃圾数据将导致垃圾输出。对于生成式人工智能来说，即使提供了错误的数据，其回应通常也会显得优雅而完整。在某些情况下，它们可能是虚构的（也即是幻觉问题）。回答的质量将反映出所提供数据的质量。当所输入的数据是非结构化的时候，情况也同样适用。在这种情况下，实施数据质量检查并不像在结构化数据上那么容易，但验证所提供的正确非结构化数据仍然至关重要。

除了与数据相关的更一般的基础知识之外，根据具体的使用情况，可能还有更多的特定要求。例如，该模型可能需要带注释的数据用于训练。可能需要足够数量的历史数据，或者需要用于验证和测试的单独数据。如果您的使用案例需要实时数据，例如在许多使用实时呼叫中心坐席的情况下，数据需要实时快速可靠地提供。这不仅涉及集成数据来源，还涉及确保只分享正确的数据，并且仅限于应该访问这些数据的人或应用程序。

在前面的段落中提到的许多问题都是久经考验的数据管理挑战，它们至今仍然存在。人们已经非常清楚地了解如何适当地管理数据以及如何将其应用于正确和适当的使用案例。在这里，我们回到数据资产和数据产品，因为这个概念正变得越来越受关注，许多公司已能够基于一组选择的数据产品激活各种使用案例。要理解的关键是，关注的焦点不是将所有数据的管理标准提高到相同的水平，而是专注于最重要、最具战略性的特定数据。一旦确定了最关键的数据，就可以将其作为资产或产品进行优先管理。这将在基础数据能力的投资中实现最大化的投资回报率。

如何快速衡量您的组织对Gen AI的数据准备就绪程度

我们的研究揭示了那些通过使用生成型人工智能成功构建基础成熟度并实现初始业务影响的公司，与那些继续挣扎并落在后面的公司之间存在明显的模式和最佳实践。以下13个关键能力领域被确定为业务成功的关键：

战略和愿景：为生成式人工智能倡议建立基础框架，包括制定战略计划，设定人工智能目标以及分配投资和预算。
组织结构和运营模式：定义角色、责任和运营的集中化。这包括建立决策框架、实施变革管理计划和管理利益相关者。
卓越中心（CoE）：专注于组建专业团队，领导和支持生成式人工智能工作，包括培训最佳实践，部署工具和加速器，以简化流程。
用例和应用：确定潜在的生成式人工智能应用，将其与必要的数据源联系起来，评估可行性，并为每个用例建立业务所有权。
数据：确保可获得多样化和高质量的数据，维护历史和带注释的数据集，并提供实时数据访问进行持续验证和测试。
投资回报率和价值生成：制定衡量生成式人工智能项目收益的方法，定义相关关键绩效指标和度量标准，并制定详细的业务案例以突出价值。
模型构建和训练：涉及选择适当的基础模型，用稳健的数据集对这些模型进行训练，并持续评估和监控其性能。
部署和运营：重新设计流程以集成生成式人工智能解决方案，监控性能和利用率，并自动化工作流程以提高运营效率。
人才和技能：专注于吸引和留住熟练的专业人员，提供培训和机会进行再培训或提升技能，并促进跨学科团队合作。
治理、道德和合规：解决伦理考虑，确保人工智能的透明性，遵守监管标准，并制定负责任的人工智能使用政策。
技术基础设施：为组织配备必要的生成式人工智能工具、强大的数据平台、足够的计算资源，并支持系统集成和探索。
数据安全：实施严格的安全措施，如加密、严格的访问控制、防止数据泄露的保护措施，并进行定期安全审计。
创新、生态系统和合作伙伴关系：鼓励持续研究，促进外部合作，并形成技术联盟，以保持生成式人工智能的发展和应用前沿。

作为对GenAI日益增长的兴趣的回应，在ZS，我们建立了一个加速器，以便快速评估和确定上述13种基本数据能力的成熟度水平和差距。

Gen AI支持数据管理

我们已经确定，强大的数据管理和治理对于组织内部实现生成式人工智能来说至关重要，尤其是以数据产品作为关键驱动因素的情况下。然而，研究生成式人工智能如何融入和增强数据管理领域也是非常有趣和重要的。

在现代领域驱动的数据湖架构中，如图5所示，数据网格位于系统的核心。该网格连接各种数据产品，通常在具体的领域内进行组织。增强型数据目录和知识图等要素在元数据管理和民主化数据访问方面起着关键作用，这些数据产品展示在数据市场中，并可供包括AI/ML、商业智能或下游业务流程集成在内的各种应用使用。

现在，这样的数据湖架构可以帮助建立和运作一个数据价值链，其中图6展示了一个简化的视图。这个数据价值链涉及几个关键阶段，将原始数据转化为有价值的决策洞察力。它始于“数据采集”，在此阶段，数据从各种来源，如销售交易、传感器或用户反馈中进行收集。之后是“数据转换”，在这个阶段，收集到的数据被清理以去除错误，转化为标准格式，并进行组织以便进行轻松分析。在数据处理完毕后，它进入“使用与分析”阶段，在这个阶段，数据被分析以提取有用的信息，如识别趋势或进行预测，从而为业务决策提供指导。在这些阶段中，“运维和维护”确保数据处理顺利进行，系统得到及时更新，问题得到及时解决。这种持续的支持提高了数据系统的效率和效能，确保了数据在价值链中的可靠性和实用性。生成型人工智能有潜力在这4个组成部分中改变这个数据价值链，接下来我们将探索这一点。

数据采集

生成式人工智能可以通过分析和标记现有数据源与特定用例相关联，显著增强数据采集流程。通过评估数据模型和元数据细节，它可以基于提供的外部输入的领域上下文自动生成本体论。这种以人工智能驱动的方法充当了一个按提示进行的目录，存储了诸如数据源细节和关键绩效指标定义等复杂信息，有助于更深入地理解和组织数据资产。

此外，生成式人工智能可以与市场上的可用数据源进行交叉参考，以识别差距并创建一份优先级排序的建议列表。这不仅简化了数据采集策略，还确保数据生态系统强健并与组织需求相一致，使整合新数据源的过程更加高效和有针对性。

数据转换

在转换阶段，生成式人工智能可以彻底改变代码的开发和维护方式。通过创建提示簿，它可以生成一个代码库，可以引入行业标准数据集，应用特定流程（例如制药行业独有的流程），并生成与各种云平台兼容的基础编排代码。这种能力还包括将代码从一种编程语言无缝迁移至另一种编程语言，例如从SAS迁移到Python或Spark，只需将现有的代码库输入系统即可。

生成式人工智能通过评估脚本、总结脚本、在开发过程中作为调试器，并自动添加代码注释等方式进一步增强了开发者的支持。这些功能显著减少了手动工作量，减少了错误，并提高了数据转换过程的效率。

消费与分析

生成式人工智能可以通过基于现有数据点自动配置业务设置来改变消费和分析阶段。这包括产品主控、地理标记和客户细分等通常需要大量资源的任务。

通过分析外部来源和掌握的交叉参照，生成式人工智能还可以提出潜在匹配或合并，准确度高，从而提高数据整合的质量。

此外，它将上下文实现自助功能，使用户能够输入自然语言查询并获得自动化见解。这种增强型分析方法减轻了数据解释的负担，支持异常检测，使数据更具操作性，决策更加明智。

运维与维护

生成式人工智能通过自动化例行活动和降低“保持运行”的成本显著改善运维和维护。例如，它可以提供详细的操作故障根本原因分析，并与相关利益相关方共享这些见解，提高透明度和责任性。或者，通过分析历史数据负载并将其与当前运行时间进行比较，生成式人工智能可以预测潜在的服务级别协议违规，并在问题变得关键之前警告必要的团队。

此外，生成式人工智能可以用于管理访问控制，并根据用户角色和人物设定数据限制，确保数据安全和合规性在全面维持。

结尾

正如我们在本文中探讨的，将生成式人工智能整合到数据管理策略中是一场变革性的转变，它在数据获取、转换和利用方面带来了进展。随着公司继续在这个领域探索，数据治理与人工智能技术之间的共生关系将对实现长期成功至关重要。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业