我要投稿

企业构建大模型应用需要重点思考的十大关键问题

发布日期：2024-03-31 07:49:06 浏览次数： 2861 作者：少军的AI空间

在当前数智化洪流中，企业广泛寻求借力大模型技术来撬动革新与效能跃升。然而，构筑实用的大模型应用是一项系统工程，需要企业在项目启动前深度审视一系列技术和非技术的核心考量因素，以确保项目的稳健执行和持久收益。以下是一份详尽的大模型应用规划构建指南，专为企业定制，旨在引导企业科学合理地策划实施方案。

1、明确业务场景与用户定位

着手构建大模型应用前，首要任务是界定其在解决企业何种痛点或满足何种场景需求中的角色。对于初次尝试的企业，可优先聚焦于与核心业务紧密结合且技术成熟的场景，如智能问答、智能客服、信息检索与处理，以及AIGC文生图等快速可见成效的应用。具备深厚技术底蕴的团队则可进一步涉足更具创新性的应用场景。但通常来说，不建议企业盲目追求前沿探索，例如初期不宜直接瞄准复杂的类似Sora文生视频类高级应用。

同时，明确应用面向的是终端消费者（C端）还是企业内部人员，并预估用户基数量规模，这有助于选择适合适的服务架构和技术实施路径，并充分考虑到系统的可扩展性和稳定性。

尤其值得注意的是，若大模型应用拟对公众或商家开放，可能需要履行相应的备案程序方可上线，例如基于阿里云通义大模型的应用，可参照阿里云官网提供的一个备案指南：https://help.aliyun.com/document_detail/2667824.html。

2、业务核心需求逻辑梳理

首先要了解自身业务的特点，以及大模型在整个业务里的作用。其次，把市面上常见的大模型都试用一遍，理解每个大模型的特色和优缺点，找到最合适的大模型。第三，先业务+AI去梳理逻辑，AI大模型能力先做为增值功能点加入业务逻辑；然后在迭代优化两三个版本后，逐步再往AI Native应用的思路去优化业务逻辑，通过深入讨论与原型设计，确保大模型融入的是最关键的工作流环节，最大化其价值产出。

需求逻辑梳理越细，对大模型落地方案和成本评估会越有帮助。比如根据需求，要只做提示词工程就能实现，还是需要进一步结合RAG、微调才能满足业务场景效果要求（比如准确率、召回率等指标要求）；每个业务场景中大模型输入Token和输出Token的数量级，以及所需要的配套云产品资源，以此估算整体费用。

3、数据类型、来源、量级和增长预期

要全面盘点企业该业务领域的可用数据资源，包括结构化数据库、非结构化文档、图片、音视频等，并估算所需数据规模，确保数据充足（比如涉及微调所需的数据集、测试集或验证集等）支撑模型训练和应用运行。

当然数据并非越大越好，还需要考虑数据质量、数据和要解决的业务领域问题的相关性等，如此才能更好的帮助大模型应用达到落地效果。

同时要对企业相关数据源进行分析，预估每日或每月新增数据量，规划好数据采集、整合及更新机制，保证模型持续学习与进化。

特别针对微调场景，在对大模型进行微调后，如果企业数据有了显著增长或变化，特别是这些新数据引入了新的模式、概念或与之前的数据分布有所不同，可能需要对大模型进行再次微调或增量学习。

4、数据质量评估

需要评估当前企业数据的质量如何，比如是否关键字段信息缺失比较严重？是否有大量脏数据？当前业务是否有经过内部清洗、审核或标准的数据？严格审查数据质量，处理缺失值、脏数据等问题，投资于必要的数据清洗、审核和标注工作，以提高训练集质量和最终模型性能。

很多企业想做大模型应用，但企业存量数据或文档材料的质量不足以实现大模型应用满足准确率等指标。因此需要提前对自身数据质量做摸排，这也是大模型应用最终能否落地达到预期效果的关键，不能仅仅依靠大模型及其工程能力。

5、数据安全合规管理

要遵照相关法规要求，建立完善的数据安全体系，关注数据加密、访问控制、隐私保护等方面，确保大模型应用全程符合企业、行业乃至国家的安全合规性要求。

比如，由于企业数据不能传给“外部”应用（比如企业不可控的全托管基础大语言模型，即Cloud LLM）时，这种情况下，企业只能选择在本地IDC或本地云服务器上自己部署大模型（即所谓Local LLM）。

6、企业IT基础设施

根据模型训练、部署及服务需求，评估企业IDC机房或所使用的云平台的GPU算力、存储、网络、安全及AI大模型工具链等各方面的需求，合理规划IT资源的容量和投入使用计划。

7、技术人才

企业需要对具体实施工作做一个权衡：自建技术团队开发，还是外包给供应商。如果是自建技术团队，需要配置哪些角色和能力的人才；如果是外包给供应商，那对应用质量、数据保密、和后续持续升级迭代等又要做哪些管控；这些都是在落地前需要考虑的问题。

个人建议，如果只是想做个探索创新，大可以充分利用外部资源，尽快把大模型应用想法实践落地。如果效果好，再逐步建团队，与供应商整合逐步接手过来。如果已经想得比较清楚，并且准备把大模型应用作为核心业务方向，All in AI，那自然是要自建团队，配齐资源，一炮打响。

8、技术栈、技术路线选择

选用成熟且适应大模型开发的技术栈，比如Python、向量数据库、LangChain/LlamaIndex、阿里云PAI或百炼模型服务平台等工具，并考虑企业现有技术体系的兼容性和拓展性。

需要进一步说明的是，如果企业自身有AI算法工程师团队，且后面对大模型专属可控和未来灵活扩展有很多想法的话，可以考虑基于偏底层的阿里云机器学习PAI平台做大模型开发部署。否则，建议使用简单傻瓜化点的阿里云百炼模型服务平台，基于它来一站式的做整个大模型应用的构建、微调和部署等工作。

关于大模型API和微调

在考虑微调时，企业应反思以下几个问题：是否专注于某一特定领域（如医疗、法律、金融、教育等）？企业是否已经积累了大量高质量且标注完善的定制数据？未来企业数据规模和内容是否会随时间持续演化？若答案为肯定，且成本允许，采用微调方法将带来更好的应用效果。反之，则宜直接调用大模型API。

关于大模型部署方式

针对大模型部署方式，企业需决策是直接调用云端大模型API，还是将其部署至云服务器本地环境，抑或是通过百炼模型服务平台部署专属模型实例。不同的部署方式将直接影响大模型的表现和使用方式。

9、性能指标与期望设定

准确率/召回率要求

针对大模型生成内容，特别是针对问答场景的回复的准确性，希望能达到多少准确率/召回率以上？比如80%、85%或90%以上？根据业务性质定义合适的准确率标准，如问答场景下至少需达到85%以上的准确率，确保用户体验良好。一般要达到80%以上，都需要进一步与提示词工程、RAG、微调等结合才能达到。

响应速度

针对大模型生成的内容，如生成回复文本或生成图片，能接受多少时间开始接到应答，或者图片生成完成？通常会用首个Token生成输出的时间、每秒生成Token数等作为响应指标。如果对性能有特殊要求，则需要慎重考虑大模型的部署托管方式，比如是否使用独占实例或甚至自建GPU集群。

并发请求处理能力

是否会有大量用户同时并发的需求？预计最大多少QPS？预测并发用户数量，按照最大QPS（每秒查询次数）进行容量规划，以应对高并发场景下的稳定服务。拿阿里云百炼模型服务平台来说，如果时按API tokens调用模式，暂不支持扩并发，如果业务实际需要扩并发，请先联系产品团队开白名单支持。对并发数量有要求的情况，都会采用大模型独占实例部署模式，这种模式下，每实例并发约1.5，企业可以按照并发量进行计算，并购买对应数量的独占实例。比如企业需要3并发，那购买2个独占实例来支持即可。

10、安全合规投入

遵守行业特定的安全与合规要求，预留专项资金用于落实数据安全传输存储、隐私保护等合规建设。企业可充分利用阿里云等云平台提供的安全保障机制，涵盖安全管理、应用安全、数据安全、高可用性与灾备等方面。此外，在生成内容的安全合规审查方面，也可搭配阿里云内容安全服务，有效强化对AIGC内容的智能化审核能力，如参考链接所示： https://www.aliyun.com/product/lvwang 。

总之，在构建大模型应用的过程中，企业务必进行全方位、精细化的前期规划，紧扣业务需求、数据准备、技术支持、性能基准和预算控制等多元要素，方能在激烈竞争的市场格局中，成功借助大模型技术推动企业战略目标的落地实现。同时，随着技术进步和业务演进，企业须始终保持敏锐的关注与适时调整，确保大模型应用始终与时俱进，有效应对不断涌现的新需求与挑战。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业