我要投稿

关于大模型在企业生产环境中的独立部署问题

发布日期：2024-10-14 09:48:06 浏览次数： 2022 作者：AI探索时代

“ 大模型产品的技术复杂度远远超出你的想象 ”

最近一段时间公司在搞AIGC领域的产品，虽然集成了很多第三方的大模型服务接口，但从节省成本的角度，公司也找了一部分具有相似效果的开源模型做独立部署。

但在做模型独立部署方面面对着各种各样的问题，而且环境极不稳定，因此就引发了关于大模型企业级应用中的环境部署和运维的问题。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

关于大模型在企业生产中的部署问题‍

首先抛开成本问题从技术的角度来说，小公司独立部署大模型会很吃力，因为大模型部署是一个系统性的问题。涉及到算力，大模型，服务接口，并发问题等多个环节，设计到系统运维，镜像，监控，系统架构等多个方面。

企业独立部署大模型主要涉及哪些问题点？‍‍‍‍‍‍

首先最基础的就是算力问题，对大部分企业来说根本无力建属于自己的机房，面对着动辄几万甚至几十万的算力机，对大部分企业来说都无法承担。‍‍‍‍‍‍‍

因此，购买或租用一些云端算力机是一个比较好的选择，但云端算力机也只是一个一个独立的机器，在应用层面并没有提供自己集群部署和运维的能力。‍‍‍‍‍‍‍‍‍‍‍‍

当然，并不是说云计算做不到这一点，而是能做到这一点的云服务商机器的价格都比较贵；因此，对很多小微企业来说，都会选择一台或多台算力能够简单支持业务正常运营的机器，然后做人肉运维。‍‍‍

比如我们公司，就是购买了几台云端算力机，在上面部署几个模型，然后天天出问题，一个问题查一天。‍‍‍‍‍‍‍‍‍‍

从大模型的部署角度来看，部署大模型无非以下几种方式：‍‍‍‍‍‍‍‍

最简单的是一些小模型，单台机器就能够支撑其运算需求，这时在企业生产中只需要在多台机器上部署多个相同的模型，然后在入口做一个负载均衡就可以了。‍‍‍‍‍‍‍

但如果没有完整的运维系统，全靠人肉运维，这样会把运维和技术人员给累死。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

先说这种模式经常出现的一些问题，比如怎么检测大模型服务的健康状况？说白了就是怎么知道这些机器是否在正常运行？一台机器一台机器的看吗？

再有，如果某台机器出问题了，怎么快速定位到这台机器上？大模型的集群部署是否有自动健康检测系统？‍‍‍

我想很多企业都做不到这一点，一旦出问题只能靠技术人员慢慢排查；而这还不包括一些莫名其妙的问题。‍‍‍‍‍

比如说我自己，前几天遇到一个bug，AIGC的任务无法提交到大模型，本来以为任务无法提交是因为自己的模块有bug，然后查了一下午时间发现是因为算力机出问题导致业务端无法获取到算力机，然后间接导致任务无法提交。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

而如果是那种参数量和算力要求巨大的模型，单机部署就无法实现，只能依靠集群的并行计算能力，但换句话说能做到大模型集群并行计算的公司又有多少？ ‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

模型不同模块之间怎么部署，怎么监控，怎么解决它们的通讯问题，某些模块的算力瓶颈怎么解决？遇到高并发问题怎么解决？是使用异步通讯，还是使用消息队列做削峰处理？中间引入的异步通讯模块或消息队列中间件怎么保证稳定性？‍‍

最重要的是，在出现生产问题时怎么做到及时的响应，并快速恢复上线，把影响降到最小？而这些靠人工来做是不可能完成的，但大部分企业又没有能力构建完善的运维系统。

再有在大部分小微企业中，老板或者领导最看重的就是业务的开发进度，而不是系统运维的难度。业务开发时间被不断的压缩，各种业务bug已经让人不厌其烦，再加上模型服务的不稳定性，真的是让人崩溃。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

还有就是很多小公司为了省钱，前期也不肯找一个有能力，有经验的架构师做系统架构，很多小项目都是匆匆上马，开发人员素质不齐，导致大量的设计缺陷和业务漏洞，还包括一些项目管理混乱，简直就是群魔乱舞。‍

就拿作者自己的公司来说，采用的就是租用云算力服务商的算力机，把模型服务独立部署在云端；而为了提高扩展性，就通过调用云算力服务商的接口，根据业务压力动态进行扩容，也就是用镜像的方式启动多台相同环境的机器；然后业务端通过轮训或其它方式来进行动态选择算力机。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍