我要投稿

AI大模型数据库底座解决方案深度分析 2024

发布日期：2024-06-18 08:05:06 浏览次数： 2608 作者：AI云原生智能算力架构

核心观点：

向量数据库是开发和应用 AI 大模型过程中的必备的软件基础设施。向量数据库是专门用于存储和管理向量数据，其具备的快速检索、混合存储、向量嵌入等能力很好的解决了 AI 大模型技术中普遍存在的知识时效性低、输入能力有限、回答问题准确度低等问题。我们认为，向量数据库是开发和应用 AI 大模型过程中必备的软件基础设施。
‍
从实际应用案例来看，向量数据库在 AI 大模型的训练和推理过程中降本增效的效果已有所显现。ChatGPT Plugins 外接向量数据库，不仅大大拓展了 AI 大模型交互信息的范围，还保护了用户隐私。Qdrant 向量数据库与 Pienso 合作，已经实现在开源 AI 大模型的基础上开发私域大模型。我们认为，随着微软 365 Copilot 以及 ChatGPT 企业版等标杆产品的落地，AI 应用的发展正逐步由点扩散到面，各领域智能化升级的快速进展将大大增强向量数据库等相关产品的成长确定性。
‍
向量数据库行业有望随各行业智能化升级而快速成长。在商业化方面，向量数据库行业还处于市场培育期，Zilliz、Pinecone 和腾讯云均推出免费版本的产品给用户试用。我们认为，向量数据库的实际应用效果得到用户充分认识后，产品拓展过程有望加速，各行业用户付费意愿有望提升。未来，向量数据库商业化的节奏取决于各行业客户使用 AI 大模型的实际需求以及其在 AI 大模型技术中应用的实际效果。
‍
向量数据库作为新型技术，发展时间较短，开源和上云是目前的主流趋势。该领域早期的探索，主要是以 Zilliz、Pinecone 等初创型公司引领，普遍采用开源的形式培育社区生态，以及上云的方式扩大用户覆盖面。近期，以腾讯云、华为云和星环科技为代表的厂商在非结构化数据处理具有一定技术积累的基础上，也于近期推出了向量数据库产品。
向量数据库整体处于新兴市场起步阶段，产品的快速渗透对同行竞争者影响有限。我们认为，向量数据库整体处于新兴市场起步阶段，行业参与者往往能够凭借具有竞争力的产品实现从 0 到 1，再到一定市场份额的发展，能够享受更多下游快速渗透带来的机会，而同行竞争带来的压力相对较小。下一阶段，向量数据库的产品化和商业化是各厂商成长的关键。未来，针对各场景需求特点，结合 AI 大模型的能力开发出满足行业用户需求的向量数据库产品，以及根据实际产业趋势制定合理的收费模式将是各厂商在低渗透率的环境下获客的关键。
‍

随着AI大模型的发展，向量数据库已成为赋能MLOps各环节必备的软件基础设施。在AI模型全生命周期过程中，MLOps（Machine Learning Operations，机器学习运营体系）代表机器学习的开发、部署和应用，是涵盖从训练到推理全流程，提升从数据到AI模型生产效率的工具。

AI大模型已成为主流技术，在训练的数据量不断增多，算力集群规模持续扩大的趋势下，从数据到模型的全生命周期管理需要更加专业的软件工具用于生产效率的提升、流程的优化和成本的节省。

其中向量数据库具备的快速检索、混合存储、向量嵌入等能力很好的解决了AI大模型在MLOps过程中存在的知识时效性低、输入能力有限、回答问题准确度低等问题，未来发展前景广阔。

向量数据库是开发和应用AI大模型过程中必备的软件基础设施。

向量数据库是专门用于存储和管理向量数据，其主要特点是能够高效地存储和查询大规模的向量数据。

它通常采用基于向量相似度的查询方式，即根据向量之间的相似度来检索数据。这一功能特点不仅使得其可以提升训练过程中特征提取和数据检索等任务的效率，还在推理过程中有效保护用户隐私数据、保障应用过程的数据安全性。

我们认为，以向量数据库为代表的工具类软件有效解决了AI大模型全生命周期管理中的痛点，是开发和应用AI大模型过程中必备的软件基础设施。

从实际应用案例来看，向量数据库在AI大模型的训练和推理过程中降本增效的效果已有所显现。Pinecoe、Weaviate等向量数据库通过数据清洗、去重，将优化后的数据集导入模型训练过程，较大提升了训练效率。ChatGPT Plugins插件系统外接向量数据库，不仅大大拓展了AI大模型交互信息的范围，还保证了用户信息的私密性。

Qdrant向量数据库产品与Pienso合作，已经实现在开源AI大模型的基础上开发私域大模型。我们认为，随着微软365 Copilot以及ChatGPT企业版等标杆产品的落地，AI应用的发展正逐步由点扩散到面，各领域智能化升级的快速进展将大大增强向量数据库等相关产品的成长确定性。

向量数据库作为新型技术，发展时间较短，开源和上云是目前的主流趋势。在向量数据库领域早期的探索，主要是以Zilliz、Weaviate和Pinecone等初创型公司引领。

在AI大模型未被普遍应用之前，该产品的需求较少，因此，初创型公司开发的向量数据库产品多以开源的形式培育社区生态，以及上云的方式扩大用户覆盖面。

随着向量数据库在AI大模型中应用的重要性逐渐被挖掘，各厂商加大了该领域的研发。以腾讯云、华为云和星环科技为代表的厂商在非结构化数据的向量检索工具已经具有一定技术积累的基础上，也于近期推出了向量数据库产品。

向量数据库行业有望随各行业智能化升级而快速成长。在技术方面，Zilliz和Weaviate将技术开源一方面推动了整体行业的进步，另一方面也缩小了行业内公司的技术差距。因此，早期开始技术探索的公司并未形成明显的技术壁垒和先发优势。

在商业化方面，向量数据库行业还处于市场培育期，Zilliz、Pinecone和腾讯云VectorDB均推出免费版本的产品给用户试用，而基于公有云的SaaS服务和星环科技的社区版Hippo都尝试通过软件的轻量化及部署的便捷化来推广向量数据库产品。我们认为，向量数据库在AI大模型训练和推理过程中的实际效果得到用户充分认识后，

产品拓展过程有望加速，各行业用户付费意愿有望提升。未来，向量数据库商业化的节奏取决于各行业客户使用AI大模型的实际需求以及其在AI大模型技术中应用的实际效果。

向量数据库处于产品化和商业化的早期阶段，配合标准化产品的技术服务是关键。向量数据库发展时间较短，相应功能难以广泛满足各行业需求，在商业化落地过程中难免会遇到无法满足客户定制化需求的情况。在这种情形下，配合标准化产品的技术服务的及时性和专业性将是向量数据库公司新客拓展、老客留存的关键。我们认为，具有成规模且专业性强的技术支持团队的公司在向量数据库商业化落地过程中更具优势。相较于初创型的公司，星环科技已拥有410人的技术支持团队（截至2022年12月底），对于新产品的市场推广、商业化策略制定以及客户沟通方面已经具有丰富经验，基于此，我们看好星环科技向量数据库产品Hippo未来的商业化前景。

云计算公司拥有的AI大模型以及海量非结构化数据为其向量数据库产品打磨和应用提供了较好的环境。腾讯云向量数据库VectorDB已经累积服务了腾讯内部40多个业务，在应用于QQ音乐、腾讯视频等业务时也提升和打磨了海量非结构数据的处理能力；华为云GaussDB向量数据库已外接盘古大模型，为其提供缓存能力。我们认为，云计算公司开发的向量数据库在满足其自研的AI大模型业务和海量数据检索的需求的同时，也提升了产品性能，实践了具体场景中的应用效果，为其对外提供服务打好了基础。

向量数据库整体处于新兴市场起步阶段，产品的快速渗透对同行竞争者影响有限。在线下的应用场景中，以腾讯云为代表的云计算厂商和以星环科技为代表的独立第三方公司在向量数据库领域存在一定的竞争关系。

但是，我们认为，向量数据库整体处于新兴市场起步阶段，行业参与者往往能够凭借具有竞争力的产品实现从0到1，再到一定市场份额的发展，能够享受更多下游快速渗透带来的机会，而同行竞争带来的压力相对较小。下一阶段，向量数据库的产品化和商业化是各厂商成长的关键。

未来，针对各场景需求特点，结合AI大模型的能力开发出满足行业用户需求的向量数据库产品，以及根据实际产业趋势制定合理的收费模式将是各厂商在低渗透率的环境下获客的关键。

中长期来看，云计算公司和数据库厂商也存在合作的可能性。从海外的经验来看，向量数据库普遍搭载于云平台上提供SaaS服务。随着云计算公司业务覆盖面的拓宽以及产品线的延长，其在各个技术应用领域的需要寻求合作伙伴共同拓展业务。

例如，腾讯打造的云市场生态，旨在各领域寻找与自身能力合作互补的厂商共同促进商业化落地。我们认为，若第三方向量数据库公司的产品具有足够的竞争力，可以实现对相关软硬件基础设施的连带销售效果，云计算公司与其实现资源互补、产业合作的可能性将大大增加。

一、向量数据库为 AI 大模型全生命周期管理提质增效

AI大模型的技术已成为业内主流发展方向，在训练的数据量不断增多，算力集群规模持续扩大的趋势下，从数据到模型的全生命周期管理需要更加专业的软件工具用于生产效率的提升、流程的优化和成本的节省。其中向量数据库具备的快速检索、混合存储、向量嵌入等能力很好的解决了AI大模型在MLOps过程中存在的知识时效性低、输入能力有限、回答问题准确度低等问题，未来发展前景广阔。

图 1：MLOps基本流程及向量数据库的功能定位

（一）MLOps 已成为 AI 模型规模化开发的必备软件工具

AI大模型的训练和推理各环节过程复杂、步骤较多，需要统一的软件工具链进行管理。从原始的训练数据训练成为AI大模型的过程需要经过数据预处理、特征提取、模型测试、训练监控、生产部署等环节，任何一个环节出现问题亦或不同环节之间的衔接不流畅，则会影响整体的开发效率和成果转化率。

根据Gartner调查结果，只有53%的项目能够从AI原型转化为生产，AI生产转化率低的主要原因在于模型全链路生命周期管理存在跨团队协作难度大、过程和资产管理欠缺、生产和交付周期长等问题。因此，开发从数据到模型，贯通从开发到部署等多环节统一的流水线软件MLOps是保障AI模型生产和管理的稳定性、持续性、规模化和效率的关键。

图 2：AI生产管理中的痛点

图 3：MLOps 全流程示意图

MLOps的目标是提高AI项目全生命周期的效率、可扩展性和可靠性。在MLOps的框架下，机器学习项目的生命周期被划分为几个关键阶段，包括需求设计、开发阶段、交付阶段和运营阶段。这种结构化的运行方法提供了一个清晰的路线图，可以帮助团队有效减少数据质量、模型过拟合和部署困难等难题，较大提高了项目推进效率。

此外，MLOps还通过自动化持续集成/持续部署（CI/CD）等方式加快模型迭代速度，保证模型在生产过程中的连续性。

MLOps的系统框架不是简单的线性推进，而是各个环节的相互作用与结合。

MLOps的生命周期包含了多个反馈循环，模型测试和运维监控阶段的结果可能会反馈到数据工程和模型开发环节，集成效果会影响模型上线后的性能，模型上线运行的效果又影响业务需求和开发方向。

MLOps的生命周期不是一次性的过程，需要反复进行数据收集和准备、模型开发和训练、模型验证和测试等步骤，以不断对模型进行迭代与优化。目前，MLOps对AI全生命周期的管理和应用正逐渐走向成熟，对各个环节都有对应的软件实现效率的提升。这些软件和工具在各环节发挥着重要的作用，共同构建了一个完整、高效的MLOps生态系统。

图 4：MLOps工具对AI模型全生命周期管理流程图

1.需求管理：业务人员基于对产业和业务的深刻认知，在复杂的业务场景中提炼出痛点问题并形成需求，交付于数据科学家进行对接；数据科学家通过需求文档初步建立算法模型（demo），明确业务需求，并对需求的可行性进行评估与检验。

在双方的有效沟通下对方案多次修改直到达成一致，以确保业务需求被正确认知，建模方案可行而高效，避免不同角色对于需求的理解不一致及风险不可控等问题，从源头提升项目质量，降低需求变更带来的影响。

2.数据工程：明确了需求之后，就要从业务场景中提取建模所需的数据。业务场景覆盖范围宽广且涉及情景复杂，获取的数据格式、口径、类型都大不相同。取数场景可能涉及到从各种源（如数据库、日志文件、API等）收集数据，获取的数据可能是结构化的（如表格数据），也可能是非结构化的（如文本或图像），也可能包含错误、缺失或异常值，需要识别并处理，以提高数据的质量。

此外，获取的数据一般不符合机器学习模型的特定格式要求，需要数据工程师进行相应的处理，如编码分类变量、标准化数值变量等。与此同时，数据工程师需要从原始数据中进行特征选择、特征提取、特征构造以提高模型性能。数据工程是机器学习项目成功的关键，好的数据工程可以提高模型的准确性，降低模型的复杂性，提高模型的可解释性。

3.模型开发：模型开发是MLOps生命周期中的关键阶段，需要根据问题的性质（例如，是分类问题、回归问题还是聚类问题）和数据的特性，选择一个或多个适当的机器学习算法进行建模。特征选择也是模型性能的关键，需要从所有可用的特征中选择最相关的特征子集用于模型训练，减少复杂性，提高模型性能，并减少过拟合的风险。完成基本建模后，需要对模型进行不断训练、优化和迭代，以达到最佳效果。

4.构架集成：持续集成（Continuous Integration，简称CI）是一种软件开发实践，开发人员将他们的代码更改合并到共享存储库中，通常每天至少一次。每次代码合并都由自动化的构建（包括编译、发布、自动化测试）来验证，从而尽早地发现并解决问题。通过持续集成和自动化测试，可以快速发现和定位错误，减少调试时间，提高流程效率。

5.模型测试：模型测试用于评估机器学习模型的性能和可靠性，目的是确保机器学习模型可以根据最新的数据和反馈进行更新和优化。测试阶通常构造一组测试数据来评估模型的预测结果，并使用适当的评估指标（如准确率、召回率、AUC等）来量化模型的性能。同时还要测试模型的鲁棒性，检查模型是否对输入数据的噪声或异常值敏感。

6.部署发布：持续部署阶段（Continuous Deployment，简称CD）涉及将训练好的机器学习模型部署到生产环境，以便它可以开始为实际业务问题提供预测。它将模型和相关的预处理和后处理代码打包为一个容器（如Docker容器），并将模型服务部署到适当的运行环境。部署发布是一个复杂的过程，需要考虑性能、可用性、安全性和可扩展性等多个因素，以确保模型的成功部署和高效运行。

7.运维监控：运维监控是在模型部署后对其性能和健康状况进行持续的监控和管理。这要求IT运维定期检查模型的预测性能，以确保它仍然满足业务需求;监控模型服务的资源使用情况（如CPU、内存和磁盘使用情况），检查模型服务的错误和异常；监控模型的数据漂移，避免因为输入数据的分布变化导致模型性能随着时间的推移而下降。运维监控是一个持续的过程，它需要在模型的整个生命周期中进行，以确保模型的持续性能和健康状况。

表 1：MLOps的生命周期每个阶段的主要输入、主要步骤以及主要输出内容

AI大模型对MLOps提出了更高要求。相较于普通的AI模型，AI大模型的训练有更多数据的输入，通常需要更长时间和更多的资源，因此在训练过程中需要进行更精细的调优和监控。此外，由于AI大模型的规模较大，其部署和维护也会相应地变得更加复杂。例如，如何将模型分布式部署到多个节点上、如何保证模型的稳定性和可靠性、如何进行故障排除和容错等。因此，适用于普通模型生产的MLOps较难适应AI大模型的需求。目前，针对AI大模型的技术特点，部分厂商已开发出LLMOps工具，在海量样本构建、模型增量与全量的训练和部署、模型推理、模型回滚、模型回溯等方面有较大提升能力。总体来看，在模型的全生命周期管理过程中，AI大模型具有以下特点：

1. “预训练+微调”已成为AI大模型主流开发方式：目前较多的大模型的开发不再从头开始训练，而是选择一个通用性基础较好的、开源的预训练模型，在其基础上进行参数微调和优化得到满足用户需求的大模型。

2. AI大模型的开发涉及的环节较多，耗时较长：由于训练数据量庞大，数据类型较多，AI大模型的训练时间较长。AI大模型的训练包括数据清洗、特征提取、参数调优、评估测试等，各环节的耗时都取决于数据量、模型复杂度以及评估指标的选择。因此数据处理工具、软件平台架构的选择对于AI大模型的开发有关键作用。

3. 相似性检索功能对于AI大模型生成内容的效率和质量有一定提升：在人机交互的过程中，存在由于用户提问方式不直接，给出的提示词较为模糊，导致生成内容质量不高的问题。因此，通过相似性检索和向量标量字段过滤混合查询等技术手段提高提示词与回答内容之间匹配度已成为AI大模型的重要发展方向之一。

4. 人工反馈对于AI大模型通用性效果的提升有关键作用：在模型的评估测试环节，通过引入人工反馈机制对于模型输出的内容进行纠正，筛除不合理的、错误的回答，从而提升AI大模型整体的通用性。

表 2：AI大模型的属性对MLOps过程中的影响

向量数据库是开发和应用AI大模型过程中必备的软件基础设施。针对AI大模型的MLOps在架构方面的设计考虑了海量多源数据的训练、预训练大模型的导入以及大规模计算集群算力资源调度。这些都是在普通AI模型开发和应用中难以遇到的问题。

在训练数据方面，由于所需处理的数据量较为庞大、类型更加复杂，向量数据库是提升训练和推理效率必备的工具软件。AI大模型在大规模计算集群的环境下进行训练，具有算力资源调度和整合共享能力的分布式架构已成为主流。我们认为，以向量数据库为代表的工具类软件有效解决了AI大模型全生命周期管理中的痛点，是开发和应用AI大模型过程中必备的软件基础设施。

图 5：星环科技大语言模型运营平台Sophon LLMOps架构图

向量数据库赋能MLOps过程中数据导入、特征提取、模型构建等多个环节。在数据导入过程中，向量数据库可以将不同类型的非结构化数据进行清洗、筛选并转化为统一的向量嵌入格式，便于各类数据的交互和计算。在特征提取阶段，向量数据库的相似性检索功能给不同的向量数据构建索引，有效提升搜索效率，缩短训练时间。

在模型构建环节，向量数据库也可以在微调和剪枝等环节减少训练数据量，节省训练成本。此外，在模型推理过程中，向量数据库也可解决AI大模型知识的时效低、输入能力有限以及准确度低的问题。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业