我要投稿

AI产品分析：向量数据库（Vector Database）

发布日期：2024-12-11 07:29:53 浏览次数： 2292 作者：天翼智库

发展概述：AI大模型将向量数据库从小众推向火爆

向量数据库伴随着人工智能发展而发展，专门用来存储、查询向量数据。向量数据库的起源可以追溯到20世纪60年代，在机器学习领域提出的向量空间模型中，将文档表示为向量，并通过计算向量间相似性进行检索，典型产品有早期的Lucene。随着2000年代深度学习的兴起，卷积神经网络等算法从图像、音频等非结构化数据中提取出大量的高维向量数据，这类数据需要专门的存储和管理技术，向量数据库便应运而生，典型产品有Milvus、Pinecone等。相较传统关系型数据，向量数据库能够很好的处理大规模数据、低时延高并发检索等，但受制于前期AI技术瓶颈，应用场景局限于AI推荐系统、图片检索等，比较小众。

表1 关系型数据VS向量数据库

大模型引爆向量数据库应用，成为GenAI时代新宠儿。随着2022年ChatGPT的横空出世，带动了生成式AI技术发展，也带火了向量数据库。大家发现它可以用来储存、调用由大模型训练而产生的向量嵌入（Embeddings），大大提高聊天机器人等AI交互所生成回复的质量。2023年英伟达CEO黄仁勋强调其对于构建专有大模型的重要性，催生了向量数据库产品的快速发展，在过去的1年中，向量数据库一直是受欢迎程度TOP3的数据产品。

图1 2023年10月-2024年10月数据库产品受欢迎程度排名¹

功能应用：向量数据库全面赋能大模型，应用前景广阔

经历了去年百模大战，今年大模型从此前的拼模型参数转向拼功能应用，推动向量数据的存储、管理需求加速增长，已成为人工智能基础设施的重要一环。一是在大模型训练侧，提供数据清洗、向量嵌入转换、相似检索等能力，解决多模态数据难题，减少模型训练量，缩短训练时间。二是在大模型推理侧，提供外挂知识库，有效保护用户数据隐私并提升推理能力，解决大模型“幻觉”问题，为大模型提供长记忆能力等，在推荐、图像、时空等多AI场景应用。

图2 向量数据库在AI推理场景的应用²

基于以上功能需求，目前主要有两大类向量数据库产品，包括原生向量数据库和非原生向量数据库，在RAG建设上均有应用，主要区别在于数据的拓展性上。1）原生向量数据库在处理大量向量时，效率更高，如Pinecone、Weaviate、Qdrant、Chroma、Zilliz、Vespa等专用于存储和检索向量，具有利用索引技术进行高效的相似性搜索，支持高维数据。2）非原生向量数据主要优势在于它可以存储其他类型的数据，如Redis、MongoDB等，可与社交媒体或知识图谱的大语言模型融合，提供混合搜索。

图3 向量数据库在大模型RAG管道建设中的作用³

市场发展：AI大模型时代的必备基础工具，市场空间巨大

海量数据爆发产生巨大数据库需求。根据Stastista，2022年全球创建、使用和存储的数据量约为97ZB，预计到2025年数据量将达到 181ZB，2021-2025 年全球数据量复合增长率约为23%。数据量的爆发式增长为数据存储、处理带来更为庞大的需求，全球数据库市场规模仍处于高速成长期，年复合增长20%⁴，其中向量数据库在AI应用场景加速落地的背景下将加速发展，复合增速约25%，有望在2030年达到500亿美元，中国占10%左右。

图4 全球数据量变化和数据库市场规模变化对比

多元化的竞争格局已形成。头部企业如Zilliz和Pinecone等，已经获得了显著的市场关注和资本支持，其中Zilliz与Nvidia、IBM、Microsoft等公司展开合作，在一级市场获得1.13亿美元投资；Pinecone则在Google云和AWS上架，获得1.38亿美元投资。国内科技企业开始关注并加入这一领域，在国内TOP10产品榜上，腾讯、字节跳动、百度、京东等依靠自身云平台能力，推出云原生等向量数据库产品，展开新一轮数据技术产品竞争。

云数据库和KA定制是当前两大商业模式。云数据库模式按照存储和计算资源的使用情况收费，云服务商为用户提供灵活、可扩展的服务。KA定制模式主要针对大型企业客户，提供定制化的解决方案，满足特定需求，如阿里云的Milvus服务为识货团队在电商领域的向量检索场景中搭建业务系统提供了支持。

图5 2024年国产向量数据库TOP10⁵

典型产品：开源与上云特征显著

从典型产品的角度看，因大模型热潮的催化，目前超70%的向量数据库选择了开源，超过一半的向量数据库具有云化部署的能力。有以下典型产品：

Milvus由Zilliz公司2019年发布，具有中国血统，专为向量查询与检索设计，支持高性能的海量数据集向量相似度检索，在处理大规模向量数据时表现出色，特别是在十亿级向量搜索任务中，其查询速度和准确性均达到行业领先水平，也是目前GitHub上最受欢迎的开源向量数据库。

图6 GitHub上向量数据库的stars数

Pinecone Vector Database是一个高性能、实时更新的云原生向量数据库，专为机器学习和AI应用设计，以全托管服务和易用性闻名。它支持密集和稀疏向量嵌入，提供灵活的索引算法和过滤功能，可扩展性强，适用于文本搜索、图像识别和推荐系统等多种场景。

Weaviate是一个开源的向量搜索引擎和数据库，其支持存储JSON文档和向量嵌入，可扩展性强，能够处理数十亿级别的数据对象。为方便数据访问，它提供有GraphQL API，同时支持多种媒体类型（文本、图像等），提供语义搜索、问答提取、分类等功能。它还具备云原生特性，支持在Kubernetes上部署，确保了高可用性和弹性。

Tencent Cloud VectorDB是腾讯云2023年推出的一款全托管的自研企业级分布式数据库服务，专门用于存储、检索、分析多维向量数据，能够轻松应对PB级别的向量数据存储需求，并支持高容错性和伸缩性。旨在为大模型提供外部知识库，提高大模型回答的准确性，同时广泛应用于推荐系统、自然语言处理(NLP)服务、计算机视觉、智能客服等领域。

表2 典型向量数据库产品对比