支持私有云部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


用 AI 知识库,已经没有任何技术门槛

发布日期:2025-03-17 14:22:01 浏览次数: 1547 来源:MacTalk
推荐语

AI技术让知识库管理变得简单高效,墨问创作工具的AI知识库探索之旅。

核心内容:
1. AI技术如何提升知识库内容检索与管理体验
2. 墨问团队在AI知识库技术实现中的挑战与选择
3. 火山引擎知识库解决方案的优势与接入流程

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家
这一周多的时间,我主要在忙知识库的调研。墨问是一款创作工具,用户创作的内容多了之后,自然而然就会形成一个个的知识库,现在借由 AI 的能力,我们兴许可以做出来更好的体验。
毕竟内容一多,找起来就费劲了,没有 AI 之前,咱只能靠关键词检索。但有时候,很容易忘记到底当时用的哪个关键词。现在,AI 完全可以做到让用户针对知识库的内容随性的提问。
知识库产品的交互我倒是想得比较清楚,难点是技术实现。毕竟知识库的功能整体还是趋同的,决定产品好坏的一个关键点是回答的准确性。我测试下来,会发现不同的 AI  知识库产品,大家在这块的能力差异特别大。
底层的模型和工程能力,直接决定了产品的下限。
对于墨问这样的创业团队,我们目前还没有实力基于基座大模型,从零开发一套全新的知识库基础设施。可能说起来简单,不就是挂个 RAG 吗?不是的,这里面技术细节非常多。我随便举几个例子,怎么对内容做分片?怎么提升召回准确率?怎么整合不同模态的信息?怎么减少幻觉?
综合考虑后,我们觉得还是应该用云上的成熟能力。话说云计算现在已经像空气一样融入到我们的日常,现在我们小团队做产品,充分体会到云的价值。你想想,要是没有云计算的话,我们团队想落地大模型,那可得费老鼻子劲儿。云计算一定程度上推动了应用的创新。
后来,我一一对比目前市面上各个知识库的解决方案,最终选择了火山引擎的知识库能力。话说,目前墨问上所有的 AI 特性,都用的是火山引擎。后面我还打算接下它的搜推能力,应该还会再写文章谈我们具体的接入经验。综合使用下来,我觉得火山的 AI 能力性价比挺高的。
火山的知识库主要有几个优势:
第一,最大支持的单文档上限为 350M。作为对比,腾讯云知识引擎的单文档上限是 200M,阿里云的百炼知识库为 100M。单文档的上限对我们很重要,因为最近从数据上看,我发现用户很喜欢传大体积的 PDF 进来。
第二,支持对文档内的图片进行问答。只要在创建知识库时,开启 OCR 能力,那模型就会分析知识库中的图片。这应该能给用户带来更好的体验。毕竟现在,图片也承载了很多信息。
第三,低延迟,百亿数据规模下检索延迟毫秒级。另外技术方面,火山的知识库沿用了头条抖音同款的向量库架构,这对我也比较有吸引力。毕竟这些能力在字节的头部产品中得到了验证。
下面我还是直接展示下它的实际能力吧。
接入的话,流程非常简单。直接登录火山引擎,在火山方舟中选择“知识库”菜单。紧接着,进入页面后,官方有一个简单的指引,只需要四步,就能够完成知识库的创建。我截了图,第四步中你能看到,已经可以进行 API 调用。
但需要说明下,创建知识库,上传文档之后,系统就会开始计费。我们目前还没有充值,因为上周在文章中推过火山的裂变活动,送了不少券。你要是测试的话,也可以参与下这个活动,用我的码注册,双方都能得到一些优惠券,优惠券可以兑换 Tokens。
点击创建知识库,输入名称、描述等基础信息之后,可以对知识库进行一系列的配置,比如选择向量模型、向量维度、切片方式(注意勾选图片 OCR)、CPU 配额、索引算法、量化方式。这里面,具体每个选择项是什么意思,我不过多解释了,我们测试时,基本都是选择默认的选项。不过,我计划等后面精细化测试产品的能力时,再回来调整下向量维度、量化方式等参数试试效果的差异。
我往知识库内,分别上传了不同的文档。包括阿里巴巴的两份财报、KK 的人生建议、Manus 创始人的播客速记稿,以及几张从许知远的书中拍出来的读书笔记。这几份文档,有的大小超过了 240 M,有的纯粹就是图片,有的里面有带复杂图表的信息。接下来,我具体看看它的效果到底怎么样。
点击切片详情,能够看到具体的切片信息。
我们尝试进行第一次的检索。在许知远的采访中,我上传过几张照片,其中一张图片说了“习得性快乐”的概念。我想查查,看看能否查到。左侧模型回答参数中选择“豆包 -1.5-vision-pro-32k”之后,我在右侧对话框中向知识库发起提问,如下图,假设我已经不记得习得性快乐这个词,只是模糊地想问问与快乐相关的观点,咱们看看效果。
它确实找到了,而且还把其他几个文档中与快乐的观点也列出来。下面是我的原始图片:
继续测试,看看它对复杂文档的理解能力。说明下,我上传了一份阿里巴巴 2 月 20 日发布的 2025 财年第三财季财报,以及之前另外一份 2025 财年中期报告。我问下它能否理解上下文。这次,我换个模型,试试官方内置的 DeepSeek R1 满血版。说明下,在左侧可以更换知识库的问答模型。
换完模型后,我提问:“阿里巴巴淘宝和天猫的最新营收数据”。下图中,你能看到,DeepSeek R1 开始思考,并最终找到了哪份文件中的数据是最新的。同时,结合文档的上下文信息,它找到了最新的数据,并定位出来淘宝和天猫是淘天集团。
想接 API 的话,点击左下角的 API 调用,就会弹出来官方撰写的完整的 API 调用指南。刚才我上传文档都是基于火山引擎的图形界面完成的,最后融合到产品中,肯定不会手动做。API 部分,还囊括了文档管理、切片管理、知识库管理等等相关的能力,不复杂,也都是常用的基本能力。我们研发同学一看就懂,和其他云计算能力的调用方式一模一样。
我没办法一一还原我们所有的测试过程,整体内容还挺多的。这一周下来,我的感觉是,基于火山知识库的能力,构建一款 AI 知识库应用或者功能,已经绰绰有余。我们只需要去思考应用的交互,以及场景,并进行细处的打磨。技术的难度几乎没有,云平台已经帮我们搞定。
今天的文章是我在周末时写的,上周我还写过火山开源一系列应用的文章。我知道,很多团队并不擅长做大模型相关的 AI 技术,却擅长做应用,他们过去积累了对某个行业的深刻理解。
虽然 AI 应用这几年一直呼声很高,但今年,我确实真切感觉到火候到了。大模型的能力越来越强,越来越便宜,而且,像火山引擎这样的云平台,基于大模型之上,还做了各种场景的垂直能力,这都进一步降低了应用的落地门槛。
AI 应用是有机会窗口的。现在确实到了可以下重注的时候。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询