AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


解决知识库问答质量低 , Qanything 二段检索( Mac M2环境 )
发布日期:2024-05-30 04:26:13 浏览次数: 2515 来源:博金斯的AI笔记


近 2 月还比较火的升级版 RAG知识库问答还有 RagFlow,但对我用的MacOS系统支持不好,第一步就卡住了,因此就部署Qanything
RagFlow必须设置程序最大可使用的内存大小sysctl -w vm.max_map_count=262144,不然在 docker 拉取镜像时会显示``container ragflow-es-01 is unhealthy`
如果在sysctl -w vm.max_map_count=262144出现unknown oid vm.max_map_count,在 Mac 会出现,因为 vm max 这个参数是 linux 系统的
在查找解决方法过程中发现了 Qanything比 Ragflow 的 star数量都多,而且教程更详细,对 Mac 支持更好,因此决定部署 Qanything


二段搜索

Qanything 采用嵌入模型是 BCEmbedding, 下图是国外对各个向量模型测评,BCEmbedding跨语种能力很强

我在写ollama+Obsidian, 自定义构建本地AI 写作助理,不用联网 文末提到过 LLM 向量检索的幻觉依然很重,几乎无法检测非 csv 文档的内容,当时为此头疼, 没想到现在就发现一个进步的解决方法
按照上图,除了 embedding,增加了 rerank 的步骤来增加向量检索的精度, 左边是没经过 rerank 的,右边经过 rerank,得分更高颜色也更绿, 最绿的就是 rerank 之后的BCEmbedding,
为什么是两阶段检索:
知识库数据量大的场景下两阶段优势非常明显,如果只用一阶段embedding检索,随着数据量增大会出现检索退化的问题,如下图中绿线所示,二阶段rerank重排后能实现准确率稳定增长,即数据越多,效果越好
https://github.com/netease-youdao/BCEmbedding/blob/master/Docs/EvaluationSummary/embedding_eval_summary.md 该网址汇总了一阶段embedding各语言的向量模型排名
https://github.com/netease-youdao/BCEmbedding/blob/master/Docs/EvaluationSummary/reranker_eval_summary.md汇总了二阶段 reranking各语言的向量模型排名
Qanything 架构图: LLM 根据用户提问,先收集各种图文素材进行 embedding,embedding 形成向量检索相似度排名后,再进行第二阶段的 reranking,再排一次名,再交给 LLM 阅读并返回回复


项目功能特点:
  1. 本项目支持embedding 和 rerank 的单用

  2. QAnything的大模型基于qwen-7b,并在大量专业问答数据集上进行微调;支持与OpenAI API兼容的其他LLM服务(包括 ollama),并提供优化后的PDF解析器

  3. 支持在纯Python环境中安装;支持混合检索

  4. 支持联网检索、FAQ、自定义BOT、文件溯源等

  5. 可把项目作为api 对接其他应用

支持python 和 docker 版本,docker 版本功能滞后(但适合生成环境和私有化部署)并且不支持 Mac,所以我安装的是 python 版本

python 版部署教程

请创建一个干净的Python虚拟环境,以避免潜在冲突(推荐使用Anaconda3 python 版本一定是 3.10, 3.12的好多包都安装有问题
conda create -n qanything-python python=3.10conda activate qanything-pythongit clone -b qanything-python https://github.com/netease-youdao/QAnything.gitcd QAnythingpip install -r requirements.txt# 请根据使用环境选择启动脚本:bash scripts/xxx(内部调用纯python启动代码,可手动修改python启动命令)
我用 ollama 运行下面命令,会下载 2 个 G 的模型,14MB/s 的下载速度,半分钟就下载完毕
bash scripts/run_for_ollama_api_in_M1_mac.sh
下载完毕会显示下图, http://0.0.0.0:8777/qanything/地址在我这台M2打不开, 替换成本地 ip 地址就行,我的是http://192.168.1.6:8777/qanything/#/home ,在网页就能出现 Qanything的前端


项目scripts文件下的 run_for xxx根据自己的系统选择即可,window ,linux 都有部署教程,去 Github 官网查看,有中文说明 md 文档


建议在运行 bash 指令前去这里的 run_forxx 文件修改模型和上下文 token, 我用的就不是默认的llama3,而是 llama3:70b,需要改成 70b,跟你ollama run llama3:70b的名称一样,不然会显示模型找不到
token 写大些不然会遇到index out of range 的问题,如下图

以run_for_ollama 为例,把原本的
bash scripts/base_run.sh -s "M1mac" -w 4 -m 19530 -q 8777 -o -b 'http://localhost:11434/v1' -k 'ollama' -n 'llama3' -l '4096'
我需要改成自己设置的 llama 模型,token 改成8000,(llama2 上下文 token 是 4096,llama3 是 8000 token)
bash scripts/base_run.sh -s "M1mac" -w 4 -m 19530 -q 8777 -o -b 'http://localhost:11434/v1' -k 'ollama' -n 'llama3:70b' -l '8000'
运行成功在浏览器显示如下界面



左边新建知识库上传,右边在终端/命令行就进行处理


角色设定和欢迎语都是让 chatGPT4 帮忙生成的, 知识库是我的每天写的日记, 机器人就是对日记进行文档
这里顺便给大家介绍下我自己在用的4 个提示词小技巧,确实能改善回答质量
必须;命令直接,;受众;小费
instance: 必须整理成中文的高品质专业时尚文章, 受众是对时尚感兴趣的女性消费者,整理得好给你小费
这个比较简单,没有那么花里花哨的 prompt, prompt 越直接简单,GPT 越听得懂, 我跟ChatGPT4 的对话如下图

有直接在知识库问答和自己创建个机器人两种方式, 后者不能用 AI 总结, 只会输出相关知识库文档, 如果按上面提示词设置,也只会重复说 I'm your personal Journal assistant---birkins xxxx,不会像左侧一样对匹配到的文档进行匹配
❓不知道这是 bug 还是我自己的问题, 有解决方法的希望能留言沟通
要中文语料多的就装 qwen 模型,我这里是 llama3,更偏向英语

按照左边的生成结果来说, 对知识库的检索挺准确的,终于找到个不用 CSV 问答对就能较高质量搜索本地知识库的应用了,而且部署比 FastGPT 方便

网络搜索

支持网络(得有梯子)+知识库搜索
我部署时联网显示certificate verify failed, 在 web_search_tool.py按照 python 全局取消 ssl 证书验证的教程也无效  

有谁也有解决方法吗, 欢迎讨论沟通

后记

总体来说, 记录了我在MacOS环境下部署Qanything的过程和心得,展示了其在解决RAG知识库问答质量低问题上的有效性。通过增加重新排序步骤,Qanything显著提高了向量检索的精度,数据越多表现会越好
在部署过程中虽然遇到了创建AI bot 和网络搜索的问题,但也能使得其他用户也能参考和借鉴。希望未来能有更多类似的工具和方法出现,进一步提升知识库问答的质量和效果



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询