我要投稿

解决知识库问答质量低 , Qanything 二段检索( Mac M2环境 )

发布日期：2024-05-30 04:26:13 浏览次数： 3193 来源：博金斯的AI笔记

近 2 月还比较火的升级版 RAG知识库问答还有 RagFlow,但对我用的MacOS系统支持不好,第一步就卡住了,因此就部署Qanything

RagFlow必须设置程序最大可使用的内存大小sysctl -w vm.max_map_count=262144,不然在 docker 拉取镜像时会显示``container ragflow-es-01 is unhealthy`

如果在sysctl -w vm.max_map_count=262144出现unknown oid vm.max_map_count,在 Mac 会出现,因为 vm max 这个参数是 linux 系统的

在查找解决方法过程中发现了 Qanything比 Ragflow 的 star数量都多,而且教程更详细,对 Mac 支持更好,因此决定部署 Qanything

二段搜索

Qanything 采用嵌入模型是 BCEmbedding, 下图是国外对各个向量模型测评,BCEmbedding跨语种能力很强

我在写ollama+Obsidian, 自定义构建本地AI 写作助理,不用联网文末提到过 LLM 向量检索的幻觉依然很重,几乎无法检测非 csv 文档的内容,当时为此头疼, 没想到现在就发现一个进步的解决方法

按照上图,除了 embedding,增加了 rerank 的步骤来增加向量检索的精度, 左边是没经过 rerank 的,右边经过 rerank,得分更高颜色也更绿, 最绿的就是 rerank 之后的BCEmbedding,

“
为什么是两阶段检索:
知识库数据量大的场景下两阶段优势非常明显，如果只用一阶段embedding检索，随着数据量增大会出现检索退化的问题，如下图中绿线所示，二阶段rerank重排后能实现准确率稳定增长，即数据越多，效果越好。

https://github.com/netease-youdao/BCEmbedding/blob/master/Docs/EvaluationSummary/embedding_eval_summary.md 该网址汇总了一阶段embedding各语言的向量模型排名

https://github.com/netease-youdao/BCEmbedding/blob/master/Docs/EvaluationSummary/reranker_eval_summary.md汇总了二阶段 reranking各语言的向量模型排名

Qanything 架构图: LLM 根据用户提问,先收集各种图文素材进行 embedding,embedding 形成向量检索相似度排名后,再进行第二阶段的 reranking,再排一次名,再交给 LLM 阅读并返回回复

项目功能特点:

本项目支持embedding 和 rerank 的单用
QAnything的大模型基于qwen-7b，并在大量专业问答数据集上进行微调;支持与OpenAI API兼容的其他LLM服务(包括 ollama)，并提供优化后的PDF解析器
支持在纯Python环境中安装；支持混合检索
支持联网检索、FAQ、自定义BOT、文件溯源等
可把项目作为api 对接其他应用

支持python 和 docker 版本,docker 版本功能滞后(但适合生成环境和私有化部署)并且不支持 Mac,所以我安装的是 python 版本

python 版部署教程

请创建一个干净的Python虚拟环境，以避免潜在冲突（推荐使用Anaconda3 python 版本一定是 3.10, 3.12的好多包都安装有问题

conda create -n qanything-python python=3.10conda activate qanything-pythongit clone -b qanything-python https://github.com/netease-youdao/QAnything.gitcd QAnythingpip install -r requirements.txt# 请根据使用环境选择启动脚本：bash scripts/xxx（内部调用纯python启动代码，可手动修改python启动命令）

我用 ollama 运行下面命令,会下载 2 个 G 的模型,14MB/s 的下载速度,半分钟就下载完毕

bash scripts/run_for_ollama_api_in_M1_mac.sh

下载完毕会显示下图, http://0.0.0.0:8777/qanything/地址在我这台M2打不开, 替换成本地 ip 地址就行,我的是http://192.168.1.6:8777/qanything/#/home ,在网页就能出现 Qanything的前端

项目scripts文件下的 run_for xxx根据自己的系统选择即可,window ,linux 都有部署教程,去 Github 官网查看,有中文说明 md 文档

建议在运行 bash 指令前去这里的 run_forxx 文件修改模型和上下文 token, 我用的就不是默认的llama3,而是 llama3:70b,需要改成 70b,跟你ollama run llama3:70b的名称一样,不然会显示模型找不到

token 写大些不然会遇到index out of range 的问题,如下图

以run_for_ollama 为例,把原本的

bash scripts/base_run.sh -s "M1mac" -w 4 -m 19530 -q 8777 -o -b 'http://localhost:11434/v1' -k 'ollama' -n 'llama3' -l '4096'

我需要改成自己设置的 llama 模型,token 改成8000,(llama2 上下文 token 是 4096,llama3 是 8000 token)

bash scripts/base_run.sh -s "M1mac" -w 4 -m 19530 -q 8777 -o -b 'http://localhost:11434/v1' -k 'ollama' -n 'llama3:70b' -l '8000'

运行成功在浏览器显示如下界面

左边新建知识库上传,右边在终端/命令行就进行处理

角色设定和欢迎语都是让 chatGPT4 帮忙生成的, 知识库是我的每天写的日记, 机器人就是对日记进行文档

这里顺便给大家介绍下我自己在用的4 个提示词小技巧,确实能改善回答质量

必须;命令直接,;受众;小费

“
instance: 必须整理成中文的高品质专业时尚文章, 受众是对时尚感兴趣的女性消费者,整理得好给你小费

这个比较简单,没有那么花里花哨的 prompt, prompt 越直接简单,GPT 越听得懂, 我跟ChatGPT4 的对话如下图

有直接在知识库问答和自己创建个机器人两种方式, 后者不能用 AI 总结, 只会输出相关知识库文档, 如果按上面提示词设置,也只会重复说 I'm your personal Journal assistant---birkins xxxx,不会像左侧一样对匹配到的文档进行匹配

❓不知道这是 bug 还是我自己的问题, 有解决方法的希望能留言沟通

要中文语料多的就装 qwen 模型,我这里是 llama3,更偏向英语

按照左边的生成结果来说, 对知识库的检索挺准确的,终于找到个不用 CSV 问答对就能较高质量搜索本地知识库的应用了,而且部署比 FastGPT 方便

网络搜索

支持网络(得有梯子)+知识库搜索

我部署时联网显示certificate verify failed, 在 web_search_tool.py按照 python 全局取消 ssl 证书验证的教程也无效

有谁也有解决方法吗, 欢迎讨论沟通

后记

总体来说, 记录了我在MacOS环境下部署Qanything的过程和心得，展示了其在解决RAG知识库问答质量低问题上的有效性。通过增加重新排序步骤，Qanything显著提高了向量检索的精度,数据越多表现会越好

在部署过程中虽然遇到了创建AI bot 和网络搜索的问题，但也能使得其他用户也能参考和借鉴。希望未来能有更多类似的工具和方法出现，进一步提升知识库问答的质量和效果

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

160+中大型企业正在使用53AI

立即咨询预约演示

百度智能云邀53AI：共创AI新纪元，启航智能新时代

2024-05-27

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

2024-05-22

热点资讯

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

2024-07-18

一文彻底搞懂大模型 - RAG（检索、增强、生成）

2024-09-04

RAGFlow：基于OCR和文档解析的下一代 RAG 引擎

2024-05-05

RAG框架，都在这了!

2024-06-20

微软开源的GraphRAG解读

2024-07-09

深入解析 Graph RAG：提升语言模型问答能力的创新策略

2024-07-09

基于Llama 3 构建RAG语音助手：将本地 RAG 与 Qdrant、Whisper 和 LangChain 集成

2024-05-19

RAG 高效应用指南：Embedding 模型的选择和微调

2024-06-13

Prompt工程师必备：复旦重磅 | 最佳RAG实践长什么样的？

2024-07-07

下一代 RAG 技术来了！微软正式开源 GraphRAG：大模型行业将迎来新的升级？

2024-07-07

大家都在问

AI“捉妖记”：腾讯“朱雀”上线，我们离“真相”更近一步？

2025-01-18

3种RAG方法深度对比！知识图谱为何让微软GraphRAG脱颖而出？

2025-01-18

RAG一周出Demo，半年上不了线，怎么破？

2025-01-18

哈啰：构建智能出行RAG，ES还是向量数据库？

2025-01-13

RAG的技术困境：为何单纯依赖向量嵌入不可靠？

2025-01-09

搭建RAG架构，如何选择向量数据库产品？

2025-01-09

搭建RAG应用，Embedding模型如何选？

2025-01-09

RAG成为过去式？缓存增强生成（CAG）is All You Need？

2025-01-06

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询

大模型定制

二段搜索

python 版部署教程

网络搜索

后记

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

一文彻底搞懂大模型 - RAG（检索、增强、生成）

RAGFlow：基于OCR和文档解析的下一代 RAG 引擎

RAG框架，都在这了!

微软开源的GraphRAG解读

深入解析 Graph RAG：提升语言模型问答能力的创新策略

基于Llama 3 构建RAG语音助手：将本地 RAG 与 Qdrant、Whisper 和 LangChain 集成

RAG 高效应用指南：Embedding 模型的选择和微调

Prompt工程师必备：复旦重磅 | 最佳RAG实践长什么样的？

下一代 RAG 技术来了！微软正式开源 GraphRAG：大模型行业将迎来新的升级？

大家都在问

AI“捉妖记”：腾讯“朱雀”上线，我们离“真相”更近一步？

3种RAG方法深度对比！知识图谱为何让微软GraphRAG脱颖而出？

RAG一周出Demo，半年上不了线，怎么破？

哈啰：构建智能出行RAG，ES还是向量数据库？

RAG的技术困境：为何单纯依赖向量嵌入不可靠？

搭建RAG架构，如何选择向量数据库产品？

搭建RAG应用，Embedding模型如何选？

RAG成为过去式？缓存增强生成（CAG）is All You Need？

热门标签