我要投稿

Verba：终极 RAG 引擎 - 语义搜索、嵌入、矢量搜索等！

发布日期：2024-05-24 22:39:15 浏览次数： 2510 作者：AI进修生

Aitrainee | 公众号：AI进修生

?在本文中，我们将深入探讨 Verba，这是一款革命性的开源 rag 引擎。

使用 Verba，通过简单的几步操作，您可以轻松探索您的数据集并提取见解，无论是在本地使用 HuggingFace 和 Ollama，还是通过 OpenAI、Cohere 和 Google 等LLM提供商进行操作。

pip install goldenverba

什么是 Verba？

Verba 是一个完全可定制的个人助手，用于查询和与您的数据交互，无论是在本地还是通过云部署。解决文档中的问题，交叉引用多个数据点，或从现有知识库中获取见解。Verba 结合了最先进的 RAG 技术与 Weaviate 的上下文感知数据库。根据您的个人使用情况，在不同的 RAG 框架、数据类型、分块与检索技术以及 LLM 提供商之间进行选择。

功能列表

? 模型支持	实现情况	描述
Ollama（如Llama3）	✅	由 Ollama 提供的本地嵌入和生成模型
HuggingFace（如MiniLMEmbedder）	✅	由 HuggingFace 提供的本地嵌入模型
Cohere（如Command R+）	✅	由 Cohere 提供的嵌入和生成模型
Google（如Gemini）	✅	由 Google 提供的嵌入和生成模型
OpenAI（如GPT4）	✅	由 OpenAI 提供的嵌入和生成模型

? 数据支持	实现情况	描述
PDF 导入	✅	将 PDF 导入 Verba
CSV/XLSX 导入	✅	将表格数据导入 Verba
多模态	计划中 ⏱️	将多模态数据导入 Verba
UnstructuredIO	✅	通过 Unstructured 导入数据

✨ RAG 功能	实现情况	描述
混合搜索	✅	语义搜索与关键词搜索相结合
语义缓存	✅	基于语义意义保存和检索结果
自动补全建议	✅	Verba 提供自动补全建议
过滤	计划中 ⏱️	执行 RAG 之前应用过滤器（如文档、文档类型等）
高级查询	计划中 ⏱️	基于 LLM 评估的任务委派
重新排名	计划中 ⏱️	基于上下文重新排名结果以改进结果
RAG 评估	计划中 ⏱️	用于评估 RAG 管道的界面
可自定义元数据	计划中 ⏱️	对元数据的自由控制

? 额外功能	实现情况	描述
Docker 支持	✅	Verba 可通过 Docker 部署
可定制前端	✅	Verba 的前端完全可定制

? RAG 库	实现情况	描述
Haystack	计划中 ⏱️	实现 Haystack RAG 管道
LlamaIndex	计划中 ⏱️	实现 LlamaIndex RAG 管道
LangChain	计划中 ⏱️	实现 LangChain RAG 管道

缺少什么内容？欢迎创建新问题或讨论您的想法！

Verba入门指南

您有三种部署 Verba 的选项：

• 通过 pip 安装

pip install goldenverba

• 从源码构建

git clone https://github.com/weaviate/Verba

pip install -e .

• 使用 Docker 进行部署

前提条件：如果您不使用 Docker，请确保您的系统上安装了 Python >=3.10.0。

如果您不熟悉 Python 和虚拟环境，请阅读 python 教程指南。

API密钥

在启动 Verba 之前，您需要根据所选技术配置对各组件的访问，例如通过 .env 文件配置 OpenAI、Cohere 和 HuggingFace 的访问权限。在您要启动 Verba 的目录中创建此 .env 文件。您可以在 goldenverba 目录中找到 .env.example 文件。

请确保仅设置您打算使用的环境变量，缺少或不正确的环境变量值可能会导致错误。

以下是您可能需要的 API 密钥和变量的综合列表：

环境变量	值	描述
WEAVIATE_URL_VERBA	您的 Weaviate 集群的 URL	连接到您的 WCS 集群
WEAVIATE_API_KEY_VERBA	您的 Weaviate 集群的 API 凭证	连接到您的 WCS 集群
OPENAI_API_KEY	您的 API 密钥	获取对 OpenAI 模型的访问权限
OPENAI_BASE_URL	OpenAI 实例的 URL	模型
COHERE_API_KEY	您的 API 密钥	获取对 Cohere 模型的访问权限
OLLAMA_URL	您的 Ollama 实例的 URL（例如：http://localhost:11434 ）	获取对 Ollama 模型的访问权限
OLLAMA_MODEL	模型名称（例如：llama）	获取对特定 Ollama 模型的访问权限
UNSTRUCTURED_API_KEY	您的 API 密钥	获取对 Unstructured 数据导入的访问权限
UNSTRUCTURED_API_URL	Unstructured 实例的 URL	获取对 [Unstructured](https

如何通过pip部署

在安装了 Python >=3.10.0 的系统上执行以下步骤：

1. 安装 goldenverba 包：

pip install goldenverba

1. 在 Verba 项目目录中创建 .env 文件。您可以使用示例文件 .env.example 来设置环境变量。最少需要设置以下环境变量：

OPENAI_API_KEY=您在 OpenAI 注册的 API 密钥

1. 启动 Verba：

verba

如何从源码构建

在安装了 Python >=3.10.0 的系统上执行以下步骤：

1. 克隆 Verba 仓库并导航到该目录：

git clone https://github.com/weaviate/Verba

cd Verba

1. 安装 goldenverba 包：

pip install -e .

1. 在 Verba 项目目录中创建 .env 文件。您可以使用示例文件 .env.example 来设置环境变量。最少需要设置以下环境变量：

OPENAI_API_KEY=您在 OpenAI 注册的 API 密钥

1. 启动 Verba：

verba

如何通过Docker安装Verba

在安装了 Docker 的系统上执行以下步骤：

1. 在 Verba 项目目录中创建 .env 文件。您可以使用示例文件 .env.example 来设置环境变量。最少需要设置以下环境变量：

OPENAI_API_KEY=您在 OpenAI 注册的 API 密钥

1. 运行 Docker 容器：

docker run --rm -it --env-file .env goldenverba

您可以通过 docker-compose 文件来简化此过程。请参考 docker-compose 示例文件。

? Verba演练

在成功安装 Verba 后，您可以通过以下步骤快速开始：

1. 访问 Verba 的 web 界面，默认为 http://localhost:8080。
2. 导入您的数据，例如上传一个 PDF 文件或 CSV 文件。
3. 开始查询您的数据，通过 Verba 的检索增强生成技术获取见解。

您可以参考快速开始视频了解更多。

? 已知问题

• 某些模型在特定数据集上表现不佳。
• 高并发请求可能导致响应时间较慢。

参考链接：
[1]https://github.com/weaviate/Verba

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

爆肝50小时，DeepSeek使用技巧，你收藏这一篇就够了！

2025-02-01

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

更改ollama模型存储路径

2024-04-25

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

大家都在问

杨植麟再掀 AI 风暴！Kimi-Audio 如何让机器听懂人类 “弦外之音”？

2025-04-28

一文了解：为什么大模型 Agent框架（A2A）采用 JSON-RPC 2.0？

2025-04-28

演讲实录：中小企业如何快速构建AI应用？

2025-04-27

从命令到共创：AI提示词如何释放你的创造力？

2025-04-27

一文了解：大模型 Agent 开发框架有哪些？它们的区别是什么？

2025-04-27

为什么新手比专家更想做垂直领域SFT微调？

2025-04-27

伪装成浏览器的 AI Agent，好用吗？

2025-04-26

RAG比之MCP或长上下文LLM，要没落了吗？

2025-04-26

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB