微信扫码
添加专属顾问
我要投稿
我之前一直有测试和使用微软 GraphRAG,微软的 GraphRAG 目前已经更新到 1.0.1,从 0.3.0 之后基本都是重构代码,仍然不支持多文件格式,距离生产依然很遥远。
DB-GPT 是蚂蚁金服开源的一款 AI 原生数据应用开发框架,具有 AWEL(Agentic Workflow Expression Language)和智能体功能,旨在通过开发多模型管理(SMMF)、Text2SQL 效果优化、RAG 框架及优化、多智能体框架协作、AWEL(智能体工作流编排)等多种技术能力,在大模型领域构建基础设施。目标是在在数据 3.0 时代,企业和开发者可以基于模型和数据库,用更少的代码构建定制化应用程序。
介绍就不过多展开了,请看下图框架。这是个什么东西啊?大杂烩吗?好全啊,什么都有,这确定是一个代码仓库能干的事情?我不敢相信这是蚂蚁金服这样的公司开源的框架,在我看来这就是个 demo,除了那张可视化图是生产级别。吐槽完毕,让我们看看 DB-GPT 中 GraphRAG。
conda create -n dbgpt python=3.10
conda activate dbgpt
git clone https://github.com/eosphoros-ai/DB-GPT.git
cd DB-GPT
pip install -e ".[default]" pip install -e ".[openai]" pip install "dbgpt[graph_rag]>=0.6.1"
这里会安装特别多的东西,什么 torch transformer,依赖就装了 1.9G。
docker pull tugraph/tugraph-runtime-arm64v8-centos7:4.5.1:latest docker run -d -p 7070:7070 -p 7687:7687 -p 9090:9090 --name tugraph_demo tugraph/tugraph-runtime-arm64v8-centos7:4.5.1:latest lgraph_server -d run --enable_plugin true
注意这里要根据自己的电脑架构去 Dockerhub 下载 tugraph,我是 Apple M1 Arm 的芯片。
cd DB-GPT mkdir models and cd models git clone https://huggingface.co/GanymedeNil/text2vec-large-chinese
不能理解,启动一个框架要先下载嵌入是什么操作?
cp .env.template .env
我想配置为线上的免费 glm-4-flash,并且使用本地 LM Studio 的 Embedding,改了一圈.env 中的配置。启动都是报错,人都麻了。直接修改代码:
- dbgpt/model/proxy/llms/chatgpt.py
设置模型为glm-4-flash
并且配置环境变量
OPENAI_API_KEY=your api key
OPENAI_BASE_URL=https://open.bigmodel.cn/api/paas/v4
python dbgpt/app/dbgpt_server.py
可能报缺少 httpx[socket]之类的包,照着提示安装就是了。
启动过程中,还是可能看到什么 OPENAI_BASE_URL 没配置的问题,忽略。
打开网页:http://localhost:5670/,然后我们在应用管理-知识库中点击创建知识库。
在弹框中存储类型选择知识图谱,其他输入后点击下一步。
在知识库类型中选择文档,它会自动跳转到第 3 步上传。
上传这里选择上传官方文档中的 3 个文件:tugraph.md[1]、dbgpt.md[2]、osgraph.md[3].
在第四步中默认选择,点击切片处理即可,这里要等待很久,界面也不会推出,还能点击切片处理,不知道咋想的。
跑不通报错,给 neo4j 上 leiden 插件失败了,然后似乎把整个二进制 so 打印出来了,命令行界面因此都会卡起来。
这可能是系统的问题,或者不知道的原因。总之切片这里看起来是初始化图谱社区就失败了,我们在页面执行同步,在日志中将能够看到 DB-GPT 的 GraphRAG 采用的 Prompt 很简单,提取的就是典型的三元组,大约 287 个 Token,而微软的实体提取 Prompt 是 2037 个 Token。
此外,微软的 GraphRAG 提取的不是常规的三元组,他是提取的实体和关系描述,因此它的输出也会大。因此,蚂蚁的 GraphRAG 能够节约 1 倍的 Token 来源,并不是流程上的优化,而是 Prompt 的缩减。
本次解析就到这里了。虽然没能跑通,但是基本的东西已经看到了。我的观点是这个东西也只是个 Demo,而且如果你只是想用 GraphRAG,DB-GPT 不只是一个 RAG,不是一个软件,他是一个堆栈,你懂堆栈的意思吧?所以如果你只是想用 GraphRAG,我建议你直接用微软的。当然不可否认,那个可视化图确实漂亮,希望能够借鉴。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-29
我们有必要使用 Qwen3 吗?
2025-04-29
Qwen3开源发布:Think Deeper, Act Faster!社区推理、部署、微调、MCP调用实战教程来啦!
2025-04-29
阿里 Qwen3 技术详解: 4B 参数媲美 72B,MoE 架构的开源突破
2025-04-29
PAI-Model Gallery 支持云上一键部署 Qwen3 全尺寸模型
2025-04-29
Qwen3中性能最强MOE模型部署抛砖引玉 + 实测
2025-04-29
体验了最新的Qwen3之后,端侧之王果然没有让我失望!
2025-04-29
Qwen3 重磅开源!
2025-04-29
Qwen3深夜正式开源,小尺寸也能大力出奇迹。
2024-07-25
2025-01-01
2025-01-21
2024-05-06
2024-09-20
2024-07-20
2024-07-11
2024-06-12
2024-08-13
2024-12-26
2025-04-29
2025-04-28
2025-04-28
2025-04-28
2025-04-21
2025-04-19
2025-04-17
2025-04-15