微信扫码
添加专属顾问
我要投稿
在科技领域,创新始终是推动进步的动力。今天我们要探讨的是一种名为Triplex的模型,它在知识图谱构建方面提供了一种比微软GraphRag更具创新性且成本更低的替代方案。本文将详细介绍这种模型的工作原理、优势以及如何在实际应用中操作和实现。
Scihpi Triplex模型,简称triplex,是一种开源大语言模型,专注于从非结构化数据中提取知识图谱。它的名字来源于其能够提取文本中的实体、关系和实体类型。这个模型是基于53.8亿参数的语言模型进行微调,旨在创建高质量的知识图谱。
成本与性能
Triplex的成本是微软Graph Rag的十分之一,但性能却与GPT-4相当,甚至在某些方面更为高效。微软的Graph Rag虽然功能强大,但资源消耗高,使用成本也较高。而Triplex则通过优化算法和架构设计,提供了高性价比的解决方案。.
灵活性与易用性
Triplex模型支持多样且复杂的应用场景,用户可以立即使用R2R Rag引擎和Neo4J进行数据可视化。而在使用微软Graph Rag时,用户需要先将数据转换为Neo4J兼容格式,这增加了操作复杂性。Triplex在这方面提供了更高的灵活性和易用性。
准确性与训练数据
在准确性方面,Triplex模型在知识图谱提取上优于GPT-4。Triplex使用的是开源的Triplex大语言模型,并且可以通过HuggingFace和Ollama运行。此外,用户可以在本地计算机上免费运行Ollama,这大大降低了使用门槛。
接下来,我们将详细介绍如何使用Triplex模型从文本中提取知识图谱,并将其存储在数据库中进行可视化。
1. 基础知识介绍
首先,我们需要了解基本的概念。知识图谱构建(Graph Rag)与基本的检索增强生成(Basic Rag)不同,后者是将数据转换为嵌入并存储在向量数据库中。而前者则是从提供的数据中提取实体和关系,并将其存储在知识图谱数据库中。
2. 安装必要的库
在开始操作之前,我们需要安装一些必要的库:
pip install transformers torch
3. 创建Python文件并编写代码
接下来,我们将创建一个名为app.py
的文件,并在其中编写代码:
import json
from transformers import AutoModelForCausalLM, AutoTokenizer
def triple_extract(model, tokenizer, text, entities, predicates):
# 提供输入主题、谓词和宾语
prompt = f"{text} [{entities}] [{predicates}]"
tokens = tokenizer.encode(prompt, return_tensors='pt')
output = model.generate(tokens)
response = tokenizer.decode(output[0], skip_special_tokens=True)
return response
model_name = "sci-fi-trix"
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
text = "Elon Musk is the founder of SpaceX"
entities = "Person, Organization"
predicates = "founded by"
response = triple_extract(model, tokenizer, text, entities, predicates)
print(response)
4. 运行代码
在终端中运行以下命令:
python app.py
代码将自动下载模型并运行请求,生成的响应将包含提取的实体和关系。
除了上述方法,还可以使用O Lama进行简化操作。首先,下载ollama:
然后运行Sci-Fi XX:
ollama run sciphi/triplex
输入与之前相同的文本和实体类型,模型将返回提取的实体和三元组。
为了进一步简化整个过程,我们可以使用R2R。sciphi的创建公司还提供了R2R工具,帮助用户构建、扩展和管理面向用户的RAG应用。
1. 安装R2R
pip install r2r
2. 配置文件
创建一个名为local_neo4j_kg
的文件,并在其中添加配置:
model_name: sci-fi-trix
providers:
neo4j:
uri: bolt://localhost:7687
user: neo4j
password: your_password
3. 运行R2R
r2r serve docker --config local_neo4j_kg.yaml
4. 数据导入
准备一个名为data.txt
的文件,内容如下:
John is a person that works at Google. Paul is a person that works at Microsoft that collaborates with John.
运行以下命令进行数据导入:
r2r ingest files data.txt
5. 查看知识图谱
运行以下命令查看知识图谱:
r2r inspect knowledge_graph
6. 可视化
打开Neo4J的URL,输入用户名和密码,即可查看知识图谱的关系。
通过使用sciphi模型,我们可以以更低的成本和更高的效率构建高质量的知识图谱。无论是使用Hugging Face、OLama还是R2R,sciphi都提供了极大的灵活性和易用性。希望本文能为您提供有用的信息,让您在知识图谱构建领域取得更大的进展。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-05
低成本+高性能+超灵活!Deepseek 671B+Milvus重新定义知识库搭建
2025-03-05
LlamaIndex+Phi-3:知识图谱生成的黄金组合
2025-03-04
一键发布知识图谱:Obsidian 与 Quartz 的高效协作
2025-03-04
构建智能知识库 - 知识获取:Obsidian Web Clipper 的 AI 自动化流程
2025-03-02
大模型时代的知识工程:企业级智能知识库构建与增强指南
2025-03-02
从 0 到 3000 节点: 我用 DeepSeek + NebulaGraph 构建农业知识图谱
2025-02-26
将知识图谱与大模型 (LLM) 协同化:实现语义增强智能的途径
2025-02-23
DeepSeek+dify知识库,查询数据库的两种方式(api+直连)
2025-01-02
2024-07-17
2025-01-03
2024-08-13
2024-07-11
2024-06-24
2024-08-27
2024-07-13
2024-06-10
2024-07-12
2025-02-13
2025-01-14
2025-01-10
2025-01-06
2025-01-02
2024-12-16
2024-12-10
2024-12-04