我要投稿

RAG引领数据革命：RAG2SQL新的数据分析查询方式

发布日期：2024-09-09 22:21:50 浏览次数： 2691

作者：AI技术研习社

微信搜一搜，关注“AI技术研习社”

Text2SQL技术的兴起，标志着自然语言处理（NLP）与数据库管理的融合进入了一个新的阶段。

这种技术使得用户能够使用自然语言查询来代替传统的SQL查询语句，极大地简化了数据检索过程。以下是Text2SQL技术的一些关键优势：

提高效率：用户无需具备深厚的SQL知识即可执行复杂的数据库查询，从而节省了学习和编写查询语句的时间。
增强可访问性：Text2SQL降低了技术门槛，使得非技术背景的用户也能轻松访问和分析数据。
促进决策制定：通过快速准确地从大量数据中提取有用信息，Text2SQL支持更快的决策过程。
改善用户体验：自然语言查询更符合人类的交流习惯，使得与数据库的交互变得更加直观和自然。
减少错误：自动将自然语言转换为SQL语句可以减少手动编写查询时可能出现的错误。
支持复杂查询：Text2SQL工具能够理解和处理复杂的查询要求，包括多表连接、条件筛选和数据聚合等。
适应多种数据库系统：这些工具通常设计有良好的兼容性，能够与多种关系数据库管理系统（RDBMS）如MySQL、PostgreSQL、Oracle等进行交互。
推动数据驱动的文化：通过简化数据访问过程，Text2SQL鼓励更多的数据探索和创新，有助于形成数据驱动的组织文化。
集成和扩展性：Text2SQL技术可以轻松集成到现有的数据分析流程和业务智能工具中，支持数据的进一步处理和可视化。
持续学习和优化：随着机器学习模型的不断训练和优化，Text2SQL工具能够不断适应用户的需求，提供越来越准确的查询结果。

综上所述，Text2SQL技术不仅为数据检索带来了革命性的变革，也为数据分析和商业智能领域提供了强大的支持。随着技术的不断进步，我们可以期待在未来看到更多创新的应用和改进。

但是，我们遇到的最重大挑战之一是缺乏高效的 Text2SQL 系统所需的丰富上下文和元数据。

今天，我们介绍一个框架 — Vanna AI — 一个用于 SQL 生成、执行和可视化的开源 Python RAG（检索增强生成）框架。Vanna 是基于 Python 的 AI SQL 副驾驶。我们的初始用户是精通数据的数据分析师、数据科学家、工程师和使用 Vanna 自动编写复杂 SQL 的类似人员。

Vanna 通过两个简单的步骤进行操作 — 在您的数据上训练 RAG“模型”，然后提出返回 SQL 查询的问题。这些查询可以配置为在您的数据库上自动运行。

Vanna 在编写 SQL 方面明显优于使用 ChatGPT 或类似工具，因为我们在您的数据上训练特定的 Vanna 模型。但 Vanna 的有效性取决于您训练它的程度。我们将深入探讨 Vanna 的工作原理以及如何有效地训练它，以便它能够最好地回答您的问题。下面是一个使用的简单示例：

!pip install vannaimport vannafrom vanna.remote import VannaDefaultvn = VannaDefault(model='chinook', api_key=vanna.get_api_key('my-email@example.com'))vn.connect_to_sqlite('https://vanna.ai/Chinook.sqlite')vn.ask('What are the top 10 artists by sales?')
from vanna.flask import VannaFlaskAppVannaFlaskApp(vn).run()

当您向 Vanna 提出问题时，以下是处理流程的总结：

搜索类似问题：系统首先在训练集中搜索与您问题类似的历史问题。
使用验证的 SQL：如果找到类似问题，系统会将这些问题中已验证的 SQL 语句传递给 Vanna 模型。
处理无相似问题：如果没有找到类似问题，系统会传入数据定义语言（DDL）、相关文档或引导查询。
生成 SQL：针对您的数据库架构，Vanna 模型生成相应的 SQL 语句，这是模型的核心功能所在。
验证 SQL：生成的 SQL 语句会被执行以验证其准确性。如果验证成功，该语句将被添加到训练数据中。
人工干预：如果 SQL 验证未通过，专业的分析师会介入，对 SQL 语句进行修正，并将其纳入训练数据。
持续学习：随着时间的推移，Vanna 通过不断学习和修正，增强了对数据库架构的理解，提高了问题解答的准确率。

这个过程展示了 Vanna 如何结合机器学习和人工审核，以提供准确的 SQL 查询生成服务，同时不断优化自身的性能和响应能力。

Vanna 使用一种称为 LLMs（大型语言模型）的生成式 AI。简而言之，这些模型是在大量数据语料库（包括一堆在线可用的 SQL 查询）上训练的，并通过预测对提示的响应中最有可能的下一个单词或 “标记” 来工作。Vanna 优化了提示（通过向量数据库使用嵌入搜索）并微调了 LLM 模型以生成更好的 SQL。

Vanna 正在使用和试验一系列不同的 LLMs 以获得最准确的结果。OpenAI 的 GPT 模型通常跑赢大盘，但在某些情况下，谷歌的 Bard、Meta 的 LLAMA 和 Falcon 模型是最好的。

我们可以运行代码，从我们的问题 “销售额排名前 10 的客户是什么？” 生成 SQL。这会将问题发送给 Vanna，Vanna 使用 AI 生成 SQL，并将 SQL 发回。以下是有关 Vanna 工作原理的更多详细信息。

sql = vn.generate_sql(question='What are the top 10 customers by Sales?')print(sql)

得到的结果是：

SELECT customer_name, total_salesFROM (SELECT c.c_name as customer_name, sum(l.l_extendedprice * (1 - l.l_discount)) as total_sales, row_number() OVER (ORDER BY sum(l.l_extendedprice * (1 - l.l_discount)) desc) as row_numFROM snowflake_sample_data.tpch_sf1.lineitem l join snowflake_sample_data.tpch_sf1.orders oON l.l_orderkey = o.o_orderkey join snowflake_sample_data.tpch_sf1.customer cON o.o_custkey = c.c_custkeyGROUP BY customer_name)WHERErow_num <= 10;

你只需要训练一次。除非您要添加更多训练数据，否则不要再次训练。

# The information schema query may need some tweaking depending on your database. This is a good starting point.df_information_schema = vn.run_sql("SELECT * FROM INFORMATION_SCHEMA.COLUMNS")
# This will break up the information schema into bite-sized chunks that can be referenced by the LLMplan = vn.get_training_plan_generic(df_information_schema)plan
# If you like the plan, then uncomment this and run it to train# vn.train(plan=plan)

下面给一个基于OpenAI完整的示例：使用 OpenAI 进行演示。

from vanna.openai import OpenAI_Chatfrom vanna.qdrant import Qdrant_VectorStorefrom qdrant_client import QdrantClient
class MyVanna(Qdrant, OpenAI_Chat):def __init__(self, config=None):Qdrant_VectorStore.__init__(self, config=config)OpenAI_Chat.__init__(self, config=config)
vn = MyVanna(config={'client': QdrantClient(...),'api_key': sk-...,'model': gpt-4-...,})

实例化 Vanna 代理后，您可以将其连接到您选择的任何 SQL 数据库。

vn.connect_to_postgres(host='my-host', dbname='my-dbname', user='my-user', password='my-password', port='my-port')

现在可以使用 SQL 训练并开始查询数据库。

# You can add DDL statements that specify table names, column names, types, and potentially relationshipsvn.train(ddl="""CREATE TABLE IF NOT EXISTS my-table (id INT PRIMARY KEY,name VARCHAR(100),age INT)""")
# You can add documentation about your business terminology or definitions.vn.train(documentation="Our business defines OTIF score as the percentage of orders that are delivered on time and in full")
# You can also add SQL queries to your training data. This is useful if you have some queries already laying around.vn.train(sql="SELECT * FROM my-table WHERE name = 'John Doe'")
# You can remove training data if there's obsolete/incorrect information. vn.remove_training_data(id='1-ddl')
# Whenever you ask a new question, Vanna will retrieve 10 most relevant pieces of training data and use it as part of the LLM prompt to generate the SQL.
vn.ask(question="<YOUR_QUESTION>")