我要投稿

端到端的 NL2SQL 引擎: Super-Analysis 震撼来袭，一个不同于市面已有产品的存在

发布日期：2024-09-19 08:53:59 浏览次数： 2719

作者：祝威廉

微信搜一搜，关注“祝威廉”

企业分析数据的未来已来

你现在可以对着一张评论表说：

对我们A产品进行了负面评论的用户数量是多少

或者说：

评论中用户的贴图有多少是中国风？

大模型会自动生成一条 Byzer SQL 语句，完成评论字段的文本分析或者图片分析然后进行数据的聚合和统计，最后直接给出结论。

看着简单的一句话，但实际系统需要突破两个关键难点：

将用户的问题转化成SQL
SQL 需要能够对评论字段或者图片字段进行自然语言分析，自动生成一个新的字段，然后再进行多表关联统计（融合自然语言分析和传统数据统计能力）

对于第一点，核心需要攻克的难点是表召回和用户的语言理解。任何一家企业，几百张，几千张，几万张，甚至几十万张表都是很正常的。通过用户一句话，从这些表中精准的找到哪些表是一件非常有挑战的工作。依托于我们拥有的二代 RAG系统 auto-coder.rag 我们可以顺利的攻克这件事。

其次，用户会有自己行业内，公司内，甚至小组内的众多“黑话” 或者缩略语，此外目标语言相关的文档也是非常必要的，如果无法对这些信息进行补充，无论如何是无法准确的理解用户需求并且生成对应的SQL的。这意味着我们也需要能够对这些知识做召回，得到一个完善而立体的信息从而能够对用户话进行准确的理解，才能生成召回准确的表和生成准确的SQL。

第二点，也就是传统SQL分析一直缺失的，对文本字段进行自然语言分析的能力，我们需要有一个系统，具备传统的数据分析能力，又能够支持对文本字段使用大模型进行分析，而且两者要进行非常好的融合和协同工作。依托于拥有的十年磨一剑的对 LLM 友好，支持在SQL中调用大模型的 Byzer-SQL 引擎，我们可以顺利的恭攻克这个事情。

在顺利突破上述两个难点以后，由 auto-coder.chat 驱动开发的Super-Analysis，一个通用的端到端的 NL2SQL 引擎，同时支持文本字段和结构化字段，以及图，音视频等多模态文件，一个超越市面其他产品的存在，震撼来袭。

在 Super-Analysis 之前，你可能需要找个算法工程师先做情感分析模型，然后找数据工程师使用这套模型对评论数据做处理，写入正面负面的新字段，最后再找分析师写SQL统计这个需求，需要多个团队协作，并且以周为时间单位才能完成的事情，现在仅需一句话即可完成。

让我们来看一段Super-Analysis 驱动企业数据使用的演示：

可以看到，用户可以简单的通过一句话交互，就能生成非常复杂的 SQL 查询和分析语句，最终交付给用户结果。

实际上，我们也支持对表中包含图片字段亦或是表中的图片路径字段的情况做分析，下面我们来做个介绍。

一些例子

传统的基于SQL的统计分析：

第一条语句是执行结果，第二条语句则返回中间生成的 Byzer-SQL 语句。

一个较高难度的，需要先对文本字段 overview 进行文本分析，并且关联多表做统计的查询：

同样的，第一个直接返回结果，第二个则返回对应的 SQL 语句。下面是 Super-Analysis 根据上图问题生成的完整 Byzer-SQL 代码：

-- 加载包含电影描述的表格load csv.`/Users/allwefantasy/data/movice/movies_metadata.csv` where header="true" as movies_metadata;
-- 加载用户评分的表格load csv.`/Users/allwefantasy/data/movice/ratings.csv` where header="true" as ratings;
-- 使用大模型辅助函数处理电影描述，找出包含“安迪玩具”的电影select id, title, overview, llm_result(deepseek_chat(llm_param(map("instruction",llm_prompt('
根据下面提供的信息，回答用户的问题。
信息上下文：```{0}```
用户的问题：电影描述中是否包含“安迪玩具”？请只输出 “是” 或者 “否”',array(overview))
)))) as contains_andy_toyfrom movies_metadata as filtered_movies;
-- 过滤出包含“安迪玩具”的电影select id, title from filtered_movies where contains_andy_toy like '%是%' as andy_toy_movies;
-- 统计给这些电影打分的用户数量select r.movieId, count(distinct r.userId) as user_countfrom ratings as rjoin andy_toy_movies as m on r.movieId = m.idgroup by r.movieId as user_rating_count;
-- 输出结果select * from user_rating_count as output;

可以看到， Byzer-SQL 的语法对大模型非常友好，可以让大模型 step by step 生成一些简单的 SQL 语句，但最后组合起来可以完成一个非常复杂的需求。此外 Byzer-SQL 还支持对文本字段使用大模型来进行分析，自动编写合适的 prompt 等，这些都是其他产品无法可能不太具备的能力。

因为相信所以看到。没人能预知未来，只是因为相信，所以看到并且朝着未来走去。

再来看看我们是如何支持对图片，音视频等非结构化数据的分析能力的：

对应生成的Byzer-SQL 脚本为：

load binaryFile.`/Users/allwefantasy/projects/super_analysis/images` as images;
selectllm_result(gpt4o_mini_chat(llm_param(map( "instruction",to_json(array(map("image",base64(content),    "text","判断图片是否为中国风，如果是请输出'YES'，否则输出'NO'" )))
))))as response from images as table1;
select count(*) as chinese_style_image_count from table1 where response like '%YES%' as output;

实际上我们也可以处理更加复杂的例子，比如如果某个表里存储了图片的路径，我们可以通过该路径处理图片，然后得到一个过滤字段，从而可以统计更多复杂的需求。

使用客户端

市面上主流的客户端都可以直接对接 Super-Analysis, 下面是以使用 NextChat 为例子。

获得 SQL:

获得执行结果：

具体配置：

Super-Analysis 架构图

这个端到端的 NL2SQL 系统由四部分构成：

兼容 OpenAI Server 的接口，这意味着你拥有无数的桌面客户端，web 客户端可以使用，就像普通聊天一样可以使用这个系统。
Super Analyis 主系统, 负责组合底层子系统以及给 OpenAI Server 提供返回。
召回系统，基于 auto-coder.rag 构建的 Schema RAG 和 Context RAG, 分别对应schema召回和黑话，短语，目标语言（这里我们默认是 Byzer-SQL）等。
一个支持文本字段分析以及诸如图片，音视频等非机构化数据的SQL分析引擎：Byzer-SQL。该系统 LLM 友好，并且支持传统SQL，支持大模型，支持异构数据源分析，同时还支持分布式。

使用场景

super-analysis 支持三种模式：