AI知识库 AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


企业在落地大模型应用中的数据分析难题及解决方案
发布日期:2024-06-30 11:19:50 浏览次数: 1551
随着人工智能技术的不断发展,大模型应用已经成为许多企业提升业务能力的重要手段。然而,在实际应用中,很多企业都面临着生成结果准确率较低的问题,尤其是在数据分析场景中。这一问题困扰着许多大模型项目负责人,严重影响了大模型的实际价值。

一、生成结果准确率低的原因

1、基于语言交互的复杂性

大模型数据分析主要依赖于语言交互方式,这种方式虽然灵活,但也带来了理解问题和生成结果的巨大挑战。由于用户提问方式无法限制,大模型需要具备高度的语言理解能力来处理各种复杂的查询,导致生成结果的准确率偏低。

2、单任务问题

示例1:含义清晰的单任务问题
用户提问:“最近7天xx产品的订单总量是多少?
表结构:
-- 订单表 CREATE TABLE orders ( order_id INT PRIMARY KEY, product_name VARCHAR(255), order_date DATE, quantity INT );
模型生成SQL:
SELECT SUM(quantity) AS total_orders FROM orders WHERE product_name = 'xx产品' AND order_date >= CURDATE() - INTERVAL 7 DAY;
解释: 该查询比较简单,因为问题涉及的指标(订单量、产品、时间)都比较明确。
示例2:含义模糊的单任务问题
用户提问:“xx产品今年累计卖了多少?”
模型生成SQL:
SELECT SUM(quantity) AS total_sales FROM orders WHERE product_name = 'xx产品' AND YEAR(order_date) = YEAR(CURDATE());
解释: 虽然问题有些模糊,但大模型擅长将模糊语义对齐标准语义,因此可以准确生成结果。

3、多表数据处理问题

示例:涉及多表数据处理的问题
用户提问:“今年xx品牌在国内和国外的整体销量是多少?”
表结构:
-- 国内销售表 CREATE TABLE domestic_sales ( product_name VARCHAR(255), sales_count INT );  -- 国外销售表 CREATE TABLE international_sales ( product_name VARCHAR(255), sales_count INT );
模型生成SQL:
SELECT SUM(ds.sales_count) AS domestic_sales, SUM(is.sales_count) AS international_sales FROM domestic_sales ds, international_sales is WHERE ds.product_name = 'xx品牌' AND is.product_name = 'xx品牌';
解释: 由于国内外销量数据存在于不同的表中,如果字段定义不明确,会导致SQL生成错误。解决方案是通过数据模型将数据打宽或预打宽。

4、复杂问题

示例:不限制问题长度的复杂问题
用户提问:“xx品牌最近3个月国内销量最好的产品是哪一款?每个产品平均每月销量是多少?”
模型生成SQL:
WITH sales_data AS ( SELECT product_name, SUM(quantity) AS total_sales FROM orders WHERE product_name = 'xx品牌' AND order_date >= CURDATE() - INTERVAL 3 MONTH GROUP BY product_name ), ranked_sales AS ( SELECT product_name, total_sales, RANK() OVER (ORDER BY total_sales DESC) AS sales_rank FROM sales_data ) SELECT product_name, total_sales / 3 AS avg_monthly_sales FROM ranked_sales WHERE sales_rank = 1;
解释: 大模型需要先查询过去三个月内某品牌每个产品的销量,再找到销量最好的产品,并计算其平均每月销量。

5、专业算法问题

示例:复杂且需要调用专业算法的问题
用户提问:“华北地区xx的效率月环比为什么下降了?”
模型生成SQL:
-- 假设有一张效率表CREATE TABLE efficiency ( region VARCHAR(255), product_name VARCHAR(255), efficiency_value DECIMAL(10,2), month DATE ); -- 查询效率环比下降的原因WITH current_month AS ( SELECT efficiency_value FROM efficiency WHERE region = '华北' AND product_name = 'xx' AND month = CURDATE() - INTERVAL 1 MONTH ), previous_month AS ( SELECT efficiency_value FROM efficiency WHERE region = '华北' AND product_name = 'xx' AND month = CURDATE() - INTERVAL 2 MONTH ) SELECT cm.efficiency_value - pm.efficiency_value AS efficiency_drop FROM current_month cm, previous_month pm;
解释: 大模型不仅需要查询上个月的数据,还要计算前一个月的环比数据,并判断是否下降。由于需要调用归因算法,这往往需要通过插件化方式进行。

二、影响生成结果准确性的主要原因

生成结果准确性较低的主要原因在于语义对齐和任务多样性两个方面。

1、语义对齐

语义对齐是指对用户口语化查询的理解,并将其转换为具体的指标字段、维度字段,甚至是其它API的输入参数。这一过程需要大模型具备强大的语言理解能力和数据对齐能力。

2、任务多样性

任务多样性是指用户在提出复杂问题或目标时,大模型无法直接执行,需要将目标或复杂任务拆解成多个子任务后,每个子任务协同执行,最终完成用户的需求。这对大模型的任务规划和执行能力提出了很高的要求。

三、解决方案

1、语义对齐的解决方案

针对语义对齐的问题,可以通过语义增强配置来解决。用户在提问时不一定准确知道该问哪些指标,而是通过场景描述。因此,需要对企业的业务数据进行指标语义化配置,包括指标名称、业务口径、应用场景等。通过基于相似度和索引找到对应的指标,提升语义对齐的准确性

2、任务多样性的解决方案

针对任务多样性的问题,可以引入Agent方式来解决。Agent具备规划拆解能力,可以将复杂任务拆解成多个子任务,并通过调用插件来执行这些子任务。例如,Agent可以将指标查询的指标、维度和时间三要素解析出来,填充到标准化的接口中。Agent还可以调用归因、预测、异常检测等算法,完成复杂的分析任务
在大模型应用落地过程中,数据分析是企业的重要场景,但生成结果准确率较低的问题困扰着许多项目负责人。通过针对语义对齐和任务多样性的解决方案,可以有效提升大模型的生成结果准确率,帮助企业更好地发挥大模型的价值,提升业务能力。

53AI,大模型落地应用首选服务商

定位:开箱即用的大模型落地应用平台

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

年轻人!来一起搞AI吗?

如果你看见AI对商业世界的变革,欢迎来和我们一起探索~

岗位:销售经理

查看详情

岗位:项目经理

查看详情

岗位:产品经理

查看详情

岗位:测试工程师

查看详情

联系我们

售前咨询
186 6662 7370
产品演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询