AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


关于AI搜索的几点思考分享回顾:兼看Text2sql竞赛Archer推介
发布日期:2024-09-02 13:53:26 浏览次数: 1749 来源:老刘说NLP


今天是2024年9月2日,星期一,北京,天气晴

我们今听来看两个事儿。

一个是做下技术回顾,昨日老刘说NLP社区第32讲–《AI搜索的几点思考》顺利结束,我们来做个回顾。

另一个是关于Text2sql的一个竞赛,整好推荐大家去打一打,练练手。

9月份工作日开始啦,大家一起加油。

一、昨日技术分享-AI搜索的几点思考回顾

昨日老刘说NLP社区第32讲–《AI搜索的几点思考》顺利结束,历时2小时,干货满满,这也是社区首次举行以产品为主题的分享,回放地址见社区(欢迎加入)。

本次分享主要邀请了AI搜索产品专家赵老师,他从搜索需求、搜索现状、生成式AI赋能搜索引擎以及未来搜索趋势等方面进行了深入讲解。

分享内容涵盖了AI搜索的定位、通用AI搜索和特定领域的应用,以及如何通过生成式AI提升用户体验

此外,在提问环节,还与参会者进行了互动,了解大家对AI搜索的理解和看法,并鼓励大家提出自己的观点和建议。

其中,有谈到两个比较有趣的点。可以看看:

1、AI搜索产品形态及其优缺点

市场上的AI搜索分为三个类型:原生AI搜索工具、聊天机器人增加搜索功能和传统搜索引擎加AI功能。原生AI搜索工具依赖搜索结果,不会主动回答问题;

聊天机器人优先使用模型知识回答问题,若需要则通过搜索引擎获取结果;

传统搜索引擎加AI功能能够总结整个答案,支持上下文检索,但存在搜索质量差、模型引用结果质量差等问题。

目前AI搜索的商业模式尚不清晰,对内容供应链造成冲击。

2、AI搜索与传统搜索的比较与思考

目前,AI搜索在幻觉模型检测和搜索生态冲击方面存在问题,而传统搜索引擎加AI功能则兼顾了AI生成、商业模式和搜索生态。在实际应用中,需要根据用户需求进行意图理解和查询分类,然后调用相应的模型进行处理。

当然,在提问环节,也有更多的碰撞,听下来,会很有收获。

二、关于Text2sql竞赛Archer推介

我们在昨天的文章中,对Text2sql在8月份的进展进行了总结,有两个重要的工作:

1、大模型虚假内容检测及Text2SQL数据合成思路:昨日技术及项目进展回顾:https://mp.weixin.qq.com/s/hnY0maakxpvdmEzrE6ssFw

2、用Agent做Text-SQL之MAG-SQL:兼看长文生成大模型LongWriter实现思路:https://mp.weixin.qq.com/s/RAuM66_E3N8f8iUhbLBHfw

而同意你的,光说不练假把式,通过竞赛的方式,我们可以切身体会这个任务的难度。

最近有个工作,CCKS-IJCKG2024 Text-to-SQL评测,Archer由1042个中文问题、1042个英文问题和521个相应的SQL查询组成,涵盖了20个领域的20个不同的数据库,包含了以上三种推理类型,如下:

该任务来自于工作《Archer: A Human-Labeled Text-to-SQL Dataset with Arithmetic, Commonsense and Hypothetical Reasoning》(https://aclanthology.org/2024.eacl-long.6.pdf)

本次评测使用了8个数据库作为训练集,2个数据库作为验证集以及10个数据库作为测试集。

数据集及leaderboard地址:https://sig4kg.github.io/archer-bench,可以看到,即便是GPT3.5,加上COT这种基线方法,准确率也并不高,也就是说即使是在已有数据集上取得SOTA的方法,在我们的数据集上仍然只有低于20%的执行准确率,说明Archer对目前的模型和技术来说,仍然是一个具有挑战性的数据集。

其中还有一个点可以关注,即评估指标,使用两个指标来评估模型的能力:VAlid SQL (VA) and EXecution accuracy (EX)。

VA是预测的SQL语句中成功执行的比例,无论答案正确与否;

EX是预测的SQL语句的执行结果与标准SQL语句的执行结果相匹配的比例。



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询