链载Ai

标题: 项目地址 [打印本页]

作者: 链载Ai    时间: 昨天 09:39
标题: 项目地址

Dubo-SQL:大语言模型时代,哪种方案的Text2SQL效果最好

发布时间:2024 年 04 月 18 日RAG

尽管自动化文本到 SQL 技术不断进步,但与人类专家相比,其执行准确性仍有较大差距。为了提升性能,同时降低成本和加快速度,我们采用了低成本微调、创新的多样化检索增强生成技术(RAG)以及优化的输入输出格式,以助力大型语言模型(LLMs)在 BIRD-SQL 基准测试中获得更高的执行准确性。我们推出了两种创新方法:Dubo-SQL v1 和 v2。Dubo-SQL v1 在 BIRD-SQL 的保留测试集中创下了新纪录,而 Dubo-SQL v2 在开发集上的表现更为出色。Dubo-SQL v1 采用了 OpenAI 的 LLMs,并通过使用成本效益高的 GPT-3.5 Turbo,超越了使用更昂贵 GPT-4 的下一个最佳模型。Dubo-SQL v1 的性能比使用 GPT-3.5 的前最佳模型提高了 20%以上。Dubo-SQL v2 则采用 GPT-4 Turbo 和 RAG 技术,取代了传统的微调方法,进一步提升了执行准确性。

为什么要开发Dubo-SQL?

Text2SQL也是AI领域非常火爆的一个应用场景。在BIRD-SQL测试数据集上,LLM通过简单的Zero Shot,可以把准确率从T5-Base的12.89%提升到GPT4的54.89%。但是GPT4的Zero Shot表现相比人类而言,仍然有很大的差距。

Text2SQL的特点和难点

如何提高Text2SQL准确性

研究如何促使LLM更准确地编写代码以回答更复杂的问题,对于提高文本到SQL的执行准确率至关重要。

在这篇文章里,作者开发了两种Text2SQL的方法:

Dubo-SQL v1

Dubo-SQL v1(如上图)是一种经济高效的微调技术,与GPT-3.5 Turbo搭配使用,在BIRD-SQL基准测试中刷新了记录;

首先,作者参考上图的示例格式准备表格架构和样本数据,具体案例见上图List 2。我们最多展示五条样本数据,如果每行的令牌数导致整个提示超出模型上下文窗口限制,我们会相应减少数据行数。如果数据库中提供了外键信息,我们也会一并包含,但会移除主键和列约束,以确保只提供数据分析师在编写SQL查询时通常需要的信息。

然后,我们按上图List 3的格式构建提示,具体案例在上图List 4。提示词尽可能简洁明了,不包含任何示例或演示、系统提示、角色分配(例如“你是一位资深数据分析师”)、任务描述或指令。直接提供数据库上下文,并以用户的问题作为结束。

最终,我们将BIRD训练集的样本提交给OpenAI,对GPT-3.5 Turbo进行微调。微调所用的理想响应是直接陈述SQL查询,不附带任何前言、思维过程或如JSON和代码块等格式。我们使用1,724万个令牌,对9,424个BIRD训练样本进行两个epochs的训练。

在测试阶段,以相同的方式构建提示,并将其提交给最大令牌数为1,000的微调模型。在所有情况下,我们都包括BIRD提供的证据,详情如下。在确定最终答案前,我们会尝试执行SQL查询。如果查询返回错误信息,我们会使用原始的用户提示和响应,加上第二个用户提示,分享错误并请求修正的SQL查询,如下图的List 5。

Dubo-SQL v2

对于Dubo-SQL v2(如上图),作者没有使用Finetune,而是使用了提示工程,包括系统提示和少量样本示例。下图的List 6中的系统提示涵盖了角色分配、任务描述以及输入输出格式的说明。

在Dubo-SQL v1中,作者以CSV格式展示样本数据;而在Dubo-SQL v2中,采用了一种更易于大语言模型读取的输入格式。相较于传统数据分析工具如Python Pandas以及人类通过上下扫视即可轻松理解的CSV数据,大语言模型在处理长CSV文件时,可能难以将数据点与相应列对应起来。因此,我们采用每列独占一行的方式,旁边附上列描述和最多五个示例值。List 6中的系统提示还包含了数据库架构格式的模板,该格式与MAC-SQL相似,但做了细微调整,而提示和流程的其他部分则有显著不同。

作者还引入了以下改进:

• JSON格式输出:请求以JSON格式输出结果可以提高执行准确率,相比直接请求SQL语句,无需额外的代码块或JSON格式包装。

效果评估

Dubo-SQL v1

上图所示,在BIRD测试集中,Dubo-SQL v1的执行准确率达到了60.71%。不仅超越了基于OpenAI专有模型构建的同类模型,如MAC-SQL(59.59%)、DAIL-SQL(57.41%)、DIN-SQL(55.90%),也超过了BIRD团队设定的零样本GPT-4基线(54.89%)。

此外,Dubo-SQL v1的模型,基于GPT-3.5 Turbo构建,比ChatGPT(39.30%)高出21.41%。

一旦GPT-4的微调功能对公众开放,对Dubo-SQL v1进行类似训练的过程有望进一步提升执行准确率。

Dubo-SQL v2

如上图所示,Dubo-SQL v2的执行准确率61.47%,比Dubo-SQL v1提高了1.63%,尽管与MCS-SQL和GRA-SQL相比仍有差距。通过引入多样化的少量样本示例,以更高的执行准确率避免了微调步骤,尤其是当与具有更强基线推理能力的大型语言模型Agent应用相结合时。尽管Dubo-SQL v2的推理成本较高,但其初始设置成本较Dubo-SQL v1更低。面对新环境,如大型企业数据库,Dubo-SQL v2能够提供更迅速的初步测试途径。

成本

Dubo-SQL v1的训练费用,按照OpenAI每百万训练令牌8美元的定价,总计为273美元。平均每题的令牌数和95百分位的令牌数分别为1686和3327,其中输出令牌的中位数和95百分位数分别为49和80。根据OpenAI对微调模型的收费标准,即每百万输入令牌3美元,每百万输出令牌6美元,即便是在95百分位的情况下,每道自然语言问题的推理成本也低于0.01美元

这一成本较之DIN-SQL的每题0.50美元有显著优势,尽管DIN-SQL的性能略低于Dubo-SQL v1,差距为4.81%。考虑到开发集中单就有1533个问题,Dubo-SQL v1的综合推理和训练成本仍低于DIN-SQL。在实际生产环境中,鉴于推理问题与训练问题的比例可能更高,使用Dubo-SQL v1的成本节约将更加显著。

对于Dubo-SQL v2,每道自然语言问题的平均令牌数和95百分位的令牌数分别为7970和13599。根据OpenAI对GPT-4 Turbo的定价,每百万输入令牌10美元,每百万输出令牌30美元,其推理成本为每题低于0.14美元,虽然高于Dubo-SQL v1,但相比DIN-SQL依然具有成本优势。

其他改进带来的效果

对Dubo-SQL v2分别测试了加入和不加入我们所引入各项改进的效果,测试样本为从BIRD开发集中随机抽取的500个问题。

还尝试了在非零温度下运行模型,但发现这会降低性能,因此我们决定在Dubo-SQL v2中继续采用0温度(见下图)。

还探讨了使用一至八个少量样本示例的效果,并发现使用四个样本最为理想(见下图)。对于不同的大语言模型Agent应用,理想的少量样本示例数量也会有所不同。

项目地址

https://arxiv.org/abs/2404.12560

通往 AGI 的神秘代码

if like_this_article():
    do_action('点赞')
    do_action('再看')
    add_wx_friend('iamxxn886')

if like_all_arxiv_articles():
    go_to_link('https://github.com/HuggingAGI/HuggingArxiv')    star_github_repo(''https://github.com/HuggingAGI/HuggingArxiv')
                 






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5