文章主题:结构化数据, 智能问答, 信息检索, NLP
背景
AntSQL数据集结构化数据的智能问答与信息检索技术作为自然语言处理(NLP)领域的关键研究领域之一,近年来在学术界和工业界都受到了广泛的关注。这一技术能够有效地处理大量的数据,并且具有高度规范化和易于维护的特点。在这个任务中,机器需要正确地识别、解析和响应用户的问题。解析过程主要是对用户的自然语言提问(Natural Language Query)进行槽位识别、词法分析、句法分析和语义理解。其中,将自然语言处理(NL)转化为查询语言是一种常见的方法,这进而催生了诸如NL2SQL、NL2SparQL、NL2Gremlin等NL2API的语义解析任务。
在构建了能够生成查询语句的自然语言处理系统之后,我们成功建立了一座连接底层数据库的桥梁,这极大地方便了检索过程,提高了效率,同时也增强了结构化数据的应用价值。查询语句展现出良好的范式和语法特性,使得黑盒模型的可解释性得到了提升,运营成本得以降低,同时也有助于优化用户体验。考虑到查询语言的通用性和技术社区的发展成熟度,我们将重心放在了NL2SQL任务上。诸如基于单表复杂查询的WikiSQL数据集和基于多表复杂查询的Spider数据集等,都已经在业界产生了深远影响,吸引了大量高校和研究机构的关注。然而,现有的公开数据集主要是英文数据集,覆盖领域广泛,并不能直接适用于特定垂直领域。因此,蚂蚁集团财富技术部的支小宝项目组依托其在金融领域积累的大量数据,打造出了一个大规模的中文数据集AntSQL,从而更好地服务于金融行业。
任务定义
支小宝的中文NL2SQL数据集以金融行业的表格为基础,包含了有关基金产品及其特性的信息。该数据集提供了基于此的标注的Query-SQL,期望研究人员能够利用这些数据训练深度学习模型,实现从自然语言到可查询SQL语句的准确转换。
数据集描述
数据集特点
我们的数据集与其他NL2SQL数据集的不同之处在于,它并非简单地来源于某个特定领域的对话数据,而是对线上真实用户的咨询进行了归纳总结。这个数据集源自于支小宝金融领域的多轮对话数据,因此,它具有非常强的金融属性和对话属性。在这个数据集中,我们可以看到诸如基金经理、基金、行业、重仓等多对多的关系,这意味着在这些关系中,每个对象都可以与多个其他对象相关联。此外,每只基金也具有许多不同的维度,这使得我们可以在多个角度上对其进行描述和理解。然而,值得注意的是,有些基金的属性值可能存在重复,这使得我们无法仅通过一个或多个属性来唯一确定某一基金。这些特性使得用户在进行基金筛选时,可以通过多种不同的维度和属性来实现他们的需求,这也是我们数据集的一个关键特点。
数据集格式
在编写SQL查询时,需要注意条件片段的存在。这些条件片段会在查询结果中以隐含槽位的形式呈现,例如:“诊断下张坤管理的基金”。实际上,这个查询条件片段所询问的是“基金诊断”,但在此之前,我们需要了解“基金名称”这个槽位的信息。为了获取这个信息,我们必须对“张坤管理的基金”这个片段进行解析。关于基金表列的详细说明,请参见以下示例:
列名0列名1列名2列名3…列名n004646股票型中风险-0.23…消费004657混合型高风险1.52…科技………………004669指数型中高风险0.73…制造评测指标
在本项目中,有两个关键的评估标准需要考虑。首先,我们主要关注Logic Acc这一核心指标,以其作为主要的排序依据。然而,在某些情况下,当主指标出现相同的情况时,我们将另外一项辅助评价标准Exec Acc纳入考虑,以便更全面地衡量各个项目的表现。
Exact Set Match without Values(Logic Acc)——预测完全正确的SQL语句。其中,列的顺序并不影响准确率的计算。 Execution with Values(Exec Acc)——预测的SQL的执行结果与真实SQL的执行结果一致。AntSQL挑战榜
在WAIC2022大会上,AntSQL数据集成功举办了评测比赛,并吸引了超过4000支参赛队伍[1]。为了便于算法研究人员进行模型验证和评估,我们已经在一项长期计划中,在阿里云天池数据集中开放了leaderboard。我们期待AntSQL将继续扩大规模并不断提升性能,以满足广大研究人员的使用需求。
榜单地址:https://tianchi.aliyun.com/dataset/139273
引用参考
[1] https://tianchi.aliyun.com/competition/entrance/532009/introduction
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!