数据增强方法及其装置与流程
- 国知局
- 2024-10-09 15:19:41
本公开涉及数据处理,尤其涉及大数据、自然语言处理等。
背景技术:
1、相关技术中,文本数据基本都是使用数据库进行结构化存储,将非结构化话的自然语言转为结构化查询语言sql,能够有效的进行数据查询和数据组织,大幅降低成本提升效率,此技术作为一项自然语言处理任务(自然语言到结构化查询语言nl2sql任务)存在。
2、在一些场景下,文本数据可能为机密数据,难以获取数据库对应的训练数据,进而提高生成结构化查询语句的难度,因此,如何提高数据增强的效率和准确率,提升对应的数据质量,得到有效的结构化查询语句,已经成为重要的研究方向之一。
技术实现思路
1、本公开提供了一种数据增强方法及其装置。
2、根据本公开的一方面,提供了一种数据增强方法,包括:
3、获取目标业务领域的第一文本数据,基于第一文本数据生成第一查询语句和第一结构化查询语句;
4、对包含第一文本数据、第一查询语句和第一结构化查询语句的初始数据集进行多次数据增强,得到候选数据集,数据集中的文本数据、查询语句和结构化查询语句为三元组数据格式;
5、判断候选数据集中是否具有未满足预设约束条件的待处理数据,响应于候选数据集中具有待处理数据,基于约束条件对待处理数据进行数据修改,得到目标数据集。
6、本公开实施例中,对包含第一文本数据、第一查询语句和第一结构化查询语句的初始数据集进行多次数据增强,可以提高数据增强的效率和准确率,判断候选数据集中是否具有未满足预设约束条件的待处理数据,响应于候选数据集中具有待处理数据,基于约束条件对待处理数据进行数据修改,可以提升对应的数据质量,得到准确的的文本数据、查询语句及结构化查询语句。
7、根据本公开的另一方面,提供了一种数据增强装置,包括:
8、数据获取模块,用于获取目标业务领域的第一文本数据,基于第一文本数据生成第一查询语句和第一结构化查询语句;
9、数据增强模块,用于对包含第一文本数据、第一查询语句和第一结构化查询语句的初始数据集进行多次数据增强,得到候选数据集,数据集中的文本数据、查询语句和结构化查询语句为三元组数据格式;
10、数据修改模块,用于判断候选数据集中是否具有未满足预设约束条件的待处理数据,响应于候选数据集中具有待处理数据,基于约束条件对待处理数据进行数据修改,得到目标数据集。
11、根据本公开的另一方面,提供了一种电子设备,包括至少一个处理器,以及
12、与至少一个处理器通信连接的存储器;其中,
13、存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开第一个方面实施例的数据增强方法。
14、根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行根据本公开第一个方面实施例的数据增强方法。
15、根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现本公开第一个方面实施例的数据增强方法的步骤。
16、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
技术特征:1.一种数据增强方法,其中,包括:
2.根据权利要求1所述的方法,其中,所述对包含所述第一文本数据、所述第一查询语句和所述第一结构化查询语句的初始数据集进行多次数据增强,包括:
3.根据权利要求1所述的方法,其中,所述约束条件包括数据库表的结构关系、语法语义条件,所述判断所述候选数据集中是否具有未满足预设约束条件的待处理数据,包括:
4.根据权利要求1-3任一项所述的方法,其中,所述获取目标业务领域的第一文本数据,包括:
5.根据权利要求1-3任一项所述的方法,其中,所述得到候选数据集之后,还包括:
6.根据权利要求1-3任一项所述的方法,其中,所述得到目标数据集之后,还包括:
7.根据权利要求1-3任一项所述的方法,其中,所述获取目标业务领域的第一文本数据之后,还包括:
8.一种数据增强装置,其中,包括:
9.根据权利要求8所述的装置,其中,所述数据增强模块,还用于:
10.根据权利要求8所述的装置,其中,所述约束条件包括数据库表的结构关系、语法语义条件,所述数据修改模块,还用于:
11.根据权利要求8-10任一项所述的装置,其中,所述数据获取模块,还用于:
12.根据权利要求8-10任一项所述的装置,其中,所述数据增强模块,还用于:
13.根据权利要求8-10任一项所述的装置,其中,所述数据修改模块,还用于:
14.根据权利要求8-10任一项所述的装置,其中,所述数据获取模块,还用于:
15.一种电子设备,包括:
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-7任一项所述的方法。
17.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述方法的步骤。
技术总结本公开提供了数据增强方法及其装置,涉及数据处理技术领域,尤其涉及大数据、自然语言处理等技术领域。该方法包括:获取目标业务领域的第一文本数据,基于第一文本数据生成第一查询语句和第一结构化查询语句;对包含第一文本数据、第一查询语句和第一结构化查询语句的初始数据集进行多次数据增强,得到候选数据集,数据集中的文本数据、查询语句和结构化查询语句为三元组数据格式;判断候选数据集中是否具有未满足预设约束条件的待处理数据,响应于候选数据集中具有待处理数据,基于约束条件对待处理数据进行数据修改,得到目标数据集。本公开可以提高数据增强的效率和准确率,提升对应的数据质量,得到有效的结构化查询语句。技术研发人员:尹何举,韩磊,刘凯受保护的技术使用者:北京百度网讯科技有限公司技术研发日:技术公布日:2024/9/29本文地址:https://www.jishuxx.com/zhuanli/20241009/308348.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。